F1 Score: o que é, como funciona e quando usar essa métrica em IA

O F1 Score é uma métrica que combina precisão e recall em um único valor, oferecendo uma avaliação equilibrada da performance do modelo. É baseado na média harmônica, o que significa que penaliza mais fortemente situações em que uma das métricas é baixa. Isso torna o F1 útil especialmente quando o modelo lida com datasets desbalanceados ou quando tanto falsos positivos quanto falsos negativos têm impacto relevante.

A escala do F1 Score varia entre 0 e 1. Quanto mais próximo de 1, melhor o equilíbrio entre identificar corretamente casos positivos e evitar classificações indevidas. É uma alternativa mais robusta que a acurácia simples em muitos cenários reais, especialmente aqueles onde classes são desproporcionais ou erros têm custos diferentes.

Como calcular e interpretar o F1 Score

A fórmula do F1 Score calcula a média harmônica entre precisão e recall. Essa abordagem garante que o valor final só será alto quando as duas métricas estiverem equilibradas.

Fórmula essencial

O F1 Score é calculado multiplicando duas vezes o produto entre precisão e recall e dividindo pela soma dessas duas métricas. Essa forma de cálculo impede que um valor alto de precisão compense um recall muito baixo, ou vice-versa.

Intervalo de interpretação

Valores acima de 0.8 indicam desempenho excelente. Entre 0.6 e 0.8, o modelo é considerado bom. Valores inferiores a 0.6 sinalizam que o modelo precisa de ajustes, seja nos dados, nas features ou na própria arquitetura.

Quando usar o F1 Score

O F1 é especialmente útil quando o conjunto de dados é desbalanceado ou quando os dois tipos de erro importam. Diferentemente da acurácia, que pode parecer alta mesmo em modelos ruins para classes raras, o F1 captura de forma mais fiel a eficiência do modelo em lidar com eventos relevantes.

Situações onde o F1 Score se destaca

Em classificações onde a classe positiva é rara. Em cenários onde falsos negativos geram riscos, mas falsos positivos também têm custo. Em comparações diretas entre modelos que lidam com o mesmo problema. Em pipelines de MLOps onde métricas precisam refletir a performance real do modelo no mundo prático.

F1 Score versus Acurácia

A acurácia mede o percentual de acertos gerais, mas pode mascarar problemas quando a distribuição entre classes é desigual. Já o F1 Score considera diretamente o equilíbrio entre precisão e recall, oferecendo visão mais confiável da capacidade real do modelo.

Em avaliações comparativas, o F1 costuma ser a métrica mais adequada para entender se um modelo generaliza bem. A acurácia pode continuar sendo útil em dados bem balanceados, mas no dia a dia, especialmente em aplicações de risco, o F1 é a escolha mais segura.