F1 Score
O F1 Score é uma métrica que combina precisão e recall em um único valor, oferecendo uma avaliação equilibrada da performance do modelo. É baseado na média harmônica, o que significa que penaliza mais fortemente situações em que uma das métricas é baixa. Isso torna o F1 útil especialmente quando o modelo lida com datasets desbalanceados ou quando tanto falsos positivos quanto falsos negativos têm impacto relevante.
A escala do F1 Score varia entre 0 e 1. Quanto mais próximo de 1, melhor o equilíbrio entre identificar corretamente casos positivos e evitar classificações indevidas. É uma alternativa mais robusta que a acurácia simples em muitos cenários reais, especialmente aqueles onde classes são desproporcionais ou erros têm custos diferentes.
Como calcular e interpretar o F1 Score
A fórmula do F1 Score calcula a média harmônica entre precisão e recall. Essa abordagem garante que o valor final só será alto quando as duas métricas estiverem equilibradas.
Fórmula essencial
O F1 Score é calculado multiplicando duas vezes o produto entre precisão e recall e dividindo pela soma dessas duas métricas. Essa forma de cálculo impede que um valor alto de precisão compense um recall muito baixo, ou vice-versa.
Intervalo de interpretação
Valores acima de 0.8 indicam desempenho excelente. Entre 0.6 e 0.8, o modelo é considerado bom. Valores inferiores a 0.6 sinalizam que o modelo precisa de ajustes, seja nos dados, nas features ou na própria arquitetura.
Quando usar o F1 Score
O F1 é especialmente útil quando o conjunto de dados é desbalanceado ou quando os dois tipos de erro importam. Diferentemente da acurácia, que pode parecer alta mesmo em modelos ruins para classes raras, o F1 captura de forma mais fiel a eficiência do modelo em lidar com eventos relevantes.
Situações onde o F1 Score se destaca
Em classificações onde a classe positiva é rara. Em cenários onde falsos negativos geram riscos, mas falsos positivos também têm custo. Em comparações diretas entre modelos que lidam com o mesmo problema. Em pipelines de MLOps onde métricas precisam refletir a performance real do modelo no mundo prático.
F1 Score versus Acurácia
A acurácia mede o percentual de acertos gerais, mas pode mascarar problemas quando a distribuição entre classes é desigual. Já o F1 Score considera diretamente o equilíbrio entre precisão e recall, oferecendo visão mais confiável da capacidade real do modelo.
Em avaliações comparativas, o F1 costuma ser a métrica mais adequada para entender se um modelo generaliza bem. A acurácia pode continuar sendo útil em dados bem balanceados, mas no dia a dia, especialmente em aplicações de risco, o F1 é a escolha mais segura.