Logotipo da Next Action, uma agência de IA

Acurácia é uma das métricas mais conhecidas para avaliar modelos de classificação. Ela representa a proporção de previsões corretas em relação ao total de previsões realizadas. O cálculo é simples: número de acertos dividido pelo total de amostras avaliadas. Esse valor costuma ser apresentado em percentual e, por ser intuitivo, é frequentemente usado como indicador de qualidade de modelos de IA.

Apesar disso, a acurácia pode gerar interpretações equivocadas quando aplicada de forma isolada, principalmente em problemas com forte desbalanceamento de classes. Um modelo que ignora a classe minoritária pode alcançar acurácia alta, mas continuar sendo pouco útil para o cenário real.

Como medir acurácia corretamente

A acurácia deve sempre ser medida em dados que o modelo nunca viu, para representar a capacidade de generalização.

Cálculo básico

O cálculo padrão é: previsões corretas divididas pelo total de previsões, multiplicado por 100 para obter o percentual. É recomendado usar exclusivamente o conjunto de teste, garantindo que o modelo não esteja sendo avaliado sobre dados que influenciaram seu treinamento.

Como interpretar valores

Valores de acurácia podem dar um panorama inicial do desempenho. Acima de noventa por cento costuma indicar excelente performance, oitenta a noventa por cento é considerado bom, setenta a oitenta por cento aceitável, e abaixo disso normalmente exige revisão de dados, features ou arquitetura.

Erros comuns ao interpretar acurácia

A acurácia desconsidera o custo de cada tipo de erro. Acertar quase tudo pode parecer satisfatório, mas em situações críticas, como detecção de fraude ou diagnóstico médico, um único erro pode ser muito mais caro do que oitenta acertos.

Quando a acurácia não é suficiente

Em bases desbalanceadas, a acurácia perde grande parte de sua utilidade. Quando quase todas as amostras pertencem a uma única classe, um modelo pode “acertar” simplesmente prevendo sempre essa classe majoritária. Nesses casos, apesar de pontuações altas, o sistema falha onde realmente importa.

Exemplo clássico de problema

Imagine um dataset de transações financeiras com apenas um por cento de fraudes. Um modelo que prevê sempre “transação legítima” alcança noventa e nove por cento de acurácia, mas não identifica nenhum caso relevante. A métrica informa sucesso, enquanto a aplicação real sofre com falhas importantes.

Métricas que complementam acurácia

Para avaliar modelos de forma mais fiel ao problema de negócio, é necessário observar métricas complementares. Precision é útil quando falsos positivos têm impacto alto. Recall é essencial quando a prioridade é capturar todos os casos positivos. F1-score equilibra as duas perspectivas. AUC-ROC oferece uma visão global do desempenho do classificador em diferentes limiares de decisão.

Escolha orientada ao impacto de negócio

A métrica ideal depende da natureza do erro e do custo associado. Em algumas aplicações, errar um positivo é mais grave que errar um negativo; em outras, o oposto. O alinhamento entre métricas e impacto real evita decisões equivocadas durante o desenvolvimento.

Precisa implementar na sua empresa?