Token
Token é a unidade mínima de texto que um modelo de linguagem consegue processar. Em vez de trabalhar com palavras completas, os modelos dividem o texto em pedaços menores, que podem ser palavras inteiras, subpalavras ou até caracteres isolados. Essa divisão é feita pelo tokenizador, que prepara o texto para que o modelo compreenda e gere linguagem de forma estruturada.
Um termo simples como “extraordinário” pode virar um único token ou ser quebrado em partes menores, dependendo do tokenizador. Pontuações, espaços e símbolos também entram na conta.
Como tokens funcionam na prática
Modelos não leem frases como seres humanos. Eles leem sequências de tokens. Essa estrutura permite compreender padrões, prever o próximo token e gerar respostas coerentes. Quanto mais longo o texto, maior a quantidade de tokens processados.
Exemplos simples
“incrível” pode ser 1 token ou dividido em subpartes
"IA generativa" vira cerca de 3 a 5 tokens dependendo do idioma
Pontuação como “?” e “,” quase sempre vira token próprio
Por que tokens importam nos modelos de IA
Limites de contexto
Cada modelo tem um número máximo de tokens que consegue processar em uma única interação.
Modelos compactos trabalham com janelas menores
Modelos mais avançados suportam dezenas ou centenas de milhares de tokens
Quando o texto ultrapassa o limite, o modelo simplesmente não consegue processar.
Custos de API
APIs cobram por token processado.
O cálculo considera:
Tokens de entrada (seu prompt)
Tokens de saída (resposta do modelo)
Quanto mais longo o prompt, maior o custo.
Estimativas úteis
Inglês: cerca de 1.3 tokens por palavra
Português: entre 1.5 e 2 tokens por palavra
Código: depende muito da linguagem e formatação
Como contar tokens corretamente
Para saber exatamente quantos tokens uma mensagem possui, o ideal é usar as bibliotecas oficiais.
Ferramentas mais usadas
OpenAI: tiktoken
Anthropic: anthropic tokenizer
Estimativa geral: número de palavras × 1.5 (para PT-BR funciona bem)
Essa contagem ajuda a prever custo, limites e performance.
Como otimizar uso de tokens
Manter prompts enxutos é uma das formas mais simples de reduzir custos e evitar atingir o limite de contexto.
Boas práticas
Torne prompts mais diretos e objetivos
Remova partes redundantes
Evite repetições desnecessárias
Prefira exemplos curtos quando possível
Use estruturas que guiem o modelo sem excesso de texto
A economia de tokens não apenas reduz custo, mas também melhora velocidade e evita truncamentos.
Por que tokenização influencia a performance
A forma como o texto é quebrado em tokens determina como o modelo interpreta significados, lida com palavras raras, processa múltiplos idiomas e responde com fluidez. Cada modelo usa seu próprio tokenizador, desenvolvido para extrair o máximo de eficiência daquela arquitetura.