O Que São Tokens em IA (2026): Guia Completo para LLMs como GPT e Claude
Token é a unidade básica de tudo em IA generativa: custo, limite, contexto e velocidade. Entender tokens bem significa gastar menos, caber mais conteúdo no prompt e evitar armadilhas de context window. Este guia explica como funciona, como contar e como reduzir consumo sem perder qualidade.
Por Vitor Morais
Fundador do MochaLabz ·
Conte tokens em qualquer texto
Veja contagem em GPT, Claude e Gemini antes de enviar — estime custo na hora.
Usar contador →Token é a moeda e o limite de tudo em IA generativa. Tudo que você envia pro modelo — prompt, histórico de conversa, documento anexo — vira tokens. Tudo que o modelo responde conta como tokens. O preço de qualquer API é cobrado por token. O limite de quanto cabe em uma request é medido em tokens. Entender essa unidade é a base para usar IA de forma consciente, tanto em custo quanto em qualidade.
Este guia cobre o que tokens são, como o modelo chega neles (tokenização), quanto cada um custa nos principais providers, como contar antes de enviar e as estratégias que reduzem consumo em 50–80% sem perder qualidade de saída.
O que é um token, na prática
Token é a menor unidade de texto que o modelo processa. Pode ser uma palavra inteira, parte de uma palavra, um caractere, pontuação ou espaço. O modelo não vê letras ou palavras como humanos — vê sequências de tokens numéricos.
Texto: "Olá, mundo!"
Tokens (GPT-4 tokenizer): ["Olá", ",", " mundo", "!"]
IDs: [75391, 11, 15392, 0]
Texto: "Programar em Python é legal."
Tokens (GPT-4): ["Program", "ar", " em", " Python", " é", " legal", "."]
7 tokens para 5 palavras.Por que dividir em tokens em vez de palavras ou letras
Três razões técnicas:
- Vocabulário finito: o modelo opera com vocabulário de ~50–100 mil tokens. Palavras seria vocabulário infinito (novas palavras aparecem todo dia). Letras seria ineficiente (frases de 200+ letras).
- Compressão: palavras comuns como “the”, “de”, “um” viram 1 token. Palavras raras são quebradas em subpalavras.
- Generalização: se o modelo nunca viu “tokenização”, ele quebra em “tok” + “enização” e reconhece os pedaços.
Como o tokenizador é construído: BPE
O algoritmo mais comum é Byte Pair Encoding (BPE). Processo simplificado:
- Começa com vocabulário de caracteres individuais.
- Percorre o corpus de treino contando pares adjacentes de tokens.
- O par mais frequente é juntado em um novo token.
- Repete até o vocabulário atingir o tamanho desejado (ex.: 100k tokens).
O resultado: palavras comuns no corpus (inglês em volume absurdo, português muito menos) ganham tokens dedicados; palavras raras são montadas a partir de subpalavras. Isso é a razão de textos em inglês geralmente gastarem menos tokens que textos em português para a mesma quantidade de palavras.
Contexto
Diferenças entre tokenizadores de cada modelo
| Critério | Vocabulário | Biblioteca de referência |
|---|---|---|
| GPT-4 / GPT-5 (cl100k_base) | ~100k tokens | tiktoken |
| Claude 3/4 | ~65k tokens | Anthropic API (/count_tokens) |
| Gemini | ~256k tokens | Google SDK countTokens() |
| Llama 3 / 4 | ~128k tokens | tokenizers da Hugging Face |
| Mistral | ~32–131k tokens | sentencepiece / tokenizers |
Atenção
Custo por token dos principais modelos (2026)
| Critério | Input | Output |
|---|---|---|
| GPT-5 | US$ 2,50 | US$ 10,00 |
| GPT-5 mini | US$ 0,25 | US$ 1,00 |
| Claude Opus 4.7 | US$ 15,00 | US$ 75,00 |
| Claude Sonnet 4.6 | US$ 3,00 | US$ 15,00 |
| Claude Haiku 4.5 | US$ 0,25 | US$ 1,25 |
| Gemini 2.5 Pro | US$ 1,25 | US$ 5,00 |
| Gemini 2.5 Flash | US$ 0,07 | US$ 0,30 |
| Llama 4 (self-hosted) | ~US$ 0 token (custo GPU) | idem |
Os valores mudam rápido. Sempre confira a página de pricing oficial antes de estimar custos em aplicação de produção.
Context window: o limite por request
Cada modelo tem um teto de tokens por request — somando input e output.
| Critério | Janela | Equivalente aproximado |
|---|---|---|
| GPT-5 | 200k tokens | ~150 mil palavras |
| Claude Opus 4.7 (1M context) | 1M tokens | ~750 mil palavras |
| Claude Sonnet 4.6 | 200k tokens | ~150 mil palavras |
| Gemini 2.5 Pro | 2M tokens | ~1,5 milhão palavras |
| Llama 4 | 128k–10M tokens | Varia por variante |
Contexto
Como contar tokens antes de enviar
Python com tiktoken (GPT)
import tiktoken
encoding = tiktoken.encoding_for_model("gpt-4")
texto = "Olá, como você está hoje?"
tokens = encoding.encode(texto)
print(len(tokens)) # 9
print(tokens) # [75391, 11, 2129, 2903, 12092, 3543, 3078, 30]
# Custo estimado
custo_input = (len(tokens) / 1_000_000) * 2.50
print(f"US$ {custo_input:.6f}")JavaScript com js-tiktoken
import { encoding_for_model } from "js-tiktoken";
const encoding = encoding_for_model("gpt-4");
const tokens = encoding.encode("Olá, como você está hoje?");
console.log(tokens.length); // 9
console.log(tokens);Claude via API
curl https://api.anthropic.com/v1/messages/count_tokens \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-d '{
"model": "claude-sonnet-4-6",
"messages": [
{"role": "user", "content": "Olá, como você está?"}
]
}'
# {"input_tokens": 10}Calculando custo de uma aplicação real
Imagine um chatbot de atendimento. Por conversa média:
- System prompt: ~300 tokens.
- Histórico de 10 turns: ~1500 tokens.
- Resposta do modelo: ~200 tokens.
- Total por interação: ~2000 tokens.
Com 10.000 interações/dia em Claude Sonnet:
Input: 1800 tokens × 10.000 = 18M tokens/dia
Output: 200 tokens × 10.000 = 2M tokens/dia
Custo diário:
Input: 18 × 3,00 = US$ 54,00
Output: 2 × 15,00 = US$ 30,00
Total: US$ 84,00/dia = US$ 2.520/mêsEstratégias para reduzir consumo sem perder qualidade
1. Prompt caching
Disponível em Claude e OpenAI. Partes repetidas do prompt (instruções, exemplos, docs) são guardadas em cache e cobradas 10x mais barato em chamadas seguintes. Ideal para aplicações com system prompt longo e fixo.
2. Modelo certo para cada tarefa
Não use Opus/Pro para tudo. Separe complexidade em camadas:
- Haiku/Flash: extração simples, classificação, formatação.
- Sonnet/Pro: raciocínio intermediário, geração de conteúdo.
- Opus/thinking: análise profunda, compliance, casos críticos.
3. Limpeza de histórico
Em chatbots, raramente a mensagem 50 do histórico ajuda. Mantenha últimos 5–10 turns ou use resumos rotativos.
4. Output estruturado compacto
JSON com nomes curtos gasta menos tokens que prose explicada. {"r":"ok"} é mais barato que “A operação foi concluída com sucesso”.
5. RAG em vez de contexto inflado
Em vez de enviar 100 páginas de documentação a cada request, indexe em vector DB e busque só os trechos relevantes. Dropa 90% do input e mantém a qualidade de resposta.
Dica
Erros clássicos em consumo de tokens
- Não truncar histórico: conversa longa cresce exponencialmente em custo.
- Enviar documento completo quando um trecho basta: uso para resumo/análise deveria usar RAG.
- Pedir output longo desnecessário: “em detalhes”, “explique passo a passo” aumenta output (mais caro).
- Usar modelo grande para tarefa trivial: classificar sentimento de 2 palavras em Opus é desperdício de ordem de grandeza.
- Retry agressivo sem lógica: erro da API que vira 10 retries paga 10 vezes.
- Logar todo o prompt e resposta sem amostragem: ocupa espaço e, dependendo do setup, paga por armazenamento.
Token limits vs latência
Mais tokens = mais tempo de geração. Em modelos rápidos (Haiku 4.5, Flash 2.5), cada token de output leva ~5–15ms. Em modelos grandes (Opus, thinking), 20–50ms. Gerar 1000 tokens em Opus pode levar 30–50 segundos — inviável em UX de chat em tempo real.
Para interações em tempo real, use streaming: o modelo devolve tokens conforme gera, reduzindo tempo até primeira resposta visível (TTFT) de segundos para ms.
Tokens em imagens, áudio e vídeo
Modelos multimodais (GPT-5, Claude Sonnet 4.6, Gemini 2.5 Pro) aceitam imagens, áudio e vídeo — tudo convertido em tokens para processamento.
- Imagem: uma foto de resolução média consome 250–2000 tokens no GPT-5 (depende do “detail” escolhido).
- Áudio: em Whisper / Gemini, transcrição vira tokens baseados na duração (~150 tokens por minuto).
- Vídeo: Gemini processa vídeo amostrando frames, cada um vira tokens equivalentes a imagem.
Cache em prompts: o grande economizador
Anthropic introduziu prompt caching em 2024. OpenAI seguiu em 2025. Funciona assim:
- Você marca parte do prompt como cacheable (ex.: system prompt + docs fixos).
- Na primeira chamada, você paga o preço normal do input + ~25% extra para cachear.
- Em chamadas seguintes (dentro de 5 minutos), a parte cacheada custa 10% do preço normal.
Em aplicação com system prompt de 5000 tokens e 100 requests/hora, o savings chega a 80% no custo de input.
Tokens em uma frase
Tokens são a moeda, o limite e o gargalo da IA generativa. Entender como são gerados, quanto custam e como reduzir consumo é a diferença entre uma aplicação financeiramente viável e uma que queima dinheiro. A regra de ouro: meça antes de otimizar, otimize o que paga, e use o modelo adequado para cada tarefa — não o maior possível.
Perguntas frequentes
Tokens são a mesma coisa que palavras?+
Não exatamente. Em média, em inglês, 1 token equivale a ~0,75 palavra — ou seja, 1.000 tokens ≈ 750 palavras. Em português, varia mais: palavras longas com acentos podem ser divididas em 2–3 tokens. Uma palavra curta como “sim” é 1 token; “desafortunadamente” pode virar 4 ou 5. Pontuação, espaços e quebras de linha também contam como tokens.
Como um modelo de IA decide o que é um token?+
Através de um algoritmo chamado Byte Pair Encoding (BPE) ou variações. O tokenizador é treinado junto com o modelo: pega o corpus de texto, conta frequências de caracteres e junta pares repetidos até formar um vocabulário de ~50 a 100 mil tokens. Palavras comuns viram 1 token; palavras raras viram vários tokens pequenos. Por isso o mesmo texto pode ter contagens diferentes em GPT, Claude e Gemini.
Como sei quantos tokens minha mensagem tem antes de enviar?+
Use um contador oficial do provider ou biblioteca. Para GPT: tiktoken (Python) ou js-tiktoken (JavaScript). Para Claude: a Anthropic tem endpoint /v1/messages/count_tokens. Para Gemini: método countTokens do SDK. Ferramentas online (como o contador de tokens do MochaLabz) aceitam texto colado e retornam contagem em cada modelo popular.
O que é context window e como se relaciona com tokens?+
Context window é o total de tokens que o modelo consegue processar em uma única request — somando prompt (input) e resposta (output). GPT-5 e Claude Sonnet 4.6 têm janela de 200k tokens; Claude Opus 4.7 chega a 1M tokens (~750.000 palavras). Gemini 2.5 Pro também atinge 2M. Se sua conversa ultrapassa o limite, as mensagens mais antigas são descartadas ou você precisa enviar só parte do contexto.
Por que tokens importam para o custo?+
Todos os providers cobram por 1.000 ou 1M tokens processados. GPT-5 em 2026 cobra aproximadamente US$ 2,50 por 1M tokens de input e US$ 10 por 1M de output. Claude Sonnet é similar; Haiku e Flash são 10x mais baratos. Em aplicações em produção com milhões de tokens por dia, a diferença entre prompt bem otimizado e verboso vira milhares de dólares por mês.
Como reduzir consumo de tokens sem perder qualidade?+
Cinco alavancas. (1) Limpar histórico: manter só turns recentes em chatbots. (2) Comprimir prompts: remover exemplos redundantes, instruções óbvias. (3) Usar modelo menor para tarefas simples (Haiku, Flash) e maior só quando necessário. (4) Cache de prompt (feature disponível em Claude e GPT) para partes repetidas. (5) Structured output com JSON: retorno mais compacto que prose.
Token input e output custam o mesmo?+
Não. Output costuma custar 2 a 5x mais que input. Em GPT-5 no final de 2025, input era US$ 2,50/M e output US$ 10/M — proporção 1:4. Isso porque gerar tokens é mais caro computacionalmente que ler tokens existentes. Na prática: um resumo de documento longo (muito input, pouco output) é relativamente barato; gerar artigo de 3.000 palavras (pouco input, muito output) é mais caro.
Modelos open source também usam tokens?+
Sim, mas a contagem de tokens pode ser diferente. Llama 4 usa o próprio tokenizador (derivado de sentencepiece); Mistral Large usa o seu. Em self-hosting, você não paga por token (paga por GPU/hora), mas a velocidade e context window ainda dependem do número de tokens. Um modelo com 128k tokens de context processa textos de ~100k palavras, independentemente de onde roda.
Artigos relacionados
Prompt Engineering (2026): Guia Completo com Técnicas, Templates e Exemplos
Guia definitivo de prompt engineering: role, contexto, exemplos, chain-of-thought, output estruturado, avaliação e templates prontos para ChatGPT, Claude e Gemini.
Como Economizar Tokens no ChatGPT, Claude e Gemini (Guia 2026)
Reduza o custo das APIs de IA em 40–80% sem perder qualidade. 12 técnicas práticas: compressão, prompt caching, modelos em cascata, RAG, batching, sumarização — com estimativas reais.
Janela de Contexto em IA: Guia Completo (2026) com Limites por Modelo
A janela de contexto define quanto texto um LLM consegue processar de uma vez. Conheça os limites de GPT-5, Claude, Gemini e Llama em 2026, lost-in-the-middle, RAG, chunking e prompt caching.
Sumarização com IA (2026): Extração vs Abstração, Map-Reduce e Prompts
Como a IA resume textos: extração vs abstração, map-reduce para documentos longos, escolha entre GPT, Claude e modelos open source, prompts por caso de uso (reuniões, papers, e-mail) e avaliação ROUGE/BERTScore.