Artigo AI·Inteligência Artificial·13 min de leitura de leitura

O Que São Tokens em IA (2026): Guia Completo para LLMs como GPT e Claude

Token é a unidade básica de tudo em IA generativa: custo, limite, contexto e velocidade. Entender tokens bem significa gastar menos, caber mais conteúdo no prompt e evitar armadilhas de context window. Este guia explica como funciona, como contar e como reduzir consumo sem perder qualidade.

Vitor Morais

Por Vitor Morais

Fundador do MochaLabz ·

🔢

Conte tokens em qualquer texto

Veja contagem em GPT, Claude e Gemini antes de enviar — estime custo na hora.

Usar contador →

Token é a moeda e o limite de tudo em IA generativa. Tudo que você envia pro modelo — prompt, histórico de conversa, documento anexo — vira tokens. Tudo que o modelo responde conta como tokens. O preço de qualquer API é cobrado por token. O limite de quanto cabe em uma request é medido em tokens. Entender essa unidade é a base para usar IA de forma consciente, tanto em custo quanto em qualidade.

Este guia cobre o que tokens são, como o modelo chega neles (tokenização), quanto cada um custa nos principais providers, como contar antes de enviar e as estratégias que reduzem consumo em 50–80% sem perder qualidade de saída.

O que é um token, na prática

Token é a menor unidade de texto que o modelo processa. Pode ser uma palavra inteira, parte de uma palavra, um caractere, pontuação ou espaço. O modelo não vê letras ou palavras como humanos — vê sequências de tokens numéricos.

Texto: "Olá, mundo!" Tokens (GPT-4 tokenizer): ["Olá", ",", " mundo", "!"] IDs: [75391, 11, 15392, 0] Texto: "Programar em Python é legal." Tokens (GPT-4): ["Program", "ar", " em", " Python", " é", " legal", "."] 7 tokens para 5 palavras.

Por que dividir em tokens em vez de palavras ou letras

Três razões técnicas:

  • Vocabulário finito: o modelo opera com vocabulário de ~50–100 mil tokens. Palavras seria vocabulário infinito (novas palavras aparecem todo dia). Letras seria ineficiente (frases de 200+ letras).
  • Compressão: palavras comuns como “the”, “de”, “um” viram 1 token. Palavras raras são quebradas em subpalavras.
  • Generalização: se o modelo nunca viu “tokenização”, ele quebra em “tok” + “enização” e reconhece os pedaços.

Como o tokenizador é construído: BPE

O algoritmo mais comum é Byte Pair Encoding (BPE). Processo simplificado:

  1. Começa com vocabulário de caracteres individuais.
  2. Percorre o corpus de treino contando pares adjacentes de tokens.
  3. O par mais frequente é juntado em um novo token.
  4. Repete até o vocabulário atingir o tamanho desejado (ex.: 100k tokens).

O resultado: palavras comuns no corpus (inglês em volume absurdo, português muito menos) ganham tokens dedicados; palavras raras são montadas a partir de subpalavras. Isso é a razão de textos em inglês geralmente gastarem menos tokens que textos em português para a mesma quantidade de palavras.

Contexto

Em português, o texto consome cerca de 30–50% mais tokens que o mesmo conteúdo em inglês. Escrever prompts em inglês é uma forma legítima de economizar custo em aplicações de produção — especialmente para instruções do system prompt que o usuário final não vê.

Diferenças entre tokenizadores de cada modelo

Tokenizadores dos principais LLMs em 2026
CritérioVocabulárioBiblioteca de referência
GPT-4 / GPT-5 (cl100k_base)~100k tokenstiktoken
Claude 3/4~65k tokensAnthropic API (/count_tokens)
Gemini~256k tokensGoogle SDK countTokens()
Llama 3 / 4~128k tokenstokenizers da Hugging Face
Mistral~32–131k tokenssentencepiece / tokenizers

Atenção

Contagens de token não são intercambiáveis. Um mesmo texto pode ter 100 tokens em GPT-5 e 120 em Claude. Se sua aplicação usa múltiplos modelos, conte em cada um separadamente para estimar custo corretamente.

Custo por token dos principais modelos (2026)

Preço em USD por 1M tokens (aproximado, fim 2025 / início 2026)
CritérioInputOutput
GPT-5US$ 2,50US$ 10,00
GPT-5 miniUS$ 0,25US$ 1,00
Claude Opus 4.7US$ 15,00US$ 75,00
Claude Sonnet 4.6US$ 3,00US$ 15,00
Claude Haiku 4.5US$ 0,25US$ 1,25
Gemini 2.5 ProUS$ 1,25US$ 5,00
Gemini 2.5 FlashUS$ 0,07US$ 0,30
Llama 4 (self-hosted)~US$ 0 token (custo GPU)idem

Os valores mudam rápido. Sempre confira a página de pricing oficial antes de estimar custos em aplicação de produção.

Context window: o limite por request

Cada modelo tem um teto de tokens por request — somando input e output.

Context window dos principais modelos em 2026
CritérioJanelaEquivalente aproximado
GPT-5200k tokens~150 mil palavras
Claude Opus 4.7 (1M context)1M tokens~750 mil palavras
Claude Sonnet 4.6200k tokens~150 mil palavras
Gemini 2.5 Pro2M tokens~1,5 milhão palavras
Llama 4128k–10M tokensVaria por variante

Contexto

O aumento de context window liberou casos de uso novos: colocar um livro inteiro no prompt, analisar bases de código grandes sem RAG, processar vídeos longos com transcrição completa. Mas cuidado: modelos ainda sofrem com “lost in the middle” — informação no meio de contextos muito longos é menos usada do que a do início/fim.

Como contar tokens antes de enviar

Python com tiktoken (GPT)

import tiktoken encoding = tiktoken.encoding_for_model("gpt-4") texto = "Olá, como você está hoje?" tokens = encoding.encode(texto) print(len(tokens)) # 9 print(tokens) # [75391, 11, 2129, 2903, 12092, 3543, 3078, 30] # Custo estimado custo_input = (len(tokens) / 1_000_000) * 2.50 print(f"US$ {custo_input:.6f}")

JavaScript com js-tiktoken

import { encoding_for_model } from "js-tiktoken"; const encoding = encoding_for_model("gpt-4"); const tokens = encoding.encode("Olá, como você está hoje?"); console.log(tokens.length); // 9 console.log(tokens);

Claude via API

curl https://api.anthropic.com/v1/messages/count_tokens \ -H "x-api-key: $ANTHROPIC_API_KEY" \ -H "anthropic-version: 2023-06-01" \ -d '{ "model": "claude-sonnet-4-6", "messages": [ {"role": "user", "content": "Olá, como você está?"} ] }' # {"input_tokens": 10}

Calculando custo de uma aplicação real

Imagine um chatbot de atendimento. Por conversa média:

  • System prompt: ~300 tokens.
  • Histórico de 10 turns: ~1500 tokens.
  • Resposta do modelo: ~200 tokens.
  • Total por interação: ~2000 tokens.

Com 10.000 interações/dia em Claude Sonnet:

Input: 1800 tokens × 10.000 = 18M tokens/dia Output: 200 tokens × 10.000 = 2M tokens/dia Custo diário: Input: 18 × 3,00 = US$ 54,00 Output: 2 × 15,00 = US$ 30,00 Total: US$ 84,00/dia = US$ 2.520/mês

Estratégias para reduzir consumo sem perder qualidade

1. Prompt caching

Disponível em Claude e OpenAI. Partes repetidas do prompt (instruções, exemplos, docs) são guardadas em cache e cobradas 10x mais barato em chamadas seguintes. Ideal para aplicações com system prompt longo e fixo.

2. Modelo certo para cada tarefa

Não use Opus/Pro para tudo. Separe complexidade em camadas:

  • Haiku/Flash: extração simples, classificação, formatação.
  • Sonnet/Pro: raciocínio intermediário, geração de conteúdo.
  • Opus/thinking: análise profunda, compliance, casos críticos.

3. Limpeza de histórico

Em chatbots, raramente a mensagem 50 do histórico ajuda. Mantenha últimos 5–10 turns ou use resumos rotativos.

4. Output estruturado compacto

JSON com nomes curtos gasta menos tokens que prose explicada. {"r":"ok"} é mais barato que “A operação foi concluída com sucesso”.

5. RAG em vez de contexto inflado

Em vez de enviar 100 páginas de documentação a cada request, indexe em vector DB e busque só os trechos relevantes. Dropa 90% do input e mantém a qualidade de resposta.

Dica

Combinar as cinco estratégias pode reduzir custos em 60–80%. Comece medindo: quanto custa sua aplicação hoje por 1000 interações? Onde está o gasto? Ataque os 3 maiores antes de otimizar detalhe.

Erros clássicos em consumo de tokens

  • Não truncar histórico: conversa longa cresce exponencialmente em custo.
  • Enviar documento completo quando um trecho basta: uso para resumo/análise deveria usar RAG.
  • Pedir output longo desnecessário: “em detalhes”, “explique passo a passo” aumenta output (mais caro).
  • Usar modelo grande para tarefa trivial: classificar sentimento de 2 palavras em Opus é desperdício de ordem de grandeza.
  • Retry agressivo sem lógica: erro da API que vira 10 retries paga 10 vezes.
  • Logar todo o prompt e resposta sem amostragem: ocupa espaço e, dependendo do setup, paga por armazenamento.

Token limits vs latência

Mais tokens = mais tempo de geração. Em modelos rápidos (Haiku 4.5, Flash 2.5), cada token de output leva ~5–15ms. Em modelos grandes (Opus, thinking), 20–50ms. Gerar 1000 tokens em Opus pode levar 30–50 segundos — inviável em UX de chat em tempo real.

Para interações em tempo real, use streaming: o modelo devolve tokens conforme gera, reduzindo tempo até primeira resposta visível (TTFT) de segundos para ms.

Tokens em imagens, áudio e vídeo

Modelos multimodais (GPT-5, Claude Sonnet 4.6, Gemini 2.5 Pro) aceitam imagens, áudio e vídeo — tudo convertido em tokens para processamento.

  • Imagem: uma foto de resolução média consome 250–2000 tokens no GPT-5 (depende do “detail” escolhido).
  • Áudio: em Whisper / Gemini, transcrição vira tokens baseados na duração (~150 tokens por minuto).
  • Vídeo: Gemini processa vídeo amostrando frames, cada um vira tokens equivalentes a imagem.

Cache em prompts: o grande economizador

Anthropic introduziu prompt caching em 2024. OpenAI seguiu em 2025. Funciona assim:

  1. Você marca parte do prompt como cacheable (ex.: system prompt + docs fixos).
  2. Na primeira chamada, você paga o preço normal do input + ~25% extra para cachear.
  3. Em chamadas seguintes (dentro de 5 minutos), a parte cacheada custa 10% do preço normal.

Em aplicação com system prompt de 5000 tokens e 100 requests/hora, o savings chega a 80% no custo de input.

Tokens em uma frase

Tokens são a moeda, o limite e o gargalo da IA generativa. Entender como são gerados, quanto custam e como reduzir consumo é a diferença entre uma aplicação financeiramente viável e uma que queima dinheiro. A regra de ouro: meça antes de otimizar, otimize o que paga, e use o modelo adequado para cada tarefa — não o maior possível.

Perguntas frequentes

Tokens são a mesma coisa que palavras?+

Não exatamente. Em média, em inglês, 1 token equivale a ~0,75 palavra — ou seja, 1.000 tokens ≈ 750 palavras. Em português, varia mais: palavras longas com acentos podem ser divididas em 2–3 tokens. Uma palavra curta como “sim” é 1 token; “desafortunadamente” pode virar 4 ou 5. Pontuação, espaços e quebras de linha também contam como tokens.

Como um modelo de IA decide o que é um token?+

Através de um algoritmo chamado Byte Pair Encoding (BPE) ou variações. O tokenizador é treinado junto com o modelo: pega o corpus de texto, conta frequências de caracteres e junta pares repetidos até formar um vocabulário de ~50 a 100 mil tokens. Palavras comuns viram 1 token; palavras raras viram vários tokens pequenos. Por isso o mesmo texto pode ter contagens diferentes em GPT, Claude e Gemini.

Como sei quantos tokens minha mensagem tem antes de enviar?+

Use um contador oficial do provider ou biblioteca. Para GPT: tiktoken (Python) ou js-tiktoken (JavaScript). Para Claude: a Anthropic tem endpoint /v1/messages/count_tokens. Para Gemini: método countTokens do SDK. Ferramentas online (como o contador de tokens do MochaLabz) aceitam texto colado e retornam contagem em cada modelo popular.

O que é context window e como se relaciona com tokens?+

Context window é o total de tokens que o modelo consegue processar em uma única request — somando prompt (input) e resposta (output). GPT-5 e Claude Sonnet 4.6 têm janela de 200k tokens; Claude Opus 4.7 chega a 1M tokens (~750.000 palavras). Gemini 2.5 Pro também atinge 2M. Se sua conversa ultrapassa o limite, as mensagens mais antigas são descartadas ou você precisa enviar só parte do contexto.

Por que tokens importam para o custo?+

Todos os providers cobram por 1.000 ou 1M tokens processados. GPT-5 em 2026 cobra aproximadamente US$ 2,50 por 1M tokens de input e US$ 10 por 1M de output. Claude Sonnet é similar; Haiku e Flash são 10x mais baratos. Em aplicações em produção com milhões de tokens por dia, a diferença entre prompt bem otimizado e verboso vira milhares de dólares por mês.

Como reduzir consumo de tokens sem perder qualidade?+

Cinco alavancas. (1) Limpar histórico: manter só turns recentes em chatbots. (2) Comprimir prompts: remover exemplos redundantes, instruções óbvias. (3) Usar modelo menor para tarefas simples (Haiku, Flash) e maior só quando necessário. (4) Cache de prompt (feature disponível em Claude e GPT) para partes repetidas. (5) Structured output com JSON: retorno mais compacto que prose.

Token input e output custam o mesmo?+

Não. Output costuma custar 2 a 5x mais que input. Em GPT-5 no final de 2025, input era US$ 2,50/M e output US$ 10/M — proporção 1:4. Isso porque gerar tokens é mais caro computacionalmente que ler tokens existentes. Na prática: um resumo de documento longo (muito input, pouco output) é relativamente barato; gerar artigo de 3.000 palavras (pouco input, muito output) é mais caro.

Modelos open source também usam tokens?+

Sim, mas a contagem de tokens pode ser diferente. Llama 4 usa o próprio tokenizador (derivado de sentencepiece); Mistral Large usa o seu. Em self-hosting, você não paga por token (paga por GPU/hora), mas a velocidade e context window ainda dependem do número de tokens. Um modelo com 128k tokens de context processa textos de ~100k palavras, independentemente de onde roda.

#tokens#ia#llm#gpt#claude#gemini#tokenização#bpe#context window#api

Artigos relacionados