🧮IA & ML

Contador de Tokens para IA

Estime o número de tokens do seu texto ou prompt antes de enviar para ChatGPT, Claude ou Gemini. Veja o custo estimado por modelo e quanto da janela de contexto você está usando.

Tokens estimados

0

Palavras

0

Caracteres

0

⚠️ Estimativa baseada em heurística de tokenização (≈ 4 chars/token). O valor exato varia por modelo e idioma. Para contagem precisa use o Tiktoken (OpenAI) ou o SDK do modelo.

Entendendo tokens nos modelos de linguagem

Tokens são a moeda de troca dos LLMs. Todo texto que você envia e recebe de uma IA é medido em tokens — não em palavras ou caracteres. Entender como eles funcionam é essencial para quem usa IA em produção.

Como os tokens são contados

Modelos como GPT-4 usam um método chamado BPE (Byte Pair Encoding). Palavras comuns viram um único token; palavras incomuns, nomes próprios e termos técnicos são divididos em subpalavras:

  • "desenvolvedor" → 4 tokens (de-sen-vol-vedor)
  • "IA" → 1 token
  • "API" → 1 token
  • "tokenização" → 3-4 tokens

Limites por modelo (2025)

  • GPT-4o: 128.000 tokens de contexto
  • Claude Sonnet 4: 200.000 tokens de contexto
  • Gemini 1.5 Pro: 1.000.000 tokens de contexto

Impacto no custo de API

As APIs de LLM cobram separadamente por tokens de entrada (input) e saída (output). Os tokens de saída costumam ser 3-5× mais caros que os de entrada. Para aplicações em produção, otimizar o tamanho do prompt pode gerar economias significativas.

Perguntas frequentes

Token é a unidade básica de processamento dos modelos de linguagem. Não corresponde exatamente a uma palavra: em inglês, 1 token ≈ 4 caracteres. Palavras comuns são 1 token, mas palavras longas ou raras podem ser divididas em vários tokens. Para português, a média é ligeiramente menor por causa da morfologia mais complexa.

Tools relacionadas