Artigo AI·Inteligência Artificial·14 min de leitura

Chain-of-Thought Prompting: O Guia Completo (2026)

Chain-of-Thought é uma das técnicas mais eficazes já descobertas em prompt engineering. Em problemas de lógica, matemática e código, pode aumentar acurácia em 30–60% só pedindo ao modelo para mostrar o raciocínio. Aqui está o guia definitivo.

Vitor Morais

Por Vitor Morais

Fundador do MochaLabz ·

🧠

Gere prompts otimizados em segundos

Templates com CoT, few-shot e role prompting para ChatGPT, Claude e Gemini.

Usar gerador de prompts →

Chain-of-Thought (CoT) é pedir ao LLM que mostre o raciocínio antes de responder. Funciona porque LLMs pensam ao escrever — cada token gerado informa o próximo. Em problemas de lógica e matemática, CoT eleva a acurácia de modelos grandes drasticamente. Modelos modernos com reasoning interno (Claude Thinking, GPT-5, o3) já fazem CoT por baixo dos panos, mas dominar a técnica continua valioso para guiar formato e custo.

O que é Chain-of-Thought (CoT)

Chain-of-Thought (cadeia de pensamento) é uma técnica de prompt em que você pede ao modelo de linguagem para explicar o raciocínio passo a passo antes de dar a resposta final. O termo foi cunhado em 2022 por pesquisadores do Google Brain no paper “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”.

Antes do CoT, prompts “pergunta direta → resposta” tinham acurácia limitada em problemas que exigem múltiplos passos — aritmética, lógica simbólica, common-sense reasoning. O paper mostrou que apenas adicionar a frase “Vamos pensar passo a passo” ao prompt aumentava a acurácia em benchmarks como GSM8K (problemas de matemática) de ~17% para ~58% no PaLM-540B. A diferença foi grande o bastante para virar técnica padrão.

Por que CoT funciona

LLMs geram texto token a token, e cada token novo é condicionado em todos os tokens anteriores. Quando o modelo escreve o raciocínio antes da resposta, ele literalmente usa esse raciocínio como entrada para gerar a conclusão. É equivalente a um humano fazendo cálculo com papel e lápis: cada passo intermediário fica disponível na memória de trabalho.

Sem CoT, o modelo precisa “pensar” tudo num único token — o que está além da capacidade de redes neurais para problemas multi-passo. Com CoT, ele aloca tokens (capacidade computacional extra) para etapas intermediárias e a resposta final emerge de uma base mais rica.

A intuição em uma frase

Mais tokens gerados = mais computação por problema. CoT é a forma mais simples de dar ao modelo o “papel e caneta” para resolver questões que não cabem em um único forward-pass.

Os 4 sabores principais de CoT

Zero-shot CoT

A forma mais simples. Você apenas instrui o modelo a pensar passo a passo, sem dar exemplos:

PROMPT (sem CoT): "Roger tem 5 bolas. Compra 2 latas com 3 bolas cada. Quantas bolas ele tem agora?" → Modelo médio responde: "8" ❌ PROMPT (zero-shot CoT): "Roger tem 5 bolas. Compra 2 latas com 3 bolas cada. Quantas bolas ele tem agora? Vamos pensar passo a passo." → Modelo: "Roger começa com 5 bolas. Cada lata tem 3 bolas, e ele comprou 2 latas: 2×3 = 6. Total: 5 + 6 = 11. Resposta: 11 bolas." ✅

Few-shot CoT

Em vez de instruir, você mostra exemplos de problemas resolvidos com raciocínio explícito. O modelo aprende o padrão e replica:

Q: Ana tem 23 maçãs. Usa 5 numa torta e 3 num lanche. Quantas sobram? A: Ana começa com 23 maçãs. Tira 5 para a torta: 23 - 5 = 18. Tira mais 3 para o lanche: 18 - 3 = 15. Resposta: 15 maçãs. Q: João tinha R$100. Comprou 3 livros a R$22 cada e gastou R$15 no almoço. Quanto sobrou? A:

Few-shot CoT é mais robusto que zero-shot: o modelo não precisa adivinhar o formato de raciocínio que você quer. Ideal quando a consistência do output importa.

Veja o guia completo de few-shot prompting para entender como construir os exemplos com qualidade.

Self-Consistency

Estende CoT executando o mesmo prompt várias vezes com temperature alta e votando na resposta mais comum. Aumenta acurácia em problemas com múltiplos caminhos válidos:

# Pseudocódigo respostas = [] for _ in range(10): saida = llm(prompt_cot, temperature=0.7) respostas.append(extrair_resposta_final(saida)) # Voto majoritário resposta_final = mais_comum(respostas)

Tree-of-Thoughts (ToT)

Em vez de uma cadeia linear, o modelo explora uma árvore de raciocínios: gera várias hipóteses, avalia cada uma e expande a melhor. Pesado em tokens, mas resolve problemas que CoT linear erra.

PROMPT ToT manual: "Liste 3 abordagens diferentes para resolver este problema. Para cada uma, avalie prós e contras. Depois escolha a melhor e desenvolva em detalhe. Problema: [enunciado]"

Quando CoT brilha (e quando não ajuda)

Onde aplicar (ou evitar) Chain-of-Thought
CritérioTipo de tarefaCoT ajuda?
Aritmética / matemáticaSim — ganho típico de 20–60%
Lógica simbólica, silogismosSim — quase sempre vital
Programação complexa, debugSim — força o modelo a verificar premissas
Análise multi-fator (decisões)Sim — torna trade-offs explícitos
Planejamento e roteirosSim — etapas geram coerência
Tradução simplesNão — não há passos intermediários
Lookup factual ("capital da França")Não — pode introduzir erro
Criatividade pura (poesia, brainstorm)Geralmente não — engessa
Resumo de textoÀs vezes — útil em textos longos com vários temas

Como escrever um prompt CoT eficaz

Use esta estrutura como ponto de partida:

SISTEMA: Você é [role específica]. Para cada pergunta, siga estes passos: 1. Reformule a pergunta em suas palavras. 2. Liste a informação relevante presente no enunciado. 3. Aplique o raciocínio passo a passo, mostrando cada etapa. 4. Verifique a resposta contra o enunciado original. 5. Apresente a resposta final no formato: "Resposta: ..." USUÁRIO: [pergunta]

Cinco princípios que aumentam a robustez:

  • Numere os passos. Modelos seguem instruções numeradas com mais consistência que parágrafos.
  • Peça verificação. Adicionar “verifique a resposta” faz o modelo re-checar e corrigir erros.
  • Defina o formato final. “Resposta: X” em uma linha facilita parse programático.
  • Limite a temperatura entre 0 e 0.3 para tarefas factuais.
  • Combine com role prompting. “Você é um auditor financeiro” gera raciocínio mais cauteloso que “você é um assistente”.

CoT na prática com a API

OpenAI / GPT-5

import OpenAI from 'openai'; const openai = new OpenAI(); async function answerWithCoT(question: string) { const response = await openai.chat.completions.create({ model: 'gpt-5', messages: [ { role: 'system', content: `Você é um assistente analítico. Para cada pergunta: 1. Identifique o que é pedido. 2. Liste os dados relevantes. 3. Mostre o raciocínio passo a passo. 4. Verifique a resposta. 5. Conclua com "Resposta: <valor>"`, }, { role: 'user', content: question }, ], temperature: 0.2, }); return response.choices[0].message.content; }

Anthropic / Claude

import Anthropic from '@anthropic-ai/sdk'; const anthropic = new Anthropic(); async function answerWithCoT(question: string) { const message = await anthropic.messages.create({ model: 'claude-opus-4-7', max_tokens: 1024, system: `Pense passo a passo dentro de <reasoning></reasoning> e responda dentro de <answer></answer>.`, messages: [{ role: 'user', content: question }], }); return message.content[0].type === 'text' ? message.content[0].text : ''; }

Tags XML são amigas do Claude

O Claude foi treinado para reconhecer estrutura via tags XML como <reasoning>, <analysis>, <answer>. Use isso para separar pensamento de resposta e parsear o output programaticamente.

Modelos com raciocínio interno (o1, Claude Thinking)

A geração 2024–2026 de modelos trouxe a categoria reasoning models: GPT-5 (modo thinking), o3, Claude Thinking, Gemini 2.5 reasoning. Eles aplicam CoT internamente — gastam tokens “de pensamento” antes de responder, sem mostrar o raciocínio ao usuário.

CoT explícito vs. modelos com reasoning interno
CritérioCoT explícitoReasoning model
Quem dirige o raciocínioVocê (no prompt)O próprio modelo
Tokens geradosVisíveis e cobradosMaioria oculta, ainda cobrada
LatênciaAumenta com o outputAumenta significativamente (10–60s)
Quando valeModelos clássicos, controle do formatoProblemas com cadeias longas (provas, código)
Pode combinar?Sim — guia o estilo do raciocínioSim — útil em formatos rígidos

Custo, latência e quando vale

O custo de CoT é proporcional ao tamanho do raciocínio. Em problemas curtos (matemática básica, classificação simples), CoT pode triplicar o número de output tokens. Em problemas longos (programação, análise), o raciocínio pode ocupar 70% dos tokens.

Estratégias para reduzir custo sem perder qualidade:

  • CoT seletivo: ative apenas quando a entrada exige raciocínio (detecte por heurística ou roteador).
  • Limite o output: “Use no máximo 5 frases para o raciocínio” dá ganho de acurácia sem explodir tokens.
  • Cache de prompt: system prompts longos com instruções de CoT podem ser cacheados (Anthropic, OpenAI suportam).
  • Menor temperature: reduz divagação no raciocínio.

Para mais técnicas de redução de tokens, veja como economizar tokens no ChatGPT e Claude.

Armadilhas e como mitigar

Cuidado com a falsa segurança

Um raciocínio bem escrito parece confiável mesmo quando está errado. Esse é o maior risco do CoT: o output convence pela forma, não pelo conteúdo. Em decisões críticas, sempre valide contra fonte autoritativa.

  • Alucinação eloquente: o modelo cria passos intermediários falsos com aparência válida. Mitigação: peça que cite fonte ou que verifique cada premissa.
  • Modelos pequenos: CoT em modelos < 60B parâmetros frequentemente piora respostas. Mitigação: teste em benchmark antes de aplicar em produção.
  • Latência: CoT aumenta tempo de resposta. Em chat ao vivo, considere streaming para mostrar progresso.
  • Vazamento do raciocínio em produção: se o usuário não deve ver os passos, parseie e exiba só a resposta final (use tags como <answer>).

Checklist do prompt CoT perfeito

  • ✅ Modelo é grande o suficiente (GPT-4o+, Claude 4+, Gemini 2+).
  • ✅ Tarefa exige múltiplos passos (matemática, lógica, código, análise).
  • ✅ Instrução de raciocínio numerada e clara.
  • ✅ Etapa de verificação explícita.
  • ✅ Formato final padronizado (“Resposta: X” ou tags XML).
  • ✅ Temperature baixa (0–0.3) para tarefas factuais.
  • ✅ Para tarefas críticas: Self-Consistency com 3–10 execuções.
  • ✅ Validação humana em decisões irreversíveis.
  • ✅ Monitoramento de custo de output tokens em produção.

Perguntas frequentes

O que é Chain-of-Thought (CoT) em prompt engineering?+

Chain-of-Thought é a técnica de pedir ao LLM que mostre o raciocínio intermediário antes de dar a resposta final. Em vez de "qual é o resultado?", você pede "vamos pensar passo a passo, depois apresente a resposta". Em problemas de matemática, lógica e código complexo, isso aumenta acurácia em 30–60%.

CoT funciona em qualquer modelo de linguagem?+

Não. CoT depende de capacidade emergente que aparece em modelos grandes (~60B parâmetros para cima). Em modelos menores (até 13B), pedir para "pensar passo a passo" pode até piorar a resposta, porque o modelo gera texto plausível mas sem raciocínio real. Em GPT-4o, GPT-5, Claude 4.x, Gemini 2.x, CoT funciona muito bem.

Qual a diferença entre CoT e modelos de raciocínio (o1, Claude Thinking)?+

CoT é técnica de prompt — você induz o raciocínio. Modelos de raciocínio (o1, o3, Claude Thinking, GPT-5 thinking) já fazem CoT internamente, com etapas escondidas, e o usuário só vê a resposta final. Você pode usar CoT explícito mesmo nesses modelos para guiar a estrutura do raciocínio, mas ganha menos diferença marginal.

CoT aumenta o custo de tokens?+

Sim. Como o modelo gera texto adicional (o raciocínio), o número de output tokens cresce. Em problemas curtos isso pode triplicar o custo da resposta. Em modelos com reasoning interno, o custo é ainda maior porque os tokens de pensamento também são cobrados, embora não sejam exibidos.

CoT pode piorar a qualidade da resposta?+

Sim, em três cenários: (1) modelos pequenos que fazem raciocínio simulado mas errado; (2) tarefas simples de lookup, onde o passo extra introduz alucinação; (3) tarefas criativas (poesia, brainstorming), onde forçar estrutura linear engessa o resultado.

Como combinar CoT com few-shot prompting?+

Inclua exemplos onde o raciocínio passo a passo está explícito antes da resposta. O modelo aprende o padrão e replica. É a forma mais robusta de CoT porque combina dois sinais: "este é o tipo de problema" + "este é o tipo de raciocínio que se espera".

Existe risco de o modelo alucinar dentro do raciocínio CoT?+

Sim. Um raciocínio bem escrito pode parecer confiável mesmo quando a conclusão está errada — o que torna a alucinação mais perigosa, porque é convincente. Sempre verifique resultados críticos contra uma fonte confiável e considere usar Self-Consistency (várias execuções + voto) em decisões importantes.

O que é Tree-of-Thoughts (ToT) e quando usar?+

Tree-of-Thoughts é uma extensão do CoT em que o modelo explora várias linhas de raciocínio em paralelo, avalia cada uma e escolhe a melhor. Útil em problemas com múltiplas estratégias possíveis (puzzles, design de sistema, planejamento). Custa mais, mas resolve problemas que CoT linear erra.

#chain of thought#prompting#ia#llm#raciocínio#chatgpt#claude#gemini#tree of thoughts#self consistency

Continue lendo