GPTBot e ClaudeBot no robots.txt: bloquear ou permitir?
GPTBot, ClaudeBot e Petalbot batem na porta do seu site. Veja quando bloquear, quando deixar passar e o snippet exato de robots.txt para cada caso.
Por Vitor Morais
Fundador do MochaLabz ·
GPTBot, ClaudeBot e Petalbot são rastreadores de LLMs que hoje visitam uma fatia relevante dos sites na web — e a decisão de bloqueá-los ou não impacta diretamente se o seu produto aparece quando alguém pergunta algo ao ChatGPT ou ao Claude. A resposta não é universal: depende do tipo de conteúdo, do modelo de negócio e de quanto você valoriza citações em AI search vs. exclusividade do seu material. Este guia dá a lógica e os snippets prontos para cada cenário.
Por que LLM crawlers explodiram e por que isso importa agora
Entre 2024 e 2025, o tráfego de bots de IA cresceu de forma expressiva na web. O GPTBot quase dobrou sua presença em desktop, e o ClaudeBot apresentou crescimento semelhante. Outros rastreadores do mesmo perfil — Petalbot (da Baidu/Ernie) e CCBot (treinamento genérico) — também se tornaram visitantes frequentes de qualquer site com algum PageRank.
Para um solopreneur com blog, SaaS ou portfólio, isso significa duas coisas concretas: primeiro, parte da largura de banda do servidor (ou das requisições do Cloudflare Workers/Vercel Edge) é consumida por esses bots; segundo, o conteúdo que você não bloqueou pode virar insumo de treinamento ou de respostas em tempo real — o que pode ser vantagem (citação com link) ou desvantagem (conteúdo premium entregue de graça).
Contexto de volume
Rastreadores de LLMs já respondem por uma parcela relevante do tráfego de bots na web. Estratégias de robots.txt que foram definidas em 2023–2024 precisam ser revisadas — o comportamento desses agentes evoluiu e continuará evoluindo ao longo de 2026.
O que cada bot faz com o seu conteúdo
Entender o propósito de cada rastreador é o primeiro passo antes de editar qualquer linha do robots.txt. Nem todos têm o mesmo destino para o conteúdo coletado.
- GPTBot — Opera em nome da OpenAI. O conteúdo coletado pode alimentar futuros treinamentos de modelo e/ou a base de conhecimento do ChatGPT com Browse. A OpenAI respeita a diretiva
User-agent: GPTBot / Disallowe disponibiliza uma página de opt-out na sua documentação oficial. - ClaudeBot — Opera em nome da Anthropic com propósito similar: treinamento e melhoria dos modelos Claude. Também respeita o padrão do
robots.txt. - Petalbot — Rastreador da Huawei/Baidu usado para alimentar o Ernie Bot e produtos de IA do ecossistema chinês. Relevante se você tem audiência ou clientes fora do Brasil.
- CCBot — Mantido pela Common Crawl, organização sem fins lucrativos. O dataset é público e licenciado, então qualquer laboratório pode usá-lo para treinamento. Bloquear o CCBot evita que seu conteúdo entre nesse pool aberto.
- PerplexityBot — Rastreador do Perplexity AI, usado principalmente para respostas em tempo real com citação de fonte. Bloquear este bot remove seu site das respostas do Perplexity; permitir pode gerar tráfego de referência.
Quando bloquear: conteúdo que não deve treinar modelo nenhum
Se o seu diferencial competitivo é o próprio conteúdo — curso pago com material vazado em página de preview, base de conhecimento exclusiva para clientes, documentação interna ou relatórios proprietários — bloquear todos os LLM crawlers é a decisão certa. Você não ganha nada em ser citado se o modelo reproduz o conteúdo completo e tira a razão de o usuário pagar pelo acesso.
O mesmo raciocínio vale para dados sensíveis de usuários que por algum motivo aparecem em páginas indexáveis (erro comum em SaaS com páginas de dashboard públicas por engano) ou para conteúdo coberto por contrato com terceiros. A regra prática: se você não publicaria esse texto abertamente numa licença Creative Commons, bloquear os bots de IA é a postura defensiva correta.
robots.txt — bloqueio total de LLM crawlers
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Petalbot
Disallow: /
User-agent: Googlebot
Allow: /
Sitemap: https://seusite.com.br/sitemap.xmlBloquear não é garantia absoluta
Bots que respeitam robots.txt são a maioria, mas não todos. Crawlers menos éticos ignoram a diretiva. Se o conteúdo é de fato crítico, a solução real é não expô-lo em URLs públicas — bloqueio por autenticação, não apenas por robots.txt.
Quando permitir: conteúdo que se valoriza sendo citado
Para solopreneurs cuja estratégia é construir autoridade e atrair clientes via conteúdo — blog técnico, documentação pública de produto, landing pages de serviço, artigos de SEO — bloquear LLM crawlers é contraproducente. Se o ChatGPT ou o Perplexity citam seu artigo com link ao responder uma pergunta relevante, isso gera tráfego qualificado sem custo de clique.
A lógica é a mesma da citação em AI Overviews do Google: você quer ser a fonte que o modelo referencia. Para isso, o bot precisa ter acesso ao conteúdo. Quanto mais estruturado e factualmente denso for o texto (headings claros, listas, definições diretas), maior a chance de extração e citação — você pode aprofundar isso lendo o guia de otimização para AI Overviews.
robots.txt — permissão total para LLM crawlers em site de conteúdo
# Rastreadores de busca tradicionais
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# LLM crawlers — permitidos para ganhar citações em AI search
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# CCBot (pool aberto de treinamento) — decisão mais conservadora
User-agent: CCBot
Disallow: /
Sitemap: https://seusite.com.br/sitemap.xmlNote que o CCBot aparece bloqueado mesmo no perfil "permissivo". A razão: o dataset da Common Crawl é aberto e pode ser usado por qualquer laboratório sem controle. GPTBot e ClaudeBot têm pelo menos uma relação contratual implícita com a empresa operadora — você sabe quem está usando e pode solicitar remoção. Com CCBot, o conteúdo entra num pool distribuído sem rastreabilidade.
Abordagem híbrida: bloquear por diretório
A situação mais comum para um micro-SaaS ou freelancer com presença online é mista: parte do site deve ser indexada por LLMs (blog, docs públicas, landing page) e parte não (área de membros, conteúdo de cliente, rotas de API que por acidente retornam HTML).
O robots.txt suporta regras por caminho, o que resolve o problema sem precisar escolher entre bloqueio total ou permissão total. O exemplo abaixo assume uma estrutura comum em Next.js com Supabase. Leia também o artigo sobre regras de Disallow no robots.txt para variações de sintaxe.
robots.txt — abordagem híbrida (blog público + área restrita bloqueada)
# Googlebot: acessa tudo público, exceto rotas internas
User-agent: Googlebot
Disallow: /dashboard/
Disallow: /api/
Disallow: /admin/
Allow: /
# GPTBot: mesmo escopo do Googlebot
User-agent: GPTBot
Disallow: /dashboard/
Disallow: /api/
Disallow: /admin/
Allow: /
# ClaudeBot: idem
User-agent: ClaudeBot
Disallow: /dashboard/
Disallow: /api/
Disallow: /admin/
Allow: /
# PerplexityBot: apenas blog e docs públicas
User-agent: PerplexityBot
Allow: /blog/
Allow: /docs/
Disallow: /
# CCBot: bloqueio total
User-agent: CCBot
Disallow: /
# Petalbot: bloqueio total se audiência é só BR
User-agent: Petalbot
Disallow: /
Sitemap: https://seusite.com.br/sitemap.xmlValide com o Google Rich Results Test ou URL Inspection
Depois de editar o robots.txt, use o Google Search Console → Ferramentas → Testador de robots.txt para confirmar que Googlebot e os demais bots estão recebendo as regras corretas antes de um rastreamento real acontecer. Erros de sintaxe bloqueiam bots que deveriam passar.
Comparativo: perfis de configuração por tipo de site
| Perfil do site | GPTBot / ClaudeBot | PerplexityBot | CCBot / Petalbot |
|---|---|---|---|
| Blog técnico / SEO de conteúdo | ✅ Permitir tudo | ✅ Permitir tudo | 🚫 Bloquear |
| Docs públicas de produto SaaS | ✅ Permitir /docs/ | ✅ Permitir /docs/ | 🚫 Bloquear |
| Landing page + área de membros | ✅ Permitir landing, 🚫 bloquear /members/ | ✅ Permitir landing | 🚫 Bloquear tudo |
| Curso pago com preview em HTML | 🚫 Bloquear tudo | 🚫 Bloquear tudo | 🚫 Bloquear tudo |
| Portfólio freelancer | ✅ Permitir tudo | ✅ Permitir tudo | ⚠️ Decisão pessoal |
| SaaS com rotas de API públicas | 🚫 Bloquear /api/ | 🚫 Bloquear /api/ | 🚫 Bloquear tudo |
Como implementar no Next.js via código (sem editar arquivo estático)
Se você usa Next.js App Router, a forma mais limpa de gerenciar o robots.txt é via app/robots.ts — o arquivo é gerado dinamicamente a cada build e pode ler variáveis de ambiente para ajustar regras por ambiente (produção vs. staging). Isso evita que o Vercel preview indexe conteúdo de testes.
app/robots.ts — Next.js App Router com controle por ambiente
import type { MetadataRoute } from 'next'
export default function robots(): MetadataRoute.Robots {
const baseUrl = process.env.NEXT_PUBLIC_SITE_URL ?? 'https://seusite.com.br'
const isProduction = process.env.NODE_ENV === 'production'
if (!isProduction) {
// Bloqueia tudo em preview/staging
return {
rules: [{ userAgent: '*', disallow: '/' }],
}
}
return {
rules: [
{
userAgent: 'Googlebot',
allow: '/',
disallow: ['/dashboard/', '/api/', '/admin/'],
},
{
userAgent: 'GPTBot',
allow: '/',
disallow: ['/dashboard/', '/api/', '/admin/'],
},
{
userAgent: 'ClaudeBot',
allow: '/',
disallow: ['/dashboard/', '/api/', '/admin/'],
},
{
userAgent: 'PerplexityBot',
allow: ['/blog/', '/docs/'],
disallow: '/',
},
{
userAgent: 'CCBot',
disallow: '/',
},
{
userAgent: 'Petalbot',
disallow: '/',
},
],
sitemap: `${baseUrl}/sitemap.xml`,
}
}O tipo MetadataRoute.Robots do Next.js gera o arquivo correto com quebras de linha e sintaxe válida. Não há risco de erro manual de formatação — problema comum em robots.txt editados à mão. Se você ainda usa Pages Router, a solução equivalente fica em pages/robots.txt.ts com getServerSideProps. Confira a documentação de SEO técnico em seo-tecnico-site-pequeno-indie-hacker-2026 para o contexto completo da stack.
Perguntas frequentes
Bloquear o GPTBot afeta meu ranking no Google?+
Não. GPTBot é um rastreador da OpenAI, completamente separado do Googlebot. Bloquear o GPTBot não impacta indexação ou posicionamento no Google. Os dois bots são independentes e operam em infraestruturas distintas.
Se eu bloquear os LLM crawlers, meu site some do ChatGPT e do Perplexity?+
Parcialmente. Bloquear impede novos rastreamentos, mas o conteúdo já presente no dataset de treinamento anterior não é removido automaticamente. Para remoção de dados já coletados, você precisa contatar a empresa operadora diretamente (OpenAI tem formulário de opt-out). Bloqueio impede coleta futura, não retroativa.
Qual é o user-agent correto do ClaudeBot para usar no robots.txt?+
O user-agent oficial documentado pela Anthropic é `ClaudeBot`. Ele deve aparecer exatamente assim na diretiva `User-agent: ClaudeBot`. A Anthropic respeita o padrão do Robots Exclusion Protocol e recomenda verificar a documentação oficial em anthropic.com/robots para eventuais atualizações de nome ou sub-agentes.
Vale a pena bloquear o PerplexityBot?+
Depende do seu modelo de distribuição. O Perplexity cita fontes com link visível nas respostas — o que pode gerar tráfego direto qualificado. Se o seu conteúdo é público e você quer distribuição, permita. Se você cobra por acesso ao conteúdo, bloqueie. Sites de conteúdo gratuito em geral se beneficiam de aparecer no Perplexity.
Como saber se os LLM crawlers estão visitando meu site agora?+
Acesse os logs do servidor (Nginx, Apache) ou os logs de acesso do Vercel/Cloudflare e filtre por user-agent contendo `GPTBot`, `ClaudeBot`, `PerplexityBot` ou `CCBot`. No Cloudflare Analytics, você pode criar uma regra de firewall com log para monitorar essas requisições sem bloqueá-las. O Google Search Console não mostra tráfego de bots externos.
CCBot e GPTBot são a mesma coisa?+
Não. O CCBot é mantido pela Common Crawl, uma organização sem fins lucrativos que publica datasets abertos usados por múltiplos laboratórios. O GPTBot é exclusivo da OpenAI. Bloquear o GPTBot não bloqueia o CCBot — e vice-versa. Para controle granular, cada um precisa de uma diretiva separada no robots.txt.
Gere seu robots.txt personalizado
Configure as regras de rastreamento do seu site — incluindo GPTBot e ClaudeBot — sem editar arquivo à mão. Resultado pronto para copiar e hospedar.
Gerar robots.txt agora →Artigos relacionados
O Que é robots.txt (2026): Guia Completo com Exemplos Prontos por CMS
Guia definitivo do arquivo robots.txt: sintaxe, diretivas, como bloquear IAs como GPT e Claude, exemplos prontos para WordPress, Next.js, Shopify e armadilhas comuns.
Robots.txt: Allow, Disallow, User-agent e Wildcards Explicados
Guia completo das diretivas do robots.txt: Disallow, Allow, User-agent, Sitemap, Crawl-delay, wildcards, ancoragem e regras de precedência. Com exemplos prontos por CMS.
SEO técnico para site pequeno: o que realmente importa
Checklist técnico mínimo de SEO para solopreneur e indie hacker com stack Next.js/Supabase. Evite quedas em core updates e ganhe visibilidade sem equipe.
Otimizar conteúdo para AI Overviews do Google em 2026
Guia prático: estrutura, schema e exemplos reais pra aumentar chance de citação em AI Overviews. Apareça antes de competitors.