Artigo Grow·SEO·13 min de leitura de leitura

O Que é robots.txt (2026): Guia Completo com Exemplos Prontos por CMS

O robots.txt é um arquivo minúsculo com poder desproporcional: configurado certo, guia crawlers para o que importa; configurado errado, apaga seu site da busca. Este guia mostra sintaxe, armadilhas, templates por CMS e como bloquear IAs que treinam em conteúdo alheio.

Vitor Morais

Por Vitor Morais

Fundador do MochaLabz ·

🤖

Gere um robots.txt em segundos

Escolha o CMS, marque o que bloquear e receba o arquivo pronto.

Usar gerador →

O robots.txt é um arquivo de texto simples que vive na raiz do seu domínio e diz aos buscadores quais áreas do site eles podem ou não rastrear. Apesar de ser um dos arquivos mais antigos da web (o padrão é de 1994), continua sendo peça central de SEO técnico em 2026 — com camadas novas para lidar com crawlers de IA que surgiram nos últimos anos.

O arquivo é simples. Os erros são caros. Um Disallow: / desatento desindexa um site inteiro em semanas. Este guia cobre tudo que você precisa saber para configurar bem e não se queimar.

Como o robots.txt se encaixa no funcionamento do Google

Quando o Googlebot quer visitar um site, a primeira coisa que ele faz é ler https://seusite.com/robots.txt. Com base nas regras ali, ele decide quais URLs vai tentar rastrear. O arquivo não é obrigatório, mas é quase unanimidade em grandes sites.

Importante: robots.txt controla rastreamento (crawling), não indexação. Bloquear uma URL aqui impede o bot de ler a página, mas não garante que ela não apareça na busca — porque se houver links externos para ela, o Google pode indexar o link em si mesmo sem ter lido o conteúdo.

Sintaxe: os cinco elementos essenciais

O arquivo é composto por grupos de diretivas. Cada grupo começa com um User-agent e lista as regras para aquele bot.

Diretivas principais do robots.txt
CritérioFunçãoExemplo
User-agentIdentifica o bot a que a regra se aplicaUser-agent: Googlebot
DisallowBloqueia um caminho ou padrãoDisallow: /admin/
AllowLibera um subcaminho dentro de área bloqueadaAllow: /admin/public/
SitemapAponta o XML do sitemapSitemap: https://seusite.com/sitemap.xml
Crawl-delayIntervalo mínimo entre requisiçõesCrawl-delay: 5 (obsoleta no Google)

Exemplo mínimo funcional

User-agent: * Disallow: /admin/ Disallow: /private/ Sitemap: https://seusite.com/sitemap.xml

User-agent: bot por bot

O asterisco * é o coringa para “todos os bots”. Mas você pode direcionar regras a bots específicos — cada um tem um token próprio.

User-agents dos principais crawlers
CritérioUser-agentDe quem
GooglebotBusca principalGoogle
Googlebot-ImageGoogle ImagesGoogle
Googlebot-NewsGoogle NewsGoogle
BingbotBingMicrosoft
DuckDuckBotDuckDuckGoDuckDuckGo
GPTBotTreinamento do ChatGPTOpenAI
ClaudeBotTreinamento do ClaudeAnthropic
Google-ExtendedTreinamento do GeminiGoogle
CCBotCommon Crawl (alimenta muita IA)Common Crawl Foundation

Disallow: como bloquear áreas

A diretiva Disallow segue padrões do URL path, não regex — mas aceita alguns wildcards específicos.

  • Bloquear pasta: Disallow: /admin/ bloqueia tudo sob /admin/.
  • Bloquear URL específica: Disallow: /teste.html.
  • Bloquear tipo de arquivo: Disallow: /*.pdf$ (asterisco = qualquer caractere; dólar = fim da URL).
  • Bloquear parâmetro: Disallow: /*?* bloqueia URLs com query string (use com muito cuidado).
  • Bloquear tudo: Disallow: / — ATENÇÃO, apaga SEO inteiro.
  • Liberar tudo: Disallow: (valor vazio) — equivale a nenhuma regra.

Atenção

O robots.txt é case-sensitive nos caminhos! Disallow: /admin/ não bloqueia /Admin/. Se seu sistema gera URLs em maiúsculas e minúsculas (o que é má prática), precisa listar ambas.

Allow: liberando exceções

A diretiva Allow sobrescreve um Disallow mais amplo. Útil quando você bloqueia uma pasta mas quer liberar parte dela.

User-agent: * Disallow: /admin/ Allow: /admin/public/

Em caso de conflito entre Disallow e Allow, o Google escolhe a regra mais específica (maior número de caracteres). Na dúvida, liste a Allow antes da Disallow correspondente para clareza humana.

Sitemap: o link que aumenta indexação

A diretiva Sitemap é global — ela vale para todos os User-agents, independente de onde esteja no arquivo. Você pode listar múltiplos sitemaps.

User-agent: * Disallow: /admin/ Sitemap: https://seusite.com/sitemap.xml Sitemap: https://seusite.com/sitemap-images.xml Sitemap: https://seusite.com/sitemap-news.xml

Apontar o sitemap no robots.txt é redundante com envio direto ao Search Console — mas é boa prática. Bots como Bing e DuckDuckGo descobrem sitemaps só por esse caminho.

Templates prontos por CMS

WordPress

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /?s= Disallow: /feed/ Disallow: /trackback/ Disallow: /comments/feed/ Sitemap: https://seusite.com/sitemap.xml

Next.js (App Router, estático ou SSR)

// app/robots.ts import type { MetadataRoute } from "next"; export default function robots(): MetadataRoute.Robots { return { rules: [ { userAgent: "*", allow: "/", disallow: ["/api/", "/admin/"] }, ], sitemap: "https://seusite.com/sitemap.xml", }; }

Shopify

Shopify gera robots.txt automaticamente. Desde 2021 é editável via tema (robots.txt.liquid). Evite bloquear /products/ ou /collections/ — é onde mora a receita.

E-commerce com filtros (faceted navigation)

User-agent: * Disallow: /*?sort= Disallow: /*?filter= Disallow: /*?color= Disallow: /carrinho Disallow: /checkout Disallow: /minha-conta/ Sitemap: https://seusite.com/sitemap.xml

Bloqueando crawlers de IA

Em 2026, quem produz conteúdo original tem interesse legítimo em decidir se esse conteúdo entra em dataset de treinamento de IA. Os três grandes respeitam opt-out via robots.txt.

# Bloqueia treinamento de IA em todo o site User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Claude-Web Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: anthropic-ai Disallow: / # Libera crawlers normais de busca User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://seusite.com/sitemap.xml

Contexto

Bloquear Google-Extended NÃO afeta o ranqueamento normal do Googlebot — é um token separado criado pelo Google especificamente para opt-out de treinamento. Bingbot e BingPreview seguem regras separadas de Bing Copilot e AI features.

Wildcards e padrões avançados

O Google suporta dois caracteres especiais nos caminhos:

  • Asterisco *: qualquer sequência de caracteres.
  • Dólar $: fim da URL.

Exemplos úteis:

  • Disallow: /*.pdf$ — todos os arquivos terminando em .pdf.
  • Disallow: /teste* — qualquer coisa começando com /teste.
  • Disallow: /*?print= — páginas com parâmetro print.
  • Disallow: /private/*.html$ — apenas HTMLs na pasta private.

Erros clássicos que derrubam SEO

  • Deploy com Disallow: / global: comum em sites novos que ficaram com o robots.txt de ambiente de dev. Apaga a indexação em 2–4 semanas.
  • Bloquear CSS ou JS: Google precisa ver o layout renderizado. Bloquear/assets/ ou /js/ prejudica avaliação de mobile e Core Web Vitals.
  • Usar robots.txt para “esconder” dados sensíveis: o arquivo é público; listar Disallow: /login/senha-do-admin/ literalmente anuncia onde fica a área sensível.
  • Sintaxe errada em wildcard: Disallow: *.pdf sem a barra inicial não funciona. É Disallow: /*.pdf$.
  • Case-sensitivity: /Admin/ e /admin/ são diferentes para robots.txt.
  • Confundir Disallow com noindex: para manter fora do índice, use meta robots noindex, não Disallow.

Como testar antes de subir para produção

  1. Acesse o “Testador de robots.txt” no Google Search Console (Configurações → Crawl).
  2. Cole o conteúdo novo no editor e valide URLs importantes: home, produtos/posts principais, categorias, sitemap.
  3. Confirme que cada URL importante retorna “permitido” no user-agent Googlebot.
  4. Só depois copie o arquivo para a raiz do domínio.
  5. Em 24–48h, confira o relatório “Páginas” do Search Console para ver se apareceram bloqueios inesperados.

Vai mais fundo

Se você fez uma mudança grande (adicionou muitos Disallow), peça ao Google para reprocessar o robots.txt na hora: Configurações → Crawl → Solicitar nova leitura. Sem isso, o Googlebot pode continuar aplicando a versão antiga por algumas horas.

Limitações: o que o robots.txt NÃO faz

  • Não impede indexação se houver links externos.
  • Não esconde nada — o arquivo é público.
  • Não protege contra scrapers maliciosos.
  • Não substitui autenticação, WAF, rate limiting.
  • Não transfere autoridade de link (usa canonical para isso).
  • Não remove URLs já indexadas (use Remover URL no Search Console).

robots.txt em uma frase

É o porteiro do seu site para crawlers: cinco linhas bem escritas economizam orçamento de rastreamento, guardam áreas privadas e defendem conteúdo de IAs que treinam sem permissão. Cinco linhas mal escritas apagam seu SEO. Leia antes de publicar.

Perguntas frequentes

Todo site precisa de robots.txt?+

Tecnicamente, não. Na ausência do arquivo, buscadores assumem que todo o site é rastreável. Na prática, todo site sério deveria ter — mesmo que seja só para apontar o sitemap e bloquear áreas administrativas. Search Console cobra a existência de robots.txt em auditorias e sites sem o arquivo geram 404 frequentes nos logs. Custa 5 minutos criar e evita dor de cabeça.

O robots.txt impede o Google de indexar uma página?+

Não. Ele impede o rastreamento, mas páginas bloqueadas ainda podem aparecer no índice se houver links externos apontando para elas — com o indicador “Uma descrição para este resultado não está disponível”. Para impedir indexação real, use meta tag noindex no HTML, não Disallow no robots.txt. Os dois servem a propósitos diferentes e confundi-los é erro clássico.

Qual a diferença entre robots.txt e meta noindex?+

robots.txt controla rastreamento — diz ao bot quais URLs tentar visitar. Meta noindex (ou cabeçalho X-Robots-Tag) controla indexação — diz se a URL pode entrar no índice. Para bloquear uma página da busca, use noindex e deixe o robots.txt permitir acesso (o bot precisa ler a página para ver o noindex). Usar Disallow para “desindexar” não funciona.

Onde o robots.txt precisa ficar?+

Sempre na raiz do domínio: https://exemplo.com/robots.txt. Bots só procuram nesse local exato. Se você tem subdomínios (blog.exemplo.com, loja.exemplo.com), cada um precisa do próprio robots.txt. O arquivo deve ser texto simples, codificação UTF-8, no máximo 500 KB (limite do Google).

Posso bloquear usuários mal-intencionados com robots.txt?+

Não. robots.txt é convenção voluntária — bots bem comportados (Google, Bing, OpenAI) respeitam; scrapers maliciosos ignoram. Para bloquear acesso real, use autenticação, firewall de aplicação (WAF), rate limiting por IP ou CAPTCHA. robots.txt serve apenas para orientar crawlers legítimos sobre o que vale a pena rastrear.

Como testar se meu robots.txt está correto?+

Use o testador de robots.txt do Google Search Console (em Configurações → Crawl). Você cola uma URL e vê se está permitida ou bloqueada pelas regras atuais. Outras opções: o relatório de “Bloqueado por robots.txt” no próprio Search Console e ferramentas de terceiros como TechnicalSEO.com. Teste sempre antes de subir mudanças em produção.

Como bloquear IAs como GPT e Claude de treinar com meu site?+

Cada bot de IA tem um User-agent próprio. Para os principais: User-agent: GPTBot (OpenAI), User-agent: Claude-Web e ClaudeBot (Anthropic), User-agent: Google-Extended (Gemini training), User-agent: CCBot (Common Crawl, usado por muitos). Adicione Disallow: / para cada um. Os três grandes respeitam esses tokens desde 2023–2024.

Meu robots.txt está bloqueando o sitemap. Como resolver?+

A diretiva Sitemap: é separada das regras de User-agent — você pode declarar o sitemap mesmo com Disallow global. Exemplo válido: User-agent: * | Disallow: /admin | Sitemap: https://exemplo.com/sitemap.xml. Se o Search Console reclama que o sitemap está bloqueado, a URL do próprio sitemap (não as URLs dentro dele) está em área Disallow. Libere a URL do XML.

#robots.txt#seo#crawling#indexação#googlebot#wordpress#next.js#gptbot#disallow#sitemap

Artigos relacionados