O Que é robots.txt (2026): Guia Completo com Exemplos Prontos por CMS
O robots.txt é um arquivo minúsculo com poder desproporcional: configurado certo, guia crawlers para o que importa; configurado errado, apaga seu site da busca. Este guia mostra sintaxe, armadilhas, templates por CMS e como bloquear IAs que treinam em conteúdo alheio.
Por Vitor Morais
Fundador do MochaLabz ·
Gere um robots.txt em segundos
Escolha o CMS, marque o que bloquear e receba o arquivo pronto.
Usar gerador →O robots.txt é um arquivo de texto simples que vive na raiz do seu domínio e diz aos buscadores quais áreas do site eles podem ou não rastrear. Apesar de ser um dos arquivos mais antigos da web (o padrão é de 1994), continua sendo peça central de SEO técnico em 2026 — com camadas novas para lidar com crawlers de IA que surgiram nos últimos anos.
O arquivo é simples. Os erros são caros. Um Disallow: / desatento desindexa um site inteiro em semanas. Este guia cobre tudo que você precisa saber para configurar bem e não se queimar.
Como o robots.txt se encaixa no funcionamento do Google
Quando o Googlebot quer visitar um site, a primeira coisa que ele faz é ler https://seusite.com/robots.txt. Com base nas regras ali, ele decide quais URLs vai tentar rastrear. O arquivo não é obrigatório, mas é quase unanimidade em grandes sites.
Importante: robots.txt controla rastreamento (crawling), não indexação. Bloquear uma URL aqui impede o bot de ler a página, mas não garante que ela não apareça na busca — porque se houver links externos para ela, o Google pode indexar o link em si mesmo sem ter lido o conteúdo.
Sintaxe: os cinco elementos essenciais
O arquivo é composto por grupos de diretivas. Cada grupo começa com um User-agent e lista as regras para aquele bot.
| Critério | Função | Exemplo |
|---|---|---|
| User-agent | Identifica o bot a que a regra se aplica | User-agent: Googlebot |
| Disallow | Bloqueia um caminho ou padrão | Disallow: /admin/ |
| Allow | Libera um subcaminho dentro de área bloqueada | Allow: /admin/public/ |
| Sitemap | Aponta o XML do sitemap | Sitemap: https://seusite.com/sitemap.xml |
| Crawl-delay | Intervalo mínimo entre requisições | Crawl-delay: 5 (obsoleta no Google) |
Exemplo mínimo funcional
User-agent: *
Disallow: /admin/
Disallow: /private/
Sitemap: https://seusite.com/sitemap.xmlUser-agent: bot por bot
O asterisco * é o coringa para “todos os bots”. Mas você pode direcionar regras a bots específicos — cada um tem um token próprio.
| Critério | User-agent | De quem |
|---|---|---|
| Googlebot | Busca principal | |
| Googlebot-Image | Google Images | |
| Googlebot-News | Google News | |
| Bingbot | Bing | Microsoft |
| DuckDuckBot | DuckDuckGo | DuckDuckGo |
| GPTBot | Treinamento do ChatGPT | OpenAI |
| ClaudeBot | Treinamento do Claude | Anthropic |
| Google-Extended | Treinamento do Gemini | |
| CCBot | Common Crawl (alimenta muita IA) | Common Crawl Foundation |
Disallow: como bloquear áreas
A diretiva Disallow segue padrões do URL path, não regex — mas aceita alguns wildcards específicos.
- Bloquear pasta:
Disallow: /admin/bloqueia tudo sob /admin/. - Bloquear URL específica:
Disallow: /teste.html. - Bloquear tipo de arquivo:
Disallow: /*.pdf$(asterisco = qualquer caractere; dólar = fim da URL). - Bloquear parâmetro:
Disallow: /*?*bloqueia URLs com query string (use com muito cuidado). - Bloquear tudo:
Disallow: /— ATENÇÃO, apaga SEO inteiro. - Liberar tudo:
Disallow:(valor vazio) — equivale a nenhuma regra.
Atenção
Disallow: /admin/ não bloqueia /Admin/. Se seu sistema gera URLs em maiúsculas e minúsculas (o que é má prática), precisa listar ambas.Allow: liberando exceções
A diretiva Allow sobrescreve um Disallow mais amplo. Útil quando você bloqueia uma pasta mas quer liberar parte dela.
User-agent: *
Disallow: /admin/
Allow: /admin/public/Em caso de conflito entre Disallow e Allow, o Google escolhe a regra mais específica (maior número de caracteres). Na dúvida, liste a Allow antes da Disallow correspondente para clareza humana.
Sitemap: o link que aumenta indexação
A diretiva Sitemap é global — ela vale para todos os User-agents, independente de onde esteja no arquivo. Você pode listar múltiplos sitemaps.
User-agent: *
Disallow: /admin/
Sitemap: https://seusite.com/sitemap.xml
Sitemap: https://seusite.com/sitemap-images.xml
Sitemap: https://seusite.com/sitemap-news.xmlApontar o sitemap no robots.txt é redundante com envio direto ao Search Console — mas é boa prática. Bots como Bing e DuckDuckGo descobrem sitemaps só por esse caminho.
Templates prontos por CMS
WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /?s=
Disallow: /feed/
Disallow: /trackback/
Disallow: /comments/feed/
Sitemap: https://seusite.com/sitemap.xmlNext.js (App Router, estático ou SSR)
// app/robots.ts
import type { MetadataRoute } from "next";
export default function robots(): MetadataRoute.Robots {
return {
rules: [
{ userAgent: "*", allow: "/", disallow: ["/api/", "/admin/"] },
],
sitemap: "https://seusite.com/sitemap.xml",
};
}Shopify
Shopify gera robots.txt automaticamente. Desde 2021 é editável via tema (robots.txt.liquid). Evite bloquear /products/ ou /collections/ — é onde mora a receita.
E-commerce com filtros (faceted navigation)
User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /carrinho
Disallow: /checkout
Disallow: /minha-conta/
Sitemap: https://seusite.com/sitemap.xmlBloqueando crawlers de IA
Em 2026, quem produz conteúdo original tem interesse legítimo em decidir se esse conteúdo entra em dataset de treinamento de IA. Os três grandes respeitam opt-out via robots.txt.
# Bloqueia treinamento de IA em todo o site
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
# Libera crawlers normais de busca
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
Sitemap: https://seusite.com/sitemap.xmlContexto
Wildcards e padrões avançados
O Google suporta dois caracteres especiais nos caminhos:
- Asterisco
*: qualquer sequência de caracteres. - Dólar
$: fim da URL.
Exemplos úteis:
Disallow: /*.pdf$— todos os arquivos terminando em .pdf.Disallow: /teste*— qualquer coisa começando com /teste.Disallow: /*?print=— páginas com parâmetro print.Disallow: /private/*.html$— apenas HTMLs na pasta private.
Erros clássicos que derrubam SEO
- Deploy com Disallow: / global: comum em sites novos que ficaram com o robots.txt de ambiente de dev. Apaga a indexação em 2–4 semanas.
- Bloquear CSS ou JS: Google precisa ver o layout renderizado. Bloquear
/assets/ou/js/prejudica avaliação de mobile e Core Web Vitals. - Usar robots.txt para “esconder” dados sensíveis: o arquivo é público; listar
Disallow: /login/senha-do-admin/literalmente anuncia onde fica a área sensível. - Sintaxe errada em wildcard:
Disallow: *.pdfsem a barra inicial não funciona. ÉDisallow: /*.pdf$. - Case-sensitivity:
/Admin/e/admin/são diferentes para robots.txt. - Confundir Disallow com noindex: para manter fora do índice, use meta robots noindex, não Disallow.
Como testar antes de subir para produção
- Acesse o “Testador de robots.txt” no Google Search Console (Configurações → Crawl).
- Cole o conteúdo novo no editor e valide URLs importantes: home, produtos/posts principais, categorias, sitemap.
- Confirme que cada URL importante retorna “permitido” no user-agent Googlebot.
- Só depois copie o arquivo para a raiz do domínio.
- Em 24–48h, confira o relatório “Páginas” do Search Console para ver se apareceram bloqueios inesperados.
Vai mais fundo
Limitações: o que o robots.txt NÃO faz
- Não impede indexação se houver links externos.
- Não esconde nada — o arquivo é público.
- Não protege contra scrapers maliciosos.
- Não substitui autenticação, WAF, rate limiting.
- Não transfere autoridade de link (usa canonical para isso).
- Não remove URLs já indexadas (use Remover URL no Search Console).
robots.txt em uma frase
É o porteiro do seu site para crawlers: cinco linhas bem escritas economizam orçamento de rastreamento, guardam áreas privadas e defendem conteúdo de IAs que treinam sem permissão. Cinco linhas mal escritas apagam seu SEO. Leia antes de publicar.
Perguntas frequentes
Todo site precisa de robots.txt?+
Tecnicamente, não. Na ausência do arquivo, buscadores assumem que todo o site é rastreável. Na prática, todo site sério deveria ter — mesmo que seja só para apontar o sitemap e bloquear áreas administrativas. Search Console cobra a existência de robots.txt em auditorias e sites sem o arquivo geram 404 frequentes nos logs. Custa 5 minutos criar e evita dor de cabeça.
O robots.txt impede o Google de indexar uma página?+
Não. Ele impede o rastreamento, mas páginas bloqueadas ainda podem aparecer no índice se houver links externos apontando para elas — com o indicador “Uma descrição para este resultado não está disponível”. Para impedir indexação real, use meta tag noindex no HTML, não Disallow no robots.txt. Os dois servem a propósitos diferentes e confundi-los é erro clássico.
Qual a diferença entre robots.txt e meta noindex?+
robots.txt controla rastreamento — diz ao bot quais URLs tentar visitar. Meta noindex (ou cabeçalho X-Robots-Tag) controla indexação — diz se a URL pode entrar no índice. Para bloquear uma página da busca, use noindex e deixe o robots.txt permitir acesso (o bot precisa ler a página para ver o noindex). Usar Disallow para “desindexar” não funciona.
Onde o robots.txt precisa ficar?+
Sempre na raiz do domínio: https://exemplo.com/robots.txt. Bots só procuram nesse local exato. Se você tem subdomínios (blog.exemplo.com, loja.exemplo.com), cada um precisa do próprio robots.txt. O arquivo deve ser texto simples, codificação UTF-8, no máximo 500 KB (limite do Google).
Posso bloquear usuários mal-intencionados com robots.txt?+
Não. robots.txt é convenção voluntária — bots bem comportados (Google, Bing, OpenAI) respeitam; scrapers maliciosos ignoram. Para bloquear acesso real, use autenticação, firewall de aplicação (WAF), rate limiting por IP ou CAPTCHA. robots.txt serve apenas para orientar crawlers legítimos sobre o que vale a pena rastrear.
Como testar se meu robots.txt está correto?+
Use o testador de robots.txt do Google Search Console (em Configurações → Crawl). Você cola uma URL e vê se está permitida ou bloqueada pelas regras atuais. Outras opções: o relatório de “Bloqueado por robots.txt” no próprio Search Console e ferramentas de terceiros como TechnicalSEO.com. Teste sempre antes de subir mudanças em produção.
Como bloquear IAs como GPT e Claude de treinar com meu site?+
Cada bot de IA tem um User-agent próprio. Para os principais: User-agent: GPTBot (OpenAI), User-agent: Claude-Web e ClaudeBot (Anthropic), User-agent: Google-Extended (Gemini training), User-agent: CCBot (Common Crawl, usado por muitos). Adicione Disallow: / para cada um. Os três grandes respeitam esses tokens desde 2023–2024.
Meu robots.txt está bloqueando o sitemap. Como resolver?+
A diretiva Sitemap: é separada das regras de User-agent — você pode declarar o sitemap mesmo com Disallow global. Exemplo válido: User-agent: * | Disallow: /admin | Sitemap: https://exemplo.com/sitemap.xml. Se o Search Console reclama que o sitemap está bloqueado, a URL do próprio sitemap (não as URLs dentro dele) está em área Disallow. Libere a URL do XML.
Artigos relacionados
Sitemap de Imagens e Vídeos (2026): Indexar Mídia no Google e YouTube
Guia completo de sitemap com extensões image e video: estrutura XML, todos os campos obrigatórios e opcionais, geração automática em Next.js e WordPress, validação, limites e os 8 erros que travam a indexação.
Google Search Console: Como Enviar e Monitorar Sitemap (Guia 2026)
Verificação de propriedade, envio passo a passo, sitemap-index para sites grandes, decifrar status, relatório de Páginas e estratégias para acelerar indexação.
Robots.txt: Allow, Disallow, User-agent e Wildcards Explicados
Guia completo das diretivas do robots.txt: Disallow, Allow, User-agent, Sitemap, Crawl-delay, wildcards, ancoragem e regras de precedência. Com exemplos prontos por CMS.
Crawl Budget: O que é e Como Otimizar para Indexar Mais Páginas
Crawl budget é o número de URLs que o Googlebot rastreia no seu site. Aprenda como funciona, quando se preocupar, os 7 maiores desperdiçadores e o checklist completo de otimização — com exemplos reais de robots.txt, canonical, sitemap e arquitetura.