Robots.txt: um guia completo para iniciantes

Carlos Silva

Dez 07, 202213 min de leitura
Guia completo Robots.txt

ÍNDICE

O que é Robots.txt?

Robots.txt é um arquivo de texto com instruções para os robôs de mecanismos de pesquisa sobre quais páginas eles podem e não podem rastrear em um site.

Essas instruções são especificadas por “allow” (permitir) ou “disallow” (não permitir) o comportamento de determinas (ou todos) bots.

É assim que um arquivo robots.txt se parece:

exemplo arquivo robots.txt

Os arquivos Robots.txt podem parecer complicados, mas a sintaxe (linguagem) é bastante simples.

Neste artigo veremos:

  • Por que o arquivo Robots.txt é importante?
  • Como funciona o arquivo Robots.txt?
  • Como criar um arquivo Robots.txt
  • Boas práticas para Robots.txt

Youtube video thumbnail

Por que o arquivo Robots.txt é importante?

Um arquivo robots.txt ajuda a gerenciar as atividades dos rastreadores para que eles não sobrecarreguem seu site ou páginas que não devem ser exibidas.

Alguns motivos pelos quais você deve criar um arquivo robots.txt para o seu site são:

1. Otimizar o rastreamento

É preciso definir o número de páginas que o Google rastreará em seu site. Esse número pode variar com base no tamanho, integridade e backlinks do seu domínio.

Essa definição é importante porque, se o número de páginas for muito grande, algumas páginas no site podem não ser indexadas.

E as páginas que não são indexadas não classificam nos mecanismos de pesquisa.

Ao bloquear páginas desnecessárias com robots.txt, os rastreadores atêm-se às páginas mais importantes, não excedendo seu limite.

2. Bloquear páginas duplicadas e não que não devem ser públicas

Não é preciso (nem recomendado) permitir que os mecanismos de pesquisa rastreiem todas as páginas do seu site. Afinal, como vimos, nem todas elas precisam ser classificadas.

Os exemplos incluem sites de teste, páginas internas, páginas duplicadas ou de login.

O WordPress, por exemplo, desabilita automaticamente o /wp-admin/ – URL para acessar as ferramentas e gestão do site – para todos os rastreadores.

Essas páginas precisam existir, mas elas não precisam ser indexadas pelos mecanismos de busca nem encontradas pelos usuários.

3. Ocultar recursos

Às vezes, é importante indicar ao Google que se excluam recursos como PDFs, vídeos e imagens dos resultados da pesquisa.

Isso pode acontecer, por exemplo, quando você quer manter esses recursos privados ou fazer com que o Google se concentre em conteúdos mais importantes.

Nesses casos, usar o robots.txt é a melhor maneira de evitar que eles sejam indexados.

Como funciona o arquivo Robots.txt?

Os arquivos Robots.txt informam aos bots dos mecanismos de pesquisa quais URLs eles podem rastrear e, mais importante, quais não podem.

Os buscadores têm duas funções principais:

  1. Rastrear a web para descobrir conteúdo;
  2. Indexar conteúdos para que possam ser mostrados nos resultados de pesquisa.

À medida que os bots rastreiam a internet, eles descobrem e seguem novos links. Esse processo os leva do site A para o site B para o site C através de toda a web.

Quando chega a um site qualquer, a primeira coisa que um bot faz é procurar um arquivo robots.txt.

Se encontrar, o arquivo será lido antes que qualquer coisa seja feita.

Como falamos, a sintaxe é muito simples.

Você atribui regras a os rastreadores declarando seu agente de usuário (o bot do mecanismo de pesquisa) seguido por diretivas.

Você também pode usar o asterisco (*) para atribuir regras específica a cada agente do usuário. Ou seja, a diretiva se aplica a todos os bots, e não a um específico (Google, Bing etc.).

Por exemplo: este é o exemplo de um robots.txt com a instrução para permitir que todos os bots, exceto o DuckDuckGo, rastreiem seu site:

exemplo arquivo robots.txt excetuando um buscador específico

Observação: embora o arquivo robots.txt forneça instruções, ele não pode aplicá-las. É como um código de conduta. Bons bots (como os dos mecanismos de pesquisa) segues essas regras, mas rastreadores ruins (como os de spam) podem ignorá-las.

Como encontrar um arquivo Robots.txt

O arquivo robots.txt está hospedado no mesmo servidor do eu ite, assim como qualquer outro arquivo relacionado ao seu domínio.

Você pode ver o arquivo robots.txt de qualquer site digitando a URL completa da página inicial e adicionando /robots.txt. 

exemplo arquivo robots.txt da semrush

Observação: o arquivo robots.txt deve estar sempre na raiz do seu domínio. Então, para o site www.exemplo.com.br, ele deve estar em www.exemplo.com.br/robots.txt. Se estive em qualquer outro lugar, e os rastreadores não o encontrarão e entenderão que você não tem um.

Sintaxe do arquivo Robots.txt

O arquivo robots.txt é composto por:

  • Um ou mais blocos de diretivas;
  • Cada bloco com um agente de usuário especificado;
  • E uma instrução allow ou disallow.
User-agent: Googlebot
Disallow: /not-for-google
User-agent: DuckDuckBot
Disallow: /not-for-duckduckgo
Sitemap: https://www.seusite.com.br/sitemap.xml

A diretiva "User-agent"

A primeira linha de cada bloco de diretivas é o agente de usuário (“user-agent”), que identifica o rastreador a que ele se refere.

Então, se você quer informar ao Googlebot para não rastrear sua página de administração do WordPress, por exemplo, sua diretiva será:

User-agent: Googlebot
Disallow: /wp-admin/

Lembre-se de que a maioria dos mecanismos de pesquisa possui vários rastreadores. Eles usam bots diferentes para seu os resultados "normais", imagens, vídeos etc.

Os buscadores sempre escolhem o bloco de diretivas mais específico que puderem encontrar.

Digamos que você tenha três conjuntos de diretivas: um para *, um para Googlebot e um para Googlebot-Image.

Se o agente de usuário do Googlebot-News rastrear seu site, ele seguirá as diretivas do Googlebot. Por outro lado, o user agent Googlebot-Image seguirá as diretivas mais específicas voltadas para ele.

Acesse este link para obter uma lista detalhada de rastreadores e seus diferentes agentes de usuário.

A diretiva "Disallow"

A segunda linha em qualquer bloco de diretivas é a linha “Disallow”.

Você pode ter várias diretivas de "não permitir" que especificam quais partes do seu site o rastreador não pode acessar.

Uma linha "Disallow" vazia significa que você não está desautorizando nenhuma página, então um rastreador pode acessar todas as seções do seu site.

Por exemplo: se você quiser permitir que todos os mecanismos de pesquisa rastreiem todo o seu site, seu bloco ficaria assim:

User-agent: *
Allow: /

Por outro lado, se você quiser impedir que todos os bots rastreiem seu site, seu bloqueio ficaria assim:

User-agent: *
Disallow: /

Diretivas como "Allow" e "Disallow" não diferenciam maiúsculas de minúsculas. No entanto, os valores dentro de cada diretiva, sim.

Por exemplo, /photo/ não é o mesmo que /Photo/.

Ainda assim, muitas vezes você encontrará as diretivas “Allow” e “Disallow” em maiúsculas porque torna o arquivo mais fácil para os humanos lerem.

A diretiva "Allow"

A diretiva “Allow” permite que os mecanismos de pesquisa rastreiem um subdiretório ou uma página específica, mesmo em um diretório não permitido.

Por exemplo: se você quiser impedir que o Googlebot acesse todos os posts do seu blog, exceto um específico, sua diretiva será assim:

User-agent: Googlebot
Disallow: /blog
Allow: /blog/examplo-de-post

Observação: nem todos os mecanismos de busca reconhecem este comando. Google e Bing suportam esta diretiva.

A diretiva "Sitemap"

A diretiva “Sitemap” informa aos mecanismos de pesquisa, especificamente Bing, Yandex e Google, onde encontrar seu sitemap XML.

Os sitemaps geralmente incluem as páginas que você deseja que os mecanismos de pesquisa rastreiem e indexem.

Você pode encontrar essa diretiva na parte superior ou inferior de um arquivo robots.txt, como assim:

diretiva sitemap no arquivo robots.txt

Dito isto, você pode (e deve) também enviar seu sitemap XML para cada mecanismo de pesquisa usando suas ferramentas para webmasters.

Os mecanismos de pesquisa rastrearão seu site eventualmente, mas o envio do sitemap acelera o processo de rastreamento. Se você não quiser que isso aconteça, adicione uma diretiva “Sitemap” ao seu arquivo robots.txt.

Diretiva "Crawl-delay"

A diretiva “crawl-delay” especifica um atraso de rastreamento em segundos. Ela serve para impedir que os bots sobrecarreguem um servidor, o que pode deixar seu site lento.

No entanto, o Google não oferece mais suporte a essa diretiva.

Se você quiser definir uma taxa de rastreamento para o Googlebot, precisará fazê-lo no Search Console. O Bing e Yandex, por outro lado, suportam a diretiva.

Funciona assim:

Se você quiser que um bot aguarde 10 segundos após cada ação de rastreamento, defina o atraso para 10:

User-agent: *
Crawl-delay: 10

Diretiva "noindex"

O arquivo robots.txt informa a um bot o que ele pode ou não rastrear, mas não informa aos mecanismos de pesquisa quais URLs não devem ser indexadas e exibidas nos resultados da pesquisa.

A página ainda aparecerá na SERP, mas o bot não saberá o que está nela, então sua página ficará assim:

exemplo página indexada mas bloqueada

O Google nunca suportou oficialmente essa diretiva, mas os profissionais de SEO ainda acreditam que o Googlebot seguia as diretivas.

No entanto, em 1º de setembro de 2019, o Google deixou claro que esta diretiva não é suportada.

Se você deseja que uma página ou arquivo não apareça nos resultados da pesquisa, evite esta diretiva e use uma metatag robots noindex.

Como criar um arquivo Robots.txt

Se você ainda não tem um arquivo robots.txt, é muito fácil criar um.

Você pode usar uma ferramenta geradora de robots.txt ou você mesmo pode criar um do zero.

São quatro etapas:

  1. Crie o arquivo;
  2. Adicione as diretivas;
  3. Faça upload do arquivo no seu site;
  4. Teste.

1. Crie o arquivo Robots.txt

Abra um arquivo.txt com qualquer editor de texto ou navegador.

Observação: não use ferramentas como Word, pois elas geralmente salvam arquivos em um formato proprietário que pode adicionar caracteres aleatórios.

Em seguida, nomeie o documento como robots.txt. Ele deve ser nomeado assim para que funcione.

2. Adicione as diretivas

Um arquivo robots.txt consiste em um ou mais grupos de diretivas, e cada um deles consiste em várias linhas de instruções.

Cada grupo começa com um “User-agent” e possui as seguintes informações:

  • A quem o grupo se aplica (o agente do usuário);
  • Quais diretórios (páginas) ou arquivos o agente pode acessar;
  • Quais diretórios (páginas) ou arquivos o agente não pode acessar;
  • Um sitemap (opcional) para informar os mecanismos de pesquisa quais páginas e arquivos você considera importantes.

Os rastreadores ignoram as linhas que não correspondem a nenhuma dessas diretivas.

Por exemplo: digamos que você queira impedir o Google de rastrear seu diretório /clientes/ porque é apenas para uso interno.

O primeiro grupo ficaria assim:

User-agent: Googlebot
Disallow: /clientes/

Se você tivesse mais instruções como esta para o Google, você as incluiria em uma linha separada logo abaixo, assim:

User-agent: Googlebot
Disallow: /clientes/
Disallow: /not-for-google

Depois de concluir as instruções específicas para o Google, você pode dar "enter" duas vezes para criar um novo grupo de diretivas.

Vamos fazer isso para todos os mecanismos de pesquisa e impedir que eles rastreiem seus diretórios /arquivo/ e /suporte/ porque eles são privados e apenas para uso interno.

Ficaria assim:

User-agent: Googlebot
Disallow: /clientes/
Disallow: /not-for-google
User-agent: *
Disallow: /arquivo/
Disallow: /suporte/

Quando terminar, você pode adicionar seu sitemap.

Seu arquivo robots.txt finalizado ficaria assim:

User-agent: Googlebot
Disallow: /clientes/
Disallow: /not-for-google
User-agent: *
Disallow: /arquivo/
Disallow: /suporte/
Sitemap: https://www.seusite.com.br/sitemap.xml

Observação: os rastreadores lêem o arquivo de cima para baixo e registram o grupo de regras mais específico. Portanto, comece o arquivo robots.txt primeiro com agentes de usuário específicos e, em seguida, passe para o mais geral (*), que corresponde a todos os rastreadores.

3. Faça upload do arquivo no seu site

Depois de salvar seu arquivo robots.txt, suba-o no seu site e disponibilize-o para que os mecanismos de pesquisa rastreiem.

Infelizmente, não existe uma ferramenta que possa ajudar nessa etapa.

O upload do arquivo robots.txt depende da estrutura de arquivos do seu site e do serviço de hospedagem.

Pesquise on-line ou entre em contato com seu provedor para obter ajuda sobre como enviar seu arquivo robots.txt.

Por exemplo: você pode pesquisar por "upload arquivo robots.txt no WordPress" para encontrar instruções específicas.

Veja alguns posts que explicam como fazer upload do seu arquivo robots.txt nas principais plataformas:

Depois de fazer upload do arquivo, verifique se alguém pode vê-lo e se o Google pode lê-lo.

Aqui está como.

4. Teste

Primeiro, teste se o arquivo robots.txt está acessível publicamente (ou seja, se o upload foi feito corretamente).

Abra uma janela privada no seu navegador e procure seu arquivo robots.txt.

procurando robots.txt na aba anônima

Se você vir o arquivo robots.txt com o conteúdo que você criou, pode passar para o teste de markup (código HTML).

O Google oferece duas opções para isso:

  1. A ferramenta Testar robots.txt no Search Console;
  2. biblioteca robots.txt de código aberto.

Como a segunda opção é mais voltada para desenvolvedores avançados, foque em testar seu arquivo robots.txt no Google Search Console.

Observação: você deve ter uma conta configurada para usar a ferramenta.

Acesse o Testar robots.txt e clique para abrir.

ferramenta Testar robots.txt

Se você não vinculou seu site à sua conta do Google Search Console, será necessário adicionar uma propriedade.

adicionar propriedade

Em seguida, você terá que verificar que é o proprietário do site.

confirmando propriedade

Se você tiver propriedades verificadas, selecione na página inicial da ferramenta.

selecionando proporiedade

A ferramenta identificará quaisquer alertas de sintaxe ou erros de lógica.

erros na ferramenta

Você pode editar as advertências e erros diretamente na página e testar novamente quantas vezes forem necessárias.

Lembre-se de que as alterações feitas na página não serão salvas no seu site. A ferramenta não faz nenhuma alteração no arquivo real. Ele apenas testa a cópia hospedada nela.

Para implementar as alterações, copie e cole as mudanças no arquivo robots.txt do seu site.

Dica: configure auditorias mensais de SEO técnico com a ferramenta Auditoria de Site, da Semrush, para verificar novos problemas relacionados ao seu arquivo robots.txt. Monitorar o arquivo é importante, pois mesmo pequenas alterações podem afetar negativamente a indexabilidade do seu site.

Clique aqui para acessar a ferramenta Auditoria de Site.

Boas práticas para o arquivo Robots.txt

Lembre-se dessas práticas ao criar seu arquivo robots.txt para evitar erros comuns.

Use uma nova linha para cada diretiva

Cada diretiva deve ficar em uma linha. Caso contrário, os mecanismos de pesquisa não conseguirão lê-las e suas instruções serão ignoradas.

Ruim:

User-agent: * Disallow: /admin/
Disallow: /directory/

Bom:

User-agent: *
Disallow: /admin/
Disallow: /directory/

Use cada User-agent apenas uma vez

Os bots não se importam se você digitar o mesmo agente de usuário mais de uma vez.

Referenciá-los apenas uma vez ajuda a reduzir as chances de erro.

Ruim:

User-agent: Googlebot
Disallow: /exemplo-pagina
User-agent: Googlebot
Disallow: /exemplo-pagina-2

Observe como o agente do usuário do Googlebot é listado duas vezes.

Bom:

User-agent: Googlebot
Disallow: /exemplo-pagina
Disallow: /exemplo-pagina-2

No primeiro exemplo, o Google ainda seguiria as instruções e não rastrearia nenhuma das páginas.

Mas escrever todas as diretivas no mesmo User-agent ajuda você a se organizar.

Use o asterisco

Você pode usar o asterisco (*) para aplicar uma diretiva a todos os agentes do usuário e padrões de URL.

Por exemplo: se você quiser impedir que os mecanismos de pesquisa acessem URL com parâmetros, você pode listá-los um por um.

Ruim:

User-agent: *
Disallow: /tenis/vans?
Disallow: /tenis/nike?
Disallow: /tenis/adidas?

Mas isso é ineficiente. Você pode simplificar suas rotas com um curinga.

Bom:

User-agent: *
Disallow: /tenis/*?

O exemplo acima impede que todos os bots de mecanismos de pesquisa rastreiem todas as URLs na subpasta /shoes/ com um ponto de interrogação.

Use “$” para indicar o fim de uma URL

Adicionar o símbolo “$” indica o final de uma URL.

Por exemplo: se você deseja impedir que os mecanismos de pesquisa rastreiem todos os arquivos .jpg no seu site, você pode listá-los individualmente. Mas seria ineficiente.

Ruim:

User-agent: *
Disallow: /foto-a.jpg
Disallow: /foto-b.jpg
Disallow: /foto-c.jpg

Seria muito melhor usar o recurso “$” assim:

Bom:

User-agent: *
Disallow: /*.jpg$

Observação: neste exemplo, /cachorro.jpg não poderia ser rastreado, mas /cachorro.jpg?p=32414 poderia, porque não termina com “.jpg”.

A expressão “$” é um recurso útil em circunstâncias específicas, mas também pode ser arriscada. Então seja prudente.

Use a hashtag (#) para adicionar comentários

Os rastreadores ignoram tudo que começa com uma hashtag (#).

Os desenvolvedores geralmente usam uma hashtag para adicionar um comentário no arquivo robots.txt. Isso ajuda a manter o arquivo organizado e fácil de ler.

Para incluir um comentário, comece a linha com uma hashtag (#).

User-agent: *
#Landing Pages
Disallow: /landing/
Disallow: /lp/
#Files
Disallow: /files/
Disallow: /private-files/
#Websites
Allow: /website/*
Disallow: /website/search/*

Os desenvolvedores ocasionalmente incluem mensagens engraçadas em arquivos robots.txt porque sabem que os usuários raramente as veem.

Por exemplo, o arquivo robots.txt do YouTube diz:

“Criado em um futuro distante (o ano 2000) após a revolta robótica em meados dos anos 90 que eliminou todos os humanos.”

youtube robots.txt

O robots.txt da Nike diz “just crawl it' (uma piscadela para o slogan “just do it”) e também inclui seu logotipo.

nike robots.txt

Use arquivos Robots.txt para diferentes subdomínios

Os arquivos Robots.txt controlam apenas o comportamento de rastreamento no subdomínio em que estão hospedados.

Portanto, se você quiser controlar o rastreamento em um subdomínio diferente, precisará de um arquivo robots.txt separado.

Se seu site estiver no domínio.com e seu blog estiver no subdomínio blog.domínio.com, você precisará de dois arquivos robots.txt. Um para o diretório raiz do domínio principal e outro para o diretório raiz do seu blog.

Aprenda mais

Agora que você sabe como os arquivos robots.txt funcionam, separamos mais alguns artigos que você pode ler para aprender mais:

Compartilhar
Author Photo
Carlos Silva is a content marketer with over 8 years of experience in writing, content strategy, and SEO. At Semrush, he’s involved in research, editing, and writing for the English blog. He also owns Semrush’s Educational Newsletter (4M+ subscribers).