Guia completo para Robots Meta Tag e X-Robots-tag

Nem todo o conteúdo do seu site precisa ser indexado por mecanismos de pesquisa. Para evitar a indexação de algumas páginas, você pode usar uma robots meta tag ou x-robots-tag.

No entanto, muitas vezes os aquivos robots.txt e robots meta tags são usadas incorretamente. Isso resulta em ações conflitantes que não trazem o resultado desejado: impedir que uma página seja indexada.

Neste guia, queremos ajudá-lo a entender como usar robots meta tags e x-robots-tag para controlar a indexação do conteúdo do seu site e identificar erros comuns.

Vamos abordar os seguintes pontos:

O que são Robots Meta Tags?

Uma Robots meta tag, também conhecida como robots tags , é um trecho de código HTML colocado na seção <head> </head> de uma página e usado para controlar como os mecanismos de pesquisa rastreiam e indexam o URL.

Robots meta tag no código-fonte de uma página se parece com isso:

<meta name="robots" content="noindex" />

Essas tags são específicas da página e permitem que você instrua os mecanismos de pesquisa sobre como deseja que eles lidem com a página e se devem ou não considerá-la para indexação.

Por que utilizar as Robots Meta Tags?

Robots meta tags são usadas para controlar como o Google indexa o conteúdo da sua página. Por exemplo:

Se a página deve ou não ser incluída nos resultados de pesquisa
Se os links em uma página devem ou não ser seguidos (mesmo se ela estiver bloqueada para indexação)
Solicitações para não indexar as imagens em uma página
Solicitações para não mostrar os resultados armazenados em cache da página nas SERPs
Solicitações para não apresentar um snippet (meta description) para a página nas SERPs

Para entender como você pode usar a robots meta tag, precisamos falar de diferentes atributos e diretivas, ou atributos. Também vamos compartilhar exemplos de código que você pode copiar e colar no cabeçalho de sua página para instruir os mecanismos de pesquisa a indexar sua página de uma determinada maneira.

Compreendendo os atributos e diretivas de Robots Meta Tag

Usar robots meta tags é bastante simples, uma vez que você entenda como definir os dois atributos: name (nome) e content (conteúdo). Ambos os atributos são obrigatórios, portanto, você precisa definir um valor para cada um deles.

Vamos falar desses atributos em detalhes.

Nome

O atributo name controla que os rastreadores e bots (user agents, também chamados de UA) devem seguir as instruções contidas na robots meta tag.

Para instruir todos os rastreadores a seguir as instruções, use:

name="robots"

Na maioria dos casos, você vai usar isso como padrão, mas pode usar quantas meta robots tags diferentes forem necessárias para especificar instruções para diferentes rastreadores.

Ao instruir diferentes rastreadores, basta usar várias tags:

<meta name="googlebot" content="noindex">
 <meta name="googlebot-news" content="nosnippet">

Existem centenas de diferentes agentes de usuário. Os mais comuns são:

Google : Googlebot (você pode ver a lista completa dos rastreadores do Google aqui )
Bing : Bingbot (você pode ver a lista completa dos rastreadores do Bing aqui )
DuckDuckGo: DuckDuckBot
Baidu: Baiduspider
Yandex: YandexBot

Conteúdo

O atributo content é usado para fornecer as instruções ao agente de usuário especificado.

É importante saber que se você não especificar uma meta robots tag em uma página, o padrão é indexar a página e seguir todos os links (a menos que eles tenham um atributo rel = "nofollow").

As diferentes diretivas que você pode usar incluem:

index (indexar a página) [Nota: você não precisa usar essa diretiva se a diretiva noindex não for usada, nesse caso o rastreador vai considerar a ausência de diretiva como instrução para indexar)
noindex (não indexar a página e não mostrar nas SERPs)
follow (seguir os links na página para descobrir outras páginas)
nofollow (não seguir os links da página)
none (um atalho para especificar noindex, nofollow)
all (um atalho para especificar index, follow)
noimageindex (não indexar as imagens na página)
noarchive (não mostrar uma versão em cache da página nas SERPs)
nocache (é o mesmo que noarchive, mas apenas para MSN)
nositelinkssearchbox (não mostrar uma caixa de pesquisa para o seu site nas SERPs)
nopagereadaloud (não permitir que os serviços de voz leiam sua página em voz alta)
notranslate (não mostrar traduções da página nas SERPs)
unavailable_after (especificar um tempo após o qual a página não deve ser indexada)

Você pode ver uma lista completa das diretivas que o Google entende aqui e as que o Bing entende aqui .

Exemplos de Código de Meta Robots Tag

Se estiver procurando exemplos de meta robots tag que podem ser usados para controlar como os mecanismos de pesquisa rastreiam e indexam suas páginas, você pode usar a seguinte lista de cenários de uso mais comuns:

Não indexar a página, mas seguir os links para outras páginas:

<meta name="robots" content="noindex, follow" />

Não indexar a página e não seguir os links para outras páginas:

<meta name="robots" content="none" />

Indexar a página, mas não seguir os links para outras páginas:

<meta name="robots" content="nofollow" />

Não mostrar uma cópia do cache da página nas SERPs:

<meta name="robots" content="noarchive" />

Não indexar as imagens em uma página:

<meta name="robots" content="noimageindex" /

Não mostrar a página nas SERPs após uma data / hora especificada:

<meta name="robots" content="unavailable_after: Friday, 01-Jan-21 12:59:59 ET" />

Se necessário, você pode combinar as diretivas em uma única tag, separando-as com vírgulas.

Por exemplo, digamos que você não quer que nenhum dos links de uma página seja seguido e também quer evitar que as imagens sejam indexadas. Use:

<meta name="robots" content="nofollow, noimageindex" /

Usando Meta Robots Tags para Gerenciar Snippets

Embora meta robots tags sejam mais usadas para controlar se uma página é indexada ou não e se os links dessa página são rastreados por mecanismos de pesquisa, elas também podem ser usadas para gerenciar os snippets nas SERPs.

Essa novidade foi introduzida em setembro de 2019, quando o Google escreveu que os webmasters foram capazes de usar "um conjunto de métodos que permitem uma configuração mais refinada de conteúdo mostrado para suas páginas".

Isso pode ser feito com as seguintes meta robots tags:

nosnippet (não mostrar um snippet ou meta description da página nas SERPs)
max-snippet:[number] (especifique o comprimento máximo do texto de um snippet em caracteres)
max-video-preview:[number] (especifique a duração máxima de uma visualização de vídeo em segundos)
max-image-preview:[setting] (especifique o tamanho máximo de uma visualização da imagem escolhendo entre "none," "standard," ou "large")

Use o seguinte código para controlar como os snippets de sua página são exibidos:

Não mostrar trechos de uma página nas SERPs:

<meta name="robots" content="nosnippet" />

Definir o comprimento máximo de um snippet de texto em 150 caracteres:

<meta name="robots" content="max-snippet:150" />

Definir a duração máxima de uma visualização de vídeo em 20 segundos:

<meta name="robots" content="max-video-preview:30" />

Definir o tamanho máximo de uma visualização de imagem como grande:

<meta name="robots" content="max-image-preview:large" />

Esses códigos também podem ser combinadas para dar maior controle sobre os snippets de sua página. Digamos que você queira definir o comprimento máximo do seu snippet em 150 caracteres e permitir visualizações de imagens grandes, use:

<meta name="robots" content="max-snippet:150, max-image-preview:large" />

Se não quiser colocar nenhuma restrição em seus snippets, você pode adicionar o seguinte em todo o site no cabeçalho da página:

<meta name="robots" content="max-snippet:-1, max-image-preview:large, max-video-preview:-1" />

O que é X-Robots-Tag?

Uma forma alternativa de controlar como os mecanismos de pesquisa rastreiam e indexam suas páginas da web é usar a x-robots-tag em vez de meta robots tags.

Embora a implementação de meta robots tags em páginas HTML seja relativamente simples, x-robots-tag é mais complicada. Se você quiser gerenciar o tratamento do conteúdo não HTML, por exemplo, um PDF, você precisa usar a x-robots-tag.

Esta é uma resposta de cabeçalho HTTP, em vez de uma tag HTML, e qualquer diretiva, ou código, que possa ser usada como uma meta robots tag também pode ser usada como uma x-robots-tag.

Uma x-robots-tag se parece com isso:

x-robots-tag: noindex, nofollow

Para usar a x-robots-tag, você precisa acessar o cabeçalho do site do seu site .php, .htaccess ou o arquivo de configuração do servidor. Se você não tiver acesso a isso, vai precisa usar meta robots tags para instruir os rastreadores.

Quando usar o X ‑ Robots-Tag?

Usar uma x-robots-tag não é tão simples quanto usar meta robots tags, mas permite que você direcione os mecanismos de pesquisa para indexar e rastrear outros tipos de arquivo.

Use a x-robots-tag quando:

Você precisa controlar como os mecanismos de pesquisa rastreiam e indexam tipos de arquivo não HTML
Você precisa passar ações em nível de o todo o site, em vez de em nível de página

Como configurar Robots Meta Tags e X‑Robots-Tag

A configuração de robots meta tags é, geralmente, mais fácil do que a de x-robots-tag, mas a implementação de ambos os métodos de controle de como os mecanismos de pesquisa rastreiam e indexam seu site podem diferir dependendo do seu CMS e / ou tipo de servidor.

Veja como usar meta robots tags e x-robots-tag em configurações comuns:

Uso de Robots Meta Tags em Código HTML

Se você pode editar o código HTML da sua página, basta adicionar as robots meta tags diretamente na seção <head> da página.

Se você quiser que os mecanismos de pesquisa não indexem a página, mas que os links sejam seguidos, por exemplo, use:

<meta name="robots" content="noindex, follow" />

Usando Robots Meta Tags no WordPress

Se você estiver usando Yoast SEO, abra a aba 'advanced' no bloco abaixo do editor de página.

Você pode definir a diretiva "noindex" escolhendo a opção não na lista suspensa de "Permitir que os mecanismos de pesquisa mostrem esta página nos resultados da pesquisa?" ou evitar que os links sejam seguidos, definindo a opção "Os mecanismos de pesquisa devem seguir os links desta página?" para não .

Para definir quaisquer outras diretivas, use o campo "Meta robots advanced".

Se estiver usando o RankMath, você pode selecionar as diretivas que deseja aplicar diretamente no campo Advanced tag:

rankmath robots Image fromf RankMath

Usando Robots Meta Tags no Shopify

Se você precisar implementar robots meta tags no Shopify, pode fazer isso na seção <head> de layout theme.liquid.

Para definir as diretivas para uma página específica, adicione o código abaixo a este arquivo:

{% if handle contains 'page-name' %}
 <meta name="robots" content="noindex, follow">
 {% endif %}

Este código vai instruir os mecanismos de pesquisa a não indexar / page-name / mas seguir todos os links da página. Você vai precisar fazer entradas separadas para definir as ações para páginas diferentes.

Usando X-Robots-Tag em um Servidor Apache

Para usar a x-robots-tag em um servidor Apache, adicione o seguinte ao arquivo .htaccess do seu site ou arquivo httpd.config.

<Files ~ "\.pdf$">
 Header set X-Robots-Tag "noindex, follow"
 </Files>

O exemplo acima define o tipo de arquivo .pdf e instrui os mecanismos de pesquisa a não indexar o arquivo, mas seguir todos os links nele.

Usando X-Robots-Tag em um Servidor Nginx

Se você estiver usando um servidor Nginx, adicione o seguinte ao arquivo .conf do seu site:

location ~* \.pdf$ {
 add_header X-Robots-Tag "noindex, follow";
 }

Isso vai aplicar um atributo noindex e instruir o rastreador a seguir todos os links em um arquivo .pdf.

Erros Comuns de Meta Robots

São vários os erros que podem acontecer ao instruir os mecanismos de pesquisa sobre como rastrear e indexar uma página da web, os mais comuns são:

Diretiva de Meta Robots em uma página bloqueada por Robots.txt

Se uma página tiver um atributo disallow em seu arquivo robots.txt, os bots do mecanismo de pesquisa não conseguirão rastrear a página e seguir as diretivas que são colocadas em meta robots tags ou x-robots-tag.

Certifique-se de que todas as páginas que instruem os user-agents possam ser rastreadas. Se uma página nunca foi indexada, o uso de disallow no robots.txt deve ser suficiente para evitar que ela apareça nos resultados da pesquisa, mas ainda é recomendado adicionar uma meta robots tag.

Adicionando diretivas de Robots ao arquivo Robots.txt

Embora nunca seja oficialmente anunciado pelo Google, costumava ser possível adicionar uma diretiva noindex ao arquivo robots.txt do seu site e conseguir o efeito desejado.

Este não é mais o caso e em 2019 foi confirmado pelo Google que essa medida não será mais eficaz.

Removendo páginas com uma diretiva noindex de Sitemaps

Se você estiver tentando remover uma página da lista de indexação usando uma diretiva noindex, deixe a página no sitemap do seu site até que isso aconteça. Remover a página antes da desindexação pode causar atrasos neste processo.

Bloqueando acidentalmente os mecanismos de pesquisa de rastrear um site inteiro

Infelizmente, é bastante incomum que as diretivas de robots, usadas em um ambiente de teste sejam acidentalmente repassadas para o site que muda para um servidor ativo, e os resultados podem ser desastrosos.

Antes de mover qualquer site de uma plataforma de teste para um ambiente ativo, verifique novamente se as diretivas de robots que estão em vigor estão corretas.

Você pode usar a Ferramenta de Auditoria do Site da Semrush antes de migrar para uma plataforma ativa para encontrar qualquer página que esteja sendo bloqueada com meta robots tags ou x-robots-tag.

Dedicando um tempo para entender as diferentes diretrizes e como usá-las, você pode evitar erros técnicos de SEO. Ter controle suficiente sobre como suas páginas são rastreadas e indexadas pode ajudar a manter as páginas indesejadas fora das SERPs, evitar que os mecanismos de pesquisa sigam links desnecessários e dar a você controle sobre como os snippets do seu site são exibidos, entre outras coisas. Comece a configurar suas robots meta tags e x-robots-tags para garantir que seu site esteja funcionando perfeitamente!

Este conteúdo foi originalmente publicado em inglês e localizado para Português.

Guia completo para Robots Meta Tag e X-Robots-Tag