Por que apenas algumas das páginas do meu site estão sendo rastreadas

SEO

Auditoria do site

Por que apenas algumas das páginas do meu site estão sendo rastreadas?

Se você notou que apenas 4 a 6 páginas do seu site estão sendo rastreadas (sua página inicial, URLs de sitemaps e robots.txt), provavelmente é porque nosso bot não conseguiu encontrar links internos de saída na página inicial. Confira abaixo as possíveis razões para esse problema.

Problema com links internos de saída

Talvez não haja links internos de saída na página principal, ou eles podem estar incluídos no JavaScript. Se você tiver uma assinatura do Pro, nosso bot não analisará conteúdo JavaScript; portanto, se os links na sua página inicial para o restante do seu site estiverem ocultos em elementos de JavaScript, não poderemos lê-los e rastrear essas páginas.

Embora o rastreamento de conteúdo em JavaScript esteja disponível somente para usuários do Guru e Business, podemos rastrear o HTML de uma página com elementos de JS e podemos analisar os parâmetros de seus arquivos JS e CSS com nossas verificações de Desempenho, independentemente do tipo de assinatura (Pro, Guru ou Business).

Em ambos os casos, há uma maneira de garantir que nosso bot rastreie suas páginas. Para fazer isso, você precisa alterar a Fonte de rastreamento de "Site" para "Sitemaps" ou "URLs do arquivo" nas configurações da campanha:

As opções de fonte de rastreamento estão destacadas na janela Configurações de Auditoria do site.

“Site” é a fonte padrão. Isso significa que vamos rastrear seu site usando um algoritmo de pesquisa em largura (breadth-first) e navegando pelos links que encontrarmos no código da sua página, começando pela página inicial.

Se você escolher uma das outras opções, rastrearemos os links encontrados no sitemap ou no arquivo enviado.

O rastreador de Auditoria do site pode ter sido bloqueado

Nosso rastreador pode ter sido bloqueado em algumas páginas no robots.txt do site ou por tags noindex/nofollow. Você pode verificar se esse é o caso no relatório de páginas rastreadas:

Como verificar se nosso rastreador foi bloqueado em algumas páginas no relatório Páginas rastreadas.

Você pode inspecionar o arquivo robots.txt em busca de quaisquer comandos de disallow que impeçam rastreadores como o nosso de acessar seu site.

Se o código abaixo estiver presente na página principal de um site, ele indica ao nosso rastreador que não temos permissão para indexar/seguir links nele e que nosso acesso está bloqueado. Ou uma página contendo pelo menos uma das tags "nofollow" ou "none" levará a um erro de rastreamento.

<meta name="robots" content="noindex, nofollow">

Confira mais informações sobre esses erros em nosso artigo de solução de problemas.

Sua página inicial tem mais de 4 MB

Atualmente, a ferramenta de Auditoria do Site consegue analisar páginas iniciais de até 4 MB.

A pop up window that appears if your Site Audit fails to start. It states: 'We encountered an error that stopped us from crawling your website: The size of the main page is too large (more than 4 MB) for search engine crawlers to load it.'

A pop up window that appears if your Site Audit fails to start. It states: 'We encountered an error that stopped us from crawling your website: The size of the main page is too large (more than 4 MB) for search engine crawlers to load it.'

O limite para outras páginas do seu site é de 2 MB. Caso uma página tenha um HTML de tamanho muito grande, será exibido o seguinte erro:

Exemplo do relatório Problemas com 'html' inserido na barra de pesquisa. Na lista de erros, há um erro que indica '1 página HTML é grande demais'.

Exemplo do relatório Problemas com 'html' inserido na barra de pesquisa. Na lista de erros, há um erro que indica '1 página HTML é grande demais'.

Mostrar mais