A sua Auditoria do site não está funcionando corretamente?
Existem vários motivos pelos quais as páginas podem ser bloqueadas do rastreador de Auditoria do site com base na configuração e estrutura do seu site, incluindo:
- Bloqueio de rastreadores no Robots.txt
- Escopo do rastreamento excluindo certas áreas do site
- O site não está online diretamente devido à hospedagem compartilhada
- As páginas estão atrás de um gateway / área de base do usuário do site
- Rastreador bloqueado por tag noindex
- O domínio não pôde ser resolvido pelo DNS - o domínio inserido na configuração está offline
- Conteúdo do site criado em Javascript - nosso sistema verifica apenas o conteúdo fixo do site e pode fornecer apenas uma auditoria parcial dos elementos dinâmicos
Etapas de solução de problemas
Siga estas etapas de solução de problemas para ver se você pode fazer ajustes por conta própria antes de entrar em contato com nossa equipe de suporte para obter ajuda.
Um arquivo Robots.txt dá instruções aos bots sobre como rastrear (ou não rastrear) as páginas de um site. Você pode permitir e proibir bots como o Googlebot ou Semrushbot de rastrear todo o seu site ou áreas específicas do seu site usando comandos como Allow, Disallow, e Crawl Delay.
Se o seu robots.txt está impedindo nosso bot de rastrear o seu site, nossa ferramenta de auditoria do site não será capaz de verificar o seu site.
Você pode inspecionar seu Robots.txt em busca de quaisquer comandos de proibição que impeçam rastreadores como o nosso de acessar seu site.
Para permitir que o bot da Auditoria do site da Semrush (SiteAuditBot) rastreie seu site, adicione o seguinte em seu arquivo robots.txt:
User-agent: SiteAuditBot
Disallow:
(deixe um espaço em branco após “Disallow:”)
Aqui está um exemplo de um arquivo robots.txt:
Observe os vários comandos baseados no agente do usuário (rastreador) que o arquivo está endereçando.
Esses arquivos são públicos e, para serem encontrados, devem ser hospedados no nível superior de um site. Para encontrar o arquivo robots.txt de um site, insira o domínio raiz de um site seguido por /robots.txt em seu navegador. Por exemplo, o arquivo robots.txt do site Semrush.com pode ser encontrado em https://semrush.com/robots.txt.
Alguns termos que você pode ver em um arquivo robots.txt incluem:
- User-Agent = o rastreador da web para o qual você está dando instruções
- Ex: SiteAuditBot, Googlebot
- Allow = um comando (apenas para o Googlebot) que informa ao bot que ele pode rastrear uma página ou área específica de um site, mesmo se a página ou pasta principal for interditada.
- Disallow = um comando que diz ao bot para não rastrear um URL específico ou subpasta de um site
- Ex: Disallow: /admin/
- Crawl Delay = um comando que informa aos bots quantos segundos devem esperar antes de carregar e rastrear outra página
- Sitemap = indicando onde está o arquivo sitemap.xml para um determinado URL.
- / = use o símbolo “/” após um comando disallow para dizer ao bot para não rastrear todo o seu site
- * = um símbolo curinga que representa qualquer string de caracteres possíveis em uma URL, usado para indicar uma área de um site ou todos os agentes de usuário
- Ex: Disallow: / blog / * indicaria todos os URLs na subpasta de blog de um site
- Ex: User agent: * indicaria instruções para todos os bots
Leia mais sobre as especificações para Robots.txt no site do Google ou no blog da Semrush.
O seguinte código na página principal de um site nos diz que não temos permissão para indexar / seguir links nele e que nosso acesso está bloqueado.
<meta name="robots" content="noindex, nofollow" >
Ou uma página contendo pelo menos um das seguintes tags: " noindex ", "nofollow", "none", levará ao erro de rastreamento.
Para permitir que nosso bot rastreie essa página, remova essas tags do código de sua página. Para obter mais informações sobre a tag noindex, consulte este artigo de suporte do Google.
Para colocar o bot na lista de permissões, entre em contato com seu webmaster ou provedor de hospedagem e peça a eles para colocar SiteAuditBot na lista de permissões.
Os endereços IP do bot são 85.208.98.128/25
O bot está usando as portas 80 HTTP e 443 HTTPS padrão para se conectar.
Se você usar quaisquer plug-ins (Wordpress, por exemplo) ou CDNs (redes de distribuição de conteúdo) para gerenciar seu site, você também precisa colocar o IP do bot na lista de permissões.
Para colocar um bot na lista de permissões no Wordpress, entre em contato com o suporte do Wordpress.
Os CDNs comuns que bloqueiam nosso rastreador incluem:
- Cloudflare - descubra como colocar o nosso bot na lista de permissões aqui
- Imperva - descubra como colocar o nosso bot na lista de permissões aqui
- ModSecurity - descubra como colocar o nosso bot na lista de permissões aqui
- Sucuri - descubra como colocar o nosso bot na lista de permissões aqui
Observação: se você tiver hospedagem compartilhada, é possível que seu provedor de hospedagem não permita que você coloque bots na lista de permissões ou edite o arquivo Robots.txt.
Provedores de hospedagem
Confira abaixo uma lista de alguns dos provedores de hospedagem mais populares na web e como colocar um bot na lista de permissões de cada um ou entrar em contato com a equipe de suporte para obter ajuda
- Siteground - instruções de lista de permissões
- 1&1 IONOS - instruções de lista de permissões
- Bluehost* - instruções de lista de permissões
- Hostgator* - instruções de lista de permissões
- Hostinger - instruções de lista de permissões
- GoDaddy - instruções de lista de permissões
- GreenGeeks - instruções de lista de permissões
- Big Commerce - Entre em contato com o suporte
- Liquid Web - Entre em contato com o suporte
- iPage - Entre em contato com o suporte
- InMotion - Entre em contato com o suporte
- Glowhost - Entre em contato com o suporte
- A2 Hosting - Entre em contato com o suporte
- DreamHost - Entre em contato com o suporte
* Observação: essas instruções funcionam para HostGator e Bluehost se você tiver um site em VPS ou hospedagem dedicada.
Para ver quanto do seu orçamento de rastreamento atual foi usado, vá para Perfil - Informações de assinatura e procure “Páginas a rastrear” em “Meu plano”.
Dependendo do seu nível de assinatura, você está limitado a um determinado número de páginas que pode rastrear em um mês (orçamento de rastreamento mensal). Se você ultrapassar a quantidade de páginas permitidas em sua assinatura, terá que comprar limites adicionais ou esperar até o próximo mês, quando seus limites serão atualizados.
Além disso, se você encontrar o erro “Você atingiu o limite de execução simultânea de campanhas” durante a configuração, lembre-se de que diferentes planos de assinatura têm diferentes limites de auditorias simultâneas.
- Free: 1
- Pro: 2
- Guru: 2
- Business: 5
Se o domínio não pôde ser resolvido pelo DNS, provavelmente significa que o domínio que você inseriu durante a configuração está offline. Normalmente, os usuários têm esse problema ao inserir um domínio raiz (exemplo.com) sem perceber que a versão do domínio raiz de seu site não existe e a versão WWW de seu site precisaria ser inserida em seu lugar (www.exemplo.com).
Para evitar esse problema, o proprietário do site pode adicionar um redirecionamento do “exemplo.com” não seguro para o “www.exemplo.com” seguro que existe no servidor. Esse problema também pode ocorrer, se o domínio raiz estiver protegido, mas sua versão WWW não. Nesse caso, você apenas teria que redirecionar a versão WWW para o domínio raiz.
Se sua página inicial tiver links para o restante de seu site ocultos em elementos JavaScript, você precisa habilitar a renderização JS para que possamos lê-los e rastrear essas página. Esta função está disponível na assinatura Guru ou Business.
Para não perder as páginas mais importantes do seu site com nosso rastreamento, você pode mudar a origem do rastreamento de website para sitemap. Assim, não vamos deixar passar nenhuma página que é mencionada no sitemap.
Nós também podemos rastrear o HTML de uma página que contém alguns elementos em JS e podemos analisar os parâmetros dos seus arquivos JS e CSS com nossas verificações de Desempenho.
Seu site pode estar bloqueando o SemrushBot em seu arquivo robots.txt. Você pode alterar o agente do usuário de SemrushBot para GoogleBot e seu site provavelmente permitirá o rastreamento do agente do usuário do Google. Para fazer essa alteração, encontre a ícone de engrenagem para alterar as configurações do seu projeto e selecione Agente do usuário.
Se esta opção for usada, os recursos internos bloqueados e as páginas bloqueadas para rastreamentos não serão acionados. Lembre-se de que para usar isso, a propriedade do site precisa ser verificada.
Isso é útil para sites que estão atualmente em manutenção. Também é útil quando o proprietário do site não deseja modificar o arquivo robots.txt.
Para auditar áreas privadas do seu site que são protegidas por senha, insira suas credenciais na área “Rastreando com suas credenciais” na aba de configurações. Isso permite que o bot de Auditoria de Site alcance essas páginas e faça a auditoria para você.
Isso é altamente recomendado para sites em desenvolvimento ou privados e totalmente protegidos por senha.