Há cerca de um ano e meio, estabelecemos uma meta para nós mesmos.O objetivo era construir o maior banco de dados de backlinks, de atualização mais rápida e de mais alta qualidade para nossos clientes, e ser também melhor que os concorrentes já conhecidos no mercado.
Agora que atingimos nossa meta, mal podemos esperar que você faça um teste.Mas quer saber antes como exatamente conseguimos construir esse banco de dados?
Bastou uma combinação de cerca de 16.722 xícaras de café com mais de 500 servidores e 30.000 horas de trabalho de nossa equipe de engenheiros e cientistas de dados.
Parece simples, né?
Confira este post do blog para ver como somos mais rápidos em comparação com os concorrentes conhecidos.
Banco de dados de backlinks novo e aprimorado
Primeiro, vamos falar sobre o que há de novo, depois mostraremos como o alcançamos e quais problemas resolvemos. Com o aumento do armazenamento e três vezes mais rastreadores, nossa base de backlinks tem a capacidade de encontrar, indexar e crescer ainda mais.
Em média, agora nós estamos rastreando:
Como funciona o banco de dados de backlink da Semrush
Antes de nos aprofundarmos no que foi melhorado, vamos rever os princípios básicos de como nosso banco de dados de backlinks opera.
Primeiro, geramos uma fila de URLs que decide quais páginas serão enviadas para rastreamento.
Em seguida, nossos rastreadores saem e inspecionam essas páginas. Quando nossos rastreadores identificam hiperlinks apontando dessas páginas para outra página na Internet, eles salvam essas informações.
Em seguida, haveria um armazenamento temporário, que retém todos esses dados por um período de tempo antes de despejá-los no armazenamento público que qualquer usuário da Semrush pode ver na ferramenta.
Com a nossa nova arquitetura, praticamente removemos a etapa de armazenamento temporário, adicionamos 3x mais rastreadores e adicionamos um conjunto de filtros antes da fila, para que todo o processo seja muito mais rápido e eficiente.
Fila
Simplificando, há muitas páginas para rastrear na Internet.
Algumas precisam ser rastreadas com mais frequência, outras nem precisam ser rastreadas. Portanto, usamos uma fila que decide em que ordem os URLs serão enviados para rastreamento.
Um problema comum nesta etapa é rastrear muitos URLs semelhantes e irrelevantes, o que pode fazer com que as pessoas vejam mais spam e menos domínios de referência exclusivos.
Então, o que fizemos?
Para otimizar a fila, adicionamos filtros que priorizam conteúdo exclusivo, sites de autoridade superior e protegidos contra link farms. Como resultado, o sistema agora encontra mais conteúdo exclusivo e gera menos relatórios com links duplicados.
Alguns destaques de como o sistema funciona agora:
- Para proteger nossa fila de link farms, verificamos se um grande número de domínios é do mesmo endereço IP. Se virmos muitos domínios do mesmo IP, sua prioridade na fila será reduzida, permitindo-nos rastrear mais domínios de IPs diferentes e não ficar preso em um link farm.
- Para proteger os sites e evitar poluir nossos relatórios com links semelhantes, verificamos se há muitos URLs do mesmo domínio. Se virmos muitos URLs do mesmo domínio, nem todos serão rastreados no mesmo dia.
- Para garantir que rastreamos páginas novas o mais rápido possível, todos os URLs que não rastreamos antes terão mais prioridade.
- Cada página tem seu próprio código hash que nos ajuda a priorizar o rastreamento de conteúdo exclusivo.
- Levamos em consideração a frequência com que novos links são gerados na página de origem.
- Levamos em consideração a Pontuação de Autoridade (Authority Score) de uma página e de um domínio.
Como melhoramos a fila
- Mais de 10 fatores diferentes para filtrar links desnecessários.
- Páginas exclusivas e de alta qualidade devido aos novos algoritmos de controle de qualidade.
Rastreadores
Nossos rastreadores seguem links internos e externos na Internet em busca de novas páginas com links. Assim, só podemos encontrar uma página se houver um link de entrada para ela.
Ao revisar nosso sistema anterior, vimos uma oportunidade de aumentar a capacidade geral de rastreamento e encontrar um conteúdo melhor - o conteúdo que os proprietários de sites desejam que rastreemos e indexemos.
O que fizemos?
- Triplicamos nosso número de rastreadores (de 10 para 30)
- Rastreamento de páginas interrompido com parâmetros de url que não afetam o conteúdo da página (&sessionid, UTM, etc.)
- Maior frequência de leitura de acordo com as instruções dos arquivos robots.txt nos sites
Como melhoramos os rastreadores
- Mais rastreadores (30 agora!)
- Dados limpos e sem links duplicados
- Melhor em encontrar o conteúdo mais relevante
- Velocidade de rastreamento de 25 bilhões de páginas por dia
Armazenamento
O armazenamento é onde armazenamos todos os links que você pode ver como um usuário da Semrush. Esse armazenamento mostra os links para você na ferramenta e oferece filtros que você pode aplicar para encontrar o que procura.
A principal preocupação que tínhamos com nosso antigo sistema de armazenamento era que ele só poderia ser completamente reescrito após a atualização. Isso significava que a cada 2-3 semanas, ele era reescrito e o processo seria reiniciado.
Assim, durante a atualização, novos links se acumularam no armazenamento intermediário, criando um atraso na visibilidade na ferramenta aos usuários. Queríamos ver se poderíamos melhorar a velocidade nesta etapa.
Então, o que fizemos?
Para melhorar isso, reescrevemos a arquitetura do zero. Para eliminar a necessidade de armazenamento temporário, aumentamos nosso número de servidores em mais de quatro vezes.
Isso levou mais de 30.000 horas de tempo de engenharia para implementar as tecnologias mais recentes. Agora, temos um sistema escalável que não atingirá nenhum limite agora ou no futuro.
Como melhoramos o armazenamento
- Mais de 500 servidores no total
- 287 TB de memória RAM
- 16.128 núcleos
- 30 PB de espaço de armazenamento total
- Filtragem e relatórios ultrarrápidos
- ATUALIZAÇÃO INSTANT NEA - chega de armazenamento temporário
Estudo de banco de dados de backlinks
Executamos um estudo em duas partes comparando a velocidade da nossa ferramenta de Análises de acklinks com Moz, Ahrefs e Majestic.Para ver exatamente quanto mais rápido nossa ferramenta é em comparação com outras ferramentas de SEO no mercado, leia este post do blog .
Estamos tão orgulhosos de nosso novo banco de dados de backlinks que queremos que todos possam experimentar tudo o que ele tem a oferecer.
Ganhe acesso GRATUITO ao se inscrever para uma conta gratuita da Semrush - a seção de Análises de Backlinks estará totalmente aberta para você.
Experimente e compartilhe o que você achou!
Bem-vindo ao futuro de gestãode backlinks!