Os fatores de ranqueamento da Semrush: Metodologia Desmistificada

Para a segunda edição de Pesquisa de Fatores de Ranqueamento 2017 da SEMrush adicionamos mais 5 factores relacionados com backlinks e comparamos a influência deles sobre o domínio e URL. Agora queremos explicar a nossa metodologia com mais detalhes.

Em Junho, quando lançamos a primeira edição da pesquisa, muitos ficaram desconfiados - normalmente a quantidade elevada de visitas diretas ao site é vista como resultado de aparição do site nas posições elevadas no Google, não ao contrário.

E mesmo assim, a nossa pesquisa comprovou duas vezes que as visitas diretas são o fator de ranqueamento mais importante entre todos os analisados.

A metodologia usada é única na área de estudos de SEO - ao invés de optar por análise de correlação, usamos o algoritmo de aprendizado de máquina Random Forest.

Vamos dar uma olhada nos bastidores do estudo, trazer para a luz algumas detalhes e desmentir alguns mitos comuns para que você possa usar os resultados da nossa pesquisa tendo a total confiança na veracidade deles.

Brincadeiras à parte, este post é para os verdadeiros nerds, por isso deixamos aqui um pequeno glossário.

Árvore de decisões - uma estrutura em formato da árvore que representa o algoritmo de aprendizado de máquina usado nas tarefas de classificação. Ele divide um conjunto de dados de amostra em grupos / subconjuntos homogêneos com base no mais significativo de todos os atributos.

Aprendizado de máquina supervisionado(AMS) — tipo de algoritmo de aprendizado de máquina que treina um modelo para encontrar padrões entre variáveis de entrada (características, A) e variáveis de saída (valor alvo, B): B = f(A). O objetivo de AMS é testar esse modelo em uma amostra de dados, de modo que, quando aparecem os dados fora da amostra, o algoritmo poderia prever o valor alvo de forma precisa, com base no conjunto de recursos oferecido. O conjunto de dados de treinamento representa um professor cuidando do processo de aprendizagem. O treinamento é considerado bem-sucedido e termina quando o algoritmo atinge uma qualidade de desempenho aceitável.

Característica (atributo ou variável de entrada) — uma característica de entrada de dados separada usada na análise. Para o nosso estudo e esta postagem no blog, as características são os supostos fatores de ranqueamento.

Classificação binária - um tipo de tarefas de classificação, que cai na categoria de aprendizagem supervisionada. O objetivo desta tarefa é prever um valor alvo (= classe) para cada entrada de dados, e para a classificação binária, ele pode ser apenas 1 ou 0.

Usando o Algoritmo Random Forest para a Pesquisa de Fatores de Ranqueamento

O algoritmo Random Forest foi criado por Leo Breiman e Adele Cutler nos anos 1990s. Não houve mudanças importantes desde então, o que prova sua alta qualidade e universalidade: é usado para classificação, regressão, agrupamento, seleção de recursos e outras tarefas.

Embora o algoritmo Random Forest não é muito conhecido, ele foi escolhido por uma série de razões:

É uma dos algoritmos de aprendizado de máquina mais populares que possui uma precisão incomparável. Sua primeira e principal aplicação é classificar a importância das variáveis (e sua natureza é perfeita para esta tarefa - abordaremos isso mais tarde nesta publicação), por isso pareceu uma escolha óbvia.

O algoritmo trata os dados de uma maneira que minimiza erros:
1. O método de subespaço aleatório oferece a cada “aluno” amostras aleatórias de características. Isso garante que o aluno não estará excessivamente focado em um conjunto pré-definido de características e não fará decisões tendenciosas sobre um conjunto de dados fora da amostra.
2. O método de agregação de empacotamento ou bootstrap também melhora a precisão. Seu ponto principal é oferecer aos alunos não um conjunto de dados completo, mas amostras aleatórias de dados.

Dado que não temos uma única árvore de decisão, mas sim toda uma floresta de centenas de árvores, podemos ter certeza de que cada característica e cada par de domínios serão analisados aproximadamente o mesmo número de vezes. Portanto, o método Random Forest é estável e opera com erros mínimos.

Abordagem Pairwise: Pre-Processando os Dados de Entrada

Decidimos basear nosso estudo em um conjunto de 600.000 palavras-chave da base de dados mundial (EUA, Espanha, França, Itália, Alemanha e outros), nos dados de posição do URL para os 20 principais resultados de pesquisa e uma lista de fatores de classificação alegados. Como não íamos usar a análise de correlação, realizamos a classificação binária antes de aplicar o algoritmo de aprendizado da máquina. Esta tarefa foi implementada com a abordagem Pairwise - um dos métodos de classificação mais populares, utilizado, entre outros, pela Microsoft em seus projetos de pesquisa.

A abordagem Pairwise implica que, em vez de examinar um conjunto de dados inteiro, cada SERP é estudado individualmente - comparamos todos os pares possíveis de URLs (o primeiro resultado na página com o quinto, o sétimo resultado com o segundo, etc.) em relação a cadacaracterística.

Cada par recebe um conjunto de valores absolutos, em que cada valor é um quociente após dividir o valor da característica do primeiro URL pelo valor da característica do segundo URL. Além disso, cada par também recebe um valor alvo que indica se o primeiro URL está posicionado acima do segundo no SERP (valor alvo = 1) ou embaixo (valor alvo = 0).

Resultados do procedimento:

Cada par de URL recebe um conjunto de quocientes para cada característica e um valor alvo de 1 ou 0. Essa variedade de números será usada como um conjunto de dados de treinamento para as árvores de decisão.
Agora podemos fazer observações estatísticas de que certos valores de características e suas combinações tendem a resultar em uma posição SERP mais alta para um URL. Isso permite construir uma hipótese sobre a importância de certas características e fazer uma previsão se um certo conjunto de valores de características levará à classificações mais altas

Criando o Conjunto de Árvores de Decisão: Aprendizagem Supervisionada

O conjunto de dados que recebemos após o passo anterior é absolutamente universal e pode ser usado para qualquer algoritmo de aprendizado de máquina. Nossa escolha preferida foi Random Forest, um conjunto de árvores de decisão.

Antes que as árvores possam tomar decisões razoáveis, eles precisam treinar - é aqui que o aprendizado de máquina supervisionado ocorre. Para certificar-se de que o treinamento é feito corretamente e as decisões imparciais sobre o conjunto de dados principais são feitas, são utilizados os métodos de ensacamento e subespaço aleatórios.

Bagging é o processo de criação de um conjunto de dados de treinamento por amostragem com substituição. Vamos supor que temos X linhas de dados. De acordo com os princípios de ensacamento, vamos criar um conjunto de dados de treinamento para cada árvore de decisão, e este conjunto terá o mesmo número de linhas X. No entanto, esses conjuntos de amostras serão preenchidos aleatoriamente e com substituição - de modo que inclua apenas aproximadamente dois terços das linhas X originais, e haverá duplicatas de valor. Cerca de um terço dos valores originais permanecem intactos e serão usados uma vez que a aprendizagem acabou.

Fizemos a mesma coisa para as características usando o método de subespaço aleatório - as árvores de decisão foram treinadas em amostras aleatórias de recursos em vez de todo o conjunto de recursos.

Nenhuma árvore usa todo o conjunto de dados e toda a lista de recursos. Mas ter uma floresta de múltiplas árvores permite dizer que todos os valores e todas as características são muito prováveis de ser usados aproximadamente a mesma quantidade de vezes.

Criando a Floresta

Cada árvore de decisão divide repetidamente o conjunto de dados da amostra de treinamento baseando-se na variável mais importante e faz isso até que cada subconjunto consista de entradas de dados homogêneas. A árvore verifica todo o conjunto de dados de treinamento e escolha a característica mais importante e seu valor preciso, que se torna um tipo de ponto de pivô (nó) e divide os dados em dois grupos. Para um grupo, a condição escolhida acima é verdadeira; para o outro - falso (ramos SIM e NÃO). Todos os subgrupos finais (folhas do nó) recebem um valor de destino médio com base nos valores-alvo dos pares de URL que foram colocados em um determinado subgrupo.

Como as árvores usam o conjunto de dados de amostra para crescer, eles aprendem enquanto crescem.

A aprendizagem é considerada bem-sucedida e de alta qualidade quando se alcança uma porcentagem alvo de valores-alvo corretamente adivinhados.

Uma vez que todo o conjunto de árvores é cultivado e treinado, a magia começa - as árvores agora podem processar os dados fora da amostra (cerca de um terço do conjunto de dados original). Um par de URLs é oferecido a uma árvore somente se ela não encontrou o mesmo par durante o treinamento. Isso significa que um par de URLs não é oferecido à 100 por cento das árvores na floresta. Então, a votação ocorre: para cada par de URLs, uma árvore dá seu veredicto, aka a probabilidade de um URL assumir uma posição mais alta no SERP em comparação com o segundo. No final, cada par de URL obtém um conjunto de valores de probabilidade até que todas as probabilidades recebidas são médias. Agora, há dados suficientes para o próximo passo.

Estimando a Importância do Atributo com Random Forest

Random Forest produz resultados extremamente credíveis quando se trata de atribuir estimativa de importância. A avaliação é realizada da seguinte forma:

Os valores dos atributos são misturados em todos os pares de URLs, e estes conjuntos de valores atualizados são oferecidos ao algoritmo.
Todas as mudanças na qualidade ou estabilidade do algoritmo são medidas (para verificar se a porcentagem de valores-alvo devidamente adivinhados permanece igual ou não).
Então, com base nos valores recebidos, podemos fazer as conclusões:

Se a qualidade do algoritmo cair significativamente, o atributo é importante. Quando mais pesado é a queda na qualidade, mais importante é o atributo.
Se a qualidade do algoritmo permanece a mesma, o atributo tem pouca importância.

O procedimento é repetido para todos os atributos. No final, obtém-se uma classificação dos fatores de ranqueamento mais importantes.

Porque preferimos o Random Forest ao Análise de Correlação

Intencionalmente abandonamos a prática geral de usar a análise de correlação e mesmo assim recebemos alguns comentários como "Correlação não significa causalidade", "Nem parecem fatores de ranqueamento, mas correlações". Portanto, sentimos que esse ponto merece um parágrafo separado.

Em primeiro lugar, gostaríamos de ressaltar novamente que o conjunto de dados inicial utilizado para o estudo é um conjunto de valores altamente variáveis. Lembre-se que não examinamos um só, mas 600.000 SERPs. Cada SERP é caracterizada por seu próprio valor de atributo médio, e essa singularidade é completamente desconsiderada no processo de análise de correlação. Dito isto, acreditamos que cada SERP deve ser tratada separadamente e com consideração da sua originalidade.

Análise de correlação fornece resultados confiáveis apenas na hora de examinar a relação entre duas variáveis (por exemplo, o impacto do número de backlinks em uma posição da SERP). "Este fator particular influencia a posição?" - esta questão pode ser respondida com bastante precisão, uma vez que a única variável impactante está envolvida. Mas será que podemos estudar cada fator isoladamente? Provavelmente não, como todos sabemos que existe uma série de fatores que influenciam uma posição de URL em uma SERP.

Outro critério de qualidade para a análise de correlação é a variedade dos índices de correlação recebidos. Por exemplo, se houver um grupo de índices de correlação (-1, 0,3 e 0,8), seria justo dizer que existe um parâmetro mais importante do que outros. Quanto mais próximo do valor absoluto da razão, ou módulo, for para 1, mais forte será a correlação. Se o módulo da relação for inferior a 0,3, tal correlação pode ser desconsiderada - a dependência entre as duas variáveis, neste caso, é muito fraca para fazer conclusões confiáveis. Para todos os fatores que analisamos, o índice de correlação foi inferior a 0,3, então tivemos que desistir desse método.

Mais uma razão para descartar este método de análise foi a alta sensibilidade do valor de correlação à valores atípicos e ruídos, e os dados de várias palavras-chave estavam cheiosdeles. Se uma entrada de dados extra for adicionada ao conjunto de dados, a taxa de correlação muda imediatamente. Portanto, esta métrica não pode ser viável no caso de variáveis múltiplas, por exemplo em um estudo de fatores de ranqueamento, e pode até levar a conclusões incorretas.

Finalizando, é difícil acreditar que um ou dois fatores com um módulo de relação de correlação tão próximo de um existem - se isso fosse verdade, qualquer um poderia facilmente haquear os algoritmos do Google, e todos estaríamos na posição 1!

Perguntas Frequentes

Embora tentamos responder a maioria das perguntas freqüentes acima, aqui estão mais algumas para os leitores mais curiosos.

Por que optamos por não utilizar redes neurais artificiais (RNAs)?

Embora as redes neurais artificiais são perfeitas para tarefas com grande número de variáveis, por exemplo, para reconhecimento de imagem (onde cada pixel é uma variável), eles produzem resultados que são difíceis de interpretar e não permitem que você compare o peso de cada fator. Além disso, as RNAs exigem um conjunto de dados maciço e muitos recursos para produzir resultados confiáveis, e os dados de entrada que coletamos não correspondiam a essa descrição.

Ao contrário do Random Forest, onde cada árvore de decisão vota de forma independente e, portanto, um alto nível de confiabilidade é garantida, as redes neurais processam dados em um único pote. Não há indicações que o uso de RNA para este estudo resultaria em resultados mais precisos.

Nossos principais requisitos para um método de pesquisa foram a estabilidade e a capacidade de identificar a importância dos fatores. Dito isso, a Random Forest foi uma solução perfeito para nossa tarefa, que é comprovada por inúmeras tarefas de classificação de natureza similar, também implementadas com a ajuda desse algoritmo..

Por que as visitas ao site são o fator de classificação mais importante do Google?

Confessamos, este foi provavelmente o take-away mais controverso do nosso estudo. Quando vimos os resultados da nossa análise, ficamos igualmente surpreendidos. Ao mesmo tempo, nosso algoritmo foi treinado com um sólido escopo de dados, então decidimos verificar tudo mais uma vez. Excluímos os dados de pesquisa orgânicos e pagos, bem como o tráfego social e de referência, e levamos em conta apenas o tráfego direto, e os resultados foram praticamente os mesmos - a distribuição da posição permaneceu inalterada (os gráficos nas pp. 40-41 do estudo ilustra esse ponto).

Para nós, essa conclusão faz todo o sentido e confirma que o Google prioriza domínios com mais autoridade, conforme descrito em suas Search Quality Evaluator Guidelines. Embora pareça que a autoridade do domínio é apenas uma desculpa e um conceito muito vago e efêmero, essas diretrizes dissipam completamente esse mito. Em 2015, o Google apresentou este manual para ajudar a estimar a qualidade do site e "ver o que o Google pensa que os usuários querem".

O manual lista E-A-T (Experiência, Autoridade e Confiabilidade), como um importante indicador de qualidade de página da web. Qualidade e quantidade de conteúdo principal, informações do site (ou seja, quem é responsável pelo site) e a reputação do site influenciam o E-A-T de um site. Você pode pensar nisso da seguinte maneira: se um URL classificar-se no top 10, por padrão, ele contém conteúdo relevante para uma consulta de pesquisa do usuário.

Mas para distribuir os lugares entre esses dez líderes, o Google começa a contar os parâmetros adicionais. Todos sabemos que há uma equipe inteira de avaliadores de qualidade de busca nos bastidores, que é responsável por treinar os algoritmos de busca do Google e melhorar a relevância dos resultados de pesquisa. Conforme recomendado pelas Diretrizes do Avaliador de Qualidade do Google, os avaliadores devem dar prioridade às páginas de alta qualidade. Assim, o algoritmo de classificação é treinado para atribuir uma posição mais alta às páginas que pertencem a domínios confiáveis e altamente autorizados, e achamos que essa pode ser a razão dos dados que recebemos para o tráfego direto e sua importância como fator de ranqueamento.

E tem mais: na conferência da SMX East, o Gary Illyes do Google confirmou que "como as pessoas percebem seu site vai afetar o seu negócio". E, embora isso, de acordo com Illyes, não afeta necessariamente a forma como o Google classifica seu site, ainda parece importante investir em ganhar a lealdade dos usuários: usuários felizes = Google feliz.

O que isso significa para você?

Bom, a consciência da marca (estimada, entre outras coisas, pelo número de visitas diretas ao seu site) afeta fortemente seus ranqueamentos e merece seu esforço de alinhar isso com o SEO.

Diferença entre o impacto de fatores de ranqueamento em URL vs um domínio

Como você pode ter reparado, todo gráfico de nosso estudo mostra um pico notável para a segunda posição. Decidimos dar um olhada e avaliar esse desvio e, dessa forma acrescentamos uma nova dimensão ao nosso estudo. A segunda edição cobre o impacto dos três fatores mais importantes (visitas diretas ao site, tempo no site e número de domínios referentes) nos rankings de um URL específico, em vez de apenas considerar o domínio em que reside.

Poderia pensar que os sites da primeira posição são os mais otimizados e, no entanto, vimos que toda linha de tendência mostrava uma queda na primeira posição.

Conectamos esse desvio com as pesquisas de palavras-chave da marca. Um domínio provavelmente assumirá a primeira posição no SERP para qualquer consulta de pesquisa que contenha suas palavras-chave de marca. E não importa o quão bem um site é otimizado, ele vai aparecer na posição 1 de qualquer maneira, então não tem nada a ver com os esforços de SEO. Isso explica por que os fatores de ranqueamento afetam a segunda posição do SERP mais do que a primeira.

Para provar isso, decidimos analisar nossos dados de um novo ângulo: investigamos como os fatores de classificação impactam URLs únicos que aparecem nos SERPs. Para cada fator, construímos gráficos separados que mostram a distribuição de URLs e domínios nas primeiras 10 posições da SERP (veja as pp. 50-54). Embora o estudo inclua gráficos apenas para os três principais fatores mais influentes, a tendência que descobrimos persiste também para outros fatores.

O que isso significa para você como comerciante? Quando um domínio está ranqueando para uma palavra-chave de marca, muitos fatores perdem sua influência. No entanto, ao otimizar palavras-chave sem marca, tenha em mente que os fatores de classificação analisados têm mais influência nas posições do URL específicos do que no domínio em que reside. Isso significa que os rankings de uma página específica são mais sensíveis à otimização na página, esforços de linkbuilding e outras técnicas de otimização.

Conclusão: Como trabalhar com a Pesquisa “Fatores de Ranqueamento” da SEMrush

Não há garantia de que, se você melhorar as métricas do seu site para qualquer um dos fatores acima, suas páginas começarão a ranquear melhor. Realizamos um estudo muito completo que nos permitiu tirar conclusões confiáveis sobre a importância desses 17 fatores sobre ranqueamento no Google. No entanto, este é apenas um trabalho de engenharia reversa bem feito, não um plano de ação universal - e é sobre isso que são todas as pesquisas de fatores de ranqueamento. Ninguém, exceto o Google, conhece todos os segredos. No entanto, aqui é um fluxo de trabalho que sugerimos para trabalhar com a nossa pesquisa:

Passo 1. Compreenda as palavras-chave para quais você ranqueia - pertencem a grupos de volume de pesquisa de baixo, médio ou alto?
Passo 2. Compare-se com a sua concorrência: examine mais de perto os métodos que eles usam para atingir o top 10 e as métricas deles- será que têm muitos backlinks? Os seus domínios são protegidos com o HTTPS?
Passo 3. Com a ajuda do estudo, escolha e comece a implementar as técnicas de otimização que produzirão os melhores resultados com base em suas palavras-chave e nível de competição em SERPs.

Novamente, te convidamos para conferir o nosso estudo, reconsiderar os conceitos de E-A-T e focar em criar uma boa estratégia de SEO, baseada em fatos!

[ranking-factors]

Quais fatores você quer que analisemos na próxima edição do estudo? Deixe-nos saber nos comentários!

Pesquisa de Fatores de Ranqueamento da Semrush — Metodologia Desmistificada