LinkedIn Link to LinkedIn Twitter Link to Twitter

Les algorithmes de Google que doit connaître n’importe quel référenceur

0 commentaires

Dans un monde où Google détient plus de 90% des parts de marché parmi les moteurs de recherche, il s’agit toujours d’optimiser le référencement pour le moteur de recherche Google.

Dans cet article, nous verrons les principaux algorithmes du moteur de recherche Google que tout référenceur SEO doit connaître, et l’impact qui en découle pour optimiser votre référencement naturel.

Le learning to rank

Comment pondérer les centaines de signaux de facteurs de classement pour décider du score d’une page pour une requête donnée ? Si une page a un bon contenu mais sans backlinks ? Et si la page a beaucoup de backlinks mais pas un bon contenu ? C’est tout là le principe du learning to rank.

Le learning to rank pondère l’ensemble des signaux en fonction d’une page donnée. Par exemple, un site e-commerce sur une requête d’intention de recherche comme « acheter machine à café » aura des critères de classement différents d’une page informationnelle qui explique comment utiliser une machine à café.
Si tous les critères de classement ne changent pas, leurs coefficients changent. Par exemple, si vous êtes en filière scientifique, le coefficient de votre note en mathématiques sera plus important que celui de votre note d’anglais.

Donc, finalement, la page avec « acheter machine à café » n’aura pas besoin de milliers de mots pour se classer sur la requête, à l’inverse de la page qui doit détailler et expliquer comment utiliser la machine à café.
Ainsi, on peut imaginer que le critère de l’importance du contenu aura un coefficient de 1 pour la première page, mais avec un coefficient de 9 en termes de popularité (backlinks). Ce qui pourrait être l’inverse pour la deuxième page, c’est-à-dire « comment utiliser une machine à café » aurait un coefficient de 9 sur le contenu et une note de 1 pour la popularité.

Que ce soit Google ou un référenceur, si quelqu’un prétend qu’il y a tel ou tel critère plus important qu’un autre, en réalité à cause ou grâce à cet algorithme, personne ne peut savoir ce qui doit être fait, même s’il travaille chez Google.

Le learning to rank, comme probablement tous les algorithmes de Google, est à base d’intelligence artificielle, ici plus précisément de deep learning avec des réseaux de neurones (TensorFlow). En outre, rien n’est écrit noir sur blanc et personne ne peut prétendre quelle métrique sera plus importante à prendre en compte qu’une autre. Bien que statistiquement, les requêtes commerciales typiquement n’ont pas besoin de contenu révolutionnaire, il est même souvent plus apprécié de copier coller la même chose que ses concurrents pour que les internautes ne se perdent pas pour la même référence de produit. Google l’a très bien compris et ne le sanctionne pas. Il va chercher d’autres critères de classement pour juger si cette page qui vend le même produit est meilleure qu’une autre.

Vous pouvez imaginer n’importe quel critère de classement, le learning to rank fait ça pour tous les signaux. Pour en citer quelques-uns :

  • La popularité : trust, PageRank thématique, spam mass, etc.
  • Backlinks depuis des sites d’autorité en .edu, .gouv
  • TF-IDF, cosinus de salton, word2vec, fasttext (le contenu est-il bon ?)
  • Présence des mots-clés dans les titres H1,H2, dans les URL…
  • TTFB, vitesse de chargement
  • Duplication de contenu (ce qui n’est pas pris en compte pour des requêtes purement commerciales justement)
  • Âge de la page, du domaine
  • etc.

Le learning to rank apprend des classements

Le learning to rank comme son nom l’indique est un algorithme qui apprend pour classer les pages. S’il pondère les critères de classement en fonction d’une page et d’une requête données, il ne fait pas que ça.

En fait, il va aussi calculer si votre site est pertinent en analysant le CTR d’un site dans les résultats de recherche (page appelée également SERP).
Le CTR est le nombre de clics par rapport au nombre d’impressions. Une impression est un affichage. Si un site est affiché 100 fois sur une requête et que son nombre de clics est de 10, le CTR est de 10 %.

Lorsqu’un internaute arrive sur une SERP, quel site va lui donner envie ? Entre rich snippets et l’attractivité des titres et des meta descriptions, un internaute cliquera sur un lien plutôt qu’un autre. Si personne ne clique sur un site alors qu’il est en première page, le learning to rank va apprendre que le site en question n’est visiblement pas pertinent et fera chuter son classement. Ou inversement, si tout le monde clique sur le site, il grimpe alors dans les résultats de recherche.

Même si cela est beaucoup plus nuancé et controversé, il est possible qu’il analyse également votre temps passé sur la page après un clic. Si vous ne correspondez pas à une moyenne de temps passé sur une page qui est cohérente par rapport à l’intention de recherche de la requête, alors il semble que vous ne soyez pas pertinent.

Par exemple la requête « comment moudre des grains à café », imaginons que le temps passé en moyenne sur les pages référencées est de 3 minutes, si la majorité de vos internautes quitte votre site en 20 secondes c’est qu’il y a un problème.

Pour des questions de coût de calcul, le learning-to-rank est un algorithme qui a uniquement un impact sur les pages qui sont dans le top 10. Il est donc préférable d’optimiser le CTR uniquement à partir du moment où vos pages sont en 7, 8, ou 9ème position. C'est là où travailler sur les meta descriptions par exemple aura véritablement un impact en tant que facteur de classement.

Je parle brièvement des optimisations des algorithmes dans l’article sur le référencement SEO technique, comme l’ajout de vidéo pour retenir le visiteur ou encore à ajouter des schema markup pour augmenter le CTR.

BERT

BERT ? C’est quoi ? BERT pour Bidirectional Encoder Representations from Transformers est un algorithme de machine learning dédié au traitement du langage naturel. C’est cet algorithme qui détecte la fameuse « intention de recherche ». Mais il fait aussi bien d’autres choses.

BERT est capable de prévoir sur quelle intention un utilisateur va se concentrer plutôt qu’une autre.
Par exemple, la phrase « She is eating a green apple », l’algorithme détecte que l’utilisateur va se concentrer sur la lecture de « apple » après avoir lu « eating », plutôt que de se concentrer sur l’adjectif « green ».

Le fonctionnement de l'algorithme BERT

BERT essaie donc de mimer le comportement humain. Si vous souhaitez en savoir plus, je vous laisse compléter votre lecture sur l’article de Lilian Weng où tout est expliqué : https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html

BERT est également capable de prédire quel mot va apparaître dans un contexte. Sans doute plus intéressant encore, BERT est capable de lever les ambiguïtés dans une requête grâce à l’analyse de contexte.
Par exemple « le problème n’a pas de solution » et « faire chauffer la solution à 78 degrés », le mot solution n’a pas le même sens en fonction du contexte de la requête.

L’arrivée de BERT a donc considérablement amélioré la qualité du moteur de recherche dès arrivée.
À noter, qu’en 2021, Google a annoncé MUM. Un algorithme 1000 fois plus puissant que BERT. MUM pour  « Multitask Unified Model » (en français : Modèle Unifié Multitâche). Pour l'instant (janvier 2022), aucune date de sortie, même approximative, n'a encore été évoquée, il reste toujours en phase de test en interne au sein de la firme de Mountain View.

Le PageRank, l’algorithme de mesure de popularité

Un lien permet de gagner en autorité aux yeux de Google, qu’il s’agisse des liens entre vos propres pages ou des sites externes qui parlent de vous. Cette autorité permet de vous classer sur les résultats de recherche. Les liens sont l’un des 3 facteurs les plus importants en SEO. On dit que les liens permettent de diffuser le « jus SEO ». On parle de PageRank, de jus de lien (link juice) et bien d’autres.

Toutes les pages du web ont ce fameux PageRank. Plus précisément, toutes les pages web indexées ont un PageRank. La valeur de ce fluide, de cette popularité, vaut 1. Au début toutes les pages possèdent 1/N.

La formule de l'initialisation du PageRank

Selon les liens qui sont présents dans une page, la popularité sera transmise divisée par le nombre de liens (c*PR ; c’ est une constante qui vaut 0,85, c’est la constante de téléportation).

Dans le schéma suivant, V1 transmet 85 % de son PageRank vers U. Alors que V3 a 2 liens, il transmet 85 % de son PageRank divisé par 2. Etc.

Fonctionnement du calcul du PageRank

À la fin de ce tour de calcul, le calcul du PageRank n’est pas encore fini. Les 15 % du PageRank qui n’ont pas été donnés, sont disttibués à parts égales entre les liens.

Le calcul itératif du PageRank

Grâce à ces itérations, une page va hériter du PageRank de ses voisins et ainsi de suite.

Appelé « réservoir de PageRank », un site a un PR disponible de base proportionnel à son nombre de pages.

Le PageRank est une probabilité (due au surfeur raisonnable), cela a un énorme impact sur le SEO. Si vous comprenez ça et le PageRank thématique, vous comprenez tout concernant le netlinking et le maillage interne.

Le surfeur aléatoire

La constante c (=0,85) vient du principe du surfeur aléatoire. L’idée était de créer un principe de téléportation pour imiter le comportement humain. Quand un visiteur arrive sur une page, il se téléporte en cliquant sur un autre lien de la page ou quitte la page. En revanche, cette téléportation comme son nom l’indique est aléatoire.

Il fallait donc régler ce problème et avoir des données plus fiables.

Le surfeur raisonnable

Le surfeur raisonnable permet de gommer les problèmes du surfeur aléatoire. La probabilité qu’un visiteur clique sur un lien de la page, du menu, ou sur un lien présent dans le contenu ou encore qu’il quitte la page n’est pas du tout aléatoire et peut être plus finement prédite.

Ainsi, le surfeur raisonnable, en fonction de ses datas, donne un coefficient à chaque partie d’une page. En premier lieu, il découpe le site en plusieurs parties, il découpe le menu, le footer et le contenu. Ensuite, il donne une probabilité différente si un utilisateur clique sur un lien du contenu plutôt que sur un lien du menu.
Ainsi, le premier lien sur le contenu pourrait avoir une probabilité de clic de 50 % alors qu’un lien présent dans le footer pourrait être de l’ordre de 2 %.

Ce qui est important à retenir c’est que la transmission de popularité sera beaucoup plus importante dans un lien présent dans le contenu, (et d’autant plus le premier lien), alors que les liens présents dans le footer ou le menu en auront beaucoup moins.

Pour résumer, voici un schéma :

Schéma du surfeur raisonnable

La diffusion de la popularité entre tous les liens ne seront pas proportionnelle en fonction de la position de vos liens. Mais pas que.

Le PageRank thématique

Si le PageRank n’est pas proportionnel due au surfeur raisonnable, ce n’est pas le seul facteur qui influe sur la différence de puissance d’autorité transférée.

Nous avons vu précédemment le « réservoir de PageRank ». Un site a un PR disponible de base proportionnel à son nombre de pages.

Alors imaginons 2 thématiques.
La première serait sur l’astrologie, la deuxième sur la chimie. Imaginons que la thématique chimie est beaucoup plus importante que l’astrologie dans le monde du web, alors la thématique chimie a un réservoir de PageRank bien supérieur.
Si un internaute tape sur Google la requête « mercure », grâce au réservoir de PR plus important, les sites qui seront affichés proposeront en réponse que le mercure est un métal argenté brillant (thématique chimie). Alors que l’internaute pourrait aussi chercher des informations sur la planète Mercure. Le problème est qu’ en supposant que la thématique astrologie ait un réservoir plus bas de PageRank, la SERP n’affiche pas de résultat sur la planète Mercure. C’est ce que l’on appelle le masquage sémantique.

Pour l’histoire, des petits génies SEO se servaient de grand réservoir de thématiques pour pousser l’autorité de leurs pages et cela sans beaucoup de contexte dans le lien, simplement parce que cela était beaucoup plus puissant.

Le PageRank thématique a coupé court à cette manipulation très douteuse. Aujourd’hui, un lien qui est dit non thématisé n’a pas ou presque pas de bénéfice pour augmenter la popularité. C’est-à-dire que si un site de thématique voiture envoie un lien vers un site de thématique jardin, alors le lien n’aura presque aucun intérêt pour votre référencement, voire aucun.

Pour les nerds, le calcul du PageRank thématique ressemble à ça :

Le calcul du PageRank thématique

Vous pouvez retrouver le PageRank thématique dans l’outil Babbar, appelé Semantic Valu. En effet, cette métrique calcule le PageRank d’une page en fonction de la proximité sémantique de ses liens.

Ainsi, imaginons un site avec un DomainRating de 70, le domain rating calcule l’autorité, donc le PageRank d’un site. Grâce à l’outil SEO Babbar, imaginons que la Semantic Value indique un score de 20. Eh bien, dans ce cas, cela voudrait dire que le site ne fait pas du tout autorité. Si de prime abord on peut supposer que 70/100 est très bon, dans les faits ce n’est pas le cas puisque la plupart des liens ne sont pas thématisés. La proximité sémantique des liens étant faible, sa note de popularité réelle baisse à 20/100. Dans ce cas imaginaire, le propriétaire du site a sûrement tenté de manipuler son PageRank. Si vous faites de l’achat de domaine expiré, je conseille d’utiliser la force induite et la métrique BAS (Babbar Autority Score) pour juger la popularité d’un site plutôt que le DR de ahrefs par exemple.

Pour résumer, l’autorité d’un lien ne se diffuse pas aussi simplement que ce que l’on peut imaginer. Cela dépend de la position du lien dans la page. Mais aussi de la proximité sémantique entre la page qui fait le lien et la page qui reçoit le lien.

Tips : en calculant la force induite d’un lien en s’appuyant sur les algorithmes de Babbar, il est possible de déterminer quel lien vous sera le plus profitable, en fonction de sa proximité sémantique pour votre site en particulier. Si vous souhaitez en savoir plus sur la force induite, n’hésitez pas à parcourir notre article dédié.

Tips 2 : lorsque vous indiquez un lien à Google et que vous indiquez un deuxième lien avec la même URL, le deuxième lien n’est pas pris en compte. Ainsi, il est possible de faire un lien optimisé SEO en plein texte puis de refaire le même lien avec un « call to action » optimisé UX pour y accéder sans en faire pâtir l’optimisation d’ancrage ou encore la position du lien.

Note : La puissance des liens peut différer en fonction d’autres éléments. Par exemple un lien d’un nom de domaine qui vous a déjà fait un lien sera moins puissant qu’un lien d’un nouveau nom de domaine pour une force égale. Cela peut aussi influer négativement si les mêmes DNS entre les domaines sont identiques. Il y a encore d’autres facteurs. Même <title>, hostnames identiques, domaines identiques, trop de liens sortants, octets d’IP identiques, extension du nom de domaine spammy, même adresse de contact, whois similaire, PBN, etc. Mais aussi influer positivement comme par un texte d’ancrage ciblant un mot-clé exacte, mais attention au Penguin.

Le transition rank

L’algorithme du transition rank est plutôt méconnu, pourtant il a été développé dans l’unique but de piéger les référenceurs SEO un peu trop bourrins. Un algorithme qui doit donc être impérativement connu par n’importe quel référenceur.

Brevet de Google sur le Transition to Rank

Ce brevet décrit un algorithme que tout référenceur SEO doit connaître puisqu’il a un impact énorme sur la gestion de l’analyse des suivis de positions que l’on fait après les optimisations.

Cet algo est du social engineering, le moteur a une réaction contre les spammeurs et les référenceurs SEO « agressifs ». A-t-il un comportement légitime ou essaie-t-il de manipuler les classements ?

Voici comment ça marche :

Le fonctionnement de l'algorithme du Transition to Rank sous forme d'un organigramme

(image directement sortie du brevet)

Imaginons que vous êtes positionné sur Google, disons en position 4. Vous avez fait des modifications pour monter davantage, vous avez amélioré le contenu en ajoutant des mots-clés, en ciblant mieux l’intention de recherche, etc. Suite à ça, votre page mérite un meilleur classement car effectivement votre page web qui est en train d’être analysée est désormais meilleure qu’avant. Disons que les algorithmes voient que votre position devrait être revue à la première place. C’est là que le transition rank entre en scène. Que fait-il ? Au lieu d’appliquer le traitement qu’il devrait, il va stabiliser votre classement ou le faire baisser et va analyser le comportement du webmaster. Si vous avez vu votre position baisser et que vous décidez après coup de rétablir la version de votre contenu telle qu’elle était avant pour obtenir au moins la position 4, alors le transition rank va faire baisser votre page dans les fins fonds des SERP. Pourquoi ? Parce que cela veut dire que vous écrivez du contenu pour l’algorithme de classement de Google et non pour les internautes, ce qui est contraire à leurs Guidelines. En revanche, si personne ne change le contenu, alors le moteur va finalement vous faire obtenir le classement que vous méritiez.

Le brevet juste au dessus décrit ce processus : « choix de la position intermédiaire » (830). Ensuite il décide de la forme du transitions to rank, « est-ce que c’est soudain ou continu ? » puis il finit par observer le comportement du webmaster.

Voici une autre image, en l’occurrence une courbe, issue du brevet :

La courbe classique du positionnement d'une page sur les résultats de recherche Google

Cette courbe décrit le positionnement d’une page simpliste. C’est ce qui se passe dans un monde idéal, ce n’est pas la réalité des faits.

L’axe y décrit une modification positive du classement. L’axe x indique l’amélioration dans le classement par rapport au temps qui passe.

L’idée de cet algo est de temporiser l’effet positif des changements SEO pour voir si un rollback est effectué concernant le site par son propriétaire.

S’il y a un rolleback, c’est le signe d’un SEO borderline ou d’un spammer.

Voici à quoi ressemble une courbe naturelle, une courbe basique :

La courbe classique du classement d'une page sans Transition to Rank

En fonction du niveau d’agressivité des modifications, la transition du changement de position influera. Ici, les modifications ne sont pas très agressives, alors il y a une légère transition « continue » dans les classements du moteur.

Par contre si vous y allez un peu trop fort, voici la courbe que cela pourrait donner :

Courbe de classement d'une page lorsqu'elle rentre dans l'algorithme du Learning to Rank

Le moteur commence par dégrader votre positionnement. Puis à un moment donné, si aucune modification n’a été apportée à la page et qu’il n’a pas de signal qui semble que vous soyez un manipulateur, il va finalement se dire que cette nouvelle rédaction de contenu faite de manière un peu offensive est probablement légitime. Alors il commence à augmenter votre position au fur et à mesure.

Si vous êtes référenceur et que vous avez optimisé votre contenu, par exemple en obtenant un score d’optimisation de mots-clés présents dans votre texte, si vous ne faites rien et que vous tombez dans les classements, vous finirez par y remonter tout en obtenant un meilleur score qu’au départ. Si par contre à un moment donné vous décidez de revenir en arrière pour vous faire pardonner, c’est pire. Google vous détecte comme un spammeur, et si vous le faites plusieurs fois pour vos articles, vous pourriez être pénalisé de manière large.

Extrait du brevet de Google sur le Transition to Rank
Un autre extrait du brevet de Google sur le Transition to Rank
Extrait du brevet de Google sur le Transition to Rank décrivant précisément les optimisations SEO qui le déclenche

Ici, Google précise que les techniques peuvent être diverses et variées, le keyword stuffing, donc l’ajout de mot-clé pour paraître plus pertinent et d’autres. En fait, le transition rank est un algo additionnel aux algorithmes anti-spam. Lorsqu’un contenu amélioré est détecté et que les filtres anti-spam n’ont pas détecté ou n’ont pas pu être certains d’avoir détecté une manipulation, alors le transition rank entre en scène comme une autre vérification.

Si vous pensez que le transition rank vous impacte, que devez-vous faire ? Eh bien, ne faites rien, surtout ne faites rien. Si le contenu est véritablement devenu mauvais, compter au minimum 90 jours avant de le modifier, surtout si vous savez que vous y avez ajouté des occurrences de mots-clés et autres optimisations SEO.

L'hébergement WordPress pour les sites ambitieux

Vos concurrents utilisent Kinsta. Ne les laissez pas vous devancer.

Découvrez

Vous avez besoin d'aide ?

N'hésitez pas ! Nous sommes experts en création de site et en référencement naturel.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *