Algorithmes Google

Optimisation du référencement (SEO) en comprenant BERT

BERT pour Bidirectional Encoder Representations from Transformers est un algorithme de machine learning dédié au traitement du langage naturel. Cet algorithme a été diffusé en open source à la communauté scientifique en 2018. C’est le 25 octobre 2019 que Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises […]

Publié le 4 juillet 2022 Lecture 12 min Par Stan De Jesus Oliveira

Définition de Optimisation du référencement (SEO) en comprenant BERT

BERT pour Bidirectional Encoder Representations from Transformers est un algorithme de machine learning dédié au traitement du langage naturel.

Cet algorithme a été diffusé en open source à la communauté scientifique en 2018.

C’est le 25 octobre 2019 que Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises (Cloud, TensorFlow).

A cette même date, Pandu Nayak (vice-président du moteur de recherche Google) affirme que la firme de Mountain View l’utilise et qualifie ce changement de modification la plus importante apportée à l’algorithme Google depuis 5 ans (lorsque RankBrain avait été lancé).

A quoi sert BERT pour Google ?

BERT est un algorithme permettant d’avancer vers un moteur de recherche sémantique. A correspondre mieux aux intentions de recherche, à obtenir une meilleure reconnaissance vocale, et globalement à faire de Google un moteur à la fois de recherche et de réponse plus sophistiqué.

Google s’oriente de plus en plus vers la compréhension et cherche à répondre d’une manière parfaite à l’ utilisateur. Les utilisateurs l’ont par ailleurs constaté et font des recherches de plus en plus sophistiqués , ou “exotiques” si nous reprenons les mêmes mots que les ingénieurs de Google.

Intrinsèquement liée au référencement sémantique, BERT permet de répondre à plusieurs des problématiques qui s’étaient posées pour aboutir à une telle compréhension du langage et de l’intention.

Ce qui comprend entre autre :

Comprendre la “cohésion textuelle” et désambiguïser des expressions ou phrases, en particulier lorsque des nuances polysémiques (qui a plusieurs sens) pourraient modifier le sens contextuel des mots. Ainsi que d’autre problème linguistique tel que l’homonyme, la résolution des anaphores et cataphores grammaticales.
Comprendre à quelles entités des pronoms font référence, ce qui est particulièrement utile dans les longs paragraphes avec plusieurs entités. Une applications concrètes : la génération automatique de featured snippets et la recherche vocale/conversationnelle.
déterminer à quelles entités nommées un texte fait référence
Prédire la phrase suivante.
Répondre à des questions directement dans les SERP.
Résolution de coréférence.

Comment fonctionne BERT ?

BERT est une technique de traitement du langage naturel (NLP), basé sur des réseaux de neurones.

B pour “Bidirectional”, E pour “Encoder”, R pour “Representation” et T pour “Transformers” signifie tout.

Un transformateur est un mécanisme d’attention capable d’apprendre les contextes entre les mots d’un texte et même les sous-mots.

Un Transformer se compose de deux mécanismes distincts : un encodeur et un décodeur. Le premier lit l’entrée, tandis que le second crée la prédiction de la tâche.

Prédiction d'une tâche avec l'algorithme de Google BERT

Ici, nous avons une entrée, une phrase mais qui omet des mots. Et en second, BERT prédit les mots manquants.

Contrairement aux modèles directionnels qui comprennent l’entrée du texte dans une séquence (de droite à gauche ou de gauche à droite), les encodeurs du Transformer sont très différents. Pourquoi ? Parce qu’ils peuvent lire une séquence d’un seul coup, d’où le terme bidirectionnel.

Ce que ne fesait pas les réseaux de neurones basés sur des transformers :

La différence des modèles de NLP entre BERT, GPT et ELMo

Le contexte d’un mot avec BERT est bidirectionnel, il est à la fois à droite et à gauche d’une phrase, d’un contenu. Il apprend le contexte d’un mot en fonction de l’ensemble de son environnement.

Dans cet exemple, nous pouvons vois que lorsque nous renseignons des petites choses à BERT celui-ci est capable de comprendre le sens des mots

Dans cet exemple, BERT est donc à même de comprendre que selon le contexte, la phrase précédente par rapport à la phrase qui la succède n’a aucun sens.

Cela à permis à Google de donner un score à un contenu plus fidèle de la réalité que les anciennes méthodes de vecteur de contexte.

BERT : Attention !

BERT fonctionne avec un mécanisme d’attention qui est la chose la plus importante à comprendre. Les algorithmes ont “conscience” de tout ce qui passe autour mais se focalisent sur le principal.

Se focaliser sur ce qui est important leur permet de fonctionner de la même manière qu’un humain. Ou plutôt de le mimer. Cela permet également à Google de dépenser moin en termes de coût de calcul. Ils ont conscience de ce qu’il se passe autour mais priorise ce qui est important.

Les transformers sont des réseaux de neurones qui sont basés sur l’attention.

Ceci nécessite de “tokeniser” les textes en les coupant en morceaux. Dans le but de trouver les mots importants pour déterminer le contexte d’un mot.

Vue du fonctionnement d'attention de l'algorithme BERT

Ici, plus une ligne est fine, moin l’attention se porte.

La phrase est la suivante “The girl ran to a local pub to escape the din of her city.”

Si nous jouons avec le taux de pourcentage de concentration pour y voir plus clair, voici sur quoi BERT se focalise dans cette phrase.

Focus sur l'attention de l'algorithme BERT

L’attention la plus grande ici est “to” reliée à “escape”.

Cela vous enseigne que les “stop words” ou les mots “inutiles” comme “le”, “la”, “les”, sont désormais importants pour les algorithmes de Google et qu’il n’est donc plus pertinent de faire du content spinning.

Comment BERT à été pré-formé

Le fonctionnement technique de BERT

BERT est une intelligence artificielle qui à aquis ses connaissances grâce aux immenses corpus afin qu’il puisse être utilisé chez Google comme une technologie du traitement du langage naturel de pointe.

Pre-training : MLM & NSP

Mots masqués : MLM

Avant d’introduire des séquences de mots dans BERT, 15 % des mots de chaque séquence sont remplacés par un jeton [MASK]. Le modèle tente ensuite de prédire la valeur d’origine des mots masqués, en fonction du contexte fourni par les autres mots non masqués de la séquence. Techniquement, la prédiction des mots de sortie nécessite :

Ajout d’une couche de classification au-dessus de la sortie de l’encodeur.
Multiplier les vecteurs de sortie par la matrice d’intégration, en les transformant en dimension de vocabulaire.
Calculer la probabilité de chaque mot du vocabulaire avec softmax.

MLM signifie Masked Language Modeling.

Prédiction des mots masqués : NSP

Pour aider le modèle à distinguer les deux phrases en formation, l’entrée est traitée de la manière suivante avant d’entrer dans le modèle :

Un jeton [CLS] est inséré au début de la première phrase et un jeton [SEP] est inséré à la fin de chaque phrase.
Une phrase incorporée indiquant Phrase A ou Phrase B est ajoutée à chaque jeton. Les incorporations de phrases sont similaires dans leur concept aux incorporations de jetons avec un vocabulaire de 2.
Une intégration positionnelle est ajoutée à chaque jeton pour indiquer sa position dans la séquence. Le concept et la mise en œuvre de l’intégration positionnelle sont présentés dans l’article Transformer.

Prédiction des mots masqués, NSP (Next Sentence Prediction)

En savoir plus : BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding – https://arxiv.org/pdf/1810.04805.pdf

NSP signifie (Next Sentence Prediction).

BERT affinage (fine-tuning)

BERT peut être utilisé pour une grande variété de tâches linguistiques, tout en n’ajoutant qu’une petite couche au modèle de base :

Les tâches de classification telles que l’analyse des sentiments sont effectuées de la même manière que la classification Next Sentence, en ajoutant une couche de classification au-dessus de la sortie Transformer pour le jeton [CLS].
Dans les tâches de réponse aux questions, le logiciel reçoit une question concernant une séquence de texte et doit marquer la réponse dans la séquence. À l’aide de BERT, un modèle Q&R peut être formé en apprenant deux vecteurs supplémentaires qui marquent le début et la fin de la réponse.
Dans Named Entity Recognition (NER), le logiciel reçoit une séquence de texte et doit marquer les différents types d’entités (Personne, Organisation, Date, etc.) qui apparaissent dans le texte. À l’aide de BERT, un modèle NER peut être formé en alimentant le vecteur de sortie de chaque jeton dans une couche de classification qui prédit l’étiquette NER.

BERT est utilisé pour les tâches NER (Named Entity Recognition) permettant d'identifier les entités d'un texte

Impact de BERT sur la recherche sémantique

Tout cela pourrait aussi vous enseigner de quelle façon viser des “mots-clés”.
Source : https://blog.google/products/search/search-language-understanding-bert/

Dans cet exemple, “to” à fourni un sens sémantique à la requête sur Google, ainsi Google à afficher des résultats de recherche différents.

L'impact de l'algorithme BERT pour la recherche sémantique et les résultats de recherche en général

Exemple d’extrait en vedette. Voici un exemple de Google montrant un extrait de code plus pertinent pour la requête “Parking sur une colline sans trottoir”. Dans le passé, une requête comme celle-ci confondrait les systèmes de Google. Google a déclaré: “Nous avons accordé trop d’importance au mot” freiner “et ignoré le mot” non “, ne comprenant pas à quel point ce mot était essentiel pour répondre de manière appropriée à cette requête. Nous renverrions donc des résultats pour le stationnement sur une colline avec un trottoir.

Exemple de l'impact de l'algorithme BERT pour la recherche sémantique

A quoi ça sert pour Google ? En quoi cela vous concerne ?

Se focaliser sur ce qui est important évite de s’embêter à tout analyser pour Google. Si dans votre article de cuisine vous faites des blagues, peut-être que Google n’a pas envie d’y prêter attention. Vous, cela vous concerne dans un principe d’optimisation du référencement car vous devriez vous focaliser sur ce qui est important. Encore et toujours, commencer un contenu par ce qui est important. Écrire des choses qui sont importantes. Ne pas faire de charabia. Évitez de passer du coq à l’âne. Structurer votre contenu.

Ceci améliore votre score de contenu et la recherche sémantique.

Continuez de lire.

Optimisation SEO pour BERT

Le fonctionnement des algorithmes sémantiques comme BERT, Knowledge Graph, NLP et autres sont des indices non négligeable à diverses optimisations de référencement sémantique.

Pour optimiser BERT et pour distinguer les choses, vous devez correspondre à l’intention de recherche. Car c’est sur cela que BERT se focalise. Vous devez également faire des FAQ car c’est aussi relié à BERT.

Mais il ne faut pas optimiser pour BERT, il ne faut pas optimiser pour RankBrain, il ne faut pas optimiser pour Knowledge Graph ou Knowledge Vault. A la limite vous pourriez distinguer l’optimisation EAT sémantique, et encore.

Non, il faut faire de l’optimisation sémantique.

Qu’est-ce que ça signifie concrètement pour les SEO ?
Les mots-clés sont morts (non) ! Mais les SEO doivent optimiser pour les sujets (topics) et non plus pour les mots-clés. Sur les entités. Les “choses”. Oublier les chaînes de caractères. Du moins le faire progressivement.

Faire des FAQ.

Faire de l’intention de recherche. Et bien au-delà de la simple compréhension entre commercial et informationnelle.

Le plus simple est d’utiliser des outils de référencement sémantique.

Mais pour aller plus loin, vous pouvez essayer de faire des textes à trous dans votre contenu pour savoir s’ il est évident de comprendre le contexte d’une phrase. Ceci est à faire sur le début de votre contenu, il s’agit de la partie la plus importante et la plus sensible.
En faisant appel à un SEO technique maîtrisant python, celui-ci pourra le faire de manière algorithmique et automatisé.
Commencez par ici : https://colab.research.google.com/github/google-research/albert/blob/master/albert_glue_fine_tuning_tutorial.ipynb – Albert est la version améliorée de BERT.

Dernier tips concernant BERT, si vous souhaitez calculer les scores BERT de vos pages vous pouvez vous référer sur cette page : https://www.anakeyn.com/2019/12/18/score-bert-referencement-seo/

Il est également important de préciser que BERT permet d’établir des entités grâce aux verbes. Ainsi, il faut penser au triple des graphes de connaissances comme celui du Knowledge Graph. Lorsque vous mentionnez une entité, est-elle liée à un verbe ?

Exemple : Tomáš Mikolov, […]
Tomáš Mikolov est l’inventeur de Word2vec, une méthode de NLP (Natural Language Processing) il est également un auteur sur l’ architecture FastText, une libraire similaire à Word2vec mais qui va plus loin en ayant une composition n-gramme en caractères et non en mot. […]

Évitez de faire des phrases que seuls les humains peuvent comprendre en devinant. Pensez à toujours expliquer les choses.
De plus, cela évite à Google de s’embêter à chercher de quoi vous parlez, ce qui l’embête beaucoup en termes de ressource. Et donc, ceci est également lié à votre budget de crawl. C’est à dire qu’une bonne qualité de code, de vitesse de page, mais aussi d’un langage clair et descriptif est important.

Controverse de l’optimisation BERT pour le référencement

BERT n’est pas une mise à jour algorithmique comme Penguin ou Panda car BERT ne juge pas les pages Web de manière négative ou positive, mais améliore davantage la compréhension du langage humain pour la recherche Google. En conséquence, Google comprend beaucoup mieux la signification du contenu des pages qu’il rencontre, ainsi que les requêtes des utilisateurs en tenant compte du contexte complet du mot.
BERT consiste principalement à résoudre l’ambiguïté linguistique du langage naturel, il fournit une cohésion de texte qui provient souvent des petits détails d’une phrase fournissant une structure et un sens.

FAQ

Sur quoi agit BERT ?

BERT agit sur la compréhension du langage (NLP), ses applications ont diverses verticales comme l’affinage de la compréhension des requêtes, le classement des résultats de recherche, la compréhension des textes des pages Web, ainsi que sur la chasse au extrait en vedette.

Différence entre BERT et RankBrain ?

RankBrain a été la première méthode d’intelligence artificielle de Google pour comprendre les requêtes en 2015. Il examine lui aussi les requêtes et le classement des pages BERT ne remplace pas RankBrain, c’est une méthode supplémentaire pour comprendre le contenu et les requêtes. Il s’ajoute au système de classement de Google. RankBrain peut et sera toujours utilisé pour certaines requêtes. Une requête peut utiliser plusieurs méthodes, y compris BERT, pour comprendre la requête.

Pouvez-vous optimiser pour BERT ?

Il est peu probable. Mais il est possible de calculer un score BERT. Je dirais que cela vous permet plutôt de choisir quel contenu devrait être optimisé, c’est-à-dire prioriser une page qui à été mal faite plutôt que de vraiment optimiser une page. Aussi, cela vous enseigne la rédaction SEO sémantique, la recherche sémantique et l’optimisation du contenu pour la sémantique. Pensez plutôt à ce que la masse de vos connaissances pourrait maintenant vous fournir une aide précieuse pour votre mindset de référenceur holistique.