fonctionnement Google

Comment Google comprend un texte et lui donne un score de qualité

Google est difficilement capable de prédire la qualité d’une page Web de par son contenu. Ils utilisent donc des modèles probabilistes pour déterminer si la page correspond bien à la requête formulée par l’internaute. Pour cela, Google transforme les mots en vecteurs, car ils ont besoin d’une représentation mathématique pour faire comprendre aux machines les […]

Publié le 4 juillet 2022 Lecture 32 min Par Stan De Jesus Oliveira

Définition de Comment Google comprend un texte et lui donne un score de qualité

Pour cela, Google transforme les mots en vecteurs, car ils ont besoin d’une représentation mathématique pour faire comprendre aux machines les mots.

Depuis 2018, BERT une intelligence artificielle du traitement du langage (NLP) a permis de comprendre ce qu’est une entité, une personne, une date reliée à leurs Knowledge Graph et comprend comme tout est interconnecté. Aussi, son modèle bidirectionnel lui permet de mieux saisir le sens (sémantique) d’un mot. Ainsi Google est capable de mieux interpréter une page grâce à des modèles de traitement du langage.

Enfin, Google applique un score en examinant notamment la présence des mots rares, c’est pourquoi il est important de faire de bon contenu, qui apporte une plue value tout en passant à la moulinette vos contenus sur les outils SEO.

Le fonctionnement de Google est d’une telle complexité qu’il est impossible de tout expliquer, ni même prétendre que quelqu’un de chez Google connaisse chacun des processus capable de faire de Google ce qu’il est.

Ici nous nous intéresserons à ce qui est important pour un SEO, comprendre les preuves d’évidence dans un texte que recherche Google pour juger d’une partie de la qualité d’une page.

La recherche d’information (RI)

Il est important pour un référenceur ou SEO (Search Engine Optimizer) de comprendre la notion de recherche d’information (RI), car ceci est la base du moteur de recherche.

La recherche d’information (RI) est le domaine qui étudie la manière de retrouver des informations dans un corpus. Celui-ci est composé de documents d’une ou plusieurs bases de données, qui sont décrits par un contenu ou les métadonnées associées. Les bases de données peuvent être relationnelles ou non structurées.

Par exemple, les pages Web sont à la base non structurées et sont reliées simplement par des liens hypertexte.

La recherche d’information est historiquement liée aux sciences de l’information et à la bibliothéconomie qui visent à représenter des documents dans le but d’en récupérer des informations, au moyen de la construction d’index de la même manière que le fait Google aujourd’hui (d’une certaine mesure).

C’est quoi le Natural Language Processing (NLP) ?

Le NLP pour Natural Language Processing ou Traitement du Langage Naturel en français est une discipline qui porte essentiellement sur la compréhension, la manipulation et la génération du langage naturel par les machines. Ainsi, le NLP est réellement à l’interface entre la science informatique et la linguistique. Il porte donc sur la capacité de la machine à interagir directement avec l’humain
Ce que nous allons voir juste après est donc l’idée de Google pour tenter de comprendre le sens des mots.

Word embedding : vectorisation des mots

Le Word Embedding est une méthode qu’utilise Google pour le traitement du langage, le word embedding est tout simplement de la vectorisation de mots.

Mais à quoi cela sert de transformer un mot en vecteur ?

Servons-nous d’un exemple.

Imaginons que nous ayons 2 mots dans la langue française :

Pain
Chocolat

Et que la requête (le mot-clé) sur Google soit la suivante : « pain chocolat chocolat »

Comment Google va-t-il déterminer qu’une page est plus pertinente qu’une autre ?

En analysant le document par rapport au autre document de la SERP, par rapport à la requête formulée.

Disons que le 1er document contient : pain pain chocolat pain

Le 2ème : chocolat chocolat chocolat chocolat chocolat pain
Le 3ème : pain chocolat
Le 4ème : pain chocolat pain chocolat chocolat

Ce qui nous donne :

Représentation de vecteur dans un tableaux
Maintenant, traçons nos vecteurs dans un espace vectoriel.
Représentation d'un espace vectoriel

Intuitivement, on voit que le document 4 est le plus proche de la requête, c’est celui-ci qui est le plus pertinent. Donc dans ce modèle simpliste, c’est celui ci qui se classera en 1ère position de la 1ere page de Google.

Cet écart entre la requête et le document est calculé grâce au cosinus entre les vecteurs, appelé Cosinus de Salton.

Salton est l’un des pionniers dans le domaine de la recherche d’information en informatique. Une de ses contributions les plus importantes est le développement du modèle vectoriel.

Lorsque nous avons plus de 2 mots, on entre dans un espace vectoriel 3D, puis 4D, etc.

Le modèle d’espace vectoriel est basé sur l’hypothèse implicite que la pertinence d’un document par rapport à une requête est corrélée à la distance entre la requête et le document. Dans le modèle d’espace vectoriel, chaque document (et requête) est représenté dans un espace euclidien à n dimensions avec une dimension orthogonale pour chaque terme du corpus.

Par exemple, un chat sera représenté par un vecteur [0,43 0,88 0,98 1,3]. Si nous le faisons pour tous les mots de la langue, il est alors possible de comparer les vecteurs des mots entre eux en mesurant l’angle entre les vecteurs.Ceci permettra alors de prédire que le mot « chien » est plus près du mot « chat » qu’il ne l’est du mot « gratte-ciel » . Un espace vectoriel permettrait aussi de répondre à des équations comme roi – homme + femme = reine ou encore l’équation Paris – France + Espagne = Madrid.

Le but de tout cela est qu’auparavant Google cherchait seulement à correspondre à des mots clés. Ce qui n’est pas du tout pratique pour la recherche d’informations.

Imaginez que vous êtes sur un moteur de recherche, et que vous souhaitez trouver un restaurant qui sert des hamburgers.

Un moteur de recherche classique ne nous renverrait que les sites Web qui contiennent le mot exact : hamburger.

Pourtant, un restaurant qui vendrait des cheeseburger, cela nous conviendrait, non ?

TF*IDF

Le TF.IDF à été utilisé pour Google (et probablement toujours utilisé). Cette idée provient de Karen Spärck-Jones, idée qui en réalité datait déjà de 1972 avant même que les moteurs de recherche n’existent.

D’ailleurs, Hans Peter Luhn d’IBM en 1957 dans le cadre de la recherche d’informations avait déjà découvert le principe et l’intérêt de la pondération des termes.

Quoi qu’il en soit, nous avons vu précédemment que le problème est que les mots ont tous le même poids et que de plus il suffit d’ajouter bêtement des mots plusieurs fois par rapport à la requête pour être le plus pertinent.

Ainsi, le TF-IDF permet de résoudre ce problème.

TF-IDF : Term Frequency Inverse Document Frequency.

TF : Term Frequency – Les mots sont dits termes. Donc ceci se traduit par la fréquence des mots.

IDF : Inverse Document Frequency. – Les termes qui sont communs dans un corpus étant moins susceptibles de transmettre des informations de pertinence utiles. Une mesure fréquemment utilisée de la discrimination des termes est utilisé. Cela s’appelle IDF.
Exemple :

Si une requête contient le terme “SEO”, un texte a plus de chances de répondre au besoin de l’information s’il contient ce terme : ceci est appelé la fréquence du terme au sein du document (TF).
Néanmoins, si le terme “SEO” est lui-même très fréquent au sein du corpus, c’est-à-dire qu’il est présent dans de nombreux textes ou encore tels les articles définis – le, la, les, il est en fait ce que l’on appelle peu discriminant. C’est-à-dire qu’il n’apporte aucune plue value.

C’est pourquoi on propose d’augmenter la pertinence d’un terme en fonction de sa rareté : ce que l’on appelle IDF. Ainsi, la présence d’un terme rare de la requête dans le contenu d’un document fait croître le « score ».

Finalement, le poids, score d’un contenu, s’obtient en multipliant les deux mesures : TF * IDF

Une fois qu’un ensemble de pages potentiels est identifié comme pouvant répondre à la requête de l’internaute, Google doit les ordonner par ordre de pertinence. La pondération tf-idf est alors couramment utilisée.

Le TF*idf est utilisé d’autre d’autres applications pour les moteurs de recherches ou en tout qu’a l’ont été. Effectivement la mesure TFIDF ou des variantes similaires à été susceptible d’être utilisée par exemple lors de la notation du texte d’ancrage notamment via des modèles probabilistes telle que BM25.

Le TF IDF n’est pas un composant de Word2vec mais peut être utilisé dans des modèles du traitement du langage tels que Word2vec pour obtenir un meilleur poids pour les mots.

Note : il est important d’utiliser tous les mots liées à la requête, soit tous les TF, et pas seulement penser à des mots IDF.

Normalisation de la longueur des documents

La fonction de pondération des termes dans le modèle d’espace vectoriel est souvent normalisée en longueur, de sorte qu’un terme qui apparaît dans un document court se voit attribuer plus de poids qu’un terme qui apparaît dans un long document. C’est ce qu’on appelle la normalisation de la longueur des documents.

Après avoir observé des performances relativement médiocres pour le modèle d’espace vectoriel , Singhal (et d’autres) ont émis l’hypothèse que la forme de normalisation de la longueur des documents utilisée dans le modèle était inférieure à celle utilisée dans d’autres modèles. Pour étudier cet effet, ils ont comparé la longueur des documents pertinents connus avec la longueur des documents autrement récupérés par le système de récupération.

Leurs résultats indiquaient que les documents longs étaient plus susceptibles d’être pertinents.

Donc finalement, il y à une certaine normalisation de la longueur, mais statistiquement un long contenu est plus pertinent.

L’idée pour un SEO est donc généralement de créer un contenu de taille moyenne. Même si cela est en réalité infiniment plus complexe notamment due à l’intention de recherche.

L’intention de recherche provient de l’algorithme de machine learning BERT. Effectivement ce dernier détecte si un utilisateur souhaite un contenu court, par exemple si celui-ci recherche une définition. Dans ce cas là, il est inutile de faire un contenu de plus de 300 mots. C’est pourquoi, il est généralement préférable de ne pas prendre en compte si son contenu est assez long ou non à partir du moment où celui-ci permettra de répondre à l’internaute.

OKAPI BM25

Okapi BM25 est une méthode de pondération ou plutôt un modèle de récupération basé sur le cadre de récupération probabiliste utilisée en recherche d’information.

Dans la recherche d’informations, Okapi BM25 (BM signifie Best Matching) est une fonction de classement utilisée par les moteurs de recherche pour classer les documents en fonction de leur pertinence par rapport à une requête de recherche. Il est basé sur le cadre de récupération probabiliste développé dans les années 1970 et 1980 principalement par Stephen E. Robertson et Karen Spärck Jones.

Le nom de la fonction de classement est BM25. Cependant, il est généralement appelé “Okapi BM25”, puisque le système de recherche d’informations Okapi, mis en œuvre à la City University de Londres dans les années 1980 et 1990, a été le premier système à implémenter cette fonction.

BM25 est un modèle de sac de mots qui ordonne les documents en fonction de la fréquence des termes qui apparaissent dans chaque document, indépendamment des relations pouvant exister entre ces termes ou de leurs proximités relatives au sein du document. Il existe toute une famille de fonctions attribuant un score à chaque document pour une requête donnée.

Okapi BM25 est une variante plus considérée que TF*IDF. Effectivement elle est décrite comme l’une des méthodes à l’état de l’art dans la pondération des termes et de la notation de document.

BM25 et ses variantes “plus récentes”, par exemple BM25t (une version de BM25 qui peut prendre en compte la structure du document (balise Hn, mot en gras, etc) et le texte d’ancrage, représentent des fonctions de récupération de pointe de type TF-IDF utilisées dans la récupération de documents.

Okapi BM25F, représentation de la pondération en fonction de la structure HTML sémantique

Ceci est un exemple mais pas représentatif de la réalité chez Google

L’idée de base est d’utiliser un index inversé. Cela signifie pour chaque mot conserver une liste des documents sur le web qui le contiennent.

Répondre à une requête correspond à la récupération des documents correspondants (Cela se fait essentiellement en recoupant les listes pour les mots de requête correspondants), au traitement des documents (extraction des signaux de qualité correspondant à la requête), au classement des documents (à l’aide de la qualité d’algorithmes tels que PageRank), puis renvoyant les 10 meilleurs documents.

Le principal avantage du BM25 qui le rend populaire est son efficacité. Il fonctionne très bien dans de nombreuses tâches de récupération.

BM25 est donc un modèle probabiliste meilleur et plus représentatif du web pour la récupération de pointe de type TF-IDF car ils utilisent des éléments HTML “sémantique”. Cela ne signifie pas que BM25 s’appuie sur le cadre TF-IDF (ou le modèle d’espace vectoriel). Par cette phrase, je veux dire que le score BM25 est calculé sur la base de deux composantes principales : TF et IDF. Cependant, il existe certaines techniques pour normaliser la longueur du document et satisfaire la contrainte de concavité de la fréquence du terme (par exemple, en considérant le TF logarithmique, au lieu du TF brut). Sur la base de ces techniques heuristiques, BM25 atteint souvent de meilleures performances par rapport à TF-IDF.

TF-IDF en IA

En IA, TF, IDF et TF * IDF est utilisé comme mesure, utilisée dans les domaines de la recherche d’informations (IR) et de l’apprentissage automatique, qui peut quantifier l’importance ou la pertinence des représentations de chaînes (mots, phrases, lemmes, etc.) dans un document parmi un ensemble de documents (appelé aussi corpus).

Term-Frequency (TF) consiste à compter le nombre d’occurrences des tokens présents dans le corpus pour chaque texte. Chaque texte est alors représenté par un vecteur d’occurrences. On parle généralement de Bag-Of-Word (BoW), ou sac de mots en français.

Représentation des vecteurs issues de la méthode Term-Frequency (TF)

Représentation des vecteurs issues de la méthode Term-Frequency (TF)

Term Frequency-Inverse Document Frequency (TF-IDF) : cette méthode consiste à compter le nombre d’occurrences des tokens présents dans le corpus pour chaque texte, que l’on divise ensuite par le nombre d’occurrences total de ces même tokens dans tout le corpus.

Pour le terme x présent dans le document y, on peut définir son poids par la relation suivant

La formule de TF*IDF

Où :

tƒx,y est la fréquence du terme x dans y ;
dƒx est le nombre de documents contenant x ;
N est le total de documents.

Cette approche permet donc d’obtenir pour chaque texte une représentation vectorielle qui comporte des vecteurs de poids (grâce à TFIDF) et non d’occurrences.

Cooccurrence

Les référenceurs ou SEO (Search Engine Optimizer) entendent parler de tors et à travers d’occurrence et de cooccurrence mais revenons fondamentalement aux cooccurrences dans un espaces vectoriels.

Lorsque les deux mots – ou autres unités linguistiques – ont un rapport sémantique proche ou lointain, la notion de cooccurrence est à la base de celle de thématique et de champ lexical.

Citation du linguiste John Firth :

Vous saurez un mot par la compagnie qu’il tient.

Corpus :

I’m riding in my car to the beach.
I’m riding in my jeep to the beach.
My car is a jeep.
My jeep is a car.
I ate a banana yesterday.
I ate a peach yesterday.

Imaginons un vecteur composé de taille k, où k est le nombre de mots distincts.
Nous avons 14 mots, ce qui nous donne en vecteur de taille 14 :

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Matrice de cooccurrence

Pour construire une matrice de cooccurrence, il faut commencer par le vocabulaire complet des mots.

Décomposons les mots de notre groupe de phrases du corpus ci-dessus , en les décomposant en unigramme :

a, ate, banana, beach, car, in, is, I’m, jeep, my, riding, to, the, yesterday

Ensuite, lorsque nous cherchons le lien sémantique, le contexte d’un mot, nous prenons un mot parmi notre corpus, par exemple “car”. Puis nous initialisons un vecteur à 0 avec autant de 0 que de mot dans le corpus. Ceci permettra alors de trouver la compatibilité des mots avec notre mot “car”.

Dans notre corpus, pour la phrase “I ate a banana yesterday”, en fesant une représentation mathématique par des vecteurs, vous pourriez voir à quel point cette méthode est efficace pour ce rendre compte que les mots “mangé, un, hier” ont une infime probabilité de trouver “banane” dans d’autre phrase de notre corpus tel que :

j’ai mangé une jeep hier

j’ai mangé un vélo hier

Ainsi, ce que l’on appelle cooccurence est un mot environnant d’un mot qui permet de fournir un contexte.

Cependant, par exemple, la polysémie est d’avantage plus complexe car il y à plusieurs contextes.

Avocat est un mot polysémique, a quoi le mot fait-il référence dans le contexte ?

Si nous avons des cooccurrences telles que : Marc est un avocat réputé
Ou bien une cooccurrence telle que : Les avocats sont mûres

Dans ce cas la, la ou les cooccurrences pourraient permettre de refléter que le mot “avocat” est un métier dans la 1ère phrase ou un fruit dans la 2eme.

Sauf que dans le modèle de Word2vec, les mots polysémiques n’étaient pas vraiment compris, on parle plutôt de “contexte large”, comme le fait que la probabilité que quelqu’un mange des Jeep n’est pas possible. BERT permettra de relever ce défi.

Ainsi, une cooccurrence n’est pas en soit en référencement un véritable poids de score de contenu comme le serait la présence de mot rare dans un traitement en tf * idf, mais simplement une désambiguïsation d’un sujet pour Google. Mais effectivement, si Google comprend bien votre contenu car les cooccurrences sont pertinentes, votre page pourrait avoir plus de chance de se classer. Mais c’est relativement naturel. Une cooccurrences pourrait être un mot rare, mais ceci ne serait qu’une coïncidence.

Word2vec

Thomas Mikolov était chargé de la direction d’une équipe de recherche de Google. Cette technologie a été développée en 2013., son idée était de transformer les mots en vecteur. C’est alors qu’ils ont créé Word2vec, que l’on peut traduire simplement par vectorisation de mots.

Dans la méthode Word2Vec, contrairement aux méthodes One Hot Encoding et TF-IDF, un processus d’apprentissage non supervisé est effectué. Les données non étiquetées sont formées via des réseaux de neurones artificiels pour créer le modèle Word2Vec qui génère des vecteurs de mots.

Word2vec est un réseau neuronal à deux couches qui traite le texte en « vectorisant » les mots. Son entrée est un corpus de texte et sa sortie est un ensemble de vecteurs : des vecteurs de caractéristiques qui représentent des mots dans ce corpus. Bien que Word2vec ne soit pas un réseau de neurones profonds , il transforme le texte en une forme numérique que les réseaux de neurones profonds peuvent comprendre.

Effectivement. L’hypothèse principale de ces méthodes étant de prendre en compte le “contexte” dans lequel le mot a été trouvé, c’est à dire les mots avec lesquels il est souvent utilisé. On appelle cette hypothèse distributional hypothesis.

Et ce qui est intéressant, c’est que ce contexte permet de créer un espace qui rapproche des mots qui ne se sont pas forcément trouvés à côté les uns des autres dans un corpus ! Ces méthodes de représentation vectorielles ont aussi permis d’entraîner des modèles de représentation des mots sur des corpus beaucoup plus grands (des centaines de milliards de mots par exemple…)

L’algorithme Word2Vec n’est pas un algorithme unique mais une combinaison de deux techniques qui utilise des méthodes d’IA pour le traitement du langage naturel (NLP).

Ces deux techniques sont :

CBOW (Continuous bag of words)
SG (skip-gram – appelé également k-skip-n-gram)

Les différentes méthodes pour le traitement du langage de Word2vec

Dans les deux cas, le réseau de neurones comporte deux couches. La couche cachée contient quelques centaines de neurones et constitue, à l’issue de la représentation, le plongement lexical (embedding) permettant de représenter un mot. La couche de sortie permet d’implémenter une tâche de classification au moyen d’une softmax.

On ne va pas détailler les méthodes d’entraînement en détail. La première appelée « Continuous Bag of Words » (CBOW), entraîne le réseau de neurones pour prédire un mot en fonction de son contexte
Dans la seconde méthode, on essaie de prédire le contexte en fonction du mot. C’est la technique du « skip-gram ».

Le skip-gram est donc l’architecture inverse de CBOW.

En d’autres termes, l’entrée du réseau de neurones dans le cadre du CBOW prend une fenêtre autour du mot et essaie de prédire le mot en sortie. Dans le cadre du skip-gram on essaie de faire l’inverse, c’est-à-dire prédire les mots autour sur une fenêtre déterminée à l’avance à l’aide du mot étudié en entrée.

En général skip-gram obtient de meilleures performances.

Une fois formé, un tel modèle peut détecter des mots synonymes ou suggérer des mots supplémentaires pour une phrase partielle sans avoir à préciser comment sont liée les mots ou pourquoi.

BERT

En traitement automatique du langage naturel (NLP), BERT, acronyme anglais de Bidirectional Encoder Representations from Transformers, est un modèle de langage développé par Google en 2018. Cette méthode a permis d’améliorer significativement les performances en traitement automatique des langues.

Le problème des idées précédentes est que par exemple, le mot « solution» et « fiole» sont représentés par des vecteurs relativement peu distants dans l’espace vectoriel où ils sont définis.

Effectivement si dans notre texte, le mot “solution” fait référence à “j’ai trouvé la solution”. Le vecteur ne devrait pas être proche des vecteurs de la thématique de la “biologie”…

BERT à été entraîné de sorte qu’il puisse deviner quel mot devrait apparaître selon un contexte. De plus, étant un modèle birédictionnel, il analyse le sens d’un mot par rapport aux phrases en amont et en aval. Cela lui permet de déterminer le contexte d’un mot.

Par exemple :

La compréhension de la sémantique (espace vectoriel) de BERT

La phrase est “les bras se plient au coude”. Google indique que la confidence la plus élevé du mot bras dans ce contexte est liée à la phrase “agitez vos bras autour” et non pas “L’Allemagne vend des armes à l’Arabie saoudite”. Donc BERT comprend que “bras” dans ce contexte désigne le membre du corps. Car, en anglais, arms pourrait également signifier armes. C’est ce que l’on appelle en linguistique un mot polysémique.

Qu’est ce que cela change par rapport à ce que nous avons vu précédemment ? BERT est bien plus technique, bien plus complexe et bien plus représentatif de la réalité. Notamment en prenant en compte des phrases entières en amont et en aval et pas seulement 5 mots autour d’un mot.

BERT est infiniment plus complexe, mais si vous le souhaitez, un article entier est dédié à BERT.

BERT à donc, en partie, permis de mieux considérer le sens d’un contenu pour juger de la qualité d’une page. Sans compter que cela à permis également de limiter davantage le Web spam (comme le content spinning).

BERT est une intelligence artificielle de machine learning et peut être utilisée dans d’autres applications telle que la reconnaissance vocale, la compréhension d’image, l’intention de recherche d’un internaute (compréhension des requêtes et affinage des résultats de recherche)…

Autres modèles de traitement de la langue (NLP) dans un Web sémantique

Le Web se rapproche de plus en plus d’un Web 3.0. Dans la définition de Tim Berners Lee cela signifie qu’un mot n’est pas seulement une chaîne de caractère mais bien quelque chose qui à un sens (sémantique).

C’est ainsi que Google, à créer un graphe de connaissances du nom de Google Knowledge Graph afin de comprendre “réellement” les choses.

Par exemple, historiquement Paris n’était qu’un vecteur. Aujourd’hui Paris est compris comme une ville de France et non pas parce que cela est proche des vecteurs comme “France” et “capitale”.

Les algorithmes sémantiques

Initialement créé manuellement par des humains bénévoles, aujourd’hui le Knowledge Graph s’appuie sur le Knowledge Vault pour continuer d’améliorer leurs graphs, et cela de manière automatisée.

Lorsque Google détecte une entité (cela peut être aussi une date, un événement, une marque, …) il va essayer de voir si il le connaît dans son graphe de connaissance afin de mieux saisir le sens du contenu dans sa globalité.

L'API de Google pour le NLP (traitement du langage)

Ici, Google relie Paris à l’article de Wikipédia “Paris” comme ville.

Google essaie de déterminer en fonction de manière statistique que ici, Paris fait référence à la ville et non à Paris Hilton. Ensuite il va voir ce qu’est Paris et à quoi Paris est véritablement liée.

Ensuite, c’est un travail de pur linguistique afin d’examiner comment chaque mot est en relation.

La syntaxe des mots, phrases que détermine Google avec ses méthodes de NLP

L’analyse de sentiment permet également d’affiner la compréhension du langage.

L’analyse des sentiments à beaucoup d’applications. Par exemple, Google pourrait utiliser des représentations vectorielles continues de textes pré-entraînées pour comprendre les sentiments comportant les avis clients sur un produit.

Enfin, Google va attribuer une catégorie à l’ensemble de votre texte. Par exemple, la catégorie peut être “/Beauty & Fitness/Cosmetology & Beauty Professionals“.

Cependant, je vous conseille vivement d’explorer notre article complet sur le fonctionnement de Google comme moteur de recherche structurée et sémantique afin de tout comprendre :

LE SEO dans un Web sémantique.

Espaces vectoriels, sémantique, algorithmes sémantique

Pensez désormais à hummingbird, Rankbrain, et comment ses IA apprennent et changent les requêtes et les résultats de recherche en fonction des vecteur proches sémantiquement, proche de leurs espaces vectoriels.

Pensez comme tout est interconnecté et pour la pertinence, score d’un contenu, et pour la recherche sémantique, et pour le classement des pages.

En tant que SEO en quoi cela nous concerne ?

En utilisant des outils SEO tels que SEOQuantum, YourTextGuru, Cocon.se, inlinks, et bien d’autres, ces outils SEO sémantique vous aideront à accroître la pertinence de vos contenus en ajoutant des mots d’un même champ lexical pour la compréhension de Google (co-occurences) ainsi que potentiellement d’obtenir des mots rares. Aussi, ses outils ont des couches de référencement sémantique, comme le fait de proposer des verbes, des adjectifs permettant d’identifier des entités, ou encore de proposer des réponses aux questions. Ou alors d’autres choses comme des lexies et des metamots, ce que fait cocon.se.

Ce qui vous permettra donc de :

Apparaître plus facilement sur les SERP de Google pour des variations de mots-clés (par rapport au mot clé visé et la requête)
Être plus pertinent aux yeux de Google
Au-delà de la pertinence, on peut aussi dire que cela permet à Google de mieux comprendre nos pages en désambiguïsant nos idées en donnant des mots proches “sémantiquement”

Au-delà des outils, cela peut aussi vous aider à apprendre à écrire des contenus (rédaction SEO) afin que Google comprenne mieux le sens de votre page. En indiquant un champ lexical large autour du sujet que vous traitez, cela permet à Google de vous considérer comme une bonne page. Mais aussi, dans un Web sémantique il faudrait que vous appreniez à écrire en triplet afin que Google comprenne chaque entité de votre texte..

Si vous êtes plutôt SEO technique, vous pourriez également faire vos propres outils en manipulant des lignes de code basées sur les bibliothèques de Word Embedding. Quasiment toutes les technologies de Google dans le traitement du language naturel NLP (Natural Language Processing) sont open source. Concernant les vecteurs de mots, vous pouvez utiliser des outils qui ont fait le travail à votre place en utilisant les API de Google Opensource pour maximiser le score de votre contenu telle que le fait https://wordgraph.io/ .

L'outil SEO Wordgraph basé sur les API NLP de Google pour maximiser son score SEO

Pour donner un autre exemple, il est possible de calculer votre score BERT afin de déterminer si votre contenu est facilement compréhensible pour les moteurs de recherche.

Les n-grams sont aussi importants.

Analyser ses n-grams pour son référencement (SEO) avec Oncrawl

Les n-grams désignent les termes qui apparaissent le plus souvent sur votre site web. Et Google analyse vos n-grams. Par exemple, cela me fait penser à un brevet de Google réalisé entre autres par Navneet Panda, l’inventeur de Google Panda. Ce brevet indique que Google pourrait générer des scores de qualité de site basés sur des modèles linguistiques à partir des statistiques d’ngram à comparer avec des sites connus de haute qualité. Entres d’autres choses. Et d’autres brevets similaires. En bref, les n-grams c’est important.

Les n-grams peuvent également refléter votre stratégie SEO, car ils indiquent les différents mots clés pour lesquels vous voulez vous positionner.

Les n-grams ont encore d’autres applications en optimisation du référencement, comme pour sonder la concurrence. Vous pourriez ainsi obtenir des informations sur les N-grams de vos concurrents en voyant les différents mots clés sur lesquels ils sont positionnés.

Bonnes pratiques pour les n-grams :

Assurez-vous que vous n’utilisez pas de stratégie de keywords stuffing, car cela se répercute négativement sur vos n-grams. (Google Panda regarde vos n-grams).
D’autre part, établissez une stratégie de mots-clés appropriée afin de vous positionner sur des termes spécifiques.
Vérifiez régulièrement vos n-grams grâce à un outil comme OnCrawl pour voir si votre stratégie de mots-clés est appropriée et fonctionne correctement.

Si vous souhaitez en savoir plus sur comment juge de la qualité d’un site au niveau du contenu (mais pas que) vous devriez consulter l’article sur EAT (expertise, autorité, confiance).

Et enfin, pour calculer TF IDF je vous conseille de commencer par ici :

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html#sklearn.feature_extraction.text.TfidfTransformer.fit_transform

Tout cela, cela vous enseigne la façon dont Google fonctionne et comment vous pouvez optimiser.
Quand un homme a faim, mieux vaut lui apprendre à pêcher que de lui donner un poisson » attribué à Confucius. « Si tu enseignes l’art de pêcher à un homme, il mangera toute sa vie.»

Résumé :

Les vecteurs de mots, et les vecteurs de contexte sont à la base de Google, mais aussi des moteurs de recherche en général. Ils utilisent ses représentations mathématiques à base de vecteur pour beaucoup de choses, comme pour Google RankBrain. C’est quelque chose d’indispensable à connaître en optimisation du référencement naturel (SEO). Toujours et encore, placer des synonymes et avoir un champ lexical large de mots / mots-clés autour d’un sujet.

Aussi, cet article n’est qu’une vue rapide d’une petite chose que fait Google et cela ne suffit sûrement pas à tout expliquer. Par exemple, Google regarde dans votre contenu s’ il est de mauvaise qualité, c’est -à -dire si votre orthographe est bonne afin de limiter le Webspam, si vous utilisez trop de mots proches sémantiquement pour booster votre score de page au niveau du texte. Que les ancres sont des facteurs on-page puissants pour l’optimisation d’un contenu, mais ce n’est simplement pas la direction que j’ai voulu prendre dans ce billet de blog.

Ainsi, je vous conseille une lecture sur les filtres anti spam telle que Panda étant donné que c’est un filtre qui analyse le contenu spammy. Mais aussi les algorithmes qui gravitent autour du concept de Google EAT, que l’on pourrait parfois liers à des scores de contenu.
Et globalement une lecture attentive sur les algorithmes et les facteurs de classement de Google répertorié sur ce site.

Quoi qu’il en soit, et comme vous avez pu vous en rendre compte, Google est à la fois très intelligent et extrêmement bête. Et Google à encore beaucoup de progrès à faire pour améliorer la recherche d’informations. C’est pourquoi, un contenu est généralement mis en avant par les moteurs de recherches lorsque ceux-ci sont connus et dispose de beaucoup de liens pointent vers le document, car c’est une preuve plus fiable que le contenu en lui-même. Même si, évidemment, l’ensemble est pondéré et qu’il y à aussi d’autres choses qui sont prises en compte pour juger le classement d’une page.

Si vous avez des questions, ou quoi que ce soit, surtout n’hésitez pas ! De bon commentaires pourront permettre de lever toutes ambiguïtés que je n’aurais pas pensé à préciser !

FAQ

Qu’est ce qu’un vecteur de mot ?

En recherche d’informations et en linguistique, les vecteurs sont utilisés pour quantifier le degré de similarité sémantique entre les mots grâce aux espaces vectoriels. La proximité sémantique entre plusieurs mots est d’autant plus forte lorsque la proximité spatiale entre les vecteurs est élevée. Calculée à partir d’un indice compris entre 0 et 1 (0 = proximité nulle, 1 = proximité maximale), elle est obtenue à partir de l’angle ou de la longueur. La polysémie constitue une limite de cette approche : ainsi, le mot “solution” ayant plusieurs significations, il sera donc proche de mots en rapport avec l’une ou l’autre signification, alors qu’il peut y avoir aucun rapport pour le contexte dans lequel il à été employé.

Qu’est ce qu’un vecteur de contexte ?

Un vecteur de contexte résout le problème des vecteurs de mots. Dans le contexte de la recherche d’information chez Google, BERT utilise un modèle bidirectionnel pour comprendre le contexte d’un mot, ainsi il peut résoudre le problème des mots polysémique.
Historiquement, l’approche pour y remédier était le Word Embedding. Cela consistait à construire des vecteurs de taille fixe qui prennent en compte le contexte dans lequel se trouvent les mots.

Qu’est ce que okapi BM25 ?

Okapi BM25 est un modèle de sac de mots utilisant le principe de TFxIDF. Ces variantes comme BM25F ont des applications de pondérations pour les éléments HTML sémantique.

Qu’est ce que Word2Vec ?

Word2Vec est composé de deux architectures, le modèle de sacs de mots continus (CBOW: continuous bag of words) et le modèle skip-gram (k-skip-n-gram). Le CBOW vise à prédire un mot dans une phrase. Le skip-gram a une architecture symétrique visant à prédire les mots du contexte via un mot en entrée. Sa version améliorée est BERT.

Qu’est ce que FastText ?

FastText est une bibliothèque accessible à tous développée par le laboratoire AI Research (FAIR) de Facebook dont un ingénieur du nom de Thomas Mikolov. Le modèle permet de créer un algorithme d’apprentissage supervisé ou non, afin d’ obtenir des représentations vectorielles des mots et de faire du word embedding. Cette technologie est particulièrement similaire à Word2Vec mais, par exemple, l’utilisation du modèle n-gram diffère.
FastText est très facile à mettre en place même pour un néophyte, alors n’hésitez pas à vous familiariser avec.

Qu’est ce que BERT ?

BERT pour Biredictional Encoder Representations for Transformer est un modèle du traitement du langage naturel basé sur les mêmes idées que son prédécesseur Word2Vec. Au lieu de CBOW ou skip-gram, nous parlons de MLM (Masked Language Modeling) et de NSP (Next Sentence Processing). Cependant, celui-ci permet de mieux comprendre le sens et le contexte des mots en fonction des phrases environnantes. Son mécanisme est encore davantage complexe car il utilise le mécanisme d’attention.

Qu’est ce que NLP (natural language processing) ?

Le traitement automatique du langage naturel (TALN), ou traitement automatique de la langue naturelle1, ou encore traitement automatique des langues (TAL), plus couramment appelé NLP (de l’anglais : natural langage processing) est un domaine multidisciplinaire impliquant la linguistique, l’informatique et l’intelligence artificielle, qui vise à créer des outils de traitement de la langue naturelle pour diverses applications.

Qu’est ce que le Word Embedding ?

Le word embedding (« plongement de mots» ou « plongement lexical» en français) est une méthode d’apprentissage de représentation de mots utilisée en traitement du langage naturel. Le Word embedding est tout simplement la vectorisation des mots dans un espace vectoriel. Cependant, certains déforment le mot. Ce qui, peut être compliqué. L’intelligence artificielle et leurs métiers changent tous les jours, de la même manière que pour les référenceurs.

Qu’est ce que tf*idf ?

Le TF-IDF est une méthode de pondération utilisée en recherche d’information et donc par les moteurs de recherche, en particulier dans la fouille de textes mais il peut avoir d’autres applications. Cette mesure statistique permet d’évaluer l’importance d’un terme rare.

Qu’est ce qu’un sac de mot ?

On considère que le monde peut être décrit au moyen d’un dictionnaire (de « mots »). Dans sa version la plus simple, un document particulier est représenté par l’histogramme des occurrences des mots le composant : pour un document donné, chaque mot se voit affecté le nombre de fois qu’il apparaît dans le document, que l’on appelle “bag” (multi-ensemble en français). Un document est donc représenté par un vecteur de la même taille que le dictionnaire, dont la composante i indique le nombre d’occurrences du i-ème mot du dictionnaire dans le document. Deux normalisations classiques sont la lemmatisation et la racinisation. Il est aussi assez courant de définir une liste de rejet (stop words) de mots à ne pas considérer (tels les pronoms, les articles, etc) car trop nombreux dans les corpus textuels pour être discriminants. En plus des mots du dictionnaire, il est aussi possible de considérer des combinaisons de ceux-ci, autrement dit des N-grammes, augmentant alors la taille du dictionnaire.

Qu’est ce que n-gramme ?

N-gram ou n-gramme en français est souvent utilisé en traitement du langage. Mais les n-grammes ont énormément d’applications différentes. Par exemple, ils sont utilisés dans l’intelligence artificielle ou dans la détection de duplication de contenu. Puisqu’une image vaut mieux que 1000 mots, voici en quoi consiste simplement les n-grammes :

Illustration du modèle et fonctionnement de n-gram

Différence entre skip-gram et n-gram ?

k-skip-n-gram (ou brièvement skip-gram) est un concept général de ‘sauter certains mots dans une séquence (par exemple une phrase) alors que dans le contexte de word2vec c’est le nom de l’un de ses algorithmes – beaucoup plus plus complexe que “juste” l’idée de sauter certains mots, mais il utilise un contexte avec un “mot sauté”.

Quels sont les outils SEO pour booster son score de contenu ?

YourTextGuru, Inlinks, SEOQuantum, 1.fr sont les plus connus.

Qu’est ce qu’un contenu de qualité pour Google ?

Un contenu de qualité pour Google ne veut pas dire grand-chose. Il est nécessaire de ne pas faire de la duplication de contenu interne et externe. Ensuite, proposez un contenu apportant une plue value, et utilisez des outils de référencement sémantique afin d’accroître votre “score”..

Quel est le filtre de Google pour détecter un mauvais contenu ?

Google Panda est le filtre anti-spam détectant les “fermes” de contenu. Il utilise notamment un modèle n-gram pour la détection de contenu en duplication.

Qu’est ce que KELM ?

Google AI Blog a annoncé KELM, un moyen qui pourrait être utilisé pour réduire les biais et le contenu toxique dans la recherche (réponse à une question sur le domaine ouvert). Il utilise une méthode appelée TEKGEN pour convertir les faits Knowledge Graph en texte en langage naturel qui peut ensuite être utilisé pour améliorer les modèles de traitement du langage naturel.