L’optimisation des moteurs de recherches (SEO) dans un Web sémantique

Mis à jour le 20/01/2023 | Publié le 11/08/2022 | 0 commentaires

Conception de site webSEOSémantique

L'optimisation des moteurs de recherche dans un Web sémantique consiste à créer un réseau de contenu dans une structure pertinente et significative pour chaque entité autour d'un sujet. Le SEO sémantique relie des termes, des entités, des faits entre eux dans une exactitude factuelle et une pertinence relationnelle. En se concentrant sur les entités et ce qui en gravite plutôt que sur les mots-clés, il a pour but de mieux satisfaire l'intention de recherche de l'utilisateur et d'apparaître pertinent sur un sujet.

Les moteurs de recherche modernes comme Google ou Bing sont des moteurs de recherche sémantique comprenant les relations entre les entités, ils recherchent des intentions et comprennent de mieux en mieux les informations sur le Web en les structurant. Ainsi, la création d'une structure de contenu déjà organisée avec des entités clairement connectées est importante pour le moteur de recherche sémantique et donc le référencement sémantique.

Le Web sémantique a également pour but de permettre aux robots d'indexation de mieux saisir le sens des pages web et d’être plus performants dans leur approche d'indexation et donc leurs recherches d’informations.

Dans une vision extrême, le monde peut être vu seulement que par des connexions, rien d’autre. Nous considérons un dictionnaire comme le dépositaire du sens, mais il ne définit les mots qu’en termes d'autres mots. Une information n’est vraiment définie que par ce à quoi elle est liée et comment elle est liée.

 

Il y à des milliards de neurones dans notre cerveau, mais que sont les neurones ? Juste des cellules. Le cerveau n'a aucune connaissance jusqu'à ce que des connexions soient établies entre les neurones. Tout ce que nous savons, tout ce que nous sommes, vient de la façon dont nos neurones sont connectés.

 

Il n'y a rien d'autre à signifier.

 

Tim Berners-Lee

Histoire du WWW sémantique

Connaissez vous un gars fascinant du nom de Tim Berners-Lee ?

Informaticien britannique, il est le principal inventeur du World Wide Web (WWW).

Il préside le World Wide Web Consortium (W3C), organisme qu'il a fondé.

L'objectif de cette proposition est le partage des documents informatiques, ce que Tim Berners-Lee a l'idée de réaliser en associant le principe de l’hypertexte à l'utilisation d'Internet.

C'est en mai 1990 qu'il adopte l'expression de World Wide Web pour nommer son projet

Tout le monde connaît la suite de l’histoire, “internet” comme nous le connaissons.

Mais pourquoi je le mentionne ?

Depuis la naissance du W3C lors de la première conférence internationale du WWW est concomitante avec une nouvelle idée de Tim Berners-Lee : le Web sémantique.

Lors de cette conférence, il expliquait déjà que « le Web a besoin de sémantique » : il cherche à dépasser la logique de l'hypertexte dans la perspective de lier le Web au monde réel par la sémantique.

L’idée derrière le Web sémantique

Le Web a été une mer de données non structurées dès le départ. C'est ainsi qu'il a été inventé.

L’idée du Web sémantique est un système qui permet aux machines de « comprendre » les mots et leurs relations. Une telle « compréhension » exige que les sources d'information pertinentes aient été sémantiquement structurées au préalable.

Le Web sémantique, ou toile sémantique, est la définition la plus pure du Web 3.0. Standardisée par le World Wide Web Consortium (W3C), ces standards encouragent l'utilisation de formats de données et de protocoles d'échange normés sur le Web, en s'appuyant notamment sur le modèle Resource Description Framework (RDF).

Appliqué au Web et aux moteurs de recherche, ce modèle étend le réseau de liens hypertextes des pages Web lisibles humainement en insérant également des données structurées beaucoup plus claires pour les machines.

Effectivement il existe deux catégories : les documents lisibles par l'homme et les données lisibles par la machine.

Voici un exemple d’une page HTML classique :

<item>cat</item>

Voici un exemple d’une page HTML sémantique :
<item rdf:about="http://dbpedia.org/resource/Cat">Cat</item>

Cependant les métadonnées indiquant l'auto-référence ont été largement critiquées. Conséquence du référencement abusif depuis 1999.

La sémantique en JSON pour les robots vs le HTML pour les humains

Google, moteur de recherche sémantique

Comment Google ont-ils fait leur bout de chemin vers un moteur de recherche sémantique (moteur de recherche structuré) ?

Tout commença par l’idée d’une base (graphe) de connaissance, une idée qui en réalité datait déjà depuis 1997.

Entre temps Sergey Brin à écrit un brevet sur “extracting patterns and relations from scattered databases such as the world wide web” en 1999. Ce qui semble être une première tentative de Google pour organiser les données sous une forme lisible par machine.

Mais les balbutiements commencent réellement à prendre forme en 2010 après l’achat d’une base de connaissances du nom de freebase créé par la société Metaweb. Freebase constituera le début du graphe de connaissance de Google, du nom de Knowledge Graph.

Freebase est un graphe de connaissance qui à été réalisé et structuré manuellement par des humains bénévoles

Cela dit, c'est en 2011 que tout a commencé à se mettre en place, avec la naissance de schema.org fondé par Bing, Google, Yahoo et Yandex. L'idée était de présenter aux webmasters un vocabulaire unique. C’est ainsi que les données structurées telles que le format JSON-LD ont pris naissance pour organiser les informations des pages Web.

Dans la même année (2011) Google annonce “Structured Search Engine” que l’on peut traduire par moteur de recherche structuré pour structurer les informations du Web :
https://www.youtube.com/watch?v=5lCSDOuqv1A

En 2013, un gars du nom d’Amit Singhal, Search Avocate chez Google introduira le Knowledge Graph pour une meilleure compréhension du Web.

The Knowledge Graph: things, not strings
Amit Singhal

Voici la chronologie des faits majeurs de Google vers un Web sémantique :
Frise chronologique de Google vers un moteur de recherche sémantique
Étant donné que tout à commencé à partir de Freebase et de Knowledge Graph, et que cela est INDISPENSABLE à comprendre, c’est par là que nous allons commencer.

Comment est construit un graphe de connaissance ?

Les graphes de connaissances dont celle de Google du nom de Knowledge Graph sont composé d’entités reliées à d’autres entités par des relations.
Le Knowledge Graph
Expliqué simplement, voici comment est construit un Knowledge Graph :
Nous avons une entité qui s’appelle “Léonard de Vinci”, il est née en 1452, c'est un artiste, il à peint la Joconde, etc…

Le référencement sémantique est qu’une question d’entités, de connexion, de relation.

En vue macro, voici un petit graphe de connaissance.

Nœud a A et Nœud B sont deux entités différentes. Ces nœuds sont reliés par une arête qui représente la relation entre les 2 nœuds. C'est le plus petit graphe de connaissances que nous puissions construire - il est également connu sous le nom de triple .

Triple sémantique

Par exemple, le graphe de connaissances de Wikidata compte environ 100 000 000 nœuds en 2022.

Bien que je ne vous apprendrais pas à créer des graphes de connaissance car ce n’est pas le sujet, il est important tout de même de comprendre un peu plus comment cela fonctionne.

Si Nœud A = Poutine et Nœud B = Russie, alors il est fort probable que le bord soit « président de » :
Sujet prédicat Objet - triple
Un nœud, une entité peut avoir évidemment plusieurs relations. Poutine n'est pas seulement le président de la Russie, il a également travaillé pour l'agence de sécurité de l'Union soviétique, le KGB.

Ce qui nous donne :
Graphe de connaissance
C’est ainsi que les graphes de connaissances fonctionnent, quels que soient leurs noms, leurs spécificités, ils sont composés d’entités connectées à d’autres entités par une relation qui les lie entre eux.

C’est quoi une entité ?

En SEO, une entité concerne les sujets pouvant être lié aux graphes de connaissances des moteurs de recherche, comme le Google Knowledge Graph.

Wikipedia a agi et continue d'agir comme une base de confiance principal pour le Knowledge Graph. Ainsi, et pour simplifier, nous pouvons appeler une entité tout sujet pouvant être attaché à une page d'article Wikipédia. C'est évidemment plus compliqué en réalité car le KG est issu d'autres bases de connaissances et qu'ils seraient également capable d'autogénérer des triples grâce au Knowledge Vault.

Les entités de Wikipedia

Google dispose de son propre graph de connaissance, le Google Knowledge Graph, mais il utilise pour cela d'autres graphes de connaissance et ou base de connaissance comme ceux de Wikipedia et Wikidata afin de fournir des extraits enrichis de panneaux de connaissances sur les résultats de recherche (Knowledge Panel en anglais).

Wikipédia panneaux de connaissance et Google Knowledge Graph

Google utilise également Wikipédia pour d'autres choses comme pour entrainer ces modèles.

Par exemple, Google exploite le Knowledge Graph de Wikidata pour KELM et REALM.

Le fonctionnement de Knowledge-Enhanced Language Model (KELM) pour la sémantique chez Google

TEKGEN est un vaste corpus d'entraînement de texte Wikipédia aligné de manière heuristique et de triplets Wikidata KG , un générateur de texte à texte ( T5 ) pour convertir les triplets KG en texte, un créateur de sous-graphes d'entités pour générer des groupes de triplets à verbaliser ensemble, et enfin, un filtre de post-traitement pour supprimer les sorties de mauvaise qualité.

Le résultat est un corpus contenant l'intégralité de Wikidata KG sous forme de texte naturel, que nous appelons le corpus Knowledge-Enhanced Language Model (KELM) . Il se compose de ~ 18 millions de phrases couvrant ~ 45 millions de triplets et ~ 1500 relations.

Bref, à quoi ça sert ? Cela a des applications dans le monde réel pour les tâches à forte intensité de connaissances, telles que la réponse aux questions.

De plus, de tels corpus peuvent être appliqués dans la pré-formation de grands modèles de langage, et peuvent potentiellement réduire la toxicité et améliorer la factualité.

Wikimedia et Google ont bien une forme de partenariat. Source : https://meta.wikimedia.org/wiki/Overview_of_Wikimedia_Foundation_and_Google_Partnership

Wikipédia et Wikidata

Wikipédia est l'un des projets connectés à Wikidata. Chaque article de Wikipédia possède maintenant un identifiant unique sous forme d'IRI et constitue une entité dans Wikidata. Chaque entité est composée de plusieurs propriétés possédant une à plusieurs valeurs (des triplets).

La valeur de ces propriétés peut être une autre entité, mais aussi une chaîne, un nombre, une date, etc.
Les données ainsi structurées sont réutilisables sous divers formats (XML, JSON, Turtle...) et peuvent servir à terme à alimenter les infoboxes de Wikipédia, évitant ainsi de modifier manuellement celles-ci dans toutes les langues puisqu'à chaque modification de Wikidata, toutes les infoboxes sont modifiées en même temps.

Théoriquement, vous pourriez afficher une page Wikipedia pour désigner l’entité dont vous faites référence dans votre texte, ou vous pourriez indiquer l’URI de l’entité de Wikidata pour un meilleur référencement sémantique.

<span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731">

<span property="name">Dresde</span>

Composition du Google Knowledge Graph

Composition du Google Knowledge Graph
Le Google Knowledge Graph, issu à la base de la base de connaissance Freebase, c’est aujourd’hui largement élargi, mélant des datasets pour l’apprentissage des intelligences artificielle, des sites sans données structurées, Wikipédia, Wikidata et plein d’autres sources.

 

Comment Google extrait les données non structurées

Les types de données sont multiples et incluent les textes, la vidéo, l’audio (données non-structurées) et les données structurées.

Pour l’extraction d’informations nécessaires à la construction du graphe à partir de textes non structurés, ils ont besoins de techniques de traitement automatique du langage appelé NLP en anglais pour Natural Language Processing :

Google utilise donc la technologie NLP, pour extraire les entités présentes dans vos textes.

Par exemple, si nous prenons la phrase :
“Il est important de comprendre le fonctionnement du Knowledge Graph et les entités afin de comprendre pourquoi et comment l’optimiser pour le référencement (SEO).”

Voici ce que Google comprend de notre phrase :

Google NLP API
Il va récupérer des entités (nommées ou non) de notre texte, et le fera correspondre à ses graphes de connaissances pour comprendre les différentes relations avec les entités présentes dans votre phrase.

Image d’un brevet de Google montrant l’extraction d’entité à l’aide de NLP relié au Knowledge Graph :

Extraction d'entité avec la technologie NLP et le Knowledge Graph
Il va ensuite comprendre le sentiment qui se dégage derrière notre phrase, comment la phrase est construite et la catégorie relative (BERT).
Sentiment et syntaxe d'un contenu avec NLP de Google

Toutes les catégories de Google NLP sont accessibles via l'URL : https://cloud.google.com/natural-language/docs/categories
Des brevets concernant l’extraction d’entité peuvent être trouvé à cette URL : https://gofishdigital.com/blog/entity-extractions-knowledge-graphs/

Google Knowledge Graph API

Après que NLP est extrait l’entité de votre texte, vous voudriez sûrement savoir ce qu’il comprend de cette entité.

En utilisant seulement l’API NLP vous aurez qu’une courte description. En utilisant celle dédiée au Google Knowledge Graph vous pourrez découvrir ce qu’ils savent autour d’une entité.

Si non prenons l’entité “Search Engine Optimization”, voici ce qu’il comprend de l’optimisation du référencement :

Utilisation de l'API Google Knowledge Graph pour l'entité SEO
Il y à un indice de probabilité que le résultat le plus attendu soit un tel ou un tel. En l'occurrence il a compris ce qu’est l’optimisation du référencement :

Score du Google Knowledge Graph API
Cela est aussi liée à une entité “Search engine optimization metrics”

"articleBody": "A number of metrics are available to marketers interested in search engine optimization. Search engines and software creating such metrics all use their own crawled data to derive at a numeric conclusion on a website's organic search potential. ",

Mais j’ai explicitement cherché le mot complet et non pas l'acronyme. Car de prime abords, Google comprend ‘SEO’ comme :

"description": "Capital of South Korea", "detailedDescription": {"articleBody": "Seoul, officially known as the Seoul Special City, is the capital and largest metropolis of South Korea. According to the 2020 census, Seoul has a population of 9.9 million people, and forms the heart of the Seoul Capital Area with the surrounding Incheon metropolis and Gyeonggi province. ","url": "https://en.wikipedia.org/wiki/Seoul",

Et d’ailleurs, si nous retournons sur l’API NLP, voici ce qu’il disait de “SEO” :

Entité du mot SEO pour Google
Avec l’API OpenGraph vous pourrez explorer tous les détails. Nous pouvons donc comprendre pourquoi Google l’avait détecté comme une organisation.
Résultats de scores d'entités pour SEO avec l'API KG
Il comprend beaucoup de chose mais le fais que ce soit une organisation n’est juste qu’un score haut, mais il pense aussi que cela peut être lié à pleins d’autre chose.

Une chaîne de caractères comme “SEO” est attribuée à un ID dans le knowledge graph. Cela vaut pour toutes les entités.
Par exemple : @id: /g/11fw71_nbj est égale à la chaîne Jason Barnard. Jason Barnard étant une entité.

Vous pouvez d’ailleurs chercher via l’outils Kalicube si votre Nom ( ou autre ), est connu du graphe sans avoir à créer une clé API Google comme je l’ai fais juste avant :

Chercher une entité du KG avec l'outil SEO Kalicube

Sinon, il à également la boite outils SEO de Merkle incluant la recherche d'entité du Google Knowledge Graph, exportable en fichier excel.

Chercher une entité du KG avec l'outil SEO Merkle

Vous pouvez également utilier mon outil SEO pour explorer les entités du Google Knowledge Graph :

Outil SEO pour explorer les entités du Google Knowledge Graph

L’API Google Knowledge graph est accessible à l'url : https://developers.google.com/knowledge-graph#typical_use_cases

Knowledge Vault

Le knowledge vault est une fusion de toute les données, entre graphe de connaissance, texte ( donnée non-structurée), donnée structurée.

Nous utilisons des méthodes d'apprentissage automatique supervisé pour fusionner ces sources d'information distinctes. Le Knowledge Vault est considérablement plus grand que n'importe quel référentiel de connaissances structuré publié précédemment, et dispose d'un système d'inférence probabiliste qui calcule des probabilités calibrées d'exactitude des faits. Nous rapportons les résultats de plusieurs études qui explorent l'utilité relative des différentes sources d'information et méthodes d'extraction.

Google

Le Knowledge Vault pourrait donc permettre à Google de valider les informations puis, si ceci est le cas, l’intégrer à leurs Knowledge Graph.

Résumé du fonctionnement du knowledge Vault :

Fonctionnement du Knowledge Vault

En savoir plus : https://cikm2013.org/slides/kevin.pdf

Différence entre Knowledge Vault et le Knowledge Graph ?

KG se compose de deux parties : une base de connaissances et un moteur d'inférence (dériver des conclusions à partir d'une base de faits et d'une base de connaissances). La base de connaissances est un ensemble de données avec une sémantique formelle qui peut contenir différents types de connaissances, par exemple, des règles, des faits, des axiomes, des définitions, des déclarations e primitives.

Vault ne peut pas être classé comme une véritable base de connaissances, car elle prolonge l'idée d'un magasin sémantique pur avec des capacités de raisonnement et donc ressemble davantage à un système fondé sur la connaissance.

Cette ressource est intéressante : http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1054.8298&rep=rep1&type=pdf

Résumé du fonctionnement du Knowledge Vault et du Knowledge Graph :

Knowledge Graph vs Knowledge Vault

Knowledge Based Trust (KBT)

La connaissance basée sur la confiance ou Knowledge Based Trust (KBT) se concentre sur le web ouvert sur la « précision de l’information », et non sur le « PageRank »

La confiance basée sur la connaissance implique des triplets, l’extraction de faits, la vérification de l’exactitude et la compréhension du texte en supprimant l’ambiguïté.

La confiance basée sur la connaissance peut être acquise en fournissant des réseaux de contenu sémantique (masse de contenu relié sémantiquement) qui ont les composants fortement connectés dans l’article, basés sur des couches contextuelles différentes mais pertinentes.

Knowledge Based Trust. PageRank vs KBT
https://www.youtube.com/watch?v=Z6tmDdrBnpU
Ci-dessus, vous verrez un exemple de présentation de la confiance basée sur la connaissance de Luna Dong. Elle montre comment un moteur de recherche peut se concentrer sur les « facteurs de positionnement internes » plutôt que sur les facteurs de positionnement externe.

Un PageRank élevé ne peut pas représenter à lui seul une qualité et une précision élevées du contenu.

EAT

E-A-T pour expertise, autorité et fiabilité, (expertise, authority, trust) est un concept qui à été introduit par Google en 2014.

Tout le monde sait à peu près à quoi cela correspond, donc nous allons plutôt explorer EAT dans un contexte de référencement sémantique.

Malgré tout, si vous n’avez pas les bases d’EAT, Google E-A-T est un CONCEPT de Google pour expliquer simplement une multitude d'algorithmes. De la même manière que l’on peut dire que faire de l'expérience utilisateur c’est faire du SEO, EAT est le fait d’avoir un site “expert, fiable et d’autorité”.

Voici comment nous pourrions le décomposer simplement :
Les facteurs du concept EAT de Google

Entités et Google E-A-T

Les relations entre les entités, les personnes et les sujets sont importantes pour Google, car c'est ainsi qu'ils peuvent déterminer de manière algorithmique les relations contextuelles, la qualité ou la force de la relation, et donc, l'autorité et l'expertise.

Exemple :
Un article sur “comment guérir le cancer” est rédigé par un expert oncologue (cancérologue) très connu et récompensé par ses travaux. Son nom est une entité, reliée à beaucoup de mentions sur le WWW sur le cancer.

Donc l’entité et “EAT” peut être considéré comme lié car la puissance et la qualité de l’entité lié à la relation cancer étant importante, alors cet article se classera mieux qu’un expert en journalisme.
Comment Google peut évaluer un auteur grâce à la sémantique

Ici nous ne parlons pas de backlinks. Mais nous parlons bien d’entité, de mention et de relation. Et donc d’une certaine mesure, d’EAT liée au référencement sémantique.

Résumé des systèmes de connaissance chez Google

Pour synthétiser ce que nous devons voir, voici ce qu’il est important de retenir :

  • Google utilise le “Knowledge Graph” : un vaste graphe de connaissance qui relie des entités par des relations
  • Google utilise d’autre réseaux de connaissance comme : Wikipedia / Wikidata / CIA World Factbook et bien d’autres en plus de données non-structurées.
  • Google extrait de vos textes les entités grâce a NLP et les relies à différentes graphes de connaissances lui permettant de “comprendre les entités et donc la sémantique de vos textes”
  • Google peut également extraire la sémantique de votre page grâce à vos données structurées que vous insérez manuellement en JSON-LD.

Espace vectoriel et sémantique

Représentation d'un espace vectoriel
Depuis tout à l’heure nous parlons des algorithmes les plus importants pour comprendre la sémantique. Mais comme vous le savez probablement déjà, le mot sémantique est généralement utilisée par les référenceurs pour parler de champ lexical autour d’un mot-clé pour apparaître plus pertinent.

Algorithmiquement, ceci vient du fait qu’en représentant chaque mots de la langue dans un espace vectoriel, il serait possible de capturer le sens sémantique d’un mot. Effectivement en plaçant tous les mots de la langues dans un espace, il est alors possible de comparer les vecteurs des mots entre eux en mesurant l'angle entre les vecteurs. Ceci permettra alors de prédire que le mot « chien » est plus près du mot « chat » qu'il ne l'est du mot « gratte-ciel » . Un espace vectoriel permettrait aussi de répondre à des équations comme roi - homme + femme = reine ou encore l'équation Paris - France + Espagne = Madrid.

C’est ainsi que le mot sémantique est généralement employé. Il désigne la proximité sémantique, c'est à dire la distance des mots proches sémantiquement dans l’espace vectoriel.

C’est donc le sujet qui revient en boucle lorsque l’on entend parler de référencement sémantique. Mais ce n’est qu’une branche de la sémantique parmi tant d’autres.

Mais un point intéressant que j’ai voulu vous partager ici est que lors de ma lecture sur le papier original de Google expliquant Knowledge Vault, il est fait mention que la représentation sémantique dans un espace vectoriel et la sémantique dans la théorie des graphes (Knowledge Vault) pouvait être corrélée.

Voici l’extrait du papier en question (que j’ai légèrement traduit) :

Pour illustrer que le modèle de réseau de neurones apprend une représentation « sémantique » significative des entités et des prédicats, nous pouvons calculer les voisins les plus proches de divers éléments dans l'espace à K dimensions. Il est connu des travaux antérieurs (par exemple, https://arxiv.org/pdf/1301.3781.pdf) que les entités liées se regroupent dans l'espace. Nous voyons que le modèle apprend à placer des prédicats sémantiquement liés (mais pas nécessairement similaires) les uns à côté des autres. Par exemple, on voit que les prédicats les plus proches (dans l'espace de plongement w) du prédicat 'enfants' sont 'parents', 'conjoint' et 'lieu de naissance'.

Source : https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45634.pdf

Si vous êtes confus à propos de la représentation sémantique des mots dans un espace vectoriel ou si vous souhaitez créer des modèles pour un référencement technique, je vous invite à explorer les docs de TensorFlow.

https://www.tensorflow.org/text/guide/word_embeddings

Voici une courte vidéo montrant Word2Vec grâce à PCA (similaire à T-SNE)

Voici les algorithmes sémantiques utilisant la représentation des mots dans un espace vectoriel :

Hummingbird et sémantique

À l'époque, Google évaluait le sujet d'une page en se basant à 100 % sur des mots clés.

Mais depuis 2013, le classement des pages se fait plus intelligemment grâce à l’algorithme Hummingbird (colibris en français).

Hummingbird consiste à mieux comprendre le sujet d’une page grâce à l’Identification des synonymes basée sur des termes et à mieux comprendre les entités qui sont évoquées.

Pour mieux cerner mes propos, nous pouvons extraire un brevet de Google liée à cette algorithme, ou il est décrit assez précisément la manière dont ils essaient de comprendre le langage humain :

Hummingbird et sémantique, l'impact sur les résultats de recherche de Google
Le brevet (probable) du colibri nous indique qu'une mesure de cooccurrence est utilisée pour évaluer les paires termes/synonymes candidats en fonction de la fréquence à laquelle ces termes (ou mots ou expressions composés) apparaissent ensemble ou dans des requêtes d'utilisateurs associées (par exemple, dans des requêtes consécutives au sein d'une requête session) ou qui ont tendance à apparaître ensemble dans les résultats de requête associés.

Google peut prendre en compte de nombreux synonymes d'une base de données de synonymes pour voir dans quelle mesure ceux-ci s'intègrent dans le contexte de l'ensemble de la requête.

Mais plutôt que de continuer à décrire cette infographie sur le fonctionnement de leurs algorithmes, concentrons-nous sur un exemple qu’ils nous donnent, toujours issu du brevet en question.
Comment Hummingbird change les SERP avec la sémantique
Sur cette image, vous pouvez voir la requête “Quel est le meilleur endroit pour trouver et manger une pizza de style Chicago ?” Google détermine ainsi que le mot “Place” soit “endroit” est égal au mot “restaurant” en fonction du contexte de la requête. C’est ce que vous pouvez voir tout en bas à droite, avec un indice appelé confidence, évalué ici en l'occurrence comme élevé.

La recherche sémantique

Parlons de l’impact de ce que nous venons de voir au travers de votre analyse de mot-clé.

Il y à quelques années, vous auriez pu créer plusieurs contenus parlant du même sujet mais dont les internautes le formulaient différemment.

Par exemple, un article sur “les meilleurs endroits pour manger une pizza” et un autre article sur “les meilleurs restaurants de pizza”.

Aujourd’hui, Google identifie parfaitement qu’il s’agit du même sujet, ce qui est donc inutile.

Il renverra les mêmes résultats pour ses variations de mots-clés.

Et c’est d’ailleurs le problème de l’utilisation des mots-clés de longue traîne. Si un mot-clé est identifié comme peu concurrentiel sur votre outil SEO, il est toujours indispensable de rechercher ce dit mot-clé sur Google et d’interpréter les résultats.

Un autre exemple, les mots-clés à longue traîne comme "conseils de création de liens" et "techniques de création de liens" sont peu concurrentiels, mais Google affichera toujours les même page classés quelques soit votre formulation, ainsi que pour le sujet parent, “création de lien’”, voir même “linkbuilding”.

L'impact de l'algorithme Hummingbird sur le SEO

Qu'est-ce que RankBrain ?

RankBrain fait beaucoup de choses pour la sémantique.
La 1ère version de RankBrain à été confirmée par Google le 26 octobre 2015.
Mais pour le comprendre, extrayons une nouvelle fois le brevet le plus probable derrière cette algorithme :
L'algorithme de RankBrain derrière un brevet de Google
Derrière ce brevet, Google indique que selon une mise en œuvre, un procédé comprend la réception d'une requête qui comprend au moins trois termes de requête séquentiels ; déterminer que les termes de requête séquentiels représentent un concept ; et en réponse à la détermination que les termes de requête séquentiels représentent un concept, collecter des données de substitution de terme de requête pour un ou plusieurs termes de requête qui apparaissent dans des requêtes qui incluent le concept.

Exemple :
Un internaute cherche : “New York Times Puzzle”
RankBrain décide que : “Puzzle” = “Crossword”

Ce qui donne :
L'impact de Rankbrain sur les SERP
La différence entre Hummingbird et RankBrain n’est pas si facilement perceptible de prime abord, en fait il est surtout question d’aboutir à la même idée, comprendre comment les choses sont liées et pourquoi.

À la base, RankBrain est un système d'apprentissage automatique qui s'appuie sur Hummingbird, qui a fait passer Google d'un environnement de « chaînes de caractères » à « entités et relations ».

La représentation vectorielle continue d'un titre donné est proche, dans l'espace de représentation vectorielle, de celle d'un titre similaire, même si leurs libellés sont différents. Par exemple, les phrases "l'équipe est prête à gagner le match de football" et "l'équipe est prête à remporter la victoire dans le match de foot" ont la même signification mais ne partagent presque pas le même vocabulaire. Toutefois, elles devraient être proches l'une de l'autre dans l'espace de représentation vectorielle, car leur encodage sémantique est très similaire.

BERT - introduction

BERT pour Bidirectional Encoder Representations from Transformers est un algorithme de machine learning dédié au traitement du langage naturel (NLP). C’est cet algorithme qui détecte la fameuse « intention de recherche ». Mais il fait aussi bien d’autres choses.

BERT est capable de prévoir sur quelle intention un utilisateur va se concentrer plutôt qu’une autre.
Par exemple, la phrase « She is eating a green apple », l’algorithme détecte que l’utilisateur va se concentrer sur la lecture de « apple » après avoir lu « eating », plutôt que de se concentrer sur l’adjectif « green ».

Le fonctionnement de l'algorithme BERT
BERT essaie de mimer le comportement humain.

BERT est également capable de prédire quel mot va apparaître dans un contexte. Sans doute plus intéressant encore, BERT est capable de lever les ambiguïtés dans une requête grâce à l’analyse de contexte.
Par exemple « le problème n’a pas de solution » et « faire chauffer la solution à 78 degrés », le mot solution n’a pas le même sens en fonction du contexte de la requête.

Composition simpliste de BERT :

  • Le Masked Language Model (MLM) dont le principe est de découvrir la probabilité d’un mot manquant dans une phrase.
  • Le Next Sentence Processing (NSP) qui comme son nom l’indique doit prévoir la phrase suivante d’une phrase

BERT est un codeur de transformateur et à été d'un grand succès pour les tâches de traitement du langage naturel. Ils calculent des représentations vectorielles dans l'espace du langage naturel qui peuvent être utilisées dans des modèles d'apprentissage en profondeur (Deep Learning). BERT n'est pas un algorithme à part entière, c'est une famille de modèles.
Depuis BERT (2018), les verbes, les adverbes, les adjectifs sont également importants pour déterminer le contexte. En identifiant les relations entre les jetons, des références peuvent être établies et ainsi les pronoms personnels peuvent également être interprétés. D'autres tâches de traitement du langage naturel (NLP), telles que la réponse aux questions et l'analyse des sentiments provient de la famille d'algorithmes BERT.

BERT, NER et la sémantique

Au delà de la représentation sémantique des mots et de sa capacité à résoudre plus facilement le contexte des mots polysémiques à contrario de Word2Vec, BERT est aussi capable de détecter des entités avec un jeton NER, NER étant l'accronyme de Named Entity Recognition ou REN pour Reconnaissance d'Éntité Nommée.

  • Grâce aux verbes, des relations entre les entités peuvent être établies.
  • Les adjectifs eux, peuvent être utilisés pour identifier un sentiment autour d'une entité.

Avant le traitement du langage naturel, Google dépendait d'informations ou de bases de données structurées et semi-structurées gérées manuellement. Avec BERT, il est possible d'extraire des entités et leurs relations à partir de sources de données non structurées et de les stocker dans un index graphique. Un grand pas dans l'exploration de données pour le graphe de connaissances.

Pour cela, Google peut utiliser les données déjà vérifiées de bases de données (semi-)structurées comme le Knowledge Graph, Wikipédia… comme données d'apprentissage pour apprendre à attribuer des informations non structurées à des modèles ou classes existants et à reconnaître de nouveaux modèles. C'est là que le traitement du langage naturel sous la forme de BERT et MUM joue un rôle crucial.

En outre, grâce au traitement du langage naturel, Google est en mesure d'accéder à une vaste gamme d'informations non structurées à partir de l'ensemble du Web explorable.

MUM

MUM : Le 18 mai 2021, le vice-président de la recherche de Google, Pandu Nayak, annonce l’arrivée de Google MUM. Un nouvel algorithme, qui sera 1000 fois plus puissant que BERT.

MUM est au cœur de la réponse aux questions de Google.
MUM est l'acronyme de Multitask Unified Model ou Modèle Unifié Multitâches

 

Résumé du fonctionnement de Google en tant que moteur de recherche sémantique

Le fonctionnement de Google en tant que moteur de recherche sémantique
Grâce à ces avancées, Google peut examiner un élément de contenu et comprendre non seulement le sujet qu'il couvre, mais aussi les sous-thèmes, termes et entités connexes et comment tous ces différents concepts sont interdépendants.

Qu'est-ce que le SEO sémantique ?

Tout cela nous enseigne que le référencement sémantique consiste à rédiger un contenu optimisé autour de sujets, d’entités, et non pas seulement sur la base de mots-clés.

Au-delà du contenu, le SEO sémantique c’est également créer des contenus mailler stratégiquement autour d’un ensemble de sujets / entités traitant du sujet global.

D’un point de vue de référencement off-page, le référencement sémantique consiste à créer une identité de marque et ou à créer des mentions pour l’EAT plutôt que de simple lien (backlinks).

Si vous êtes plutôt référencement technique, vous pourrez aller encore plus loin comme en calculant le score BERT de vos pages :

Calculer le score BERT de ses contenus
Vous pourriez également vérifier si vos dix mots-clés les plus utilisés correspondent effectivement aux entités de la thématique.

Pour cela vous pourriez calculer la densité de mots-clés d'entités.

Et plein d’autres choses.

Effectuer un audit d'entité

La première étape pour parvenir à une optimisation d'entité consiste à effectuer un audit d'entité, de la même manière que l’on écrit pas un article sans avoir analyser le potentiel d’un mot-clé.
Il garantit que votre site Web utilise les entités connues appropriées et associées à votre thématique et vous aide à rédiger un contenu sur des sujets dont votre site Web devrait vraiment parler. Vous pouvez également faire ce que l'on appelle une analyse sémantique.

Auditez votre site

Lors de l'audit de votre site Web, vous voudrez trouver toutes les entités qui font partie de votre thématique. Dans le principe d’un cocon sémantique et de relier l’offre et la demande, je dirais même plutôt de recouvrir les entités autour de votre marque.

Exemple :

Si vous êtes une agence SEO. Vous pouvez viser le sujet du référencement sémantique, c’est un sujet dont vous voudriez parler pour être mieux classé.

Mais si vous êtes une agence SEO spécialisée dans la création de lien, peut être devriez vous plutôt faire un audit d’entité autour du linkbuilding. D’ailleurs, si tel est le cas et que vous n’avez jamais parlé de l’entité Brian Dean, vous ne faites pas de référencement sémantique à proprement parler.

Lorsque vous tentez de découvrir des entités, il est important de garder à l'esprit qu'elles ne doivent pas être n'importe quel ancien mot-clé générique que vous identifierez dans un projet de recherche de mots-clés.

Au lieu de cela, ils devraient tous être des noms - des idées, des lieux, des personnes, des choses, des dates …

Informez-les des faits associés à ces entités.

Après l'audit de l'entité

Une fois que vous avez audité les entités connues de votre site Web, faites de jolies mindmap pour les liées de manière logique. Ensuite, publier le contenu.

Portez une attention au référencement technique et on-page.

Tout cela compte.

Mais surtout pensez au maillage interne. Et travailler sur l'architecture du site Web avec vos entités les plus ciblées correctement organisées.
Architecture de l'information pour le SEO

Google identifie mal la sémantique

Nous avons vu en début d’article que Google utilisait NLP pour comprendre le sens d’un texte à partir d’intelligence artificielle relié d’une manière ou d’une autre au Knowledge Graph.

Cette technologie NLP, permet de comprendre un texte et de relier les mots à des entités.
CEPENDANT. Ceci n’est pas toujours interprété de la bonne manière ou relié correctement.

Pour illustrer mes propos, inLinks à mener de nombreuses études sur plusieurs secteurs, et Google n’arrive pas à connecter les entités autant qu’il le pourrait.

Voici un exemple pour la compréhension de Google dans le secteur de la finance :

  • Australie (vu 8 fois) => détecté par Google
  • Cryptomonnaie (8) => détectée par Google
  • Service (économie) (7) => NON détecté par Google
  • Devise (7) => NON détectée par Google
  • Investissement (6) => NON détecté par Google
  • Actif (6) => NON détecté par Google
  • Marché (économie) (6) => NON détecté par Google
  • Intérêt (6) => NON détecté par Google
  • Paiement (6) => NON détecté par Google
  • Bitcoin (6) => détecté par Google
  • Information (6) => NON détecté par Google
  • Finance (5) => NON détecté par Google
  • Bénéfice (économie) (5) => NON détecté par Google
  • Argent (5) => NON détecté par Google
  • Monnaie numérique (5) => NON détectée par Google
Le lien des études sur différentes thématiques : https://inlinks.net/en/industry-report

Les données structurées

En utilisant des données structurées, appelé également schema markup, vous donnez des informations sémantiques précises sur votre contenu pour Google.

Mais, évidemment, il est possible d’ajouter tout un tas d’autres données structurées.
Les données structurées
En ajoutant des schemas définis vous apparaitrez également en résultats enrichis, cela pourrait augmenter votre CTR, facteur probable de classement due à RankBrain.

Mais surtout, vous faites comprendre vos textes à Google. Vous lui éviterez de mal comprendre les informations.

Données structurées et Wikipedia

Plutôt que d’essayer encore et encore de truander Google, je pense qu’il est préférable de l’aider.

Penser à comment nous pouvons aider Google à faire comprendre notre site.

Intrinsèquement liée au maillage interne et au référencement sémantique. Le faire, c’est adopter une stratégie pérenne.

Oublier de se réveiller le matin en regardant un nouveau brevet qui fera décroître la visibilité d’un site.

Impossible donc de faire abstraction dans ce billet de blog de Dixon Jones.

Et plus exactement de son outil inlinks.net

Dixon Jones, ancien membre de Majestic, il se focalise aujourd’hui sur le référencement sémantique plutôt que sur l’optimisation des backlinks.

Son outil, permet, entre autre, de créer automatiquement des données structurées sémantiques en fonction de votre page Web et de ressortir toutes les entités ou définitions que vous utilisez dans votre contenu, ce qui donne par exemple ceci :
Ajouter des données structurées sémantique pour le SEO (schema)
Lorsque vous donnez les définitions de Wikipedia, vous optimisez votre site pour le référencement sémantique (c’est ce que l’on appelle la Wikification). C’est pourquoi nous avons pris le temps en début d’article d’expliquer comment tout cela était connecté.

Imaginez que votre phrase contient le mot Paris. Paris est dans le contexte, la ville ou bien le nom de famille Paris pour Paris Hilton ? Spécifier le dans vos données structurées.

InLinks comprend et clarifie le sujet de votre contenu et le connecte aux Knowledge Graphs des principaux moteurs de recherche.

inLinks Knowledge Graph

Essayez inLinks pour le référencement sémantique

Les sujets importants de vos pages sont désambiguïser et liés à des entités que Google comprend et utilise dans ses services Web tels que la recherche, les actualités et la recherche vocale.
Laissez votre contenu être compris par les moteurs de recherche.

Mais ce n’est pas tout, inLinks.net permet également de mailler vos contenus vers un référencement sémantique, agrémenté d’ancre sémantique, ou bien encore de vous proposez des clusters d’entités.

Si vous le souhaitez, je vous laisse découvrir cet outil juste ici.

Exemple : Imaginons que vous parliez de l’entité Tomáš Mikolov, vous pouvez alors lier, via un lien hypertexte Tomáš Mikolov vers un article ou vous parlez de Tomáš Mikolov, mais vous pouvez également insérer en donnée structurée sa biographie Wikipedia.

Comment optimiser pour la recherche sémantique ?

Bien sûr, il est possible d’optimiser son contenu vers la recherche sémantique et plus globalement le référencement sémantique.

Et c’est d’ailleurs ce que vous faites probablement déjà inconsciemment en utilisant des outils d’optimisations sémantiques justement, comme le ferait 1.fr, YourTextGuru, SEOQuantum et bien d’autres.

Par exemple, si nous prenons l’exemple de l’outil SEOQuantum, pour le mot-clé “seo”, voici ce qu’il nous dit coté optimisation sémantique du contenu :

Optimisation sémantique du contenu avec l'outil SEO SEOQuantum

La fréquence des mots utilisés en général, à ajouter dans votre texte, accompagné d’une mesure d’importance.

Mais aussi d’autres choses, comme les entités nommées ainsi que les verbes à reprendre dans votre contenu..

Identifier les verbes et les entités pour la sémantique avec SEOQuantum

En utilisant ses outils, non seulement votre contenu deviendra plus pertinent au yeux de Google, mais vous pourrez également apparaître plus facilement sur les variations de mots-clés recherché par les internautes (Hummingbird & RankBrain)

Structure sémantique d’un site

HTML sémantique

HTML sémantique pour le référencement naturel
Le HTML sémantique est l'utilisation d'éléments HTML qui ont une signification dans la structure DOM de la page.

Les robots d'exploration des moteurs de recherche peuvent reconnaître les éléments HTML sémantique

Avec l'utilisation du HTML sémantique, l'objectif principal d'une page Web, la section de contenu principal, la section "Contenu supplémentaire" avec des balises comme <aside>, l'auteur et les zones de navigation peuvent être facilement affichés avec des balises comme <navi>.

Cela ne veut pas dire que vos pages doivent être parfaitement structurées sémantiquement pour être en 1ere page sur les résultats de recherche.

Cela pourrait fournir des instructions (instruction est différent de directive) claires à Google sur la diffusion du PageRank du surfeur raisonnable par exemple. Bien que ceci soit loin d'être une certitude.

Mais surtout utiliser une structure HTML correcte pour les listes et les tableaux sera utile au moteur de recherche pour sélectionner la partie pertinente du contenu et l'interpréter correctement pour une éventuelle position 0.

Ainsi, il faut dire qu'il existe un lien entre l'utilisation du HTML sémantique et la chasse aux extraits en vedette. Et, étant donné que le fonctionnement de Google en tant que moteur de réponse est intrinsèquement relié à la sémantique, ceci est important.

D’une autre part, en le faisant vous aurez beaucoup plus de chance de vous rapprochez du ST graal c’est à dire que votre nombre de pages crawlables soit égal au nombre de pages crawlées qui est égal au nombre de pages indexables égal au nombres de pages indexées puisque vous consommerez moin en terme de budget de crawl avec du code sémantique.

Une bonne qualité de code permet cela.

Sitemap.xml sémantique

Il a été prouvé que la division des sitemaps en petits morceaux augmente la vitesse d'indexation et le nombre de pages indexées.

La principale raison en est que ces petits sitemaps sont téléchargés plus fréquemment par les moteurs de recherche.

Abstrait : La catégorisation sémantique de vos sitemaps dans un fichier d' index de sitemaps peut faciliter l'analyse du rapport de couverture de la Google Search Console.
La compatibilité sémantique entre la file d'attente d'exploration, l'arborescence interne du site et le fichier d'index sémantique du sitemap pourrait éventuellement être un signal facilitant pour le moteur de recherche sémantique.

De la même manière qu’une structure d’URL liée au maillage sémantique est pertinente, avoir un sitemap structurer sémantiquement est tout aussi pertinent.

Le maillage interne sémantique

Vous avez très certainement entendu parlé du cocon sémantique, une technique, entre autres, d’optimisation de maillage interne sémantique.

A l’aide de l’outil SEOQuantum, de YourTextGuru de cocon.se, ou encore de inLinks, ces outils vous permettront de créer des cocons sémantiques avec des idées de contenus :

Créer un cocon sémantique (maillage interne) avec SEOQuantum
SEOQuantum propose du maillage interne sémantique / thématique
L’idée ici, au-delà du concept du cocon sémantique, si nous le simplifions, est de faire ce que l’on appelle un cluster thématique. Prendre un sujet, avoir une idée du mot-clé global qui est visé, puis créer d’autre contenu autour du même sujet permettant de développer chaque point du 1er sujet, tout cela relié ensemble par des liens internes.

Toujours sur l’outil d’optimisation sémantique SEOQuantum. Il est également possible d’optimiser votre maillage sémantique en calculant la proximité sémantique entre 2 liens.

Calculer la proximité sémantique entre 2 pages avec SEOQuantum

Les ancres sémantiques

L’utilisation d’ancre sémantique est le fait d’utiliser des ancres synonyme du mot-clé principal visé. Intimement lié à l'optimisation du PageRank thématique.

Par exemple, si vous visez un mot-clé comme netlinking. Utilisez des ancres comme “création de lien”, “technique de création de lien”, “meilleurs conseils sur la création de lien”, “linkbuilding”, “comment faire du linkbuilding”, etc. Est parfaitement idéal pour l’optimisation SEO sémantique.

Cette optimisation d’ancrage de lien peut se faire et à l'intérieur de vos contenus, donc de votre maillage interne et dans votre stratégie de netlinking, donc vos liens externes, (si cela est possible évidemment).

Une étude de cas de Zippy à remarquer que l'utilisation de texte varié était fortement corrélé au trafic de recherche de Google. A tel point qu’ils ont réessayé leurs étude à mainte reprises :
Étude de cas sur l'utilisation d'ancre sémantique par Zippy
Quoi qu'il en soit, les URL avec un plus grand nombre de variations de texte d'ancrage à partir de liens internes sont fortement corrélées avec plus de trafic de recherche Google.

inLinks.net s'occupe également de cette partie la, de manière automatique.

Rédaction sémantique

Il est possible de faire de la rédaction sémantique et d'entités depuis Google Docs. En cliquant sur la petite icône en bas à droite :
Explorer les sujets de Google Docs pour la rédaction sémantique
Une fois cliqué, vous aurez un aperçu des topics principaux :
Identifier les sujets relatifs avec Google Docs
Vous pouvez également cliquer sur “Autres” et visiter tous les sujets relatifs :
Visiter tous les sujets relatifs avec G Docs
Ce que nous propose ici Google est pour un de mes articles sur RankBrain. On voit qu’il mentionne des topics comme taux de clics, taux de rebond, c’est extrêmement pertinent. Donc il ne faut pas que j’oublie d’en parler si tel n'était pas le cas.

Vous pouvez également utiliser Inlinks qui fait ÉGALEMENT la rédaction sémantique, voici un exemple :

La rédaction sémantique avec inLinks

Voici un autre screenshot de détection d’entité du contenu dans un écran plus complet :

La rédaction d'entité avec inLinks
Je vous invite vivement à jouer avec inlinks, il y à tant de chose à dire !

WordLift est un autre excellent outil pour la rédaction sémantique. Il vous permettra de classifier vos contenus, créer des entités, générer des données structurées entre d’autres choses.

La rédaction sémantique avec l'outil SEO WordLift

Sinon, je vous invite également à faire un tour sur les outils de référencement sémantique. La rédaction sémantique peut aussi être fait depuis YourTextGuru ou SEOQuantum.

Lorsque vous faites de la rédaction sémantique, le fonctionnement du traitement du langage naturel (NLP) doit s’intégrer dans votre processus.

Effectivement, vous pouvez effectuer des tests avec des modèles NLP pour voir si les entités et les différentes phrases de l'article sont perceptibles, si l'article se concentre suffisamment sur un sujet, ou si la structure linguistique et émotionnelle de l'article est suffisamment acceptable par rapport à l'industrie concernée.

Vérifier le sentiment d'une rédaction SEO via l'API Google NLP

Écrivez de long texte

Google ne pourra pas comprendre la sémantique de votre contenu s’il fait 200 mots. Car il ne pourra pas désambiguïser les idées, sujets et entités.

Plus vous fournirez un grand texte, mieux il le comprendra. Mieux il sera donc pertinent à ses yeux. De plus, la fréquence des termes utilisés augmentera la pertinence de votre texte.

La relation entre les synonymes et les différents formats des requêtes et l'analyse TF-IDF pour le référencement sémantique. Il existe un lien fort entre le SEO sémantique et les différentes orthographes des mots, leurs synonymes. Les utilisateurs peuvent utiliser des mots différents pour rechercher le même sujet. Il est important d'utiliser naturellement des synonymes ou des mots similaires dans un sujet pour satisfaire tous les utilisateurs dans un contexte, dans le contexte de l'intention de recherche pertinente, et pour s'assurer que le moteur de recherche puisse concilier des concepts difficiles.

Aussi, plus votre texte est long, plus l’intention de recherche de l’internaute sera comblé car vous fournirez potentiellement tout ce qu’il pourrait s’attendre à avoir après l’avoir lu.

Par exemple, un internaute recherche “backlinks”. Lorsqu’il comprendra ce que c’est, à quoi cela sert, il se demandera sûrement :

  • Comment puis-je avoir des backlinks ?
  • Est-ce que je peux en acheter ?
  • Etc…

Vous pourriez directement y répondre juste après avoir défini ce que sont les backlinks.

Il y à énormément de raisons (donc je ne les évoquerons pas tous) pour lesquelles un contenu doit être un long contenu. A condition de savoir pourquoi et de ne pas faire de charabia.

Les questions fréquemment posées.

Les questions fréquemment posées, PAA en anglais pour People Also Ask, sont, comme leurs nom l’indique, des questions relatives fréquemment posées afficher sur chaque résultat de recherche.
En y répondant dans votre contenu, vous pourrez non seulement avoir plus de trafic organique en apparaissant dans cette petite boite, mais vous pourrez également mieux vous positionner grâce à cette optimisation sémantique.

AlsoAsked est un bon outil pour cela.
L'outil AlsoAsked pour les questions posées et donc le SEO sémantique
https://alsoasked.com/

Référencement off-page sémantique

Devenir une entité

Devenir une entité sur Wikipédia est le moyen le plus connu d'être répertorié dans le Knowledge Graph de Google et vous définit généralement en tant qu'entité.

Si vous ne pouvez pas être présent dans Wikipédia, vous pourrez peut-être devenir une entité dans le graphe des connaissances en vous associant à une entité existante dans Wikipédia.

Il existe énormément de technique différente pour ce faire, que je ne détaillerais pas ici :

  • Être listé dans Wikipedia
  • Devenir une Entité par association
  • Utiliser une stratégie Edge
  • Et d’autres approches pour devenir une entité

Votre première décision stratégique dans le référencement sémantique est de savoir si vous voulez essayer d'être une entité pleinement définie à part entière.

Une fois que vous aurez une entité sur le graphe de connaissances de Google, vos actions seront continuellement mis à jour dans le KG.Si vous êtes une organisation, la commercialisation organique de votre nouvel album devient beaucoup plus facile que ce ne le serait pour un magasin de disques de commercialiser le même album. La base de connaissances sera simplement mise à jour, affichant le nouvel album. Cela crée immédiatement un court vecteur entre l'album et le groupe. Et la relation entre l’album, les autres albums et votre organisation est créée. Mais le magasin de disques peut avoir plus de mal et aura besoin d'une stratégie agressive.

Dans tout les cas, assurez-vous que :

  • Les informations sur votre site doivent indiquer qui vous êtes et ce que vous faites.
  • Ajoutez le balisage auteur de Schema.org (votre nom avec un lien vers votre biographie).
  • Obtenez une confirmation sur plusieurs sites tiers indépendants, dignes de confiance et faisant autorité.

Je vous invite également à consulter la liste des sources que peuvent utiliser Google pour les panneaux de connaissance (Knowledge Panel) accessible ici : https://kalicube.pro/trusted-sources

Les sites reconnus par Google

Le Web sémantique, un Web où tout est connecté.

Qui est en relation avec quoi et pourquoi ?

Liéez-vous aux gens qui sont proches de vous sémantiquement, ou du moin de la même thématique.
Que ce soit pour les backlinks ou pour les mentions.

Comprendre comme une thématique est interconnecté avec des entités
Babbar est un très bon outil pour le netlinking sémantique. Grâce à ces métriques comme le PageRank thématique, la force induite et le spot finder.

Questions fréquemment posées pour le SEO sémantique

Qu’est ce que la sémantique ?

En fonction du contexte et de son abus de langage intensif, le mot sémantique à énormément de signification. Chaque métier ou spécialisation d’une même branche possède ses propres définitions de sémantique.

Dans le domaine du SEO, selon le contexte de la phrase, cela peut être liée à :

  • la signification des mots, simples ou composés ;
  • les rapports de sens entre les mots (relations d'homonymie, de paronymie, de synonymie, d'antonymie, de polysémie, d'hyperonymie, d'hyponymie, etc.) ;
  • la proximité d’un mot par rapport au autres dans un espace vectoriel ;
  • la signification d’une chose en tant qu’entité ;
  • la structure d’une page dans le code HTML (langages de balisage).

A quoi sert la sémantique ?

La sémantique permet de combler les lacunes de la recherche d’informations car la sémantique permet à Google et les moteurs de recherches en général de cartographier l’information. La machine serait donc capable, dans une certaine mesure, de raisonner sur la réel pertinence du contenu et non pas sur des statistiques lexicales comme TFIDF et BM25.

La sémantique, quelle importance en SEO ?

L’optimisation sémantique à longtemps été controversée car les algorithmes des moteurs de recherches ont mis des années à tout interconnecter. En 2013, lorsque Singhal avait présenté le KG, cela n’avait pas véritablement d’impact. En 2022, c'est important. Un récent brevet, c'est à dire le 4 Janvier 2022 (US-11,216,503) montre que Google peut ne pas trier les résultats en fonction de la qualité des documents de correspondance pour les termes de la requête mais qu'il regroupe les sujets et les relations entre les entités dans le cadre de sa décision sur ce qu'il faut inclure dans les SERP.

Résumé sur le SEO sémantique :

Nous avons vu plein de choses, mais comme vous auriez pu vous en douter, ceci est un guide pour débuter dans le référencement sémantique.

Nous pourrions parler du référencement sémantique pendant des semaines sans interruption, donc ceci ne constitue j'espère qu’une base de ressource pour vos recherches futures. Malgré tout, si vous avez des questions, commentaires ou quoi que ce soit, n’hésitez pas à laisser un mot.

Est-ce que tout cela veut-il dire que le référencement à changé ? Qu’il ne faut plus faire de l’analyse de mot-clé ?

Imaginez que vous ayez répertorié les 100 meilleures séries en 2015.
Quelques années plus tard, en 2022, vous actualisez cette liste et ajoutez de nouvelles séries incroyables.

Vous devez y apporter des modifications et supprimer des séries car votre article reste un top 100.

Certaines séries devront être supprimées de la liste, cela ne veut pas dire qu'elles sont devenues mauvaises.

Auteur

Stan De Jesus Oliveira
Propriétaire et fondateur de createur2site

Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée.