Knowledge Graph

Le Google Knowledge Graph et le SEO

Définition du Google Knowledge Graph Un Knowledge Graph en informatique est une base de connaissance, utilisant la théorie des graphe qui à pour but de relier chaque entités avec d’autres entités par une relation, que nous appelons triplet ou triple. Le Google Knowledge Graph fonctionne de la même manière. Cela permet à Google de passer […]

Publié le 6 juillet 2022 Lecture 14 min Par Stan De Jesus Oliveira

Knowledge Graph - Référencement sémantique

Définition du Google Knowledge Graph

Un Knowledge Graph en informatique est une base de connaissance, utilisant la théorie des graphe qui à pour but de relier chaque entités avec d’autres entités par une relation, que nous appelons triplet ou triple. Le Google Knowledge Graph fonctionne de la même manière. Cela permet à Google de passer d’un environnement de chaîne de caractère à une véritable compréhension des mots par leurs machines.

Triple sémantique

Aujourd’hui nous parlerons de tout ce qui englobe le Knowledge Graph de Google, le graphe de connaissance à la base du Web sémantique et ainsi donc du référencement sémantique.

L’histoire du Google Knowledge Graph

The Knowledge Graph: things, not strings
-Amit Shingal

Depuis des années la recherche de Google consistais simplement à faire correspondre des mots-clés à des requêtes. Pour un moteur de recherche, les mots comme [taj mahal] n’ont été que cela – deux mots.

Ainsi, l’idée d’utiliser une base de connaissance permettrait de comprendre réellement les mots, leurs sens et leurs relations.

A l’initiative du Web 3.0 dans sa définition la plus pure, Google a tenté de structurer l’information pour faire comprendre les choses (nom, dates, choses) par des relations entre d’autres entités.

Le Knowledge Graph est la base de données sémantique de Google.

C’est là que les entités sont placées les unes par rapport aux autres, affectées d’attributs et placées dans un contexte thématique ou ontologique.

Exemple tiré d'un brevet de Google sur leur Knowledge Graph

Les graphes de connaissances (Knowledge Graph) sont de nature factuelle car les informations sont généralement extraites de sources plus fiables, et les filtres de post-traitement et les éditeurs humains garantissent que le contenu inapproprié et incorrect est supprimé. Dans le cas de figure de Freebase, l’origine du Google Knowledge Graph, celui-ci à été créer manuellement par des bénévoles et racheté par Google.

Le Knowledge Graph de Google n’est pas seulement enraciné dans des sources publiques telles que Freebase, Wikipedia et le CIA World Factbook. Il est également alimenté à une échelle beaucoup plus importante, car ils est capable d’évoluer de lui-même. Aujourd’hui, il a amassé plus de 500 milliards de faits sur cinq milliards d’entités. Toutes les entités sont réglé en fonction de ce que les gens recherchent et de ce que Google découvre sur le Web.

Composition du Google Knowledge Graph

Qu’est ce qu’une ontologie ?

Dans le contexte des graphes de connaissance, l’ontologie fais référence à une relation entre deux entités, deux nœuds de manière factuelle.

Par exemple, un chat est un félin. Ontologiquement, cette relation qui relie la classe félin à l’animal le chat est factuelle et ontologique.

Dans la philosophie, une ontologie est une théorie sur la nature de l’existence, sur les types de choses qui existent ; l’ontologie en tant que discipline étudie ces théories.
Les chercheurs en intelligence artificielle utilise ce terme pour leur propre jargon, et pour eux une ontologie est un document qui définit formellement les relations entre les termes.

Individus : choses qui peuvent être nommées dans les données
Classes : Une collection d’individus
Propriétés : Celles-ci forment un lien entre un individu et une valeur
Relations : Définit comment deux individus sont liés l’un à l’autre
Axiomes : Partie intégrante des ontologies, ils nous aident à dériver des hypothèses à partir des données et à faire des inférences.

Qu’est ce qu’une inférence ?

Le type d’ontologie le plus typique pour le Web a une taxonomie et un ensemble de règles d’inférence.

Dans le domaine de l’ intelligence artificielle , un moteur d’inférence est un composant du système qui applique des règles logiques à la base de connaissances pour en déduire de nouvelles informations.

Dans le contexte de Google, le Knowledge Graph est la base de connaissance et le Knowledge Vault est le moteur d’inférence. Ainsi, le KV inspecte le KG pour comprendre la relation entre des entités qu’il n’aurait peut-être pas encore clairement définies.

Un moteur d’inférence se base sur les mêmes idées principales de machine learning. C’est-à-dire que ces types de systèmes n’ont pas un procédé clairement défini mais deux procédés différents. Le 1er est le chaînage avant, le 2eme procède de la même manière mais par le chemin inverse, appelé le chaînage arrière. Un peu comme CBOW et Skip Gram de Word2vec et si cela peut vous aidez à visualiser.

Bref. Un exemple trivial de la façon dont cette règle serait utilisée dans un moteur d’inférence est le chaînage avant , le moteur d’inférence trouve dans la base de connaissances tous les faits correspondant à Human(x) et pour chaque fait trouvé, il ajoute la nouvelle information Mortal(x) à la base de connaissances. Donc, s’il trouve un objet appelé Socrate et qu’il s’avère être humain, il en déduit que Socrate est un mortel. En chaînage arrière, le système se verrait attribuer un objectif, par exemple répondre à la question Socrate est-il mortel ? Il chercherait dans la base de connaissances et déterminerait si Socrate est humain et, si c’est le cas, affirmerait qu’il est également mortel.

Comment est construit le Knowledge graph de Google ?

En sémantique, une entité est décrite sans ambiguïté par un identifiant et notamment des caractéristiques (attributs ou propriétés). Alors que l’identifiant (URI), qui consiste généralement en une séquence de chiffres, est utilisé par les machines pour identifier l’entité, les humains reconnaissent les entités en fonction de leurs caractéristiques.

Pour représenter les structures sémantiques, il est utile d’utiliser la théorie des graphes. Cette théorie est à la base du Knowledge Graph et de beaucoup d’autres chose chez Google.

Les graphes sont constitués de nœuds et d’arêtes. En ce qui concerne la sémantique, les nœuds représentent les entités et les arêtes représentent les relations entre les entités. Ces relations peuvent également se voir attribuer des valeurs comme un « contexte relationnel ». Par exemple Larry Page et Steve Jobs sont liée par la relation (edge, bord) : « fondateur ».

Un graphe contient toutes les entités pertinentes, quelle que soit leur ontologie. En plus de montrer l’existence d’une relation entre les entités, les arêtes peuvent également être utilisées pour indiquer les valeurs de ces relations, par exemple à travers leur longueur et leur épaisseur.

Un bord de connexion particulièrement épais pourrait représenter une relation intense entre les deux entités. La distance de relation, indiquée par la longueur de l’arête, peut également être utilisée pour représenter à quel point les deux entités sont liées. Il est également possible de créer un lien vers des espaces vectoriels incluant des distances euclidiennes. Cela signifie qu’une structure graphique peut être créée à partir de méthodes statistiques telles que les analyses d’espace vectoriel.

Pour l’affichage d’un panneau de connaissance, Google vérifie s’il existe une entrée de données dans Wikidata ou une page sur Wikipedia. Sinon, il peut en afficher une si l’entreprise dispose d’une fiche Google My Business, mais cela ne créer pas une entré dans leur Knowledge Graph.

Dans un projet scientifique auquel un employé de Google a participé, les entités sont assimilées à des entrées de Wikipédia. Effectivement les articles de Wikipédia jouent un rôle central en tant que source d’informations pour de nombreux Knowledge Panel de Knowledge Graph. Avec les entrées Wikidata, Google les utilise comme preuve de la pertinence d’une entité. Pas d’article Wikipedia et pas de Wikidata signifie que vous ne serez pas une entité.

Source : https://research.google.com/pubs/archive/40749.pdf

Il est possible d’avoir un Knowledge Panel, donc une boîte à droite des résultats de recherche mais cela n’est pas forcément lié au KG. Bien que parfois les réseaux sociaux et autres site connus peut y être intégré.

L’importance de Wikipédia dans l’identification des entités et leur contexte thématique est étudiée dans l’article scientifique Using Encyclopedic Knowledge for Named Entity Disambiguation. (http://www.cs.utexas.edu/~ml/papers/encyc-eacl-06.pdf)

Une façon pour Google d’identifier les relations entre les entités pourrait être d’analyser les annotations et les liens dans Wikipedia.

Une annotation est le lien d’une mention à une entité. Une balise est l’annotation d’un texte avec une entité qui capture un sujet (explicitement mentionné) dans le texte d’entrée.
Le développement d’une compréhension sémantique pour l’interprétation des requêtes de recherche et des documents est étroitement lié à la capacité d’identifier les entités et les relations entre elles, et à la capacité de les placer dans un contexte ou une ontologie. Cela est possible avec l’aide de sources de données vérifiées comme Wikipedia. Cependant, l’énorme volume de requêtes de recherche et de documents créés chaque jour rend ce processus quelque peu inadapté. C’est l’une des raisons pour lesquelles Google a, depuis plusieurs années maintenant, piloté le développement d’algorithmes d’auto-apprentissage et de machine learning.

Qu’est-ce que Google considère comme une entité ?

Les entités sont particulièrement importantes pour les systèmes de recherche d’information, car elles permettent d’inférer des informations supplémentaires supplémentaires concernant le contexte d’une requête de recherche, d’une phrase ou d’un texte.

L’identification sans ambiguïté des entités est importante pour Google car elle facilite un certain nombre de tâches :

Interprétation des requêtes de recherche
Fournit de la clarté lors de l’analyse de termes ayant plusieurs significations
Identifier les relations entre les entités et leur signification en termes d’ontologies ou de thèmes
Interprétation de documents
Identifier les entités pertinentes dans un contexte thématique

Théoriquement, il existe une longue liste de types d’entités possibles, notamment :

Livres
Instituts d’enseignement
Événements
Institutions étatiques
Entreprises
Films
Séries TV
Bandes
Organisations
Personnes
Des endroits
….

Un regard sur les types d’entités répertoriés sur schema.org nous donne un aperçu complet de tout ce qui peut être évalué en tant qu’entité. Il n’est pas tout à fait simple d’évaluer ce que Google classe réellement comme une entité et ce qui ne l’est pas.

Dans une description de brevet à laquelle Google fait référence dans l’un de ses propres brevets, on retrouve la définition suivante :

Une entité nommée est un groupe d’un ou plusieurs mots (un élément de texte) qui identifie une entité par son nom. Par exemple, les entités nommées peuvent inclure des personnes (telles que le prénom ou le rôle d’une personne), des organisations (telles que le nom d’une société, d’une institution, d’une association, d’un gouvernement ou d’une organisation privée), des lieux (lieux) (tels qu’un pays, un état , une ville, une région géographique, un bâtiment nommé, etc.), des artefacts (tels que des noms de produits de consommation, tels que des voitures), des expressions temporelles, telles que des dates spécifiques, des événements (qui peuvent être passés, présents ou futurs, telles que la Seconde Guerre mondiale ; les Jeux olympiques de 2012) et les expressions monétaires.

https://www.google.com/patents/US20100082331

Comment Google utilise le knowledge Graph ? A quoi cela leur sert ?

Google utilise le knowledge Graph afin de fonctionner comme un moteur de réponse et de mieux s’aligner globalement sur l’expérience utilisateur sur leurs résultats de recherche..

Désormais il est capable d’afficher des panneaux de connaissance Wikipedia (Knowledge Panel) car il comprend l’entité mais il peut également générer des résultats encore plus complexes.

La sémantique pour les algorithmes de Google

D’ailleurs j’ai identifié le brevet permettant cela, il s’appelle Générer des connexions perspicaces entre les entités graphiques. patents.google.com/patent/US20140280044
Mais aujourd’hui, avec tous les nouveaux algorithmes sémantiques, Knowledge Graph sert à plein d’autres choses comme faire comprendre le sens, le sujet et bien d’autres choses lorsqu’ils visitent une page.

Le panneau de connaissance de Google

Les panneaux de connaissances ou Knowledge Panel en anglais proviennent des informations du Google Knowledge Graph. Elles permettent de donner des informations rapides et factuelles aux internautes. C’est le panneau à droite des résultats de recherche.

Exemple d'un panneau de connaissance sur Google (Knowledge Panel)

Les panneaux de connaissances peuvent par exemple inclure :

Titre et court résumé du sujet
Une description plus longue du sujet
Une photo ou des photos de la personne, du lieu ou de la chose
Principaux faits, tels que la date de naissance d’un personnage notable ou l’emplacement de quelque chose
Liens vers des profils sociaux et des sites Web officiels
Chansons d’artistes musicaux
Prochains épisodes d’émissions de télévision
Listes des équipes sportives.

Sur mobile, plusieurs panneaux de connaissances peuvent fournir des faits :

Sur mobile, plusieurs panneaux de connaissances peuvent être affichés

Les carrousels tout en haut de la page montrent des choses comme des événements, des films et des émissions de télévision qui sont intrinsèquement liée à vos données structurées schema.

Optimisation SEO pour le Google Knowledge Graph

Devenir une entité – Wikipedia, Wikidata et autres – Obtenez des mentions.
Mentionnez des entités
Définissez les mots que vous employez dans les données structurées plutôt que de laisser les intelligences artificielle du traitement du langage choisir à votre place
Ajoutez d’autres données structurées

Concernant la biographie de l’auteur, je conseille vivement d’essayer d’ajouter autant de relation possible afin que Google comprenne de la meilleur façon qui vous êtes :

SEO : relier les entités de sa biographe au Google Knowledge Graph

Vous pouvez facilement essayer cet outil ici : https://demo.nl.diffbot.com

Trouver les entités liées au Google Knowledge Graph

Parler des entités liées à votre thématique est le principe de base d’un référencement sémantique. Pour ce faire, vous devez connaître les entités que Google connait et qui gravitent autour de votre thématique.

Pour cela trois principales techniques s’offrent à vous.

La première est d’utiliser Wikipédia (en anglais de préférence) et de visiter les article connexes.

Prédire les entités du Knowledge Graph en regardant les articles connexes de Wikipédia

La 2eme est d’utiliser l’API de Google qui est accessible à tous en utilisant Google Cloud et en créant votre propre clé API afin de découvrir la composition exacte du KG :

Utilisation de l'API Google Knowledge Graph pour l'entité SEO

La 3eme est d’utiliser un outil SEO telles que Kalicube ou Merkle qui extrait les informations de l’API de Google de manière plus lisibles et facilement manipulable (exportable en fichier excel par exemple) :

Chercher une entité du KG avec l'outil SEO Merkle

Comment utiliser les entités de Google pour optimiser son référencement ?

Une fois que vous avez trouvez les entités les plus importantes pour le sujet pilier, continuer d’inspecter ce que Google à considéré comme pertinent pour les sous-sujets des entités afin de maximiser ce que certain appelle l’autorité thématique.

Pour finir ce survole du concept de l’autorité thématique, regardez comme le moteur de recherche est intimement liée à son KG :

Les entités autour du mot chaussure
En prenant le mot chaussure, Google nous renseigne sur les entités les plus importantes pour cette requêtes, et si nous jetions un coup d’œil, ce sont aussi les choses qu’il mentionnes, dans ses “bulles” sémantique ou encore dans son onglet shopping (en bas à gauche).

Les entités du Knowledge Graph sont clairement présentes sur les résultats sémantiques du moteur de recherche. Je vous conseille donc d’utiliser ce qu’il a défini comme entité pour créer des pages, des structures de sites sémantiques… Puis ensuite je vous invite à explorer les entités d’une même entité et d’aller comme cela en profondeur autant que possible.

FAQ

Google Knowledge Graph : quelle est son utilité ?

Google utilise un Knowledge Graph, c’est-à-dire une vaste base de connaissance afin de comprendre le véritable sens des mots et leurs relations. Cela leurs permet également de savoir si les informations d’une page Web sont factuelles, véridiques afin de limiter la désinformation.

Comment apparaître dans le Google knowledge graph ?

Si vous souhaitez devenir une entité dans le Knowledge Graph de Google, vous devrez forcément avoir une page Wikipédia ou être associé à une page Wikipédia.

Quelle est l’utilité du Knowledge Graph pour un SEO ?

Le Knowledge Graph est une source inestimable pour créer une bonne stratégie SEO.