Le Knowledge Based Trust est un algorithmes Google plutôt méconnu du grand public, et pourtant intrinsèquement relié à l’EAT (Expertise, Authoritativeness, Trustworthiness) et au référencement sémantique, il est donc important à connaître pour un SEO (Search Engine Optimizer).
L'article, "Knowledge-Based Trust : Estimating the Trustworthiness of Web Sources" à été publié en février 2015 et peut être simplement traduit par : « Confiance basée sur la connaissance : estimer la fiabilité des sources Web ». Cet article est fondamental pour comprendre les signaux EAT Google actuels.
Il à été rédigé par huit personnes de chez Google, dont Xin Luna Dong, chercheur chez Google.
https://arxiv.org/pdf/1502.03519.pdf
D’ailleurs Xin Luna Dong à fait un très bon séminaire à Stanford sur le KBT et le Knowledge vault :
https://www.youtube.com/watch?v=Z6tmDdrBnpU
A quoi sert le Knowledge Based Trust ?
L'idée du KBT est principalement de lutter contre la désinformation, effectivement c'est l'un des principaux problèmes qu'a Google pour afficher les meilleurs résultats. Le Web est une mine de désinformation avec un flow constant d'informations trompeuses, c'est un fait. Ainsi, l'idée du KBT est d'avoir un "score (Accu)" permettant d'optimiser le flow des résultats et d'afficher les sites web en 1 ère positions des résultats de recherche si et seulement si le site web ou la page web en question est réellement digne de confiance, et surtout qu'elle ne propage pas de désinformation.
La confiance d’une source Web
Google utilise le terme “source web” pour désigner une page web spécifique, ou un site web entier. Je parlerais donc également ici de source Web pour désigner ces 2 composants.
Isaac Watts :
« Apprendre à faire confiance est l’une des tâches les plus difficiles de la vie. »
Le KBT se concentre essentiellement sur la vérification des faits associées à une entité. Par exemple, une entité SEO peut être “paris”. Dans cet exemple, si une source Web vient à dire que Paris est la capitale du Luxembourg alors Google comprend que la source partage de mauvaises informations.
Knowledge Based Trust et Knowledge Vault
Oui le Knowledge Based Trust utilise effectivement le Knowledge Graph et le Knowledge Vault.
Le Knowledge Vault est une immense base de données qui permet à Google de comprendre les "entités" en leur attribuant un score de confiance, les traitant comme de réelles choses définies et non de simples chaînes de caractères.
Le Knowledge Vault n'est pas seulement une simple base de connaissance comme le Knowledge Graph car il crée automatiquement des entités, ce que l'on appelle un moteur d'inférence, améliorant ainsi l'expérience utilisateur lors des recherches.
En ayant une base de données aussi utile, le Knowledge Based Trust peut ainsi être appliqué. Lorsqu’une source Web partage une information fausse, alors le Knowledge Based Trust peut savoir ou prédire que l’information est fausse.
Soit un triplet (Sujet prédicat Objet) défini pourra dire si l'information est fausse, soit la relation n'a pas été définie et dans ce cas là le Knowledge Vault va pouvoir prédire si le fait de la source est effectivement véridique ou non.
Imaginons que le Knowledge Vault dispose d'un triplet que Socrate est un humain. Ainsi, "Socrate" est défini comme une entité et "Humain" est aussi une entité et ils sont liés par la relation, "Socrate est Humain". Si la source Web affirme que Socrate est un mortel, puisque l'entité Socrate est relié à l'entité Humain alors le Knowledge Vault peut prédire que Socrate est un mortel car il est humain. Trivialement c'est ça le Knowledge Vault.
Le Knowledge Based Trust est un algorithme (essentiellement probabiliste) fonctionnant avec le Knowledge Vault (et ses systèmes annexes tels que le KG et Freebase) afin de fonctionner et d'évaluer le rank du site selon sa fiabilité.
KBT vs PageRank
Voici un graphique issu du papier sur le KBT. Je me suis permis de tracer quelques traits. En rouge vous pouvez voir que le signal est orthogonal, c’est-à-dire que le score est corrélé entre le PageRank et le Knowledge Based Trust.
Mais ce graphique montre aussi l'avantage du KBT pour une stratégie SEO, effectivement il permet de trouver des sources crédibles sans avoir forcément de PageRank (en vert).
Seuls 20 des 85 sites d'expert dignes de confiance ont un PageRank supérieur à 0,5. Cela montre que KBT peut identifier les sources avec des données fiables, même s'il s'agit de sources secondaires à faible PageRanks.
Le Knowledge Based Trust est un calcul qui évalue la crédibilité du contenu et pourrait potentiellement donner des résultats meilleurs pour la recherche d'informations et donc un meilleur classement dans les résultats de recherche de Google par rapport au PageRank
Effectivement le PageRank n'est rien d'autre qu'un algorithme permettant de classer les pages Web en fonction de l'autorité, la fiabilité de l'auteur et donc de la confiance d'une source Web. En ayant des liens hypertextes pointant vers ses pages Web, ils sont une preuve plutôt fiable de l'importance de la source Web. Cependant le PR capture mal l'essence de la confiance et la notion d'expert du domaine car un site web peut être connu et peut pourtant proliférer de mauvaises informations sur une page Web comme c'est le cas sur les sites de commérages :

Le Knowledge Based Trust est donc une mesure additionnelle au PR pour classer les sources Web et le rank du site qui le méritent véritablement.
Extrait du papier :
“ La recherche sur le web a été traditionnellement évaluée à l’aide de signaux exogènes tels que les hyperliens et l’historique de navigation. Cependant, ces signaux reflètent principalement la popularité d’une page web. Par exemple, les site Web de commérage répertoriés ont pour la plupart un PageRank élevé, mais ne sont généralement pas considérés comme fiables. En revanche, certains site Web moins populaires contiennent néanmoins des informations très précises. Dans cet article, nous abordons la question fondamentale de l’estimation de la fiabilité d’une source Web donnée.”
“Nous discutons des nouvelles opportunités de recherche pour l’améliorer et l’utiliser en conjonction avec les signaux existants comme le PageRank“
Exogènes veut dire quelque chose qui provient de l’extérieur. C’est le contraire du mot endogène. Ainsi, ces ingénieurs de Google expliquent que leurs inventions permettent d’évaluer la qualité d’un site par ses propres facteurs de classement Google internes plutôt qu’à des facteurs externes. Par exemple, le PR est un algorithme “off-page”, c’est-à-dire qu’il influence votre site web par des signaux externes, alors que le KBT évalue votre site web sur la propre qualité de son contenu.
KBT et EAT
Cela m’a permis de me rendre compte de la distinction que la firme de Moutain View pouvait faire entre confiance et expertise dans leurs concepts E-A-T (expertise, autorité, confiance).
Le KBT permet de vérifier si les sites Web et leurs backlinks ne propagent pas de mauvaises informations, donc ces sites sont de confiance.
Cependant cela ne fait pas forcément de cette source une source experte ou d’autorité.
L'autorité faisant entre autre référence au PageRank et aux backlinks,
L’expertise faisant référence à l’auteur de la source Web (Google Author Rank : Google Agent Patent et compagnie).
Conclusion sur le Knowledge Based Trust
Beaucoup de travaux ont été réalisés par les moteurs de recherche pour évaluer si une source Web est de qualité.
Le PageRank et Authority-hub considèrent un score de qualité depuis l'analyse des liens.
EigenTrust et TrustMe considèrent les signaux du comportement de la source dans un réseau Peer-to-Peer.
TrustRank et AntiTrust détectent les sites de Web spam.
Le KBT est une mesure de fiabilité basée sur la connaissance, son but est de résoudre les conflits à partir des données fournies par plusieurs auteurs et sources et trouver les vérités qui sont cohérentes avec le monde réel.
L'idée derrière le KBT avait déjà été explorée pour mesurer la fiabilité d'une source Web par rapport à l'échelle du Web ouvert, ce qui agit sur le classement des résultats, mais les mesures de fusion étaient basées sur les autres sites web sans avoir de véritable système ontologique comme KG et KV. Par conséquent, ils ne pouvaient pas véritablement distinguer une source non fiable d'une source fiable, ce qui agit sur le classement de manière imprécise et agit sur le classement global des contenus.
Il est également intéressant de voir comment Luna Dong à fait la distinction entre un graphe de connaissances et un graphe de produits après avoir dernièrement travaillé chez Amazon. Elle décrit les défis qui accompagnent la création d'un produit Knowledge Graph pour le site e-commerce. Une partie de la réponse semble utiliser les sources de données structurées, utiles notamment pour les moteurs de recherche, et la résolution des entités pour trouver des informations à utiliser dans un graphique de produit. Elle souligne également l'utilisation de données semi-structurées, telles que l'extraction DOM à partir de pages Web et l'utilisation d'informations provenant de profils de produits d'Amazon. Une véritable mine d'or.
Ce travail fantastique, particulièrement pertinent pour comprendre les algorithmes de Google et leur utilisation des knowledge graphs, est ici : All You Need to Know to Build a Product Knowledge Graph (KDD 2021 Tutorial) : https://naixlee.github.io/Product_Knowledge_Graph_Tutorial_KDD2021/
Si vous souhaitez en savoir plus sur KG KV et KBT ou encore la recherche d’information (IR) ou la connexion de ces systèmes avec l’intelligence artificielle, je vous conseille d’aller voir son site web : http://lunadong.com


0 commentaires