Knowledge Based Trust : évaluer la confiance d’une source Web

Mis à jour le 20/01/2023 | Publié le 21/07/2022 | 0 commentaires

Conception de site webSEOGoogleAlgorithmesKnowledge GraphKnowledge Based Trust

Le Knowledge Based Trust est un algorithme plutôt méconnu du grand public, et pourtant intrinsèquement relié à l’EAT (Expertise, Authoritativeness, Trustworthiness) et au référencement sémantique, il est donc important à connaître pour un SEO (Search Engine Optimizer).

L'article, “Knowledge-Based Trust : Estimating the Trustworthiness of Web Sources” à été publié en février 2015 et peut être simplement traduit par : « Confiance basée sur la connaissance : estimer la fiabilité des sources Web ».

Il à été rédigé par huit personnes de chez Google, dont Xin Luna Dong, chercheur chez Google.
https://arxiv.org/pdf/1502.03519.pdf

D’ailleurs Xin Luna Dong à fait un très bon séminaire à Stanford sur le KBT et le Knowledge Vault :
https://www.youtube.com/watch?v=Z6tmDdrBnpU

A quoi sert le Knowledge Based Trust ?

L’idée du KBT est principalement de lutter contre la désinformation, effectivement c’est l’un des principaux problèmes qu’a Google pour afficher les meilleurs résultats. Le Web est une mine de désinformation, c’est un fait. Ainsi, l’idée du KBT est d’avoir un “score (Accu)” permettant d’afficher les sites web en 1 ère positions des résultats de recherche si et seulement si le site web ou la page web en question est réellement digne de confiance, et surtout qu'elle ne propage pas de désinformation.

Score du Knowledge Based Trust

La confiance d’une source Web

Google utilise le terme "source web" pour désigner une page web spécifique, ou un site web entier. Je parlerais donc également ici de source Web pour désigner ces 2 composants.

Isaac Watts :
« Apprendre à faire confiance est l'une des tâches les plus difficiles de la vie. »

Le KBT se concentre essentiellement sur la vérification des faits associées à une entité. Par exemple, une entité peut être “Paris”. Dans cet exemple, si une source Web vient à dire que Paris est la capitale du Luxembourg alors Google comprend que la source partage de mauvaises informations.

Knowledge Based Trust et Knowledge Vault

Oui le Knowledge Based Trust utilise effectivement le Knowledge Graph et le Knowledge Vault.

Le Knowledge Vault est une immense base de données qui permet à Google de comprendre les “entités” comme de réelle chose définie et non de simple chaine de caractère.

Le Knowledge Vault n’est pas seulement une simple base de connaissance comme le Knowledge Graph car il crée automatiquement des entités, ce que l’on appelle un moteur d’inférence.

Exemple d'un Knowledge Graph (ensemble de triplet)

En ayant une base de données aussi utile, le Knowledge Based Trust peut ainsi être appliqué. Lorsqu’une source Web partage une information fausse, alors le Knowledge Based Trust peut savoir ou prédire que l’information est fausse.

Score du Knowledge Based Trust sous forme de triple

Soit un triplet (Sujet prédicat Objet) défini pourra dire si l’information est fausse, soit la relation n’a pas été définie et dans ce cas la le Knowledge Vault va pouvoir prédire si le fait de la source est effectivement véridique ou non.

Imaginons que le Knowledge Vault dispose d’un triplet que Socrate est un humain. Ainsi, “Socrate” est défini comme une entité et “Humain” est aussi une entité et ils sont liés par la relation, “Socrate est Humain”. Si la source Web affirme que Socrate est un mortel, puisque l’entité Socrate est relié à l’entité Humain alors le Knowledge Vault peut prédire que Socrate est un mortel car il est humain. Trivialement c’est ça le Knowledge Vault.

Le Knowledge Based Trust est un algorithme (essentiellement probabiliste) fonctionnant avec le Knowledge Vault (et ses systèmes annexes tels que le KG et Freebase) afin de fonctionner.

KBT vs PageRank

Knowledge Based Trust vs PageRank Le graphique montre le score KBT en axe x et le PageRank en axe y.

Voici un graphique issu du papier sur le KBT. Je me suis permis de tracer quelques traits. En rouge vous pouvez voir que le signal est orthogonal, c'est-à-dire que le score est corrélé entre le PageRank et le Knowledge Based Trust.

Mais ce graphique montre aussi l’avantage du KBT, effectivement il permet de trouver des sources crédibles sans avoir forcément de PageRank (en vert).

Seuls 20 des 85 sites dignes de confiance ont un PageRank supérieur à 0,5. Cela montre que KBT peut identifier les sources avec des données fiables, même s'il s'agit de sources secondaires à faible PageRanks.

Le Knowledge Based Trust est un calcul qui pourrait potentiellement donner des résultats meilleurs pour la recherche d’informations et donc un meilleur classement dans les résultats de recherche de Google par rapport au PageRank

Effectivement le PageRank n’est rien d’autre qu’un algorithme permettant de classer les pages Web en fonction de l’autorité et donc de la confiance d’une source Web. En ayant des liens hypertextes pointant vers ses pages Web, ils sont une preuve plutôt fiable de l’importance de la source Web. Cependant le PR capture mal l’essence de la confiance car un site web peut être connu et peut pourtant proliférer de mauvaises informations sur une page Web comme c’est le cas sur les sites de commérages :

Impact du Knowledge Based Trust sur les sites de ragots

Le Knowledge Based Trust est donc une mesure additionnelle au PR pour classer les sources Web qui le méritent véritablement.

Extrait du papier :

“ La recherche sur le web a été traditionnellement évaluée à l'aide de signaux exogènes tels que les hyperliens et l'historique de navigation. Cependant, ces signaux reflètent principalement la popularité d'une page web. Par exemple, les site Web de commérage répertoriés ont pour la plupart un PageRank élevé, mais ne sont généralement pas considérés comme fiables. En revanche, certains site Web moins populaires contiennent néanmoins des informations très précises. Dans cet article, nous abordons la question fondamentale de l'estimation de la fiabilité d'une source Web donnée.”
“Nous discutons des nouvelles opportunités de recherche pour l'améliorer et l'utiliser en conjonction avec les signaux existants comme le PageRank“

Exogènes veut dire quelque chose qui provient de l'extérieur. C'est le contraire du mot endogène. Ainsi, ces ingénieurs de Google expliquent que leurs inventions permettent d’évaluer la qualité d’un site par ses propres facteurs internes plutôt qu'à des facteurs externes. Par exemple, le PR est un algorithme “off-page”, c'est-à-dire qu’il influence votre site web par des signaux externes, alors que le KBT évalue votre site web sur la propre qualité de son contenu.

KBT et EAT

Cela m'a permis de me rendre compte de la distinction que la firme de Moutain View pouvait faire entre confiance et expertise dans leurs concepts E-A-T (expertise, autorité, confiance).

Le KBT permet de vérifier si la source Web ne propage pas de mauvaises informations, donc elle est de confiance.

Cependant cela ne fait pas forcément de cette source une source experte ou d’autorité.

L’autorité faisant entre autre référence au PageRank,

L’expertise faisant référence à l'auteur de la source Web (Google Author Rank : Google Agent Patent et compagnie).

Conclusion sur le Knowledge Based Trust

Beaucoup de travaux ont été réalisés pour évaluer si une source Web est de qualité.

Le PageRank et Authority-hub considèrent un signal de qualité depuis l’analyse des liens.

EigenTrust et TrustMe considèrent les signaux du comportement de la source dans un réseau Peer-to-Peer.

TrustRank et AntiTrust détectent le Web spam.

Le KBT est une mesure de fiabilité basée sur la connaissance, son but est de résoudre les conflits à partir des données fournies par plusieurs sources et trouver les vérités qui sont cohérentes avec le monde réel.

L’idée derrière le KBT avait déjà été explorée pour mesurer la fiabilité d’une source Web par rapport à l’échelle du Web ouvert mais les mesures de fusion étaient basées sur les autres sites web sans avoir de véritable système ontologique comme KG et KV. Par conséquent, ils ne pouvaient pas véritablement distinguer une source non fiable d'une source fiable.

Il est également intéressant de voir comment Luna Dong à fait la distinction entre un graphe de connaissances et un graphe de produits après avoir dernièrement travaillé chez Amazon ("for fun and for profit"). Elle décrit les défis qui accompagnent la création d'un produit Knowledge Graph pour le site e-commerce. Une partie de la réponse semble utiliser les sources de données structurées et la résolution des entités pour trouver des informations à utiliser dans un graphique de produit. Elle souligne également l'utilisation de données semi-structurées, telles que l'extraction DOM à partir de pages Web et l'utilisation d'informations provenant de profils de produits d'Amazon. Une véritable mine d’or.

Ce travail fantastique est ici : All You Need to Know to Build a Product Knowledge Graph (KDD 2021 Tutorial) : https://naixlee.github.io/Product_Knowledge_Graph_Tutorial_KDD2021/

Si vous souhaitez en savoir plus sur KG KV et KBT ou encore la recherche d’information (IR) ou la connexion de ces systèmes avec l’intelligence artificielle, je vous conseille d’aller voir son site web : http://lunadong.com

Auteur

Stan De Jesus Oliveira
Propriétaire et fondateur de createur2site

Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée.