Le Knowledge Vault représente une avancée significative dans la compréhension automatisée du web par Google. Cette section répond aux questions les plus fréquentes sur son fonctionnement et ses implications pour le référencement naturel.

Qu'est-ce que le Knowledge Vault de Google ?

Le Knowledge Vault est un projet de recherche de Google lancé en 2014 visant à créer une base de connaissances automatisée à grande échelle. Contrairement au Knowledge Graph qui s'appuie sur des sources structurées et vérifiées manuellement, le Knowledge Vault utilise l'apprentissage automatique pour extraire et stocker des informations factuelles depuis l'ensemble du web. Il assigne un score de confiance à chaque information collectée, permettant d'évaluer sa fiabilité sans intervention humaine systématique.

Comment fonctionne le Knowledge Vault concrètement ?

Le Knowledge Vault fonctionne en combinant plusieurs techniques d'intelligence artificielle. Il analyse automatiquement des milliards de pages web pour en extraire des faits et des relations entre entités. Le système utilise des algorithmes de machine learning pour identifier des patterns, attribuer un score de confiance à chaque information, et créer des connexions entre différentes données. Il applique également du traitement du langage naturel pour comprendre le contexte et la sémantique des contenus analysés.

Quelle est la différence entre le Knowledge Vault et le Knowledge Graph ?

Le Knowledge Graph s'appuie principalement sur des sources structurées comme Wikipedia et Freebase, avec une vérification humaine. Le Knowledge Vault, lui, automatise entièrement le processus d'extraction en analysant le web non structuré. Alors que le Knowledge Graph privilégie la précision avec des données vérifiées, le Knowledge Vault mise sur le volume et la couverture en traitant des milliards de pages. Le Knowledge Vault peut être vu comme une extension expérimentale visant à enrichir le Knowledge Graph.

Quelles techniques d'extraction utilise le Knowledge Vault ?

Le Knowledge Vault exploite plusieurs technologies avancées : le deep learning pour reconnaître des patterns complexes dans les données, le traitement du langage naturel pour extraire des entités et relations, l'analyse sémantiquepour comprendre le contexte, et des algorithmes probabilistes pour évaluer la fiabilité des informations. Il utilise également des techniques de déduplication et de fusion de données provenant de sources multiples pour consolider les connaissances et éliminer les contradictions.

Quel est l'impact du Knowledge Vault sur le référencement naturel ?

Bien que le Knowledge Vault soit un projet de recherche, il souligne l'importance des données structurées pour le SEO. Les sites utilisant le balisage Schema.org et proposant des informations factuelles claires ont plus de chances d'être correctement interprétés par les systèmes automatisés de Google. Optimiser votrefichier robots.txtet créer du contenu de qualité, bien structuré et sémantiquement riche permet d'améliorer sa visibilité dans les résultats de recherche enrichis. Des outils commeSemrushpeuvent vous aider à analyser et optimiser ces aspects techniques.

Le Knowledge Vault est-il toujours utilisé par Google aujourd'hui ?

Le Knowledge Vault était principalement un projet de recherche académique publié en 2014. Bien qu'il ne soit pas déployé comme service distinct, ses principes et technologies ont influencé l'évolution des systèmes de Google. Les techniques d'extraction automatisée et de machine learning développées pour le Knowledge Vault ont probablement été intégrées dans d'autres produits Google, notamment pour améliorer la compréhension du contenu web et enrichir le Knowledge Graph existant.

Quel lien entre le Knowledge Vault et les autres algorithmes Google ?

Le Knowledge Vault s'inscrit dans l'écosystème plus large des algorithmes de Google visant à améliorer la qualité des résultats de recherche. Tout commeGoogle Pandaévalue la qualité du contenu, le Knowledge Vault cherche à identifier et valoriser les informations factuelles fiables. Ces différents systèmes travaillent en complémentarité pour offrir aux utilisateurs des résultats pertinents et de confiance.

Knowledge Vault et SEO sémantique

Le Knowledge Vault est une base de connaissance dotée en plus d'un système d'inférence. Il s'agit donc d'un Google Knowledge Graph 2.0 puisqu'il permet d'auto générer la création de ses triples d'entités sémantiques pour la recherche sémantique.

Notre analyse de contenu nous permet d'extraire environ 1,6 milliard de triplets candidats, couvrant 4469 types différents de relations et 1100 types différents d'entités sémantiques. Environ 271 millions de ces faits ont une probabilité estimée d'être vrai supérieure à 90%.

– Google Search

Etant donné que nous avons déjà parlé des définitions classiques pour mieux comprendre le référencement sémantique et Google Knowledge Graph, je ne les redéfinirai pas ici.

Comment fonctionne le Knowledge Vault ?

Les bases de connaissances à grande échelle sont de plus en plus en vogue, notamment avec Wikipedia, Satori de Microsoft et Knowledge Graph de Google.

Cependant, Google a souhaité avoir une base de connaissance qui permet de comprendre et traiter les requêtes des utilisateurs, capable d'avoir autant d'entité que de choses existantes à l'échelle du Web.

Aujourd'hui, pour ce faire, ils ont dû utiliser (et utilisent aujourd'hui encore) des méthodes automatiques pour construire des triplets RDF (sujet – prédicat – objet) grâce à des systèmes d'inférence probabiliste.

Grossièrement, un système d’inférence est un système qui prédit des triples sémantiques sur la base d’autres triples.

Comment le Knowledge Vault génère des triples automatiquement ?

L’extraction de contenu Web (obtenues via l’analyse de texte, de données tabulaires, de structure de page et d’annotations humaines) est la première étape pour définir des entités.

Le coffre-fort de connaissances en français, extraient des faits, sous la forme de triplets de l’ensemble du Web c’est-à-dire que le KV se forme à l’échelle du monde ouvert plutôt qu’à l’hypothèse du monde fermé local. C’est-à-dire que le KV utilise les pages Web pour créer de nouveaux triplets. Pour être certain de ne pas créer de biais dans les triples de leurs KV, ils fusionnent les fais avec les connaissances déjà établies comme à partir de Freebase ou du Google Knowledge Graph.

Formalisons un peu plus son fonctionnement face aux requêtes des utilisateurs.

Extracteurs

Pour commencer, un coffre de connaissance (KV) a besoin d'extraire les "choses" sur le Web pour augmenter son échelle de connaissance. Ils appellent cela des extracteurs (extractors en anglais) qui analysent le contexte du texte.

Ces systèmes extraient des triplets à partir d’un grand nombre de sources Web. Chaque extracteur attribue un score de confiance à un triple, représentant l’incertitude sur l’identité de la relation et ses arguments correspondants.

Priors basés sur des graphes

Ces systèmes apprennent la probabilité a priori de chaque triplet de données structurées possible, sur la base des triplets stockés dans une base de connaissances de données structurées existante.

Fusion de connaissances

Ce système calcule la probabilité qu'un triplet soit vrai, sur la base d'un accord entre différents extracteurs et a priori. Effectivement et comme vous vous le demandiez sûrement, les faits extraits du Web ne peuvent pas être toujours fiables, notamment car comprendre le sens exact des informations dans leur contexte reste complexe. Le principal moyen qu'ils ont pour éviter cela est essentiellement d'utiliser Freebase pour comprendre le sens des données et vérifier la factualité.

Quelques points techniques bon à savoir sur le Knowledge Vault

Dans le papier original sur Knowledge Vault (https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45634.pdf), ils font référence au fait que leurs moteurs d’inférence permetterait au KV d’avoir un référentiel structuré de connaissances indépendant de la langue.

Cette phrase m'a particulièrement touché car il m'a rappelé un brevet de Google que j'avais vu passé. Ce brevet existait déjà mais a été mis à jour suite à l'incorporation du KV dans leurs systèmes de recherche d'information et d'analyse sémantique.

Le brevet disponible aujourd'hui est "Query language", numéro de brevet : US20070198480A1

Le brevet en question nous montre comment Google utilise le KV pour comprendre la relation et les entités dans le monde plutôt qu'à l'échelle d'un pays par exemple, afin d'améliorer l'évaluation de la qualité du contenu.

Exemple d'un brevet de Google sur les entités et leurs rôles pour la compréhension des documents du Web

Le brevet nous donne un exemple de la façon dont le moteur de recherche applique cette technologie :

Bill Clinton, la valeur d'un fait peut être la chaîne de texte "Bill Clinton était le 42e président des États-Unis de 1993 à 2001." Certains ID d'objet peuvent avoir un ou plusieurs faits de propriété associés alors que d'autres objets peuvent ne pas avoir de faits associés. Les Fig. 2(a)-2(d) et décrites ci-dessus ne sont que des exemples. La structure des données de le référentiel 115 peut prendre d'autres formes pour optimiser l'analyse sémantique. D'autres champs peuvent être inclus dans les faits et certains des champs décrits ci-dessus peut être omis. De plus, chaque ID d'objet peut avoir des faits spéciaux supplémentaires en dehors des faits de nom et des faits de propriété. Tels que des faits permettant l'analyse sémantique d'un type ou une catégorie.

Effectivement, les entités et leurs relations ont des concepts qui sont indépendants de la langue car ils ont été créés de nature factuelle et ontologique. Cela signifie donc qu’elles n’ont pas besoin de langues définies pour être vrai. Ce ne sont pas des mots, des phrases, des chaînes de caractère, ce sont des significations pures.

Cela pourrait vous donner quelques idées. Effectivement la majorité des articles Wikipédia en anglais sont largement plus fournis que les pages traduite en français. Étant donné que les faits qui sont précisés dans le document anglais sont compris par le moteur de recherche comme quelque chose d'universelle, les mentionner dans une page Web en Français dans le contexte du texte serait tout à fait compréhensible pour un moteur de recherche et pourrait potentiellement vous donner plus de poids dans la recherche.

SEO et Knowledge Vault

Si vous commencez aujourd'hui le référencement sémantique, voici quelques points importants que j'ai essayé de synthétiser :

Le Knowledge Vault applique une note de probabilité qu'une entité soit pertinente pour répondre à la requête (et de confiance) depuis l'API Google Knowledge Graph avec une mesure appelé RésultScore.

Le Knowledge Vault et des systèmes annexes vérifie la factualité de vos textes, lorsqu'ils trouvent des entités (NLP), mais que votre contenu est faux (KV), le Knowledge Based Trust (KBT) pourrait vous faire baisser dans les résultats de recherche et compromettre la qualité de votre réponse à la requête, car vous faites ni plus ni moins que de la désinformation qui nuit à la pertinence de la réponse à la requête des utilisateurs.

J'entends par là que la vérification des informations dans vos textes de manière factuelle et véridique est déterminante pour vous classez dans la 1ere page de Google. En revanche, mentionner des informations n'est pas en soit un critère spécifique, mais si vous mentionnez des informations mais qu'elles sont fausses, Google pourrait revoir votre position à la baisse.

La réponse aux questions et les résultats de recherche basée sur les entités sont toutes des choses liées au Knowledge Vault. Comprendre le fonctionnement au moins trivial de ses systèmes grâce à l'analyse sémantique vous permettra d'optimiser pour le référencement sémantique.

Knowledge Vault et SEO