Le Knowledge Vault est une base de connaissance dotée en plus d’un système d’inférence. Il s’agit donc d’un Google Knowledge Graph 2.0 puisqu’il permet d’auto générer la création de ses triples recherche sémantiques.
Notre analyse de contenu nous permet d'extraire environ 1,6 milliard de triplets candidats, couvrant 4469 types différents de relations et 1100 types différents d'entités sémantiques. Environ 271 millions de ces faits ont une probabilité estimée d'être vrai supérieure à 90%.
– Google Search
Etant donné que nous avons déjà parlé des définitions classiques pour mieux comprendre le référencement sémantique et Google Knowledge Graph, je ne les redéfinirai pas ici.
Comment fonctionne le Knowledge Vault ?
Les bases de connaissances à grande échelle sont de plus en plus en vogue, notamment avec Wikipedia, Satori de Microsoft et Knowledge Graph de Google.
Cependant, Google à souhaité avoir une base de connaissance capable d’avoir autant d’entité que de choses existantes à l’échelle du Web.
Aujourd'hui, pour ce faire, ils ont dû utiliser (et utilisent aujourd'hui encore) des méthodes automatiques pour construire des triplets RDF (sujet – prédicat – objet) grâce à des systèmes d'inférence probabiliste.
Grossièrement, un système d’inférence est un système qui prédit des triples sémantiques sur la base d’autres triples.
Comment le Knowledge Vault génère des triples automatiquement ?
L'extraction de contenu Web (obtenues via l'analyse du texte et de son contexte, de données tabulaires, de structure de page et d'annotations humaines) est la première étape pour définir des entités.
Le coffre-fort de connaissances en français, extraient des faits, sous la forme de triplets de l’ensemble du Web c’est-à-dire que le KV se forme à l’échelle du monde ouvert plutôt qu’à l’hypothèse du monde fermé local. C’est-à-dire que le KV utilise les pages Web pour créer de nouveaux triplets. Pour être certain de ne pas créer de biais dans les triples de leurs KV, ils fusionnent les fais avec les connaissances déjà établies comme à partir de Freebase ou du Google Knowledge Graph.
Formalisons un peu plus son fonctionnement face aux requêtes des utilisateurs.
Extracteurs
Pour commencer, un coffre de connaissance (KV) a besoin d'extraire les "choses" sur le Web pour augmenter son échelle de connaissance. Ils appellent cela des extracteurs (extractors en anglais) qui analysent le contexte du texte.
Ces systèmes extraient des triplets à partir d’un grand nombre de sources Web. Chaque extracteur attribue un score de confiance à un triple, représentant l’incertitude sur l’identité de la relation et ses arguments correspondants.
Priors basés sur des graphes
Ces systèmes apprennent la probabilité a priori de chaque triplet de données structurées possible, sur la base des triplets stockés dans une base de connaissances de données structurées existante.
Fusion de connaissances
Ce système calcule la probabilité qu'un triplet soit vrai, sur la base d'un accord entre différents extracteurs et a priori. Effectivement et comme vous vous le demandiez sûrement, les faits extraits du Web ne peuvent pas être toujours fiables, notamment car comprendre le sens exact des informations dans leur contexte reste complexe. Le principal moyen qu'ils ont pour éviter cela est essentiellement d'utiliser Freebase pour comprendre le sens des données et vérifier la factualité.
Quelques points techniques bon à savoir sur le Knowledge Vault
Dans le papier original sur Knowledge Vault (https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45634.pdf), ils font référence au fait que leurs moteurs d’inférence permetterait au KV d’avoir un référentiel structuré de connaissances indépendant de la langue.
Cette phrase m'a particulièrement touché car il m'a rappelé un brevet de Google que j'avais vu passé. Ce brevet existait déjà mais a été mis à jour suite à l'incorporation du KV dans leurs systèmes de recherche d'information et d'analyse sémantique.
Le brevet disponible aujourd'hui est "Query language", numéro de brevet : US20070198480A1
Le brevet en question nous montre comment Google utilise le KV pour comprendre la relation et les entités dans le monde plutôt qu'à l'échelle d'un pays par exemple, afin d'améliorer l'évaluation de la qualité du contenu.

Le brevet nous donne un exemple de la façon dont le moteur de recherche applique cette technologie :
Bill Clinton, la valeur d'un fait peut être la chaîne de texte "Bill Clinton était le 42e président des États-Unis de 1993 à 2001." Certains ID d'objet peuvent avoir un ou plusieurs faits de propriété associés alors que d'autres objets peuvent ne pas avoir de faits associés. Les Fig. 2(a)-2(d) et décrites ci-dessus ne sont que des exemples. La structure des données de le référentiel 115 peut prendre d'autres formes pour optimiser l'analyse sémantique. D'autres champs peuvent être inclus dans les faits et certains des champs décrits ci-dessus peut être omis. De plus, chaque ID d'objet peut avoir des faits spéciaux supplémentaires en dehors des faits de nom et des faits de propriété. Tels que des faits permettant l'analyse sémantique d'un type ou une catégorie.
Effectivement, les entités et leurs relations ont des concepts qui sont indépendants de la langue car ils ont été créés de nature factuelle et ontologique. Cela signifie donc qu’elles n’ont pas besoin de langues définies pour être vrai. Ce ne sont pas des mots, des phrases, des chaînes de caractère, ce sont des significations pures.
Cela pourrait vous donner quelques idées. Effectivement la majorité des articles Wikipédia en anglais sont largement plus fournis que les pages traduite en français. Étant donné que les faits qui sont précisés dans le document anglais sont compris par le moteur de recherche comme quelque chose d'universelle, les mentionner dans une page Web en Français dans le contexte du texte serait tout à fait compréhensible pour un moteur de recherche et pourrait potentiellement vous donner plus de poids dans la recherche.
SEO et Knowledge Vault
Si vous commencez le référencement sémantique, voici quelques points importants que j’ai essayé de synthétiser :
Le Knowledge Vault applique une note de probabilité qu'une entité soit pertinente pour répondre à la requête (et de confiance) depuis l'API Google Knowledge Graph avec une mesure appelé RésultScore.
Le Knowledge Vault et des systèmes annexes vérifie la factualité de vos textes, lorsqu'ils trouvent des entités (NLP), mais que votre contenu est faux (KV), le Knowledge Based Trust (KBT) pourrait vous faire baisser dans les résultats de recherche et compromettre la qualité de votre réponse à la requête, car vous faites ni plus ni moins que de la désinformation qui nuit à la pertinence de la réponse à la requête des utilisateurs.
J'entends par là que la vérification des informations dans vos textes de manière factuelle et véridique est déterminante pour vous classez dans la 1ere page de Google. En revanche, mentionner des informations n'est pas en soit un critère spécifique, mais si vous mentionnez des informations mais qu'elles sont fausses, Google pourrait revoir votre position à la baisse.
La réponse aux questions et les résultats de recherche basée sur les entités sont toutes des choses liées au Knowledge Vault. Comprendre le fonctionnement au moins trivial de ses systèmes grâce à l'analyse sémantique vous permettra d'optimiser pour le référencement sémantique.


0 commentaires