Le Knowledge Vault est une base de connaissance dotée en plus d’un système d’inférence. Il s’agit donc d’un Google Knowledge Graph 2.0 puisqu’il permet d’auto générer la création de ses triples sémantiques.
Nous extrayons environ 1,6 milliard de triplets candidats, couvrant 4469 types différents de relations et 1100 types différents d'entités. Environ 271 millions de ces faits ont une probabilité estimée d'être vrai supérieure à 90%.
- Google Search
Etant donné que nous avons déjà parlé des définitions classiques sur le référencement sémantique et Google Knowledge Graph, je ne les redéfinirais pas ici.
Comment fonctionne le Knowledge Vault ?
Les bases de connaissances à grande échelle sont de plus en plus en vogue, notamment avec Wikipedia, Satori de Microsoft et Knowledge Graph de Google.
Cependant, Google à souhaité avoir une base de connaissance capable d’avoir autant d’entité que de choses existantes à l’échelle du Web.
Pour ce faire, ils ont dû utiliser (et utilisent toujours) des méthodes automatiques pour construire des triplets RDF (sujet - prédicat - objet) grâce à des systèmes d’inférence probabiliste.
Grossièrement, un système d’inférence est un système qui prédit des triples sémantiques sur la base d’autres triples.
Comment le Knowledge Vault génère des triples automatiquement ?
L'extraction de contenu Web (obtenues via l'analyse de texte, de données tabulaires, de structure de page et d'annotations humaines) est la première étape pour définir des entités.
Le coffre-fort de connaissances en français, extraient des faits, sous la forme de triplets de l'ensemble du Web c'est-à-dire que le KV se forme à l’échelle du monde ouvert plutôt qu'à l'hypothèse du monde fermé local. C'est-à-dire que le KV utilise les pages Web pour créer de nouveaux triplets. Pour être certain de ne pas créer de biais dans les triples de leurs KV, ils fusionnent les fais avec les connaissances déjà établies comme à partir de Freebase ou du Google Knowledge Graph.
Formalisons un peu plus sont fonctionnement.
Extracteurs
Pour commencer, un coffre de connaissance (KV) à besoin d’extraire les “choses” sur le Web pour augmenter son échelle de connaissance. Ils appellent cela des extracteurs (extractors en anglais).
Ces systèmes extraient des triplets à partir d'un grand nombre de sources Web. Chaque extracteur attribue un score de confiance à un triple, représentant l'incertitude sur l'identité de la relation et ses arguments correspondants.
Priors basés sur des graphes
Ces systèmes apprennent la probabilité a priori de chaque triplet possible, sur la base des triplets stockés dans une base de connaissances existante.
Fusion de connaissances
Ce système calcule la probabilité qu'un triplet soit vrai, sur la base d'un accord entre différents extracteurs et a priori. Effectivement et comme vous vous le demandiez sûrement, les faits extraits du Web ne peuvent pas être toujours fiables. Le principal moyen qu’ils ont pour éviter cela est essentiellement d'utiliser Freebase pour vérifier la factualité.
Quelques points techniques bon à savoir sur le Knowledge Vault
Dans le papier original sur Knowledge Vault (https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45634.pdf), ils font référence au fait que leurs moteurs d’inférence permetterait au KV d’avoir un référentiel structuré de connaissances indépendant de la langue.
Cette phrase m'a particulièrement touché car il m'a rappelé un brevet de Google que j’avais vu passé. Ce brevet existait déjà mais à été mis à jour suite à l’incorporation du KV dans leurs systèmes de recherche d’information.
Le brevet est “Query language”, numéro de brevet : US20070198480A1
Le brevet en question nous montre comment Google utilise le KV pour comprendre la relation et les entités dans le monde plutôt qu'à l'échelle d’un pays par exemple.
Le brevet nous donne un exemple :
Bill Clinton, la valeur d'un fait peut être la chaîne de texte "Bill Clinton était le 42e président des États-Unis de 1993 à 2001." Certains ID d'objet peuvent avoir un ou plusieurs faits de propriété associés alors que d'autres objets peuvent ne pas avoir de faits associés. Les Fig. 2(a)-2(d) et décrites ci-dessus ne sont que des exemples. La structure des données de le référentiel 115 peut prendre d'autres formes. D'autres champs peuvent être inclus dans les faits et certains des champs décrits ci-dessus peut être omis. De plus, chaque ID d'objet peut avoir des faits spéciaux supplémentaires en dehors des faits de nom et des faits de propriété. Tels que des faits véhiculant un type ou une catégorie.
Effectivement, les entités et leurs relations ont des concepts qui sont indépendants de la langue car ils ont été créés de nature factuelle et ontologique. Cela signifie donc qu'elles n'ont pas besoin de langues définies pour être vrai. Ce ne sont pas des mots, des phrases, des chaînes de caractère, ce sont des significations pures.
Cela pourrait vous donner quelques idées. Effectivement la majorité des articles Wikipédia en anglais sont largement plus fournis que les pages traduite en français. Étant donné que les faits qui sont précisés dans le document anglais sont compris par le moteur de recherche comme quelque chose d’universelle, les mentionner dans une page Web en Français serait tout à fait compréhensible pour un moteur de recherche et pourrait potentiellement vous donner plus de poids dans la recherche.
SEO et Knowledge Vault
Si vous commencez le référencement sémantique, voici quelques points importants que j’ai essayé de synthétiser :
Le Knowledge Vault applique une note de probabilité qu'une entité soit pertinente pour la requête (et de confiance) depuis l’API Google Knowledge Graph avec une mesure appelé RésultScore.
Le Knowledge Vault et des systèmes annexes vérifie la factualité de vos textes, lorsqu’ils trouvent des entités (NLP), mais que votre contenu est faux (KV), le Knowledge Based Trust (KBT) pourrait vous faire baisser dans les résultats de recherche car vous faites ni plus ni moin que de la désinformation.
J’entends par là que la vérification de vos textes de manière factuelle et véridique est déterminante pour vous classez dans la 1ere page de Google. En revanche, mentionner des faits n’est pas en soit un critère spécifique, mais si vous mentionnez des faits mais qu’ils sont faux, Google pourrait revoir votre position à la baisse.
La réponse aux questions et les résultats de recherche basée sur les entités sont toutes des choses liées au Knowledge Vault. Comprendre le fonctionnement au moins trivial de ses systèmes vous permettra d’optimiser pour le référencement sémantique.
0 commentaires