La recherche d’information (RI)

Mis à jour le 09/08/2022 | Publié le 23/07/2022 | 0 commentaires

Conception de site webSEOGoogleRecherche d’information (RI)

La recherche d’information RI ou IR (Information Retrieval en anglais) est la science derrière le fonctionnement de Google et les moteurs de recherche en général.

La recherche d’information est un domaine d’étude scientifique qui se concentre sur la récupération d’informations dans un corpus.

La recherche d’information est liée aux sciences de l’information et à la bibliothéconomie qui visait à représenter des documents dans le but d'en récupérer des informations, au moyen de la construction d’index.

Historiquement, la recherche d'information était utilisée dans les bibliothèques lorsque les premiers ordinateurs sont nés afin de classifier les documents.

Les premiers systèmes utilisés par des bibliothèques permettent d'effectuer des recherches booléennes, c’est-à-dire des recherches où la présence ou l'absence d'un terme dans un document conduit à la sélection du document. Il faut tout d'abord créer une nomenclature permettant de décrire l'ensemble des documents puis sélectionner, pour chaque document du corpus, les mots-clés permettant de le décrire. Une telle description par mots-clés (indexation matière) nécessite une grande expertise de la part du bibliothécaire, ses connaissances devant être suffisantes pour non seulement choisir les mots-clés reflétant au mieux le contenu d'un document, mais aussi pour choisir les termes permettant de le distinguer au sein du fond complet. Cette même connaissance est, de plus, partiellement nécessaire au moment de la recherche, lorsqu'il s'agit de « traduire » une question, plus ou moins précise, en un ensemble de mots-clés. Ce processus d'indexation, essentiellement manuel, est de plus insuffisamment exhaustif et précis. Il se peut par exemple que pour des problèmes de synonymie, certains documents répondant à la question d'un utilisateur puissent ne pas être retrouvés.
Wikipédia

En traduisant cela pour les moteurs de recherche, l'idée reste la même, il s’agit d'évaluer les informations et de les trier en fonction de leur importance et pertinence, ce qui donne un classement. Dès que vous entrez un terme de recherche dans le champ de recherche, le moteur de recherche renvoie des informations pertinentes sur votre terme de recherche à partir des données stockées.

Mais la RI peut également être associée à la science derrière les réseaux sociaux car ils sont eux aussi composés de systèmes tels que le filtrage des informations et leurs systèmes de recommandation.

On parle également de système de recherche d'information (SRI), qui désigne l’ensemble des logiciels permettant d'assurer les fonctions nécessaires à la recherche d'information.

Qu'est ce qu'un corpus ?

Un corpus est un regroupement de documents, par exemple des textes, images, vidéos, regroupés dans un but précis.

En général, on sépare au minimum un corpus en deux corpus :

Un corpus d'apprentissage : il sert de modèle pour avoir un nombre suffisant d'information ;
Un corpus de test : il sert à vérifier la qualité de l'apprentissage à partir du corpus d'apprentissage.

Comment établir un score pour la recherche d’information ?

La recherche d’information à besoin d’un score pour classer les documents qui sont les plus pertinents. Par exemple, dans les brevets de Google, ils font parfois référence à un score IR représentant une sorte de note globale d’une source Web pour l’évaluer par rapport au autre document des résultats de recherche et ainsi choisir l’ordre de pertinence.

Un exemple trivial d’un meilleur score serait par exemple, pour la question « L’optimisation des moteurs de recherche », un document contenant le mot « optimisation » et « moteurs de recherche » aura théoriquement une meilleure réponse, contrairement à un document qui ne contient que le mot « moteurs de recherche ».

Aujourd’hui la recherche d’information est beaucoup plus vaste que le simple nombre de mots en commun par rapport à la requête. Effectivement, que ce soit dans le contexte des moteurs de recherche ou des réseaux sociaux, par exemple un certain arbitrage des meilleurs documents se fait également par l’analyse d’interaction avec l'utilisateur (CTR).

Les conférences TREC et SIGIR donnent un bon aperçu de la diversité des recherches menées aujourd'hui dans le domaine général de la RI.

Frise chronologique des événements les plus important dans le domaine de la recherche d'information (RI)

Mesures d’un système RI

Si vous souhaitez comprendre les brevets ou les papiers scientifiques sur la RI comme ceux de Google, vous devrez impérativement connaitre ses mots : précision, rappel, bruit et silence.

  • Un système de RI est précis si presque tous les documents renvoyés sont pertinents.
  • Un système de RI a un bon rappel s'il renvoie la plupart des documents pertinents du corpus pour une question.
  • Un système de RI est bruyant s’il renvoie trop de documents dont peu sont pertinents.
  • Un système de RI est silencieux s'il ne renvoie pas assez de documents pertinents.

Les principales méthodes pour la recherche d’informations

Les premiers systèmes utilisés par des bibliothèques permettaient d'effectuer des recherches booléennes, c’est-à-dire des recherches où la présence (ou l'absence) d'un terme dans un document conduisait à la sélection du document.

Le modèle booléen :

  • Le contenu ne peut être trouvé qu'en utilisant les opérateurs "et", "ou", "non"
  • Le contenu n'est pas trié – il n'y a pas de classement des résultats.

Ce système à rapidement montré ses limites et dès les années 1970, des expériences ont montré que les techniques automatiques pouvaient fonctionner correctement sur des corpus de quelques milliers de documents. On parle alors de modèles vectoriels ou probabilistes.

Le modèle ontologique :

  • Il n'est pas basé sur l'évaluation du contenu mais sur l’évaluation de la structure des liens entre les documents. Nous pouvons mentionner pour l’exemple l'algorithme du PageRank de Google, développé par Larry Page et Sergey Brin.

Le modèle statistique de texte (approche algébrique et probabiliste) :

La pondération des termes dans les corpus est effectuée via WDF et IDF. Ceux-ci permettent de classifier les documents. L'intérêt de la pondération des termes à été découvert par IBM en 1957 et démocratisé par Karen Spärck-Jones en 1972 :

  • WDF : Within Document Frequency – fréquence relative d'un terme dans un document
  • IDF : Inverse Document Frequency - Fréquence à laquelle un document apparaît dans une base de données avec un terme spécifique
  • Le modèle vectoriel fait également partie du modèle de statistiques textuelles : chaque texte correspond à un point de l'espace, les angles des vecteurs (cosinus de salton ou cosine similarity) indiquent la similarité des mots entre eux.
  • Okapi appelé également Okapi BM25 ou BM25 est le modèle de base de la formule probabiliste, la formule peut être complétée avec un modèle statistique comme TF et IDF. Cette formule modélise la notion de pertinence des documents dans un corpus au niveau des “preuves de qualité” du texte.

J'en parle plus longuement dans l'article sur comment Google comprend un texte.

La recherche d’information pour Google

Les systèmes de recherche d’informations (SRI) principales de Google

1. Un système de recherche sur le Web : généralement appelé crawler, il récupère l’ensemble des documents sur le Web

2. L'indexeur : distille les informations contenues dans les documents du corpus dans un format qui se prête à un accès rapide par le processeur de requêtes. Cela implique généralement l'extraction des caractéristiques du document en décomposant les documents en leurs termes constitutifs, l'extraction de statistiques relatives à la présence des termes dans les documents et le corpus, et le calcul de toute preuve indépendante de la requête. Une fois l'index créé, le système est prêt à traiter les requêtes.

3. Un processeur de requêtes : Le processeur de requêtes sert les requêtes des utilisateurs en mettant en correspondance et en classant les documents de l'index en fonction de l'entrée de l'utilisateur. Comme le processeur de requête interagit directement avec l'index de document, ils sont souvent confondus.

4. Classement dans la recherche Web : Le composant principal du processeur de requêtes est la fonction de classement des documents. Les fonctions de classement des systèmes de recherche modernes intègrent fréquemment de nombreuses formes de preuves documentaires . Certaines de ces preuves, sont les informations textuelles, nous parlons des preuves d’évidences au niveau du texte dans l’article sur comment Google juge et donne un score de qualité d’un texte. D'autres éléments de preuve, tels que des descriptions de documents externes ou des recommandations, sont recueillis grâce à un examen du contexte d'un document dans le graphique Web (par exemple via l’algorithme du PageRank).

Les éléments pris en charge pour les tâches de récupération de Google

De nombreux éléments sont récupérés pour classifier les documents en recherche d’informations, voici les principaux.

Après avoir analysé les preuves documentaire basée sur du texte (espace vectoriel, classement probabiliste, classement statistique...), d’autres preuves peuvent servir pour les tâches de récupération telle que :

  • Les métadonnées - Données structurées
  • Les URL
  • Structure du document et informations sur les balises
  • Texte d'ancrage
  • Mesures bibliométriques
  • PageRank
  • Titre (<title>)
  • ...

Une très bonne ressource la dessus est la thèse de Trystan Upstil : Document ranking using web evidence. Désormais employé chez Google.

Aujourd’hui (2022) dans le cas de Google, les techniques d'intelligence artificielle comme le machine learning sont au cœur de la recherche d’informations. Par exemple, BERT est un modèle d’intelligence artificielle de machine learning permettant le traitement du langage naturel (NLP) afin de classer plus intelligemment les documents des résultats de recherche. Une technologie de pointe pour la recherche d’information.

Quoi qu’il en soit, les méthodes classiques de la recherche d’information telle que l’indexation, l’utilisation de mots-clés, et les statistiques de mots semblent toujours utilisées afin de classer les documents pour les moteurs de recherches. Effectivement de nombreuse études de cas de SEO on put démontré qu'un champ lexical large autour du sujet, mot clé visé apportait de meilleurs résultats en optimisation du référencement, c'est à dire en optimisant TF*IDF.

Auteur

Stan De Jesus Oliveira
Propriétaire et fondateur de createur2site

Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée.