• Aucun résultat trouvé

2.2 Les fondements de la recherche d’information

2.2.2 Processus général de la RI

Le but fondamental d’un système de RI est de sélectionner l’ensemble de documents pertinents répondant au besoin en information de l’utilisateur. La réalisation d’un tel système de RI qui permet, à partir d’une requête, d’ordonnancer les documents consiste principalement à mettre en oeuvre un processus clé (processus en U de la RI). Il est décomposé en trois principales

étapes, illustrées dans la Figure 2.1 et détaillées ci-dessous.

Figure 2.1: Processus général de la RI.

Ce processus consiste en deux principales phases : l’indexation et l’interro- gation.

1. L’indexation consiste à extraire et à représenter le contenu des docu- ments de manière interne sous forme d’index. Cette structure d’index permet de retrouver rapidement les documents contenant les mots clés de la requête.

2. L’interrogation est l’interaction d’un utilisateur final avec le système de RI, une fois les documents sont représentés sous forme interne d’index. Suite à une requête utilisateur, le système calcule la pertinence de chaque document vis-à-vis de la requête utilisateur selon une mesure de correspondance du modèle de RI, et retourne la liste des résultats à l’utilisateur.

3. La reformulation du besoin en information est l’étape qui permet de redéfinir le besoin de l’utilisateur au fur et à mesure de la session de recherche.

2.2.2.1 La phase d’indexation

L’indexation recouvre un ensemble de techniques visant à transformer les documents (ou requêtes) en substituts ou descripteurs capables de repré- senter leur contenu (Salton et McGill, 1986). Ces descripteurs forment le langage d’indexation représenté selon une structure souvent basée sur un ensemble de mots clés ou groupes de mots représentant le contenu textuel du document. Dès lors, l’indexation consiste à détecter les termes les plus re- présentatifs du contenu du document. Différents modes d’indexation existent en RI : l’indexation manuelle, automatique ou semi-automatique.

– Indexation manuelle : lors de l’indexation manuelle, un expert dans le domaine choisit les termes qu’il juge pertinents dans la description du contenu sémantique du document. Ce type d’indexation permet d’avoir un vocabulaire d’index contrôlé ce qui permet d’accroître la consistance et la qualité de la représentation obtenue.

– Indexation automatique : Ce type d’indexation ne fait pas intervenir d’ex- pert. L’indexation automatique repose sur des algorithmes associant auto- matiquement des descripteurs à des parties de document. Dans le cas des documents textuels, chaque mot est potentiellement un index du docu- ment qui le contient. Chaque terme selon un processus défini : extraction, suppression des mots vides, normalisation et pondération (Porter, 1997; Pirkola et Järvelin, 2001).

– Indexation semi-automatique : c’est une combinaison des deux méthodes précédentes où le choix final des termes à indexer revient à l’expert. A la fin de cette étape, les documents sont représentés dans des fichiers index qui stockent la cartographie des couples terme-document en y associant un poids. La formule de pondération la plus utilisée est celle basée sur la fré- quence des termes dans les documents, appelée TF-IDF (Salton et McGill, 1986). L’intuition de cette pondération est de favoriser les termes qui sont à la fois fréquents dans le document et peu fréquents dans la collection. Cette dernière condition est basée sur les propriétés de la loi de Zipf (Zipf, 1949) qui étudie la distribution des termes dans une collection de documents. La mesure TF-IDF est donnée par la multiplication des deux mesures TF et IDF comme suit :

T F ∗ IDF = log(1 + TF) ∗ IDF (2.1)

1. TF (Term Frequency) : cette mesure a été introduite pour tenir compte de la fréquence d’un terme dans un document. L’idée sous-jacente est que plus un terme est fréquent dans un document plus il est impor- tant dans sa description. Elle représente une “pondération locale” d’un terme dans un document. On trouve plusieurs variantes de cette me- sure. Soit le document dj et le terme ti , alors la fréquence T Fij du terme dans le document est donnée selon l’une des formulations sui- vantes :

T Fij = 1 + log(tdij), TFij =

tdij

ktdkj

(2.2)

où tdij est le nombre d’occurrences du terme ti dans le document

dj. Le dénominateur est le nombre d’occurrences de tous les termes

dans le document dj. La dernière déclinaison permet de normaliser la fréquence du terme pour éviter les biais liés à la longueur du document. 2. IDF (Inverse Document Frequency) : ce facteur mesure la fréquence d’un terme dans toute la collection, c’est la “pondération globale”. En effet, un terme fréquent dans la collection, a moins d’importance qu’un terme moins fréquent. Cette mesure est exprimée selon l’une des déclinaisons suivantes : IDFi= log( N ni), IDF i= log( N− ni ni ) (2.3)

avec N est la taille (nombre de documents) de la collection et ni le

nombre de documents contenant le terme ti.

2.2.2.2 La phase d’appariement document-requête

L’interrogation du système implique un processus d’interaction de l’utili- sateur avec le système de RI illustré dans la figure 2.1. Cette interaction comprend : (1) la formulation d’une requête par l’utilisateur traduisant son besoin en information ; (2) la représentation de la requête sous forme in- terne selon le langage d’indexation défini ; et (3) la correspondance entre la requête et les documents par exploitation de l’index et la présentation des résultats. Plus précisément, l’interrogation implique le scénario suivant : l’utilisateur exprime son besoin en information sous la forme d’une requête. Le système interprète la requête et crée son index qui sera compatible avec le modèle d’index des documents. Ensuite, le système évalue la pertinence des documents par rapport à cette requête en utilisant une fonction de corres- pondance. Cette fonction exploite l’index généré dans la phase d’indexation

dans le but de calculer un score de similarité (en anglais Relevance Status Value), notée RSV (Q, D), entre la requête indexée Q et les descripteurs du document D. Différents modèles de RI ont été proposés dans la littérature tentent de formaliser la pertinence en partant des modèles naïfs basés sur l’appariement exact vers des modèles plus élaborés basés sur l’appariement rapproché. Le résultat est une liste de documents généralement triée par ordre de valeur de correspondance décroissante, c’est-à-dire du plus perti- nent au moins pertinent, et présenté à l’utilisateur. Celui ci apporte son jugement sur les documents renvoyés par le système selon des critères liés à son besoin en information et au cadre de recherche dans lequel il se situe.

2.2.2.3 La phase de reformulation du besoin en information

La reformulation du besoin en information est l’étape qui permet de redéfinir le besoin de l’utilisateur au fur et à mesure de la session de recherche. Cette étape peut être effectuée :

– Manuellement, dans le cas où l’utilisateur soumet lui-même une nouvelle requête.

– De façon automatique, lorsque le système de RI s’appuie sur les termes im- portants dans les documents les plus pertinents ou visités par l’utilisateur qui sont réutilisés.