2 Concepts de base de la RI - The DART-Europe E-theses Portal

2.1 Fondements

La recherche d’information (RI) est un domaine de recherche qui intègre des modèles et des techniques dont le but est de faciliter l’accès à l’information pertinente pour un utilisateur ayant un besoin en information. L’objectif principal de la RI est de trouver l’information pertinente qui répond et satisfait le besoin en information/requête via un SRI (Système de Recherche d’Informaion). Ce dernier permet de retrouver, à partir d’une collection de documents, les documents susceptibles d’être pertinents au besoin en information d’un utilisateur.

Plusieurs concepts clés s’articulent autour de la définition d’un système de RI, à savoir :

— Besoin en information : cette notion est souvent assimilée au besoin exprimé par l’utilisateur (Bigot, 2013). Afin de déterminer différentes classes de besoins en information selon un critère de difficulté, l’auteur a identifié des groupes de besoins qualifiés de faciles, moyens, difficiles ou encore très difficiles en se basant sur l’hypothèse que les systèmes de RI sont plus ou moins performants selon la difficulté des besoins traités.

Par ailleurs, (Cutrell et Guan, 2007) ont classé les besoins utilisateurs selon la recherche navigationnelle ou exploratoire.

— Une requête : il s’agit de l’expression d’un besoin en information par l’utilisateur.

C’est un ensemble de mots clés, termes ou expression, exprimés en langage naturel, que l’utilisateur soumet aux moteurs de recherche afin de récupérer les documents ciblés. Pour la recherche documentairead hoc, l’utilisateur spécifie son besoin en information par une requête qui déclenche la recherche (exécutée par un SRI) des documents pertinents.

— Collection de documents: la collection de documents (ou corpus) constitue l’ensemble des informations (des documents) exploitables et accessibles. Nous utiliserons dans la suite du manuscrit les termes : corpus ou collection.

— Un document: un document est souvent assimilé à une pièce écrite, servant d’informa-tion ou de preuve. C’est un support qui contient des informad’informa-tions qui peuvent être hété-rogènes au niveau de la forme et du contenu. Le contenu peut être du texte, graphique, image, son, vidéo, références, liens hypertextes, etc. Quant à la forme, les documents peuvent être structurés, semi-structurés ou non structurés. Les méta-données peuvent ap-porter des informations supplémentaires aux documents décrivant son contexte, comme par exemple date de rédaction, support de publication, etc.

— La pertinence : les chercheurs et les concepteurs de SRI ont distingué deux types de pertinence, à savoir : la pertinence système, c’est-à-dire l’évaluation par un système de l’adéquation entre des documents et une requête, et la pertinence utilisateur qui se traduit par des jugements de pertinence sur les documents fournis en réponse à une requête. Dans (Mizzaro, 1997), l’auteur met en évidence la complexité et la diversité des types de pertinence. Il définit la pertinence de manière générale comme une relation entre deux entités, l’une étant liée à la collection de documents et l’autre à l’utilisateur.

Il distingue ainsi trois dimensions : (1) le contexte qui comprend par exemple les documents déjà connus de l’utilisateur (et qui ne seront donc pas pertinents pour lui) ou le temps voire l’argent alloué pour la recherche, (2)la tâchequi représente l’activité que l’utilisateur va réaliser avec les documents retrouvés ; et (3) le domaine du sujet, le champ disciplinaire auquel l’utilisateur se rapporte.

Par ailleurs, une définition de la pertinence donnée par (Boughanem et Savoy, 2008), consiste en la correspondance entre un document et une requête, ou encore la mesure d’informativité du document par rapport à la requête.

Nous abordons dans la suite de cette section le processus général d’un système de RI avec les différentes étapes de sa mise en œuvre. Nous passons ensuite en revue les principaux modèles de RI et nous présentons le processus de reformulation de requêtes. Nous décrivons enfin la démarche classique d’évaluation des systèmes de RI classique.

2.2 Mise en œuvre d’un SRI

Un système de recherche d’information (SRI) permet d’automatiser la tâche de RI. L’objectif d’un SRI est de retourner un ensemble de documents, en réponse au besoin en information de l’utilisateur, traduit par la requête qu’il a soumis. L’enjeu est de trouver et retourner l’information pertinente qui satisfait le besoin en information. Pour cela, un SRI emploie un processus bien défini pour identifier les documents pertinents, à partir d’une collection, en réponse à un besoin en information spécifique.

Ce processus est composé de trois fonctions principales, à savoir : (1) l’indexation des docu-ments et des requêtes ; (2) l’appariement requête-document, qui permet de comparer la requête et le document ; (3) et la fonction de modification, qui intervient en réponse aux résultats ob-tenus. Les modifications éventuelles concernent les documents (ajout ou suppression éventuels de la collection documentaire) ou la requête sachant que les plus courantes concernent la re-quête seulement, appelée :reformulation de la requête ou encoreexpansion de requête.

Dans ce qui suit, nous introduisons dans un premier temps les éléments de base de la mise en oeuvre du système de RI, à savoir l’indexation et l’interrogation.

2.2.1 Indexation

L’objectif principal de cette étape est de fournir des représentations des documents et des requêtes facilement exploitables par le système dans la phase de recherche. Cette représen-tation est souvent une liste pondérée de mots-clés significatifs que l’on nomme descripteurs du document (ou de la requête). Dès lors, l’indexation consiste à détecter les termes les plus représentatifs, i.e., discriminants, du contenu du document.

Le processus d’indexation est constitué de trois étapes principales, à savoir : (1) définir la source de données, (2) transformer le contenu du document pour générer un aperçu ou une approche logique ; et (3) construire l’index selon cette approche. La tâche d’indexation re-couvre un ensemble de techniques visant à transformer les documents pour faciliter l’accès à l’information textuelle. Plus spécifiquement, le but principal de cette étape est de fournir des représentations des documents et des requêtes facilement exploitables par le système dans la phase de recherche. L’indexation peut être manuelle, semi-automatique ou automatique. Elle est définie comme suit :

— Indexation manuelle : C’est un spécialiste ou un documentaliste qui analyse le docu-ment et sélectionne par la suite les termes qu’il juge représentatifs. L’indexation manuelle fournit une terminologie spécifique pour indexer et rechercher les documents, garantissant ainsi une meilleure représentation des documents et une meilleure qualité des résultats.

Ce type d’indexation permet d’avoir un vocabulaire d’index contrôlé, ce qui permet d’ac-croître la consistance et la qualité de la représentation obtenue.

— Indexation automatique : C’est la forme la plus répandue d’indexation utilisée par la plupart des SRI. Le processus consiste en la production automatique des descripteurs (termes d’index) d’un texte. Dans le cas des documents textuels, chaque terme est un élément potentiel de l’index du document qui le contient. Il est identifié selon un processus standard intégrant l’extraction, la suppression des mots vides, la normalisation et la pondératio (Pirkola et Järvelin, 2001).

— Indexation semi-automatique: Elle se base sur l’indexation automatique. Toutefois, une intervention humaine peut être réalisée afin d’effectuer des choix sur les termes

significatifs, dans le but de valider la représentation finale des descripteurs. Ces choix sont souvent réalisés en utilisant un thésaurus ou une base terminologique qui est une liste organisée de descripteurs (mots-clés) liés à des règles terminologiques propres et reliés entre eux par des relations sémantiques.

D’une manière générale, l’indexation comprend un certain nombre de traitements qui sont appliqués sur les documents et les requêtes. On distingue : l’extraction des mots, l’élimina-tion des mots vides de sens, la lemmatisal’élimina-tion et la pondéral’élimina-tion. À la fin de cette étape, les documents sont représentés dans des fichiers index qui stockent la cartographie des couples terme-document en y associant un poids. La formule de pondération la plus utilisée est celle basée sur la fréquence des termes dans les documents, appelée tf −idf (Salton et McGill, 1986). Ces facteurs permettent de combiner les pondérations locales (dans le document) et globales (dans la collection) d’un terme.

La mesuretf−idf est donnée par la multiplication des deux mesures TF et IDF comme suit :

tf-idf =log(1 +tf)∗idf (1.1)

Les mesures tf etidf sont définies comme suit :

1. tf (Term Frequency) : Cette mesure est proportionnelle au nombre d’occurrences d’un terme dans un document (pondération locale). Toutefois, il existe différentes variantes de cette mesure qui dépendent de la façon dont la pertinence est mesurée.

tf_ij¹ = 1 +log(td_ij) tf_ij² = tdij

ktd_kj

(1.2)

où tdij est le nombre d’occurrences du termeti dans le documentdj. Le dénominateur est la taille du document d_f en nombre de termes. La dernière déclinaison permet de normaliser la fréquence du terme pour éviter les biais liés à la longueur du document.

2. idf (Inverse Document Frequency) : ce facteur mesure l’inverse de la fréquence d’un terme dans toute la collection, définie comme la pondération globale. En effet, un terme fréquent dans la collection, a moins d’importance qu’un terme moins fréquent. Cette mesure est exprimée selon l’une des déclinaisons suivantes :

idf_t¹=logN n_t, idf_t idf_t²=log(N −nt

n_t )

(1.3)

où N est la taille (nombre de documents) de la collection etn_t le nombre de documents contenant le termet_i.

2.2.2 Interrogation

L’interrogation est le processus qui consiste à soumettre une requête par l’utilisateur au SRI comme l’illustre la Figure 1.1. C’est l’interaction entre l’utilisateur et le SRI qui comprend trois phases, à savoir : (1) l’utilisateur formule son besoin en information par la requête qu’il

Figure1.1 – Processus en U de la RI.

soumet au système ; (2) la requête est représentée selon un langage d’indexation défini ; et (3) la correspondance entre la requête et les documents est effectuée par exploitation de l’index.

Plus précisément, l’interrogation décrit le scénario suivant : l’utilisateur exprime son besoin en information sous la forme d’une requête. Le système interprète la requête et crée son index qui sera compatible avec le modèle d’index des documents. Le système évalue ensuite la pertinence des documents par rapport à cette requête en utilisant une fonction de correspon-dance. C’est l’appariement requête-document qui permet d’associer à chaque document une valeur de pertinence vis à vis d’une requête. Plus concrètement, c’est un poids de pertinence calculé, reflétant le degré de similarité entre la requête et le document, noté RSV(q, d), où q représente la requête de l’utilisateur et d le document considéré. Le résultat est une liste de documents (pondérés ou non), généralement triée par ordre de valeur de correspondance décroissante, du plus pertinent au moins pertinent. L’ensemble de documents renvoyés par le système est ensuite jugé par l’utilisateur selon son besoin, la satisfaction et le contexte de recherche.

Pour le mécanisme d’appariement document-requête, il est indispensable d’utiliser un modèle qui assure le calcul du degré de pertinence des documents pour les requêtes. Dans la section qui suit, nous décrivons les principaux modèles de RI.

Dans le document The DART-Europe E-theses Portal (Page 33-37)