• Aucun résultat trouvé

Dans ce chapitre, nous avons présenté les principes de la RI, à travers les diffé- rentes étapes du processus de RI. La requête de l’utilisateur est traitée par le SRI afin de déterminer les documents les plus pertinents. Plusieurs modèles théoriques existent (modèle vectoriel et modèle probabiliste par exemple) et sont utilisés par les SRI pour effectuer la mise en correspondance entre une représentation de la requête et des docu- ments. Cette représentation des documents et des requêtes est réalisée lors de la phase d’ indexation, et un calcul de similarité permet aux SRI de restituer à l’utilisateur les documents qu’ils supposent pertinents.

Cependant, un certain nombre de problèmes résident dans le processus de RI tel que nous l’avons présenté. En effet, les SRI traitent toutes les requêtes qu’ils manipulent de la même manière, c’est à dire que les requêtes sont considérées comme un ensemble de mots clés isolés. Dans l’approche que nous proposons, les requêtes sont distinguées à travers une typologie basée sur un ensemble de caractéristiques linguistiques. Il est donc nécessaire de trouver un type de représentation autre que les mots-clés (communément appelé "sacs de mots"), afin de prendre en compte toutes les spécificités du langage naturel.

De plus, nous utilisons dans nos travaux les données issues de la campagne d’éva- luation TREC. Les données de TREC sont très nombreuses et ne sont pas utilisées dans leur ensemble. Nous mettons en place dans nos travaux des techniques de fusion de données afin de prendre en compte aussi bien les spécificités des systèmes que les résultats qu’ils restituent.

Dans le chapitre suivant, nous utilisons des techniques de Traitement Automatique du Langage ( TAL) pour caractériser les requêtes. Le domaine du TAL essaie d’exploiter des connaissances linguistiques pour apporter plus de compréhension dans le traitement des documents et des requêtes de l’utilisateur. Nous présentons les principaux paliers du TAL (morphologique, sémantique et syntaxique) ainsi que leur apport dans la RI.

Chapitre 2

Les traitements linguistiques en RI

2.1

Introduction

La compréhension du besoin d’information de l’utilisateur, exprimé à travers une requête, est une tâche très difficile en RI car la requête n’est qu’une expression partielle d’un besoin mental de l’utilisateur. Belkin [BOB82] parle dans ses travaux d’un état anormal de connaissances (Anomalous State of Knowledge) pour l’utilisateur, lorsque celui-ci est confronté à un manque de connaissances sur un sujet. Cet état est l’élément déclencheur de la recherche de l’utilisateur. Plus la requête de l’utilisateur est précise, plus la recherche est efficace. Mais, d’après Bates [Bat86], "la probabilité que deux personnes utilisent le même terme pour désigner la même chose équivaut à moins de 20%". Furnas quant à lui [FDD+88] stipule que "... la probabilité que deux personnes choisissent le même terme est comprise entre 7 et 18%". L’expression de la requête est pourtant garante de l’efficacité de la recherche, et a des impacts sur le déroulement de la recherche.

Une autre difficulté à laquelle font face les SRI est qu’ils ne comprennent pas le langage humain, et n’ont donc pas une connaissance parfaite du contenu (en termes de sémantique) de la collection de documents qu’ils utilisent et des requêtes qu’ils traitent. Comme le dit [Lef00] : "comprendre un texte, pour une machine, consiste à mettre en correspondance les informations sur les objets, les évènements, les faits décrits par ce texte, avec un modèle pré-établi, dont une représentation existe en machine. En fonction du degré de finesse du modèle, de la richesse des informations qu’il prend en compte, sa compréhension sera plus ou moins élaborée". Actuellement, les moteurs de recherche n’ont une compréhension que très partielle des informations qu’ils traitent.

Dans le chapitre précédent, nous avons présenté les mécanismes de RI ainsi que la manière dont les requêtes et les documents sont traités par les SRI, sans indiquer quels traitements de TAL étaient mis en jeu. Nous avons en particulier noté que les SRI considèrent généralement la requête et les documents comme un " sac de mots ", l’appariement se faisant sur la base du nombre d’éléments en commun entre la requête et le document. Les variantes des mots sont généralement prises en compte par des traitements assez systématiques et qui peuvent être considérés comme très pauvres

50 Les traitements linguistiques en RI

d’un point de vue de l’analyse du texte (comme la recherche de radicaux de Porter [Por80] par exemple). De plus, les mots sont considérés de façon isolée ce qui limite la " compréhension " du texte ( requête ou document).

Ainsi, les techniques de Traitement Automatique des Langues ( TAL) peuvent être considérées comme très utiles en RI, en particulier lors de l’ indexation des documents ou lors de la reformulation de requête. Le TAL est une branche pluridisciplinaire qui met en oeuvre des modèles et des outils informatiques pour traiter le langage humain dans toute sa complexité, en appliquant des traitements linguistiques sur les textes. Les travaux présentés dans [JM00] donnent une description assez complète du traitement automatique des langues.

Comme nous l’avons vu, certains traitements issus du TAL sont déjà utilisés en RI ; cependant, il s’agit généralement de traitements de bas niveau au point de vue linguistique. L’utilisation de traitements complexes, en particulier lors de l’ indexation n’a pas en effet montré sa supériorité, que ce soit sur de petits corpus ou dans les campagnes d’évaluation à grande échelle telles que TREC [SJ97].

Dans ce chapitre, nous nous focalisons sur les traitements linguistiques tels que uti- lisés en RI, dans le processus d’ indexation (section 2.2) et dans celui de reformulation de requêtes (section 2.3). Nous continuons ce chapitre en présentant des travaux qui utilisent les traitements linguistiques pour caractériser les informations (section 2.4). Cette dernière section justifie l’utilisation de caractéristiques linguistiques dans la re- présentation de requêtes dans le cadre de systèmes de RI adaptatifs (qui adapteraient les traitements effectués) à la requête, objectif à plus long terme auquel contribue cette thèse.