• Aucun résultat trouvé

Chapitre 1 : Les Systèmes de Recherche d’Information

6. Reformulation de la requête

La recherche d’information est un processus qui se base essentiellement sur la requête exprimée par l’utilisateur pour répondre à ses besoins. Quel que soit le système de recherche utilisé, le résultat d’une recherche ne peut être intéressant si la requête ne décrit pas explicitement et clairement les besoins de l’utilisateur. En général, l’utilisateur se contente de donner quelques mots-clés. Ces derniers sont issus d’une connaissance générale sur un domaine donné. Par conséquent, les documents renvoyés par le système de recherche peuvent appartenir à des domaines et disciplines différents par lesquels l’utilisateur n’est pas concerné. La reformulation de requêtes est une phase importante du processus de recherche d’information. Elle consiste de manière générale à enrichir la requête de l’utilisateur en ajoutant des termes permettant de mieux exprimer son besoin [Efthimiadis, 2000]. En effet, les techniques de reformulation consistent à modifier les requêtes pour ressembler davantage aux documents jugés pertinents et s’éloigner des documents non pertinents. Plus la distance entre la requête initiale et la requête reformulée est grande, plus il y a de nouveau documents qui vont apparaître comme résultat de la nouvelle recherche. Ces techniques peuvent être assistées par l’utilisateur (interactives), comme elles peuvent être menées d’une manière automatique.

La première technique est la plus répandue en RI. Il s’agit de la reformulation par réinjection (rétroaction) de la pertinence, appelée aussi Relevance Feedback (RF). Elle consiste à extraire à partir des documents jugés pertinents par l’utilisateur les mots-clés les plus expressifs, et à les ajouter à la requête [Rocchio, 1971] [Robertson et Sparck-Jones, 1976]. Dans la deuxième technique, il s’agit de l’expansion de requête.

6.1 Rétroaction de pertinence (Relevance Feedback)

Le RF (Relevance Feedback) ou technique de modification des requêtes par analyse et incorporation des retours, est un processus de reformulation automatique de requêtes dont le but est de générer des requêtes optimales proches des besoins des utilisateurs. Cette reformulation qui se fait par interaction entre l'utilisateur et le système consiste en générale à modifier la pondération des termes de la requête initiale ou à leur substituer d'autres termes choisis pour leur caractère, notamment associatif, générique ou spécifique. Ces opérations de reformulation s'effectuent sur la base des indices fournis par l'utilisateur à travers, d'une part, la requête initiale et, d'autre part, les documents pertinents et non pertinents sélectionnés. Ce processus de recherche, de sélection de documents pertinents et non pertinents puis de génération automatique de requête se fait de façon itérative jusqu'à l'atteinte des objectifs à la satisfaction de l'utilisateur.

En fait, cette technique a pour but de simplifier la tâche de l’utilisateur qui n’a pas à déterminer dans les documents pertinents les termes importants, avant d’effectuer une nouvelle requête.

[Yuwono et al., 1997] distinguent deux techniques principales du RF : la technique semi-automatique basée sur le modèle de Rocchio et la technique semi-automatique.

6.1.1 La technique du RF semi-automatique

Cette technique nécessite l'intervention de l'utilisateur qui doit identifier et sélectionner les documents pertinents et les documents non pertinents. Les travaux sur cette technique ont été menés par Rocchio à la fin des années 1970. Ces travaux ont été publiés en 1971 [Rocchio, 1971] et ont été suivis de ceux de Ide [Ide, 1971]. Plus tard, les travaux sur le RF semi-automatique ont été enrichis par l'apport de la méthode probabiliste. Cette approche a été implémentée par Harper, Hamian, Croft, Spark Jones et Van Rijisbergen [Yuwono et al., 1997].

Notons que la fonction de Rocchio dérive de l’hypothèse qu’une requête idéale Qnew doit maximiser la différence de sa distance Cosinus moyenne de ses documents pertinents et de sa distance Cosinus moyenne de ses documents non pertinents (la distance cosinus sera présentée dans le modèle vectoriel du chapitre suivant). Le système effectue la reformulation selon l’équation suivante :

   nonreldocs t reldocs t old new i i w nonreldocs w reldocs Q Q   11 (1.7)

permet de moduler l’importance de la requête précédente Qold.

permet de moduler le vecteur profil moyen des documents choisis.

permet de moduler le vecteur profil des documents rejetés.

, et représentent des paramètres positifs. Leurs valeurs sont à fixer dans l’intervalle [0, 1]. |reldocs| représente le cardinal de l’ensemble des documents pertinents.

Le paramètre n’était pas initialement pris en compte dans la formule de Rocchio. Salton, l’a introduit ultérieurement et c’est la forme générale définie qui est souvent considérée.

6.1.2 La technique de RF automatique

Selon [Aliane et al., 2004], lorsque le feedback de pertinence s’accompagne d’une adjonction (et/ou) suppression de termes, il s’agit de la reformulation automatique. La requête de

l’utilisateur est remaniée automatiquement, pour intégrer les descripteurs des documents jugés pertinents ou rejetés.

En fait, il existe différentes variantes de cette technique : celles qui sont utilisées automatiquement pour reformuler la requête en augmentant le poids des termes présents dans les documents jugés pertinents et inversement pour diminuer les poids des termes jugés non pertinents.

Le problème avec la reformulation automatique est l’estimation des « bons » termes qui peuvent conduire effectivement à une amélioration du processus de recherche car l’introduction des termes inappropriés peut entraîner un silence ou au contraire augmenter un

bruit.

Selon [Yuwono et al., 1997], dans les environnements où la technique du RF automatique est implémentée, un nombre prédéfini de documents extraits par la requête initiale sont réputés pertinents. Les procédures et formules utilisées dans l'approche du RF automatique sont des variantes des formules Rocchio et Ide qui permettent de faire abstraction des documents non pertinents.

En effet, le modèle de Ide [Ide, 1971] est une variante du modèle de Rocchio. Du modèle de Rocchio elle déduit la formule suivante qui lui sert de base dans ses travaux :

    min( , ') 1 ) ' , min( 1 0 1 s b p a n n i i n n i i i i Q Q p NP Q     (1.8) Où (n'p + n's) = N le nombre de document extraits et servant au processus du "feedback". Les variables expérimentales étant : a, ω, μ, π, na, nb et N.

Le paramètre α est positif et permet de pondérer tous les documents jugés pertinents par rapport à tous les éléments contribuant à la formation de ta requête (requête précédente Qi, requête initiale Q0 et documents non pertinents).

Le paramètre π permet d'augmenter la pondération de la requête précédente en fonction des documents du feedback. Q0 est la requête initiale, Qi est la requête de la précédente itération, ω permet d'utiliser la requête initiale comme partie intégrante de la nouvelle requête, μ doit être théoriquement négatif pour tenir compte des documents non pertinents extraits. Les paramètres na, nb permettent d'utiliser un nombre spécifique de documents pertinents et non

pertinents dans la requête même quand les valeurs des paramètres na, nb sont plus grands

(utilisation de la fonction min()).

La flexibilité de cette formule a permis à Ide non seulement de confirmer les résultats positifs obtenus par Rocchio, mais aussi d'étudier trois variantes de ce modèle [Ide, 1971]:

 Modèle basé sur l'utilisation exclusive de documents pertinents ;

Modèle basé sur le nombre de documents N à extraire et à réintégrer dans le système à chaque itération du RF.

 Modèle basé sur l'intégration d'un ou de deux documents non pertinents aux documents pertinents et à la requête initiale.

6.2 Expansion de requêtes

Une expansion de requête peut être vue comme un traitement pour "élargir" le champ de recherche pour cette requête. Une requête étendue va contenir plus de termes reliés. En utilisant le modèle vectoriel, par exemple, plus de documents seront repérés. Ainsi, ce traitement est souvent vu comme un moyen d'augmenter le taux de rappel. Cependant, nous savons qu’il n’a pas de sens de parler du rappel sans considérer en même temps la précision. Ainsi, cette affirmation que l'expansion de requête va conduire à un meilleur rappel n'est pas tout à fait juste. Il faut plutôt dire que, en sélectionnant les documents selon un seuil de similarité entre un document et une requête, nous avons la chance de sélectionner plus de documents pertinents avec une requête étendue.

L'utilité de l'expansion de requête dépend fortement de deux facteurs: 1. Quels mots doit-on utiliser pour étendre la requête?

2. Comment les nouveaux mots doivent-ils être ajoutés dans la requête?

Les mots utilisés pour faire l'expansion de requête doivent être fortement reliés à la requête. Typiquement, on utilise un dictionnaire de synonyme, ou un thésaurus. Les mots reliés avec des mots de la requête par certains types de relation (e.g. IS_A) sont choisis pour étendre la requête.

Il y a aussi des études qui essaient de trouver automatiquement les mots fortement reliés. La plupart de ces approches exploitent les co-occurrences: Plus deux mots co-occurent dans des textes, plus on suppose qu'ils sont fortement reliés. Une fois ces relations statistiques choisies, on peut les utiliser dans un processus d'expansion de requête.

Il est aussi suggéré que le processus d'expansion soit interactif : L'usager peut filtrer les mots proposés par le système. Cette approche est utilisée dans certains systèmes, par exemple, Medline qui intègre un thésaurus du domaine médical [Joubert et al., 1991].

6.3 Les problèmes posés par la reformulation de la requête

La rétroaction de pertinence est d’un emploi souvent lourd pour l’utilisateur qui doit interagir avec la système, tandis que les termes ajoutés lors d’une expansion automatique ne sont pas toujours appropriés et peuvent par conséquent engendrer du bruit puisqu’il est possible d’introduire dans la requête des termes qui n’ont pas de rapport avec le besoin de l’utilisateur. D’autre part les termes de la requête sont généralement considérés de manière isolée dans l’expansion de la requête.

En cas de courtes requêtes, l’expansion de requêtes peut ne pas être efficace car l’ambiguïté eventuelle de la requête risque d’être prolongée dans l’expansion. Ce problème est résolu par la combinaison d’un filtrage et d’une expansion nommée le « Query By Example ».

La plupart d'approches d'expansion considèrent chaque mot de la requête isolé. [Qiu et Frei, 1993] pensent qu'il vaut mieux choisir des mots qui sont reliés à la requête qu'aux mots individuels de la requête. Autrement dit, ils calculent la relation entre un mot et la requête dans son ensemble, et choisissent d’utiliser les mots les plus fortement reliés. Ils montrent que cette approche est meilleure que celle de l’expansion de mots.

D’autre part, il est possible qu’un document ne concernant qu’un seul terme de la requête soit mieux classé qu’un autre document concernant tous les termes de la requête : le premier contient plusieurs représentation du même terme. Dans ce cadre [Salton et McGill, 1983] ont introduit les deux notions d’exhaustivité (exh) et de spécificité (spec). L’exhaustivité détermine si tous les aspects de la requête ont été abordés dans le document. Quant à la

spécificité, elle détermine si tout le contenu du document D traite du thème de la requête Q. En fait, ces deux mesures peuvent être calculées de plusieurs façons, parmi les quelles citons :

j j j j j q q d Q D exh( , ) et

j j j j j d q d Q D spec( , ) (1.9) ou encore :

j j j j j q q d Q D exh( , ) et

j j j j j d q d Q D spec( , ) (1.10) Avec : D = (d1, d2, …, dn) vecteur des poids associés aux termes descripteurs dans le document D.

Q = (q1, q2, …, qn) vecteur des poids associés aux termes descripteurs dans la requête Q.

Notons que la reformulation de la requête ne permet d’améliorer la recherche que relativement aux résultats obtenus à partir de la requête initiale. Ces améliorations de requêtes sont variables d’une base documentaire à une autre et peuvent dépendre, d’une part du nombre de termes ajoutés et de leur sélection et d’autre part de la manière avec laquelle ils sont ajoutés.