Autres approches de reformulation de requêtes

Chapitre 2 : Les modèles de la Recherche d’Information

5. Reformulation de requête dans ces modèles

5.4 Autres approches de reformulation de requêtes

Plusieurs méthodes de relevance feedback (RF) ont été incorporées dans SMART par [Salton et al., 1983b] [Salton et Buckley, 1990], à savoir la version de la formule de Rocchio et des extensions de celle-ci en ce qui concerne le fragment qui fait intervenir le feedback négatif. Par ailleurs, plusieurs travaux de recherche ont prouvé que le RF améliorait les résultats de la recherche selon les deux critères d’évaluation souvent utilisés dans les SRI à savoir les taux de rappel et de précision ; quoi que le feedback négatif, c’est-à-dire la mention des documents non pertinents, ne donne pas de résultats aussi satisfaisants que le feedback positif.

D’après [Harman, 1988], les techniques de reformulation de requêtes sont moins coûteuses quand il s’agit de guider l’utilisateur que quand il s’agit de procéder automatiquement. Dans ces perspectives, l’auteur propose de guider l’utilisateur désirant améliorer sa requête, dans le cadre d’une recherche en ligne, en lui fournissant une liste de mots qui correspondent aux voisins proches et aux différentes variantes des termes de la requête initiale. Le nombre de termes à ajouter et le nombre d’itérations à effectuer sont des paramètres à fixer automatiquement. Les expérimentations ont été menées en utilisant la collection Cranfield. Le même auteur [Harman et al., 1992] propose d’ajouter des descripteurs pertinents à la requête à partir des documents pertinents et de réduire le poids des termes non pertinents à partir des documents non pertinents. En fait, l’auteur affirme que si la pertinence (utilisateur) est affectée aux documents non pertinents (système), alors la requête transformée tend vers la généralisation. Par contre, si la pertinence (utilisateur) est affectée aux documents jugés pertinents (système), alors la requête transformée permet d’augmenter la recherche dans une direction.

De leur part, [Buckley et Salton, 1995] ont proposé une démarche qui se base sur la formule de Rocchio et sur l’amélioration dynamique des poids en testant leur changement possible sur le resultat de la recherche. Le processus est répété pour chaque terme dont le poids a été modifié et ce pour tester s’il y a effectivement une amélioration du résultat après changement. Selon Salton, les requêtes optimisées permettent d’obtenir un résultat meilleur (10-15%) par rapport aux requêtes initiales.

Le problème posé est celui de l’incohérence de comportement du feedback négatif vis-à-vis du feedback positif, ainsi que celui des mauvais résultats généraux. Dans ces perspectives, [Lamirel, 1995] a proposé une solution utilisant la transformée orthogonale afin de résoudre le problème de feedback négatif. En fait, cette solution consiste à redéfinir globalement les équations vectorielles du RF. L’auteur propose de considérer des informations nouvelles par rapport aux documents rejetés (jugés non pertinents). Ces informations correspondent à la partie complémentaire par rapport à celle contenue dans les documents rejetés. La reformulation négative vectorielle d’une requête consiste alors à approcher celle-ci d’une direction complémentaire à la direction des rejets plutôt que de l’éloigner de la direction des rejets elle-même, qui est le cas du feedback négatif usuel.

Pour sa part, [Lee, 1998] propose de combiner plusieurs méthodes pour le RF. En effet, l’auteur a proposé de fusionner les différents résultats, provenant de plusieurs requêtes reformulées, pour améliorer le degré de pertinence [Porter, 1982][Smeaton, 1983][Belkin et

al., 1993] [Fox et Shaw, 1994]. Les méthodes dont Lee a proposé de fusionner se basent sur des formules dérivées du modèle probabiliste en plus de celle de Rocchio, comme suit :

- La formule de [Ide, 1971] qui est dérivée de celle de Rocchio mais en éliminant les facteurs normalisation exprimés respectivement par les nombres de documents pertinents et non pertinents tout en limitant le nombre de documents non pertinents :

= +

∑

− reldocs nonreldocs t old new T w Q Q i γ β α. . (2.45) Tnonreldocscorrespond au vecteur des documents qui sont classés les plus moins pertinents.

- La formule Pr_cl [Croft, 1979] liée au modèle probabiliste est déjà donnée par l’équation (2.42).

- La formule Pr_adj [Roberston, 1986] qui correspond à une version modifiée de la formule Pr_cl : ) 1 ( ) 1 ( log i i i i i p q q p w − − = , avec 1 / + + = R N n r p i i i et 1 / + − + − = R N N n r n q i i i i (2.46)

- La formule S_rpi [Fuhr et Buckley, 1991] qui correspond aussi à une version modifiée de la formule Pr_cl : ) 1 ( ) 1 ( log i i i i i p q q p w − − = , avec =

∑

reldocs t i reldocs w p i et

∑

= nonreldocs t i nonreldocs w q i (2.47)

Sur un extrait de la collection TREC, [Lee, 1998] a montré que la requête reformulée à partir de la formule initiale de Rocchio est la plus proche de la requête originelle que toutes les autres. Il a montré également que les différentes requêtes étendues donnent des résultats différents et qu’une amélioration peut être apportée au résultat de la recherche, si les résultats respectifs sont combinés.

6. Conclusion

Les modèles présentés dans ce chapitre ont considéré le corpus de documents comme une composante statique, ce qui est loin d’être le cas. De sa part, l’utilisateur a été considéré aussi comme un acteur passif ou partiellement actif, en exploitant son évolution pour opérer une reformulation de la requête, dans le processus de recherche. Afin d’améliorer leurs performances, ces modèles ont été explorés en les combinant avec d’autres moèles, qui prennent en considération le caractère interactif entre le système et l’utilisateur et la nature évolutive de la collection.

En fait, l’idée consiste à combiner plusieurs méthodes de représentation à la fois des requêtes et des documents pour la Recherche d’Information. Cette combinaison permet d’améliorer le degré de pertinence des documents retrouvés. Il s’agit également de combiner les différentes stratégies de recherche et d’explorer plusieurs méthodes de relevance feedback.

D’autre part, pour tenir compte des liens sémantiques entre les termes, une extension du modèle probabiliste a été proposée en utilisant les réseaux Bayésiens, d’autres modèles utilisent les réseaux possibilistes. Ces deux modèles de RI seront détaillés et comparés dans le chapitre suivant.

Chapitre 3

Modèle Bayésien versus Modèle Possibiste de Recherche

d’Information

Avec la croissance de la taille des bases de données de nos jours est née la nécessité d'automatiser le traitement de cette grande masse de données, automatiser le raisonnement et la prise de décision. Il serait donc intéressant d'avoir un ou plusieurs systèmes permettant de faire le lien entre les observations et la réalité pour un objectif précis (aide à la prise de décision), et cela, même lorsque les observations sont incomplètes et/ou imprécises. Les réseaux bayésiens (RB) apportent des solutions efficaces à ces insuffisances par leurs représentations graphiques compactes des problèmes réels complexes et leur rapidité en temps de calcul. En effet, l'utilisation des réseaux bayésiens (RB) en RI est apparue dans les années 1980 [Frisse, 1988][Frisse et Cousins, 1989] mais elle s’est largement développée par les travaux de Turtle [Turtle et Croft, 1990][Turtle et Croft, 1991] suivis d’autres [Ribeiro-Neto et al., 1996][Silva et al., 2000][De Campos et al., 2002][Calado et al., 2003].

Néanmoins, ce formalisme a ses limites. En effet, il modélise l’univers de manière causale et ne permet pas la modélisation de relations d’interdépendances, alors que le besoin de telles relations s’en fait souvent ressentir. De plus la complexité de la modélisation et des calculs augmente de manière exponentielle par rapport à la taille de l’univers.

Le modèle possibiliste quantitatif de RI, proposé par [Brini et al., 2004abc], tente de répondre en partie à ces limites. Tout d’abord, la pertinence est interprétée dans un cadre possibiliste. Ce cadre est plus à même de prendre en compte l’ignorance partielle qui peut affecter les informations utilisées dans les différents calculs. En fait, le modèle sépare les raisons de sélectionner un document pertinent de celles de le rejeter, en utilisant deux mesures : la nécessité et la possibilité. Les documents nécessairement pertinents sont ceux qui doivent figurer en haut de la liste des documents restitués et doivent permettre une certaine efficacité du système. Les documents possiblement pertinents sont ceux qui répondraient éventuellement à la requête utilisateur. Ils figurent dans la liste des documents restitués classés à la suite des documents nécessairement pertinents ou à défaut (si le système n’en trouve pas) ils sont considérés comme une réponse plausible.

Afin de permettre cette interprétation de la pertinence, la pondération des termes dans les documents doit être également réinterprétée. Il a été montré dans [Bookstein et Swanson, 1974] [Harter, 1975] que tous les termes d’indexation ne se comportent pas de la même manière dans une collection de documents. Harter fait une distinction entre les mots informatifs appelés aussi mots « spécialisés », qui se focalisent sur un type de documents et les mots non informatifs, non spécialisés qui sont distribués de manière normale sur l’ensemble des documents de la collection. Ceci va dans le sens de l’interprétation de la pertinence ; en effet les termes des documents jouent des rôles différents. Dans un document, il existe des termes fréquents importants (informatifs), nécessaires dans la représentation du document, donc nécessaires, pour décider de la pertinence de ce document vis-à-vis de la requête, et d’autres termes moins informatifs, qui ne sont que possiblement intéressants pour représenter le contenu du document.

La logique possibiliste offre un bon cadre pour représenter ces deux notions. En effet, le modèle possibiliste affecte à chaque terme d’indexation deux valeurs qui traduisent respectivement la certitude et la possibilité qu’un terme d’indexation soit ”bon”. Le dernier avantage (spécificité) de ce modèle réside dans sa prise en compte explicite de l’absence des termes de la requête dans le document lors de l’évaluation de la pertinence de ce document vis-à-vis de la requête.

Notre apport consiste à proposer une extension de ce modèle pour permettre une transition de l’approche quantitative (numérique) à une nouvelle approche qualitative (ordinale) pour un modèle possibiliste de Recherche d’Information. Cette extension sera détaillée dans le chapitre 4 de cette thèse.

Nous commençons, dans la première section, par introduire la notion des réseaux bayésiens (RB) ainsi que leur principe de raisonnement. Dans la deuxième section nous mettrons l'accent en particulier sur le modèle de RI basé sur les réseaux Bayésiens. La reformulation de requêtes dans les modèles de RI basé sur les RB fera l’objet d’une quatrième section. Nous decrivons ensuite, dans une cinquième section, le cadre théorique sur lequel repose l’approche possibiliste, à savoir les Réseaux Possibilistes (RP). La sixième section présente le modèle possibiliste quantitatif de RI. La reformulation de requêtes dans les modèles de RI basé sur les RP fera l’objet d’une septième section. La dernière section expose un bilan comparatif résumant les différences entre ces deux modèles de RI.

Dans le document SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web (Page 61-64)