Fusion des Résultats de Multiples Requêtes

2. Présentation de Notre Travail

3.2. Fusion des Résultats de Multiples Requêtes

L’idée de base pour ce type de fusion est de combiner les résultats obtenus avec différentes expressions de requête. Nous présentons ici deux approches : la première combine les résultats de requêtes booléennes et vectorielles (paragraphe 3.2.1), tandis que l’autre combine les résultats des requêtes produites par l’application de différentes méthodes de bouclage de pertinence (paragraphe 3.2.2). Dans le paragraphe 3.2.3 nous discutons et comparaison les approches concernant la fusion de multiples expressions d’un besoin d’information d’une part et la fusion des résultats de multiples requêtes d’autre part.

1 « We do not yet understand the effect of individual searcher on performance, especially how it might affect the weight given to particular source of evidence. »

3.2.1. Fusion des Résultats des Requêtes Booléennes/P-norm et Vectorielle

Fox et Shaw dans [Fox 1994] ont proposé et expérimenté différentes fonctions pour combiner les résultats de plusieurs sortes de requête. Ils ont utilisé le système de recherche d’information SMART et les sous-collections de TREC. Les requêtes ont été créées automatiquement à partir des descriptions de thèmes fournies par NIST, où deux types de requêtes sont testés :

1. Un ensemble de requêtes booléennes étendues P-norm (extended boolean queries), où chaque requête est constituée des termes liés par des opérateurs AND et OR. Une pondération uniforme a été associée aux termes, c’est-à-dire que tous les termes avaient le même poids, ce poids a pris les valeurs de 1, 1.5 et 2. Donc l’ensemble a été interprété avec des poids différents (P-norm/P-valeurs 1, 1.5 et 2).

2. Deux ensembles de requêtes vectorielles ont été construits automatiquement à partir de descriptions de thèmes de TREC (TREC topic description). Le premier ensemble ne prend pas en compte la partie narrative des descriptions de sujet de recherche (il prend en compte les sections « Title », « Description », « Concepts »,… voir le Tableau 3.1) qui est appelé ensemble de vecteurs courts de requêtes (SV) (Short Vector), le second ensemble la prend en compte et est appelé ensemble de vecteurs longs de requêtes (LV) (Long Vector). 3.2.1.1. Fonctions de Combinaison

Fox et Shaw ont testé six fonctions de fusion résumées dans le Tableau 3.2. Ces fonctions sont les suivantes :

• CombMAX : considère la valeur maximale des valeurs de pertinence individuelles, afin de minimiser la probabilité qu’un document pertinent soit classé en queue de liste de résultats.

• CombMIN : contrairement à la fonction précédente celle-ci prend la valeur minimale des valeurs de pertinence individuelles, pour minimiser la probabilité qu’un document non pertinent soit classé en tête de liste.

• CombMED : cette fonction est une approche simple qui prend en compte les deux raisonnements des fonctions précédentes CombMAX et CombMIN puisqu’elle calcule la valeur moyenne des valeurs de pertinence individuelles.

• CombSUM : prend la somme des valeurs de pertinence individuelles, ce qui favorise les documents apparus dans plusieurs listes de résultats.

• CombANZ : ignore les résultats qui ne contiennent pas le document, donc elle calcule la valeur moyenne des valeurs de pertinence non-nulles.

• CombMNZ : favorise les documents retrouvés dans plusieurs listes de résultats en leur donnant des poids élevés ainsi : CombSUM * Nb des valeurs non- nulles.

Les deux premières fonctions appelées CombMAX et CombMIN sélectionnent une seule valeur de pertinence parmi plusieurs tandis que les quatre suivantes CombMED, CombSUM, CombANZ, et CombMNZ considèrent toutes les valeurs de pertinence au lieu d’une seule.

Fonctions Combinaison de Valeurs de Pertinence CombMAX MAX(pertinences individuelles)

CombMIN MIN(pertinences individuelles CombMED MED(pertinences individuelles) CombSUM SUM (pertinences individuelles) CombANZ CombSUM / Nb des valeurs non-nulles CombMNZ CombSUM * Nb des valeurs non-nulles

Tableau 3.2. Résumé des fonctions de combinaison.

3.2.1.2. Expérimentation et Résultat

Dans cette expérimentation, Fox et Shaw ont appliqué séparément les cinq groupes de requêtes (P-norm1, P-norm1.5, P-norm2, LV et SV), puis ils ont testé les fonctions de fusion mentionnées ci-dessus sur les résultats retournés où les valeurs de pertinence n’ont pas été normalisées. Les performances des différentes combinaisons ont été comparées avec la performance d’un seul groupe de requêtes et les résultats obtenus sont résumés dans les points suivants :

- La combinaison CombMAX et CombMIN donne quelquefois de meilleures performances que celles d’un seul groupe de requêtes. Mais, cela n’est pas vérifié dans tous les cas. - Les combinaisons CombANZ et CombMNZ ont toutes les deux amélioré les

performances, et la combinaison CombMNZ fournit parfois une performance légèrement meilleure que la combinaison CombANZ.

- La combinaison CombSUM réalise une performance significativement meilleure que le meilleur groupe de requêtes isolé, et de plus elle fournit une efficacité de recherche meilleure que CombMAX, CombMIN et CombANZ.

- CombMNZ est mieux que CombSUM parce qu’elle favorise les documents retrouvés par plusieurs groupes de requêtes.

3.2.2. Fusion des Résultats des Requêtes issues des Bouclages de Pertinence

Dans cette approche, on génère automatiquement de multiples expressions de la même requête de recherche d’information, en appliquant différentes méthodes de bouclage de pertinence. Puis on combine les résultats obtenus en appliquant ces différentes expressions.

Le processus de bouclage de pertinence est un processus automatique de reformulation de requêtes. Il consiste à choisir les termes importants dans les documents pertinents et à améliorer leur poids dans une nouvelle formulation de requête. De façon analogue, les termes inclus dans des documents non pertinents peuvent être éliminé dans la nouvelle formulation de requête. L’effet d’un tel processus est de « modifier » la requête dans la direction des documents pertinents et de l’éloigner de ceux qui ne sont pas pertinents.

Lee [Lee 1998] a étudié ce type de fusion en utilisant le système de recherche SMART et cinq différentes méthodes de bouclage de pertinence implantées par ce système. La collection de test était TREC D1&D2. 50 requêtes sur des thèmes de TREC 151-200 ont été utilisées. Le

processus général de la combinaison est illustré dans la Figure 1 de l’annexe A. La démarche adoptée par Lee a consisté à :

1. Construire un vecteur de requête initial pour un besoin donné d’information.

2. Exécuter la recherche initiale, et considérer que les 30 premiers documents retrouvés sont des documents pertinents.

3. Engendrer de façon complètement automatique de nouveaux vecteurs de requête par l’expansion du vecteur de requête initial avec différentes méthodes de bouclage de pertinence.

4. Normaliser les nouveaux vecteurs de requête avec la normalisation cosinus où chaque poids de terme est divisé par la norme euclidienne de la longueur de vecteur.

5. Exécuter la recherche avec les nouveaux vecteurs de requête.

6. Normaliser chaque valeur de pertinence perSys donnée par le système de recherche à un document pour une requête q dans les résultats de recherche :

perSysNorm = _perSysMax^perSys ⁻ −^perSysMin_perSysMin ^[3.1]

où perSysMin, perSysMax sont respectivement les valeurs de pertinence maximale et minimale données par le système à un document dans le résultat retrouvé pour q. Normalement perSysMin ≤ perSys ≤ perSysMax, puisque les valeurs perSysMin,

perSysMax varient dans chaque résultat alors la normalisation fait que 0 ≤perSysNorm ≤1.

7. Combiner les résultats rendus. Les résultats des travaux de [Fox 1994] et [Belkin 1993], cités plus haut, ont amené l’auteur à utiliser la fonction de somme pour combiner les résultats rendus par les différentes méthodes de bouclage de pertinences (feedback) :

CombSUM = perSys1 + perSys2 + …

L’auteur [Lee 1998] a expérimenté la combinaison des résultats de 2, 3, 4, et des 5 méthodes de bouclage de pertinence. Il constate que la performance augmente de façon monotone chaque fois qu’une autre méthode de bouclage de pertinence est prise en compte. Ainsi, cette étude montre que la combinaison des résultats des requêtes issues de différentes méthodes de bouclage de pertinence peut conduire à une amélioration substantielle de l’efficacité de recherche.

3.2.3. Discussion

Nous comparons les trois approches précédentes [Belkin 1993], [Fox 1994] et [Lee 1998] que nous venons de décrire ainsi :

- L’approche de [Belkin 1993] utilise le système de recherche INQUERY, les deux autres approches utilisent le système de recherche SMART, mais toutes les trois utilisent la précision moyenne pour mesurer la performance de recherche et la combinaison

- l’approche [Belkin 1993] fusionne plusieurs requêtes d’un besoin d’information, et la valeur de pertinence d’un document d est calculée ainsi : perSys(d) = cos(Σi qi, d)

sans normalisation pour [Fox 1994] : perSys(d) = Σi cos (qi, d)

ou avec normalisation pour [Lee 1998] : perSys(d) = Σi [cos (qi, d) normalisé]

Dans le document Recherche d'Information Collaborative (Page 66-70)