Fusion des Résultats issus de Plusieurs Collections

2. Présentation de Notre Travail

3.4. Fusion des Résultats issus de Plusieurs Collections

En général les systèmes de recherche d’information supposent que les documents sont dans une seule et monolithique collection, donc les documents retrouvés par une requête donnée sont ceux de la collection qui ont les meilleures valeurs de pertinence. Cependant, les documents intéressants peuvent être stockés dans plusieurs corpus. Par exemple, pour obtenir les meilleurs résultats d’une requête portant sur « les gens les mieux payés » on doit l’appliquer aussi bien sur des collections de « documents sportif » que sur des collections de « documents d’affaire ». Ainsi, des documents pertinents pour une recherche d’information peuvent être dans plusieurs collections. Il peut donc être intéressant, dans certains cas, d’interroger plusieurs corpus ; pour cela il faut déterminer le nombre de documents à récupérer dans chaque collection.

Nous rappelons brièvement (paragraphe 3.4.1) comment s’énonce le problème de la fusion sur des collections tel qu’il est formalisé dans les travaux de Towell [Towell 1995] et dans ceux de Voorhees [Voorhees 1994]. Puis, nous présentons les principales techniques de combinaison des résultats issus de multiples collections de recherche (paragraphe 3.4.2).

3.4.1. Problématique de la Fusion sur des Collections

La problématique de la fusion sur des collections est de déterminer le nombre de documents à récupérer dans chaque collection pour obtenir un meilleur résultat, c’est-à-dire déterminer l’impact et le critère de choix des collections, cette problématique est détaillée dans la suite.

Considérons plusieurs collections de documents 1, 2, …c. Quand une requête donnée q est appliquée, chaque collection i retourne une liste s de documents ordonnés selon leur similarité décroissante avec cette requête. Si on dénote par Fⁱq(s) la distribution des documents pertinents à travers l’ensemble s des documents retrouvés. La problématique de fusion sur des collections peut être maintenant formalisée de la façon suivante : trouver les valeurs λi (où λ1,

λ2, …, λc) c’est-à-dire trouver le nombre de documents pertinents λi qu’il faut prendre de la liste s des documents retrouvés par chaque collection i, de façon que :

∑

c i 1

∑

= c

i 1

|Fⁱq(λi)| est maximum, c’est-à-dire maximiser la distribution des documents pertinents à travers les N documents pris de toutes les collections.

Pratiquement, la fonction Fⁱq n’est pas connue, il faut donc en trouver une approximation.

3.4.2. Fusion sur des Collections

Nous présentons, d’abord, deux stratégies simples pour trouver une approximation de la fonction Fⁱq (paragraphe 3.4.2.1). Puis, nous présentons deux stratégies d’apprentissage pour la fusion sur des collections proposées et expérimentées par Towell [Towell 1995] et Voorhees [Voorhees 1994] ; les deux stratégies déterminent le nombre optimum des documents à retrouver dans chaque collection (paragraphe 3.4.2.2).

3.4.2.1. Deux Stratégies Naïves de Détermination de la Distribution On peut distinguer les deux stratégies suivantes :

• La stratégie uniforme qui est basée sur l’hypothèse que toutes les collections ont le même nombre de documents pertinents et qu’elles ont des distributions identiques de documents pertinents pour chaque requête possible.

A partir de cette hypothèse, la récupération d’un nombre égal de documents issu de chaque collection maximise en moyenne le nombre total de documents pertinents :

λ1 = λ2 =… = λc ⇒ ∑

i 1 |Fⁱq(λi)| est maximal

Dans la pratique, cela est une approche médiocre parce que les différentes collections ont des spécialités différentes et donc, n’ont pas le même nombre de documents pertinents pour une même requête. Un test de l’efficacité de cette stratégie montre qu’elle diminue la performance de 40% relativement à une recherche qui opèrerait sur une seule collection adaptée.

• La stratégie de fusion d’ordonnancement (merge-sort) qui suppose que les valeurs de pertinence données à un document pour une requête au travers des différentes collections sont comparables. Donc, elle fixe des niveaux (seuil-limite) des valeurs de pertinence, tels que les N documents avec les valeurs de pertinence les plus grandes à travers toutes les collections soient sélectionnés.

Cette approche est valable si les mesures de pertinence sont vraiment comparables. Cependant, ces mesures dépendent de la fréquence des termes dans un document, donc chaque collection a des distribution des mots différentes selon leurs fréquences dans les documents de la collection, ce qui invalide cette hypothèse.

Dans la suite, nous présentons les stratégies d’apprentissage, qui tentent de remédier aux inconvénients de ces deux stratégies.

3.4.2.2. Stratégies d’Apprentissage

Le principe de ces stratégies consiste à employer au départ des requêtes pour l’apprentissage, puis d’utiliser ce qu’on a appris via ces requêtes pour la fusion appliquée à chaque nouvelle requête q. Ces stratégies ont utilisé le système SMART (le modèle vectoriel) pour la recherche sur différentes sous-collections de la collection TREC. Nous présentons une illustration de ces stratégies dans la Figure 2 et la Figure 3 de l’annexe A.

• La stratégie de modélisation de distribution des documents pertinents (MRDD Modeling Relevant Document Distributions) : qui prédit le nombre de documents pertinents λi à récupérer de chaque collection pour une nouvelle requête q en utilisant la stratégie suivante. On utilise les k requêtes⁶ les plus semblables à q (la similarité de deux requêtes est déterminée comme le cosinus de l’angle formé par leur vecteur), afin de déterminer la distribution moyenne Fⁱq des documents pertinents pour chaque collection. Puis, on calcule les valeurs λi pour chaque collection qui maximisent le nombre de documents pertinents retrouvés. Après avoir déterminé les valeurs λi, les λi documents de chaque collection sont unies de façon aléatoire. Mais, les collections ayant la plus grande valeur de λi sont favorisées.

• La stratégie de groupement de requêtes (QC Query Clustering). Cette approche ne modélise pas explicitement la distribution des documents pertinents d’une collection. Elle essaie de mesurer la qualité de recherche pour un domaine de thème particulier à la collection. Les domaines de thème sont représentés comme des centroïdes des groupes de requêtes. Cette stratégie commence par une phase d’apprentissage qui consiste à :

1. Grouper pour chaque collection des ensembles des requêtes similaires. Le nombre de documents communs retrouvés par deux requêtes est utilisé ici comme mesure de similarité.

2. Déterminer le centroïde de chaque groupe de requêtes. Le centroïde est le vecteur moyen des vecteurs associés aux requêtes contenues dans le groupe.

3. Assigner à chaque groupe un poids qui reflète l’efficacité des requêtes dans le groupe. Ce poids est le nombre moyen de documents pertinents retrouvés parmi les L premiers documents retournés par chacune des requêtes du groupe.

Pour une nouvelle requête q, on choisit dans chaque collection le centroïde le plus similaire au vecteur de la requête q et on retourne aussi le poids qui lui est associé. L’ensemble des poids wi rendus par toutes les collections est employé pour répartir l’ensemble total de documents N pris de toutes les collections ainsi : λi =

∑ = c i ⁱ i w w 1 * N

Les résultats importants de l’évaluation de la précision des résultats des deux méthodes d’apprentissage décrites précédemment portent sur les deux points :

- Chacune des stratégies d’apprentissage est toujours significativement meilleure que la « stratégie uniforme ».

- Les deux stratégies d’apprentissage MRDD et QC sont bonnes pour la fusion sur des collections d’ailleurs leur précision est près de celle d’une « seule collection » (comme si l’on pouvait fusionner toutes les sous-collections en une seule, et monolithique collection et calculer la précision de cette seule collection). Elles diffèrent dans leurs conditions de mémoire, vitesse, et leur capacité de résoudre le problème. La stratégie MRDD est meilleur que la stratégie QC, mais elle demande plus de mémoire et elle est moins rapide.

Dans le document Recherche d'Information Collaborative (Page 77-80)