La fusion de collections - Fusion de systèmes et analyse des caractéristiques linguistiques des

Comme nous l’avons précisé en introduction de ce chapitre, la fusion de collections en RI s’intéresse au regroupement de plusieurs sous-listes de documents dans une seule liste qui sera restituée à l’utilisateur. La difficulté de la fusion de collections réside dans la détermination du nombre de documents dans chaque sous-liste afin de maximiser le nombre de documents pertinents qui seront restitués à l’utilisateur, ainsi que dans le classement des documents dans la liste finale. Dans [TVGJL95], les auteurs proposent 3 méthodes de fusion de collection, et montrent que leur méthode permet d’obtenir une augmentation de la précision de 10% comparée à la précision obtenue lorsque l’ensemble des collections est traité comme une collection unique.

La fusion de collection peut être formalisée par la définition suivante : – Soit Q une requête,

– L_i la sous-liste restituée lorsque la collection C_i est utilisée, – N le nombre total de documents à retrouver.

L’objectif de la fusion de collection est de déterminer les valeurs v₁, v₂, ..., v_C avec C correspondant au nombre de collections utilisées, telles que :

( PC i=1vi = N PC i=1|F Li Q (vi)| est maximum . (3.1)

Dans l’équation 3.1, le nombre de documents pertinents restitués doit être maximisé. En pratique, la fonction FLi

Q (vi) qui correspond à la distribution des documents per-

tinents dans la liste restituée (c’est à dire les rangs auxquels les documents pertinents sont situés), n’est pas connue et doit être approximée.

Deux approches simples peuvent être envisagées pour déterminer le nombre de documents à choisir dans chaque sous liste.

Méthode 1 La première méthode consiste à considérer que les sous-listes contiennent la même distribution de documents pertinents. Dans cette hypothèse, choisir le même nombre de documents dans chaque sous-liste permet de maximiser le nombre de documents pertinents qui sont restitués à l’utilisateur. Le nombre de documents à choisir dans chaque sous-liste est déterminé par l’équation 3.2 :

vi=

N |Li|

64 La fusion en RI

Dans l’équation 3.2, la somme du nombre de documents retenu pour chaque sous liste (vi) est égale au nombre de documents à restituer (N). |Li| représente le nombre

de documents à sélectionner dans la sous-liste Li. Cette méthode n’est pas toujours

satisfaisante car les différentes collections peuvent posséder des spécificités différentes, donc avoir une distribution différente des documents pertinents.

Méthode 2 La deuxième méthode propose de sélectionner les N documents qui ont obtenu les plus grands scores de similarité dans les différentes sous-listes. Cette méthode est toutefois limitée, car elle est basée sur les scores des documents des sous-listes. Ces scores peuvent être différents en fonction des systèmes utilisés pour la recherche (différence d’échelle, unité de grandeur, etc.).

Plusieurs approches de la fusion de collections ont été proposées dans la littérature. Parmi elles, les travaux présentés dans [VGJL95] s’intéressent d’une part à la détermi- nation du nombre de documents à sélectionner dans les sous-listes, et d’autre part à la fusion de ces sous-listes. Les collections utilisées dans [VGJL95] proviennent de TREC et le système SMART [Buc85] a été utilisé.

Dans ces travaux, le nombre de documents à sélectionner (niveau de coupe) dans chaque sous-liste est déterminé à partir de la distribution des documents pertinents (RDD), obtenue pour une requête et une collection donnée. Le nombre de documents est choisi en fonction des niveaux de coupe, en calculant un score pour chaque document. Par exemple, on suppose que la valeur de N est égale à 10, et que 3 collections (A, B, et C) sont utilisées pour la recherche. On suppose aussi connu les niveaux de coupe pour les 3 sous-listes provenant des collections A, B, et C, soit N₁=3, N₂=2, et N₃=5. Soit Dij un document situé au rang j dans la sous-liste i. Grâce aux différents niveaux

de coupe et à la valeur de N, on associe au document D11 un score égal à 3/10 (le

numérateur correspond au niveau de coupe, et le dénominateur à la valeur de N). On obtient respectivement un score de 1/5 pour D21, et un score de 1/2 pour D31. En

se basant sur ce premier calcul, le document D31 est sélectionné en première position.

Il reste alors 9 documents à sélectionner dans les 3 sous-listes. Le calcul précédent est répété et les scores des documents sont recalculés. Ainsi, le prochain document sélectionné au rang 2 est D32 (avec un score de 5/9). Ce processus est répété jusqu’à ce

que les 10 documents soient sélectionnés.

La deuxième méthode proposée dans [VGJL95] utilise une technique de classification pour regrouper les requêtes, afin de réaliser la fusion des sous-listes. La classification des requêtes se déroule en deux étapes. Dans la première phase, les requêtes sont regroupées en fonction du nombre de documents retrouvés en commun en réponse à deux requêtes. L’hypothèse est que si pour deux requêtes un grand nombre de documents identiques est restitué, alors les deux requêtes sont similaires. Un représentant de chaque classe de requêtes ou centroïde, est calculé après les regroupements. Ce centroïde est obtenu en faisant la moyenne des vecteurs requêtes de chaque classe. La méthode de classification utilise un ensemble de requêtes d’entraînement, et une liste de documents pertinents pour chaque requête d’entraînement. Dans la deuxième phase, chaque requête de test est comparée aux centroïdes des classes de requêtes afin de déterminer la classe à laquelle

La fusion de données 65

elle sera affectée. Un poids est attribué à chaque classe de requête et chaque collection. Ce poids correspond au nombre moyen de documents pertinents (parmi les k premiers documents, k étant un paramètre fixé au départ de la méthode), restitués en réponse aux requêtes de la classe, et provenant de la collection analysée. Ainsi, pour une classe de requêtes donnée, un ensemble de poids est calculé pour chaque collection utilisée.

Suite aux travaux de Voorhees [TVGJL95], Yager et ses collègues [YR98] proposent en 1998 plusieurs approches pour fusionner les listes de documents et utilisent un para- mètre permettant de préciser la manière dont les documents sont sélectionnés dans la liste finale. Ce facteur est combiné à la sélection des documents dans les plus grandes collections (nombre de documents) et permet d’avoir de meilleurs résultats que ceux de [VGJL95].

Baumgarten et ses collègues [Bau97] ont aussi traité le problème de la fusion de collection, mais lorsque les collections de documents sont classées. Ils proposent une approche théorique basée sur un calcul de probabilité pour réaliser la fusion.

Dans [CLC95], les auteurs appliquent une technique de combinaison linéaire des scores afin de fusionner les sous-listes intermédiaires. Dans leur approche, l’ensemble des collections est considéré comme un document et ils utilisent le système INQUERY pour sélectionner les collections à utiliser pour la requête en cours. Les collections sont sélectionnées en fonction du nombre de documents pertinents (connus a priori ) qu’elles contiennent. Les résultats qu’ils obtiennent ne montrent pas une amélioration sensible des performances.

La fusion de collections trouve dans le Web une application directe, où les sources d’information sont distribuées et sont exploitées par des méta-moteurs de recherche. Dans le cadre de nos travaux, une seule collection de documents est accessible par différents systèmes. Nous nous situons alors dans le cadre de la fusion de données que nous présentons dans la section suivante.

Dans le document Fusion de systèmes et analyse des caractéristiques linguistiques des requêtes : vers un processus de RI adaptatif (Page 65-67)