Analyse locale des résultats - Résultats préliminaires avec MaxProb

6.3 Exemple de fonctionnement des algorithmes MaxProb et MaxProbSeg

6.4.1 Résultats préliminaires avec MaxProb

6.4.1.1 Analyse locale des résultats

Nous avons mené une série d’expérimentations pour évaluer les méthodes que nous proposons. Lors des 10 itérations successives que nous avons effectuées (phase d’apprentissage + phase de test), les résultats que nous avons obtenus lors de la phase d’apprentissage ont permis de déterminer les probabilités de pertinence pour chacun des segments des listes restituées par les systèmes. La taille des segments a été fixée à

160 Méthode adaptative en fonction du contexte linguistique de la requête

25 dans nos expérimentations comme préconisé dans la littérature ( [LTP+06]), c’est à dire que nous considérons que chaque segment contient 25 documents. Dans le tableau 6.5, nous donnons un exemple de résultat issu de la première itération avec TREC3. Ces résultats correspondent à l’utilisation des requêtes de test affectées à la classe 1. Nous présentons dans ce tableau les résultats obtenus avec MaxProb pour chaque requête de test. Nous comparons les résultats de MaxProb et ceux du meilleur système que nous avons associé à la classe 1 de requêtes (cf. chapitre 4, section 4.4.3). Nous appelons ce système Best_Cl1.

requêtes Mesures MaxProb Best_Cl1

Req161 (305) Nb-Pert 232 280 map 0,3776 0,5921 R-prec 0,4525 0,5803 P5 1 0,8 P10 1 0,8 P15 0,9333 0,8667 Req183 (228) Nb-Pert 208 225 map 0,5082 0,5302 R-prec 0,5263 0,557 P5 0,8 1 P10 0,8 0,8 P15 0,8 0,6 Req194 (123) Nb-Pert 82 48 map 0,222 0,064 R-prec 0,2846 0,1545 P5 0,8 1 P10 0,8 0,3 P15 0,6667 0,2

Tab. 6.5 – Première itération sur la classe 1 de requêtes de test – TREC3

Dans le tableau 6.5, la première colonne représente les requêtes de test de la classe 1. Les chiffres entre parenthèses correspondent au nombre de documents pertinents qu’un système idéal devrait retrouver pour chaque requête. Par exemple, le nombre de documents pertinents associés à la requête Req194 est égal à 123. On constate par exemple que pour les deux requêtes de test 183 et 161, les résultats obtenus en terme de MAP et de R-précision sont meilleurs lorsque Best_Cl1 est utilisé (contrairement à MaxProb qui permet d’obtenir les meilleures MAP et R-précision pour la requête 194). L’approche MaxProb est toutefois plus indiquée (pour les trois requêtes) lorsque les mesures de haute précision sont utilisées (P@10 et P@15). Ces résultats nous indiquent que MaxProb permet de retrouver un nombre de documents pertinents plus élevé (parmi les 15 premiers documents) que Best_Cl1.

En observant de plus près le tableau 6.5, on remarque que pour la requête 194, Max- Prob permet de retrouver plus de documents pertinents que le système Best_Cl1 (cf

Évaluation 161

lignes Nb-pert du tableau). En prenant la mesure de R-précision, le système Best_Cl1 permet d’obtenir de meilleurs résultats pour les requêtes 161 et 183. L’analyse des re- quêtes de la classe 1 pour la première itération nous montre les faibles performances de MaxProb par rapport à Best_Cl1 lorsque la MAP et la R-précision sont considérées ( requêtes 161 et 183). Il n’en demeure pas moins que la répartition des documents pertinents est satisfaisante pour MaxProb qui semble apporter de meilleures performances pour les mesures de haute précision.

Dans les campagnes TREC, chaque système participant restitue une liste de 1000 documents qui sont évalués par l’intermédiaire du programme trec_eval. Chaque liste restituée est formée de 40 segments différents. En l’occurrence, la taille du segment vaut 25, et le nombre de documents restitués vaut 1000 (soit 1000/25).

Avant de présenter les résultats que nous avons obtenus, nous donnons dans le tableau 6.6 la liste des systèmes que nous avons utilisés dans l’algorithme MaxProb avec la collection TREC3.

segments systèmes segments systèmes segments systèmes

1 inq102 15 crnlla 29 crnlla

2 inq102 16 crnlla 30 crnlla

3 assctv2 17 crnlla 31 crnlla

4 inq102 18 siems2 32 crnlla

5 citya2 19 dortd2 33 crnlla

6 citya1 20 crnlea 34 crnlla

7 brkly7 21 crnlla 35 crnlla

8 citya2 22 crnlla 36 crnlla

9 vtc2s2 23 crnlla 37 crnlla

10 citya1 24 crnlla 38 crnlla

11 crnlea 25 crnlla 39 crnlla

12 inq102 26 crnlla 40 crnlla

13 crnlla 27 crnlea

14 westp1 28 crnlla

Tab. 6.6 – Meilleurs systèmes par segment selon MaxProb pour les requêtes d’entraî- nement de issues de la classe 1 de TREC3

Dans le tableau 6.6, chaque segment est associé au système ayant obtenu la meilleure probabilité de pertinence. Par exemple, le système inq102 est utilisé pour restituer les documents du premier segment. Ce système fait partie des 2 meilleurs systèmes de TREC3, indépendamment de la mesure choisie. On peut aussi noter que le système crnlla est utilisé pour restituer les documents de plusieurs segments différents, alors qu’il ne figure pas dans la liste des 5 meilleurs SRI (choisis en fonction de leur performance moyenne sur l’ensemble des documents restitués en réponse aux requêtes) pour aucune mesure. En tout, 12 systèmes sont utilisés pour restituer les documents répondant aux

162 Méthode adaptative en fonction du contexte linguistique de la requête requêtes de test. 0 0.2 0.4 0.6 0.8 1 100 200 500 1000 Req161.inq102 Req161.MaxProb Req183.inq102 Req183.MaxProb Req194.inq102 Req194.MaxProb

Fig. 6.4 – Répartition des documents pertinents pour les requêtes 194, 183, et 161 Dans la figure 6.4, nous comparons la répartition des documents pertinents pour les 3 requêtes de test choisies lors de la première itération ( requête 194, 183, et 161). Les indices en abscisse représentent le nombre de documents pour lesquels la précision est mesurée ; par exemple, la mesure de la précision lorsque 5 documents sont retrouvés nous indique que le système Best_Cl1 retrouve 2 documents pertinents (soit une P@5 de 0,4) tandis que MaxProb permet de retrouver 4 documents pertinents (soit une P@5 de 0,8). Dans la figure 6.4, best_Cl1 correspond au système inq102. On peut aussi noter d’après le tableau 6.6 que inq102 est utilisé par MaxProb pour restituer les documents des segments 1, 2, 4 et 12. Les résultats obtenus par MaxProb et Best_Cl1 sont donc identiques pour les 50 premiers documents. Les 2 méthodes peuvent donc être utilisées indifféremment pour les 50 premiers documents pour les requêtes 194, 183 et 161. Nous nous intéressons donc pour ces 3 requêtes, à la répartition des 100, 200, 500, et 1000 documents lorsque les 2 méthodes que nous avons proposées sont utilisées.

Évaluation 163

itération sur la classe 1 des requêtes de TREC3. Nous analysons dans la section suivante les résultats obtenus pour toutes les collections de TREC que nous avons utilisées, ainsi que pour toutes les itérations que nous avons réalisées dans nos expérimentations. Nous appelons itération une phase d’apprentissage suivie d’une phase de test. Durant chaque itération il est possible de d’établir une classification des requêtes et de calculer la probabilité de pertinence des SRI.

Dans le document Fusion de systèmes et analyse des caractéristiques linguistiques des requêtes : vers un processus de RI adaptatif (Page 161-165)