Analyse de la classification de l’ensemble des requêtes

4.4 Expérimentations : détection du meilleur système en fonction des CL des

4.4.2 Analyse de la classification de l’ensemble des requêtes

Nous donnons dans cette section les résultats préliminaires que nous avons obtenus, c’est à dire sans intégrer une phase d’apprentissage et de test dans nos expérimentations. Nous utilisons la classification sur l’ensemble des requêtes que nous utilisons. Nous présentons ces résultats en deux étapes. Une première étape ou évaluation locale fait ressortir les analyses que nous avons effectuées en nous focalisant sur une classe de requêtes à la fois (section 4.4.2.1). La deuxième évaluation dite globale présente les performances moyennes que nous obtenons sur l’ensemble des requêtes traitées (section 4.4.2.2).

4.4.2.1 Évaluation locale

Dans le tableau 4.13, nous analysons les résultats obtenus pour les 3 classes de re- quêtes en utilisant les données de TREC5. Pour chaque mesure, nous comparons le résultat du meilleur système sur l’ensemble des requêtes de la classe choisie avec les ré- sultats obtenus par le même meilleur système, mais cette fois sur l’ensemble des requêtes de la collection (50 requêtes par session de TREC). Par exemple, en considérant les re- quêtes de la classe 1, le système ETHme1 obtient la meilleure MAP (0,3407) de la classe (on l’appelle alors BestCl1). Ce même système obtient 0,3070 comme valeur de MAP sur

l’ensemble des 50 requêtes (ETHme1_all) (idem pour les autres systèmes uwgxc1_all, genrl3_all, . . .). Il peut cependant arriver que la meilleure performance pour une classe donnée soit obtenue par plusieurs systèmes. Dans ce cas, nous mentionnons les résultats de l’ensemble des systèmes. Par exemple, lorsque l’on considère la mesure P@5 pour

104 Analyse des collections de données

la classe 2 de requêtes, 4 systèmes obtiennent la meilleure performance. Ils s’agit des systèmes uwgcx0, uwgcx1, genrl3, et genrl4.

Classe1 Classe2 Classe3

MAP MAP MAP

Best_Cl1 0,3407 Best_Cl2 0,3396 Best_Cl3 0,3255

Ethme1_all 0,3070 Uwgcx0_all 0,2944 LNaDesc2_all 0,2585

R-Prec R-Prec R-Prec

BestCl1 0,3633 BestCl2 0,3829 BestCl3 0,3528

Ethme1_all 0,3305 Uwgcx0_all 0,3444 LNaDesc2_all 0,2929

P@5 P@5 P@5

BestCl1 0,7481 BestCl2 0,5200 BestCl3 0,6769

Ethme1_all 0,6160 Uwgcx0_all 0,5560 LNaDesc2_all 0,4960 Uwgcx1_all 0,5520

Genrl3_all 0,5800 Genrl4_all 0,5240

P@10 P@10 P@10

BestCl1 0,6778 BestCl2 0,4400 BestCl3 0,5923

Ethme1_all 0,5460 Genrl3_all 0,4700 LNaDesc2_all 0,4780

P@15 P@15 P@15

Best_Cl1 0,6420 Best_Cl2 0,3867 Best_Cl3 0,5026

Ethme1_all 0,5147 Ethme1_all 0,5147 LNaDesc2_all 0,4280 Tab. 4.13 – Performances moyennes des systèmes de TREC5 sur les classes de requêtes

Nous pouvons voir dans le tableau 4.13 que l’utilisateur gagnerait dans la pertinence des résultats qui lui sont restitués si le système ETHme1 était choisi pour restituer les documents pour la classe 1 de requêtes, indépendamment de la mesure choisie. Notons que le système ETHme1 correspond aussi au système qui obtient les meilleures performances moyennes sur l’ensemble des requêtes. De même, pour la classe 3, le meilleur système (LNaDesc2) permet d’obtenir de meilleures performances (toutes mesures confondues) que celles obtenues par le même système (LNaDesc2), lorsque l’ensemble des requêtes est considéré. On peut conclure pour ces 2 classes qu’il est possible de choisir le meilleur système à utiliser.

Il en va différemment pour la classe 2. En effet, le système uwgcx0 que nous choi- sissons comme le système à utiliser permet effectivement d’obtenir de meilleures performances pour les requêtes de la classe 2 que celles que ce même système obtient pour l’ensemble des requêtes. Le meilleur système est choisi en fonction de ses performances en termes de MAP et de R-Précision. Pour les mesures de hautes précisions par contre, les résultats obtenus par le système que nous sélectionnons sont moins bons que ceux que les systèmes obtiennent sur l’ensemble des requêtes. Par exemple, genrl3 (resp. ethme1) est le système que nous avons choisi pour répondre aux requêtes de la classe 2. Le système genrl3 obtient une P@10 de 0,44 contre 0,47 pour l’ensemble des requêtes (resp. ethme1 obtient une valeur de P@15 de 0,3867 contre 0,5147 pour l’ensemble des

Expérimentations : détection du meilleur système en fonction des CL des requêtes 105

requêtes). De même, 4 systèmes obtiennent la meilleure P@5 pour les requêtes de la classe 2. Les performances de ces 4 systèmes sur l’ensemble des requêtes sont toutes supérieures à celles qu’ils obtiennent sur les requêtes de la classe 2. Le fait qu’il y ait plusieurs systèmes qui obtiennent les meilleures performances n’a pas d’incidence sur la manière de choisir le meilleur système. Dans ce cas (plusieurs systèmes ont la meilleure performance), le meilleur système n’est pas associé à un système particulier mais plutôt à une valeur correspondant à la meilleure performance. Pour revenir au cas de la P@5 pour la classe 2, une explication que nous pouvons donner est que les systèmes uwgcx0, uwgxc1, et genrl3 en particulier retrouvent plus de documents pertinents (parmi les 5 premiers documents) en moyenne sur l’ensemble des requêtes que pour les requêtes de la classe 2. Les performances moyennes pour la haute précision sont faibles par rapport à celles obtenues pour la classe 1 et la classe3. Nous ne détectons donc pas pour cette classe le meilleur système à utiliser.

L’analyse que nous avons faite dans cette section est centrée sur un nombre de requêtes déterminé par la CAH. Cependant, pour effectuer une comparaison sur le même nombre de requêtes, nous présentons dans la section suivante l’évaluation dite globale que nous avons réalisée.

4.4.2.2 Évaluation globale

Les résultats présentés dans la section précédente comparent les performances par classe de requêtes avec les performances des systèmes pour toutes les requêtes de TREC. Étant donné que pour une année de TREC les 50 requêtes sont réparties en 3 classes, nous étudions dans cette section les performances que nous obtenons en sélectionnant le meilleur système à utiliser pour l’ensemble des classes (donc sur 50 requêtes) par rapport au meilleur système global (performances initiales sur 50 requêtes).

Moyenne sur les 3 classes de requêtes (meilleur système pour chaque classe) Moyenne pondé- rée en fonction de la taille des classes Meilleur sys- tème en termes de MAP, R- précision, P@5, P@10, et P@15 MAP 0,3353 0,3356 0,3070 (ethme1) R-Prec 0,3663 0,37 0,3444 (uwgcx0) P@5 0,6448 0,6709 0,6160 (ethme1) P@10 0,5700 0,5912 0,5460 (ethme1) P@15 0,5104 0,5233 0,5147 (ethme1)

Tab. 4.14 – Performances moyennes des systèmes de TREC5 par rapport au meilleur système

Le tableau 4.14 indique en colonne 2, la moyenne par rapport à la classe de re- quêtes (moyenne de BestCl1, BestCl2, et BestCl3 pour la MAP, R-précision, etc.). Dans

106 Analyse des collections de données

la colonne 3, cette moyenne est pondérée en fonction de la taille de la classe considé- rée. Par exemple, la classe 1 contient 29% de requêtes sur l’ensemble des 200 requêtes. Dans la dernière colonne, nous indiquons les résultats du meilleur système pour la mesure concernée sur l’ensemble des requêtes. Le meilleur système (système entre paren- thèses) en termes de MAP, R-précision, P@ pour TREC5 est aussi le meilleur système pour toutes les autres mesures, sauf pour la R-précision. Le tableau 4.14 montre qu’en moyenne les résultats peuvent être améliorés. Par exemple, le choix du meilleur sys- tème pour chacune des classes permet d’obtenir une MAP de 0,3353 alors qu’elle était de 0,3070 pour le meilleur des systèmes participants à TREC5, soit une amélioration de 9,22%. En prenant la moyenne pondérée (0,3356), l’amélioration passe de 9,22% à 9,32% pour la MAP. Nous faisons référence à cette moyenne pondérée par l’appelant BestCl_p (cf. tableaux 4.15, 4.16, et 4.17).

MAP R-Prec

BestCl|BestCl_p BestCl|BestCl_p

Tab. 4.15 – Comparaison globale des performances des systèmes de TREC5 avec BestCl

- MAP et R-Prec

P@5 P@10

BestCl|BestCl_p BestCl|BestCl_p

Tab. 4.16 – Comparaison globale des performances des systèmes de TREC5 avec BestCl

Expérimentations : détection du meilleur système en fonction des CL des requêtes 107 P@15 Best_Cl|BestCl_p (0,5104 | 0,5233) %A ETHme1_all (-0,8% | 1,67%) (0,5147) LNaDesc2_all (19,25% | 22,27%) (0,4280)

Tab. 4.17 – Comparaison globale des performances des systèmes de TREC5 avec BestCl

- P@15

Dans les tableaux 4.15, 4.16, et 4.17, nous détaillons le tableau 4.14 en indiquant le pourcentage d’amélioration que nous obtenons par rapport au meilleur système que nous sélectionnons, ainsi que par rapport aux différentes mesures de performance. Nous comparons le système recommandé par notre approche pour une mesure donnée aux systèmes ayant obtenu la meilleure performance pour cette mesure. Par exemple pour la MAP, Best_Cl correspond à la moyenne obtenue par Best_Cli, i représentant le numéro

de la classe, et Best_Cli_p à la moyenne pondérée du système que nous préconisons.

Ainsi, nous obtenons une MAP de 0,3353 pour le système recommandé sur l’ensemble des classes de requêtes (0,3356 lorsque la moyenne pondérée est prise en compte). Dans la première colonne, les systèmes ETHme1, uwgcx0, et LNadesc2 correspondent respectivement aux meilleurs systèmes pour la classe 1, la classe 2, et la classe 3. Les chiffres indiqués entre parenthèses représentent les valeurs obtenues par ces systèmes sur l’ensemble des requêtes.

La première ligne donne les performances moyennes (sur les 3 classes de requête) du système que nous recommandons (Best_Cl), ainsi que les performances de Best_Cli_p.

%A représente le pourcentage d’amélioration lorsqu’on compare respectivement les performances du système Best_Cl et de Best_Cli_p avec celles des meilleurs systèmes. Par

exemple, en considérant la mesure de R-précision, le système Best_Cl obtient une valeur de 0,3663 (0,37 pour BestCli_p). Nous remarquons que dans ce cas, le meilleur sys-

tème pour la R-précision (uwgcx0) obtient 0,3444 comme valeur de performance, ce qui correspond à une amélioration de 6,363% lorsqu’on utilise Best_Cl à la place de uwgcx0 (7,43% avec BestCli_p). Nous avons indiqué que le système uwgcx0 est le meilleur pour

la R-précision, et le système ETHme1 est le meilleur pour les autres mesures. On re- marque dans les tableaux 4.15, 4.16 et 4.17 que Best_Cl est meilleur que les meilleurs systèmes et pour toutes les mesures, sauf pour la P@15 où les performances de ETHme1 sont dégradées (-0,8%). L’amélioration obtenue par rapport aux meilleurs systèmes et pour les autres mesures varie de 4,4% à 30,71%. La méthode de sélection du meilleur système semble apporter une amélioration par rapport aux meilleurs systèmes. Pour l’ensemble des mesures, l’amélioration moyenne par rapport aux meilleurs systèmes sé- lectionnés est supérieure à 14% (soit 17,72% pour la MAP, 14,08% pour la R-précision, 17,58% pour la P@5, 14,98% pour la P@10, et 9,23% pour la P@15). En considérant BestCli_p, le système que nous proposons permet d’obtenir de meilleures performances

108 Analyse des collections de données

que le meilleur système, indépendamment de la mesure considérée. Les améliorations vont de 7,43% (R-Prec) à 35,26% (P@5).

Les mêmes types d’analyse peuvent être faites pour les autres mesures et les autres années de TREC. Sur les 61 systèmes ayant participé à la campagne TREC5, nous sommes alors capables de détecter à 98,36% (sur un ensemble de systèmes) le meilleur système à utiliser pour une mesure donnée.

Nous remarquons dans le tableau 4.13 que nous recommandons le système ETHME1 pour la P@15, aussi bien pour les requêtes de la classe 1 que celles de la classe 2. La question que l’on peut se poser est de savoir quelle est la meilleure classe pour laquelle ce système doit être utilisé, ou de vérifier que ce système est bien le meilleur à utiliser pour les 2 classes. Pour répondre à ce genre de questions, nous proposons d’analyser dans la section suivante l’évaluation que nous avons effectuée en intégrant des phases d’apprentissage et de test lors de la classification des requêtes. Les systèmes que nous détectons comme étant les meilleurs sont alors analysés sur l’ensemble des itérations que nous avons effectuées.

Dans le document Fusion de systèmes et analyse des caractéristiques linguistiques des requêtes : vers un processus de RI adaptatif (Page 105-110)