• Aucun résultat trouvé

4.4 Evaluation de la RF Orient´ee Contenu ´

4.4.1 Nombre de termes r´einject´es

4.4.1.4 Discussion

Comme nous l’avons mentionn´e sur les diff´erentes tˆaches de recherche de chaque collection, le nombre de termes ad´equats `a r´einjecter peut ˆetre li´e aux requˆetes. Une requˆete est caract´eris´ee par sa taille et l’ambigu¨ıt´e ´eventuelle

Tab. 4.18 – Impact du nombre de termes pertinents `a r´einjecter dans le cas des requˆetes VVCAS de la collection 2005

MAnxCG [10] gen

MAep gen MAnxCG [10] stricte MAep stricte Nb-TP=1 1% – 15% 132% Nb-TP=2 – – – 135% Nb-TP=3 – – – 136% Nb-TP=4 – – – 136% Nb-TP=5 – – – 138% Nb-TP=6 – – – 134% Nb-TP=7 – – – 135% Nb-TP=8 – – – 117% Nb-TP=9 – – – 118% Nb-TP=10 – – – 135%

de ses termes. Ceci est d´ej`a confirm´e en RI [156]. On se focalise dans nos travaux sur le crit`ere taille. Il parait ´evident que la taille de la requˆete influe sur le nombre ad´equat de termes `a r´einjecter. Par exemple, l’ajout de 2 termes pertinents pour une requˆete compos´ee de 7 mots cl´es diff`ere de l’ajout du mˆeme nombre de termes pour une requˆete compos´ee de 2 mots cl´es seulement, car dans ce cas les termes ajout´es peuvent changer le sens original de la requˆete. Nous avons alors essay´e de voir s’il existe une r`egle pour le choix du nombre de termes. Nous avons alors observ´e les 28 requˆetes ayant des am´elioration, de la tˆache CO de la collection 2006. Comme ceci est pr´esent´e dans la figure 4.1, nous avons consid´er´e le nombre de termes ajout´es permettant la meilleure am´elioration pour chacune des requˆetes.

La seule constatation qu’on a pu faire est qu’il n’existe aucun cas o`u le nombre de termes r´einject´es est sup´erieur `a la taille initiale de la requˆete. En d’autres termes : soit T la taille initiale de la requˆete, Nb − T P le nombre de termes `a r´einjecter : Nb − T P ≤ T .

Au del`a de cette constatation aucune conclusion n’a pu ˆetre tir´ee. Nous avons par ailleurs effectu´e des exp´erimentations en faisant varier le nombre de terme rajout´es `a la requˆete en fonction de sa taille (nombre de termes). L’id´ee est que le nombre de termes rajout´es ne d´epasse pas la taille de la requˆete initiale et la requˆete reformul´ee ne d´epasse pas 7 termes (pour les requˆetes de taille < `a 7). Aucun r´esultat significatif n’a ´et´e observ´e.

Il n y a pas un nombre de termes id´eal qui sort du lot. Il semble par ailleurs que l’ajout de peu de termes, entre 1 et 3, apporte des am´eliorations significa-

Fig. 4.1 – Nombre de termes `a r´einjecter en fonction de la taille des requˆetes.

tives, souvent meilleurs que l’ajout de ”beaucoup” de termes (au del`a des trois). Nous choisissons pour le reste des exp´erimentations les conditions suivantes : ajout d’un seul terme dans le cas des tˆaches CO, CO+S de la collection 2006 et VVCAS de la collection 2005. Dans le cas de la tˆache CO+S de la collection 2005, on r´einjecte 3 termes pertinents.

L’ajout de peu de termes peut toutefois ˆetre justifi´e par la taille des ´el´ements jug´es. En effet, comme ces ´el´ements sont strictement pertinents, ils sont donc tr`es sp´ecifiques ; donc souvent de petite taille.

Par ailleurs, on pourrait penser `a juste de titre que l’ajout de peu de termes, en particulier de 1 terme, pourrait ne pas avoir d’influence sur le processus de r´einjection. En fait ceci n’est pas tout `a fait vrai car au del`a de l’ajout des termes, il y a ´egalement la repond´eration des termes de la requˆete initiale. Ceci peut ´egalement avoir un impact sur les r´esultats.

Tab. 4.19 – Impact des strat´egies de s´election et pond´eration des termes dans le cas des requˆetes CO de la collection 2005

Choix du

nombre de

termes

MAnxCG [10] gen

MAep gen MAnxCG [10] stricte MAep stricte Prob-Cont 9% 6% – – Prob-Cont-Brt – 25% – – Prob-Cont/P df req 8% 19% – – Prob-Cont- Brt/P df req 8% 19% – –

4.4.2

Impact des strat´egies de s´election et de pond´eration

des termes de la requˆete

Dans cette section nous ´etudions l’impact des diff´erentes strat´egies de s´election et pond´eration des termes de la requˆete. Nous rappelons que nous distinguons les strat´egies suivantes :

– La premi`ere est celle que nous avons avant appliqu´ee dans la section pr´ec´edente en attribuant les mˆemes poids Prob-Cont (´equation3.5) pour la s´election des termes ainsi que pour la pond´eration des termes de la requˆete finale.

– La deuxi`eme consiste `a s´electionner et pond´erer les termes pertinents selon le poids Prob-Cont-Brt (´equation 3.7).

– La troisi`eme est compos´ee de deux strat´egies. Elle consiste `a utiliser l’un des poids Prob-Cont ou Prob-Cont-Brt pour l’extraction et la s´election des termes pertinents. La pond´eration des termes s’effectue en appli- quant le poids P df req (´equation3.9). Les deux types de strat´egies seront d´esign´ees par : Prob-Cont/P df req et Prob-Cont-Brt/P df req.

Nous allons proc´eder par type de tˆache de recherche pour analyser nos exp´erimen- tations.

4.4.2.1 Tˆache CO

Comme nous l’avons mentionn´e pr´ec´edemment, nous ajoutons dans ce cas un seul terme pertinent.

Nous remarquons dans le tableau 4.19 que les diff´erentes strat´egies per- mettent une am´elioration significative de MAep g´en´eralis´ee dans la collection 2005, et notamment, lorsque le facteur bruit est consid´er´e (Prob-Cont-Brt : 25%). Cependant, l’int´erˆet du facteur bruit est relatif puisqu’il d´egrade les per-

Tab. 4.20 – Impact des strat´egies de s´election et pond´eration des termes dans le cas de la tˆache CO+S de la collection 2005

Choix du

nombre de

termes

MAnxCG [10] gen

MAep gen MAnxCG [10] stricte MAep stricte Prob-Cont 5% 16% 8% 18% Prob-Cont-Brt – 9% – – Prob-Cont/P df req – 6% – – Prob-Cont- Brt/P df req – 6% – –

Tab. 4.21 – Impact des strat´egies de s´election et pond´eration des termes dans le cas de la tˆache CO+S de la collection 2006

Choix du

nombre de

termes

MAnxCG [10] gen

MAep gen MAnxCG [10] stricte MAep stricte Prob-Cont 24% – 28% – Prob-Cont-Brt 19% – 18% – Prob-Cont/P df req 11% – 10% – Prob-Cont- Brt/P df req 11% – 10% –

formance au niveau des 10 premiers ´el´ements.

Nous remarquons en outre que quelque soit le poids utilis´e pour la s´election des termes, on retrouve les mˆemes r´esultats en consid´erant une pond´eration selon P df req. Compar´ee `a Prob-Cont-Brt, Prob-Cont-Brt/P df req apporte une am´elioration au niveau des 10 premiers ´el´ements, son analogue Prob-Cont/P df req, compar´e `a Prob-Cont augmente la MAep g´en´eralis´ee (19% par rapport `a 6%). Les r´esultats montrent alors l’int´erˆet relatif de cette pond´eration mais laissent entendre, comme on peut s’y attentre, que les poids des termes de la requˆete influent directement sur les performances du syst`eme.

Dans le cas de la collection 2006, on ne trouve pas d’am´eliorations globales.

4.4.2.2 Tˆache CO+S

Comme nous l’avons mentionn´e pr´ec´edemment, nous ajoutons 3 termes per- tinents `a la requˆete initiale dans le cas de la collection 2005 et 1 seul terme dans le cas de la collection 2006. Les tableaux 4.20et 4.21 listent les r´esultats obte- nus en appliquant les diff´erentes variantes de s´election/pond´eration des termes. Nous remarquons pour COS2005 une am´elioration de la MAep g´en´eralis´ee pour toutes les m´ethodes avec une l´eg`ere pr´ef´erence pour P rob − Cont, qui en outre am´eliore les mesures strictes et g´en´eralis´ees au niveau des 10 premiers ´el´ements

Tab. 4.22 – Impact des strat´egies de s´election et pond´eration des termes dans le cas de la tˆache VVCAS de la collection 2005

Choix du

nombre de

termes

MAnxCG [10] gen

MAep gen MAnxCG [10] stricte MAep stricte Prob-Cont 1% – 15% 132% Prob-Cont-Brt – – 5% 132% Prob-Cont/P df req – – 5% 126% Prob-Cont- Brt/P df req – – 5% 124%

et la MAep. Ceci est plus ou moins confirm´e pour la collection 2006. En effet, on observe des am´eliorations significatives obtenues par les diff´erentes strat´egies. Elles ne concernent que les mesures MAnxCG[10] (stricte et g´en´eralis´ee). Ceci nous permet de conclure que pour ce type de requˆetes,

Le facteur bruit (Prob-Cont-Brt) n’a pas d’impact r´eel sur la s´election des termes.

– La pond´eration en consid´erant l’importance des termes dans la collection des ´el´ements et celle des documents ne permet pas de mieux exprimer les degr´es d’importance des termes car elle ne tient pas compte de la pr´esence des termes dans les documents pertinents. En d’autres termes le poids probabiliste contextuel traduit mieux l’importance des termes.

4.4.2.3 Tˆache VVCAS

Dans le cas des requˆetes VVCAS de la collection 2005, nous avons test´e les diff´erentes variantes en r´einjectant un seul terme. Le tableau 4.22 liste les diff´erents r´esultats. Nous remarquons que la strat´egie utilisant les poids calcul´es en fonction du bruit (Prob-Cont-Brt), n’apporte rien.

La pond´eration des termes de la requˆete en consid´erant leur importance dans la collection des ´el´ements et celle des documents n’apporte pas d’am´eliorations dans les deux cas de s´election des termes. En g´en´eral, nous remarquons que quelle que soit la strat´egie appliqu´ee, les r´esultats affirment l’int´erˆet de notre approche (AR(MAep strict> 120%).

4.4.3

Bilan

En conclusion, nous avons montr´e l’int´erˆet de notre approche orient´ee contenu bas´ee sur la distribution des termes dans les ´el´ements pertinents et sur la no-

tion de contexte pour l’extraction et la s´election des termes `a r´einjecter. Nous avons montr´e en occurrence, que le indicateurs consid´er´es dans la pond´eration (tf −ief −idf ) ne traduisent pas bien les degr´es d’importance des termes. Nous avons montr´e ´egalement que la r´einjection de pertinence n´egative n’a pas un impact remarquable sur la s´election des termes.

En outre, nous avons ´etudi´e le choix du nombre de termes `a r´einjecter qui influe directement sur les performances de notre approche. La seule conclusion que nous avons pu tirer est que le nombre de termes r´einject´es ne doit pas d´epasser la taille initiale de la requˆete, il est situ´e entre 1 et 3 termes. Ceci est loin des 20 termes souvent utilis´e en RI. Ceci peut provenir comme nous l’avons mentionn´e de la taille des ´el´ements consid´er´es. En effet, nous pensons que ces ´el´ements manque de diversit´e an niveau de leurs termes pour pouvoir d´egager plusieurs bons termes `a rajouter `a la requˆete.

Nous constatons de mani`ere g´en´erale, que la strat´egie P rob − Cont permet d’am´eliorer dans la majorit´e des tˆaches les MAnxCG et la MAep. Ceci n’exclut pas le fait qu’elle puisse aussi ˆetre la cause de d´egradation de performances pour certaines requˆetes. Ceci a ´et´e d´ej`a observ´e en RI de mani`ere g´en´erale et on a consid´er´e que ce probl`eme revient `a la nature des requˆetes dites difficiles. En effet, Buckley dans [23] a essay´e de classifier les requˆetes difficiles selon 10 cat´egories diff´erentes. Chaque cat´egorie de requˆete doit ˆetre adapt´ee `a une m´ethode diff´erente de traitements.

4.5

Evaluation de la reformulation Orient´´

ee-