2.7 Evaluation des performances des syst` ´ emes de RIS
2.7.3 Tˆ aches de recherche
2.7.4.2 M´ etriques propos´ ees depuis INEX 2007
Depuis 2007, les mesures officielles sont bas´ees sur l’interpolation du Rap- pel/Pr´ecision sur 101 niveaux [112].
– Pr´ecision interpol´ee selon quatre niveaux de rappel s´electionn´es :
iP [jR],j ∈ [0, 00; 0, 01; 0, 05; 0, 1] La pr´ecision `a un rang r est d´efinie comme suit : P [r] = Pr i=1rsize(pi) Pr i=1size(pi) (2.15) Avec :
1. pi est la partie du document assign´ee au rang i (avec i ≤ r) dans
la liste de r´esultats Lq des parties de documents retourn´ees par un
syst`eme de recherche pour une requˆete q.
2. rsize(pr) est la taille du texte pertinent contenu dans pr en nombre
de caract`eres (ce texte est d´etermin´e grˆace aux jugements de perti- nence qui contiennent le bon ´el´ement avec sa taille) et size(pr) est
la taille totale du texte contenu dans pr en nombre de caract`eres.
Le rappel `a un rang r est d´efini comme suit :
R[r] =
Pr
i=1rsize(pi)
T rel(q) (2.16)
Chapitre 2. La Recherche d’Information Structur´ee 49
La mesure de pr´ecision interpol´ee iP [x] est la suivante :
iP [x] = max 1≤r≤|Lq| (P [r] ∧ R[r] ≥ x) if x ≤ R[|Lq|], 0 if x > R[|Lq|]. (2.17)
o`u R[|Lq|] est le rappel pour tous les documents restitu´es. La mesure of- ficielle utilis´ee pour comparer les diff´erents syst`emes est iP [0, 01].
– Moyenne des pr´ecisions moyennes interpol´ees selon 101 niveaux de rappel (MAiP) : Pour n requˆetes, M AiP est calcul´ee comme suit :
M AiP = 1 n
X
t
AiP (t) (2.18)
o`u Aip est la pr´ecision moyenne interpol´ee, elle est obtenue par la moyenne des scores de pr´ecision interpol´ees selon 101 niveaux standards de rappel :
AiP = 1
101
X
x=0,00;0,01;...;1,00
iP (x) (2.19)
Nous utilisons ces mesures dans notre premi`ere s´erie d’exp´erimentations du chapitre 5, section 5.3.3.
2.8
Conclusion
Dans ce chapitre, nous avons pass´e en revue les m´ethodes, mod`eles et al- gorithmes fondamentaux utilis´es en RIS. La dimension structurelle apport´ee au contenu textuel des documents permet de consid´erer l’information avec une autre granularit´e que le document tout entier. Le but pour les syst`emes de RIS est alors de renvoyer les unit´es d’information (ou portions de documents) les plus sp´ecifiques et exhaustives `a la requˆete utilisateur.
Nous avons aussi donn´e un aper¸cu sur les nouveaux concepts d’´evaluation des syst`emes de RIS. Nous constatons qu’avec la structure la RI dans ses docu- ments peut ˆetre plus sp´ecifique et pr´ecise. G´en´eralement, les approches actuelles renvoient des ´el´ements indissociables, or il existe des requˆetes qui n´ecessitent l’agr´egation de r´esultats. Ainsi, au lieu de r´ecup´erer une liste d’´el´ements qui sont susceptibles de r´epondre `a la requˆete, notre contribution consiste `a agr´eger des ´el´ements XML en utilisant des RB. L’avantage d’utiliser un mod`ele de RIS bas´e sur les RB et leur capacit´e `a combiner des informations provenant de diff´erentes sources pour restituer une liste d’agr´egats qui seraient les plus per- tinents ´etant donn´ee une requˆete.
Chapitre 2. La Recherche d’Information Structur´ee 50
Nous allons pr´esenter dans le chapitre suivant (3) les principales motiva- tions d´evelopp´ees en RI agr´eg´ee comme une alternative prometteuse car elle peut assembler dans la r´eponse des ´el´ements plus pertinents, non-redondants et compl´ementaires.
Chapitre 3
Vers la Recherche d’Information
agr´eg´ee dans des documents
semi-structur´es
3.1
Introduction
Les mod`eles de RI peuvent ˆetre regroup´es selon le type de mod`ele math´ema- tique utilis´e, `a savoir : le mod`ele ensembliste1, le mod`ele vectoriel2et le mod`eles
probabiliste3. Ils peuvent ´egalement ˆetre regroup´es selon le type de sortie `a
savoir une liste de documents non-ordonn´es ou une liste de documents ordonn´es selon un degr´e de pertinence. Les premiers travaux en RI ´etant bas´es sur le premier paradigme alors, actuellement, c’est le second le plus utilis´e.
Il y a peu de temps, lorsqu’on soumet une requˆete `a un moteur de recherche quel qu’il soit, ce dernier effectuait par d´efaut la recherche sur un serveur prin- cipal qui indexe les pages Web en HTML. Ce mod`ele a ´evolu´e en effet, les moteurs de recherche cr´eent de plus en plus des moteurs annexes ou verticaux pour d’autres types de contenus, soit la plupart du temps : images, vid´eos, actualit´es, livres, etc. Cette avanc´ee majeur des moteurs de recherche permet donc d’ajouter des r´esultats compl´ementaires provenant d’autres sources `a la
1. ces mod`eles trouvent leurs fondements th´eoriques dans la th´eorie des ensembles. On distingue le mod`ele bool´een pur, le mod`ele bool´een ´etendu et le mod`ele bas´e sur les ensembles flous.
2. ces mod`eles sont bas´es sur l’alg´ebrique, plus pr´ecis´ement le calcul vectoriel. Ils englobent le mod`ele vectoriel, le mod`ele vectoriel g´en´eralis´e, Latent Semantic Indexing et le mod`ele connexioniste.
3. ces mod`eles se basent sur les probabilit´es. Ils comprennent le mod`ele probabi- liste g´en´eral, le mod`ele de r´eseau de document ou d’inf´erence et le mod`ele de langue.
Chapitre 3. Vers la RI agr´eg´ee dans des documents semi-structur´es 52
liste ordonn´ee de documents Web. La RI agr´eg´ee repr´esente l’une des alterna- tives la plus prometteuse qui permet de r´epondre `a ce type d’attente. La RI agr´eg´ee peut ´egalement offrir une vision plus riche de l’information issue des diff´erentes sources de donn´ees.
Nous pr´esentons dans ce chapitre un aper¸cu des diff´erentes approches en RI agr´eg´ee ainsi que les cadres d’´evaluation associ´es. La section3.2 d´ecrit en d´etail les probl´ematiques des paradigmes recherche bool´eenne et recherche ordonn´ee. La section3.3 d´ecrit les motivations vers un nouveau paradigme de RI `a savoir la RI agr´eg´ee. La section 3.4 d´ecrit un ´etat de l’art de la RI structur´ee et la RI agr´eg´ee. La section 3.5 d´ecrit diff´erents mod`eles d’´evaluation orient´es RI agr´eg´ee, notamment l’´evaluation des documents XML. La derni`ere section 3.6
conclut le chapitre.