• Aucun résultat trouvé

2.7 Evaluation des performances des syst` ´ emes de RIS

2.7.3 Tˆ aches de recherche

2.7.4.2 M´ etriques propos´ ees depuis INEX 2007

Depuis 2007, les mesures officielles sont bas´ees sur l’interpolation du Rap- pel/Pr´ecision sur 101 niveaux [112].

– Pr´ecision interpol´ee selon quatre niveaux de rappel s´electionn´es :

iP [jR],j ∈ [0, 00; 0, 01; 0, 05; 0, 1] La pr´ecision `a un rang r est d´efinie comme suit : P [r] = Pr i=1rsize(pi) Pr i=1size(pi) (2.15) Avec :

1. pi est la partie du document assign´ee au rang i (avec i ≤ r) dans

la liste de r´esultats Lq des parties de documents retourn´ees par un

syst`eme de recherche pour une requˆete q.

2. rsize(pr) est la taille du texte pertinent contenu dans pr en nombre

de caract`eres (ce texte est d´etermin´e grˆace aux jugements de perti- nence qui contiennent le bon ´el´ement avec sa taille) et size(pr) est

la taille totale du texte contenu dans pr en nombre de caract`eres.

Le rappel `a un rang r est d´efini comme suit :

R[r] =

Pr

i=1rsize(pi)

T rel(q) (2.16)

Chapitre 2. La Recherche d’Information Structur´ee 49

La mesure de pr´ecision interpol´ee iP [x] est la suivante :

iP [x] =    max 1≤r≤|Lq| (P [r] ∧ R[r] ≥ x) if x ≤ R[|Lq|], 0 if x > R[|Lq|]. (2.17)

o`u R[|Lq|] est le rappel pour tous les documents restitu´es. La mesure of- ficielle utilis´ee pour comparer les diff´erents syst`emes est iP [0, 01].

– Moyenne des pr´ecisions moyennes interpol´ees selon 101 niveaux de rappel (MAiP) : Pour n requˆetes, M AiP est calcul´ee comme suit :

M AiP = 1 n

X

t

AiP (t) (2.18)

o`u Aip est la pr´ecision moyenne interpol´ee, elle est obtenue par la moyenne des scores de pr´ecision interpol´ees selon 101 niveaux standards de rappel :

AiP = 1

101

X

x=0,00;0,01;...;1,00

iP (x) (2.19)

Nous utilisons ces mesures dans notre premi`ere s´erie d’exp´erimentations du chapitre 5, section 5.3.3.

2.8

Conclusion

Dans ce chapitre, nous avons pass´e en revue les m´ethodes, mod`eles et al- gorithmes fondamentaux utilis´es en RIS. La dimension structurelle apport´ee au contenu textuel des documents permet de consid´erer l’information avec une autre granularit´e que le document tout entier. Le but pour les syst`emes de RIS est alors de renvoyer les unit´es d’information (ou portions de documents) les plus sp´ecifiques et exhaustives `a la requˆete utilisateur.

Nous avons aussi donn´e un aper¸cu sur les nouveaux concepts d’´evaluation des syst`emes de RIS. Nous constatons qu’avec la structure la RI dans ses docu- ments peut ˆetre plus sp´ecifique et pr´ecise. G´en´eralement, les approches actuelles renvoient des ´el´ements indissociables, or il existe des requˆetes qui n´ecessitent l’agr´egation de r´esultats. Ainsi, au lieu de r´ecup´erer une liste d’´el´ements qui sont susceptibles de r´epondre `a la requˆete, notre contribution consiste `a agr´eger des ´el´ements XML en utilisant des RB. L’avantage d’utiliser un mod`ele de RIS bas´e sur les RB et leur capacit´e `a combiner des informations provenant de diff´erentes sources pour restituer une liste d’agr´egats qui seraient les plus per- tinents ´etant donn´ee une requˆete.

Chapitre 2. La Recherche d’Information Structur´ee 50

Nous allons pr´esenter dans le chapitre suivant (3) les principales motiva- tions d´evelopp´ees en RI agr´eg´ee comme une alternative prometteuse car elle peut assembler dans la r´eponse des ´el´ements plus pertinents, non-redondants et compl´ementaires.

Chapitre 3

Vers la Recherche d’Information

agr´eg´ee dans des documents

semi-structur´es

3.1

Introduction

Les mod`eles de RI peuvent ˆetre regroup´es selon le type de mod`ele math´ema- tique utilis´e, `a savoir : le mod`ele ensembliste1, le mod`ele vectoriel2et le mod`eles

probabiliste3. Ils peuvent ´egalement ˆetre regroup´es selon le type de sortie `a

savoir une liste de documents non-ordonn´es ou une liste de documents ordonn´es selon un degr´e de pertinence. Les premiers travaux en RI ´etant bas´es sur le premier paradigme alors, actuellement, c’est le second le plus utilis´e.

Il y a peu de temps, lorsqu’on soumet une requˆete `a un moteur de recherche quel qu’il soit, ce dernier effectuait par d´efaut la recherche sur un serveur prin- cipal qui indexe les pages Web en HTML. Ce mod`ele a ´evolu´e en effet, les moteurs de recherche cr´eent de plus en plus des moteurs annexes ou verticaux pour d’autres types de contenus, soit la plupart du temps : images, vid´eos, actualit´es, livres, etc. Cette avanc´ee majeur des moteurs de recherche permet donc d’ajouter des r´esultats compl´ementaires provenant d’autres sources `a la

1. ces mod`eles trouvent leurs fondements th´eoriques dans la th´eorie des ensembles. On distingue le mod`ele bool´een pur, le mod`ele bool´een ´etendu et le mod`ele bas´e sur les ensembles flous.

2. ces mod`eles sont bas´es sur l’alg´ebrique, plus pr´ecis´ement le calcul vectoriel. Ils englobent le mod`ele vectoriel, le mod`ele vectoriel g´en´eralis´e, Latent Semantic Indexing et le mod`ele connexioniste.

3. ces mod`eles se basent sur les probabilit´es. Ils comprennent le mod`ele probabi- liste g´en´eral, le mod`ele de r´eseau de document ou d’inf´erence et le mod`ele de langue.

Chapitre 3. Vers la RI agr´eg´ee dans des documents semi-structur´es 52

liste ordonn´ee de documents Web. La RI agr´eg´ee repr´esente l’une des alterna- tives la plus prometteuse qui permet de r´epondre `a ce type d’attente. La RI agr´eg´ee peut ´egalement offrir une vision plus riche de l’information issue des diff´erentes sources de donn´ees.

Nous pr´esentons dans ce chapitre un aper¸cu des diff´erentes approches en RI agr´eg´ee ainsi que les cadres d’´evaluation associ´es. La section3.2 d´ecrit en d´etail les probl´ematiques des paradigmes recherche bool´eenne et recherche ordonn´ee. La section3.3 d´ecrit les motivations vers un nouveau paradigme de RI `a savoir la RI agr´eg´ee. La section 3.4 d´ecrit un ´etat de l’art de la RI structur´ee et la RI agr´eg´ee. La section 3.5 d´ecrit diff´erents mod`eles d’´evaluation orient´es RI agr´eg´ee, notamment l’´evaluation des documents XML. La derni`ere section 3.6

conclut le chapitre.