• Aucun résultat trouvé

Crit` eres usuels de performance d’une m´ ethode de recherche d’informations

recherche d’informations

L’´evaluation des algorithmes de recherche est une tˆache tr`es complexe. Elle doit prendre en compte les performances qualitatives des r´esultats fournis `a l’utilisateur, mais aussi le temps de recherche ou la taille de la signature par exemple. L’´evaluation des m´ethodes s’ap- puie sur deux ´etapes principales. Il faut d’abord d´efinir avec pr´ecision le crit`ere d’´evaluation, puis la mesure d’´evaluation associ´ee `a ce crit`ere.

La qualit´e d’une m´ethode de recherche d’informations peut ˆetre jug´ee par un grand nombre de crit`eres diff´erents. Ces crit`eres peuvent ˆetre group´es en plusieurs classes :

– l’effectivit´e : la pertinence, la capacit´e de discrimination, la stabilit´e par rapport `a des changements de la requˆete, l’int´egrit´e des r´esultats, la complexit´e de formulation de la requˆete, etc.

– l’efficience : le temps de recherche, le temps pour donner le r´esultat de la recherche, le temps pour la g´en´eration des index, le temps d’insertion, l’espace de stockage des index, le temps pour la g´en´eration d’une requˆete, etc.

– la flexibilit´e : l’adaptabilit´e, capacit´e `a g´en´eraliser, etc. – autres : la pr´esentation des r´esultats, etc.

1.4. CRIT `ERES USUELS DE PERFORMANCE D’UNE M ´ETHODE DE RECHERCHE

D’INFORMATIONS 11

Chaque classe poss`ede plusieurs sous-crit`eres et chacun de ces sous-crit`eres doit ˆetre ´evalu´e individuellement pour obtenir une ´evaluation globale de la m´ethode.

La deuxi`eme ´etape dans le processus de l’´evaluation est de d´efinir les mesures associ´ees aux crit`eres d’´evaluation. Elles sont simples pour certains crit`eres (comme le temps de recherche). Mais ce n’est malheureusement pas aussi simple pour la majorit´e des crit`eres cit´es. Le crit`ere auquel nous allons nous int´eresser principalement est la capacit´e de discrimination (que nous appelons aussi efficacit´e de retrouvaille). L’objectif d’une m´ethode de recherche est de retrou- ver les documents les plus proches de la requˆete, pour une mesure de similitude donn´ee. L’efficacit´e globale de la m´ethode peut ˆetre mesur´ee uniquement si les similitudes r´eelles sont connues, ce qui suppose pour une m´ethode automatique une classification des documents. En g´en´eral, une ´evaluation des m´ethodes de recherche demande :

1. une collection de N documents (la base de donn´ees). 2. un ensemble de M requˆetes de r´ef´erence.

3. un ensemble de m´etriques d’´evaluation.

La pratique commune pour ´evaluer l’efficacit´e de retrouvaille (retrieval en anglais) est la suivante : une requˆete est pr´esent´ee au syst`eme, le syst`eme renvoie une liste de k documents class´es en fonction de leur degr´e de similitude avec la requˆete, fonction de la m´etrique utilis´ee ; puis, pour chaque valeur de k (= nombre de documents pr´esent´es en r´eponse `a la requˆete, que nous appellerons “fenˆetre de retrouvaille”), les valeurs suivantes sont calcul´ees (Vn est

la pertinence du document n, Vn = 1 si la requˆete et le document n pr´esent´e en r´eponse

appartiennent `a la mˆeme classe, Vn= 0 sinon) :

– les d´etections (´equation 1.1) : le nombre d’objets appropri´es extraits Ak=

k−1

X

n=0

Vn (1.1)

– les faux positifs (´equation 1.2) : documents retrouv´es par la recherche mais ne correspondant pas `a la requˆete

Bk= k−1

X

n=0

(1 − Vn) (1.2)

– les faux n´egatifs (´equation 1.3) : documents appropri´es `a la requˆete mais non retrouv´es par la recherche Ck= N −1 X n=0 Vn− Ak (1.3)

Les mesures de performance usuelles du domaine de la recherche d’information sont en- suite calcul´ees :

– le rappel (´equation 1.4) : rapport entre le nombre d’objets appropri´es extraits et le nombre d’objets appropri´es (extraits et non extraits) dans la base de donn´ees.

Rk=

Ak

Ak+ Ck

(1.4) – la pr´ecision (´equation 1.5) : rapport entre le nombre d’objets appropri´es extraits et le

nombre total d’objets extraits (appropri´es et non appropri´es). Pk=

Ak

Ak+ Bk

La pr´ecision et le rappel donnent une bonne indication de la performance de la m´ethode (ils prennent des valeurs entre 0 et 1 ; les valeurs ´elev´ees, voisines de 1, indiquent une bonne performance). Mais une mesure seule est insuffisante. Nous pouvons toujours avoir le rappel ´

egal `a 1, simplement en donnant `a k une valeur ´egale `a la taille de la base. De mˆeme, la pr´ecision gardera des valeurs ´elev´ees en recherchant seulement quelques documents (k  taille de la base). Ainsi, la pr´ecision et le rappel sont en g´en´eral utilis´es ensemble (par exemple, la valeur de pr´ecision o`u le rappel est ´egal `a 0.5 ), ou le nombre de documents propos´es (valeur d’arrˆet) est indiqu´e (par exemple, le rappel quand 100 images sont affich´ees, ou la pr´ecision pour 20 images). Le nombre k de documents propos´es est choisi par l’utilisateur. Dans la pratique, ce nombre est choisi pour que ces k documents soient visualis´es commod´ement. Cependant, les mesures sont sensibles au choix du nombre k. Si le nombre est petit, les petites diff´erences dans l’ex´ecution des algorithmes peuvent mener `a de grandes diff´erences dans la pr´ecision et le rappel. D’autre part, de grandes valeurs de k ne permettent pas de distinguer les diff´erences de performance. Par cons´equent, les deux mesures sont souvent calcul´ees pour diff´erentes valeurs de k et repr´esent´ees sur le mˆeme graphique : nous obtenons une courbe param´etr´ee par k. Le r´esultat graphique est appel´e graphique “pr´ecision - rappel” comme repr´esent´e sur la figure 1.4.

Figure 1.4 — Courbes de pr´ecision-rappel. Plusieurs courbes de pr´ecision-rappel sont pr´esent´ees sur la figure, chacune ´etant associ´ee `a une m´ethode de recherche. La m´ethode la plus performante est celle dont la courbe est le plus `a droite : les valeurs de pr´ecision sont

les plus ´elev´ees pour toutes les valeurs de rappel.