Crit` eres usuels de performance d’une m´ ethode de recherche d’informations

recherche d’informations

L’évaluation des algorithmes de recherche est une tâche très complexe. Elle doit prendre en compte les performances qualitatives des résultats fournis à l’utilisateur, mais aussi le temps de recherche ou la taille de la signature par exemple. L’évaluation des méthodes s’ap- puie sur deux étapes principales. Il faut d’abord définir avec précision le critère d’évaluation, puis la mesure d’évaluation associée à ce critère.

La qualité d’une méthode de recherche d’informations peut être jugée par un grand nombre de critères différents. Ces critères peuvent être groupés en plusieurs classes :

– l’effectivité : la pertinence, la capacité de discrimination, la stabilité par rapport à des changements de la requête, l’intégrité des résultats, la complexité de formulation de la requête, etc.

– l’efficience : le temps de recherche, le temps pour donner le résultat de la recherche, le temps pour la génération des index, le temps d’insertion, l’espace de stockage des index, le temps pour la génération d’une requête, etc.

– la flexibilité : l’adaptabilité, capacité à généraliser, etc. – autres : la présentation des résultats, etc.

1.4. CRIT `ERES USUELS DE PERFORMANCE D’UNE M ´ETHODE DE RECHERCHE

D’INFORMATIONS 11

Chaque classe possède plusieurs sous-critères et chacun de ces sous-critères doit être évalué individuellement pour obtenir une évaluation globale de la méthode.

La deuxième étape dans le processus de l’évaluation est de définir les mesures associées aux critères d’évaluation. Elles sont simples pour certains critères (comme le temps de recherche). Mais ce n’est malheureusement pas aussi simple pour la majorité des critères cités. Le critère auquel nous allons nous intéresser principalement est la capacité de discrimination (que nous appelons aussi efficacité de retrouvaille). L’objectif d’une méthode de recherche est de retrou- ver les documents les plus proches de la requête, pour une mesure de similitude donnée. L’efficacité globale de la méthode peut être mesurée uniquement si les similitudes réelles sont connues, ce qui suppose pour une méthode automatique une classification des documents. En général, une évaluation des méthodes de recherche demande :

1. une collection de N documents (la base de données). 2. un ensemble de M requêtes de référence.

3. un ensemble de m´etriques d’´evaluation.

La pratique commune pour évaluer l’efficacité de retrouvaille (retrieval en anglais) est la suivante : une requête est présentée au système, le système renvoie une liste de k documents classés en fonction de leur degré de similitude avec la requête, fonction de la métrique utilisée ; puis, pour chaque valeur de k (= nombre de documents présentés en réponse à la requête, que nous appellerons “fenêtre de retrouvaille”), les valeurs suivantes sont calculées (Vn est

la pertinence du document n, Vn = 1 si la requête et le document n présenté en réponse

appartiennent `a la mˆeme classe, Vn= 0 sinon) :

– les détections (équation 1.1) : le nombre d’objets appropriés extraits Ak=

k−1

n=0

Vn (1.1)

– les faux positifs (équation 1.2) : documents retrouvés par la recherche mais ne correspondant pas à la requête

Bk= k−1

n=0

(1 − Vn) (1.2)

– les faux négatifs (équation 1.3) : documents appropriés à la requête mais non retrouvés par la recherche Ck= N −1 X n=0 Vn− Ak (1.3)

Les mesures de performance usuelles du domaine de la recherche d’information sont en- suite calcul´ees :

– le rappel (équation 1.4) : rapport entre le nombre d’objets appropriés extraits et le nombre d’objets appropriés (extraits et non extraits) dans la base de données.

Rk=

Ak+ Ck

(1.4) – la précision (équation 1.5) : rapport entre le nombre d’objets appropriés extraits et le

nombre total d’objets extraits (appropri´es et non appropri´es). Pk=

Ak+ Bk

La précision et le rappel donnent une bonne indication de la performance de la méthode (ils prennent des valeurs entre 0 et 1 ; les valeurs élevées, voisines de 1, indiquent une bonne performance). Mais une mesure seule est insuffisante. Nous pouvons toujours avoir le rappel ´

egal à 1, simplement en donnant à k une valeur égale à la taille de la base. De même, la précision gardera des valeurs élevées en recherchant seulement quelques documents (k taille de la base). Ainsi, la précision et le rappel sont en général utilisés ensemble (par exemple, la valeur de précision où le rappel est égal à 0.5 ), ou le nombre de documents proposés (valeur d’arrêt) est indiqué (par exemple, le rappel quand 100 images sont affichées, ou la précision pour 20 images). Le nombre k de documents proposés est choisi par l’utilisateur. Dans la pratique, ce nombre est choisi pour que ces k documents soient visualisés commodément. Cependant, les mesures sont sensibles au choix du nombre k. Si le nombre est petit, les petites différences dans l’exécution des algorithmes peuvent mener à de grandes différences dans la précision et le rappel. D’autre part, de grandes valeurs de k ne permettent pas de distinguer les différences de performance. Par conséquent, les deux mesures sont souvent calculées pour différentes valeurs de k et représentées sur le même graphique : nous obtenons une courbe paramétrée par k. Le résultat graphique est appelé graphique “précision - rappel” comme représenté sur la figure 1.4.

Figure 1.4 — Courbes de précision-rappel. Plusieurs courbes de précision-rappel sont présentées sur la figure, chacune étant associée à une méthode de recherche. La méthode la plus performante est celle dont la courbe est le plus à droite : les valeurs de précision sont

les plus ´elev´ees pour toutes les valeurs de rappel.

Dans le document Fouille de séquences d'images médicales. Application en chirurgie mini-invasive augmentée (Page 31-33)