Evaluation d'un système de RI - : Les Systèmes de Recherche d’Information

Chapitre 1 : Les Systèmes de Recherche d’Information

5. Evaluation d'un système de RI

Le but de la RI est de trouver des documents pertinents à une requête, et donc utiles pour l'utilisateur. La qualité d'un système doit être mesurée en comparant les réponses du système avec les réponses idéales que l'utilisateur espère recevoir. Plus les réponses du système correspondent à celles que l'utilisateur espère, mieux est le système.

5.1 Corpus de test (références)

Pour arriver à une telle évaluation, on doit connaître d'abord les réponses idéales de l'utilisateur. Ainsi, l'évaluation d'un système s'est faite souvent avec certains corpus de test. Dans un corpus de test, il y a:

• un ensemble de documents; • un ensemble de requêtes;

• la liste de documents pertinents pour chaque requête.

Pour qu'un corpus de test soit significatif, il faut qu'il possède un nombre de documents assez élevé. Les premiers corpus de test développés dans les années 1970 renferment quelques milliers de documents. Les corpus de test plus récents (par exemple, ceux de TREC2) contiennent en général plus 100 000 documents (considérés maintenant comme un corpus de taille moyenne), voir des millions de documents (corpus de grande taille). Parmi les collections de documents de test les plus utilisées en RI citons :

• La collection CACM regroupant les titres et les résumés triés du journal CACM ; • La collection Cranfield traitant des résumés du domaine « Aeronautical

Engineering » ;

• La collection Medline traitant les articles triés du journal « Medical Journal » ; • La collection Time constituant les articles triés du journal Time.

Le tableau 1.2 récapitule ces collections.

Nombre de documents Nombre de requêtes

CACM3 3240 64

CISI4 1460 112

CRAN5 1400 225

MED6 1033 30

TIME7 425 83

Tableau 1.2 : Quelques collections de documents de test en RI

L'évaluation d'un système ne doit pas se reposer seulement sur une requête. Pour avoir une évaluation assez objective, un ensemble de quelques dizaines de requêtes, traitant des sujets variés, est nécessaire. L'évaluation du système doit tenir compte des réponses du système pour toutes ces requêtes.

Finalement, il faut avoir les réponses idéales pour l'utilisateur pour chaque requête. Le dernier élément d'un corpus de test fournit cette information. Pour établir ces listes de documents pour toutes les requêtes, les utilisateurs (ou des testeurs simulant des utilisateurs) doivent examiner chaque document de la base de document, et juger s'il est pertinent. Après cet exercice, on connaît exactement quels documents sont pertinents pour chaque requête. Pour la construction d'un corpus de test, les jugements de pertinence constituent la tâche la plus difficile. 2_{http://trec.nist.gov/} 3_{http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/cacm/} 4_{http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/cisi/} 5_{http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/cran/} 6_{http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/medl/} 7_{http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/time/}

5.2 Rappel et Précision

La comparaison des réponses d'un système pour une requête avec les réponses idéales nous permet d'évaluer les métriques suivantes :

5.2.1 Le Rappel

Le rappel mesure la proportion de documents pertinents retrouvés parmi tous les documents pertinents dans la base. La proportion complémentaire est le Silence qui correspond à la proportion de documents pertinents non retrouvés.

P R P

Rappel= ∩ ∈ [0, 1] et Silence= 1−Rappel (1.4) Avec : P représente le nombre de documents pertinents dans tout le corpus.

R représente le nombre de documents retrouvés.

5.2.2 La Précision

La précision mesure la proportion de document pertinent retrouvé parmi tous les documents retrouvés par le système. La proportion complémentaire est le Bruit qui correspond à la proportion de documents retrouvés qui ne sont pas pertinents.

R R P

précision= ∩ ∈ [0, 1] et Bruit= 1− précision (1.5)

5.2.3 La F-mesure

Plusieurs indicateurs de synthèse ont été créés à partir de deux mesures de Rappel et de la Précision, mais le plus célèbre est la F-mesure. Cette mesure correspond à une moyenne harmonique de la précision et du rappel. Cette moyenne diminue lorsque l’un de ses paramètres est petit et augmente lorsque les deux paramètres sont proches tout en étant élevés [Rijsbergen, 1979]. rappel précision rappel précision mesure F + × × + = − ) ( ) 1 ( 2 2 β β (1.6) Le paramètreβ permet de pondérer la précision ou le rappel, il est égal généralement à la valeur 1. Pour effectuer ces mesures, il faut disposer des réponses idéales aux requêtes en question. La Figure 1.5 illustre ces formules.

Figure 1.5 : Rapprochement de pertinences système et utilisateur

Ensemble de documents du corpus

Ensemble de documents pertinents dans tout le

corpus Bruit

Silence Ensemble de

Par ailleurs, un système idéal est un système donne de bons taux de précision et de rappel en même temps. Un système qui aurait 100% pour la précision et pour le rappel signifie qu'il trouve tous les documents pertinents, et rien que les documents pertinents. Cela veut dire que les réponses du système à chaque requête sont constituées de tous et seulement les documents idéaux que l'utilisateur a identifiés. En pratique, cette situation n'arrive pas. Plus souvent, nous pouvons obtenir un taux de précision et de rappel aux alentours de 30%.

En fait, les deux métriques ne sont pas indépendantes. Il y a une forte relation entre elles : quand l'une augmente, l'autre diminue. Il ne signifie rien de parler de la qualité d'un système en utilisant seulement une des métrique. En effet, il est facile d'avoir 100% de rappel: il suffirait de donner toute la base comme la réponse à chaque requête. Cependant, la précision dans ce cas-ci serait très basse. De même, on peut augmenter la précision en donnant très peu de documents en réponse, mais le rappel souffrira. Il faut donc utiliser les deux métriques ensemble.

Les mesures de précision-rappel ne sont pas statiques non plus (c'est-à-dire qu'un système n'a pas qu'une mesure de précision et de rappel). Le comportement d'un système peut varier en faveur de précision ou en faveur de rappel (en détriment de l'autre métrique).

Pour comparer deux systèmes de RI, il faut les tester avec le même corpus de test (ou plusieurs corpus de test). Un système dont la courbe dépasse (c'est-à-dire qu'elle se situe en haut à droite de) celle d'un autre est considéré comme un meilleur système.

Il arrive parfois que les deux courbes se croisent. Dans ce cas, il est difficile de dire quel système est meilleur. Pour résoudre ce problème, nous pouvons utiliser aussi la précision

moyenne comme une mesure de performance. En effet, la précision moyenne est une moyenne

de précision sur un ensemble de points de rappel. Cette précision moyenne pouura être utilisée soit sur 10 points de rappel (0.1, …, 1.0), soit sur 11 points de rappel (0.0, 0.1, …, 1.0). Cette dernière est possible seulement avec la polarisation.

La précision moyenne décrit bien la performance d'un système. C'est la mesure souvent utilisée en RI.

Dans le document SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web (Page 35-38)