Evaluation d’un système de recherche d’information

La notion centrale dans l’évaluation d’un système de recherche est celle de la

pertinence d’un document à l’égard d’une requête exprimée par l’utilisateur. La

per-formance d’un système se mesure généralement autour de cette notion. Un document est considéré comme pertinent s’il contient des informations qui répondent au besoin d’information de l’utilisateur, sinon il est considéré comme non pertinent. Le but de tous les systèmes de recherche est de pouvoir trouver le plus possible de documents pertinents et le moins possible de documents non pertinents. La problématique est alors de définir la pertinence et à partir de cette définition quels éléments prendre en compte dans sa mesure.

6.2.1 Notion de pertinence

Une des difficultés pour définir la pertinence provient de la subjectivité inhérente à cette notion. Les utilisateurs d’un système de recherche ont des besoins très variés et adoptent souvent des critères différents pour juger de la pertinence d’un document. La pertinence n’est pas une relation isolée entre un document et une requête. Elle fait appel aussi au contexte du jugement : le besoin d’information, les compétences de l’utilisateur, la représentation du document, l’impression de nouveauté, etc. (Baeza-Yates & Ribeiro-Neto, 1999).

Certains facteurs, comme l’ordre de présentation des documents, les possibilités d’expression de la requête, sont plus faciles à analyser et à modéliser. D’autres facteurs au contraire, comme l’état du savoir de l’utilisateur, le besoin d’information, sont expri-més par les utilisateurs donc varient en fonction des individus. La prise en compte de la subjectivité de l’utilisateur est particulièrement importante. Or il est difficile d’avoir un échantillon suffisamment important d’utilisateurs pour prendre en compte l’ensemble des besoins. De plus, il est possible que le même utilisateur change son jugement de pertinence au cours du temps.

dans la base.

2. La précision mesure la proportion des documents pertinents parmi tous les documents retrouvés par le système.

Mizzaro (Mizzaro, 1997; Mizzaro, 1998) a fait une synthèse sur la notion et les différents aspects de la pertinence dans le contexte de la recherche d’information. Draper (Draper, 1998) a réalisé une étude précise sur le modèle de Mizzaro. Dans le cadre de notre étude, nous considérons la pertinence du point de vue du système. Nous nous intéressons aux effets de la traduction de la requête sur le résultat de la recherche d’information. Nous nous contentons donc d’effectuer une évaluation basée sur les critères traditionnels de pertinence (précision/rappel) à l’aide d’une collection de test, approche dite ‘expérimentale’3.

Rappelons que le but de la recherche d’information est de donner l’accès aux do-cuments répondant à un besoin d’information exprimé par une requête généralement formulée en langue naturelle. La performance d’un système de recherche doit être dé-finie en fonction de la correspondance entre les réponses du système et les réponses que l’utilisateur espère obtenir. Beaucoup de variables interviennent dans le jugement de pertinence, i.e., réponses attendues d’un utilisateur (Mizzaro, 1998; Fluhr, 2000) : le document, la description de celui-ci, l’information que l’utilisateur reçoit, l’origine de la demande d’information, le besoin d’information, la représentation du besoin d’in-formation en langage naturel (question) et en langage machine (requête). En général on emploie des questions artificielles (présélectionnées) et on utilise des juges spécialistes du domaine pour estimer la pertinence de la réponse. C’est le principe de la collection

de test.

Les trois composants indispensables d’une collection de test sont en général : un ensemble de documents, un ensemble de requêtes et la liste des documents perti-nents pour chaque requête. Par exemple ‘Cranfield II’ (Cleverdon et al., 1996) est une des premières collections test et contient 1 398 documents et 225 requêtes. Pour que les résultats de l’évaluation pour une collection test soient significatifs, celle-ci doit contenir un nombre assez important de documents. L’ensemble des collections⁴ déve-loppé dans le cadre de TREC (‘Text Retrieval Conference’) à partir de 1992 contient plusieurs millions de documents5. Lorsque le nombre de documents devient trop im-portant dans une collection, le jugement de pertinence devient une tâche laborieuse car son volume est proportionnel à la multiplication du nombre des documents par celui des requêtes. C’est la raison pour laquelle la technique dite ‘pooling method’ (Sparck Jones & van Rijsbergen, 1975) (jugement sur échantillon) a été proposée afin de per-mettre de construire des collections test de grande taille. L’idée consiste à fixer un seuil pour le nombre de documents jugés pertinents, pour chaque requête, par différents sys-tèmes de recherche d’information et à n’utiliser que ce nombre de documents dans le 3. Van Rijsbergen (van Rijsbergen, 1979) distingue deux types d’expérimentations pour évaluer les résultats de la recherche d’information : les approches expérimentales et opérationnelles. La principale différence entre ces deux approches est que dans les situations expérimentales, le jugement de la per-tinence du document est donné par avance par un certain nombre de personnes sélectionnées (souvent des experts du domaine) ; dans un contexte opérationnel, la pertinence du document n’est pas prédéfinie et dépend donc du point de vue individuel de l’utilisateur.

4. http://trec.nist.gov/data.html

jugement des experts.

6.2.2 Mesures de la performance des systèmes de recherche

d’in-formation

Les deux critères les plus utilisés pour évaluer un système de recherche d’infor-mation sont le taux de précision et celui de rappel. Lorsqu’il s’agit d’un système basé sur le modèle booléen qui donne des réponses de forme binaire (Oui/Non) (un docu-ment est pertinent ou pas pour une requête donnée) et que l’ensemble des docudocu-ments pertinents est connu dans la base, il est possible de mesurer la performance du système à partir des paramètres définis par le tableau 6.1. La précision est définie par la

pro-TAB. 6.1 – Table des mesures de performance d’un système Pertinents Non pertinents

Trouvés a b

Non trouvés c d

portion de documents pertinents retrouvés par rapport au nombre total de documents retrouvés par le système et le rappel par le rapport du nombre de documents pertinents retrouvés par rapport au nombre total de documents pertinents de la base :

P récision = _a+bâ Rappel = _a+câ

D’un autre point de vue, nous pouvons aussi définir les notions de ‘bruit’ et ‘silence’ qui sont respectivement complémentaires de la précision et du rappel :

Bruit = 1 − P r´ecision Silence = 1 − Rappel

L’idéal serait qu’un système donne un taux de rappel et de précision de 100%. Cela signifie que tous les documents de la base retrouvés sont pertinents pour chaque requête. En pratique, ces deux mesures ne sont pas indépendantes, elles varient en proportion inverse. Lorsque l’une augmente, l’autre diminue. Les valeurs exactes de la précision et du rappel ne sont pas accessibles pour de multiples raisons liées aux difficultés dans le jugement de la pertinence, que nous avons évoquées dans la section précédente : ces valeurs peuvent varier en fonction des personnes qui examinent les documents. De plus le nombre de documents retrouvés n’est pas fixe pour toutes les requêtes, il peut varier en fonction du type de système utilisé. Par exemple, le modèle probabiliste propose souvent une liste de réponses longue : en général, tous les docu-ments de la base sont ordonnés. Une longue liste correspond en général à un ratio de rappel élevé mais un taux de précision bas.

Courbe précision-rappel

Pour toutes les raisons décrites ci-dessus, les valeurs exactes de précision et de rappel ne sont pas accessibles. Ainsi il est préférable de calculer des valeurs relatives afin de pouvoir comparer différents systèmes ou différents paramètres au sein d’un même système. Ces mesures sont en général calculées à plusieurs niveaux, i.e., la pré-cision aux N premiers documents retrouvés (‘cut-off level N ’) ou la prépré-cision pour des valeurs prédéfinies du rappel (de 0% à 100% par intervalle de 10%). La performance d’un système peut être représentée ainsi sous la forme d’une courbe précision/rappel.

Il est fréquent d’appliquer l’interpolation sur cette courbe car les valeurs exactes du rappel peuvent ne pas être atteintes. L’interpolation consiste à lisser la courbe ini-tiale pour qu’elle soit décroissante : la valeur interpolée de la précision pour un point de rappel i est la précision maximale obtenue pour un point supérieur ou égal à i. L’avantage de cette technique est de permettre de définir la précision pour des valeurs standardisées.

Lorsque l’on veut comparer deux systèmes ou deux méthodes de recherche d’in-formation, il est difficile dans la pratique d’utiliser les courbes précision-rappel décrites précédemment comme seule base de comparaison. Il arrive parfois qu’un système pré-sente une meilleure performance sur certaines requêtes par rapport à un autre système et que ce soit le cas contraire pour d’autres requêtes. Dans ce cas-là, l’évaluation de la performance peut s’effectuer sur la base d’une seule valeur. Nous présentons ici quelques mesures souvent utilisées : précision moyenne non interpolée et interpolée, R-précision et F-mesure.

Précision moyenne non interpolée

Lorsque les documents retrouvés sont classés par ordre décroissant en fonction de leur probabilité de pertinence dans l’ensemble des documents (ce qui est le cas des systèmes basés sur le modèles vectoriel et probabiliste), la précision moyenne non in-terpolée ‘Uninterpolated Average Precision’, mesure utilisée dans TREC (Hull, 1997; Hull & Grefenstette, 1996), permet d’évaluer la performance du classement. Cette mesure favorise les systèmes de recherche qui trouvent plus de documents pertinents parmi les premiers documents retournés.

L’idée est de calculer, pour chaque requête, les valeurs de précision obtenues sur les document pertinents en tenant compte de leur position dans la liste des documents retrouvés. La précision moyenne est obtenue en divisant la somme de ces différentes valeurs de précision par le nombre total de documents pertinents dans la base. Consi-dérons une requête donnée Q pour laquelle les 3 documents pertinents sont trouvés aux rangs 1, 5 et 8. Les précisions obtenues pour chaque document pertinent sont res-pectivement 1, 0,4 et 0,375. La précision moyenne non interpolée est de 0,59 résultat de (1 + 0, 4 + 0, 375)/3.

Précision moyenne interpolée

La précision moyenne interpolée consiste à calculer tout simplement la moyenne de toutes les précisions aux différents seuils de rappel pour l’ensemble des requêtes. La précision moyenne sur 11 points (à partir des précisions obtenues aux seuils de rappel 0.0, 0.1... 1.0) est une mesure souvent utilisée dans les évaluations des différents systèmes de recherche d’information. La précision moyenne sur 10 points (0.1, 0.2...

1.0) est également utilisée.

R-précision

La R-précision mesure la précision obtenue pour un nombre de documents re-tournés. Ce nombre est fixé pour chaque requête en fonction du nombre de documents pertinents présents dans la base. Les rangs des documents pertinents retournés sont donc ignorés. La R-précision peut être intéressante dans la mesure où la base contient un nombre important de documents pertinents ce qui est le cas pour les collections TREC.

La R-précision est calculée pour chaque requête, la moyenne des R-précisions est obtenue en additionnant ces différentes valeurs et en divisant la somme par le nombre total des requêtes. Par exemple, soit une expérience réalisée avec trois requêtes dont la première a 30 documents pertinents dans la base de recherche, la deuxième 50 et la troisième 15. Pour ces requêtes le système trouve respectivement 10 documents parmi les 30 premiers documents retournés, 30 parmi les 50 premiers et 10 parmi les 15 premiers. La moyenne des R-précision de cette expérience est 0.533 (

30+³⁰₅₀+¹⁰₁₅

3 ).

F-mesure

La F-mesure proposée dans la thèse de Van Rijsbergen (van Rijsbergen, 1979) mesure l’efficacité globale d’un système de recherche d’information. Elle combine la précision (P ) et le rappel (R) en une seule mesure. En général, on donne la même importance à ces deux paramètres :

F = ^{2 × P × R} P + R

Dans le document Extraction lexicale bilingue à partir de textes médicaux comparables : application à la recherche d'information translangue (Page 120-124)