Collections de test - Évaluation des performances des systèmes de RI

2.2 Les fondements de la recherche d’information

2.2.4 Évaluation des performances des systèmes de RI

2.2.4.1 Collections de test

La collection de test constitue le contexte d’évaluation, c’est-à-dire les élé- ments qui vont servir à évaluer un modèle de RI. Une collection de test regroupe un ensemble de documents, des requêtes formulant des besoins en information et des jugements de pertinence associés qui recensent les documents pertinents pour chacune des requêtes. Cette approche d’évalua- tion correspond au paradigme de Cranfield (Cleverdon, 1997) qui a suscité le développement de nombreuses campagnes d’évaluation depuis les années 1970. Ces dernières présentent l’avantage de cibler une tâche particulière et d’évaluer l’efficacité des systèmes répondant à cette tâche. Les campagnes d’évaluation les plus connues sont :

1. La campagne TREC1 –Text REtrieval Conference– est une des pre- mières des campagnes qui regroupe à ce jour un large panel de tâches, telles que la recherche ad-hoc, ou également les tâches de recherche dans les microblogs ou celles orientées pour les systèmes de questions- réponses.

2. La campagne INEX –Initiative for the Evaluation of XML Retrieval– oriente ses tâches de recherche vers des collections de documents struc- turés.

3. La campagne CLEF2 –Conference and Labs of the Evaluation Forum– propose des campagnes dans des langues différentes de l’anglais, traité majoritairement dans les campagnes TREC. En plus de proposer des tâches de recherche sur des documents, cette campagne fournit égale- ment des collections d’images associées à des annotations.

4. La campagne NTCIR3 a aussi développé diverses collections d’essais, avec une attention particulière aux langues d’Asie de l’Est et la recherche d’information multilingue. Les requêtes sont faites dans une langue, toutefois, les collections de documents contiennent des documents dans une ou plusieurs autres langues. Cette campagne propose différentes tâches d’évaluation de système de RI telles que les systèmes

1. http://trec.nist.gov

2. http://www.clef-initiative.eu/

de questions-réponses (Q&A task), RI mobile (tâche MobileClick-2), RI temporelle, etc.

Dans TREC, les recherches étaient centrées au départ (de TREC 1 à TREC 6) sur deux tâches principales : la tâche de routage et la tâche ad-hoc. La tâche ad-hoc est constituée d’un ensemble de nouvelles requêtes qui sont lancées sur une collection de documents fixés, et la tâche de routage est composée d’un ensemble de requêtes fixes lancées sur une collection de documents en évolution. L’émergence de la RI orienté utilisateur a recentré ce dernier au sein du processus d’évaluation. De nouvelles tâches considérant la dimension de l’utilisateur sont apparues, parmi lesquelles :

1. La tâche TREC Interactive : qui consiste en la résolution d’un besoin complexe. Les participants doivent alors fournir les fichiers log qui recensent les interactions des utilisateurs (requêtes soumises, documents visités, ...).

2. La tâche TREC Contextual Suggestion : qui consiste en une suggestion de documents à partir d’un ensemble de profils utilisateur et d’un contexte, traduisant respectivement les préférences et la localisation des utilisateurs.

3. La tâche TREC Session Search : qui consiste en l’ordonnancement des documents vis-à-vis d’une requête particulière, soumise à un moment donné de la session, à partir de l’historique de recherche antérieur d’un utilisateur (requêtes reformulées antérieurement et leurs ordonnance- ments et jugements de pertinence associés).

Chacune de ces tâches d’évaluation propose une ou plusieurs collections de tests, généralement composées : d’une collection de documents, d’une collection de requêtes, et des jugements de pertinence des documents par rapport à ces requêtes.

1. Collection de requêtes : appelées aussi “topics”, simule l’activité de recherche de l’utilisateur. Pour exploiter au mieux les caractéristiques de la collection de documents et avoir une évaluation assez objective, il est important de créer un ensemble de quelques dizaines de requêtes et qui soient adéquates par leur longueur, les thèmes abordés, leur forme, etc. Les requêtes sont généralement artificielles formulées par des as- sesseurs qui participent à la compagne d’évaluation, mais elle peuvent aussi être de vraies requêtes extraites à partir de log de recherche Web comme c’est le cas pour la tâche Web de TREC.

2. Corpus de documents : c’est un ensemble de documents sur lesquels les systèmes de RI posent des requêtes et récupèrent les documents pertinents. Il existe de très nombreux ensembles de documents en accès libre, notamment sur le Web : des documents plus ou moins vulgari- sés, plus ou moins spécialisés dans un domaine, dans une langue ou une autre, etc. Le choix d’une collection ou autre dépend de la tâche de recherche que l’on veut évaluer, pour garantir une représentativité par rapport à la tâche. De même que la spécification du volume des collections de documents utilisées dans l’évaluation est relativement dépendante de la tâche de recherche impliquée dans le système de RI à évaluer, pour garantir une diversité des sujets et du vocabulaire. 3. Jugements de pertinence : Les jugements de pertinence indiquent pour

chaque document du corpus s’il est pertinent, et parfois même à quel degré il l’est, pour chaque requête. Pour établir ces listes de documents pour toutes les requêtes, les utilisateurs (ou des testeurs simulant des utilisateurs) doivent examiner chaque document de la base de documents, et juger s’il est pertinent par rapport à une requête donnée. Dans les programmes d’évaluation tels que TREC, les collections de documents contiennent plus d’un million de documents, ce qui rend impossible le jugement exhaustif de pertinence. Ainsi, dans le cas de grandes collections, les jugements de pertinence sont construits selon la technique de pooling, effectuée à partir des 1000 premiers documents retrouvés par les systèmes participants. Cette technique est souvent utilisée dans les compagnes d’évaluation telles que TREC ou CLEF.

Dans le document Définition et évaluation de modèles d'agrégation pour l'estimation de la pertinence multidimensionnelle en recherche d'information (Page 56-58)