Campagnes d’évaluation - Contribution à l'analyse et l'évaluation des requêtes expertes : cas d

Les campagnes d’évaluation les plus réputées sont :

1. La campagne TREC2 (Text REtrieval Conference) est une campagne de référence en RI permettant d’évaluer des SRI au regard de la dimension thématique. C’est le protocole le plus utilisé pour évaluer les performances de la RI, fournissant plusieurs collections de test. Initiée en 1992 comme une partie du programme TIPSTER, la campagne TREC est un projet du NIST3 et la DARPA4.

2. La campagne CLEF5_{(Conference and Labs of the Evaluation Forum) est une initiative} permettant de promouvoir la recherche d’information multilingue basée sur les langues européennes. Nous trouvons plus de détails sur l’évaluation à base de différentes collections de test dans (Clough et Sanderson, 2013).

3. La campagne INEX (Initiative for the Evaluation of XML Retrieval) oriente ses tâches de recherche vers des collections de documents structurés.

4. Le projet NTCIR6 a développé diverses collections de test de tailles similaires aux collections de TREC, en se concentrant sur les langues d’Asie de l’Est et la recherche d’information multilingue. Les requêtes sont faites dans une langue, toutefois, les collections de documents contiennent des documents dans une ou plusieurs autres langues.

Nous détaillons dans ce suit les deux campagnes les plus populaires TREC et CLEF ainsi que quelques tâches associées.

5.2.1 Protocole d’évaluation TREC

Les différentes méthodes et mesures d’évaluation sont le cœur des campagnes d’évaluation TREC (Text REtrieval Conference) (Voorhees, 2005). TREC vise à fournir une plate-forme commune pour évaluer les systèmes de recherche d’information en développant des collections de test. Comme présenté ci-dessus une collection de test est constituée d’un corpus de documents, un ensemble de requêtes et un ensemble de jugement de pertinence fournis par des utilisateurs experts. Le corpus de documents et les requêtes associées sont mises à la disposition des différentes équipes participant au TREC.

2. http ://trec.nist.gov

3. National Institute of Standards and Technology 4. Defence Advanced Research Projects Agency 5. http ://www.clef-initiative.eu/

Les équipes utilisent les méthodes de recherche qu’ils ont développé pour exécuter les requêtes et soumettre les résultats aux organisateurs, sous forme d’une liste ordonnée de documents. Ces derniers évaluent donc les soumissions de chacune des équipes selon les jugements de pertinence.

TREC traite plusieurs domaines et concerne les documents des collections de blogs (Ounis et al., 2006), de vidéos (Smeaton et al., 2006), de tweets (LaRock et al., 2014) et la RI biomédicale dans le cadre de TREC Genomics (Hersh et Voorhees, 2009).

L’évaluation de performance des résultats renvoyés par les différentes approches de RI est principalement basée sur le modèle de Cranfield (Voorhees, 2002). Cette approche d’évalua- tion est basée sur l’hypothèse que chaque document de la collection est jugé pertinent ou non-pertinent pour chaque requête à évaluer (Cleverdon, 1991). Selon le protocole de TREC, la collection de test contient des documents originaux et elle est fournie pour chaque groupe participant. Une première phase est d’indexer la collection selon une technique choisie par les participants. Ensuite, le SRI retourne les 1000 premiers documents pour chaque requête. Les résultats finaux sont soumis à TREC pour être évalués d’une manière officielle.

Plusieurs tâches sont apparues, considérant diverses dimensions et domaines de la RI, telles que la RI orientée utilisateur, la RI médicale, la RI contextuelle, etc. Parmi ces tâches, nous citons :

1. La tâche TREC Filtering : c’est une tâche dans laquelle l’algorithme de recherche décide uniquement si un document est pertinent (cas ou il a été sélectionné) ou pas (cas ou il n’a pas été sélectionné).

2. La tâche TREC Interactive : c’est une tâche qui consiste en la résolution d’un besoin complexe. L’utilisateur interagit avec les systèmes de RI pour sélectionner les documents pertinents.

3. La tâche TREC NLP : le but de cette tâche est de vérifier si les algorithmes basés sur le traitement du langage naturel présentent des avantages comparés aux algorithmes traditionnels de RI basés sur les termes de l’index.

4. La tâche Cross language : c’est une tâche ad-hoc dans laquelle les documents paraissent dans une seule langue mais les requêtes sont de diverses langues.

5. La tâche TREC Contextual Suggestion : elle consiste en une suggestion de lieux d’activités à partir d’un ensemble de profils utilisateur et d’un contexte, traduisant respectivement les préférences et la localisation des utilisateurs.

5.2.2 Protocole d’évaluation CLEF

Cette campagne offre une infrastructure pour diverses tâches, à savoir : évaluer les systèmes multilingues et multimodaux ; possibilité de réglage de paramètres et d’évaluation ; possibilité d’utiliser et d’accéder aux données non structurées, semi-structurées ou très structurées ainsi que les données sémantiquement enrichies ; création des collections de test réutilisables pour les analyses comparatives ; exploration de nouvelles méthodes et approches d’expéri- mentations et d’évaluation innovantes ; et possibilité de discuter les résultats, comparer les approches et échanger les idées afin de partager les connaissances.

CLEF propose différentes pistes d’évaluation : Ad-Hoc Track editions in CLEF pour la recherche de documents multilingues (de 2000 à 2009), Cross-Language Retrieval in Image

Collections (ImageCLEF)(de 2003 à 2009), Multilingual Web Track (WebCLEF)(de 2005 à 2008) et beaucoup d’autres pistes comme GeoCLEF et videoCLEF. Plus de détails sur l’évaluation à base de collections de test sont donnés dans (Sanderson, 2010).

Différentes tâches apparaissent au fil du temps dans le cadre de plusieurs initiatives CLEF, telles que :

1. CLEF eHealth : cette tâche explore des scénarios dont le but est d’aider les patients à comprendre et accéder à l’information médicale en ligne "eHealth". Le but est de dé- velopper des méthodes et des ressources dans un cadre multilingue afin d’améliorer la compréhension des textes médicaux difficiles. Dans le cadre de CLEF eHealth, il existe deux tâches :

— Tâche 1 - Information Extraction from Clinical Data : elle comprend deux parties, à savoir : (a) Clinical speech recognition et (b) Named entity recognition from clinical narratives in European languages.

— Tâche 2 - User-centered Health Information Retrieval qui comprend deux parties, à savoir : (a) Monolingual IR (English), et (b) Multilingual IR (Chinese, Czech, French, German, Portuguese, Romanian).

2. ImageCLEF : ImageCLEF offre quatre tâches dans un objectif global de l’évaluation automatique des annotations et d’indexation des images. Cette tâche s’adresse à différents aspects problématiques de l’annotation dans différents domaines, à savoir :

— Tâche 1 - Image Annotation : cette tâche a pour but de développer des systèmes pour l’annotation multi-concept des images, de la localisation ainsi que la génération des descriptions médicales.

— Tâche 2 - Medical Classification : propose de résoudre le problème de la séparation des figures composées de la littérature biomédicale.

— Tâche 3 - Medical Clustering : résout les problèmes de l’agrégation des images repré- sentant différentes parties du corps en radiologie médicale (x-rays).

— Tâche 4 - Liver CT Annotation : permet d’étudier les rapports automatiques struc- turés en offrant un système qui aide à annoter automatiquement les scanners appelés aussi computed tomography.

3. Question answering (QA) : dans le cadre de cette tâche, un effort pour améliorer les requêtes ou les questions de utilisateurs. En effet, répondre à une question initiale écrite en langage naturel peut demander des données liées à cette requête, des inférences textuelles ou encore un requêtage en texte libre. Les tâches associées sont donc :

— Tâche 1 – QALD : Question Answering over Linked Data ; — Tâche 2 – Entrance Exams : Questions from reading tests ; — Tâche 3 – BioASQ : Large-Scale Biomedical Semantic Indexing ; — Tâche 4 – BioASQ : Biomedical Question answering.

Afin d’accomplir la tâche d’évaluation expérimentale, des SRI expérimentaux ont été dévelop- pés, les deux principaux dans le domaine de la RI, étant Terrier7 et Lemur8. Terrier est un moteur de recherche à accès libre très flexible, efficace et facilement déployable sur les grandes collections de documents. Il offre des fonctionnalités pour différentes tâches de RI, comme

7. http ://terrier.org/

l’indexation, la recherche et l’évaluation expérimentale sous la dernière version (Terrier 4.0). Le projet Lemur développe et offre des moteurs de recherche, les barres d’outils, des outils d’analyse de texte, et les ressources de données qui appuient la recherche et le développement de la RI ainsi que des outils de fouille de textes. Ces deux moteurs de recherche expérimentaux sont les plus utilisés par la communauté de RI. Dans le cadre de notre travail, nous avons utilisé la dernière version de Terrier (Terrier 4.0).

Dans le document Contribution à l'analyse et l'évaluation des requêtes expertes : cas du domaine médical (Page 46-49)