• Aucun résultat trouvé

1.6 Organisation de la thèse

2.1.3 Evaluation

L’évaluation d’un SRI permet de vérifier l’efficacité des modèles mis en oeuvre pour l’identification des documents pertinents. Dans cette section, nous pré-sentons le cadre d’évaluation d’un SRI ainsi que les mesures d’évaluation sous-jacentes.

2.1.3.1 Le protocole d’évaluation

Dans l’objectif d’évaluer un modèle de RI, il est nécessaire de constituer des col-lections de test qui recoupent un ensemble de documents, des requêtes formulant des besoins en information et des jugements de pertinence associés qui recensent les documents pertinents pour chacune des requêtes. Cette approche d’évalua-tion correspond au paradigme de Cranfield (Cleverdon, 1997) qui a suscité le développement de nombreuses campagnes d’évaluation. Ces dernières présentent l’avantage de cibler une tâche particulière et d’évaluer l’efficacité des systèmes répondant à cette tâche. A l’initiative de cette démarche, le projet Cranfield-1, dirigé par Cleverdon, a constitué une collection de référence constituée de 18 000 documents et de 1 200 requêtes associées à un unique document pertinent. Par la suite, le projet Cranfield-2 a établi des protocoles d’expérimentation basés sur l’hypothèse que les jugements de pertinence permettent de faire émerger la réponse globale au besoin en information sur un ensemble de participants et qu’une requête peut être associée à un ensemble de documents pertinents. Ainsi, les jugements de pertinence sont estimés selon une méthode de pooling où un ensemble d’individus, appelés juges, annotent manuellement les top docu-ments retournés par chacun des participants de la campagne d’expérimentation. La technique de pooling utilisée lors des campagnes d’évaluation officielles est illustrée dans la Figure 2.4.

Les campagnes d’évaluation les plus connues sont :

1. La campagne TREC1 –Text REtrieval Conference– est une des premières

des campagnes qui regroupe à ce jour un large panel de tâches, telles que la

Figure2.4: Protocole pour les campagnes d’évaluation officielles

recherche ad-hoc, ou également les tâches de recherche dans les microblogs ou celles orientées pour les systèmes de questions-réponses,

2. La campagne INEX2 –Initiative for the Evaluation of XML Retrieval–

oriente ses tâches de recherche vers des collections de documents structurés. 3. La campagne CLEF3 –Conference and Labs of the Evaluation Forum– pro-pose des campagnes dans des langues différentes de l’anglais, traité majo-ritairement dans les campagnes TREC. En plus de proposer des tâches de recherche sur des documents, cette campagne fournit également des collec-tions d’images associées à des annotacollec-tions.

Dans ces campagnes, l’évaluation est plutôt centrée vers des tâches ad-hoc, ne considérant pas la dimension de l’utilisateur. L’émergence de la RI interactive et contextuelle (Dumais, 2009) a recentré l’utilisateur au sein du processus d’éva-luation. De nouvelles tâches sont apparues, parmi lesquelles :

1. La tâche TREC Interactive4 qui consiste en la résolution d’un besoin com-plexe. Les participants doivent alors fournir les fichiers log qui recensent les interactions des utilisateurs (requêtes soumises, documents visités, ...). 2. La tâche TREC Contextual Suggestion5 qui consiste en une suggestion de

documents à partir d’un ensemble de profils utilisateur et d’un contexte, traduisant respectivement les préférences et la localisation des utilisateurs. 3. La tâche TREC Session Search6 qui consiste en l’ordonnancement des

do-cuments vis-à-vis d’une requête particulière, soumise à un moment donné de la session, à partir de l’historique de recherche antérieur d’un utilisateur (re-quêtes reformulées antérieurement et leurs ordonnancements et jugements de pertinence associés). 2. https ://inex.mmci.uni-saarland.de 3. http ://www.clef-initiative.eu 4. http ://trec.nist.gov/data/interactive.html 5. https ://sites.google.com/site/treccontext/ 6. http ://ir.cis.udel.edu/sessions/

En dehors de ces campagnes d’évaluation, des protocoles d’évaluation ont été proposés afin d’intégrer la dimension de l’utilisateur. Nous dénombrons quatre types d’évaluation (Dumais, 2009; Kelly et al., 2009) :

1. Les expérimentations basées sur la simulation (Sieg et al., 2007) qui per-mettent de simuler le comportement des utilisateurs en construisant le scé-nario de recherche afin d’évaluer le modèle selon des cas d’étude –use case– bien particuliers.

2. Les expérimentations basées sur les fichiers logs d’expérimentations réelles –log study– (Anick, 2003) qui permettent d’évaluer un modèle de RI sur des données réelles. Ces expérimentations ne reposent pas sur des jugements ex-plicites mais infèrent implicitement le comportement des utilisateurs à partir des fichiers logs.

3. Les expérimentations utilisateurs –user study– (Ringel et al., 2003; Yee et al., 2003) qui sont généralement effectuées en laboratoire où les participants sont confrontés au modèle de RI en situation réelle de recherche. Les tâches de recherche sont alors contrôlées et les résultats en terme d’efficacité sont à nuancer par rapport au facteur comportemental des individus.

4. Les expérimentations basées sur les études des journaux –diary studies– (Bouidghaghen et al., 2010) qui reposent sur des sessions de recherche na-turelles où les utilisateurs réels initient le besoin en information et réalise la session de manière libre et non contrainte.

2.1.3.2 Les mesures d’évaluation

Les mesures d’évaluation permettent d’estimer quantitativement l’efficacité d’un système. L’objectif est d’identifier, pour chaque requête la capacité du système à retourner des documents pertinents. La Figure 2.5 illustre les différents en-sembles manipulés lors de l’évaluation d’un SRI, à savoir les enen-sembles des do-cuments pertinents et des dodo-cuments retournés par le système. Les dodo-cuments pertinents non retournés par le système constituent l’ensemble de documents

si-lence tandis que les documents non-pertinents retournés par le système génèrent

du bruit. La principale difficulté d’un système de RI est de reposer sur un mo-dèle qui retourne le maximum de documents pertinents (minimiser le silence) sans augmenter le nombre de documents non pertinents retournés (minimiser

le bruit).

Chaque requête qh est évaluée individuellement au moyen d’une mesure sta-tistique estimée au rang r de la liste lh retournée par le SRI. La mesure est ensuite agrégée sur l’ensemble des requêtes de la collection de test afin d’obtenir la mesure d’efficacité moyenne du système. Nous détaillons dans ce qui suit les principales mesures d’évaluation au rang r. Deux catégories de mesures sont identifiées dans la littérature.

Figure2.5: Ensembles de documents utilisés pour l’évaluation d’un SRI

Les mesures orientées rappel et précision. Elles évaluent l’efficacité des

ordon-nancements en se basant sur le nombre de documents pertinents retournés par le système. Nous distinguons trois principales mesures :

1. Le rappel Rappel@r mesure la capacité d’un système à retourner tous les documents pertinents au rang r, et par conséquent, sa capacité à minimiser le silence, illustré dans la Figure 2.5. Pour une requête donnée, il est estimé par le ratio du nombre de documents pertinents retournés par le système par rapport au nombre de documents pertinents pour cette même requête. Ce ratio est ensuite agrégé sur l’ensemble des requêtes qh∈ Q :

Rappel@r = 1 |Q| X qh∈Q Rappel(qh)@r = 1 |Q| X qh∈Q |Selqh@r ∩ P ertqh| |P ertqh| (2.10) où Selqh@r regroupe l’ensemble des documents sélectionnés par le SRI pour la requête qh au rang r. P ertqh représente l’ensemble des documents pertinents pour la requête qh.

2. La précision P recision@r au rang r mesure la capacité d’un système à ne retourner que des documents pertinents, à savoir sa capacité à minimiser le

bruit, illustré dans la Figure 2.5. Pour une requête donnée, elle est estimée

par le ratio du nombre de documents pertinents retournés par le système par rapport au nombre de documents sélectionnés pour cette même requête. Ce ratio est ensuite agrégé sur l’ensemble des requêtes qh∈ Q :

P recision@r = 1 |Q| X qh∈Q P recision(qh)@r = 1 |Q| X qh∈Q |Selqh@r ∩ P ertqh| |Selqh@r| (2.11) 3. La F-mesure F − mesure@r combine les mesures de rappel et de précision estimées au rang r afin de mesurer la capacité du système à retourner le maximum de documents pertinents, et seulement ces documents-ci, tradui-sant ainsi le double objectif d’un système de RI de minimiser le bruit et le silence. La F-mesure est estimée comme suit :

F − mesure@r = 1 |Q| X qh∈Q 2.Rappel(qh)@r ∗ P recision(qh)@r Rappel(q)@r + P recision(q)@r (2.12)

Les mesures orientées rang. Elles ajoutent un niveau d’analyse supplémentaire

en mesurant la fiabilité des ordonnancements grâce au rang des documents per-tinents. Trois mesures principales sont utilisées :

1. La précision moyenne MAP @r –Mean Average Precision– correspond à la précision moyenne obtenue à chaque rang considéré par rapport aux r pre-miers résultats de la liste lh retournée pour la requête qh :

M AP @r = 1 |Q| X qh∈Q 1 r r X R=1 P recision(qh)@R (2.13)

2. Le rang inverse moyen MMR@r au rang r –Mean Reciprocal Rank (MRR)– favorise l’hypothèse que les documents pertinents doivent être retournés en premier dans la liste d’ordonnancement par rapport aux r premiers docu-ments retournés. Ainsi, cette métrique estime le rang moyen Rang(lh)@r du premier document pertinent dans les listes de résultats lh∈ L de r documents retournés en réponse à la requête qh:

M RR = 1 |Q| X qh∈Q X lh∈L 1 Rang(lh)@r (2.14) 3. Le NDCG au rang r, noté NDCG@r –Normalized Discounted Cumulative

Gain– évalue la capacité d’un système a retourner des documents pertinents

par degré de pertinence (Järvelin and Kekäläinen, 2002). A l’inverse des me-sures précédentes où les jugements de pertinence sont binaires (pertinents ou non), cette mesure repose sur des jugements de pertinence graduels. Elle peut être estimée à partir de la mesure de DCG –Discounted Cumulative Gain– appliqué à la liste lh de résultats normalisée par la même mesure appliquée à l’ordonnancement idéal des jugements de pertinence en fonction de leur degré, notée IDCG(qh) :

N DCG@r = P qh∈QDCG(lh)@r P qh∈QIDCG(lh)@r (2.15) DCG(lh)@r = rel1+ Pr R=1@r relR log2R

avec relR qui correspond au jugement effectué par l’utilisateur au document situé au rang R de la liste Lh de résultats.