Evaluation - Organisation de la thèse - Définition et évaluation de modèles de recherche d'info

1.6 Organisation de la thèse

2.1.3 Evaluation

L’évaluation d’un SRI permet de vérifier l’efficacité des modèles mis en oeuvre pour l’identification des documents pertinents. Dans cette section, nous pré-sentons le cadre d’évaluation d’un SRI ainsi que les mesures d’évaluation sous-jacentes.

2.1.3.1 Le protocole d’évaluation

Dans l’objectif d’évaluer un modèle de RI, il est nécessaire de constituer des col-lections de test qui recoupent un ensemble de documents, des requêtes formulant des besoins en information et des jugements de pertinence associés qui recensent les documents pertinents pour chacune des requêtes. Cette approche d’évalua-tion correspond au paradigme de Cranfield (Cleverdon, 1997) qui a suscité le développement de nombreuses campagnes d’évaluation. Ces dernières présentent l’avantage de cibler une tâche particulière et d’évaluer l’efficacité des systèmes répondant à cette tâche. A l’initiative de cette démarche, le projet Cranfield-1, dirigé par Cleverdon, a constitué une collection de référence constituée de 18 000 documents et de 1 200 requêtes associées à un unique document pertinent. Par la suite, le projet Cranfield-2 a établi des protocoles d’expérimentation basés sur l’hypothèse que les jugements de pertinence permettent de faire émerger la réponse globale au besoin en information sur un ensemble de participants et qu’une requête peut être associée à un ensemble de documents pertinents. Ainsi, les jugements de pertinence sont estimés selon une méthode de pooling où un ensemble d’individus, appelés juges, annotent manuellement les top docu-ments retournés par chacun des participants de la campagne d’expérimentation. La technique de pooling utilisée lors des campagnes d’évaluation officielles est illustrée dans la Figure 2.4.

Les campagnes d’évaluation les plus connues sont :

1. La campagne TREC1 –Text REtrieval Conference– est une des premières

des campagnes qui regroupe à ce jour un large panel de tâches, telles que la

Figure2.4: Protocole pour les campagnes d’évaluation oﬃcielles

recherche ad-hoc, ou également les tâches de recherche dans les microblogs ou celles orientées pour les systèmes de questions-réponses,

2. La campagne INEX2 –Initiative for the Evaluation of XML Retrieval–

oriente ses tâches de recherche vers des collections de documents structurés. 3. La campagne CLEF3 –Conference and Labs of the Evaluation Forum– pro-pose des campagnes dans des langues diﬀérentes de l’anglais, traité majo-ritairement dans les campagnes TREC. En plus de proposer des tâches de recherche sur des documents, cette campagne fournit également des collec-tions d’images associées à des annotacollec-tions.

Dans ces campagnes, l’évaluation est plutôt centrée vers des tâches ad-hoc, ne considérant pas la dimension de l’utilisateur. L’émergence de la RI interactive et contextuelle (Dumais, 2009) a recentré l’utilisateur au sein du processus d’éva-luation. De nouvelles tâches sont apparues, parmi lesquelles :

1. La tâche TREC Interactive4 qui consiste en la résolution d’un besoin com-plexe. Les participants doivent alors fournir les ﬁchiers log qui recensent les interactions des utilisateurs (requêtes soumises, documents visités, ...). 2. La tâche TREC Contextual Suggestion5 qui consiste en une suggestion de

documents à partir d’un ensemble de proﬁls utilisateur et d’un contexte, traduisant respectivement les préférences et la localisation des utilisateurs. 3. La tâche TREC Session Search6 qui consiste en l’ordonnancement des

do-cuments vis-à-vis d’une requête particulière, soumise à un moment donné de la session, à partir de l’historique de recherche antérieur d’un utilisateur (re-quêtes reformulées antérieurement et leurs ordonnancements et jugements de pertinence associés). 2. https ://inex.mmci.uni-saarland.de 3. http ://www.clef-initiative.eu 4. http ://trec.nist.gov/data/interactive.html 5. https ://sites.google.com/site/treccontext/ 6. http ://ir.cis.udel.edu/sessions/

En dehors de ces campagnes d’évaluation, des protocoles d’évaluation ont été proposés aﬁn d’intégrer la dimension de l’utilisateur. Nous dénombrons quatre types d’évaluation (Dumais, 2009; Kelly et al., 2009) :

1. Les expérimentations basées sur la simulation (Sieg et al., 2007) qui per-mettent de simuler le comportement des utilisateurs en construisant le scé-nario de recherche aﬁn d’évaluer le modèle selon des cas d’étude –use case– bien particuliers.

2. Les expérimentations basées sur les ﬁchiers logs d’expérimentations réelles –log study– (Anick, 2003) qui permettent d’évaluer un modèle de RI sur des données réelles. Ces expérimentations ne reposent pas sur des jugements ex-plicites mais infèrent implicitement le comportement des utilisateurs à partir des ﬁchiers logs.

3. Les expérimentations utilisateurs –user study– (Ringel et al., 2003; Yee et al., 2003) qui sont généralement eﬀectuées en laboratoire où les participants sont confrontés au modèle de RI en situation réelle de recherche. Les tâches de recherche sont alors contrôlées et les résultats en terme d’eﬃcacité sont à nuancer par rapport au facteur comportemental des individus.

4. Les expérimentations basées sur les études des journaux –diary studies– (Bouidghaghen et al., 2010) qui reposent sur des sessions de recherche na-turelles où les utilisateurs réels initient le besoin en information et réalise la session de manière libre et non contrainte.

2.1.3.2 Les mesures d’évaluation

Les mesures d’évaluation permettent d’estimer quantitativement l’efficacité d’un système. L’objectif est d’identifier, pour chaque requête la capacité du système à retourner des documents pertinents. La Figure 2.5 illustre les différents en-sembles manipulés lors de l’évaluation d’un SRI, à savoir les enen-sembles des do-cuments pertinents et des dodo-cuments retournés par le système. Les dodo-cuments pertinents non retournés par le système constituent l’ensemble de documents

si-lence tandis que les documents non-pertinents retournés par le système génèrent

du bruit. La principale diﬃculté d’un système de RI est de reposer sur un mo-dèle qui retourne le maximum de documents pertinents (minimiser le silence) sans augmenter le nombre de documents non pertinents retournés (minimiser

le bruit).

Chaque requête q_h est évaluée individuellement au moyen d’une mesure sta-tistique estimée au rang r de la liste l_h retournée par le SRI. La mesure est ensuite agrégée sur l’ensemble des requêtes de la collection de test afin d’obtenir la mesure d’efficacité moyenne du système. Nous détaillons dans ce qui suit les principales mesures d’évaluation au rang r. Deux catégories de mesures sont identifiées dans la littérature.

Figure2.5: Ensembles de documents utilisés pour l’évaluation d’un SRI

Les mesures orientées rappel et précision. Elles évaluent l’eﬃcacité des

ordon-nancements en se basant sur le nombre de documents pertinents retournés par le système. Nous distinguons trois principales mesures :

1. Le rappel Rappel@r mesure la capacité d’un système à retourner tous les documents pertinents au rang r, et par conséquent, sa capacité à minimiser le silence, illustré dans la Figure 2.5. Pour une requête donnée, il est estimé par le ratio du nombre de documents pertinents retournés par le système par rapport au nombre de documents pertinents pour cette même requête. Ce ratio est ensuite agrégé sur l’ensemble des requêtes qh∈ Q :

2. La précision P recision@r au rang r mesure la capacité d’un système à ne retourner que des documents pertinents, à savoir sa capacité à minimiser le

bruit, illustré dans la Figure 2.5. Pour une requête donnée, elle est estimée

par le ratio du nombre de documents pertinents retournés par le système par rapport au nombre de documents sélectionnés pour cette même requête. Ce ratio est ensuite agrégé sur l’ensemble des requêtes qh∈ Q :

P recision@r = 1 |Q| X qh∈Q P recision(qh)@r = ¹ |Q| X qh∈Q |Selqh@r ∩ P ertqh| |Selqh@r| (2.11) 3. La F-mesure F − mesure@r combine les mesures de rappel et de précision estimées au rang r aﬁn de mesurer la capacité du système à retourner le maximum de documents pertinents, et seulement ces documents-ci, tradui-sant ainsi le double objectif d’un système de RI de minimiser le bruit et le silence. La F-mesure est estimée comme suit :

F − mesure@r = ¹ |Q| X qh∈Q 2.^Rappel(qh)@r ∗ P recision(qh)@r Rappel(q)@r + P recision(q)@r (2.12)

Les mesures orientées rang. Elles ajoutent un niveau d’analyse supplémentaire

en mesurant la ﬁabilité des ordonnancements grâce au rang des documents per-tinents. Trois mesures principales sont utilisées :

1. La précision moyenne MAP @r –Mean Average Precision– correspond à la précision moyenne obtenue à chaque rang considéré par rapport aux r pre-miers résultats de la liste lh retournée pour la requête qh :

M AP @r = 1 |Q| X qh∈Q 1 r r X R=1 P recision(qh)@R (2.13)

2. Le rang inverse moyen MMR@r au rang r –Mean Reciprocal Rank (MRR)– favorise l’hypothèse que les documents pertinents doivent être retournés en premier dans la liste d’ordonnancement par rapport aux r premiers docu-ments retournés. Ainsi, cette métrique estime le rang moyen Rang(l_h)@r du premier document pertinent dans les listes de résultats l_h_{∈ L de r documents} retournés en réponse à la requête qh:

M RR = 1 |Q| X qh∈Q X lh∈L 1 Rang(lh)@r ^(2.14) 3. Le NDCG au rang r, noté NDCG@r –Normalized Discounted Cumulative

Gain– évalue la capacité d’un système a retourner des documents pertinents

par degré de pertinence (Järvelin and Kekäläinen, 2002). A l’inverse des me-sures précédentes où les jugements de pertinence sont binaires (pertinents ou non), cette mesure repose sur des jugements de pertinence graduels. Elle peut être estimée à partir de la mesure de DCG –Discounted Cumulative Gain– appliqué à la liste l_h de résultats normalisée par la même mesure appliquée à l’ordonnancement idéal des jugements de pertinence en fonction de leur degré, notée IDCG(qh) :

N DCG@r = P qh∈QDCG(lh)@r P qh∈QIDCG(lh)@r (2.15) DCG(lh)@r = rel1+ Pr R=1@r relR log2R

avec rel_R qui correspond au jugement eﬀectué par l’utilisateur au document situé au rang R de la liste L_h de résultats.

Dans le document Définition et évaluation de modèles de recherche d'information collaborative basés sur les compétences de domaine et les rôles des utilisateurs (Page 57-61)