Mesures d’évaluation de l’efficacité de RI

3.2 Les approches d’évaluation des SRI orientées-laboratoire

3.3.3 Mesures d’évaluation orientées-contexte

3.3.3.2 Mesures d’évaluation de l’efficacité de RI

L’évaluation de l’efficacité du système de RI en présence du contexte re- pose sur deux classes de mesures : les mesures orientées-système et les mesures orientées-tâche.

3.3.3.2.1 Mesures d’évaluation orientées-système Les mesures d’éva- luation orientées-système permettent d’évaluer l’efficacité du processus de RI personnalisée selon des mesures de rappel et précision. Toutefois ces mesures sont basées sur la pertinence binaire ("pertinent" or "non pertinent") qui ne tiennent pas en compte la subjectivité de l’utilisateur amenant à juger dans des contextes situationnels. L’étude effectuée dans [168] consiste à juger les documents pertinents de TREC selon une pertinence graduelle. Cette étude montre que 50% des documents jugés pertinents sont re-jugés comme faiblement pertinents, 34% comme moyennement pertinents et 16% comme fortement pertinents. Selon cette vue, des mesures d’évaluation supportant une pertinence graduelle ont été proposés utilisées pour l’évaluation des modèles de RI.

1. la mesure RR (Relative Relevance).) Cette mesure permet de calculer une degré de correspondance entre la pertinence système (algorithmique) et la pertinence situationnelle de l’utilisateur qui intègre des niveaux de pertinence (1 : pertinent, 0.5 : partiellement pertinent, 0 : non pertinent). En pratique, deux valeurs de jugements de pertinence R1 et R2 sont

calculées pour chaque niveau de pertinence et comparés selon les mesures cosinus ou Jaccard comme suit :

RR(R1, R2) = P (R1 ∗ R2) (P R2 1) 1 2 ∗ (PR2 2) 1 2 (3.5)

RR(R1, R2) = P (R1 ∗ R2) P R1+PR2 −P(R1 ∗ R2) (3.6) Plus la valeur de RR est petite, moins est la correspondance entre la pertinence système et la perception de pertinence de l’utilisateur dans un contexte de recherche. Cette mesure permet de comprendre les caractéris- tiques de la performance d’un SRI vis à vis la subjectivité de l’utilisateur. Néanmoins, elle pose un problème lors de l’évaluation comparative entre différents algorithmes de recherche voire entre différents SRI [138]. En effet les scores de pertinence algorithmique ne sont pas étalonnés à la même échelle entre différents SRI, ce qui rend la comparaison de mesures RR non significative.

2. La mesure bpref (Binary PREFerence measure). La bpref mesure le nombre de fois que des documents jugés non pertinents sont retrouvés avant un document pertinent [35]. Contrairement aux autres mesures, cette mesure se focalise sur les documents réellement jugés. Par conséquent cette mesure n’est pas sensible à des jugements de pertinence incomplets. 3. La mesure RHL (Ranked Half-Life measure). Contrairement à la mesure

RR, la mesure RHL [28] est une mesure orientée-rang qui permet de comparer des systèmes entre eux. L’objectif de cette mesure est alors de dé- terminer, pour un SRI donné, le rang à partir duquel la moitié du nombre total de documents pertinents (ou de la quantité d’information pertinente dans le cas d’une pertinence graduelle) est présentée à l’utilisateur. Plus la mesure RHL est petite, plus les documents les plus pertinents sont en début de liste et donc, plus le SRI est efficace, en ce sens que l’ordre des documents retournés s’accorde avec l’ordre de pertinence contextuelle de l’utilisateur. La formule de calcul de la mesure RHL est la suivante :

RHL = Rm+ R_tot/2 −P R<RmRel(R) Rel(Rm) ! (3.7) où Rm est le plus petit rang qui délimite la classe des documents dont

la valeur de pertinence constitue la moitié de la pertinence totale, Rtot

est la valeur de pertinence totale cumulée sur l’ensemble des documents présentés à l’utilisateur, Rel(R) est la valeur de pertinence au rang R. 4. The Cumulative Gain (CG) and Discounted Cumulative Gain (DCG)

[89, 90] Les mesures CG et DCG sont des mesures orientés-rang propo- sées dans un contexte de pertinence graduelle. L’objectif de ces mesures est d’évaluer la performance globale en estimant le gain de l’utilisateur en terme de pertinence cumulée en observant les documents situés jusqu’à un rang donné. Chaque niveau de pertinence i (e.g. pertinent, partiellement pertinent, non pertinent) est assigné une valeur G[i] où le niveau de pertinence le plus élevé prend la valeur la plus élevée. Ces mesures sont données comme suit :

CG[i] =

(

G[1], if i = 1

vu qu’il est moins probable qu’un document de rang élevé soit examiné par le utilisateur, la mesure DCG introduit un facteur d’atténuation, permet d’atténuer le gain de pertinence apporté par un document en fonction de son rang. La mesure DCG (Discount Cumulative Gain) est définie comme suit avec log i est utilisée comme un facteur d’atténuation :

DCG[i] =

(

CG[i], if i < b DCG[i − 1] + _logG[i]

bi, otherwise

(3.9) 5. La mesure GRP (Generalised Recall and Precision). Cette mesure [90] est également une mesure orientée-rang qui étend les mesures rappel- précision classiques en considérant une pertinence graduelle. Le rappel généralisé (GR) et la précision généralisée (GP) sont calculés comme suit :

gP = X d∈R r(d)/ |R| (3.10) gR = X d∈R r(d)/X d∈D r(d) (3.11)

où R est l’ensemble des documents retournés par le SRI, D est l’ensemble des documents de la collection, r(d) est la valeur de pertinence graduelle associée au document d.

3.3.3.2.2 Mesures d’évaluation orientées-tâche Ces mesures permettent d’évaluer l’interaction, la satisfaction, et l’efficacité du processus de recherche dans un contexte où l’utilisateur est intégré dans une tâche de recherche spé- cifique. Les premières mesures d’évaluation orientées-tâche ont été proposées dans le cadre de l’évaluation des systèmes interactifs dans TREC.

1. User effort : cette mesure permet d’évaluer la capacité de l’utilisateur pour accomplir une tâche de recherche en estimant la durée de la recherche (elapsed time), le nombre d’itérations (nombre de requêtes sou- mises), nombre de documents visualisés durant la navigation et le nombre de documents sauvegardés durant l’interaction de l’utilisateur avec le sys- tème. Des enquêtes peuvent être faites dans le but de mesurer des mesures subjectives de la performance du processus de recherche comme la satisfaction et la perception du succès du système. Ces mesures peuvent être reliées au niveau d’expertise ou de familiarité de l’utilisateur avec la tâche de recherche en question.

2. Précision/rappel aspectuel : ces mesures sont utilisées dans le cadre d’une tâche de recherche dite aspectuelle dans la tâche interactive de TREC, où la tâche consiste à retrouver des documents pertinents contenant les dif- férents aspects recouverts par un topic. Ces mesures sont proposées dans ce cadre pour évaluer la différence des jugements de pertinence fournis par les utilisateurs et ceux fournis par les assesseurs de TREC. La préci- sion ou rappel aspectuel est défini (par NIST) par la fraction de tous les

aspects qui s’occurrent dans au moins un document sauvegardé durant la recherche.

3.4 Les approches d’évaluation orientée-contexte

initiées par TREC

Les tâches interactives et HARD initiées par TREC sont considérées les premières tentatives de l’évaluation orientée-contexte. Ces tâches sont des ex- tensions de l’évaluation orientée-laboratoire dans le sens où ils ajoutent :

– la modélisation d’une interaction minimale entre l’utilisateur et le système (tâche interactive),

– l’introduction des facteurs contextuels associés à chaque requête et ayant un impact sur le comportement de l’interaction et par suite sur la diffé- rence de la perception de pertinence de l’information entre les utilisateurs (tâche HARD).

L’évaluation des SRI interactifs dans TREC consistent à comparer la performance du système en réponse à des requêtes construites automatiquement à la performance obtenue en réponse à des requêtes construites interactivement via l’intervention humaine. Les mesures d’évaluation introduites dans la tâche interactives sont dérivées des mesures classiques permettant d’évaluer le processus de recherche en lui même, et des mesures d’évaluation interactives utilisées dans l’évaluation de l’interaction utilisateur avec le système et l’impact de ses facteurs.

3.4.1 La tâche interactive de TREC

Le but fondamental de cette tâche consiste à examiner le rendement du processus de recherche dans un contexte de recherche interactif. Nous présen- tons dans la suite les objectifs de chacune des tâches interactives de TREC depuis TREC 1 jusqu’à TREC 8 ainsi qu’un récapitulatif des composantes ex- périmentales utilisées dans chacune des deux tâches, notamment les requêtes, les documents, les jugements de pertinence, le contexte de recherche ainsi que le protocole et les mesures d’évaluation. .

Dans le document Accès personnalisé à l'information : approche basée sur l'utilisation d'un profil utilisateur sémantique dérivé d'une ontologie de domaines à travers l'historique des sessions de recherche (Page 116-119)