Approches d’évaluation orientées-contexte

3.2 Les approches d’évaluation des SRI orientées-laboratoire

3.3.2 Approches d’évaluation orientées-contexte

A nos jours, il n’existe pas un cadre standard pour l’évaluation des modèles d’accès personnalisé à l’information. L’élaboration des approches d’évaluation orientées-contexte sont conçues dans le cadre des approches développées en RI personnalisée.

Vu que les SRI personnalisés consistent en la modélisation du contexte/profil dans une première phase et l’exploitation du profil dans le processus d’accès à l’information dans une deuxième phase, les approches d’évaluation orientées- contexte doivent porter sur l’évaluation de deux composantes complémentaires : – évaluation de la qualité du profil utilisateur servant comme contexte de

recherche,

– évaluation de l’efficacité de la recherche personnalisé intégrant le profil utilisateur dans le processus d’accès à l’information.

Nous présentons dans la suite de cette section le principe de l’évaluation de la qualité du profil abordée dans quelques SRI personnalisés et l’évalua- tion de l’efficacité de recherche personnalisée selon des approches d’évaluation orientées-contexte.

3.3.2.1 Evaluation de la qualité du profil utilisateur

L’évaluation de la qualité du profil est prise en compte dans l’évaluation des SRI personnalisés vu que la qualité du profil a un impact direct sur la performance de recherche. Cette évaluation n’est pas nécessaire généralement dans les approches qui définissent le contexte par des métadonnées saisies explicitement par l’utilisateur ou dans des approches où l’évaluation est effectuée en utilisant une collection de requêtes associées à des métadonnées servant comme éléments contextuels (la tâche HARD de TREC). Pourtant, l’évaluation de la qualité du profil est requise dans les approches de modélisation implicite du contexte dans le but de valider la précision du contexte construit automatiquement.

La question fondamentale qui se pose au niveau de l’évaluation de la qualité du profil utilisateur est si le modèle de l’utilisateur ou son profil construit automatiquement par le système est une représentation adéquate de ses centres d’intérêts effectifs. Pour cette raison, une étape fondamentale avant l’évaluation de l’efficacité du modèle de RI personnalisée consiste à séparer le modèle de l’utilisateur du processus de RI personnalisé et mesurer sa précision par rapport à des utilisateurs réels.

Dans le but d’évaluer la qualité du profil indépendamment de l’efficacité du modèle de RI, et pour ne pas biaiser les résultats sur une même collection de documents, un découpage de la collection est souvent effectué en deux sous-

collections : une sous-collection pour l’apprentissage du profil utilisateur et une sous-collection pour tester l’efficacité du système. L’évaluation de la qualité du profil peut inclure des tests pour évaluer l’efficacité de l’algorithme d’apprentissage du profil. Ces tests peuvent intégrer des vrais utilisateurs pour juger le profil appris, des mesures comparatives entre plusieurs algorithmes [137] ou des mesures de convergence de l’algorithme [121]. Compte tenu des travaux dans le domaine, nous supposons que :

1. Selon un modèle de représentation conceptuel du profil, la mesure de la qualité du profil consiste à quantifier le degré de correspondance entre les annotations manuelles (faites par des utilisateurs réels) des éléments constitutifs du profil avec la construction automatique de ce profil par le système [121, 171, 56]. Il s’agit dans certains travaux d’investir des utilisateurs qui jugent de la pertinence des concepts du profil [121, 171] ou alors de calculer automatiquement la précision d’un profil (représenté par un ensemble de concepts associés à une requête donnée) comme étant la robustesse de classification des documents annotés préalablement dans les concepts associés.

2. Il n’existe pas des mesures d’évaluation standards. Les mesures d’évalua- tion proposées sont relativement dépendantes du modèle de représenta- tion du profil.

3.3.2.2 Évaluation de l’efficacité du modèle de RI personnalisée L’objectif de cette étape est d’évaluer l’impact de l’utilisation du contexte de recherche dans le processus d’accès à l’information. Généralement, l’évaluation se fait en comparant la performance de deux scénarios de recherche :

– la recherche classique effectuée en utilisant seulement la requête,

– la recherche personnalisée effectuée en intégrant le contexte de recherche ou le profil utilisateur dans le modèle d’accès à l’information.

Nous pouvons dégager 3 grandes tendances des approches d’évaluation de l’efficacité des modèles de RI personnalisée orientée-contexte :

– les approches d’évaluation orientées-contexte initiées par TREC (approches numériques comme dans les campagnes traditionnelles),

– les approches d’évaluation par simulation des contextes,

– les approches d’évaluation par utilisation des contextes réels (user studies).

3.3.2.2.1 Approches d’évaluation orientées-contexte initiées par TREC Les premières tentatives effectuées dans le cadre de l’évaluation des SRI en pré- sence du contexte ont été proposées dans TREC à travers les tâches Interactive et HARD. La tâche interactive de TREC consiste à étudier les interactions de l’utilisateur avec le système en utilisant des mesures d’évaluation spécifiques

dédiées à mesurer qualitativement l’efficacité du système dans une tâche de recherche précise. La tâche HARD de TREC consiste à intégrer le contexte de recherche comme un ensemble de critères de préférences de l’utilisateur aussi bien dans le processus d’accès à l’information que dans l’évaluation du système. Le principe de l’évaluation de ces approches est traité plus tard dans la section

3.4 p.98.

– La tâche Interactive : Cette tâche a été menée dans TREC depuis 1995 (TREC-4) jusqu’en 2002 (TREC-10). L’objectif de cette tâche est d’étu- dier les modèles d’interaction en RI. Plus précisément, elle a eu comme double objectif le développement de méthodologies appropriées à l’éva- luation du processus de RI interactive et la mesure de l’impact des dif- férentes caractéristiques des utilisateurs sur l’évaluation de la pertinence des résultats.

– La tâche HARD (High Accuracy Retrieval from Document) : cette tâche a été menée dans TREC depuis 2003 (TREC-12) jusqu’en 2005 (TREC-14). L’objectif de la tâche HARD est de permettre aux systèmes d’atteindre une grande précision de recherche en mettant en place une recherche orientée-contexte. Celle-ci considère le contexte de recherche ou de l’utilisateur comme étant une partie intégrante du processus de recherche et de l’évaluation. L’évaluation du système de recherche dans cette tâche consiste à mesurer sa capacité à fournir les résultats pertinents en fonction du contexte de recherche associé à la requête. Les mesures d’évaluation adoptées considèrent des niveaux de pertinence dans le but de prendre en compte la différence de perception de pertinence de l’information entre les utilisateurs.

3.3.2.2.2 Approches d’évaluation par simulation des contextes L’évaluation d’un SRI par simulation de contextes intègre un scénario d’évalua- tion défini par des contextes de recherche et des interactions hypothétiques a priori permettant de simuler des utilisateurs [131,150]. Un scénario représente une situation de recherche qui met en œuvre un utilisateur simulé à travers ses centres d’intérêt [162,177], ou des interactions hypothétiques avec le SRI [150] à travers des interfaces comme celles proposées dans le cadre de la tâche interactive de TREC. Les pistes d’évaluation par simulation des contextes consistent à simuler un scénario de recherche par une ou plusieurs requêtes liées à un centre d’intérêt de l’utilisateur et exploiter des jugements de pertinence préalable- ment donnés [177] ou considérés pertinents s’ils sont classifiés dans le domaine d’intérêt simulé [162].

L’évaluation de l’efficacité du SRI dans ce type d’approches consiste à éva- luer l’impact de l’addition du contexte de recherche dans le processus de recherche d’information. Cette évaluation est basée sur la comparaison des deux listes de résultats obtenues selon le scénario de recherche classique et personna-

lisé aux jugements de pertinence hypothétiques. Les jugements de pertinence sont soit réutilisés à partir d’une collection de type laboratoire [178], ou basés sur des hypothèses de pertinence dépendantes du contexte de recherche simulé [162]. Les mesures d’évaluation dans ce type d’évaluation sont souvent basées sur des mesures classiques dérivées du rappel et de la précision. Le principe de l’évaluation de ces approches est traité plus tard dans la section 3.5 p.104.

3.3.2.2.3 Approches d’évaluation par utilisation des contextes réels A la différence des approches d’évaluation des SRI personnalisés par simulation de contexte, l’évaluation basée sur l’utilisation des contextes réels (User studies) est adopté dans le but d’intégrer les activités et les interactions des utilisateurs dans le processus d’évaluation des systèmes. L’exploitation des contextes de recherche réels dans ce type d’approches permet de prendre en compte de la nature dynamique du besoin en information et considérer des jugements de pertinence selon la perception de pertinence de l’utilisateur qui a émis la requête dans des situations de recherche réelles et bien spécifiées (work task situation) [39].

Dans ces approches, les interactions des utilisateurs (tels que les clics, temps passé sur une page, etc.) sont enregistrés dans un fichier log exploité dans en partie pour l’apprentissage du profil utilisateur et dans quelques approches dans l’évaluation de performance du système [171]. Les mesures d’évaluation classiques sont utilisés dans ce type d’approches. En plus, l’approche proposée dans [171] se base sur les données de clics sur un document comme un indice de pertinence du document.

Le principe de l’évaluation de ces approches est traitée plus tard dans la section3.6 p.108.

Dans le document Accès personnalisé à l'information : approche basée sur l'utilisation d'un profil utilisateur sémantique dérivé d'une ontologie de domaines à travers l'historique des sessions de recherche (Page 111-114)