• Aucun résultat trouvé

Assistance dans une recherche d’information généraliste sur Internet

4.2 Recherche documentaire personnalisée

4.2.1 Assistance dans une recherche d’information généraliste sur Internet

4.3 Analyse d’expressions métaphoriques . . . 136 4.3.1 Étude de métaphores conceptuelles . . . 136 4.3.2 Ressources et corpus . . . 138 4.3.3 Analyses réalisées . . . 139 4.3.4 Vers une nouvelle phase du projet IsoMeta . . . 152

4.4 Étude de forums de discussion pédagogiques . . . 154

4.4.1 Observation de l’acquisition de l’identité professionnelle . . . 155 4.4.2 Observation des usages d’une terminologie professionnelle . . . 160 4.4.3 Apports de vues globales et interactives dans l’accès au contenu de

fo-rums pédagogiques . . . 166

4.5 Mesurer les premiers regards portés sur des cartes d’ensembles

documentaires . . . 167 4.5.1 Motivations et contexte . . . 167 4.5.2 Cadre expérimental . . . 169 4.5.3 Analyse des résultats et retour sur les cartes d’ensembles documentaires 172 Conclusion : valeur ajoutée et flexibilité du modèle AIdED . . . 177

Chapitre 4. Expérimentations et évaluations du modèle AIdED

Introduction

Dans ce chapitre, nous proposons d’expérimenter et d’évaluer les différentes propositions que nous faisons à travers le modèle AIdED et son instrumentation. La problématique de l’évalua-tion en TAL est particulièrement active. Différentes campagnes, différents protocoles, différentes mesures sont proposés afin de mettre en évidence la pertinence de systèmes pour des tâches précises. Évaluer un système d’accès personnalisé au contenu d’ensembles documentaires comme le nôtre est plus complexe, l’utilisateur y projetant son point de vue, et donc une forte part de subjectivité. Cependant, une telle évaluation n’est pas impossible, elle ne pourra peut-être pas s’effectuer avec un protocole classique, à l’aide, par exemple, des mesures de rappel et de précision, mais plutôt par la mise en place de différentes expérimentations auprès d’utilisateurs visant des tâches d’accès au contenu d’ensembles documentaires bien précises.

Ainsi, la section suivante de ce chapitre aborde la problématique de l’évaluation en TAL et plus particulièrement les moyens d’évaluer des systèmes centrés sur leurs utilisateurs. Les sections 2 à 4 présentent des expérimentations très variées prenant place dans des contextes précis. Nos propositions seront respectivement mises à l’épreuve dans des tâches de recherche documentaire, d’étude d’expressions métaphoriques et d’analyse de forums de discussion. Dans chacune de ces tâches, des utilisateurs « experts » ont été impliqués afin d’avoir un retour le plus pertinent possible sur nos propositions par rapport à la tâche visée. La partie 5 de ce chapitre est consacrée à une expérimentation un peu différente où l’interface des supports d’interaction que nous proposons est tout particulièrement interrogée, notamment avec un dispositif de suivi du regard. Enfin, nous conclurons sur ces différentes mises à l’épreuve de notre modèle afin d’en évaluer sa valeur ajoutée et son adaptabilité dans différentes tâches d’accès personnalisé au contenu d’ensembles documentaires.

4.1 La problématique de l’évaluation en TAL

Dès les débuts de l’informatique, la problématique de l’évaluation a été abordée dans le but de mesurer l’efficacité, la rapidité de programmes. Il est ainsi tout à fait souhaitable d’avoir des programmes dont le temps de calcul et l’espace mémoire occupé soient les plus réduits possibles. Mesurer la qualité d’un programme et des algorithmes sous-jacents du point de vue de sa complexité constitue le domaine de recherche de l’algorithmique. Ce domaine cherche ainsi à définir formellement la complexité temporelle (tel le nombre d’itérations nécessaires à son exécution) et spatiale (telle la taille des structures de données nécessaires) associée à un algorithme et donc aux systèmes l’implémentant.

Cette discipline met alors particulièrement l’accent sur le fonctionnement interne de pro-grammes, sur leur temps d’exécution, sur la place occupée en mémoire, etc. Dans le cadre de systèmes de TAL, l’étude du fonctionnement interne est certes importante à prendre en consi-dération mais n’est pas le facteur permettant de dire si un système est pertinent ou non pour une tâche visée133. L’élément principal à évaluer sont les sorties produites par le système et si ces dernières répondent à la tâche visée. Si des entrées sont nécessaires au système (corpus de textes, ressources lexicales, etc.), le temps nécessaire à leur élaboration doit également être pris en considération. Également, si les systèmes sont interactifs, les différentes fonctionnalités proposées aux utilisateurs doivent être considérées.

133

Même si la problématique du « temps réel » en TAL est abordée depuis un certain temps dans le cadre de systèmes de reconnaissance et de synthèse de la parole, des systèmes de traduction, des systèmes de veille, etc. où des réponses rapides doivent être obtenues. Nous pouvons par exemple citer dans cette problématique la thèse de Leila Zouari [Zouari, 2007] proposant un système de transcription automatique de parole en temps réel.

4.1. La problématique de l’évaluation en TAL Dans la suite de cette section, nous illustrons la problématique de l’évaluation en TAL à travers différentes actions menées dans le cadre de différentes tâches. Différentes propositions et métriques pour l’évaluation en TAL sont ainsi présentées.

4.1.1 Méthodes d’évaluation traditionnelles

Dès les débuts du TAL, la question de l’évaluation des systèmes a été posée, notamment avec des travaux portant sur la traduction automatique de [Bar-Hillel, 1960, Alpac, 1966]. La problématique de l’évaluation en TAL constitue même depuis quelques années un champ de recherche à part entière, avec des conférences, des campagnes de recherches, des organisations.

Ainsi, les conférences TREC134 ont été mises en place aux États-Unis depuis 1992 dans le but d’évaluer des systèmes de recherche documentaire. Entre 1987 et 1998, sept conférences MUC135

ont été organisées afin de proposer des évaluations de systèmes d’extraction d’information. Plus récemment, les conférences LREC136 ou encore SENSEVAL137 traitent plus particulièrement de tâches respectivement liées à l’adéquation de ressources lexicales dans différentes tâches de TAL et à la désambiguïsation sémantique.

La plupart des organisations traitant du TAL se positionnent autour de la problématique de l’évaluation. C’est par exemple le cas de l’association ELRA138 ou encore de l’association LDC139.

Différentes campagnes d’évaluation sur les différents thèmes du TAL naissent également à intervalles réguliers. Récemment, le programme Technolangue140 a été mis en place en France. L’un de ses objectifs est de proposer des méthodes d’évaluation de différents outils de TAL, tels des analyseurs syntaxiques, des systèmes de questions / réponses ou encore des outils de traductions automatiques141.

Plusieurs indicateurs sont traditionnellement utilisés afin d’évaluer de tels systèmes de TAL. Les plus fréquents sont les mesures de rappel et de précision142. D’autres mesures peuvent alors être déduites des précédentes, tel le bruit (proportion de fausses réponses parmi les résultats du système), le silence (proportion de bonnes réponses absentes des résultats retournés par le système) ou encore la f-mesure [Rijsbergen, 1979] synthétisant les mesures de rappel et de précision. Selon les domaines visés par l’évaluation, de nouvelles mesures sont proposées. C’est par exemple le cas des mesures BLEU (Bilingual Evaluation Understudy) [Papineni et al., 2002] et NIST (mesure du National Institute of Standards and Technology) [Doddington, 2002] pour la traduction automatique, ou encore de la mesure ROUGE (Recall-Oriented Understudy for Gisting Evaluation) [Lin et Hovy, 2003] pour le résumé automatique.

Ces mesures permettent principalement d’établir des classements entre systèmes. Un posi-tionnement des systèmes par rapport à une mesure plancher (appelée encore baseline) est souvent

134

Text Retrieval Conference - http://trec.nist.gov (page consultée le 26 juin 2007). 135

Message Understanding Conferences - http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ proceedings/muc_7_toc.html(page consultée le 26 juin 2007).

136

Language and Ressources Evaluation Conferences - http://www.lrec-conf.org (page consultée le 26 juin 2007).

137

http://www.senseval.org(page consultée le 26 juin 2007). 138

European Language Resources Association - http://www.elra.info (page consultée le 26 juin 2007). 139

Linguistic Data Consortium - http://www.ldc.upenn.edu (page consultée le 26 juin 2007). 140

http://www.technolangue.net (page consultée le 26 juin 2007). 141

Respectivement avec les campagnes EASY (Évaluation des Analyseurs Syntaxiques du français), EQueR (Évaluation en Question/Réponse) et CESTA (Campagne d’Evaluation de Systèmes de Traduction Automatique).

142

Respectivement définies de la manière suivante : rappel = pourcentage de réponses pertinentes proposées par le système évalué dans l’ensemble des réponses existantes dans le corpus de base et précision = pourcentage de réponses pertinentes dans l’ensemble des réponses proposées par le système évalué.

Chapitre 4. Expérimentations et évaluations du modèle AIdED

réalisé. Des valeurs élevées ou basses de ces mesures permettent également de mettre en évidence les forces et les faiblesses des systèmes étudiés. Par exemple, un analyseur syntaxique ayant un fort taux de précision mais un faible taux de rappel retourne de bons étiquetages mais en nombre très limité, largement inférieur au nombre d’étiquettes attendues.

Des évaluations utilisant de tels indicateurs nécessitent aux « évaluateurs » humains de s’ac-corder sur un grand nombre de points (tels par exemple un ou plusieurs corpus de tests, une ou plusieurs séries de requêtes, d’alignements multi-lingues, etc.), ce qui peut être particulièrement délicat et nécessiter un important travail. Ce type de travail a alors pour but de borner le champ d’application des outils à évaluer et d’attribuer une certaine pertinence à des résultats pouvant être potentiellement retournés par ces outils. Dans un tel cas, la pertinence est alors considérée comme une décision binaire et objective. Ceci peut être valable pour certaines tâches où il est assez facile de s’accorder sur une décision, par exemple sur une réponse devant être retournée par un système de question / réponse à une interrogation portant sur une date, ou encore sur une étiquette morphosyntaxique. Par contre, pour des systèmes interrogeant le contenu d’ensembles documentaires tels des systèmes d’aides à la navigation ou des systèmes de recherche et de veille documentaire, il est beaucoup plus difficile de se mettre d’accord sur le bon résultat à retourner à telle requête ou manipulation de l’utilisateur.

Pour nous, et comme nous avons pu l’aborder précédemment, la pertinence est une notion dépendante de l’utilisateur, et donc forcément subjective. Plusieurs utilisateurs n’auront pas for-cément le même point de vue des résultats à obtenir pour une tâche donnée. Un même utilisateur pourra juger différemment la pertinence de quelque chose selon l’instant du jugement. C’est l’uti-lisateur qui est au final le seul juge de la pertinence d’un résultat selon ses besoins, cette place prépondérante est pour l’instant trop souvent ignorée dans les protocoles d’évaluation actuels.

Nous renvoyons à [Beust, 2005] où l’auteur dresse un panorama des principales limites des différentes méthodes et métriques traditionnellement proposées pour l’évaluation en TAL, et principalement dans le cadre de systèmes interactifs et personnalisés d’accès au contenu d’en-sembles documentaires. Nous pouvons également citer [Chaudiron, 2004] où il est proposé un état de l’existant très complet des méthodes d’évaluation de différents systèmes de TAL.

Les paragraphes suivants de ce chapitre prennent en compte de telles limites pour mettre en avant différentes propositions prenant en considération l’utilisateur dans l’activité d’évaluation.

4.1.2 Vers d’autres méthodes d’évaluation pour des systèmes interactifs et/ou

centrés-utilisateur

Pour prendre en considération le point de vue de l’utilisateur sur la pertinence d’un système pour une tâche donnée, il faut donc l’intégrer d’une certaine façon dans l’évaluation du système. Karen Spark-Jones et Julia R. Galliers [Spark Jones et Galliers, 1995] ont proposé de faire in-tervenir deux « facettes » dans l’évaluation : l’évaluation intrinsèque et l’évaluation extrinsèque. L’évaluation intrinsèque mesure les propriétés concernant la nature du sujet à évaluer et son objectif, alors que l’évaluation extrinsèque mesure les aspects concernant les impacts et les effets de sa fonction. Ainsi, des critères liés à la fonction propre du système (coté intrinsèque) sont pris en considération, par exemple à l’aide de mesures présentées précédemment, mais également des critères liés à l’usage du système dans son environnement (coté extrinsèque), par exemple à l’aide de questionnaires de satisfaction adressés aux utilisateurs.

En pratique, et plus particulièrement dans une tâche de production automatique de résu-més de textes, il est proposé dans [Farzindar et Lapalme, 2005] que l’évaluation intrinsèque du système soit la mesure ROUGE énoncée précédemment. Pour l’évaluation extrinsèque, il a été demandé à des utilisateurs typiques du système de juger la qualité des résumés produits. La prise

4.1. La problématique de l’évaluation en TAL en considération de ces deux éléments dans le cadre de l’évaluation globale du système permet alors d’avoir une véritable information sur la pertinence du système pour une tâche donnée.

Toujours pour donner plus de place à l’utilisateur dans l’évaluation de systèmes informa-tiques, Daniel Luzzati propose dans [Luzzati, 1996] de définir un taux de compétence et un taux d’efficacité. Ces taux consistent principalement en la mesure du nombre de corrections devant être apportées par un utilisateur dans un système interactif de dialogue homme-machine. Moins il y a de corrections réalisées par l’utilisateur, plus le système est jugé pertinent pour la tâche visée.

Certains travaux mettent l’accent plus particulièrement sur l’ergonomie, comme le propose Laurence Bellies dans [Bellies, 2002] dans le cadre de l’évaluation d’un système informatique de commandes. De plus en plus, les travaux s’intéressent ainsi à la façon dont les usagers perçoivent l’information qui leur est présentée. Ainsi, des grandes marques et organisations ont réalisé des analyses du suivi du regard sur la page d’accueil de leur site Internet afin de mettre en évidence les éléments les plus visualisés. Certaines marques ont même modifié leur site à l’issue de telles analyses afin de mettre le plus possible en avant les éléments qui leur semblent importants (nom de la marque ou de l’organisation, produits phares, événements importants, etc.). La figure 4.1 illustre ce suivi du regard sur une page d’un site Internet. L’image de gauche correspond aux regards portés sur l’ancienne version de la page d’accueil du site de la police de San Francisco, celle de droite correspond aux regards portés sur une version de cette page d’accueil corrigée afin de faire ressortir des éléments jugés importants et non visualisés dans la première version du site143.

Fig.4.1 – Illustration des regards portés sur deux versions d’une page d’accueil d’un site Internet : l’originale (à gauche) et la version « optimisée » (à droite).

Ces travaux permettent de mieux tenir compte des particularités des systèmes et de leurs in-teractions avec les utilisateurs dans les contextes « naturels » de leurs utilisations. Dans le cadre des systèmes centrés sur leurs utilisateurs dans lequel nous situons nos travaux, une évaluation doit donc prendre en considération les différents éléments abordés dans cette section. Ainsi, l’as-pect extrinsèque de l’évaluation est selon au moins tout aussi important que l’asl’as-pect intrinsèque. Pour prendre en considération un tel aspect extrinsèque dans l’évaluation d’un système, il est par exemple possible d’interroger la satisfaction de ses usagers, de mesurer l’adéquation à la tâche des interfaces et des interactions proposées, d’isoler des zones des interfaces particulièrement

143

D’autres expériences du même type sont disponibles à l’adresse suivante : http://blog.eyetools.net/ eyetools_research(page consultée le 2 juillet 2007).

Chapitre 4. Expérimentations et évaluations du modèle AIdED

visualisées, etc. Dans la section suivante de ce chapitre, nous traçons les grandes lignes que nous nous sommes fixées pour l’évaluation de notre modèle.

4.1.3 Évaluer des systèmes centrés sur leurs utilisateurs

Le modèle AIdED propose de centrer sur l’utilisateur les tâches d’accès au contenu d’en-sembles documentaires. Cette place donnée à l’utilisateur a entraîné la conception de logiciels centrés sur ce dernier ou encore individu-centrés144. Des tels logiciels sont individus-centrés car ils produisent des sorties d’analyses (dans notre cas, des supports interactifs de visualisation cartographique) dont la création est intégralement dépendante de ressources prises en entrée dé-crivant le point de vue de l’utilisateur. Pierre Beust dans [Beust, 2005] définit de tels systèmes et les oppose aux systèmes « technocentrés » :

Les systèmes individu-centrés s’opposent aux systèmes dits technocentrés où l’utilisa-teur n’a principalement qu’un rôle d’interprétation des résultats de la machine sans qu’il puisse déterminer la façon de les produire. Pour qu’un système soit effective-ment individu-centré, il faut que ses traiteeffective-ments soient déterminés par l’expression d’un point de vue particulier, celui de son utilisateur, sur une tâche particulière. II ne s’agit pas simplement que de permettre à l’utilisateur de personnaliser son applica-tion, ce qui reviendrait à prévoir d’avance une liste exhaustive de profils d’utilisateurs et de sélectionner l’un de ceux-là en fonction des choix faits.

Dans les systèmes individu-centrés, les sorties retournés à l’utilisateur ne constituent pas une finalité mais elles doivent plutôt être considérées comme des regards possibles sur la tâche visée à un moment donné. De tels regards évolueront en même temps que le point de vue de l’utilisateur sur sa tâche.

Proposer des éléments d’évaluation de tels systèmes individu-centrés entraîne donc de prendre en considération différents aspects qui leur sont propres. Nous proposons de décomposer l’éva-luation de systèmes individu-centrés, et plus particulièrement de l’instrumentation logicielle d’AIdED, selon les trois étapes suivantes :

1. Évaluation de la phase de construction des ressources décrivant le point de vue de l’utilisa-teur :

Durant cette étape, il faudra évaluer si la construction des ressources décrivant le point de vue de l’utilisateur sur la tâche qu’il souhaite accomplir est facilement réalisable dans un temps raisonnable. Il faudra également mettre en évidence si ce dernier est correctement assisté durant cette phase.

2. Évaluation de la phase d’exécution du logiciel :

Dans cette étape, il faudra s’intéresser au délai nécessaire à l’exécution du logiciel à partir des entrées spécifiées par l’utilisateur. Il sera également utile de mesurer l’espace mémoire nécessaire à l’exécution du logiciel.

3. Évaluation des sorties produites par le logiciel :

Durant cette phase de l’évaluation, il faudra demander à chaque utilisateur si les résultats retournés sont pertinents pour lui et en relation étroite avec le point de vue qu’il a exprimé précédemment. Par la suite, il faudra évaluer si les méthodes de visualisation utilisées pour présenter les résultats sont facilement exploitables par l’utilisateur. Enfin, il faudra évaluer comment les résultats obtenus seront appropriés par l’utilisateur et comment ils pourront être exploités par ce dernier afin de faire évoluer correctement la représentation de son point de vue sur cette tâche.

144

4.1. La problématique de l’évaluation en TAL Au cours d’un travail précédent, s’intéressant à la première étape définie ci-dessus, une éva-luation de la phase de construction des ressources caractérisant le point de vue de l’utilisateur a été menée. L’atelier de formation du CNRS « Variation, construction et instrumentation du sens » (juillet 2002, île de Tatihou, Manche) a ainsi été l’occasion de mettre en place une ex-périmentation portant sur la création de RTO LUCIA (cf. [Perlerin et Beust, 2003] pour plus de détails sur cette expérimentation). L’objectif était de tester la capacité d’utilisateurs novices à s’approprier les principes généraux du modèle LUCIA (attributs, tables, dispositifs) en leur demandant de construire dans un temps imparti un dispositif sur un sujet précis (en l’occurrence la bourse) afin de pouvoir comparer les résultats.

Cette expérience s’est déroulée au cours de deux séances de deux heures trente chacune et avec un total de 8 participants d’horizons différents (linguistique, psychologie, ergonomie, informatique, microbiologie, etc.). Après un exposé introductif sur les principes du modèle, il a été fourni aux participants une liste de 216 lexies issues du corpus Le Monde sur CD-ROM. Cette liste avait été obtenue à partir d’un calcul de type Zipf sur l’ensemble des articles traitant de la bourse et de l’économie de laquelle les éléments non verbaux et non substantivaux avaient été enlevés (cette liste contenait par exemple des lexies comme action, back office, dévaluation, OPA ou encore palais Brogniart). Les consignes données aux participants se bornaient à leur demander de construire sur papier un dispositif selon leur façon propre de parler du domaine (la consigne n’imposait pas nécessairement d’intégrer les 216 lexies dans le dispositif).

À l’issue des deux séances d’expérience, tous les participants ont au moins proposé des groupes de lexies, précisé les différences qu’ils considéraient comme effectives au sein de ces groupes et créé des tables avec un ou plusieurs attributs. Cependant aucun participant n’a estimé au bout de l’expérience être parvenu à un résultat finalisé. Après entretien avec les participants, il a tout d’abord été estimé que l’expérience présentait un certain nombre de biais. Le premier est certainement le temps imparti trop court pour la réalisation du travail demandé. L’absence