• Aucun résultat trouvé

Études empiriques de la visualisation des résultats de recherche en contexte de

2.3 L’évaluation de la visualisation des résultats de recherche en contexte de recherche

2.3.2 Études empiriques de la visualisation des résultats de recherche en contexte de

Dès le début, au niveau des systèmes de visualisation d’information, l’utilisabilité comme critère d’évaluation est très répandu. Au niveau des mesures, les évaluations centrées utilisateur sont d’abord menées par des chercheurs en visualisation d’information, qui sont scientifiquement plus proches de l’interaction homme-machine que des sciences de l’information. Avant de créer des systèmes visuels de recherche d’information, ils conçoivent des dispositifs de visualisation d’information. Le contexte d’application qu’offrent les systèmes de repérage d’information est opportun. Ce faisant, les premières études centrées utilisateur prennent comme critères d’évaluation, ceux utilisés en interaction homme-machine soient ceux de l’utilisabilité développés par Nielsen (1993). En effet, dès 1996, Koshman étudie l’utilisabilité du système VIBE, Nuchprayoon (1996) évalue l’utilisabilité du système GUIDO. Par comparaison, ce n’est qu’au début des années 2000 que des systèmes de recherche d’information commencent à être évalués selon les critères de l’utilisabilité, systèmes qui comportent d’ailleurs une forte composante interactive, comme l’affichage de facettes, lesquelles servent alors de filtres pour sélectionner certains résultats. Ce sont d’ailleurs des systèmes souvent développés dans le but d’assister la recherche d’information exploratoire.

Pourtant, malgré l’inclusion de l’utilisateur, des critiques fusent et se constituent en une conférence biennale « BELIV » (BEyond time and errors: novel evaLuation methods for Information Visualization) à partir de 2006. Dans la première édition, Ellis et Dix (2006, 5) ont démontré que les mesures habituelles d’efficacité prises – temps et taux d’erreurs – étaient limitées dans leur interprétation de la valeur ajoutée apportée par la visualisation. Ils évoquent en particulier la dépendance de la visualisation à son contexte d’utilisation. Et ils ajoutent que les méthodes d’évaluation doivent en tenir compte :

Visualisation (like all interfaces) are « generative artefacts : that is they are things that are not something of value in and of themselves, but only yield results in some context. (Ellis et Dix 2006, 5)

Dans les parties suivantes, et à la lumière des considérations méthodologiques que nous avons explicitées, nous présentons une revue détaillée des méthodes d’évaluation de la visualisation des résultats de recherche, et ce en contexte de recherche d’information sur le Web.

L’ensemble des études recensées sont résumées dans les deux tableaux suivants. Chacune des études est ensuite détaillée avec ses forces et ses faiblesses. De cette analyse nous aboutissons aux lacunes empiriques résultant de l’évaluation de la visualisation des résultats de recherche en contexte de recherche d’information exploratoire.

Tableau V Études d'évaluation de systèmes visuels de recherche d'information web

Références Outil(s) Focus IV (variable indépendante)

Facteurs Méthodes Mesures Métriques utilisateurs Nombre

Tâche Test collection (Heo et Hirtle 2001; Heo 2000) Site Analyst (distorsion) MerzScope (zoom) LiveIndex (expansion) Techniques de visualisation : - Distorsion - Zoom - Expansion Modèles mentaux associés aux tailles d’espaces Web (583 pages et 50 pages) Étude utilisateur – Expérimentation contrôlée en laboratoire Performance utilisateur Charge mentale et désorientation Exactitude de la réponse Temps pour accomplir la tâche Perception anxiété (post- questionnaire Likert) - Confort général à l’utilisation, outil compréhensible, facilité d’utilisation, désorientation, représentation de l’espace conforme, aide à compléter la tâche, réutilisation ultérieure N=80 Repérage : 2 collections de questions fermées Oui (cf. facteurs) (Berenci et al. 2000) Viewer (vs AltaVista) Affichage graphique et manipulation des vues Reformulation de requête NA 1. Expérimentation contrôlée en laboratoire 2. Étude utilisateur / Expérimentation contrôlée en laboratoire 1. Performance (efficacité) Satisfaction de l’utilisateur 2. Performance (contexte interactif) Satisfaction utilisateur 1. Rappel et précision (utilisation « Jugement de pertinence de TREC ») 2. Nombre brut de documents pertinents trouvés

Précision et variation de la précision durant la session de recherche.

Satisfaction : ennui/intérêt ; difficile / facile ; déplaisant / plaisant N=10 (1) – 50 requêtes automatiquement générées N=20 (10 par système) Tâche de recherche « réaliste » : 6 thèmes aléatoires parmi les 50 Oui (Trec 4 – test topics) pour 1. et 2. (Hoeber 2013) HotMap Web Information retrieval System WordBars et HotMap Expérimentation longitudinale sur le terrain 1. et 2. Acceptation (répétée) 1 et 2 Activité Perception de l’utilité Facilité d’utilisation Type(s) de recherche effectuée(s) Continuité ultérieure de l’utilisation Analyse de logs N = 13 10 semaines d’utilisation (5 puis 5) Obligation puis non-obligation d’utilisation 1. Yahoo! Api 2. Google API

Tableau VI Études d’évaluation de systèmes visuels de recherche d’information web en contexte de recherche d’information exploratoire Référence Outil(s) Focus IV Facteurs Méthodes Mesures Métriques Nombre utilisateurs collection Test

(Spoerri 2006) MetaSearch 1. Pertinence du repérage du métamoteur 2. Affichage linéaire et 2D coordonnées : - « RankSpiral » - « Cluster Bulls-Eye » 1. Moteurs de recherche « fournisseurs » 2. Non-expertise de l’utilisateur 1. Calculer la probabilité de chevauchement des 50 premiers résultats de chaque moteur de recherche 2. Étude utilisateur 1. Pertinence 2. Pertinence Performance visualisation

1. Rang des résultats retournés

2. Rang des résultats Taux d’erreurs Temps Position visuelle du résultat N=9 (étudiants 1er cycle) Pas d’« essai » 10 collections de données présentées aléatoirement sur les 2 affichages Sélectionner les 10 documents sur 50 les plus pertinents 1.Oui (TREC 8) (Hoeber et Yang 2008) WordBars (Google API) Histogramme de la fréquence des termes de la recherche dans les résultats

Expertise recherche sur le Web (avec et sans) Étude utilisateur – expérimentation contrôlée en laboratoire Efficacité Efficience Satisfaction Pertinence Temps pour chaque étape de la tâche Confiance, Ambigüité, Satisfaction Préférence N = 24 (2 groupes de 12 selon l’expertise) Tâches : Suivre les étapes d’interactions

correspondant à un scénario de recherche exploratoire

(tâche extraite de la TREC 2005 HARD test topics)

Oui (TREC 2005 HARD track test topics) (Hoeber et Yang 2009; Hoeber 2006) HotMap

Tri des résultats par la carte thermique de la distribution de la fréquence des termes de la recherche dans les résultats Expert utilisateur Non-expertise 1 et 2 Performance Efficience 2. Satisfaction Pertinence Temps Taux d’erreur Confiance Facilité d’utilisation, Ambigüité, Satisfaction Préférence N = non précisé 1. 4 tâches de recherche vagues avec requête initiale

2. 2 tâches de recherche vagues avec requête initiale

Google API collection de résultats en cache

2.3.2.1 Sélection des études analysées

Depuis 1989, plusieurs évaluations de la visualisation des résultats de recherche ont été menées. Afin d’identifier de manière exhaustive l’ensemble des évaluations formelles sur la visualisation des résultats de recherche, nous avons effectué une recherche bibliographique dans les bases de données LISA et PROQUEST (Dissertations), mais aussi repéré les études préalablement citées dans les articles de références lus sur la visualisation d’information et des résultats de recherche. Dans un premier temps, nous avons limité la recherche à la période comprise entre 1989 et 2006 puis entre 2007 et 2015, aux revues évaluées par les pairs et d’expressions anglaise ou française. Nous avons procédé en deux équations de recherche qui diffèrent légèrement. Dans l’équation qui vise les publications postérieures à 2006, nous avons limité la recherche aux publications ne contenant pas l’expression « information retrieval », concept devenant non pertinent par rapport à la recherche d’information exploratoire.

La première équation de recherche a permis de repérer quarante-trois notices entre 1989 et 2006

(information visualization) AND (search requests OR search results) OR (exploratory search OR informational retrieval) AND ab((evaluation OR user study)) NOT (bibliographic databases OR bibliographic data OR visual analytics OR digital libraries OR geographic OR visual entities)

La seconde équation de recherche a permis de repérer 21 notices entre 2007 et 2015. (information visualization) AND (search requests OR search results OR exploratory search) AND ab((evaluation OR user study)) NOT (bibliographic databases OR bibliographic data OR visual analytics OR digital libraries OR geographic OR visual entities)

Après examen des notices en parcourant le résumé, nous avons sélectionné les publications qui faisaient état d’une évaluation formelle d’un dispositif de visualisation des résultats de recherche. Nous y avons ajouté les références que nous avions d’ores et déjà identifiées au cours de nos lectures, et nous aboutissons à un corpus de cinquante-deux études publiées et revues par les pairs. Parmi elles, huit publications traitent soit d’une évaluation de la visualisation des résultats de recherche sur le Web, soit d’une évaluation de la visualisation des résultats de recherche en contexte de recherche d’information exploratoire sur le Web. Ces dernières études sont analysées en détail dans la section suivante.

2.3.2.2 Études d’évaluation de systèmes visuels de recherche d’information web À travers leur évaluation d’outils de visualisation et plus spécifiquement des techniques de distorsion visuelle, Heo et Hirtle essaient d’évaluer si la visualisation est un mode de représentation adapté aux espaces Web, en 2000. Ils comparent ces techniques en prenant en considération deux tailles d’espace web, l’un contient cinq cent quatre-vingt-trois pages et l’autre cinquante pages. La question posée est : est-ce que la taille affecte la recherche d’information? Si oui, est-ce lié: aux techniques utilisées? Aux mesures de performance? À la compréhension et à la satisfaction qu’en tire l’utilisateur?

L’environnement s’est révélé générateur de « surcharge cognitive ». Cette surcharge cognitive a conduit à des résultats de moindre performance pour les outils de visualisation en général par rapport à l’outil sans visualisation. Néanmoins, des différences de performance ont été observées entre les outils de visualisation. Celui qui a obtenu le plus haut score de performance était celui avec lequel les utilisateurs avaient une plus grande familiarité (« expanded outline »). Cette vue permet de visualier le résultat de recherche et son contexte. En revanche, la distorsion consistant à focaliser (« zoom ») s’est révélée être la plus difficile pour les utilisateurs.

Heo et Hirtle concluent sur le fait que ces résultats sont similaires et confirment ceux des études d’utilisabilité antérieures.

2.3.2.3 Études d’évaluation de systèmes visuels de recherche d’information en contexte de recherche d’information exploratoire sur le Web

Berenci et ses collaborateurs publient la première étude qui examine le potentiel de la visualisation des résultats de recherche dans un contexte de recherche qui a toutes les caractéristiques de la recherche d’information exploratoire, tel que la modélisera Marchionini six années plus tard.

L’objectif de cette étude (Berenci et al. 2000, 249) vise à évaluer si la visualisation facilite l’inspection et l’utilisation des résultats de recherche Web. Ils proposent pour ce faire une expérimentation en deux phases. La première est une phase consistant à comparer les deux systèmes, AltaVista et Viewer, suivant leur performance en mesurant le rappel et la précision selon un test de collection (TREC-4). Selon les premiers résultats de cette phase, Viewer obtient une moindre performance. La seconde phase est une étude utilisateur. Vingt utilisateurs sont recrutés

(dix par système) et effectuent le même test sur la même collection, à ceci près que la requête est libre et peut être reformulée. L’autre différence est qu’il est aussi possible de réordonner les résultats avec l’interface Viewer. Les mêmes mesures sont prises, rappel et précision, avec la satisfaction en plus.

L’intérêt de cette phase est que la conception de l’expérimentation permet d’isoler le phénomène interactif et d’en proposer une mesure :

we measure how the precision of the interactive retrieval varies as a function of retrieved documents and time (Berenci et al. 2000, 260)

Les auteurs tirent deux conclusions principales (Berenci et al. 2000, 260). La première est que le système de vue permet aux utilisateurs de sélectionner des documents pertinents avec une plus grande précision (moins de bruit) qu’avec le système textuel AltaVista. La seconde conclusion est qu’en condition de scénario de recherche plus réaliste, c’est-à-dire en autorisant les requêtes libres et les reformulations de requête, l’effort de l’utilisateur s’est déplacé. L’utilisateur était davantage concentré dès lors sur l’évaluation plutôt que sur l’inspection des résultats. L’utilisation de Viewer a aussi occasionné des requêtes plus nombreuses et plus longues, et la satisfaction de l’utilisateur a augmenté. Selon les auteurs ces résultats s’expliquent par le fait que les utilisateurs ont plus de contrôle et peuvent, en particulier, manipuler les résultats.

Dans un autre article, Spoerri présente son nouvel outil de visualisation pour la recherche d’information. SearchCrystal est conçu à partir des précédents outils « infoCrystal » et « MetaSearch ». Il propose plusieurs vues des résultats de recherche qui se coordonnent avec une présentation des résultats de recherche en liste textuelle améliorée. Les autres vues, affichées en deux dimensions, sont : des vues des résultats selon une carte de catégories « Category View », une liste ordonnée en spirale « Rank Spiral » et la vue des résultats classifiés avec une distorsion de type « œil de poisson » dénommé « Clusters Bull-Eye ». Il fait la revue des caractéristiques des techniques de visualisation de SearchCrystal et explique théoriquement comment l’outil a les capacités d’assister la recherche d’information exploratoire. Toutefois, aucune évaluation n’est proposée de l’outil, excepté la mention faite d’une évaluation antérieure de « MetaCrystal », évaluation faite selon un test de collection TREC-8 et une étude utilisateur. La méthode est similaire à la première phase de l’expérimentation de Viewer, effectuée par Berenci et al. 2000. L’objectif est quelque peu différent : il s’agit de tester la pertinence des résultats de recherche

résultats, Spoerri arrive à la conclusion que « The greater the number of systems that find a document and the greater its average rank position, the greater its probability of being relevant » (Spoerri 2006, 6). Il nomme cet effet l’« Authority effect » (Spoerri 2006, 3).

L’étude utilisateur du MetaCrystal évalue la performance des indices visuels des affichages en fonction de la capacité de l’utilisateur novice à repérer les documents pertinents. Les vues « Cluster Bulls-Eye » et « Rank Spiral » ont été évaluées selon les mêmes critères d’efficacité et d’efficience, deux des trois critères principaux pour évaluer l’utilisabilité d’une interface. Pour évaluer l’efficacité des composantes visuelles, le report de la position graphique des résultats sélectionnés comme pertinents par les utilisateurs a été enregistré, de même que la ou les couleurs des résultats retenus. Plus les résultats étaient proches du côté, plus ils étaient pertinents. La couleur indique que le résultat a été repéré par un moteur de recherche, deux couleurs, deux moteurs de recherche, etc. Enfin, il a été demandé aux utilisateurs leur rétroaction par rapport à des gains observés en matière d’apprentissage de l’outil, de sa clarté et de sa facilité ou de sa difficulté. Spoerri (2006, 6) précise que l’objectif de l’étude utilisateur n’est pas d’évaluer le fait que l’on puisse effectivement faire usage du système, mais uniquement de vérifier à quel point l’utilisateur peut utiliser les indices graphiques visuels pour repérer les documents très pertinents selon une disposition graphique différente de celle de la liste.

La recherche d’information exploratoire a été le contexte de la série d’évaluations (Hoeber, Yang, et Yao 2007; Hoeber et Yang 2008; 2009; Hoeber 2013) des outils, VisiQ, HotMap et WordBars, conçus et développés par Hoeber durant sa thèse de doctorat (Hoeber 2007). Les évaluations avaient pour objectif principal de déterminer comment chacun des outils assiste la recherche d’information exploratoire, et ce en fonction de sa fonctionnalité spécifique.

En effet, dans l’évaluation de WordBars, le but était de déterminer si l’usage de WordBars aidait à trouver des résultats plus pertinents et à explorer davantage grâce aux possibilités de raffiner les requêtes. Pour ce faire, les utilisateurs avaient une répétition d’une même tâche de recherche à réaliser. Seule la thématique de recherche changeait entre les répétitions. La tâche de recherche consistait en quatre sous-tâches, correspondant à un cycle typique de recherche d’information exploratoire (Hoeber et Yang 2008, 494‑95) : (1) évaluer les dix premiers résultats de la requête initiale (2) sélectionner dans l’histogramme (WordBars) un ou deux termes pour retrier les résultats afin de positionner dans les premiers rangs les résultats les plus pertinents, puis (3) ajouter à la requête des termes issus du WordBars ou en soustraire afin de raffiner ou d’étendre

la requête, enfin (4) resélectionner des termes dans l’histogramme afin d’obtenir les résultats les plus pertinents en tête de liste. Ainsi, le sujet et la requête initiale sont établis, prédéterminés et tous les utilisateurs démarrent la recherche avec la même requête. Puis ils effectuent les quatre sous-tâches.

Hoeber et Yang (2008, 494-495) ont mesuré l’efficacité en fonction de l’amélioration observée au cours des trois tâches de recherche. L’amélioration était elle-même définie en fonction de la pertinence de chaque collection de résultats de recherche obtenus suite à chacune des quatre interactions, pour chacune des trois tâches. Le temps aussi a été mesuré entre chaque tâche répétée, afin de mesurer la courbe d’apprentissage. Des mesures subjectives de perception de la confiance, de l’ambiguïté et de la préférence dans les collections de résultats de recherche obtenus à chaque itération ont aussi été prises. Enfin, ils ont recueilli aussi le niveau de satisfaction.

Au niveau de l’efficacité, les résultats montrent que le groupe des experts a davantage profité de l’histogramme que les non-experts. Mais au fur et à mesure de la répétition des tâches, les deux groupes se sont améliorés en pertinence et en rapidité. Il y a eu aussi l’observation de contre-performances au niveau du reraffinement et de la reformulation de requête. Au niveau de la perception, les niveaux de confiance étaient significativement hauts, la préférence démontre que les résultats de recherche en fin de processus d’utilisation du WordBars sont préférés à ceux obtenus initialement. La tendance positive s’observe aussi dans le niveau élevé de satisfaction. Enfin, le sentiment d’ambiguïté s’amoindrit avec la répétition des tâches. Le groupe des experts montre des scores plus haut que les non-experts.

Selon Hoeber et Yang (2008, 508), ces résultats sont très positifs quant au support apporté par le WordBars pour spécifiquement les interactions visant le raffinement et la reformulation de requête à partir d’un outil fournissant une analyse visuelle des termes les plus fréquents composant les résultats de recherche, et ce pour des tâches de recherche caractéristiques de la recherche d’information exploratoire. Ils identifient aussi quelques limites à leur recherche (Hoeber et Yang 2008, 508-509). La première est que la pertinence des résultats repose uniquement sur le jugement propre des participants en comparaison du rang donné par les algorithmes utilisés pour le calcul de pertinence sur le Web (de type Pagerank). Aucun jugement d’expert n’est utilisé contrairement au test de collection TREC. La deuxième limite est que la tâche de recherche est modélisée et bien qu’elle ait les caractéristiques d’un modèle de tâche de recherche d’information exploratoire, elle

ne reflète peut-être pas une dynamique réaliste, avec notamment l’effort du processus de recherche d’information exploratoire que l’utilisateur mènerait en situation « réelle ».

Dans l’étude qui suit, Hoeber et Yang évaluent HotMap, un outil qui signale en fonction de la coloration de petits carrés associés au résultat de recherche, la distribution des termes de la requête en fonction de leur fréquence. Cette étude poursuit les deux études utilisateurs publiées dans deux précédents articles (Hoeber 2006; Hoeber et Yang 2006).

L’aide apportée par HotMap est de pouvoir donner dans le même écran un aperçu global des résultats et les dix premiers résultats avec leur carte de chaleur. La carte de chaleur est composée de blocs carrés qui en fonction de la fréquence dans le résultat du terme de la requête qu’il représente sont plus ou moins foncés. Plus il est foncé, plus le terme est fréquent. Donc par la perception visuelle qu’il est possible de faire de la carte de chaleur on peut identifier les résultats de recherche les plus pertinents en fonction de la fréquence des termes de la requête qui y sont présents. La deuxième aide est qu’en interagissant avec la carte de chaleur, il est possible de raffiner les résultats, d’opérer un nouveau tri en fonction d’un terme de la requête qu’on privilégie par rapport aux autres. Il est possible de cette manière d’ajouter une pondération aux termes de la requête.

L’objectif de l’étude est de déterminer l’efficacité potentielle de cette fonction de tri par pondération des termes de la requête qu’offre la visualisation sur un ensemble de résultats de recherche préalablement ordonné par pertinence selon l’algorithme du PageRank de Google.

La méthode utilisée est de mesurer l’efficacité de l’outil en termes de pertinence des résultats obtenus suite à l’utilisation de l’outil « HotMap ». L’étude est constituée de deux phases de collecte. Une première phase est effectuée en laboratoire avec des experts. Une deuxième