Cadres et enjeux de l’évaluation des systèmes de recherche d’information interactifs

2.3 L’évaluation de la visualisation des résultats de recherche en contexte de recherche

2.3.1 Cadres et enjeux de l’évaluation des systèmes de recherche d’information interactifs

Toutes les méthodes d’évaluation des systèmes de recherche d’information visent à attester la capacité du système à satisfaire l’utilisateur (Al-Maskari et Sanderson 2010). L’évaluation, son approche et ses critères dépendent alors de ce que l’on sous-entend par « satisfaire l’utilisateur ».

Grosso modo, on distingue deux approches de l’évaluation. Historiquement, la première

est centrée sur le système, la seconde est centrée sur utilisateur. L’évaluation centrée sur le système est celle qui est connue pour être la plus objective, et généralisable. Les raisons sont assez simples : elle n’introduit pas de facteurs humains, elle est simplement basée sur des mesures objectives, quantifiables. Ces deux principaux motifs suffisent à faciliter la généralisation des résultats et à répéter les expériences. Par contre, elle présente des limites quand il s’agit de mesurer l’impact des modalités interactives sur le processus de recherche d’information du point de vue de l’utilisateur. L’évaluation centrée sur le système est d’ailleurs remise en question dès les premières évaluations de systèmes visuels de recherche d’information, centrées sur les utilisateurs (X. Lin 1993; Koshman 1996; Nuchprayoon 1996). En 1996, elle est explicitement formulée lors de la conférence TREC-4 par Veerasamy et Belkin (1996, 91) en conclusion d’une évaluation d’un système visuel de résultats de recherche effectuée avec la méthode de Cranfield (Salton 1970):

Another evaluation problem raised by our study is how to measure effectiveness of visualization tools. The problems with using precision as a measure for evaluating interactive IR are well-known, especially if precision is decided according to relevance judgements from experts, rather than the searchers. (Veerasamy et Belkin 1996, 91)

Veerasamy et Belkin évoquent ici les limites – que nous expliciterons dans cette recension - de l’évaluation de la visualisation des résultats de recherche selon le modèle de Cranfield, mais ils préfigurent aussi le problème des mesures relatives de performance que pose la recherche d’information de type exploratoire. Quand on se situe dans ce contexte de recherche qui dépend de l’état de connaissance du chercheur d’information – l’utilisateur – qu’est-ce qu’une recherche performante? Qu’est-ce qu’un système performant du point de vue de l’utilisateur? Comment mesurer le fait de satisfaire un besoin d’information qui évolue?

Face à ces limites, l’approche centrée utilisateur vise justement à inclure davantage le point de vue du chercheur d’information au sein de l’évaluation, sans pour autant en exclure les mesures de performance. L’approche centrée utilisateur provient tout d’abord des limites de l’approche centrée sur le système, mais aussi de l’influence du courant de l’ergonomie homme-machine qui prône l’inclusion des modèles de l’utilisateur. Au milieu des années quatre-vingt-dix, le Web devient public et les interfaces homme-machine, dont celles des systèmes de recherche d’information doivent se démocratiser, et se démocratisent. Elles doivent être utilisables par tout un chacun sans changer la nature de l’activité à assister au départ :

Thus, a user-centered perspective tries to optimize the user interface around how people can, want, or need to work, rather than forcing the users to change how they work to accommodate the system or function. In short, evaluation with a user centered perspective is an evaluation based on the needs of the user and, for that, we need to know them, their goals and tasks (Freitas, Pimenta, et Scapin 2014, 315) Au début des années quatre-vingt-dix, le concept d’utilisabilité englobe celui de la performance. Il s’agit de concevoir des systèmes performants pour l’utilisateur, en fonction de ses capacités cognitives, et de l’activité humaine à réaliser.

Afin de bien saisir les enjeux sous-jacents et les limites inhérentes à l’évaluation d’un système visuel de recherche d’information, nous présentons les deux approches d’évaluation, leurs avantages et leurs limites.

Dans une première sous-partie, nous présentons les méthodes et critères d’évaluation issus du modèle de Cranfield (cf. section 2.3.1.1, 123). Puis, nous en montrons les limites face notamment aux spécificités introduites par la visualisation, laquelle ajoute des modalités interactives et graphiques. L’évaluation des modalités interactives ne peut être faite selon les seuls critères et mesures de performance tels que conçus par la méthode de Cranfield (cf. section 2.3.1.1.3, 126). Dans une seconde sous-partie, en réponse à ces limites, nous présentons l’évaluation de l’utilisabilité selon ses principes, critères et méthodes (cf. section 2.3.1.2, 127).

2.3.1.1 La méthode d’évaluation standard des systèmes de recherche d’information : la méthode de Cranfield

Selon la méthode de Cranfield, la capacité du système à satisfaire l’utilisateur repose sur sa performance (Manning, Raghavan, et Schütze 2008, 139). Associés à la performance apparaissent très souvent les concepts d’efficacité et de pertinence. Pour les systèmes de repérage d’information, l’efficacité est le plus souvent mesurée par des tests de collection. La pertinence est aussi considérée comme une condition sine qua non de performance.

It seems reasonable to assume that relevance of results is the most important factor: blindingly fast, useless answers do not make a user happy. (Manning, Raghavan et Schütze 2008, 139)

En établissant la pertinence d’une information (que ce soit du point de vue du système, du concepteur ou de l’utilisateur), un certain degré d’incertitude est levé dans la mesure où cette attestation de pertinence indique une amélioration dans l’état des connaissances : le fait qu’un pan

du besoin d’information se comble. Du point de vue du système, le fait qu’un document est pertinent ou pas dépend de son appariement aux termes de la requête, par rapport à l’ensemble de documents que le système a indexé. Il y a plusieurs mesures utilisées pour établir la pertinence d’un document, nous les présentons sommairement, ci-dessous.

2.3.1.1.1 Les tests de collection

Le modèle de Cranfield est issu des travaux initiaux de Cleverdon (1967, 1970, 1972). Il a néanmoins acquis une véritable solidité scientifique peu après, grâce aux recherches menées par l’équipe SMART sous la direction de Salton (1971). Au début des années 1990, ce modèle, toujours dans la lignée des tests de collection, a été adapté aux nouveaux environnements en ligne, et ce, jusqu’à maintenant avec les expérimentations (TREC, GOV², NTCIR et CLEF, REUTERS et 20NewsGroup) effectuées par NIST (National Institute of Standards and Technology). Il évalue la performance du système sur la base de l’efficacité à rappeler un grand nombre de résultats tout en garantissant le plus de précision possible quant à la pertinence des documents retrouvés. La précision est la part des documents retrouvés qui sont pertinents; le rappel est la part des documents pertinents qui sont retrouvés.

Dans les tests de collection, l’idéal est que le rapport entre le rappel et la précision tend au maximum vers 1. Néanmoins, il faut compter avec certaines contingences : le système peut retourner des faux positifs pertinents, et ne pas retourner des vrais positifs pertinents. Le rapport rappel et précision est donc pondérable par ce calcul d’exactitude (mesure « F ») qui tient compte de ces vrais-faux positifs (Manning, Raghavan et Schütze 2008, 143).

2.3.1.1.2 Le concept de « relevance feedback » ou rétroaction de pertinence

La pertinence entretient des liens très étroits avec d’un côté, performance et de l’autre la satisfaction. Selon nous, la pertinence est le lien qui permet de faire se rejoindre la performance du système et la satisfaction de l’utilisateur. Initialement, dans les tests de collection, la pertinence des résultats était évaluée par un assentiment binaire de satisfaction (oui, ce document est pertinent) ou de non-satisfaction (non, ce document n’est pas pertinent) en fonction d’un grand nombre de requêtes. Il s’agit d’une méthode dénommée « pooling ». Il était ainsi possible d’obtenir une matrice « absolue » de pertinence des pairs « document/requête » (Manning, Raghavan et Schütze 2008, 151). Une autre méthode utilisée, le score kappa, issue des sciences sociales,

s’appuie sur l’accord qui réside entre plusieurs personnes (accord interjuges) : « oui ou non ce document est pertinent »? On s’attend à ce que l’accord atteigne le rapport minimal de 0.5 pour établir la pertinence positive d’un document. Afin d’obtenir une certaine finesse de jugement, des marges ou des classes statistiques permettent d’ordonner les documents « assez pertinents », « très pertinents »…

Aujourd’hui en raison de la taille des collections sur le Web, des usages et donc des besoins, ce calcul de pertinence n’est premièrement pas nécessairement possible, et deuxièmement ne se justifie pas en tant que méthode unique d’évaluation de pertinence :

In the final analysis, the success of an IR system depends on how good it is at satisfying the needs of these idiosyncratic humans, one information need at a time. (Manning, Raghavan et Schütze 2008, 151)

De plus, la dimension associée à la nouveauté ou , aurtrement dit l’originalité, des documents pertinents n’est pas prise en compte dans ce type d’évaluation (Carbonell et Goldstein 1998, 335). Dès lors, il peut y avoir de nombreux documents, cas de figure fréquent sur le Web, qui obtiennent tous un très bon score kappa, mais qui l’obtiennent parce qu’ils ont été évalués individuellement sur les mêmes caractéristiques de pertinence. En revanche, considérés dans leur ensemble, un document seulement peut être pertinent et les autres ne sont qu’un écho redondant de ce document pertinent.

Le caractère contrôlé de l’expérimentation de Cranfield comporte de nombreux avantages en termes de réplicabilité des résultats, mais aussi de comparaison d’un système à l’autre. En effet, dans le domaine de la fouille de texte, cette approche est recommandée pour mesurer et comparer l’efficacité des méthodes d’organisation et de structuration de l’information. Tout d’abord, en principe, la fouille de texte est un processus machine pour lequel on vise à ce que l’intervention humaine soit la moindre possible. Dès lors, il n’est vraiment pas souhaitable d’intégrer des variables inhérentes à un processus quelconque de l’utilisateur. Ensuite, et grâce à l’émergence des techniques de structuration de la fouille de texte, les mesures actuelles (MAP, precision à k, R-precision) sont de plus en plus fines, solides et tolérantes à la relativité de l’information (taille des index indéfinis, dynamique d’apprentissage machine, fluctuation du volume, hétérogénéité structurelle de l’information…) et de sa pertinence (Manning, Raghavan et Schütze 2008, 143, 148).

2.3.1.1.3 Critique de la méthode de Cranfield

Dans le domaine scientifique de la recherche d’information, la méthode de Cranfield, modèle d’évaluation dominant des systèmes de recherche d’information, est aussi discutée (Borlund 2003; Kules et Shneiderman 2008, 464; Borlund et Schneider 2010). La raison principale est que cette approche centrée sur le système réduit le processus de l’utilisateur à la portion congrue de la formulation de la requête et de l’évaluation des résultats, selon le modèle traditionnel de Sutcliffe et Ennis (1998). Or la dimension interactive prend une place de plus en plus importante sur le système, mais aussi du point de vue de l’utilisateur. En effet, depuis longtemps la communauté des chercheurs en interaction homme-machine montre que la communication avec un système informatique ne va pas de soi, et que la conception doit être pensée de telle sorte que le système s’adapte à l’utilisateur et aux exigences de la tâche et de son environnement, et non l’inverse (Landauer 1996). D’ailleurs, souligner l’angle mort de ce cadre d’évaluation qui évacue toute considération de la dimension interactive n’est pas nouveau, même à l’intérieur des rangs de ceux qui l’utilisent. Diane Kelly cite en effet dans l’introduction de son ouvrage sur les méthodes d’évaluation des systèmes de recherche d’information interactive les réserves de Salton, de Tague et Scholtz et de Cleverdon :

Salton wrote a paper entitled “Evaluation problems in interactive information retrieval” which was published in 1970. In this paper, Salton [229] identified user effort measures as important components of IR evaluation, including the attitudes and perceptions of users. Cleverdon et al. [55] identified presentation issues and user effort as important evaluation measures for IR systems, along with recall and precision. Tague and Schultz [259] discuss the notion of user friendliness. (Kelly 2009, 3)

Les chercheurs dénoncent les limites de la méthode de Cranfield qui réduit l’utilisateur à la portion congrue d’un besoin informationnel exprimé par une requête. Or, l’utilisateur amène bien plus de variabilité à la recherche et ce faisant à la capacité du système à être performant dans cette variabilité comportementale. Ce que soulignent d’ailleurs Swan et Allan lorsqu’ils appellent à porter davantage d’attention au modèle de l’utilisateur considéré : « Without accurate models we cannot design user studies that have reliable results » (1998, 180).

Aussi, la performance telle que conceptualisée et mesurée dans cette méthode d’évaluation ne peut s’appliquer dans le contexte mouvant et mal défini de la recherche d’information exploratoire :

The situated nature of exploratory search tasks can lead to many different task outcomes for different searchers, making it difficult to specify quantitative performance measures like time to completion, error rates, precision, or recall. (Kules et Shneiderman 2008, 464)

Bien qu’il y ait eu des tentatives d’ouverture à l’inclusion de l’utilisateur afin de faire évoluer la méthode (TREC Interactive Track), l’interaction et son rôle dans la performance du système à satisfaire les besoins informationnels de l’utilisateur restent dans l’angle mort des méthodes de test de collection. De plus, le Web est aussi un environnement informationnel qui mène cette méthode à ses limites :

Although Vaughan (2004) indicates that it is very difficult to apply these metrics to the evaluation of Web information retrieval systems, Kobayashi & Takeda (2000) suggest that only recall is unfeasible. (Hoeber et Yang 2009, 102)

En conclusion, les méthodes de test de collection sont recommandées pour attester de la performance des traitements algorithmiques de structuration automatique du système, selon un ensemble de critères fixes ne dépendant pas ou peu de la dynamique de l’activité humaine ou d’un environnement informationnel dynamique comme le Web.

2.3.1.2 L’évaluation d’utilisabilité

Tout comme l’évaluation centrée sur le système, dont la méthode de Cranfield est l’exemple phare et la plus utilisée pour les systèmes de recherche d’information, les évaluations centrées sur l’utilisateur peuvent être diversifiées. On les appelle les « user studies » ou « études utilisateurs ». Ce type d’étude inclut des évaluations centrées sur l’utilisateur, mais leurs objectifs peuvent varier. On peut trouver par exemple des études qui mesurent l’impact de différences individuelles bien identifiées comme les styles d’apprentissages (Ford, Miller, et Moss 2005). On peut trouver des évaluations d’utilisabilité dont l’objet vise à déterminer si le système s’utilise bien, avec efficacité, efficience et satisfaction, en fonction d'une tâche et d'un environnement.

Dans le cadre de notre recherche, nous ne mesurons pas l’impact de facteurs humains aussi précis. Nous souhaitons évaluer la capacité d’un système de recherche d’information visuel à assister l’utilisateur dans sa tâche de recherche, selon le modèle comportemental et cognitif décrit dans la première partie de la revue de littérature. Nous nous attarderons donc uniquement à l’évaluation d’utilisabilité dont l’objet est de mesurer l’adéquation d’un système à la tâche d’un

2.3.1.2.1 L’évaluation de l’utilisabilité

L’évaluation d’utilisabilité vise principalement à mesurer l’adéquation du système, ici de recherche d’information, à la tâche de l’utilisateur en croisant les critères d’efficacité, d’efficience et de satisfaction procurées par l’utilisation du système. L’adéquation à la tâche qui résulte de la mesure positive de ces trois critères suppose une charge mentale d’utilisation suffisamment basse, pour que le chercheur d’information puisse se concentrer à réaliser sa recherche d’information. Plusieurs méthodes d’évaluation existent : l’inspection selon des heuristiques, des expérimentations contrôlées ou encore des études de terrain.

L’utilisabilité désigne la capacité d’un système à être efficace, efficient et satisfaisant, du point de vue de l’utilisateur. On parle aussi souvent de système convivial. Les propriétés fonctionnelles et autres caractéristiques pertinentes au bon usage du système facilitent et permettent l’accomplissement de la tâche pour laquelle le système a été conçu. Un système de recherche d’information utilisable fournit l’ensemble des ressources fonctionnelles et autres, utiles et faciles à utiliser pour accomplir la tâche de recherche menée par l’utilisateur. Dans le domaine précis de l’interaction homme-machine, l’utilisabilité a été développée par Nielsen (1993), elle est admise et reconnue, et fait maintenant l’objet de la norme ISO 9241. Elle établit comme mesures standards celles de l’efficacité, l’efficience et la satisfaction pour un contexte d’usage situé (Kulyk et al. 2008, 17).

L’évaluation de l’utilisabilité repose sur l’évaluation de critères que l’on peut mesurer selon différentes méthodes en fonction notamment de l’étape de conception du logiciel. Si celui- ci est à l’étape de conception, on privilégiera une méthode d’analyse fonctionnelle et d’analyse de tâche. Par contre dans le cas où le système se situe à la fin de son cycle de conception, on privilégie d’autres types d’évaluation : des analyses de l’interface selon des heuristiques, des quasi- expérimentations, des expérimentations contrôlées ou encore des études de terrain.

On présente donc ces critères et ces méthodes, en dressant d’abord les critères et les mesures privilégiées. Puis nous évoquons comment l’évaluation d’utilisabilité est utilisée dans le cadre de l’évaluation des systèmes de recherche d’information interactifs.

2.3.1.2.2 Les critères et méthodes d’utilisabilité

Les mesures d’utilisabilité couvrent plusieurs sous-dimensions relatives à l’environnement, la tâche et les dimensions individuelles de l’utilisateur. Dans un article faisant un état de l’art sur le concept d’utilisabilité et sa prise en compte dans l’architecture logicielle, Folmer et Bosh (2004) dressent l’ensemble des critères d’utilisabilité en fonction des différents auteurs spécialistes et des normes d’utilisabilité. Dans le tableau IV, ci-dessous, nous dressons la liste des critères qui font consensus. Ceux édictés par la norme ISO demeurent les mesures standards.

Tableau IV Critères d'utilisabilité selon les perspectives objectives et subjectives du modèle de l'utilisateur (adapté de Folmer et Bosh 2004, 69)

Critères d’utilisabilité Critères Références P er fo rma nce de l’ utilis at eu r (o bje ct if )

Apprenabilité (Shackel et Richardson 1991; Nielsen 1993 ; Normes ISO 9241-11 2008 et 9126 1991)

Efficacité (Shackel et Richardson 1991; Nielsen 1993 ; Normes ISO 9241-11:1998 et 2008 ; 9126: 1991)

Efficience (Shackel et Richardson 1991; Nielsen 1993 ; Normes ISO 9241-11:2008 et 9126:1991)

Mémorabilité (Nielsen 1993)

Erreurs (Nielsen 1993)

Opérabilité (Norme ISO 9126 :1991)

Compréhensible (Norme ISO 9126 :1991)

P oint de vue de l’ utili sa teur (s ub jec tif ) Flexibilité (Shackel 1991)

Satisfaction (Nielsen 1993; ISO 9241-11 :1998 et 2008)

Attitude (Shackel 1991)

Attractivité (Norme ISO 9126)

À la lecture du tableau, il n’est pas surprenant de voir apparaitre les critères d’utilisabilité standards que sont : l’efficacité, l’efficience et la satisfaction. L’apprenabilité du système – c’est- à-dire la facilité à apprendre le système – est aussi un critère qui fait consensus. Par contre, au niveau des critères plus subjectifs, le consensus est moindre et par conséquent, les critères sont plus disparates et moins précis. La raison qui nous semble évidente pour expliquer ce phénomène est que la définition de ces critères d’utilisabilité subjectifs dépend d’une situation délimitée par une tâche, un environnement et un utilisateur particuliers.

Ainsi, il se dégage plusieurs atouts de ce cadre d’évaluation. Premièrement, le cadre de l'utilisabilité prescrit des critères communs objectifs et subjectifs auxquels d’autres peuvent s’ajouter, mais il ne prescrit pas de méthodes en particulier ni d’indicateurs. Les indicateurs de chacun des critères sont adaptés à la situation de tâche et au contexte d'utilisation. L’évaluation de l’utilisabilité, si elle perd en soi-disant objectivité – le soi-disant dénotant le fait que l’évaluation objective issue de la méthode de Cranfield ne tient pas compte des facteurs humains, qui influencent certainement l’issue de la tâche – elle gagne en réalisme, tout en conservant les traces d’utilisation objectives, par exemple le temps consacré à la réalisation d’une tâche sur un système donné, le nombre de clics, le nombre d’erreurs, etc. Deuxièmement, le cadre de l’évaluation d’utilisabilité ne prescrit pas une méthode, mais en permet plusieurs suivant le stade de conception du système, ici de recherche d’information.

Au niveau des méthodes, le rapport COST294-MAUSE (Law et al. 2009) établi par des experts internationaux propose une classification des méthodes d’évaluation de l’utilisabilité. Selon la classification du COST294-MAUSE, il y a des méthodes basées sur la documentation, l’expertise et la modélisation. Les méthodes basées sur la documentation visent à évaluer l’utilisabilité d’une interface selon une liste de recommandations, d’heuristiques ou de critères

Dans le document Visualisation des résultats de recherche classifiés en contexte de recherche d’information exploratoire : une évaluation d’utilisabilité (Page 120-133)