• Aucun résultat trouvé

Le choix des mesures et de leurs utilisations combinées est également dirigé par la capacité à

évaluer l’utilisabilité avec validité. En effet, l’utilisabilité est un « construit », au sens que la

psychométrie lui donne, c’est-à-dire d’un concept non accessible directement par la mesure

(comme l’intelligence) mais qui peut être approché par des moyens d’estimations plus ou moins

valides. La difficulté d’obtention de mesures valides est très bien documentée dans la littérature

sur l’évaluation des construits psychologiques depuis de nombreuses décennies (Cook &

Campbell, 1979b). De même, la discussion sur la méthode à adopter pour mesurer la qualité

des systèmes d’interactions numériques est un débat de fond qui ne date pas d’aujourd’hui. Elle

a commencé à l’aube de l’ergonomie (Shackel, 1959), a été prolongée par la discussion autour

de la « facilité d’utilisation » (Bennett, 1972), puis de l’utilisabilité (Shackel, 1981). Elle se

poursuit encore de nos jours, notamment au travers du débat sur le choix des mesures lors de

l’évaluation et de leurs pondérations. (Hornbak, 2006).

Le choix des mesures est conditionné en premier lieu par leurs qualités respectives en fonction

du contexte d’évaluation. Par exemple, lors d’une évaluation formative, les données récoltées

seront surtout d’ordre qualitatif, pour identifier les problèmes d’utilisabilité existant de manière

exhaustive et en un temps court. Lors d’une évaluation sommative, les données récoltées seront

avant tout quantitatives, pour permettre la mesure et la comparaison de différents produits sur

une base solide, voire statistique. D’autres distinctions de mesure existent et sont sujettes à des

discussions intensives sur leurs utilisations alternatives ou combinées. Il est courant ainsi, de

faire la distinction entre les mesures objectives et subjectives (Meister, 1985; Yeh & Wickens,

1988), bien que cela résulte d’abord d’une séparation pratique plutôt qu’épistémologique

(Muckler & Seven, 1992). Les mesures objectives de l’utilisabilité concernent les aspects que

l‘on peut observer, telle que l’efficacité à réaliser une tâche. Les mesures subjectives de

l’utilisabilité concernent les perceptions et les attitudes des utilisateurs envers une interface,

une interaction ou un de ses résultats, via des méthodes de recueil le plus souvent verbales ou

écrites. Une des raisons les plus avancées pour justifier l’utilisation conjointe de ces deux types

de mesure est d’avoir une vue plus juste de l’utilisabilité d’un système, en confrontant ces

données ou en les combinant. Par exemple, Tractinsky et Meyer (2001) ont trouvé des

différences significatives entre plusieurs interfaces de l’expérience subjective du temps

d’interaction alors que le temps objectif était le même. Ces différences entre mesures objectives

et subjectives ont été retrouvées dans d’autres domaines, tels que l’évaluation de la charge de

travail (Yeh & Wickens, 1988), ou de la performance à la tâche (Bommer, Johnson, Rich,

Podsakoff, & Mackenzie, 1995). La confrontation de ces mesures nous permet ainsi d’enrichir

et de raffiner notre jugement. Ces différences ont également été exploitées pour mettre au point

de nouvelles mesures, par combinaison de celles-ci. Par exemple, Czerwinski et al. (2001)

proposent une nouvelle mesure de l’utilisabilité, qui se base sur le ratio du temps « objectif » et

de la durée d’interaction perçue « subjectivement » par l’utilisateur.

Une autre distinction classique des mesures est liée à la sous-division de l’utilisabilité en

attributs séparés. Habituellement, les mesures sont classées en trois groupes, correspondant au

standard de la norme ISO 9241 sur l’utilisabilité (ISO, 1998) : l’efficacité, « la précision et la

complétude avec laquelle un utilisateur accomplit une tâche spécifiée », l’efficience, « les

ressources nécessaires pour accomplir une tâche spécifiée », et la satisfaction, « l’absence

d’inconfort et les attitudes positives de l’utilisateur envers le produit ». L’efficacité et

l’efficience sont généralement mesurées par des métriques objectives, tels que le temps de

réalisation et le nombre d’erreurs, alors que la satisfaction est mesurée généralement par des

métriques subjectives, tels que les questionnaires. Hornbæk et Law (2007) montrent dans une

méta-analyse sur l’évaluation de l’utilisabilité que l’utilisation de ces trois types de mesures

dans une même étude est une pratique courante. En effet, sur 73 études examinées, 36 (49%)

utilisent des mesures issues des trois attributs ; 30 études (42%) combinent des mesures

d’efficacité/efficience, d’efficience/satisfaction ou d’efficacité/satisfaction ; 7 études (9%) ne

collectent des mesures de l’utilisabilité que d’un seul attribut. De même, dans une étude menée

sur 180 papiers issus de journaux en IHM, Hornbæk (2006) constate que les mesures

d’efficacité, d’efficience et de satisfaction ne sont absentes que, respectivement, dans 22%,

18% et 38% des papiers examinés. Il constate également que la mesure de chacune de ces

dimensions de l’utilisabilité s’appuie sur des métriques diverses. Les métriques les plus utilisées

pour l’efficacité sont la réussite à une tâche, la précision (qui comprend le taux d’erreur) et la

qualité du résultat (qui comprend la compréhension). Pour l’efficience, les métriques les plus

utilisées sont le temps (dont le temps de complétion) et les patterns d’utilisation (dont la

fréquence d’action). Pour la satisfaction, il s’agit de l’évaluation utilisateur de sa préférence,

satisfaction et sentiment, à propos d’un produit qui lui est présenté. Compte tenu des enjeux et

de la diversité des pratiques, de nombreuses normes ont été élaborées. Ainsi, un format-type de

rapport, le CIF (« Common Industry Format »), a été mis au point, pour standardiser et

formaliser les tests utilisateurs sommatifs (ANSI, 2001; ISO, 2006). Il propose de contrôler

l’utilisabilité d’un produit à partir d’un certain nombre de mesures objectives (taux de

complétion, temps de réalisation, nombre d’erreurs ou de demande d’aide, ….) et subjectives

(questionnaire ASQ, SUMI, SUS, …) qui couvrent ainsi les trois dimensions de l’utilisabilité

précédemment citées.

Ainsi, à côté du besoin de plus en plus fort d’utiliser plusieurs méthodes de recherche pour

couvrir un sujet d’étude (Filippi & Barattin, 2012; Remus & Wiener, 2010; Wilson, 2006), un

consensus fort se dégage actuellement sur l’utilisation de plusieurs métriques pour couvrir au

mieux l’utilisabilité d’un produit. Les avantages avancés d’une telle démarche sont similaires :

(i) la validation croisée des données, obtenue par différentes sources, augmente la fiabilité, la

validité et la robustesse de l’estimation, et, de ce fait, la confiance que l’on peut avoir des

résultats obtenus (Creswell, 2003; Wilson, 2006) ; (ii) les approches plurielles et multimodales

permettent d’étudier un domaine sous toutes ses coutures, de le couvrir convenablement ou de

l’étendre, et ainsi de le comprendre en profondeur ou encore de découvrir de nouveaux

paradoxes qui stimuleront les recherches à venir (Kaplan & Duchon, 1988; Mingers, 2001).

Néanmoins, une question méthodologique divise chercheur et praticien : « Vaut-il mieux

exploiter ces mesures de manière séparée ou est-il préférable de les combiner ? ».

Dans les faits, la majorité des études qui font le choix d’utiliser différentes mesures de

l’utilisabilité les exploite ensuite de façon séparée (Hornbak, 2006). Néanmoins, Hornbak

(2006) constate également qu’un certain nombre d’études font le choix de combiner des

mesures de l’utilisabilité en une seule mesure, en reporte la valeur combinée et procède à des

tests statistiques sur cette combinaison. Des méthodes de combinaison de mesures ont été

spécialement mises au point dans le paradigme de l’utilisabilité (Jeff Sauro & Kindlund, 2005;

T. Tullis & Albert, 2008), telle que la méthode SUM. Ces méthodes se basent généralement sur

des procédures de standardisation (tel que le z-score), de pondération et d’agrégation des

mesures. Ainsi,Chadwick-Dias, McNulty et Tullis (2003) transforment, par la méthode des

z-scores, puis agrègent, par une combinaison à poids égaux, les mesures du temps et de réussite

à la tâche, afin de comparer l’utilisabilité de deux prototypes d’itérations successives. En

étudiant des interfaces de boîte mail, Whittaker et al. (2002) constatent que les ressources

déployées lors de la réalisation des tâches varient grandement d’un utilisateur à l’autre. Pour

contrôler ce biais, ils mettent au point une mesure normalisée de la performance utilisateur avec

la formule : « Qualité de la solution » / « Temps nécessaire pour réaliser la solution »

(Whittaker et al., 2002, p. 279). Afin de mesurer précisément l’impact de l’âge des utilisateurs

sur la facilité d’utilisation d’un site d’information de santé, Pak, Price & Thatcher (2009)

décide de créer une variable composite de la performance, à partir de trois mesures : le temps

de réalisation de la tâche, le nombre de clics et le nombre d’erreurs. Chacune de ces mesures

est ainsi normalisée (par une transformation z-score), puis agrégée (par une pondération à poids

égaux) en une seule mesure. Le bénéfice avancé par les auteurs de créer une variable composite

est de disposer d’une mesure de plus grande stabilité. Une des études les plus abouties visant à

mettre au point un score d’utilisabilité à partir de la combinaison de plusieurs métriques a été

menée par Jeff Sauro et Erika Kindlund (2005). En se basant sur la méthode des six Sigma

(Breyfogle, 1999), ces derniers mettent au point un score, le SUM (« Single Usability Metric »),

composé de quatre mesures de l’utilisabilité : réussite, temps, erreurs à la tâche et évaluation

subjective de la difficulté de la tâche (via le questionnaire ASQ). À partir de données issues de

tests utilisateurs réalisés sur une période de deux ans, composés de 129 participants et sur 57

tâches prédéterminées, les auteurs effectuent une analyse en composante principale (ACP) pour

cerner la contribution de chacune de ces quatre mesures sur le score global d’utilisabilité. Ils

trouvèrent que les quatre mesures contribuèrent chacune de manière significative et égale. De

ce fait, ils décidèrent que le mode de calcul du SUM se baserait sur une agrégation à poids

égaux de ces quatre mesures standardisées. L’étude de Daher et Elkabani (2012) utilise ce

modèle pour comparer l’utilisabilité de six portails web universitaires.

Parmi les arguments avancés principalement pour justifier l’utilisation de mesures combinées,

on note la simplification des données et l’augmentation de la validité de la mesure. En effet,

dans un monde où les décisions se prennent de plus en plus rapidement, le besoin d’indicateurs

synthétiques et faciles à comprendre commence à s’imposer. Sauro et Kinlund (2005) pointent

ironiquement ce fait : les métriques de l’utilisabilité devraient être plus faciles à utiliser. La

complexité d'analyse et de présentation des données rend l’utilisabilité difficile à digérer. En

effet, l'analyste est mis au défi de présenter plusieurs mesures d'utilisabilité, qui doivent

exprimer clairement les aspects utilisables et inutilisables d’un produit, sans surcharger

mentalement les chefs d'entreprise ou de promouvoir, par inadvertance, une métrique sur une

autre. Ainsi, pour augmenter la pertinence et l'influence stratégique des mesures de l'utilisabilité

lors d’une communication, les analystes doivent être en mesure de présenter synthétiquement

la facilité d'utilisation, en utilisant un seul score si possible, et sans en sacrifier la précision

(Jeff Sauro & Kindlund, 2005; T. Tullis & Albert, 2008). De plus, la fusion de divers sources

de données s’imposera d’autant plus que le nombre d’informations sur l’utilisabilité d’un

produit ne va cesser d’augmenter (González et al., 2008). Le contre-argument classique face à

ce courant est que la combinaison de mesures peut cacher des patterns sous-jacents dans les

données (Zhai, 2004), et que l’on risque de perdre des informations importantes dans

l’opération, surtout si les mesures utilisées sont peu liées (Hornbæk & Law, 2007). Or, si ce

constat se tient dans le cadre d’une approche formative, c’est-à-dire quand l’on cherche à

diagnostiquer en détails une situation pour l’améliorer, elle n’est pas défendable dans un cadre

sommatif, où l’on cherchera à mesurer avec la plus grande fiabilité l’état d’une situation.

C’est bien cet argument qui est avancé pour justifier l’utilisation de mesures combinées,

c’est-à-dire l’amélioration de la fiabilité et de la validité de mesures (Hulin et al., 2001; Pak et al.,

2009; Sauro & Kindlund, 2005). Or ses adversaires dénoncent des biais dans la procédure de

création et d’utilisation des mesures combinées qui risque au contraire de nuire à sa qualité.

Ainsi, il est pointé que la validité d’un score d’utilisabilité, tel que celui proposé par Sauro et

Kindlund (2005), est limité par les mesures qui sont inclues ou exclues de sa procédure

d’agrégation (Fr0kjær et al., 2000). De plus, les mesures choisies et leurs pondérations

respectives, peuvent être plus ou moins pertinentes en fonction de la situation à observer. Par

exemple, dans un contexte militaire ou chirurgical, le nombre d’erreurs est un facteur de qualité

du produit beaucoup plus critique que dans d’autres domaines. Enfin, il y a une difficulté à

considérer comme possible la fusion de métriques peu corrélées entre-elles, indiquant des

différences de nature trop marquées pour être synthétisées sous un indicateur unique (Hornbæk

& Law, 2007). À l’inverse, les défenseurs des mesures combinées déclarent qu’elles tirent

justement leur force de la quantité et de la diversité métrique utilisée pour leur élaboration. La

quantité des mesures utilisées permet, selon un principe central dans la CTT (« Classical Test

Theory » ; Novick, 1966), d’améliorer la stabilité de la mesure, en neutralisant une part des

fluctuations aléatoires dans les données (Hulin et al., 2001). En plus, cela simplifie les analyses,

Documents relatifs