évaluer l’utilisabilité avec validité. En effet, l’utilisabilité est un « construit », au sens que la
psychométrie lui donne, c’est-à-dire d’un concept non accessible directement par la mesure
(comme l’intelligence) mais qui peut être approché par des moyens d’estimations plus ou moins
valides. La difficulté d’obtention de mesures valides est très bien documentée dans la littérature
sur l’évaluation des construits psychologiques depuis de nombreuses décennies (Cook &
Campbell, 1979b). De même, la discussion sur la méthode à adopter pour mesurer la qualité
des systèmes d’interactions numériques est un débat de fond qui ne date pas d’aujourd’hui. Elle
a commencé à l’aube de l’ergonomie (Shackel, 1959), a été prolongée par la discussion autour
de la « facilité d’utilisation » (Bennett, 1972), puis de l’utilisabilité (Shackel, 1981). Elle se
poursuit encore de nos jours, notamment au travers du débat sur le choix des mesures lors de
l’évaluation et de leurs pondérations. (Hornbak, 2006).
Le choix des mesures est conditionné en premier lieu par leurs qualités respectives en fonction
du contexte d’évaluation. Par exemple, lors d’une évaluation formative, les données récoltées
seront surtout d’ordre qualitatif, pour identifier les problèmes d’utilisabilité existant de manière
exhaustive et en un temps court. Lors d’une évaluation sommative, les données récoltées seront
avant tout quantitatives, pour permettre la mesure et la comparaison de différents produits sur
une base solide, voire statistique. D’autres distinctions de mesure existent et sont sujettes à des
discussions intensives sur leurs utilisations alternatives ou combinées. Il est courant ainsi, de
faire la distinction entre les mesures objectives et subjectives (Meister, 1985; Yeh & Wickens,
1988), bien que cela résulte d’abord d’une séparation pratique plutôt qu’épistémologique
(Muckler & Seven, 1992). Les mesures objectives de l’utilisabilité concernent les aspects que
l‘on peut observer, telle que l’efficacité à réaliser une tâche. Les mesures subjectives de
l’utilisabilité concernent les perceptions et les attitudes des utilisateurs envers une interface,
une interaction ou un de ses résultats, via des méthodes de recueil le plus souvent verbales ou
écrites. Une des raisons les plus avancées pour justifier l’utilisation conjointe de ces deux types
de mesure est d’avoir une vue plus juste de l’utilisabilité d’un système, en confrontant ces
données ou en les combinant. Par exemple, Tractinsky et Meyer (2001) ont trouvé des
différences significatives entre plusieurs interfaces de l’expérience subjective du temps
d’interaction alors que le temps objectif était le même. Ces différences entre mesures objectives
et subjectives ont été retrouvées dans d’autres domaines, tels que l’évaluation de la charge de
travail (Yeh & Wickens, 1988), ou de la performance à la tâche (Bommer, Johnson, Rich,
Podsakoff, & Mackenzie, 1995). La confrontation de ces mesures nous permet ainsi d’enrichir
et de raffiner notre jugement. Ces différences ont également été exploitées pour mettre au point
de nouvelles mesures, par combinaison de celles-ci. Par exemple, Czerwinski et al. (2001)
proposent une nouvelle mesure de l’utilisabilité, qui se base sur le ratio du temps « objectif » et
de la durée d’interaction perçue « subjectivement » par l’utilisateur.
Une autre distinction classique des mesures est liée à la sous-division de l’utilisabilité en
attributs séparés. Habituellement, les mesures sont classées en trois groupes, correspondant au
standard de la norme ISO 9241 sur l’utilisabilité (ISO, 1998) : l’efficacité, « la précision et la
complétude avec laquelle un utilisateur accomplit une tâche spécifiée », l’efficience, « les
ressources nécessaires pour accomplir une tâche spécifiée », et la satisfaction, « l’absence
d’inconfort et les attitudes positives de l’utilisateur envers le produit ». L’efficacité et
l’efficience sont généralement mesurées par des métriques objectives, tels que le temps de
réalisation et le nombre d’erreurs, alors que la satisfaction est mesurée généralement par des
métriques subjectives, tels que les questionnaires. Hornbæk et Law (2007) montrent dans une
méta-analyse sur l’évaluation de l’utilisabilité que l’utilisation de ces trois types de mesures
dans une même étude est une pratique courante. En effet, sur 73 études examinées, 36 (49%)
utilisent des mesures issues des trois attributs ; 30 études (42%) combinent des mesures
d’efficacité/efficience, d’efficience/satisfaction ou d’efficacité/satisfaction ; 7 études (9%) ne
collectent des mesures de l’utilisabilité que d’un seul attribut. De même, dans une étude menée
sur 180 papiers issus de journaux en IHM, Hornbæk (2006) constate que les mesures
d’efficacité, d’efficience et de satisfaction ne sont absentes que, respectivement, dans 22%,
18% et 38% des papiers examinés. Il constate également que la mesure de chacune de ces
dimensions de l’utilisabilité s’appuie sur des métriques diverses. Les métriques les plus utilisées
pour l’efficacité sont la réussite à une tâche, la précision (qui comprend le taux d’erreur) et la
qualité du résultat (qui comprend la compréhension). Pour l’efficience, les métriques les plus
utilisées sont le temps (dont le temps de complétion) et les patterns d’utilisation (dont la
fréquence d’action). Pour la satisfaction, il s’agit de l’évaluation utilisateur de sa préférence,
satisfaction et sentiment, à propos d’un produit qui lui est présenté. Compte tenu des enjeux et
de la diversité des pratiques, de nombreuses normes ont été élaborées. Ainsi, un format-type de
rapport, le CIF (« Common Industry Format »), a été mis au point, pour standardiser et
formaliser les tests utilisateurs sommatifs (ANSI, 2001; ISO, 2006). Il propose de contrôler
l’utilisabilité d’un produit à partir d’un certain nombre de mesures objectives (taux de
complétion, temps de réalisation, nombre d’erreurs ou de demande d’aide, ….) et subjectives
(questionnaire ASQ, SUMI, SUS, …) qui couvrent ainsi les trois dimensions de l’utilisabilité
précédemment citées.
Ainsi, à côté du besoin de plus en plus fort d’utiliser plusieurs méthodes de recherche pour
couvrir un sujet d’étude (Filippi & Barattin, 2012; Remus & Wiener, 2010; Wilson, 2006), un
consensus fort se dégage actuellement sur l’utilisation de plusieurs métriques pour couvrir au
mieux l’utilisabilité d’un produit. Les avantages avancés d’une telle démarche sont similaires :
(i) la validation croisée des données, obtenue par différentes sources, augmente la fiabilité, la
validité et la robustesse de l’estimation, et, de ce fait, la confiance que l’on peut avoir des
résultats obtenus (Creswell, 2003; Wilson, 2006) ; (ii) les approches plurielles et multimodales
permettent d’étudier un domaine sous toutes ses coutures, de le couvrir convenablement ou de
l’étendre, et ainsi de le comprendre en profondeur ou encore de découvrir de nouveaux
paradoxes qui stimuleront les recherches à venir (Kaplan & Duchon, 1988; Mingers, 2001).
Néanmoins, une question méthodologique divise chercheur et praticien : « Vaut-il mieux
exploiter ces mesures de manière séparée ou est-il préférable de les combiner ? ».
Dans les faits, la majorité des études qui font le choix d’utiliser différentes mesures de
l’utilisabilité les exploite ensuite de façon séparée (Hornbak, 2006). Néanmoins, Hornbak
(2006) constate également qu’un certain nombre d’études font le choix de combiner des
mesures de l’utilisabilité en une seule mesure, en reporte la valeur combinée et procède à des
tests statistiques sur cette combinaison. Des méthodes de combinaison de mesures ont été
spécialement mises au point dans le paradigme de l’utilisabilité (Jeff Sauro & Kindlund, 2005;
T. Tullis & Albert, 2008), telle que la méthode SUM. Ces méthodes se basent généralement sur
des procédures de standardisation (tel que le z-score), de pondération et d’agrégation des
mesures. Ainsi,Chadwick-Dias, McNulty et Tullis (2003) transforment, par la méthode des
z-scores, puis agrègent, par une combinaison à poids égaux, les mesures du temps et de réussite
à la tâche, afin de comparer l’utilisabilité de deux prototypes d’itérations successives. En
étudiant des interfaces de boîte mail, Whittaker et al. (2002) constatent que les ressources
déployées lors de la réalisation des tâches varient grandement d’un utilisateur à l’autre. Pour
contrôler ce biais, ils mettent au point une mesure normalisée de la performance utilisateur avec
la formule : « Qualité de la solution » / « Temps nécessaire pour réaliser la solution »
(Whittaker et al., 2002, p. 279). Afin de mesurer précisément l’impact de l’âge des utilisateurs
sur la facilité d’utilisation d’un site d’information de santé, Pak, Price & Thatcher (2009)
décide de créer une variable composite de la performance, à partir de trois mesures : le temps
de réalisation de la tâche, le nombre de clics et le nombre d’erreurs. Chacune de ces mesures
est ainsi normalisée (par une transformation z-score), puis agrégée (par une pondération à poids
égaux) en une seule mesure. Le bénéfice avancé par les auteurs de créer une variable composite
est de disposer d’une mesure de plus grande stabilité. Une des études les plus abouties visant à
mettre au point un score d’utilisabilité à partir de la combinaison de plusieurs métriques a été
menée par Jeff Sauro et Erika Kindlund (2005). En se basant sur la méthode des six Sigma
(Breyfogle, 1999), ces derniers mettent au point un score, le SUM (« Single Usability Metric »),
composé de quatre mesures de l’utilisabilité : réussite, temps, erreurs à la tâche et évaluation
subjective de la difficulté de la tâche (via le questionnaire ASQ). À partir de données issues de
tests utilisateurs réalisés sur une période de deux ans, composés de 129 participants et sur 57
tâches prédéterminées, les auteurs effectuent une analyse en composante principale (ACP) pour
cerner la contribution de chacune de ces quatre mesures sur le score global d’utilisabilité. Ils
trouvèrent que les quatre mesures contribuèrent chacune de manière significative et égale. De
ce fait, ils décidèrent que le mode de calcul du SUM se baserait sur une agrégation à poids
égaux de ces quatre mesures standardisées. L’étude de Daher et Elkabani (2012) utilise ce
modèle pour comparer l’utilisabilité de six portails web universitaires.
Parmi les arguments avancés principalement pour justifier l’utilisation de mesures combinées,
on note la simplification des données et l’augmentation de la validité de la mesure. En effet,
dans un monde où les décisions se prennent de plus en plus rapidement, le besoin d’indicateurs
synthétiques et faciles à comprendre commence à s’imposer. Sauro et Kinlund (2005) pointent
ironiquement ce fait : les métriques de l’utilisabilité devraient être plus faciles à utiliser. La
complexité d'analyse et de présentation des données rend l’utilisabilité difficile à digérer. En
effet, l'analyste est mis au défi de présenter plusieurs mesures d'utilisabilité, qui doivent
exprimer clairement les aspects utilisables et inutilisables d’un produit, sans surcharger
mentalement les chefs d'entreprise ou de promouvoir, par inadvertance, une métrique sur une
autre. Ainsi, pour augmenter la pertinence et l'influence stratégique des mesures de l'utilisabilité
lors d’une communication, les analystes doivent être en mesure de présenter synthétiquement
la facilité d'utilisation, en utilisant un seul score si possible, et sans en sacrifier la précision
(Jeff Sauro & Kindlund, 2005; T. Tullis & Albert, 2008). De plus, la fusion de divers sources
de données s’imposera d’autant plus que le nombre d’informations sur l’utilisabilité d’un
produit ne va cesser d’augmenter (González et al., 2008). Le contre-argument classique face à
ce courant est que la combinaison de mesures peut cacher des patterns sous-jacents dans les
données (Zhai, 2004), et que l’on risque de perdre des informations importantes dans
l’opération, surtout si les mesures utilisées sont peu liées (Hornbæk & Law, 2007). Or, si ce
constat se tient dans le cadre d’une approche formative, c’est-à-dire quand l’on cherche à
diagnostiquer en détails une situation pour l’améliorer, elle n’est pas défendable dans un cadre
sommatif, où l’on cherchera à mesurer avec la plus grande fiabilité l’état d’une situation.
C’est bien cet argument qui est avancé pour justifier l’utilisation de mesures combinées,
c’est-à-dire l’amélioration de la fiabilité et de la validité de mesures (Hulin et al., 2001; Pak et al.,
2009; Sauro & Kindlund, 2005). Or ses adversaires dénoncent des biais dans la procédure de
création et d’utilisation des mesures combinées qui risque au contraire de nuire à sa qualité.
Ainsi, il est pointé que la validité d’un score d’utilisabilité, tel que celui proposé par Sauro et
Kindlund (2005), est limité par les mesures qui sont inclues ou exclues de sa procédure
d’agrégation (Fr0kjær et al., 2000). De plus, les mesures choisies et leurs pondérations
respectives, peuvent être plus ou moins pertinentes en fonction de la situation à observer. Par
exemple, dans un contexte militaire ou chirurgical, le nombre d’erreurs est un facteur de qualité
du produit beaucoup plus critique que dans d’autres domaines. Enfin, il y a une difficulté à
considérer comme possible la fusion de métriques peu corrélées entre-elles, indiquant des
différences de nature trop marquées pour être synthétisées sous un indicateur unique (Hornbæk
& Law, 2007). À l’inverse, les défenseurs des mesures combinées déclarent qu’elles tirent
justement leur force de la quantité et de la diversité métrique utilisée pour leur élaboration. La
quantité des mesures utilisées permet, selon un principe central dans la CTT (« Classical Test
Theory » ; Novick, 1966), d’améliorer la stabilité de la mesure, en neutralisant une part des
fluctuations aléatoires dans les données (Hulin et al., 2001). En plus, cela simplifie les analyses,
Dans le document
Approche multimodale pour l'évaluation d'applications de communication innovantes
(Page 197-200)