• Aucun résultat trouvé

8.4 D ISCUSSION

8.4.2 Recommandations d’utilisation

Ce genre d’outil peut s’avérer utile et pratique dans certaines conditions de test, comme par exemple lorsque les participants ne peuvent pas se déplacer (pour des raisons médicales ou géographiques, par exemple), et il convient de tenir compte de certains points dans l’élaboration d’une étude avec un outil de la sorte.

Nous proposons ici quelques recommandations, basées sur nos observations. Pour des conseils plus détaillés sur la meilleure façon d’exploiter les outils en ligne, nous recommandons la lecture de Beyond the Usability Lab (Albert et al., 2010), qui aborde tous les aspects d’une étude à distance (planification, conception et lancement de l’étude, puis préparation et analyse des données), ainsi que Remote Research (Bolt & Tulathimutte, 2010), qui est très pragmatique et qui recense plusieurs outils de tests en ligne (à la fois modérés et automatisés).

La force principale de ce genre d’outil réside dans la facilité à générer des données quantitatives. Ces dernières constituent un outil intéressant dans le cas où l’on souhaite comparer deux versions d’un même site internet. En proposant les mêmes tâches sur deux versions différentes du même site, les taux de performance obtenus sur chaque site permettent de choisir la version avec laquelle les utilisateurs sont le plus efficaces et efficients, tout en restant conscient que les

Etude 1 : Benchmarking opérateurs mobiles || 98

conditions de passation ne sont pas maîtrisées et qu’elles diffèrent probablement grandement, à la fois au niveau inter- et intra-sujet.

Au niveau de l’utilisation même de l’outil, nous recommandons d’être minutieux dans le paramétrage de l’étude. Bien paramétrer l’étude signifie utiliser les différentes options disponibles, mais aussi bien réfléchir à leur utilisation pour optimiser au maximum le test automatisé. Dans le cas d’utilisation des questionnaires, nous recommandons les questions fermées. En effet, analyser les réponses écrites d’un grand nombre peut être difficile. Bien qu’un outil de wordcloud soit mis à disposition par l’outil de test automatisé, l’analyse fine du contenu produit par les utilisateurs peut demander du temps. Dans le cas des questionnaires fermés, il est important de considérer tous les cas possibles (dans le cas du questionnaire d’échec ou d’abandon, par exemple, il faut envisager un grand nombre d’options possibles) et les baser sur des hypothèses précises.

Nous recommandons également de n’utiliser qu’un seul critère de validation de la tâche. Nous avons expliqué précédemment les possibilités de validation d’une question, permettant de déterminer si une tâche a été réussie ou non, et avons utilisé la validation par questionnaire et la validation par URL dans le cas de notre étude. Etant donné qu’il est alors difficile de savoir exactement lequel des deux critères a été pris en compte pour déterminer si une tâche était réussie ou non, nous recommandons de n’utiliser qu’un seul critère, et de préférence celui de la validation par le biais d’un questionnaire. Celui-ci n’a pas besoin d’être long, mais il permet de vérifier si l’information a été localisée et comprise. La validation via la visite d’une URL nous paraît plus délicate, étant donné qu’un participant peut ouvrir la page sans porter d’attention à son contenu.

En plus d’être exhaustif dans les consignes, il convient d’être le plus explicite possible dans la formulation des énoncés. L’utilisateur se retrouve seul chez lui, et n’a pas la possibilité de poser des questions si un point n’est pas clair : si un aspect est ambigu, cela crée des difficultés supplémentaires pour le participant et des sources de variation que l’on ne pourra pas expliquer.

Etude 1 : Benchmarking opérateurs mobiles || 99

L’observation semble donc jouer un rôle crucial pour mener à bien un test utilisateur afin d’obtenir des données exhaustives sur l’activité des utilisateurs et d’identifier les problèmes d’utilisabilité des systèmes étudiés. Nous allons explorer cette hypothèse dans l’étude suivante.

Etude 1 : Benchmarking opérateurs mobiles || 100

9 Etude 2 : Impact et importance de l’observation et de la modération

9.1 Objectifs

Cette étude a pour objectif de mesurer l’impact de l’observation dans les tests utilisateur. En effet, comme nous l’avons vu dans l’étude précédente, le changement majeur induit par un outil de test automatisé à distance est la suppression de l’observation du comportement de l’utilisateur par l’expert en ergonomie et l’interaction entre ces deux personnes, qui génèrent toutes deux un grand nombre de données qualitatives (Baccino, Bellino & Colombi, 2005).

Afin de comparer les résultats obtenus avec un outil en ligne et à travers une méthode plus classique, nous avons fait intervenir plusieurs experts en utilisabilité sur trois sites web, chaque site étant évalué avec trois méthodes différentes. De façon à distinguer l’effet de la modération de l’effet de l’enregistrement automatique des données, trois conditions sont comparées dans cette étude (possibilité de modérer le test, sans enregistrement automatique des données par une application ; possibilité de modérer le test, avec enregistrement automatique en parallèle par un outil en ligne des données ; pas de possibilité de modérer ni d’observer le test, mais enregistrement des données automatique). Les questions de recherche sont les suivantes :

• quel est l’impact de la présence de l’outil et comment est-il perçu par les experts en utilisabilité ?

• quel est l’impact de la modération sur l’évaluation ?

• quels sont les indicateurs que les experts utilisent dans chaque cas pour interpréter la situation ?

Comme l’expliquent Baccino et al. (2005), « le test utilisateur est une véritable

“mise en situation”, qui vise à étudier les comportements des utilisateurs (représentatifs de la population cible du produit en question) face à l’interface » (p. 120). Il s’agit de « récolter des données empiriques lors de l’observation d’utilisateurs finaux représentatifs qui utilisent le produit pour réaliser des tâches

Etude 2 : Impact et importance de l’observation et de la modération || 101

réalistes » (Rubin & Chisnell, 2008, p. 19, notre traduction). Nous pouvons constater dans ces deux extraits l’emphase portée sur l’observation, qui joue un rôle important dans la conduite de tests d’utilisabilité. Sans observation ni interaction avec les utilisateurs, les experts auront certainement beaucoup plus de difficulté à faire des remarques concernant l’utilisabilité des sites web à évaluer. L’observation et la modération par les experts, qui seront possibles ou non selon les méthodes d’évaluation que nous mettrons à disposition dans cette étude, constituent notre variable indépendante.

Nous proposons dans cette étude d’observer des ergonomes spécialisés en utilisabilité des interactions homme-machine lors de la conduite de tests utilisateurs, et de mesurer le nombre de problèmes qu’ils rapporteront sur différents sites web, ainsi que leur sentiment subjectif, selon trois méthodes (rapidement évoquées plus haut et détaillées plus loin).

Dans cette optique, nous avons élaboré un carré latin permettant de comparer trois conditions (outil et expert présents, expert seul, outil seul et experts non présents) afin d’obtenir des informations sur les deux facteurs (modération et enregistrement automatique). Nous n’avons pas eu recours à un plan croisé (modération x enregistrement), car une condition qui ne contiendrait ni enregistrement automatique ni modération ne correspond plus à un test utilisateur.

9.2 Méthode

9.2.1 Participants

Cette étude requiert la participation de deux types de participants : les experts en utilisabilité, et leurs utilisateurs. Ceux qui nous intéressent davantage dans cette étude sont les experts. Nous avons donc fait appel à plusieurs experts francophones exerçant leur métier en Suisse romande.

9.2.1.1 Experts

Il n’existe pas de critères précis pour définir un expert en utilisabilité. Les études réalisées jusqu’à ce jour se basent généralement sur le nombre d’années d’expérience, sur le nombre de tests utilisateur effectués, le nombre d’évaluations

Etude 2 : Impact et importance de l’observation et de la modération || 102

expertes menées, ou la combinaison de ces trois données (Hertzum, Jacobsen, &

Molich, 2002; Molich & Dumas, 2008; Molich et al., 1999).

Etant donné que les experts étaient amenés à conduire plusieurs tests utilisateur, notre critère de recrutement était le nombre de tests utilisateur déjà réalisés, fixé à un minimum de 5. Les six experts qui ont participé à cette étude avaient tous beaucoup plus de 5 tests utilisateurs à leur actif. Aucun des experts recrutés n’avait utilisé d’outil de test automatisé en ligne avant le test. Ils étaient avertis qu’ils devraient mener des tests utilisateur, mais ne savaient pas sur quels sites les tests porteraient, afin d’éviter qu’ils effectuent une analyse préliminaire des sites testés.

Quatre hommes et deux femmes ont participé en tant qu’experts en utilisabilité. Cinq d’entre eux travaillaient en tant qu’expert en ergonomie au moment de l’étude (un indépendant, une employée d’une société de services en ingénierie informatique basée à Genève, trois employés d’une petite entreprise de consulting en ergonomie informatique), et un avait travaillé dans une société de design centré sur l’utilisateur pendant plusieurs années (cette personne était alors doctorante à l’heure du test).

9.2.1.2 Utilisateurs

Nous avons également fait appel à des personnes en tant qu’utilisateurs pour les tests, de sorte que chaque expert puisse évaluer les sites en observant deux utilisateurs. Les 12 utilisateurs étaient tous des étudiants de l’Université de Genève, recrutés sur une base volontaire. Chaque utilisateur était informé que le test leur demanderait au maximum 45 minutes, et qu’un cadeau leur serait offert à la fin.

Tous les participants (experts et utilisateurs) ont reçu une boîte de chocolat en guise de remerciement pour leur participation.

9.2.2 Matériel

9.2.2.1 Outil de test automatisé

Etant donné que les tâches étaient de même nature que celles de l’étude précédente, nous avons à nouveau utilisé UserZoom pour cette deuxième étude.

Etude 2 : Impact et importance de l’observation et de la modération || 103

Toutes les fonctionnalités présentées dans la première étude étaient disponibles pour cette étude, sauf les outils de questionnaire, qui n’étaient pas utilisés. Les fonctionnalités de UserZoom étaient les mêmes que précédemment décrites : description de la tâche aux participants, boutons « Réussi » et « Abandon », enregistrement automatique des actions réalisées sur les sites internet. Les données quantitatives fournies en fin de test sont identiques à celles de l’étude précédente : taux de réussite, taux d’abandon et d’échec, temps sur chaque tâche, nombre de clics effectués, nombre de pages ouvertes, chemin de clics, cartes de chaleur, résultats aux questionnaires de validation de tâche.

Les principales différences d’utilisation de l’outil entre la première étude et celle-ci sont le nombre de participants (les mêmes données sont générées, mais elles portent sur un nombre beaucoup plus restreint de participants) et l’utilisation des questionnaires (limité dans cette étude au questionnaire de validation de tâche ; la fonctionnalité de validation tâche par URL n’a pas été utilisée dans cette étude).

9.2.2.2 Sites testés

Nous avons sélectionné trois sites web d’information différents, équivalents en termes de complexité et de nombres de pages et avec le même objectif : présenter des meubles avec un objectif de vente de mobilier neuf. Trois sites internet de magasin de meubles ont été retenus : Interio (www.interio.ch), Micasa (www.micasa.ch) et TopTip (www.toptip.ch).

9.2.2.3 Tâches

Sur chaque site internet, les utilisateurs avaient deux tâches à réaliser (il s’agissait des mêmes tâches sur les trois sites). Leurs énoncés étaient les suivants :

• Tâche 1 : « Vous avez récemment emménagé dans votre nouvel appartement, et vous souhaitez acheter une table de nuit pour votre chambre.

Etant donné les couleurs de votre appartement, vous souhaitez trouver une table de nuit de couleur blanche. La table de nuit ne doit avoir qu’un seul tiroir. Pour des raisons de place dans votre nouvelle chambre, la largeur de la table de nuit ne doit pas dépasser 45 cm. Quel est le nom de la table de nuit qui répond à ces critères ? Quel est son prix ? »

Etude 2 : Impact et importance de l’observation et de la modération || 104

• Tâche 2 : « Les déménageurs ont un peu abîmé votre lit, et vous souhaitez connaître les prix pour un nouveau lit pour éventuellement en racheter un.

Comme vous aimez bien cette table de nuit, trouvez s’il existe un lit une place qui va avec cette table de nuit. Si oui, quel est son prix ? »

Les trois sites web sélectionnés permettaient de trouver une table de chevet unique qui réponde aux critères fixés. Dans la deuxième tâche, l’utilisateur était amené à identifier un lit dans la même collection que la table de chevet retenue, ce qui était possible pour deux des trois sites internet (Interio et Micasa). Le troisième site n’offrait pas de lit dans la même collection que celle de la table de nuit.