Rapports des experts - H YPOTHÈSES OPÉRATIONNELLES

9.3 H YPOTHÈSES OPÉRATIONNELLES

9.4.1 Rapports des experts

9.4.1.1 Description des problèmes

Les experts ont décrit chacun dans leur rapport entre 3 et 13 problèmes au total (tous sites confondus), auxquels ils ont assigné une note de sévérité. Au total, 42 problèmes ont été décrits. Pour faciliter la comparaison des problèmes décrits

Etude 2 : Impact et importance de l’observation et de la modération || 112

par les experts, nous avons procédé à un codage sémantique. Ainsi, sur le total des 42 problèmes recensés, 17 types de problèmes distincts ont été identifiés (voir le Tableau 12 pour un exemple de type de problèmes et les différents problèmes associé, tels que rédigés par les experts).

Tous les problèmes, ainsi que leur codage sémantique respectif, sont disponibles en Annexe N. Nous ne considérons pas ici le site sur lequel porte chaque problème.

Tableau 12. Exemples de problèmes rédigés par les experts décrivant le même type de problème. Pour cet exemple, le type de problème illustré est « Indication des dimensions ».

Expert Site Extraits des rapports rédigés par les experts

1 Micasa Il y avait confusion lequel des chiffres correspond à la largeur dans le séquence 00x00x00. Si on ne connait pas le défaut de la séquence largeur x longueur x profondeur on ne peut pas résoudre la tâche avec succès.

2 Micasa Les dimensions ne sont pas explicitement indiquées. Les utilisateurs ne connaissant pas les standards de présentation des informations sur la dimension ont des difficultés à associer la mesure avec la largeur, la hauteur ou la profondeur.

3 Micasa Les dimensions des produits ne sont pas assez explicites. L’utilisateur a des difficultés a comprendre dans quel ordres sont présentées les échelles: largeur, hauteur, profondeur.

4 Micasa Les dimensions des tables de chevet sont indiquées sous la forme

« AxBxC » sans que l’ordre des dimensions ne soit indiqué.

5 Interio Même dans ce cas-ci, les indications « L x P x H » n’étaient pas suffisamment explicites

9.4.1.2 Fidélité inter-juges

Afin de s’assurer que le codage des problèmes était fidèle, une certaine proportion des problèmes (30%) a également été codée par une personne extérieure à l’étude, ayant des connaissances en utilisabilité et familière avec les critères de Bastien et Scapin. Treize descriptions de problèmes (13/42 = 30,1 %) ont été sélectionnés de façon aléatoire et ont été transmis à l’observatrice tierce, accompagné de notre liste des codes sémantiques.

Etude 2 : Impact et importance de l’observation et de la modération || 113

Nous avons utilisé le Kappa de Cohen pour déterminer la fidélité des codages inter-juges. La mesure de l’accord (Kappa) est de 0.822 (p < .0001) ; l’accord entre les deux juges est très fort (Landis & Koch, 1977). Le codage sémantique élaboré est donc satisfaisant.

Tableau 13. Codage sémantique des problèmes recensés

Numéro Code sémantique Description⁷

Critères Bastien &

2 Affichage colori du produit Présentation des coloris alternatifs du produit

Compatibilité 3 Affichage résultats de

recherche

4 Défilement horizontal Utilisation du défilement horizontal pour se déplacer sur la page

Charge de travail

5 Filtres inutilisés Des filtres sont disponibles pour affiner la recherche, mais la fonctionnalité n’a pas été perçue par l’utilisateur

Contrôle explicite

6 Indication des dimensions La convention de

présentation des dimensions

7 Infos visuelles uniquement Les informations sont uniquement données sous 9 Lecture difficile La mise en page et la taille

de la police entravent la lecture à l’écran

Guidage (lisibilité) 10 Libellé "précédent" Confusion entre le bouton

« précédent » du navigateur et celui fourni par le site, qui ne produisent pas la même

Contrôle explicite

7 Il s’agit de notre reformulation du problème, basée sur les différentes formulations des experts. Ces dernières sont disponibles dans leur intégralité en annexe (Annexe N).

Etude 2 : Impact et importance de l’observation et de la modération || 114

Numéro Code sémantique Description⁷

Critères Bastien &

Scapin (1993) action

11 Libellé pas français Utilisation d’une formulation qui n’a pas beaucoup de sens en français

Signifiance des codes

12 Lien produit-collection Le nom de la collection du produit n’est pas mis en évidence et ne permet pas de lier un produit avec une collection

Guidage (groupement)

13 Moteur de recherche inefficace

Les résultats produits par le moteur de recherche ne sont pas pertinents

Adaptabilité

14 Navigation flash difficile Navigation entravée par la technologie flash

Contrôle explicite 15 Nom des catégories Les noms des catégories ne

sont explicites et/ou ne correspondent pas au langage de l’utilisateur

Signifiance des codes

16 Places vs. Dimensions Le nombre de centimètre ne correspond pas à la

représentation du nombre de place

Signifiance des codes

17 Vue collection La vue d’ensemble des produits d’une même collection n’est pas optimisée

Adaptabilité

9.4.1.3 Nombre de problèmes selon les experts et la méthode

Les experts ont rapporté 7 problèmes en moyenne (ET = 3.58) (3 problèmes au minimum et 13 au maximum). La variabilité présente n’est pas négligeable.

Pour comparer les méthodes, et étant donné la taille restreinte de l’échantillon, il est préférable d’utiliser comme paramètre de position la médiane et de tester la différence entre les conditions par un test de Wilcoxon pour échantillons pairés (Dancey & Reidy, 2007).

Le Tableau 14 montre que le nombre de problèmes rapportés par les experts dans la condition conjointe (3.33) est supérieur à celui de la condition en ligne (.50).

Le test de Wilcoxon montre que la différence de nombre de problèmes rapportés entre les deux méthodes est statistiquement significative (Z=-2.214, p < 0.05).

Etude 2 : Impact et importance de l’observation et de la modération || 115

De même, le nombre de problèmes rapportés par les experts dans la condition classique (3.17) est supérieur à celui de la condition en ligne (.50). Le test de Wilcoxon montre que cette différence est significative du point de vue statistique (Z=-2.232, p < 0.05).

La différence entre le nombre de problèmes rapportés avec la méthode conjointe et la méthode classique n’est pas statistiquement significative.

Tableau 14. Nombre de problèmes rapportés par les experts selon la méthode utilisée

Moyenne Ecart-type Minimum Maximum Nombre de problèmes rapportés avec la méthode en ligne

.50 .837 0 2

9.4.1.4 Nature des problèmes trouvés avec chaque méthode

Le Tableau 15 permet de comparer les problèmes trouvés pour chaque site, selon chaque méthode utilisée. Nous pouvons constater la plupart des problèmes décrits selon la méthode classique sont également décrits avec la méthode conjointe. Il ne semble pas y avoir de types de problèmes qui soient mieux trouvés avec une méthode plutôt qu’une autre.

Le problème du manque d’indications concernant les dimensions des meubles (indiquer l’ordre de présentation entre longueur, profondeur, hauteur) est relevé avec toutes les méthodes.

Selon notre hypothèse, le nombre de problèmes rapportés à travers la méthode conjointe serait plus important qu’à travers les deux autres méthodes, les experts bénéficiant conjointement des données quantitatives fournies par l’outil automatisé et de l’observation de l’activité de l’utilisateur. Nous relevons dans le Tableau 15 deux cas où seule la méthode conjointe a permis d’identifier des problèmes (site TopTip). Nous constatons également que la méthode en ligne n’a amené à la description de problème que sur un seul site (Micasa), qui est de plus le site où le nombre total de problème est le plus bas.

Etude 2 : Impact et importance de l’observation et de la modération || 116

Il est cependant difficile d’expliquer comment les évaluateurs ont mené leur expertise, ni de savoir sur quelles données ils se sont basés pour la réaliser. Dans les études futures, avoir recours à des protocoles verbaux permettrait d’amener l’analyse plus loin.

Tableau 15. Problèmes décrits par les experts pour chaque site, selon chaque méthode

9.4.1.5 Evaluation subjective des méthodes par les experts

Dans le questionnaire post-test donné aux experts, il leur était demandé d’indiquer par une croix sur un trait continu de 10 cm quelle méthode les a le plus aidé. Les résultats sont donnés dans le Tableau 16. L’échelle allait de « Très facile/Très satisfaisant » (début du trait, 0 cm) à « Très difficile/Très insatisfaisant » (fin du trait, 10 cm). Ainsi, des valeurs basses indiquent une grande satisfaction ou une grande facilité.

Etude 2 : Impact et importance de l’observation et de la modération || 117

Tableau 16. Données du post-questionnaire (évaluation subjective des experts sur les méthodes) (0 : Très facile/Très satisfaisant ; 10 : Très difficile/Très insatisfaisant)

Question Méthode

Afin de comparer les moyennes, nous avons à nouveau eu recours au test de Wilcoxon, pour les mêmes raisons que décrites précédemment. La détection des problèmes est jugée plus difficile à travers la méthode en ligne (7.150 , ET = 2.073) qu’avec la méthode conjointe (1.317 , ET = 1.214) (Z=-2.201, p < .05) et qu’avec la méthode classique (1.583 , ET = .897) (Z=-2.201, p < .05). Les moyennes des méthodes classique et conjointe ne sont pas significativement différentes.

La perception de la satisfaction des utilisateurs est considérée comme étant beaucoup plus difficile avec la méthode en ligne (9.440 , ET= .450) qu’avec la méthode conjointe (1.350 , ET = 1.242) (Z=-2.032, p < .05) et qu’avec la méthode classique (1.017 , ET = .730) (Z=-2.023, p < .05).

Etude 2 : Impact et importance de l’observation et de la modération || 118

Les données qualitatives disponibles sont jugées très insatisfaisantes avec la méthode en ligne (9.033 , ET = 1.244), alors que les méthodes conjointe (1.000 , ET = .978) et classique (.867 , ET = .911) sont considérées comme très satisfaisantes. La différence de score entre la méthode en ligne et la méthode conjointe est significative (Z=-2.201, p < .05), ainsi que la différence de score entre la méthode en ligne et la méthode classique (Z=-2.207, p < .05).

Les trois méthodes sont considérées toutes trois comme plutôt satisfaisantes (méthode classique : 3.475 , ET = .9106; méthode conjointe : 3.440 , ET = .3.5104 ; méthode en ligne : 3.920 , ET = .3.4888) concernant les données quantitatives disponibles.

L’interprétation des données qualitatives est beaucoup plus difficile avec la méthode en ligne (8.220 , ET = 1.0616) qu’avec la méthode conjointe (1.760 , ET = 1.9217) (Z=-2.023, p < .05) et qu’avec la méthode classique (.840 , ET = .6877) (Z=-2.023, p < .05). Les moyennes des méthodes classique et conjointe ne sont pas significativement différentes.

L’interprétation des données quantitatives est jugée plutôt difficile avec la méthode en ligne (7.100 , ET = 2.1989), plutôt facile avec la méthode conjointe (3.460 , ET = 3.1389), et facile avec la méthode classique (1.600 , ET = 1.1045). Les différences ne sont pas significatives.

La satisfaction globale des experts en utilisabilité est beaucoup moins importante avec la méthode en ligne (8.120 , ET = 8.556) qu’avec la méthode conjointe (1.400 , ET = 1.2450) (Z=-.023, p < .05) et qu’avec la méthode classique (1.720 , ET = .8672) (Z=-2.032, p < .05). Les moyennes des méthodes classique et conjointe ne sont pas significativement différentes.

9.5 Discussion

Notre hypothèse était que la méthode conjointe, qui repose à la fois sur l’observation directe des utilisateurs et sur les données quantitatives de l’outil de test d’utilisabilité automatisé, permettrait aux experts de relever un plus grand nombre de problèmes que la méthode classique (observation seule) et que la méthode en ligne

Etude 2 : Impact et importance de l’observation et de la modération || 119

(données quantitatives seules). Nous avions également prévu que la méthode classique serait plus efficace que la méthode en ligne.

Nos résultats montrent qu’il y a effectivement une différence entre la méthode en ligne et les deux autres méthodes (classique et conjointe). Un nombre significativement plus bas de problèmes est rapporté par les experts lorsqu’ils se sont basés uniquement sur les données quantitatives fournies par l’outil de test automatisé. Cela va dans le sens de notre hypothèse générale : l’observation des comportements de l’utilisateur est essentielle dans la conduite de tests utilisateurs.

Sans elle, il est très difficile pour les experts d’émettre des jugements valables sur l’interface évaluée. Un expert l’a dit lui-même, avouant se « sentir aveugle » avec l’outil de test proposé. Une autre personne a également expliqué que l’outil de test lui avait permis d’émettre des hypothèse sur les problèmes, sans pouvoir les valider, faute de moyens (à savoir, l’accès au site web et l’interaction avec l’utilisateur).

Nous avions également émis l’hypothèse que la méthode conjointe serait plus efficace que la méthode classique, en pensant que les experts pourraient dans le premier cas bénéficier à la fois des données issues de l’observation et des données quantitatives de l’outil de test à disposition. Cette hypothèse n’est pas validée par nos résultats puisqu’aucune différence significative n’est observée entre ces deux méthodes dans les conditions de cette expérience. Nous relevons dans le Tableau 15 (p. 117) deux cas où seule la méthode conjointe a permis d’identifier des problèmes (site TopTip). Nous constatons également que la méthode en ligne n’a amené à la description de problème que sur un seul site (Micasa), qui est de plus le site où le nombre total de problème est le plus bas.

Ces tendances générales (méthodes classique et conjointe plus efficaces que méthode en ligne) se retrouvent dans les évaluations subjectives des méthodes par les experts. Les experts sont très critiques vis-à-vis de la méthode en ligne. Les

Etude 2 : Impact et importance de l’observation et de la modération || 120

experts l’ont confirmé oralement pendant les brefs entretiens de débriefing : l’outil a été qualifié de « frustrant » par un expert, de « pas intéressant » par un autre. Les participants ont eu beaucoup de mal à interpréter les données quantitatives fournies par l’outil de test. Tous ont critiqué la fonctionnalité « clickpath », très difficile (voire impossible) à lire : les URL sont « ininterprétables » et « très perturbantes » (qualificatifs utilisés par les experts). Certains experts ont également pu observer, lors de l’utilisation de la méthode conjointe, que la réussite telle que définie par l’outil de test que nous avons utilisé peut poser problème.

En effet, c’est l’utilisateur qui clique sur « Réussite » ou « Abandon », alors que ce n’est peut-être pas correct (dans les deux cas) : un utilisateur peut abandonner alors qu’il se trouve sur la bonne page, ou considérer qu’il a réussi alors que ce n’est pas le cas. L’interprétation basée uniquement sur les taux de réussite fournis par l’outil de test est alors problématique, alors que l’observation des comportements des utilisateurs permet une meilleure analyse de la situation. Par ailleurs, les experts ne sont pas tellement satisfaits des données quantitatives, que ce soit dans la condition conjointe ou en ligne : les données quantitatives semblent moins importante pour eux que celles obtenues par observation directe des utilisateurs.

Toutes ces difficultés expliquent peut-être en partie pourquoi la méthode conjointe n’est pas plus efficace que la méthode classique. Par ailleurs, certains experts ont très justement fait remarquer que certaines données quantitatives sont faussées. C’est le cas notamment du temps sur la tâche en condition conjointe, qui n’est pas correct puisqu’il a été allongé par la discussion menée entre l’expert et l’utilisateur lors de la modération du test.

Dans le document Contribution du traçage automatique de l'activité aux méthodes d'évaluation de l'utilisabilité d'une interface dans une tâche de recherche d'information (Page 113-122)