• Aucun résultat trouvé

Après avoir rappelé les objectifs de notre test utilisateurs dans la partie §E.1.1, nous dressons un état de l’art des pratiques issues de la littérature en cartographie, en sciences cognitives et en IHM et étudions ainsi le potentiel des travaux existants pour notre cas d’étude, en étudiant respectivement les méthodes d’évaluation et protocoles de test proposés dans les parties §E.1.2 et §E.1.3. Précisons que l’ensemble de cette étude a été menée en collaboration avec Emmanuel Pietriga, et plus ponctuellement ses collègues de l’équipe ILDA (INRIA), qui regroupe des chercheurs en IHM coutumiers de la réalisation de tests utilisateurs contrôlés et que nous tenons à remercier.

E.1.1. Rappel des Objectifs de notre Test Utilisateurs

Dans le Chapitre C, nous avons formulé des propositions d’amélioration des cartes multi-échelles existantes, basée sur l’ajout de représentations intermédiaires. Afin de formaliser les règles de bonne construction de ces représentations intermédiaires, nous avons formulé en particulier les Hypothèses C1/2/3 concernant l’influence de leurs variables de construction sur la fluidité de navigation dans la pyramide, que nous rappelons ici.

Hypothèse C1. À nombre de représentations intermédiaires et intervalles d’affichage constants, utiliser des représentations mixtes a une influence positive sur la fluidité de navigation.

Hypothèse C2. À nombre de représentations intermédiaires et intervalles d’affichage constants, la progressivité de simplification du contenu cartographique au fil des échelles a une influence positive sur la fluidité de navigation.

Hypothèse C3. À nombre de représentations intermédiaires et intervalles d’affichage constants, conserver une représentation fidèle des repères visuels a une influence positive sur la fluidité de navigation.

Pour valider ces hypothèses, nous devons observer l’évolution de la fluidité de navigation en fonction de ces facteurs que sont l’utilisation de représentations mixtes, la progressivité de simplification du contenu cartographique au fil des échelles et la conservation d’une représentation fidèle des repères visuels. A cette fin, nous avons produit les quatre pyramides présentées dans le Chapitre D, chacune étant construite avec une transition de représentation différente pour le thème du bâti, en faisant varier en particulier nos facteurs hypothétiques. Comparer la fluidité de navigation dans ces différentes pyramides nous permettra donc théoriquement de vérifier l’influence de ces facteurs et la validité de nos hypothèses. Comparer la fluidité de navigation entre ces transitions alternatives d’une part et la pyramide initiale d’autre part pourra aussi nous permettre de vérifier l’amélioration apportée par nos propositions en général, concernant l’ajout de représentations intermédiaires. Pour vérifier nos hypothèses, il nous faut donc maintenant évaluer la fluidité de navigation dans chacune de ces pyramides. Pour rappel, nous définissons la navigation dans une carte multi-échelle comme fluide si l’utilisateur peut y réaliser une tâche de manière efficace, c’est-à-dire précisément, rapidement et facilement. Nous évaluons donc la fluidité de navigation en mesurant les performances de l’utilisateur lors de la réalisation d’une tâche cartographique multi-échelle dans les différentes pyramides testées. Il nous faut donc maintenant définir une tâche et un protocole de test permettant de mener cette évaluation. Pour cela, nous présentons dans la partie suivante des méthodes d’évaluation existantes et leur intérêt pour notre cas d’étude en particulier.

Juin 2018 177 E.1.2. Intérêt Potentiel des Méthodes d’Évaluation Existantes

En parcourant la littérature, nous avons constaté qu’il n’existe pas, à notre connaissance, de tests utilisateurs visant à évaluer la fluidité de navigation dans une carte multi-échelle. Pour mettre en place notre propre test, nous nous inspirons donc plus largement des travaux mentionnés dans la littérature en cartographie, en sciences cognitives et en IHM, impliquant des représentations cartographiques et/ou des interfaces de navigation multi-échelle. Nous montrons ici les limites des méthodes existantes pour estimer la fluidité de navigation dans une carte multi-échelle. Les observations et les exemples présentés dans ce paragraphe sont tirés d’une analyse de 20 articles scientifiques présentant des tests utilisateurs, dont le détail est fourni en Annexe H.

Pour évaluer l’efficacité d’un procédé de représentation ou d’une légende en général, les cartographes utilisent traditionnellement une évaluation subjective [Martin 2008 ; Davies et al., 2010]. On y demande aux utilisateurs de juger les produits testés, selon des critères comme leur complexité visuelle ou plus globalement leur préférence d’utilisation pour une tâche donnée. Concrètement, ce type d’évaluation prend souvent la forme d’une série d’affirmations sur différents aspects du produit testé, avec lesquelles l’utilisateur doit exprimer son degré d’accord via une échelle de Likert. Initialement proposée par [Davies 1989], cette échelle propose une suite de chiffres (couramment 5, 7 ou 9 échelons) correspondant à des degrés d’accord ou de désaccord. Des travaux évaluent ainsi les préférences d’utilisation d’un produit pour une tâche donnée [Cook et Ruddle, 2014 ; Lokka et Çöltekin, 2017] ou la complexité d’une représentation cartographique [Schnur et al., 2017]. Les évaluations subjectives permettent donc à l’utilisateur d’exprimer son ressenti personnel. Elles peuvent être intéressantes dans notre cas d’étude, pour estimer les difficultés perçues par l’utilisateur dans une tâche de navigation multi-échelle. Cependant, la fluidité de navigation est une notion assez complexe à définir : il n’est donc pas garanti que les différents participants jugent les mêmes aspects de la carte multi-échelle. De plus, c’est une notion potentiellement subjective : l’utilisateur estime la fluidité en fonction de son expérience, relativement à ce qu’il connait. Son jugement peut donc varier au cours du temps et plus particulièrement au cours de l’expérience. On peut également mener un test d’évaluation basé sur une mesure de performances, moins dépendant du jugement de l’utilisateur. Expliqué simplement, on demandera alors à un groupe de participants de réaliser une ou plusieurs tâches, actions élémentaires ou exercices plus complexes impliquant les mécanismes cognitifs et/ou les produits que l’on souhaite étudier. Pour évaluer le comportement utilisateur, on peut alors utiliser des méthodes quantitatives, par exemple le temps ou la précision de réussite de la tâche [Kinkeldey et al., 2014]. On peut également enregistrer une vidéo de ses mouvements et de ses interactions avec l’interface, ou une trace audio de son processus de réflexion émis à haute voix (think aloud) [van Elzakker 2004, pp. 36-41] ; ou bien encore utiliser des mesures biologiques, comme ses mouvements oculaires (eye-traking) [Cöltekin et al., 2009 ; Kiefer et al., 2017], la taille de ses pupilles [Kiefer et al., 2016], son rythme cardiaque ou la conductivité de sa peau, qui trahissent l’émotion [Fabrikant et al., 2012] ou le stress [Frei et al., 2016]. En particulier, des travaux récents proposent d’étudier la variation du diamètre de la pupille de l’utilisateur pour évaluer la charge cognitive relative à la tâche demandée sur une carte statique [Kiefer et al., 2016]. Néanmoins, la faisabilité et la pertinence d’évaluer cette métrique avec un stimulus cartographique multi-échelle n’ont pas encore été démontrées. De plus, elle demande une installation spécifique, qui impose souvent une position immobile peu naturelle à l’utilisateur. Nous sommes convaincus de l’intérêt potentiel de ces évaluations subjectives et biologiques, pour

178 Marion Dumont mieux comprendre le mécanisme cognitif impliqué dans la navigation multi-échelle. Pour évaluer la fluidité de navigation et comparer l’efficacité de nos pyramides en revanche, il nous semble plus pertinent de baser notre test utilisateurs sur une mesure de performances, plus objective.

E.1.3. Intérêt Potentiel des Protocoles de Test Existants

Que ce soit en cartographie, où nous avons identifié relativement peu de tests basés sur la mesure de performances, ou bien en sciences cognitives où ce type d’évaluation est plus coutumier, nous n’avons pas trouvé de protocoles utilisant de carte multi-échelle. En cartographie, les efforts de recherche portent généralement sur l’efficacité des différents procédés de représentation à échelle constante. Ces travaux reposent principalement sur des tâches où l’utilisateur doit répondre à des questions d’analyse spatiale en interprétant le contenu de la carte [Luz et Masoodian, 2014 ; Rautenbach et al., 2016], ou encore sur des tâches de localisation d’un objet spécifique dans la carte [Brychtova et Çöltekin, 2014 ; Rosenholtz et al., 2007]. En sciences cognitives cette fois, les tests utilisateurs sont souvent utilisés pour mieux connaitre un mécanisme cognitif, comme la mémorisation d’un itinéraire [Çöltekin et al., 2017 ; Lokka et Çöltekin, 2017]. Les tâches utilisées reposent alors sur des supports visuels statiques à emprise et échelle constantes ou sur des séquences filmées de navigation dans un environnement virtuel [Lokka et Çöltekin, 2017]. Cette limitation peut s’expliquer par la volonté de limiter les biais potentiels et par l’utilisation fréquente de capteurs physiques qui demandent une calibration précise, comme les méthodes d’eye-tracking [Kiefer et al., 2017]. Si l’on résume, les tâches relevées dans les travaux étudiés en cartographie et sciences cognitives peuvent donc être réalisées à même échelle, sans opération de zoom. Ces tâches spécifiques ne conviennent donc pas à notre cas d’étude, puisque nous souhaitons évaluer la fluidité de cette navigation multi-échelle en particulier.

A l’inverse, de nombreux travaux en IHM visent à évaluer l’efficacité de différentes interfaces ou méthodes d’interactions multi-échelle [Hornbaek et al., 2002 ; Plumlee et Ware, 2006 ; Pietriga et al., 2007 ; Shupp et al., 2009 ; Jakobsen et Hornbaek, 2011 ; Javed et al., 2012 ; Wong et al., 2015]. Bien qu’ils visent globalement à faciliter la navigation dans des données cartographiques, seuls quelques-uns reposent sur une carte multi-échelle [Hornbaek et al., 2002 ; Javed et al., 2012 ; Wong et al., 2015]. Les autres considèrent plutôt une représentation cartographique constante quelle que soit l’échelle [Shupp et al., 2009 ; Wilson et al., 2010 ; Jakobsen et Hornbaek, 2011], voire un ensemble très limité de variables visuelles élémentaires comme illustré par la Figure 128, pour minimiser les biais potentiels [Plumlee et Ware, 2006 ; Pietriga et al., 2007].

a) b)

Figure 128. Représentations graphiques basées sur des variables visuelles élémentaires, utilisées en IHM dans les travaux de (a) [Plumlee et Ware, 2006] et (b) [Pietriga et al., 2007].

Juin 2018 179 Tous les travaux que nous avons étudiés utilisent pour leur tâche des cibles artificielles ajoutées pour l’exercice, plutôt que des objets de la carte elle-même, lorsqu’une représentation cartographique est présente. Deux travaux utilisent ainsi une même tâche avec [Javed et al., 2012] et sans représentation cartographique [Plumlee et Ware, 2006]. D’une manière générale en IHM, la représentation cartographique sert donc uniquement de support visuel et n’est pas évaluée par la tâche, qui peut aussi bien être réalisée sans recours au contenu cartographique. Puisque c’est cette représentation cartographique que nous cherchons à évaluer dans notre cas, ces tâches ne conviennent pas non plus en l’état.

Néanmoins, notre analyse de ces travaux en cartographie, sciences cognitives et IHM nous a permis d’identifier certaines bonnes pratiques pour la mise en place de tests utilisateurs contrôlés. Pour limiter les variables impliquées dans l’expérience, les conditions de réalisation des tests contrôlés sont constantes entre les différents participants. Dans notre cas, nous devrons donc réaliser toutes les sessions du test dans un même environnement (salle, table, chaise, condition de luminosité et nuisance sonore) et avec un même équipement informatique (écran, clavier, souris, distance à l’écran). De plus, les travaux en IHM conseillent de simplifier au maximum le stimulus utilisé, en utilisant des représentations élémentaires, pour limiter les biais potentiels. Dans notre cas, produire notre propre matériel de test nous garantit l’absence de facteur variable entre les pyramides, excepté la transition du bâti dont nous souhaitons mesurer l’influence.

Par ailleurs, la grande majorité des travaux étudiés mentionnent un biais potentiel dû à l’ordre des conditions testées. Les performances de l’utilisateur peuvent en effet s’améliorer au cours du test, par un effet d’apprentissage [Baenninger et Newcombe, 1989], ou au contraire se dégrader à cause de la fatigue que peut ressentir l’utilisateur. Une différence de performances entre deux pyramides, respectivement testées au début et à la fin du test, pourrait donc ne pas être due à l’influence de la pyramide elle-même mais simplement à l’ordre du test. Pour éviter cela, les travaux existants proposent plusieurs méthodes. D’une part, ajouter une phase d’entrainement en début de test permet de limiter l’effet d’apprentissage. D’autre part, mélanger l’ordre de test entre les différents participants permet de contrebalancer statistiquement ce biais potentiel [Çöltekin 2015]. Pour améliorer la significativité des résultats, il est également possible de multiplier les essais sur une même condition. Dans notre cas, chaque participant réalisera donc la tâche choisie plusieurs fois sur une même pyramide, selon un ordre différent des autres participants.

Enfin en ce qui concerne les mesures proposées dans les travaux étudiés, les mesures de précision et de temps sont couramment utilisées pour évaluer les performances de l’utilisateur lors de la réalisation d’une tâche en géovisualisation [Kinkeldey et al., 2014]. Néanmoins, des travaux en sciences cognitives [Fabrikant et al., 2008 ; Çöltekin et al., 2010] conseillent de coupler ces mesures à des méthodes qualitatives, comme le think aloud ou l’enregistrement des interactions, pour pouvoir mieux comprendre et expliquer ces résultats numériques.

Aucun protocole n’existe pour évaluer la fluidité de navigation dans une carte multi-échelle. Nous définirons donc dans les parties suivantes la tâche (§E.2), le protocole (§E.3) et l’implémentation (§E.4) de notre test de manière relativement empirique. Puis nous analyserons et interpréterons ses résultats et faisons un retour d’expérience sur la conduite de test utilisateurs pour l’évaluation de cartes multi-échelles en général (§E.5).

180 Marion Dumont