• Aucun résultat trouvé

Mise en œuvre de la multimodalité dans des situations interactives

modalités tactiles et/ou auditives

L ES PROPRIETES CASE

2.3.3 Mise en œuvre de la multimodalité dans des situations interactives

Cette section a pour but d’illustrer différents types de transmission d’information(s) à partir d’une interaction multimodale. Nous nous intéressons, plus particulièrement, aux situations mettant en œuvre des techniques d’interaction multimodale, basées sur l’utilisation de modalités non visuelles.

(Vieira et al. 2015) ont développé le système de rééducation SleeveAR, dans le but de rendre autonome un utilisateur pendant ses séances de rééducation (sans que la présence d’un spécialiste soit requise). Le but du système est de faire reproduire un geste (pré-enregistré) à l’utilisateur sans que celui-ci ne se blesse. Ce système multimodal transmet des messages visuels, auditifs et haptiques à l’utilisateur : guidage du mouvement (flèche sur le bras, son, vibration), barre de progression visuelle, alerte tactile, etc. Les informations visuelles sont transmises en concurrence, car l’une guide le mouvement, l’autre affiche « d’autres- informations-utiles-et-non-directement-liées-au-mouvement-lui-même » en simultané. Les modalités d’interaction visuelle sont concurrentes. Les informations auditives et haptiques sont transmises en synergie et de façon complémentaire, pour guider (en simultané) l’utilisateur, lorsque l’information visuelle de guidage ne lui est plus accessible. Les modalités d’interaction auditives et haptiques sont utilisées en synergie et sont complémentaires. D’un certain point de vue, ces deux modalités d’interaction (ensemble) sont équivalentes à la modalité d’interaction visuelle (cf. Figure 2-20), car elles transmettent (ensemble) la même information. Notons également, que la transmission d’informations peut, alternativement, s’effectuer avec l’un ou l’autre mode de communication, car ils sont redondants. Enfin, une seconde modalité d’interaction haptique est assignée pour transmettre exclusivement une information vitale à l’utilisateur, à propos de son action en cours.

-71-

Figure 2-20 : illustration du système SleeveAR, l’utilisateur effectue un mouvement, il ne peut pas lire les informations visuelles (bras droit) qui sont hors de son champ de vision car le sujet gardait la tête droite pour

ce mouvement de rééducation, un guidage audio et haptique prend le relais.

(Bolelli et al. 2004) ont présenté la preuve de concept d’un système collaboratif de gestion de crise facilitant la prise de décisions et leurs diffusions. En s’appuyant sur le principe du système existant GeoMIP (Agrawal et al. 2004) et sur l’image centrale de la Figure 2-21, voici une explication du fonctionnement de leur interaction : le coordinateur pointe du doigt une zone vers la carte (l’écran) tout en parlant, le système récupère ces informations qui lui sont transmises en synergie (en même temps) ou en alternance (en décalé) par deux modalités d’interaction, auditive et haptique, utilisées de manière complémentaires par l’utilisateur. Les autres participants reçoivent l’information par une transmission d’informations dépendantes visuelles et auditives, en synergie ou en alternance. Sur les images latérales de la Figure 2-21, nous pouvons voir deux autres illustrations de transmission d’informations complémentaires en synergie ou en alternance : stylos (modalité tangible) + parole (modalité auditive) et souris (modalité tangible) + parole (modalité auditive).

Figure 2-21 : Illustration de la preuve de concept d’un système collaboratif de gestion de crise inspirée du GeoMIP. Les interactions permettent une transmission d’informations complémentaires en synergie ou en

alternance.

Dans le contexte d’utilisation spécifique aux interfaces « Paper-based », (Liao, Guimbretière, and Loeckenhoff 2006) ont conçu le prototype « Pen-top » afin de tester trois catégories de techniques d’interaction (dans trois tâches) : la navigation, la notification et la sélection. Ces

-72-

interactions multimodales utilisent des modalités d’interaction visuelles, auditives et tactiles (cf. Figure 2-22). Prenons l’exemple de la tâche de navigation dans leur pie menu (menu circulaire), où les modalités sont complémentaires. Plus précisément, lors d’un changement de menu, les modalités sont complémentaires et utilisées en alternance pour transmettre l’information. Ainsi, chacune des modalités d’interaction est assignée à une sous-unité d’information : visuelle pour la direction, tactile pour prévenir que la position du stylo est proche de deux menus, sonore pour un survol de la frontière entre deux menus et enfin la parole pour indiquer le titre du menu survolé. Prenons un autre exemple de l’une de leurs techniques dédiée à une tâche de recherche de mots-clés. L’utilisateur doit rechercher un mot dans un texte, pour ce faire il survole le texte avec un stylo puis lorsque le « stylo » reconnait le mot-clé dans le texte ou la ligne courante (survolée), des informations visuelle et auditive sont transmises à l’utilisateur. Ainsi, les modalités d’interaction auditives et visuelles sont assignées et exclusives : la parole indique la présence de l’élément recherché dans la page, puis un indice visuel informe l’utilisateur que la ligne qu’il survole avec le « Pen-top » contient l’élément recherché. Enfin, dans une tâche de sélection, le système transmet l’information « la confirmation finale » avec une modalité d’interaction visuelle (assignation exclusive) pour indiquer à l’utilisateur que son mot est enregistré pour une future action (copier-coller par ex.).

Figure 2-22 : Illustration issue de (Liao et al. 2006) des interactions du « Pen-top » : à gauche, un utilisateur novice recevant des informations relatives à sa navigation ; au milieu, la même navigation mais dans le mode

expert (donc moins d’indices) ; à droite, la recherche du mot « computer » dans un texte.

(Cassell et al. 1999) ont présenté un système multimodal de communication basé sur les gestes et la parole. Ce système de communication entre un Homme et une machine (robot, IA, etc.) dépendait d’une machine à états (voir grammaire et théorie des langages). Ces

-73-

auteurs ont conçu un robot intelligent, nommé « Rea », capable de traduire certains gestes et certaines paroles de l’utilisateur en commandes (cf. Figure 2-23). En voici quelques exemples : lorsqu’un utilisateur faisait une phrase déclarative suivie d’une pause de plus de 500 ms sans faire aucun geste, Rea comprenait que l’utilisateur lui laissait la « parole ». Par contre si l’utilisateur faisait des gestes, Rea lui redonnait la parole. Lorsque Rea souhaitait la parole, elle regardait l’utilisateur, levait la main et prononçait l’onomatopée « hum ». Ainsi, les modalités d’interaction étaient utilisées soit en alternance mais de manière complémentaire (ex. l’utilisateur parlait puis effectuait un geste pour signifier à Rea qu’il souhaitait garder son tour de parole), soit en exclusif assigné (ex. la parole seule permettait à Rea de prendre le tour de parole, un geste permettait à Rea de signifier à l’utilisateur qu’elle attendait son tour).

Figure 2-23 : Illustration issue de (Cassell et al. 1999) : « Rea le robot », en « pleine conversation » avec un participant.

(Hinckley and Song 2011) ont exploré les interactions multimodales avec un Smartphone en combinant le « toucher » et le « mouvement ». Les auteurs sont partis sur deux axes de conception : « touch in motion » et « motion in touch ». Dans le premier axe, les gestes incluent, en plus des informations de mouvements, des informations relatives au toucher, comme le nombre de point de contacts sur l’écran et leurs positions. Une des interactions conçues est la « Tilt-to-Zoom » qui facilite l’action de zoomer avec une seule main sur un écran tactile : poser le pouce sur l’écran puis incliner le Smartphone vers l’avant pour zoomer, vers l’arrière pour dé-zoomer (modalités complémentaires synergiques). Dans l’axe « motion in touch », les gestes incluent, en plus des informations « tactiles », des informations relatives au mouvement, comme la force, la vitesse, l’angle, etc. Ceci ajoute au « touch » une signification plus expressive. Dans ce second axe, les auteurs font la distinction entre le « soft tap » et le « hard tap » avec la règle suivante : deux « soft tap » équivalent à un « hard tap » (transmission exclusive d’informations dépendantes, dont la

-74-

modalité d’interaction est le « soft tap » sur l’écran, une séquence de deux « soft tap » donne l’information du « hard tap », c’est un cas d’interaction monomodale exclusive avec informations dépendantes). Il existe une vidéo de démonstration sur le site de l’ACM31.