Modèles pour la multimodalité - Modèles de conception de l’interaction multimodale

3.2 Modèles de conception de l’interaction multimodale

3.2.5 Modèles pour la multimodalité

Les modèles présentés précédemment considèrent, soit un dispositif, soit toute

l’in-teraction, mais ne traitent pas de la multiplicité des modalités, objet de ce

para-graphe. Nous présentons maintenant des modèles pour la multimodalité,

commen-çant par des dimensions de conception générales, (espace MSM), puis focalisant sur

les relations entre plusieurs modalités (CARE et TYCOON et l’espace de

composi-tion de Vernier).

L’espace MSM

L’espace Multi-Sensori-Moteur (MSM) [Nigay et Coutaz, 1996] identifie six

dimen-sions pour caractériser un système interactif multimodal (Figure 3.15) :

• Fusion/Fission: Décrit la combinaison de plusieurs unités d’information pour

former de nouvelles unités. La fission correspond au processus inverse.

• Sens: Spécifie s’il s’agit de dispositifs en entrée ou de dispositifs en sortie.

• Nombre de dispositifs de même sens : Décrit le nombre de dispositifs en

entrée ou en sortie.

• Niveau d’abstraction: Exprime le degré de transformation appliquée aux

in-formations reçues ou émises par les dispositifs.

• Contexte: Comprend un ensemble de variables d’état utilisées par les

proces-sus interne pour contrôler l’acquisition ou la restitution.

• Parallélisme : Décrit le parallélisme perceptible à l’interface selon trois

ni-veaux de granularité (action physique, tâche et grappe de tâches).

F

IGURE

3.15 – Le référentiel MSM. Illustration extraite de [Nigay et Coutaz, 1996].

Nous nous intéressons ici à l’utilisation de MSM pour la caractérisation de

l’in-teraction en entrée. Le couplage de la dimension de Fusion/Fission avec celle de

48 CHAPITRE 3. ETAT DE L’ART DES MODÈLES CONCEPTUELS

Parallélisme permet d’identifier différents cas d’usage en entrée des modalités

illus-trées à la Figure 3.16.

La ligne du bas de la Figure 3.16, intitulé "Ni Fusion ni fission", représente

l’ab-sence de fusion et de fission. La case 5 représente l’usage exclusif d’une modalité,

c’est-à-dire lorsque l’utilisateur emploie au plus une modalité à la fois. L’exemple

de la manipulation directe de la Figure 3.13 illustre l’usage exclusif du geste avec

le doigt pour faire défiler une liste. La case 6 représente l’usage concurrent de deux

modalités, qui ne donne lieu ni à une fusion ni à une fission. Par exemple, dans le

jeu multimodal Crash Kart, présenté au chapitre 2 section 2.4, le joueur peut

incli-ner le iPhone pour diriger la voiture et utiliser l’écran pour activer des options du

jeu. Les deux modalités correspondent à des tâches indépendantes menées

concur-remment sans redondance. L’usage concurrent avec redondance a lieu lorsque les

deux modalités utilisées en parallèle couvrent le même sens. Par exemple, le joueur

incline le iPhone pour diriger la voiture et utilise un bouton à l’écran en même

temps pour diriger la voiture. Le système peut alors éliminer le superflu ou, en

milieu bruité, tirer partie comme information de complémentarité.

La ligne du centre de la Figure 3.16, intitulé "Fusion", comprend deux cas

corres-pondant à une production séquentielle (case 3) ou simultanée (case 4) de plusieurs

informations donnant lieu à une fusion pour faire sens. L’interaction multimodale

du systèmePut-That-There, présenté au chapitre 2 section 2.4, correspond à ce

der-nier cas d’usage de deux modalités (case 4) : l’utilisateur pointe du doigt sur un

objet (modalité 1) puis prononce "put that" (modalité 2) afin de sélectionner

l’ob-jet. L’utilisateur va ensuite répéter l’usage combiné en pointant la destination et en

prononçant "there". L’information de pointage est fusionnée avec celle issue de la

reconnaissance vocale afin d’obtenir une tâche complète (identification puis

dépla-cement d’un objet).

La ligne du haut de la Figure 3.16 représente l’usage exclusif d’une modalité,

comme la case 5, mais cette fois donnant lieu à une fission d’information. Le résultat

de cette opération de fission conduit à plusieurs tâches distinctes. Par exemple, la

commande vocale "dessine un cercle dans une nouvelle fenêtre" fait référence à

deux tâches : la création d’une figure géométrique (le cercle) et la création d’une

nouvelle fenêtre. L’énoncé selon une seule modalité doit donc être décomposé en

deux tâches distinctes pour l’application.

Des exemples ci-dessus de différents cas d’usage des modalités en entrée, nous

remarquons l’absence de choix lorsqu’une modalité est utilisée de façon exclusive

(case 5 de la Figure 3.16) et l’émergence de sens (tâche pour l’application) par

fu-sion/fission. Par exemple, l’usage complémentaire de plusieurs modalités de la

ligne 2 de la Figure 3.16. Ces différents cas d’usage des modalités se retrouvent

dans les propriétés CARE et l’espace Tycoon présentés dans les deux paragraphes

suivants.

CARE

Les propriétés CARE (Complémentarité, Assignation, Redondance et Equivalence)

[Coutaz et Nigay, 1994] définissent des relations entre plusieurs modalités

d’inter-action. Rappelons qu’une modalité d’interaction est un couple <dispositif

phy-sique, langage d’interaction> (cf. section 2.3 du chapitre 2). Un dispositif physique

est un transducteur de propriétés physiques, alors qu’un langage d’interaction est

3.2. MODÈLES DE CONCEPTION DE L’INTERACTION MULTIMODALE 49

F

IGURE

3.16 – Différents cas d’usage en entrée de modalités dans le référentiel MSM.

Illus-tration extraite de [Nigay et Coutaz, 1996].

un système conventionnel qui assure une fonction de communication entre

l’utili-sateur et le système informatique. Les propriétés CARE décrivent les relations

pos-sibles entre ces entités et les tâches de l’application, comme schématisé à la Figure

3.17. F

IGURE

3.17 – Les relations CARE entre dispositifs, langages d’interaction et tâches.

Illus-tration extraite de [Coutaz et Nigay, 1994].

La définition des propriétés CARE (Figure 3.18) repose sur les notions d’État,

But, Modalité et Relation temporelle :

• État. Noté s, l’état est un ensemble de propriétés qui peuvent être mesurées à

un instant donné.

50 CHAPITRE 3. ETAT DE L’ART DES MODÈLES CONCEPTUELS

• But. Noté g, le but correspond à l’état que l’agent veut atteindre. Un agent est

une entité (utilisateur, système ou composant) capable de réaliser des actions.

• Modalité. Notée m, une modalité est composée par un dispositif et un langage

d’interaction qui permet d’atteindre un but.

• Relation temporelle. Notée TR, la relation temporelle caractérise l’utilisation

temporelle d’un ensemble de modalités. L’utilisation des modalités peut avoir

lieu simultanément ou à l’intérieur d’une fenêtre temporelle, notée TW.

F

IGURE

3.18 – Notation pour exprimer les propriétés CARE.

Les propriétés CARE ainsi définies permettent de décrire des relations entre les

dispositifs et les langages d’une part, et les langages et les tâches d’autre part.

L’équivalence et l’assignation caractérisent la portée des choix en matière de

lan-gage et de dispositif. La redondance et la complémentarité qualifient la

combi-naison des choix. Par exemple, deux dispositifs sont équivalents pour un langage

donné si le langage peut être utilisé au moyen de l’un quelconque des dispositifs.

La souris et la tablette sont deux dispositifs équivalents pour le langagePointage

en 2D. Deux langages sont équivalents pour une tâche donnée si cette tâche peut

être réalisée au moyen de l’un quelconque des langages. Par exemple le système

de manipulation d’objets 3D présenté au chapitre 2 section 2.4 (Figure 2.7) illustre

l’usage équivalent du langagegesteet du langagecommande vocalepour la tâche de

manipulation d’un objet en 3D.

Les propriétés CARE fournissent un cadre conceptuel pour définir les relations

entre modalités en entrée. Combinées à d’autres modèles, comme MSM ou Tycoon

que nous présentons dans le paragraphe suivant, les propriétés CARE ont

forte-ment contribué à la conception d’interfaces multimodales [Serrano et Nigay, 2009].

Tycoon

Tycoon [Martin, 1999] est une typologie qui permet la description, l’évaluation et

la spécification des coopérations entre agents humains et logiciels. Une

coopéra-tion est un échange d’informacoopéra-tion réalisé afin d’atteindre un but commun. Tycoon

définit six types de coopération possibles entre agents : equivalence, transfert,

spé-cialisation, redondance, complémentarité et concurrence (Figure 3.19).

Tycoon enrichit CARE en considérant le transfert. Une coopération de type

Transfert entre deux agents est définie par une fonction de correspondance entre

la sortie du premier agent et l’entrée du deuxième agent. Lorsque plusieurs agents

coopèrent par transfert, cela signifie que l’information produite par un agent est

utilisée par un autre agent.

3.2. MODÈLES DE CONCEPTION DE L’INTERACTION MULTIMODALE 51

F

IGURE

3.19 – Typologie proposée par Tycoon. Illustration extraite de [Martin, 1999].

De plus l’espace Tycoon identifie un ensemble de buts de coopération (partie

supérieure du tableau à la Figure 3.19) qui décrivent les raisons pour lesquelles les

agents échangent de l’information et coopèrent. Par exemple une coopération de

type Equivalence peut avoir pour but l’adaptation aux changements (3ème colonne

à la Figure 3.19).

Espace de composition

L’importance de la temporalité (comme l’axe parallélisme dans l’espace MSM et

l’opérateur TR dans CARE) nous amène à considérer les différents types de

re-lations temporelles possibles dans l’usage de plusieurs modalités. Les propriétés

d’Allen [Allen, 1983] décrivent les relations existantes entre deux intervalles

tem-porels t et s.

Allen identifie 5 relations temporelles entre t et s : t < s, t = s, t overlaps s, t meets

s et t during s. Ces 5 relations ont été illustrées graphiquement par Frédéric Vernier

[Vernier, 2001] (Figure 3.20)

Ces relations d’Allen ont été reprises par Frédéric Vernier pour définir un espace

de composition des modalités. Les cinq relations d’Allen définissent des schémas

de composition (colonnes de la Figure 3.21). De plus les relations temporelles

d’Al-len sont étendus à d’autres types de relations entre modalités définissant ainsi des

aspects de composition (lignes de la Figure 3.21).

Les cinq aspects de composition considèrent les relations spatio-temporelles lors

de l’usage de plusieurs modalités mais aussi le niveaux dispositif, langage et tâche

dans l’interaction multimodale :

• Temporelle: cet aspect caractérise les enchaînements possibles de modalités.

• Spatiale: cet aspect reflète la possibilité de placer les modalités à des endroits

52 CHAPITRE 3. ETAT DE L’ART DES MODÈLES CONCEPTUELS

F

IGURE

3.20 – Cinq relations d’Allen. Illustration extraite de [Vernier, 2001].

• Articulatoire: plus adapté à l’interaction en sortie, cet aspect décrit la

compo-sition des flux d’informations des différents dispositifs.

• Syntaxique: cet aspect considère les relations entre les langages d’interaction

utilisés.

• Sémantique: cet aspect décrit la relation entre la sémantique des informations

véhiculées par les modalités pour une tâche donnée.

Cet espace de composition unifie et complète MSM, CARE et Tycoon en

identi-fiant vingt cinq relations entre modalités.

Dans le document Interaction multimodale en entrée : Conception et Prototypage (Page 68-73)