Langage de commandes - Suivi de parties de corps pour l'interprétation de gestes de communicati

4.3.1 Corpus et étude des composants

Étiqueter un texte, c'est associer à des segments de textes, le plus souvent des mots, une ou plusieurs étiquettes, le plus souvent leur catégorie grammaticale voire leur lemme. Pour étiqueter un corpus vidéo nous associons une ou plusieurs étiquettes à des séquences d'images vidéo. Les systèmes d'annotation vidéo ont émergé ces derniers temps, souvent issus des études d'annotation de corpus audio, études plus anciennes que l'analyse vidéo (tels que ANVIL et ELAN).

Lors de l'étude des corpus il est nécessaire d'isoler les composants du geste, c'est-à-dire les diérentes parties du corps intervenant dans le geste : la tête, le torse , les bras, les mains. Ainsi chaque geste sera déni par sa composante gestuelle. Nous associons un sens à une partie du corps. Le mouvement nous indique la partie du corps porteuse de sens lors de l'élocution gestuelle.

L'une des dicultés à laquelle on est confronté lors de l'élaboration d'un système d'inter- prétation de gestes est la dénition du vocabulaire de gestes : celui-ci doit être susamment intuitif pour permettre un apprentissage rapide et susamment discriminant pour être interprété sans confusion. Comme souligné par [Moeslund 01a], il est dicile de créer des métaphores de gestes adéquates. La majorité des expérimentations impose le vocabulaire aux utilisateurs. A contrario nous avons décidé de prendre en compte l'utilisateur dans la spécication des gestes de commandes.

La dénition du langage a été eectuée en trois étapes. Initialement nous avons déni une liste de cinq commandes que l'utilisateur pourra eectuer : acher, déplacer, supprimer, redimensionner et zoomer. Il s'agit là de la dénition de l'énoncé de la commande. Dans un second temp nous avons cherché à savoir comment l'utilisateur formulera ces

4.3. Langage de commandes énoncés en gestes. Dans ce but nous avons organisé une expérience sous la forme d'un magicien d'Oz. Nous avons invité huit utilisateurs volontaires à utiliser le dispositif dans un scénario de présentation de travaux durant lequel les cinq commandes devaient être utilisées sans contraintes sur leur réalisation. Les eets des gestes de commande étaient simulés par un opérateur présent dans le pièce. Chaque expérimentation a été enregistrée par une caméra contextuelle et par une caméra focalisée par l'utilisateur.

Enn, lors de la dernière étape, nous avons évalué les réalisations gestuelles des commandes et sélectionné les gestes selon leur intuitivité (le plus utilisé), complexité (le plus simple) et singularité (le plus unique). Notre estimation de la complexité et de la nature discriminative des gestes observés a été eectuée de manière empirique.

4.3.2 Commandes retenues et gestes utilisés

Nous avons donc cherché à dénir les expressions gestuelles à retenir à partir de l'analyse des vidéos. Les critères de choix ont été multiples :

L'intuitivité : notre démarche centrée utilisateur consistait à récolter de façon écolo- gique les gestes des utilisateurs, l'absence de contraintes ayant permis aux utilisateurs de traduire les commandes de la façon leur paraissant la plus intuitive. A partir de ces résultats nous étions en mesure de recenser les expressions les plus utilisées ou d'identier les similitudes entre utilisateurs.

Nous avons parfois été amenés à trancher entre plusieurs gestes, dans ce cas, nous nous sommes attachés à satisfaire les autres critères (complexité minimale et singularité). Complexité minimale : la simplicité dans l'expression a été analysée, nos critères s'at- tachaient principalement à évaluer le niveau de détail nécessaire à la reconnaissance d'un geste .

En nous intéressant à la traduction gestuelle de commandes (acher, créer, déplacer), nous avons donc pu observer que les paramètres des commandes étaient le plus souvent exprimés à l'intérieur de ces dernières, donc à prendre en compte également. Par exemple, pour déplacer une source d'un endroit à un autre de l'écran, l'utilisateur lève la main dans l'axe de la fenêtre (passant ainsi deux paramètres à la commande : désigner l'objet et préparer à déplacer), puis bouge la main en relatif par rapport au mouvement de la source à l'écran (déplacer + paramètre d'amplitude) ; lorsque la position convient la main retourne à l'endroit où elle se trouvait en début de commande. Il faut alors extraire les paramètres à l'intérieur de l'expression gestuelle même.

La complexité de certaines expressions requiert une phase de calibrage (par exemple la désignation des ordinateurs source dans la salle). Nous avons essayé de réduire au maxi- mum la nécessité d'eectuer des calibrages, sans pour autant la supprimer totalement. Les commandes accessibles par un utilisateur pour organiser la surface d'achage du mur d'image sont limitées en nombre. Pour chacune, nous avons identié une expression

gestuelle associée, comme on peut le constater dans ce descriptif rapide de chacune des expressions :

La commande nouvelle fenêtre (voir gure 4.4) est eectuée par les locuteurs en désignant successivement la cible à acher puis une zone de la surface d'achage. La désignation de la cible s'eectue le bras tendu en direction de la cible ; le haut du corps peut être orienté vers la cible ou non. Le visage peut également être orienté ou non vers la cible. Il s'agit d'une métaphore de drag and drop dans un contexte spatial en trois dimensions, où l'utilisateur saisit une source et la dépose où bon lui semble.

Début du geste

Fin du geste

Fig. 4.4: Geste nouvelle fenêtre pour toutes les personnes

Déplacer un fenêtre (voire gure 4.5a) : l'utilisateur pointe la source qu'il souhaite dé- placer, cette source étant déjà positionnée dans l'espace d'achage et sa position connue. Puis il eectue un mouvement de translation durant lequel la conguration du bras pointant varie de quantité négligeable. Une fois qu'il a atteint la position désirée, son bras se relâche et reprend sa conguration initiale - avant le début de la commande. Le visage de l'utilisateur est orienté vers la source tout au long de la commande.

Supprimer une fenêtre (gure 4.5b) : cette commande se réalise de manière similaire à la commande Déplacer. Seule la destination du déplacement change : la suppression s'eectue en déplaçant une fenêtre hors de l'écran.

4.3. Langage de commandes Début du geste Fin du geste (a) (b)

Fig. 4.5: (a) Geste Déplacer une fenêtre, (b) geste Supprimer une fenêtre

La commande redimensionner (gure 4.6) est réalisée par la désignation de la fenêtre à redimensionner par les deux mains, chacune pointant vers deux angles opposés de la fenêtre. L'écart entre les deux mains lors du déplacement signie l'agrandissement ou la réduction de la taille de la fenêtre. La métaphore associée à la réalisation de cette commande est nommée dans la littérature la métaphore du 'ruban élastique'.

Début du geste

Fin du geste

Fig. 4.6: Geste redimensionner pour une personne. Nous pouvons constater sur la dernière colonne que le résultat de la commade est en réalité un déplacement. La distance entre les 2 mains au début et la n du geste sont les même mais pas leur position. Ceci bien que cette distance ait varié pendant la réalisation du geste.

Zoomer (gure 4.7) : l'utilisateur désigne la fenêtre à l'intérieur de la surface d'achage puis, selon le sens du zoom qu'il veut lui donner, déplace son bras vers l'avant ou vers

l'arrière. Le sens est donnée par rapport à un repère centré sur l'utilisateur, l'amplitude du mouvement dénit l'amplitude du zoom.

Début du geste

Fin du geste

Fig. 4.7: Geste zoom pour toutes les personnes

4.3.3 Langage proposé

Ces cinq commandes se déclinent chacune en plusieurs expressions gestuelles, ceci en fonction de paramètres liés d'une part à l'environnement (zones de l'écran, position des ordinateurs sources), et d'autre part à l'utilisateur (s'il est droitier ou gaucher, ou bien selon son orientation, qui donne le repère à prendre en compte pour la commande zoom). Plusieurs expressions gestuelles sont ainsi réalisables pour une même commande. L'expression d'une commande suit habituellement un format déni :

Commande Objet Paramètre

Par exemple Déplacer cette fenêtre vers la droite ou pour une fonction informatique Display(window, x,y). Or les gestes sont réalisés naturellement de la manière suivante :

Objet Commande Paramètres

Par exemple une fenêtre est d'abord désignée avant d'être déplacée. Le contexte est toujours établi avant l'action. Les expressions gestuelles ont toutes un objet, et cet objet est toujours identié avant chaque commande par une désignation. Nous décomposons alors les expressions en gestes élémentaires. Cette décomposition de chacun des gestes nous permet de proposer une grammaire gestuelle des commandes. Dès lors le mot commande n'a plus le même sens ; il inclut les paramêtres. Lors de la réalisation d'une commande isolée, la forme de la commande est la suivante :

4.4. Analyse et représentation des gestes

Dans le document Suivi de parties de corps pour l'interprétation de gestes de communication à partir de séquence monoculaire (Page 94-99)