• Aucun résultat trouvé

Suivi de parties de corps pour l'interprétation de gestes de communication à partir de séquence monoculaire

N/A
N/A
Protected

Academic year: 2021

Partager "Suivi de parties de corps pour l'interprétation de gestes de communication à partir de séquence monoculaire"

Copied!
186
0
0

Texte intégral

(1)

D´epartement de formation doctorale en informatique Ecole doctorale´ UFR MIG

Suivi de parties du corps pour

l’interpr´

etation de gestes de

communication `

a partir de s´

equence

monoculaire

TH`

ESE

pr´esent´ee et soutenue publiquement le 11 d´ecembre 2007 pour l’obtention du

Doctorat de l’universit´

e Paul Sabatier – Toulouse III

sp´ecialit´e Informatique par

Fr´

ed´

erick Gianni

Composition du jury

Directeur de th`ese : Patrice Dalle

Rapporteurs : Jenny Benois-Pineau

James L. Crowley

Examinateurs : Michel Devy

(2)
(3)

Résumé

Cette thèse se situe dans le cadre de l'analyse de la production de gestes de com-munication eectués lors d'une interaction Homme-Machine ou bien lors d'un discours d'une personne s'exprimant en langue des signes. Dans le but d'interpréter ces gestes de communication, nous avons proposé des méthodes de suivi de diérentes parties du corps humain, à partir d'une séquence vidéo monoculaire couleur. Pour analyser les besoins en matière de suivi, nous avons identié les parties du corps porteuses de sens lors de la production de gestes de communication. Nous avons alors déni des méthodes de suivi adaptées à chacune des parties identiées.

Le suivi de parties du corps à partir de séquences vidéo monoculaires est une tâche dif-cile : le corps humain est un objet articulé, susceptible de se déplacer et de changer d'orientation par rapport à la caméra. Son apparence est très variable et les diérentes parties du corps peuvent être très mobiles, changer rapidement de conguration et d'orien-tation. Des occultations totales ou partielles de ces parties surviennent aussi fréquemment. Nous avons tout d'abord déni les fonctions et les modes de production des gestes manuels et non manuels (tête, buste . . .). Nous décrivons ensuite les systèmes de notation de mou-vements existants et les parties du corps utilisées par ces système pour construire du sens. Nous rappelons enn quelles catégories de gestes sont utilisées lors d'une interaction visuo-gestuelle. Suite à l'analyse de la production de gestes de communication et des méthodes d'extraction des paramètres nécessaires à l'interprétation, nous exposons la construction d'un langage de commande gestuelle de dispositif d'achage. Cette étape nous permet de spécier les composantes corporelles en jeu dans l'interprétation des gestes. Elle nous permet également de spécier les contraintes d'une telle interaction et plus généralement de l'interprétation des gestes de communication. Nous proposons alors une méthode per-mettant d'estimer la posture d'un bras humain à partir des positions de ses articulations dans une image. Ces points sont dans en premier temps donnés manuellement de manière à évaluer la robustesse de cette méthode.

Nous présentons par la suite deux méthodes permettant de retrouver les positions des articulations de l'épaule et du poignet d'une personne. Ces méthodes sont des traitements locaux conçu spéciquement dans ce but. La première méthode de suivi du haut du corps utilise un modèle actif de forme. Ce modèle nous permet d'inférer les positions des arti-culations, pour une reconstruction de la conguration des bras. L'inférence des positions des articulations est évaluée sur l'erreur de reconstruction. Nous exposons, également, une méthode originale et robuste de suivi de la tête et des mains. Cette méthode repose sur l'utilisation de ltres à particules dans le but d'être robuste aux variations de dyna-miques de ces composants corporels. Ces ltres à particules s'exercent dans un contexte d'observation par la couleur de manière à s'aranchir des variations d'orientation ou de conguration. Nous proposons ensuite une optimisation en introduisant un recuit simulé dans l'étape de mise à jour du ltre. Cette optimisation permet au ltre une meilleure

(4)

Nous proposons enn une évaluation du suivi de la tête et des mains en termes de préci-sion en position et de qualité du suivi image à image.

Alors que notre proposition répond à des besoins initiaux précis, sa robustesse lui permet d'être utilisée dans diérents contextes de production gestuelle : une interaction homme-machine ou bien un énoncé en langue des signes.

Finalement, la méthode de détection et de suivi de composants corporels que nous avons réalisée est originale et robuste et elle respecte les contraintes que nous nous étions xés pour analyser des gestes de communication.

Mots-clés : ltre particulaire, suivi robuste, suivi multiple, analyse de gestes par vision monoculaire, communication visuo-gestuelle

(5)

Remerciements

Je remercie les membres du jury, Jenny Benois-Pineau et James Crowley, rapporteurs, Michel Devy examinateur d'avoir accepté d'évaluer mon travail.

Je souhaite remercier Patrice Dalle de m'avoir accueilli au sein de l'équipe TCI, d'avoir toujours pris le temps de répondre à mes questions et sans lui cette thèse n'aurait pas été possible. Merci à Alain Crouzil pour sa bonne humeur et son dynamisme. Merci à Pierre Gurdjos pour son soucis du détails scientique. Merci à Jean-Denis Durou pour sa rigueur grammairienne et ses précieux conseils de positionnement. Un grand Merci à toute l'équipe TCI pour son soutien et son accueil.

Je tiens à remercier les membre du laboratoire MIDI pour avoir nancé une partie de cette thèse à l'aide d'un contrat. Egalement la société Websourd avec qui je continue de collaborer.

Je remercie également Guillaume Gay pour ses nombreuse relectures, et je tiens à ex-primer mes plus vive remerciement à Charlotte Lederlin sans qui je ne serais pas ce que je suis.

(6)
(7)

Table des matières

1 Introduction 1 1.1 Introduction . . . 1 1.2 Contexte de l'étude . . . 2 1.3 Contexte de travail . . . 3 1.4 Problématique . . . 3 1.5 Organisation - Plan . . . 4 2 Langage gestuel 5 2.1 Introduction . . . 5

2.2 Qu'est-ce qu'un geste de communication ? . . . 6

2.2.1 Les gestes d'accompagnement du discours . . . 6

2.2.2 Les fonctions du geste de communication . . . 8

2.2.3 Geste et motricité . . . 9

2.2.4 Espace de production du geste . . . 11

2.3 Formalisme d'analyse de gestes . . . 13

2.3.1 Systèmes de notation de mouvements . . . 13

2.3.2 Système d'écriture de gestes . . . 17

2.4 Le geste en interaction homme-machine . . . 19

2.4.1 Quelles interfaces ? . . . 19

2.4.2 Quels gestes ? . . . 20

2.4.3 Capture de mouvement . . . 21

2.4.4 Système d'interprétation/interaction visuo-gestuelle . . . 23

2.5 Conclusion . . . 27

3 Analyse de vidéo de personnes en mouvement , état de l'art 29 3.1 Introduction . . . 29

(8)

3.1.2 Représentation de la personne . . . 32

3.2 Détection de personnes . . . 34

3.2.1 Détection par la couleur . . . 35

3.2.2 Détection par le mouvement . . . 38

3.2.3 Détection par la forme . . . 43

3.2.4 Détection par composants . . . 46

3.2.5 Détection de parties du corps . . . 47

3.2.6 Bilan . . . 50

3.3 Suivi de personnes . . . 51

3.3.1 Suivi par détection . . . 51

3.3.2 Représentation par modèle 2D . . . 51

3.3.3 Représentation par Modèle 3D . . . 54

3.3.4 Représentation par modèle 3D sans modèle explicite . . . 59

3.3.5 Bilan . . . 63 3.4 Reconnaissance de mouvements . . . 64 3.4.1 Reconnaissance de postures . . . 64 3.4.2 Reconnaissance d'action . . . 65 3.4.3 Interprétation . . . 68 3.4.4 Bilan . . . 71 3.5 Conclusion . . . 72

4 Commande gestuelle d'un dispositif d'achage 75 4.1 Méthodologie de conception de langage gestuel . . . 75

4.1.1 Situation de communication . . . 75

4.1.2 Analyse des gestes produits . . . 77

4.2 Dispositif expérimental . . . 79

4.3 Langage de commandes . . . 80

4.3.1 Corpus et étude des composants . . . 80

4.3.2 Commandes retenues et gestes utilisés . . . 81

4.3.3 Langage proposé . . . 84

4.4 Analyse et représentation des gestes . . . 85

4.4.1 Vers une solution géométrique . . . 86

4.4.2 Pré-requis . . . 87

4.4.3 Filtrage des solutions . . . 92

(9)

4.4.5 Exploitation du modèle . . . 95

4.4.6 Application sur des images réelles . . . 96

4.4.7 Relâchement des contraintes de calibration . . . 100

4.5 Conclusion . . . 101

5 Suivi de composants corporels 103 5.1 Introduction . . . 103

5.2 Conditions opératoires de l'interaction . . . 103

5.3 Détection de personnes et de ses composants . . . 104

5.3.1 Soustraction du fond de scène . . . 106

5.3.2 Détection de la couleur peau . . . 109

5.3.3 Recherche des mains : heuristique anthropométrique . . . 110

5.3.4 Reconnaissance de la désignation . . . 111

5.3.5 Premier bilan . . . 112

5.4 Inférence des positions des épaules . . . 113

5.4.1 Modèle de formes actives . . . 113

5.4.2 Analyse Procrustes . . . 114

5.4.3 Construction d'un modèle de forme . . . 115

5.4.4 Inférence de la position des épaules . . . 123

5.4.5 Bilan . . . 127

5.5 Suivi de tête et de mains . . . 128

5.5.1 Méthodes de ltrage temporel . . . 128

5.5.2 Algorithme générique de ltrage particulaire . . . 131

5.5.3 Filtre particulaire recuit . . . 133

5.5.4 Suivi des mains et de la tête . . . 138

5.6 Conclusion . . . 146

6 Conclusion générale 149 6.1 Contributions . . . 149

6.1.1 Modèle articulé . . . 150

6.1.2 Estimations de la position des épaules . . . 150

6.1.3 Suivi des mains et de la tête . . . 151

6.1.4 Annotation de vidéos . . . 151

6.2 Discussion . . . 151

(10)

6.3.1 Dans le prolongement . . . 152

6.3.2 Perspectives applicative . . . 153

6.3.3 Perspectives de recherches . . . 153

A Annexes 155 A.1 Matrice de passage de l'épaule au poignet . . . 155

A.2 Courbe paramètrique de Bézier . . . 155

A.2.1 Norme d'une courbe de Bézier . . . 157

A.2.2 Estimation d'une courbe à partir de points . . . 157

(11)

Table des gures

2.1 Labanotation . . . 15

2.2 Notation du geste là selon diérents systèmes . . . 16

2.3 Classication des gestes selon Queck . . . 20

2.4 Systèmes de capture de mouvement . . . 21

2.5 Point de vue caméra des applications de Crowley et de Quek . . . 24

2.6 Exemples de systèmes d'interaction gestuelle . . . 25

2.7 Image en entrée du système proposé par [Triesch 98] . . . 25

2.8 Dispositif pour l'environnement virtuel BattleFields . . . 26

2.9 Dispositif utilisé par Davis et Bobbick . . . 26

2.10 Image en entrée du système proposé par [Imagawa 98] . . . 26

2.11 Système proposé par De La Rivière et image en entrée du système proposé par Richarz . . . 27

3.1 Processus générale d'analyse . . . 30

3.2 Schéma de méthode basée image . . . 31

3.3 Schéma de méthode basée modèle . . . 32

3.4 Représentation de personnes à l'aide de blobs . . . 33

3.5 Trois catégories de système de détection de personnes . . . 34

3.6 Exemple de diérence inter-image . . . 40

3.7 Détection de personnes, méthode de Haritaoglu, Harwood et Davis . . . 44

3.8 Représentation de contours . . . 45

3.9 Caractéristiques de Haar . . . 47

3.10 Détecteur de personnes de Mohan et Papageorgiou . . . 48

3.11 Détecteur de personnes de Felzenszwalb et Huttenlocher . . . 48

3.12 Détecteur de personnes de Ronfard, Shmid et Triggs . . . 49

3.13 Détecteur de personnes de Micilotta et Bowden . . . 50

3.14 Représentation d'une personne pour le suivie . . . 52

3.15 Suivi de personnes, méthode de Haritaoglu, Harwood et Davis . . . 53

3.16 Suivi de personnes, méthode de Deutscher, Blake et Reid . . . 55

3.17 Recalage de modèle 3D, méthode de Horain . . . 56

3.18 Recalage de modèle 3D, méthode de De La Rivière et Guitton . . . 57

3.19 Suivi de personnes, méthode de Chen, Lee, Parent et Machiraju . . . 58

3.20 Estimation de posture, méthode de Agarwal et Triggs . . . 60

3.21 Estimation de posture, méthode de Micilota, Ong et Bowden . . . 61

(12)

3.23 Descripteur de mouvement de Efros . . . 66

3.24 Image d'historique de mouvements . . . 66

3.25 Logique temporelle de Vu . . . 67

3.26 Gestes paramétriques . . . 69

3.27 Estimation du pointage proposé par Jojic . . . 70

3.28 Dispositif d'estimation du pointage de Moeslund. . . 70

3.29 Estimation du pointage de Malerczyk et al . . . 71

3.30 Proposition d'estimation du pointage Nickel . . . 71

4.1 Scénario de présentation (tiré du projet CHIL) . . . 76

4.2 Editeur de partition AnColin . . . 79

4.3 Conguration du dispositif expérimental . . . 80

4.4 Geste nouvelle fenêtre . . . 82

4.5 Geste Déplacer une fenêtre et Supprimer une fenêtre . . . 83

4.6 Geste redimensionner . . . 83

4.7 Geste zoom . . . 84

4.8 Modèle du système articulaire du bras . . . 88

4.9 Cohérence des trajectoires en fonction de la distance et de l'angle . . . 90

4.10 Modèle du bras . . . 93

4.11 Repéres des articulations du bras . . . 95

4.12 Domaine atteignable par les articulations du coude et du poignet . . . 96

4.13 Quelques ensembles de solutions reconstruits géométriquement . . . 98

4.14 Évolution de l'erreur d'estimation 3D de la position du coude et du poignet 99 4.15 Reconstruction des trajectoires dans une scène à partir d'images de synthèse100 4.16 Projection orthographique d'une ligne et d'une chaîne articulaire . . . 101

5.1 Conditions opératoires de l'environnement d'interaction . . . 104

5.2 Exemples d'occultations produites en LSF . . . 104

5.3 Méthode de détection de la tête et des mains. . . 106

5.4 Apprentissage des images de fond de scènes . . . 108

5.5 Résultat de soustraction du fond en présence de public . . . 109

5.6 Exemples d'échantillons utilisés pour constituer le modèle de la couleur peau . . . 109

5.7 Détection de la couleur de peau . . . 110

5.8 Modèle anthropométrique . . . 111

5.9 Reconnaissance de la commande nouvelle fenêtre . . . 112

5.10 Construction du modèle de forme . . . 116

5.11 Erreur moyenne de reconstruction, généralisation du modèle de forme . . . 118

5.12 Évaluation qualitative de l'estimation d'orientation . . . 119

5.13 Évaluation de la séparabilité des classes . . . 120

5.14 Schéma d'un modèle à forme active . . . 121

5.15 Exemple d'extraction de courbe du contour à partir de gradient . . . 122

5.16 Erreur moyenne de recalage et génération de forme . . . 123

5.17 Exemple de forme avec les positions des épaules . . . 124

(13)

5.19 Entropie des vecteurs propres dans le MDP combiné . . . 126

5.20 Erreur de reconstruction du modèle de forme . . . 127

5.21 Cas de Filtrage . . . 129

5.22 Représentation de la densité de probabilité a posteriori accompagné des poids associés . . . 131

5.23 Eet du recuit simulé . . . 135

5.24 Filtre particulaire recuit étape par étape . . . 138

5.25 Représentation des parties du corp . . . 139

5.26 Représentation des états et de l'observation . . . 140

5.27 Représentation des états et observations dans le cas de suivi multiples . . . 141

5.28 Positions réelles de la tête et des mains de la séquence LSF . . . 142

5.29 Métriques pour l'évaluation du suivi . . . 143

5.30 Erreur en position de l'APF sur la vidéoLSF . . . 144

5.31 Evaluation de la robustesse . . . 145

(14)
(15)

1

Introduction

1.1 Introduction

La reconnaissance et l'interprétation des mouvements du corps humain constituent un problème important en traitement d'image. Il existe de multiples formes de mouve-ments du corps humain, par exemple les mouvemouve-ments associés à la manière de marcher, de communiquer ou d'eectuer des activités. On retrouve dans leurs mouvements des in-formations sur les intentions, l'humeur, les idées et même la personnalité des individus. Tomasz Troscianko a montré [Troscianko 01] qu'il était possible de prédire des comporte-ments en observant simplement des interactions homme-homme et leur langage corporel. Il est également possible d'identier une personne, notamment son genre, par sa démarche ou par la posture générale de son corps durant un cycle de marche [Carter 00] [Yam 02] [Hayfron-Acquah 02].

Les mouvements du corps humain peuvent être répartis selon plusieurs catégories : dé-marche, attitude, posture, action, geste et plus spéciquement langage, comme c'est le cas notamment des langues des signes. La démarche, la posture et l'attitude sont habituelle-ment des formes inconscientes de mouvehabituelle-ments du corps qui peuvent être observées, entre autres, lorsqu'une personne marche. Aux actions correspondent par contre des mouve-ments du corps qui permettent d'interagir sciemment avec des objets. Quant aux gestes, ils constituent une forme de communication qui aide une personne à s'exprimer, forme in-consciente [Ivanov 00] dans la gestuelle co-verbale ou forme in-consciente dans les emblèmes ou les gestes de commande ; les langues des signes sont plus particulièrement une forme consciente de langage de communication entre personnes.

Toutes ces formes de mouvements du corps peuvent être interprétées comme des facettes du comportement humain. Nous voyons donc que le comportement peut être conscient ou inconscient, communicatif passif ou communicatif actif.

Le problème de l'utilisation de la vision par ordinateur pour l'interprétation des mouve-ments du corps est complexe. Cette complexité réside dans la dimensionnalité du mou-vement humain, spatiale et temporelle. De plus, le même geste peut varier énormément d'une personne à une autre, d'une culture à une autre et également, pour une même per-sonne, d'un contexte à un autre.

(16)

Les recherches basées sur la reconnaissance de mouvements humains par un système de vision ont longtemps reposé sur des dispositifs ad hoc ; elles ont souvent été eectuées avec des contraintes opératoires de laboratoire et non en situation réelle. Or l'analyse de mou-vements pour l'interprétation se doit de contraindre le moins possible le comportement de la personne eectuant le geste, dans le but d'avoir un geste réalisé le plus naturellement possible. Il en va de même dans un contexte d'interaction homme-machine : les utilisa-teurs d'interfaces visuo-gestuelles ne doivent pas se plier à une syntaxe trop stricte des gestes utilisés. L'arrivée de nouveaux périphériques, l'utilisation d'interfaces ubiquitaires, pervasives exigent de pouvoir capter les faits et gestes des utilisateurs sans qu'eux-même aient conscience d'être soumis à des mesures de mouvements. De plus, leur utilisation demande à ce qu'elles s'inscrivent dans le comportement des utilisateurs en nécessitant une charge minimum d'apprentissage.

1.2 Contexte de l'étude

Les travaux menés durant cette thèse visent à proposer un ensemble de modèles et d'outils et pour l'analyse des mouvements humains et plus spéciquement des gestes de communication. L'étude du mouvement humain peut s'eectuer à l'aide de plusieurs techniques et d'outils diérents selon les objectifs. Ces outils peuvent être des capteurs de mouvements que l'on nommera intrusifs car ils sont placés sur la personne, au contraire des capteurs de vision. Les dispositifs d'acquisition vidéo peuvent également avoir diérentes architectures : ils peuvent être constitués d'une seule ou de plusieurs caméras dans le but de disposer de diérents angles de vision ou d'eectuer une triangulation. Les conditions d'acquisition des données relatives au mouvement d'une personne peuvent également être très variables selon qu'il s'agit de conditions de studio ou de caméras de vidéo surveillance. Les applications de la capture de mouvement peuvent sommairement être réparties en trois classes : surveillance, contrôle, analyse et communication.

• la surveillance recouvre quelques-uns des problèmes les plus classiques

d'automa-tisation et d'interprétation des mouvements puisqu'il s'agit de surveiller des espaces où déambulent un grand nombre de personnes, par exemple les aéroports ou les stations de métros. Les applications typiques consistent à compter le nombre de personne et à décrire le ux des personnes. De nouveaux types d'applications ap-paraissent, dûs certainement à l'augmentation de la demande sécuritaire, tels que l'analyse de l'activité et du comportement de foules ou de personnes isolées.

• le contrôle utilise les mouvements ou la posture d'une personne pour contrôler un

dispositif. Celui-ci peut être une interface de jeux (par exemple avec EyeToy1), une

interface de réalité virtuelle ou plus généralement une interface Homme-Machine. Cependant, les applications de contrôle peuvent également être utilisées par l'in-dustrie du loisir numérique pour générer et contrôler des avatars personnalisés en

1L' EyeToy est une caméra conçue par Sony pour être utilisée dans des jeux comme mode de contrôle

(17)

1.3. Contexte de travail fonction de l'apparence, de la forme et des mouvements de la personne capturée.

• l'analyse fournit par exemple une aide au diagnostic médical ou permet à l'athlète

d'optimiser ses performances. Les applications les plus récentes en analyse sont l'annotation automatique de vidéo et la recherche par le contenu. D'autres types d'applications percent également dans l'industrie automobile pour limiter les risques d'accident : détection de l'endormissement, détection de piétons.

• la communication, il s'agit ici d'analyser les gestes produits par une personne en

situation de communication. Ces gestes respectent certains codes, plus ou moins élaboré, comme dans les gestes co-verbaux qui accompagne la parole, ou la syntaxe d'une langue complète, comme dans la communication en langue des signes.

Un système d'analyse de mouvement par vision doit eectuer plusieurs traitements pour permettre de suivre les gestes d'une personne :

1. l'initialisation ou la détection, an de s'assurer que le système débute ses traite-ments avec une bonne interprétation de la scène

2. le suivi eectuant la mise en correspondance image à image des caractéristiques précédemment détectées.

3. l'estimation de la posture utilisant les caractéristiques détectées ou une forme intermédiaire pour calculer un agencement spatial des membres du corps humain. 4. la reconnaissance identiant les activités ou le comportement d'individus.

Dans ce document, l'approche proposée a pour but de fournir un suivi de diérentes parties du corps pour permettre l'interprétation de gestes. Nous pensons que les applica-tions d'interprétation ont besoin de traitements spéciques suivant les parties du corps observées pour obtenir une bonne précision d'interprétation.

1.3 Contexte de travail

Cette thèse a été eectuée dans l'équipe Traitement et Compréhension d'Image (TCI) de l'Institut de Recherche en Informatique de Toulouse (IRIT), dont un axe de recherche concerne le domaine de la communication visuo-gestuelle et vise donc à produire des méthodes, des techniques et des outils, permettant l'interprétation, par un système de vision, de gestes pouvant être émis par une personne dans le but de communiquer. Dans le souci de produire des méthodes, des techniques et des outils réutilisables par le plus grand nombre de personnes, nous traitons des vidéos issues de système couleur monovision, donc simples de mise en oeuvre et disponibles. Cela implique également que, le plus souvent, nous ne maitrisons pas les conditions de prise de vue, voire même que nous ne les connaissons pas.

1.4 Problématique

Après avoir traité le problème de la capture des mouvements à l'aide de descripteurs globaux, il est nécessaire, pour la communauté de vision par ordinateur, d'avoir recours à des traitements plus locaux, permettant l'analyse de mouvements de parties spéciques

(18)

du corps humain de manière robuste. Nous aborderons notamment des vidéos contenant des personnes en situation de communication dans le but d'interpréter leurs gestes. Nous voulons enrichir les possibilités de techniques d'interaction gestuelle et d'analyse de gestes. Cet enrichissement consiste à fournir des méthodes permettant une analyse de gestes sans que le producteur de geste ait à modier sa production gestuelle pour qu'elle puisse être interprétée. Cela passe par l'abaissement des contraintes de réalisation des gestes. Ces contraintes peuvent prendre diérentes formes : utilisation de marqueurs spéciques sur les mains, obligation de faire face aux caméras, réalisation des gestes sans provoquer d'auto-occultation. . .Ce but est assez large pour englober plusieurs directions de recherche diérentes. D'un côté, nous pourrons partir du domaine de l'analyse vidéo et tenter d'élaborer un algorithme de suivi adapté à notre champ d'application. D'un autre coté nous pourrons nous baser sur les besoins en interaction et analyse de gestes pour proposer des traitement vidéos adéquats. Parce que la description des mouvements que nous désirons analyser est assez vague nous détaillerons dans le chapitre 2 la description des gestes, leur mode de production, le formalisme de leur analyse et leur utilisation dans les interfaces homme-machine.

En résumé, nous souhaitons étudier et proposer des solutions basées sur l'analyse vidéo au problème de l'analyse de gestes pour leur interprétation, qu'ils soient gestes d'interaction ou gestes, plus complexes, de langue des signes.

1.5 Organisation - Plan

Ce mémoire suit un schéma respectant dans les grandes lignes l'évolution chronolo-gique de notre travail. Dans un premier temps, nous présenterons le domaine de recherche, c'est à dire l'interprétation de gestes de communication, et plus particulièrement à notre cadre de travail, le suivi de parties du corps, chapitre 2. Nous expliciterons dans cette partie la problématique de l'étude des langues gestuelles et de leur annotation, probléma-tique qui a motivé notre travail d'analyse et d'interprétation d'image.

Nous eectuerons ensuite, dans le chapitre 3, une études des méthodes généralement uti-lisées et nous décrirons les problèmes rencontré dans l'analyse de vidéos. Cette partie décrira notamment les méthodes basées image et les méthodes basées modèle.

Nous aborderons ensuite, chapitre 4, la commande gestuelle de dispositifs. Nous présen-terons la construction d'un langage gestuel destiné à la commande de grande surface d'achage et nous proposerons également dans ce chapitre une méthode d'estimation de la posture du bras à partir des positions de ces articulations dans l'image.

Enn nous nous pencherons, chapitre 5, sur les traitements d'image locaux permettant de retrouver la position de l'articulation de l'épaule et du poignet. Nous proposerons ici une méthode de suivi des mains robuste aux occultations ainsi qu'aux grandes variations de dynamique.

Nous présenterons en conclusion une synthèse de notre contribution en analyse de gestes de communication et des perspectives ouvertes par cette recherche.

(19)

2

Langage gestuel

L'utilisation de gestes dans le but de communiquer, qu'il s'agisse de communication homme-homme, homme-machine ou homme-homme médiatisée, suppose que l'émetteur et le récepteur des gestes aient un langage commun pour pouvoir reconnaître et interpréter les gestes émis. Il est donc nécessaire, dans le cadre d'une communication homme-machine, de déterminer l'ensemble des gestes utilisés lors du 'dialogue' avec la machine.

2.1 Introduction

Dénition du langage gestuel :

Dénition21 : Systèmes de gestes et signes de la main utilisé pour communiquer par les

sourds ou par des personnes parlant des langues diérentes.

Dénition32 : Communication qui s'eectue en dehors d'un code linguistique formel.

Lorsque nous parlons, nous produisons spontanément des gestes an d'étendre et d'accom-pagner notre discours [Kendon 72] [McNeill 92]. Des gestes sont parfois produits même en l'absence de récepteur, bien que la plupart soient eectués quand un interlocuteur est pré-sent (Cohen et Harrison [Cohen 73], Cohen [Cohen 77], Rime et Schiaratura [Rime 91]). Bien que certaines communications qui ont lieu lorsque les interlocuteurs ne se voient pas, telles que les conversations téléphoniques, soient généralement réalisées sans gestes, il a été montré que, lorsqu'il y a une ambiguïté dans le discours oral, les interlocuteurs utilisent des gestes pour y pallier [Church 95].

C. Cadoz [Cadoz 94] commence par dénir le Canal Gestuel comme moyen d'action sur le monde physique et également comme moyen de communication informationnelle à double sens : émission et réception d'informations. Le canal gestuel se diérencie ainsi des canaux visuels, auditifs et vocaux, qui sont unidirectionnels.

Cadoz poursuit en associant à la main (et par conséquent, au geste) trois fonctions dié-rentes, selon lui complémentaires et imbriquées :

2D'après une note Medical Subjects Headings (MeSH) de la National Library of Medicine of US traduit

par le Catalogue et Index des Sites Médicaux Francophones (CiSMeF)

(20)

1. Fonction Ergotique : fonction de l'action matérielle qui entraîne une modication, une transformation de l'environnement. Il y a ici échange d'énergie.

2. Fonction Épistémique : fonction permettant de prendre des informations sur l'en-vironnement.

3. Fonction Sémiotique : émission d'informations à destination de l'environnement. Nous nous intéresserons plus particulièrement aux gestes permettant de transmettre une information, soit d'après C. Cadoz [Cadoz 94] les gestes Sémiotiques. Nous décrirons dans les sections suivantes cette classe de gestes, puis nous présenterons les systèmes permettant de produire des notations de mouvements, ceci dans le but de dénir les représentations informatiques des gestes permettant leur interprétation.

2.2 Qu'est-ce qu'un geste de communication ?

Nous allons voir ici comment se situe le geste en tant qu'acte de communication et quelles sont les connaissances relatives à son interprétation. Nous commencerons tout d'abord par dénir la communication non-verbale, dans laquelle interviennent les gestes, et nous fournirons une typologie des gestes de communication. Nous identierons ensuite les diérentes fonctions du geste puis, le geste ayant par nature un caractère spatial, nous dénirons les espaces pris en compte pour l'étude du geste.

2.2.1 Les gestes d'accompagnement du discours

La communication verbale est pratiquement indissociable du mouvement corporel. Outre les mouvements oculaires, la personne qui parle manifeste généralement une activité importante des sourcils, elle eectue des mimiques faciales et des mouvements saccadés de la tête. On observe également des mouvements du tronc et des jambes qui modient parfois l'ensemble de la statistique corporelle. Toutefois, les gestes de la main qui accompagnent la communication verbale sont ceux qui sont les plus caractéristiques et donc les plus étudiés. Ils ont fait l'objet de diérentes typologies, proposées notamment aux États-Unis par J. Freedman [Freedman 72], par Ekman et Friesen [Ekman 69], par Mc Neill [McNeill 85], et en France par Cosnier [Cosnier 84]. Généralement inspirées par la classication originale développée en 1941 par Efron [Efron 41], ces typologies comportent de larges plages de recouvrement. B. Rimé et L. Schiaratura [Rime 91] en ont proposé l'intégration suivante, qui distingue trois classes principales de gestes.

2.2.1.1 Gestes Idéatifs

En phase avec les variations du contour du discours, ces gestes renvoient essentielle-ment au processus idéatif en cours chez le locuteur. Ils se manifestent notamessentielle-ment lors des pauses, de l'accentuation et des variations de l'intonation. On en distingue deux types : les gestes de marquage et les geste idéographiques.

(21)

2.2. Qu'est-ce qu'un geste de communication ? Les gestes de marquage. Ce sont des gestes à faible niveau d'élaboration, souvent d'allure rythmique. Ils peuvent accompagner le discours ; ils apparaissent dans les phases d'ambiguïté verbale, en portant l'accent sur un élément spécique du discours, avec pour eet de réduire l'ambiguïté ; ils peuvent également introduire des césures dans l'exposé aux diérents moments de la démarche logique sous-jacente.

Les gestes idéographiques. De structure plus complexe que les précédents, ils suivent le cours de la pensée abstraite et esquissent dans l'espace le cheminement logique suivi par le locuteur.

2.2.1.2 Gestes Figuratifs

Ils renvoient à l'objet actuel du discours, qu'ils gurent par le truchement de la posture adoptée par la main ou par son déplacement dans l'espace. On peut parler ici d'imagerie gestuelle. Selon l'ampleur prise par le processus de guration dans l'expression corporelle, on distingue les gestes iconiques des gestes pantomimiques.

Les gestes iconiques. Ils gurent, selon le cas, la forme de l'objet évoqué ou d'une de ses parties (gestes pictographiques), l'action qui caractérise l'objet évoqué (gestes kinéto-graphiques), ou encore les relations spatiales s'établissant entre deux ou plusieurs objets référentiels (gestes spatiographiques).

Les gestes pantomimiques. Dans ces gestes, la guration tend généralement à dé-passer la simple gestualité manuelle pour s'étendre à tout le corps du locuteur et devenir ainsi pantomime. Dans ces cas, le locuteur joue intégralement le rôle du référent, qu'il s'agisse d'une personne, d'un objet ou d'un événement.

2.2.1.3 Gestes Évocatifs

Comme les précédents, ceux-ci renvoient à l'objet du discours. Toutefois, les gestes évocatifs ne gurent pas le référent mais se limitent à y faire appel par quelque manifes-tation propre à l'introduire dans l'espace représenmanifes-tationnel commun qui s'établit entre le locuteur et le récepteur de la communication. Ce sont les gestes déictiques et les gestes symboliques.

Les gestes déictiques ou gestes de pointage. Ces gestes pointent dans la direction de l'objet référentiel, réellement, virtuellement ou symboliquement présent dans l'envi-ronnement immédiat.

Les gestes symboliques ou emblèmes. Ces derniers, contrairement à la plupart des autres catégories gestuelles, n'accompagnent pas la parole mais s'y substituent. Dépourvus de tout rapport de forme avec le référent physique ou logique du discours, ils ont la propriété de faire référence à une codication formalisable. Ils possèdent en eet une signication précise, connue dans la culture à laquelle appartient le locuteur. Il s'agit

(22)

donc d'équivalents lexicaux, directement traduisibles en mots. Leur usage est délibéré et vise à la communication d'un message spécique. Les diérentes manifestations gestuelles de salutation, le pouce levé pour signier que tout va bien, la main dressée pour signier attention en sont des exemples courants. Les travaux de Ricci-Bitti ont montré que la mimique faciale vient souvent à l'appui du gestes symbolique, en précisant sa signication exacte lorsqu'un même geste est susceptible de plusieurs interprétations diérentes.

2.2.2 Les fonctions du geste de communication

Deux types de conceptions ont été développées pour rendre compte des manifestations gestuelles du locuteur.

La première a notamment été décrite par Kendon, à l'occasion de diérents travaux an-thropologiques publiés entre 1983 et 1986. Elle porte un accent particulier sur la plasticité des modes gestuels d'expression par rapport au mode verbal. En eet, les modes gestuels permettent la production de pictogrammes, de représentations directes des relations spa-tiales, ainsi que de mouvements corporels susceptibles de reproduire les mouvements des objets réels ; sous certaines formes (gestes symboliques) ils peuvent, en prenant une valeur quasi lexicale, se substituer de manière ponctuelle au mot. Enn, la lexicalisation com-plète de la gestualité est également possible puisqu'on l'observe dans la langue des signes des sourds. Dans le mode verbal, par contre, la lexicalisation est la seul voie disponible. Avec elle, les règles de la syntaxe et l'ordre séquentiel des mots sont autant de facteurs qui restreignent l'expression du référent et amènent parfois l'expérience à n'y être représentée que de manière très indirecte. Selon Kendon ces limitations du mode conventionnel de communication amènent le locuteur à faire un appel récurrent aux modalités gestuelles pour traduire le surplus de signication qui ne peut s'exprimer en paroles. En outre, la situation de communication elle-même ajoute parfois des contraintes supplémentaires à l'expression verbale, favorisant d'autant le recours au geste. C'est ainsi que l'on verra le locuteur adopter le geste :

• en vue de suppléer la parole, lorsque des facteurs situationnels tels que la distance

ou le bruit gênent la transmission de la parole ;

• à titre de substitut de la parole, lorsque le canal verbal est déjà occupé par le

locuteur ;

• comme moyen de compléter une phrase qui, prononcée dans son intégralité, serait

gênante pour le locuteur ;

• comme moyen de clarier tel mot susceptible d'ambiguïté ;

• comme moyen de télescoper ce que l'on veut dire, lorsque le temps d'intervention

dont on dispose est plus bref que souhaité.

La seconde conception, inspirée par les théories de Werner et Kaplan sur la formation des symboles, et développée par Rimé, porte l'accent sur les rapports existant entre les phénomènes moteurs qui interviennent lors de l'élaboration des représentations et ceux qui se manifestent au cours de leur expression sous forme verbale : les représentations sont conçues comme composées notamment de schèmes somatotoniques ayant leur origine dans les diérentes réponses motrices (activité sensori-motrice ; réponses anticipatives

(23)

2.2. Qu'est-ce qu'un geste de communication ? et adaptatives ; réactions motrices émotionnelles ; codage moteur par mimétisme) mises en ÷uvre lors de la perception du référent. Le processus d'articulation rend possible l'expression de ces schèmes sous forme verbale. Latente seulement lorsque l'articulation est complète, l'activation des schèmes moteurs impliqués dans l'expression devient de plus en plus apparente dans les cas où l'articulation n'est que partielle. C'est alors qu'elle se manifeste sous la forme de la gestualité gurative. Dans cette conception, l'activation des schèmes a pour eet d'amorcer les structures verbales propres à traduire les signications qu'ils comportent. En ce sens, la gestualité est conçue comme ouvrant la voie à l'expression verbale.

2.2.3 Geste et motricité

Motricité : Fonction qui assure le maintien de la posture et la production des mouve-ments chez les êtres vivants.

De façon plus restrictive, la motricité désigne une fonction qui organise les relations avec l'environnement et qui a comme support périphérique la musculature striée. Actuellement, on préfère utiliser les termes de sensorimotricité pour souligner le rôle des informations sensorielles dans le déclenchement, l'entretien et l'adaptation des mouvements.

Dans l'analyse du mouvement, deux axes théoriques sont à l'oeuvre et nécessitent d'être coordonnés. Le premier conçoit le mouvement comme une réponse aux sollicitations du milieu extérieur (les réexes au niveau le plus élémentaire) ; le deuxième le conçoit comme une production autonome ayant pour but de maîtriser, voire de transformer l'environne-ment. Historiquement, ces deux courants ont été séparés mais ils sont actuellement en train de se coordonner du fait du développement des perspectives intégratives dans la motricité. De toute évidence, les mouvements réaction et action sont étroitement ar-ticulés dans les comportements adaptatifs.

2.2.3.1 Conditions préalables à la production du mouvement

Pour produire un geste ecace, certaines conditions préalables doivent être remplies au niveau tonique et postural. La fonction tonique conditionne principalement la dispo-nibilité de l'appareil moteur, sa capacité à répondre. Elle se traduit concrètement par la résistance (faible ou forte) du muscle lorsqu'on l'étire. Le tonus est très lié à la vigilance du sujet : il est par exemple faible lorsque le sujet dort. En outre, il existe un lien entre l'activité tonique et les états émotionnels (ce lien est essentiel dans le développement psy-chologique du nourrisson). Sans une tonicité harmonieuse de l'ensemble des muscles du corps (donc, par exemple, plus active pour les muscles antigravitaires), la motricité ne peut être que malhabile parce que mal formée.

La posture constitue la base sur laquelle le mouvement va se greer ; grossièrement, elle se traduit par une mise en place des diérentes pièces du squelette les unes par rapport aux autres. On peut distinguer deux grand types d'activité posturale :

(24)

1. antigravitaire, de lutte contre la pesanteur, qui permet la station érigée, où on peut dégager le rôle de la surface d'appui, du poids du corps et le repérage visuel de la verticale ;

2. directionnelle, permettant la capture des stimuli sensoriels dans laquelle trois mo-ments successifs, le plus souvent solidaires, peuvent être isolés : l'immobilisation attentive, précurseur et accompagnateur de l'orientation spécique de la tête, elle-même nécessaire au positionnement des organes sensoriels et des segments mobiles du corps qui assureront la projection du mouvement dans l'espace [Paillard 71]. On remarquera au passage que le maintien d'une posture n'est pas immédiatement donné ; il nécessite, au même titre que la genèse d'un mouvement, l'émission d'une com-mande nerveuse.

Seul l'objectif auquel répond cette commande dière : dans le premier cas il est de sta-biliser une position donnée, dans le second d'établir une nouvelle position à travers une trajectoire.

2.2.3.2 La fonction motrice du geste de communication

Le but du geste peut être qualié par un grand nombre de dimensions : il peut être d'ex-primer un mouvement ou de manipuler un objet, visible ou invisible, proche ou lointain. On ne retiendra que la distinction entre les topocinèses ou mouvements topocinétiques (mouvements dirigés vers un but spatial) et les morphocinèses ou mouvements morphoci-nétiques (mouvements engendrés par un modèle interne) : cette distinction révèle en eet les liens entre espace et motricité, donc le rôle de la représentation de l'espace dans la planication et le contrôle du geste.

Les topocinèses sont des mouvements spatiaux orientés : l'amplitude et la direction du geste sont déterminées par la position de l'objet dans l'espace. Le projet est spatial et l'activité motrice est au service de ce projet spatial.

Il en va autrement pour les morphocinèses : la forme du geste est l'objectif même de l'ac-tivité du sujet, le projet porte sur le mouvement lui-même, l'espace n'étant que le support de la motricité. L'écriture, la danse des abeilles sont des activités morphocinétiques. On observe donc entre ces deux types d'activité un renversement du rôle de la motricité ; on peut dès lors remarquer que le rôle des processus cognitifs dans la planication du geste et dans son contrôle en sera profondément bouleversé. On s'attend également à ce que les informations sensorielles servant à ce contrôle soient de natures diérentes, plus centrées sur l'espace du corps pour les morphocinèses, plus centrées sur l'environnement extérieur pour les topocinèses.

2.2.3.3 Organisation de l'action motrice

L'organisation de l'action motrice est le plus souvent conçue comme un processus or-donné, dont on peut identier au moins trois étapes : la planication, la programmation et l'exécution motrice.

Les deux premières étapes sont antérieures au déclenchement du geste, la planication concernant le but de ce geste et la programmation son exécution. Au cours de l'étape de

(25)

2.2. Qu'est-ce qu'un geste de communication ? planication, après avoir pris la décision d'agir, le sujet décide globalement de la straté-gie à adopter (choix du programme d'action). Lors de la phase de programmation, il va devoir spécier certaines variables de ce programme (amplitude et direction du geste par exemple) de manière à l'adapter à son but, en prenant en compte les contraintes de son environnement. Enn, lorsque toutes les commandes (dans le cas d'un geste très rapide, dit balistique) ou susamment de commandes (dans le cas d'un mouvement plus lent, dit en rampe, qui pourra être contrôlé au cours de son mouvement) sont prêtes, le sujet peut déclencher son mouvement : c'est la phase d'exécution.

Pour adapter l'action motrice, il est nécessaire de traiter deux catégories d'information sensorielle :

1. les informations sur l'environnement (extérioceptives) : ces informations permettant d'appréhender l'environnement sont principalement de nature visuelle, auditive, ol-factive et tactile. Elle permettent de guider l'action par rapport à l'environnement, c'est à dire de l'extérieur ;

2. les informations sur l'espace du corps (de nature proprioceptives) : pour agir de manière pertinente, le sujet doit sentir son corps (somesthésie), c'est-à-dire, pour ce qui nous intéresse ici, être informé d'une part de la position initiale de ses diérents segments corporels (statesthésie), d'autre part des mouvements qu'ils eectuent au cours de l'exécution d'un geste (kinesthésie).

2.2.4 Espace de production du geste

Dénition :

Cadre physique, perceptif, représentatif ou conceptuel à l'intérieur duquel des objets réels ou représentés, mobiles ou immobiles, animés ou non animés, sont situés et déplacés, ac-tivement ou passivement, dans un système de relations spatio-temporelles.

2.2.4.1 Espace physique

Les échanges que peut avoir un être vivant avec son environnement physique sont limi-tés, aussi bien du point de vue moteur que perceptif, par un certain nombre de contraintes. Les objets parmi lesquels nous vivons sont des îlots de matière qui occupent un certain volume. Ces unités ont une cohésion interne et des frontières qui assurent à chacune sa séparation d'avec les autres. Il s'ensuit qu'un objet ne peut occuper simultanément deux places, de même que deux objets ne peuvent occuper en même temps la même place. Un objet ne peut en traverser un autre sans atteindre son intégrité. Les déplacements d'un objet, mais aussi ceux d'un vivant, sont donc limités. Il est impossible d'aller d'un point à un autre sans suivre un chemin continu dans le temps. Les objets sont des obstacles, animés ou inanimés, que les autres objets doivent contourner lors de leurs déplacements, mais ce sont aussi des supports possibles. Enn les forces de gravité (attraction terrestre) sont une composante essentielle de notre environnement terrestre.

(26)

2.2.4.2 Espace d'action

Espace des perceptions et des actions réelles, il est le lieu des coordinations entre les informations collectées par les systèmes sensoriels sur l'état de l'environnement, les objets qui l'occupent, les événements qui y surviennent et les postures et déplacements du corps propre dans un environnement orienté et ordonné.

Posture et déplacements. Tout déplacement du corps ou d'un de ses segments mobiles a un point de départ - déni par un lieu de l'espace et une posture de l'acteur, un but - situé en un autre point de l'espace, et un itinéraire dont les paramètres sont la direction générale à suivre et la distance à parcourir pour atteindre ce but. C'est à partir d'informations spatiales fournies par les modalités sensorielles que fonctionnent diérents programmes d'action dont la commande assure la stabilisation de la posture et l'ajustement correct de la trajectoire. L'activité de transport du corps ou d'un segment se gree sur les activités posturales, qui réalisent les positionnements antigravitaires et directionnels. Le premier constitue un référentiel statural de base pour l'orientation spatiale de tous les organismes. Informations spatiales d'ordre sensoriel. L'arrivée d'un ux énergétique sur les ré-cepteurs sensoriels d'une modalité entraîne une réponse d'orientation vers l'origine de ce ux, qui se manifeste à la fois par un changement de posture (positionnement directionnel) et par une capture du stimulus au prot d'une zone particulièrement adaptée au traite-ment n des informations relatives aux propriétés de l'objet stimulus. Dans une situation normale, les informations spatiales contenues dans les messages sensoriels des diérentes modalités concordent, et il apparaît que la ligne du regard et le référentiel oculocentrique jouent un rôle déterminant dans le repérage directionnel d'un objet.

Relations entre informations spatiales sensorielles et motrices. Dans l'exécu-tion d'une tâche de pointage manuel d'une cible visuelle, le sujet reçoit deux types d'in-formation : les unes sont relatives à l'amplitude et à la direction du geste de pointage (stimulations sensorielles réaérentes), les autres viennent des modications des images rétiniennes résultant de ce geste.

Dans des conditions naturelles, ces informations sont en forte corrélation. Mais une dis-torsion articielle du message sensoriel, sous la forme d'une déviation du ux lumineux entraînée par le port de lunettes prismatiques, supprime la validité du système normal de corrélation entre les deux types d'information : le geste n'aboutit pas à l'endroit où la cible est vue.

2.2.4.3 Espace représentatif

L'espace représentatif est l'espace dans lequel des actions intériorisées, virtuelles, peuvent être appliquées à des objets absents, représentés, aussi bien qu'à des objets réels, perçus.

(27)

2.3. Formalisme d'analyse de gestes

2.3 Formalisme d'analyse de gestes

Stokoe [Stokoe 78] commença à analyser des mouvements humains durant les années 1970 en décrivant des gestes de langue des signes à partir de la position de la main, de sa forme ainsi que de son mouvement. Il supposait que ces trois composants se produisaient concurremment sans contraste séquentiel (variations indépendantes des trois composants dans un signe isolé). Dix ans plus tard, Liddell et Johnson [Liddell 89] utilisèrent un contraste séquentiel et introduisirent le modèle de mouvement-tenu movement-hold mo-del.

Bien que des systèmes de notation manuelle aient été développés pour la danse (tels que Labanotation) , la vision par ordinateur requiert une approche automatique où chaque possibilité du mouvement humain a une limite temporelle clairement dénie. Comme il est nécessaire d'isoler chaque lettre pour la reconnaissance d'écriture cursive, il est aussi nécessaire lors de l'analyse des mouvements du corps entier de dénir lorsqu'un dynème commence et nit. L'équipe Traitement et Compréhension d'Image (TCI) est également active sur la dénition d'un formalisme graphique de la langue de signes. Des recherche ont été menées dans le cadre d'un projet Recherche et Innovation en Audiovisuel et Mul-timédia (RIAM) nommé LS-SCRIPT dirigé par B. Garcia et des linguistes de Paris 8 notament D. Boutet [Boutet 06] qui propose dans [Boutet 07] d'analyser le geste d'un

point de vue de sa production. Le Projet LS-SCRIPT4 a eu pour objectif de mener des

in-vestigations pédagogiques, linguistiques et informatiques en vue d'établir les fondements théoriques, linguistiques, sémiotiques et informatiques, d'une forme graphique pour la Langue des Signes Française (LSF). Dans ce but, le projet a associé des chercheurs en linguistique, sociologie, informatique, des enseignants en LSF. Si le choix des graphèmes formant cette écriture n'a pas été inclus dans cette étude (le développement et l'appro-priation de l'écriture devant se faire dans le long terme par les intéressés eux-mêmes, les sourds), les investigations linguistiques ont permis de proposer une cellule graphique permettant de structurer les graphèmes de manière adéquate et homogène. De même, les modèles informatiques nécessaires à la représentation de la LS ont été posés et les pre-mières implémentations tests ont été réalisées.

2.3.1 Systèmes de notation de mouvements

Nous présentons ici cinq systèmes de notation de mouvements. Ce sont les systèmes les plus connus et les plus utilisés. Nous détaillerons leur histoire, leurs caractéristiques et leurs usages. Nous les présentons suivant l'idée du continuum de Kendon : le caractère linguistique dégagé par l'interprétation de leurs symboles.

Labanotation → Stokoe → HamNoSys → Lidell et Johnson → SignWriting

(28)

2.3.1.1 Labanotation

Labanotation, ou Laban Kinetographique (connue sous ce nom dans certaines parties de l'Europe), est un système de notation du mouvement utilisé pour transcrire les choré-graphies. Inventé par Rudolf Laban, c'est un des deux principaux systèmes de notation utilisés dans la culture occidentale. La Labanotation utilise des symboles abstraits pour dénir :

• la direction du mouvement

• la partie du corps eectuant le mouvement

• le niveau de mouvement

• la durée du mouvement

Les formes des symboles indiquent neuf directions diérentes dans l'espace et l'ombrage du symbole informe sur le niveau du mouvement (gure 2.1b). Les symboles sont placés sur une portée verticale (gure 2.1a) ; la dimension horizontale de la portée représente la symétrie du corps, et l'axe vertical la dimension temporelle. La position des symboles sur la portée dénit la partie du corps qu'ils représentent, quant à la ligne centrale de la portée, elle représente la ligne centrale du corps. Les symboles positionnés à droite (respectivement à gauche) de cette ligne représentent le côté droit du corps (respectivement le côté gauche). La portée est lue de bas en haut et la taille des symboles indique la durée des mouvements. A l'instar des partitions de musique occidentale, Labanotation utilise une barre pour marquer la mesure et une double barre au début ainsi qu'à la n de la performance. Les distances, relations spatiales, transferts de masse, centres de masse, sauts, rotations, parties du corps, chemins ainsi que la carte du sol peuvent tous être annotés par des symboles spéciques.

Ce système de notation de mouvement est orienté sur les mouvements du corps en général, la durée du mouvement ainsi que les tensions que le danseur doit exprimer. Il est donc dicile de fournir une transcription en Labanotation du geste présenté gure (2.2).

2.3.1.2 Le système de Stokoe

Le système de notation de Stokoe pour la langue des signes Américaine (ASL) a été le premier système de transcription conçu pour une langue des signes. Il a été publié en 1960 et est devenu le principe d'organisation d'un dictionnaire d'ASL à partir de principes linguistiques. Stokoe l'écrivit avec des collègues sourds. Il s'organise selon la prononciation des signes en ASL plutôt que par leur traduction anglaise littérale comme dans tout autre dictionnaire.

Stokoe diérencie trois catégories de phonèmes en ASL : 1. Tab, l'emplacement du signe (tabula),

2. Dez, la conguration de la main (designator) 3. Sig, mouvement/orientation (signation).

(29)

2.3. Formalisme d'analyse de gestes

(a) (b) (c) (d)

Fig. 2.1: Labannotation, (a) la partition où les mouvements sont décrits, (b) la direction du mouvement, (c) les parties du corps entrant en jeu, (d) exemple de notation représen-tant un pas de tango

Un signe est écrit dans l'odre Tab Dez Sig. La gure (2.2(b)) ne contient pas de Tab, ce qui signie que l'emplacement est neutre, en face du corps. Le Dez G indique une main pointant, désignant. Enn Sig < indique un mouvement vers le côté dominant du signeur.

Un des désavantages de ce système est qu'il ne fournit pas de symboles pour les expressions faciales, puisque Stokoe n'a pas travaillé sur ces expressions en ASL, mais il est facile d'y remédier. Une proposition a été faite : l'ajout d'un symbole d'expression entre parenthèse au début du mot. Il n'y a pas non plus de moyen pour représenter les relations entre signes, ce qui réduit l'usage du système à un niveau lexical.

2.3.1.3 HamNoSys (Hamburg Notation System)

Ce système a été développé par un groupe constitué de personnes entendantes et sourdes comme un outil scientique et de recherche. Il a été mis à la disposition du public en 1989. Le but d'HamNoSys, à la diérence de SignWritting (présenté plus loin), n'a jamais été d'être un moyen de communiquer en langue des signes. Il a été conçu pour un environnement de recherche et devrait pouvoir s'appliquer à toute les langues des signes existantes. HamNoSys contient 200 symboles dénissant le paramètres de conguration de main, position et mouvement (cf Stokoe Notation). Les symboles sont aussi iconiques que possible et se veulent facilement identiables. L'ordonnancement des symboles dans une phrase est xé, mais il est possible d'écrire un mouvement de plusieurs manières diérentes. La notation est phonétique et les transcriptions sont donc rigoureuses mais diciles à lire. HamNoSys est un système en constante amélioration, bientôt pourvu d'un moyen de transcription des expressions faciales.

La gure (2.2(d)) contient quatre symboles. Le premier nous indique une conguration de la main droite : index tendu, point fermé. Le deuxième une position et une

(30)

orienta-tion générale : horizontale vers la gauche. Le troisième l'orientaorienta-tion de la paume : sur le dessus. Le dernier indique un mouvement : petit, sur le plan horizontal vers la gauche. La description fournie par HamNoSys est donnée du point de vue 'observateur', car dans l'image c'est la main gauche du locuteur qui pointe vers la droite.

(a) (b) (c) (d)

Fig. 2.2: Exemple du geste "Là" en diérents types de notation, tirés du site signwriting (http ://signwriting.org/forums/linguistics/ling003.html), (a) une personne signant là, (b) en notation Stokoe, (c) en Signwriting, (d) en notation HamNoSys

.

2.3.1.4 Système de Lidell et Johnson

La description segmentale de Lidell et Johnson est basée sur la distinction, dans les segments des langues des signes, entre les composants décrivant d'une part la posture de la main et d'autre part son activité. Les premiers, les paramètres manuels du signe, spécient où se trouve la main, quelle est sa forme et la façon dont elle est orientée. Les seconds, reétant l'activité des articulateurs, se divisent en deux classes :

• les tenues (symbole H, holds en anglais) sont dénies comme les moments pendant

lesquels toutes les caractéristiques manuelles demeurent constantes, en particulier la position de la main,

• les mouvements (symbole M) caractérisent au contraire une phase de transition entre

deux ensembles de caractéristiques articulatoires.

En conséquence, un mouvement M est relié à deux de ces ensembles, tandis qu'une tenue H n'est connectée qu'à un seul. Les signes et les parties du discours sont composés de chaînes simultanées de segments (alternances de M et de H) : une pour chaque main, et une pour chaque paramètre non-manuel (activité du torse, de la tête et du visage). Détaillons un peu l'étage segmental. Un mouvement est précisé par des caractéristiques :

• de forme de chemin (rectiligne direct, arrondi, en arc de cercle, ... ; pour ces derniers, il convient d'indiquer le plan concerné),

• de qualité temporelle (raccourci, accéléré), spatiale (course réduite ou élargie) ou

kinétique (mouvement tendu par exemple), ou encore de contact, ainsi que par les éventuels mouvements locaux tels que rotation du poignet, agitation des doigts,

(31)

2.3. Formalisme d'analyse de gestes ou autres mouvements rapides internes de la main (par exemple, le frottement pouce/index du geste signiant argent).

Une tenue, quant à elle, est caractérisée par sa durée et également un mouvement local, le cas échéant. En ce qui concerne l'étage articulatoire, la spécication complète de la main inclut :

• la conguration manuelle proprement dite,

• le point de " contact " :

(a) la partie de la main concernée, (b) le lieu où se trouve cette dernière (a)

(c) la distance entre (a) et (b) (contact, proximale, médiale ou distale)

(d) la direction du décalage c (ipsilatéral, contralatéral, en avant, ou une direction relative aux diérentes parties de la main de base)

• l'orientation de la main :

(a) un point particulier de la main et l'endroit vers lequel il pointe, (b) la partie de la main qui fait face au plan horizontal.

2.3.2 Système d'écriture de gestes

Un système d'écriture de gestes se diérencie d'un système de notation de mouve-ments par son usage. Les systèmes décrits précédemment sont utilisés exclusivement dans le but d'avoir une description quasi lexico-graphique du mouvement, alors qu'un système d'écriture fournit une représentation dont le but est de pouvoir communiquer. L'aspect langage est ici très présent et certainement primordial ; il est nécessaire de connaître la langue dans laquelle est exprimé l'écrit pour en tirer le sens. Par contre le système d'écri-ture ore une symbolique moins complexe et facilement interprétable. Le seul système d'écriture de geste largement utilisé à ce jour est SignWriting. Il commence à être utilisé pour l'enseignement de la langue des signes.

2.3.2.1 SignWriting

C'est un système d'écriture du mouvement et des congurations des parties du corps utilisé dans le cadre de la langue des signes qui a été développé en 1974 par Valerie Sutton - une danseuse qui avait conçu un système d'écriture de chorégraphie (Dance Writing) deux ans auparavant.

Comme Valérie Sutton enseignait DanceWriting au Ballet Royal du Danemark, Lars von der Leth, qui eectuait des recherches sur une langue des signes à l'Université de Copenhague, pensa qu'il serait pratique d'utiliser une notation similaire pour écrire les langues des signes. Sutton a utilisé DanceWriting pour produire Sign Writing et a nale-ment étendu son système à un répertoire complet d'écriture du mouvenale-ment.

Ce système d'écriture utilise des symboles représentant les mains, les mouvements, le visage, la tête, le haut du corps, le corps entier, l'espace autour du corps ainsi que

(32)

la ponctuation. Les symboles représentant les mains informent sur leur conguration et orientation par rapport au signeur. Les mouvements représentent les déplacements, contacts, glissements, changements de plan dans le repère du signeur. Le visage permet de représenter la direction du regard, la conguration de la bouche, des yeux, des joues, et la tête permet d'indiquer son orientation. Le haut du corps est utilisé pour représenter l'orientation du signeur par l'orientation et les mouvements de ses épaules. Les symboles permettant de représenter le corps entier sont, quant à eux, généralement utilisés pour spécier des contacts sur des parties du corps (jambes, bras) ou des emplacements spéci-ques sur ces parties. L'espace autour du locuteur peut être spécié selon des coordonnées de hauteur, largeur, profondeur par rapport au signeur. Les signes de ponctuation per-mettent de retranscrire un rythme, une répétition de mouvement ainsi que les symboles de ponctuation littéraire.

La gure (2.2c) nous indique un geste de la main droite situé devant le corps, sous la tête, ayant une conguration poing fermé, index tendu, bras horizontal, la paume de la main sur le côté. Son orientation est donnée directement par l'orientation du symbole représentant la main. Une èche nous indique le sens de mouvement sur le plan horizontal, ainsi qu'une quantité de mouvement - ici un petit déplacement. Le sens du regard est également spécié, dans le même sens que celui donné à la main. Un dernier symbole est utilisé pour ponctuer le discours : une virgule représentée par la double barre.

2.3.2.2 Bilan

Le sytème de notation crée par Laban est clairement déni pour réaliser des pas de danse et pour décrire des chorégraphies (il n'est pas aisé d'en dégager du sens). C'est un système très complet de description de mouvements, centré sur le corps de la personne. Il manque cependant la possibilité de décrire des congurations de parties du corps. Les transcriptions produites avec la Labanotation sont des transcriptions phonétiques comme celles d'HamNoSys. Elles ne sont cependant pas écrites de manière linéaire, les symboles sont disposés selon une partition représentant le corps, facilitant la lecture.

La notation de Stokoe était plutôt utilisée par les linguistes et les universitaires. Elle est toulours utilisée de nos jours comme un moyen pratique et rapide d'écriture de signes, bien que les linguistes ne puissent pas l'utiliser dans un but de recherche. En eet cette no-tation ne dispose pas de susamment de symboles pour de nombreux détails phonétiques - tels que la vitesse de réalisation des signes, les tensions ou les détentes, la brusquerie ou la uidité des mouvements - ou pour des mouvements prenant en compte des composant corporels non manuels mais cruciaux pour l'interprétation des signes.

Comme l'on peut le constater gure (2.2), le formalisme développé dans SignWriting est hautement iconographique, les gestes décrits peuvent être sommairement réalisés après lecture des symboles, au contraire de Stokoe et d'HamNoSys. La particularité d'HamNoSys est qu'il produit des notations transcrivant les mouvements de manière quasi phonétique. Les transcriptions sont alors très précises mais aussi très longues et diciles à décrypter. L'exemple gure (2.2) présente un geste de désignation et sa transcription dans les trois

(33)

2.4. Le geste en interaction homme-machine formalismes principaux utilisés dans les transcriptions de gestes. Il est à remarquer que, sortie du discours, la chose sujette de la désignation n'est pas interprétable : rien ne nous indique ce qui est pointé. Dans le discours oral l'indiquation de pointage est signié par un là qui désigne un emplacement spatiale, sans le geste nous ne savons de quel em-placement il s'agit). Avec la notation de Stokoe, la direction pointée n'est pas facilement interprétable : son support est déni par rapport au côté dominant du signeur. Il faut donc connaître le signeur pour savoir quel est son côté dominant. De plus, les indications de direction de mouvement fournies découpent l'espace en quatre : vers le haut, vers le bas, vers le côté dominant, vers le côté non dominant. La notation Stokoe ne fait que fournir une information partielle de la direction de mouvement.

Bien que SignWriting n'ait pas été conçu comme un système de description technique mais pour communiquer, il est parfois utilisé pour l'étude de la Langue des signes, car il contient à peu près les moyens de réaliser les gestes même lorsque ceux-ci ne sont pas connus.

Le grand manque à propos de ces systèmes de notation de gestes est que l'on ne peut pas représenter de relation entre les signes. Par exemple, si une chose ou une personne a été placée dans l'espace durant le discours et qu'une référence, par l'intermédaire d'un geste de désignation, est produite, aucun symbolisme ne peut nous rappeler le sujet de la référence.

2.4 Le geste en interaction homme-machine

On trouve dans Pavlovic [Pavlovic 97] un état de l'art sur l'interaction Homme-Machine dans lequel est cité l'un des premiers systèmes d'interaction par le geste, une commande gestuelle de déplacement de robot [Torige 92]. Un grand nombre de systèmes d'interaction gestuelle sont de nos jours étudiés, depuis le remplacement de la souris dans les interac-tions classiques [Crowley 95] avec un ordinateur jusqu'à la réalité virtuelle. Nous allons voir, à travers une liste non exhaustive de travaux, diérentes recherches caractéristiques des travaux eectués autour du geste produit lors d'une interaction homme-machine. Pour des détails plus précis et dépassant le cadre du geste interprété par un système de vision, nous conseillons la lecture du travail de classication des gestes d'IHM de Maria Karam [Karam 05].

2.4.1 Quelles interfaces ?

Nous pouvons distinguer deux grands types de scénarios d'interfaces gestuelles. Le premier tend à développer des interfaces utilisateur perceptives (Perceptive User In-terface PUI) comme décrits par Turk [Turk 00] ou des espaces perceptifs (Perceptives Spaces) décrits pas Wren [Wren 99]. Ces interfaces s'eorcent de reconnaître automati-quement des gestes naturels intégrés avec d'autres types d'expressions tels que les mou-vements du corps, la direction du regard, les expressions faciales et la parole. Le but est de développer des interfaces conversationnelles à partir de ce qui est considéré comme un

(34)

dialogue homme-homme naturel. Bolt [Bolt 80], par exemple, pense que dans le but de réaliser ce type d'interfaces conversationnelles, la reconnaissance des gestes doit traiter les gestes non intentionnels et interpréter les gesticulations ainsi que le reste des mouvements corporels. Wexelblat [Wexelblat 95] argumente que seul les gestes naturels doivent être utilisés, car d'autres types de gestes augmenteraient la charge cognitive de l'utilisateur. Le deuxième type de scénario ne prend en compte que les gestes expressifs produits in-tentionnellement ; nous les nommerons Interface Utilisateur Multimodales. Ici des con-gurations de main et des gestes spéciques sont utilisés pour passer des ordres dans un langage de commande. Les gestes n'ont pas besoin d'être des gestes naturels mais peuvent être créés pour la situation ou empruntés à un langage des signes standards. Dans cette approche, les gestes remplacent un périphérique d'interaction ou sont présents en com-plément, e.g. gestes utilisés en entrée avec la parole et/ou la direction du regard. Cette approche est à l'opposé de l'approche passive des PUI présentées précédemment et pré-tendues moins diciles à utiliser.

2.4.2 Quels gestes ?

A partir de la classication dénie par Cadoz (voir section2.1), Quek [Quek 95] établit une classication des gestes utilisés en interface homme-machine (gure (2.3)). Il eectue une distinction entre les gestes de communication, produits pour une interprétation vi-suelle et dont aucune partie nécessaire à sa compréhension n'est cachée, et les gestes de manipulation qui n'ont pas de telles contraintes.

Mouvements non-intenionnels

Communication Manipulation

Gestes

Mouvements bras / mains

Déictique Référentiel Modélisant

Actes Symboles

Mimétique

Fig. 2.3: Classication de Quek des gestes en interaction homme-machine, en rouge notre contexte

La plupart des travaux IHM se sont concentrés sur les emblèmes et les signes de langue des signes car leur contenu sémantique est clairement déni : ils sont donc plus suscep-tibles d'être utilisés pour des commandes ou des interactions [Turk 02]. Il est cependant important de remarquer qu'ils sont hautement symboliques, de nature arbitraire et que

Figure

Fig. 2.1: Labannotation, (a) la partition où les mouvements sont décrits, (b) la direction du mouvement, (c) les parties du corps entrant en jeu, (d) exemple de notation  représen-tant un pas de tango
Fig. 2.2: Exemple du geste &#34;Là&#34; en diérents types de notation, tirés du site signwriting (http ://signwriting.org/forums/linguistics/ling003.html), (a) une personne signant là, (b) en notation Stokoe, (c) en Signwriting, (d) en notation HamNoSys
Fig. 2.3: Classication de Quek des gestes en interaction homme-machine, en rouge notre contexte
Fig. 3.7: Détection de personnes, méthode de Haritaoglu, Harwood et Davis [Haritaoglu 00]
+7

Références

Documents relatifs

Querelle épigraphique entre deux savants : l’exemple de la correspondance, publiée dans la Revue archéologique de 1847, entre Antoine-Jean Letronne et Jules Chevrier à propos de deux

pratiquer l’équipe artistique du projet, pour retrouver au delà de la technique de métier, d’un corps normé, la puissance d’un corps propre qui n’existe pas comme une latence

- pour aider l’élève, l’inviter à sortir la leçon, à repérer les propriétés à utiliser (lui faire ensuite étudier le cas échéant), regarder s’il n’y a pas des exemples

Au début de l’expérience les deux compartiments sont placés à la lumière, les limaces se trouvent indifféremment dans un compartiment ou dans l’autre.. Ensuite, le compartiment

[r]

5. Toutes les disciplines mobilisent globalement tous les domaines de la connaissance et proposent des devoirs différents mais qui font appel aux mêmes mécaniques. Ainsi, des

Dans le cadre du programme Devoirs faits, le responsable de l’association s’engage à assurer l’accompagnement des élèves dans la réalisation du travail personnel qui leur

Le GP, au sens où nous l’entendons, est principalement un geste des bras et des mains (mais il peut aussi être composé de mimiques faciales) utilisé par l’enseignant de