• Aucun résultat trouvé

4.4 Analyse et représentation des gestes

4.4.7 Relâchement des contraintes de calibration

Les coordonnées d'un points dans la scène (X, Y, Z) peuvent être liées aux coordonnées de sa projection dans l'image (u, v) à l'aide de l'équation (4.13)

 u v  = s 1 0 0 0 1 0    X Y Z   (4.13)

Considérons, par exemple, la gure (4.16a) qui montre la projection d'un segment de ligne de longueur l connu, sur une image par projection orthographique

Dans ce cas, les projections des deux extrémités (X1, Y1, Z1)et (X2, Y2, Z2)sur le plan

image sont représentées respectivement par (u1, v1) et (u2, v2). La profondeur relative

entre ces deux points peut être calculée selon le facteur d'échelle s à l'aide des équations suivantes [Taylor 00].

4.5. Conclusion (X1, Y1, Z1) (u2, v2) (u1, v1) x y z Plan de référence (X2, Y2, Z2) dZ x y z Plan de référence dZ1 (X1, Y1, Z1) (X2, Y2, Z2) (X3, Y3, Z3) dZ2 dZ3 (X4, Y4, Z4) (a) (b)

Fig. 4.16: (a) Projection d'une ligne sur une image par projection orthographique à un facteur d'échelle près, (b)Projection d'une chaîne articulaire sur une image par projection orthographique à un facteur d'échelle près.

(u1− u2) = s(X1 − X2) (v1− v2) = s(Y1− Y2)

dZ = (Z1− Z2)

⇒ dZ =pl2− ((u1− u2)2+ (v1− v2)2)/s2

En d'autres termes, cela nous permet de calculer la conguration 3D des points dans la scène en fonction du facteur d'échelle s. Pour une valeur donnée de s, deux solutions distinctes sont toujours possibles, ce qui correspond au fait que nous pouvons choisir que le point 1 ou le point 2 ait la plus petite coordonnée z. Cette ambiguïté est similaire aux ambiguïtés de positionnement de segment du modèle décrites par Lee [Lee 85] et Goncalves [Goncalves 95]. Cette méthode peut facilement s'étendre à d'autres mécanismes articulaires (gure 4.16b).

4.5 Conclusion

Durant ce chapitre, nous avons présenté une méthode d'analyse de corpus vidéo de personnes réalisant des geste de commande . Ce corpus vidéo a été constitué à partir d'un magicien d'Oz, les gestes réalisés ont été analysés sur des critères empiriques. De ce corpus nous avons dégagé des données contextuelles pouvant être intégrées comme connaissances a priori dans un système de traitement d'image pour l'interprétation des gestes de commande proposés. Ces données sont le scénario d'une présentation de travaux et une grammaire de validation de la production des gestes.

Toujours à partir du corpus vidéo, nous avons identié les gestes utilisés ainsi que leurs paramètres. Dans le but de les interpréter, nous avons proposé une méthode simple de reconstruction de la posture d'un bras basée sur des techniques de Vision par ordinateur. Cette méthode nous permet, lors de l'analyse de séquences d'images, de reconstruire un ensemble de trajectoires possibles pour le coude et le poignet. D'autre travaux ont été

menés [Lenseigne 04b] dans lesquels nous qualions des gestes sans diérencier ces trajec- toires.

Dans le pire des cas, cet algorithme nous fournit deux trajectoires candidates pour le coude, et quatre pour le poignet, moins si le bras passe par certaines congurations par- ticulières. Nous disposons d'autre part d'un modèle biomécanique du bras qui permet d'associer à une conguration des articulations, donnée en coordonnées cartésiennes, les valeurs angulaires correspondantes pour chaque articulation. L'exploitation de ce modèle nous permet d'éliminer, parmi les trajectoires, celles contenant des positions aberrantes, c'est-à-dire des positions impossibles au sens des valeurs prises par les articulations. Cette méthode a été validée sur des images de synthèse dans lesquelles la position des articulations était connue. Lors de l'application sur des images réelles, nous passons par une phase d'initialisation qui permet d'estimer à un facteur d'échelle près les mensura- tions du locuteur, la reconstruction se faisant alors également à ce facteur d'échelle près. Dans ces conditions, l'algorithme nous permet d'obtenir de façon simple et rapide des me- sures qualitatives et relationnelles sur les positions des diérentes articulations du bras. Nous avons également étudié l'impact des erreurs sur la position des articulations dans les images sur la reconstruction. Nous avons notamment pu montrer que cette méthode était robuste à ce type d'erreurs (une importante erreur dans la position 2D de l'articulation entraînant une variation limitée de sa position dans l'espace). Enn, nous dénissons les conditions permettant d'estimer la précision nécessaire dans la détection des articulations pour garantir une précision donnée dans la reconstruction du bras.

Nous présentons, dans le chapitre suivant, comment nous intégrons les connaissances contextuelles dans le système de traitement d'image ainisi que les traitements permettant d'extraire les positions des articulations. Nous exposons une méthode permettant l'infé- rence statistique des positions des articulations des épaules à partir d'un modèle de forme active ainsi qu'une méthode de suivi de la tête et de mains robuste aux variations de dynamique et aux occultations par ltrage temporel.

5

Suivi de composants corporels

5.1 Introduction

Le but de la détection et du suivi de parties du corps est de fournir des informa- tions précises sur leur position et leur mouvement, ceci an de permettre l'analyse et l'interprétation de gestes. Nous envisageons deux types de situation :

 Interaction Gestuelle avec un dispositif. Dans ce cas le langage et les types d'inter- action sont à créer.

 Langue des Signes. Dans ce cas le langage existe et représente la forme la plus évolué de communication gestuelle.

Dans le chapitre précédent, nous avons proposé un langage gestuel de commande pour interagir avec un écran large. Comme nous nous intéressons plus généralement aux gestes de communication et en particulier à la Langue des Signes Française (LSF), nous de- vons produire des méthodes susamment génériques pour être utilisables dans ces deux contextes. Notre but est de proposer un ensemble de traitements permettant d'eectuer au mieux la tâche du suivi.