Probl`eme de repr´esentation du signal

CHAPITRE 3 : LA NOTATION DU SIGNE

5.3 Probl`eme de repr´esentation du signal

Nous venons de le voir, les problèmes d’adaptation des méthodes du traitement automatique de la parole sont multiples. Le premier d’entre eux est la quantité importante et l’hétérogénéité des données à traiter (cf.§5.2.1).

Il convient dès à présent de distinguer plusieurs cas de figure, suivant la méthode de capture de l’énoncé :

– Si le corpus est capturé via des dispositifs de capture de mouvements, il est possible d’avoir à chaque instant une quantité importante et précise de données sur la posture courante du signeur. A titre indicatif, un suivi par marqueur passif comme celui décrit dans la section §4.1.4.2 permet de mesurer à chaque instant la position 3D d’une centaine de marqueurs à la surface du signeur.

– Si le corpus est uniquement filmé par une seule caméra. On disposera aussi de nombreuses informations, parfois moins précises, comme la position 2D des différents membres du signeur, les déformations du visage, la forme de la main du signeur.

– L’acquisition par un syst`eme multi-vue constitue un cas interm´ediaire qui permet de recons-truire partiellement l’information 3D.

Dans tous les cas, se pose le problème du choix des données à traiter pour une caractérisation ou une reconnaissance des signes. L’idéal serait, comme le propose [HCGM06], de dissocier les paramètres permettant d’identifier le signe des autres paramètres liés au style du signeur. Malheureusement, au-cune étude n’a à ce jour proposé de méthode satisfaisante pour dissocier les gestèmes3 du style du signeur.

Nous abordons dans les parties qui suivent différentes solutions pour parvenir à une représentation du signal plus facile à traiter automatiquement.

5.3.1 Compression du vecteur d’entr´ee

Une des premières solutions pour obtenir un signal plus synthétique est de le représenter dans un espace de plus petite dimension, ou de l’échantillonner avec une résolution temporelle inférieure. Ceci présente surtout un intérêt dans les cas où on dispose de trop d’informations, par exemple pour les données issues de capture de mouvement.

[HCGM06] montre que l’espace des posture peut ˆetre r´eduit par Analyse en Composante Principale

(ACP) à une dimension quatre 4. Même dans cette nouvelle base, l’énoncé restitué par un signeur virtuel reste intelligible.

[FF05] propose une variante de cette approche en utilisant des ACP pondérés. La représentation des mouvements dans des bases parcimonieuses est d’autant plus intéressante que le nombre de composantes utilisées pour la reconstruction d’un mouvement peut être un indice intéressant pour une reconnaissance ultérieure de mouvements. Soulignons toutefois un inconvénient des méthodes d’ACP. Les composantes principales optimales pour la reconstruction d’un signal sont dépendantes du signal. Il faut donc s’assurer que le corpus qui servira à déterminer la nouvelle base sera bien représentatif, du point de vue de sa variabilité, de l’ensemble des signes qui seront projetés par la suite sur les différents vecteurs qui la composent.

La compression par projection dans une autre base peut également être utilisée pour la représentation des configurations manuelles. Ainsi, [CSW95] utilise l’Analyse en Composantes Discriminantes (ACD) pour coder les configurations manuelles et reconnaˆıtre 28 signes. [HSA95] caractérise les contours de la main par des Smart-Snakes, ce qui lui permet aussi d’avoir une représentation com-pacte de la main par un faible de nombre de points de contrôle.

Parallèlement à cette compression dans le domaine spatial, il est possible d’effectuer une autre com-pression dans le domaine temporel. [Vat08] propose de modéliser les trajectoires sous forme de spline, puis d’utiliser les points de contrôle pour effectuer la reconnaissance de primitives. Bien que cette dernière approche soit appliquée à la reconnaissance de mouvements de souris d’ordinateur, la démarche nous semble transposable aux LS dans la mesure où nous savons que les points de rebrous-sements jouent un rôle important dans la reconnaissance des signes. C’est d’ailleurs en suivant une méthode similaire que [SSA92] compresse une animation d’avatar en sélectionnant des postures clés quand la vitesse est minimale ou quand il y a un changement brusque de trajectoire.

5.3.2 Transformation des coordonn´ees

Si les données disponibles pour la reconnaissance sont moins nombreuses, l’étape de compression du signal n’est pas forcément nécessaire. Par contre, le problème de la base dans laquelle doivent être représentées les données demeure.

Dans [CBA+96], l’auteur propose de focaliser le traitement des mouvements des mains. Il compare les performances de reconnaissance de signes en représentant les trajectoires manuelles dans les espaces suivants représentés figure 5.4 :

– Les coordonnées cartésiennes(x, y, z) des mains en position absolue ou relative par rapport à la tête.

– Les vitesses des mains(dx dt,^dy_dt,dz

dt) par rapport à un repère absolu ou à la tête du signeur. – Les coordonnées des mains(r, θ, z) par rapport à la tête du signeur.

– La vitesse des mains (dr dt,dθ

dt,dz

dt) exprimées dans un repère cylindrique centré sur la tête du signeur.

– D’autres variantes comme l’utilisation de coordonn´ees sph´eriques.

D’une manière générale, il ressort de cette étude que le taux de reconnaissance est meilleur en utili-sant les vitesses des mains et en utiliutili-sant un repère relatif lié à la tête du signeur.

Vogler va plus loin dans [VM99a] en montrant la supériorité des indices globaux (lignes, plan) sur les indices locaux comme la vitesse et la position des mains. Il faut cependant garder à l’esprit que l’étude présentée ne portait que sur la reconnaissance de 22 signes.

x y z . z . θ r

Repère cartésien Repère cylindrique

FIGURE5.4 – Implantation des rep`eres utilis´es pour la reconnaissance

5.3.3 Solution composite

Nous venons d’énumérer plusieurs solutions pour représenter le signal d’une manière plus facilement utilisable dans le cadre du Traitement Automatique des Langues des Signes. Ces solutions de projec-tion dans un autre espace de plus petite dimension, de rééchantillonage temporel et de changement d’espace de représentation ne sont pas mutuellement exclusives et sont amenées à être combinées dans de nombreuses études. On citera à titre d’exemple le travail présenté dans [BWK⁺04]. L’auteur dissocie dans un premier temps les paramètres de position absolue, de position relative des mains, de mouvement et de caractérisation des configurations. Ensuite, une projection est effectuée dans un espace de plus petite dimension par le biais d’Analyse en Composante Indépendante.

Une fois le signal convenablement représenté, les données peuvent être traitées par différentes méthodes pour reconnaˆıtre ou caractériser les signes. Dans les sections qui suivent, nous passons en revue les méthodes de Réseaux Neuronaux, de Dynamic Time Warping et de Modèles de Markov Cachés qui sont les plus utilisées dans le domaine, puis nous mettons en avant plusieurs méthodes alternatives.

Dans le document Traitement automatique de vidéos en LSF Modélisation et exploitation des contraintes phonologiques du mouvement (Page 101-104)