• Aucun résultat trouvé

CHAPITRE 3 : LA NOTATION DU SIGNE

5.3 Probl`eme de repr´esentation du signal

Nous venons de le voir, les probl`emes d’adaptation des m´ethodes du traitement automatique de la parole sont multiples. Le premier d’entre eux est la quantit´e importante et l’h´et´erog´en´eit´e des donn´ees `a traiter (cf.§5.2.1).

Il convient d`es `a pr´esent de distinguer plusieurs cas de figure, suivant la m´ethode de capture de l’´enonc´e :

– Si le corpus est captur´e via des dispositifs de capture de mouvements, il est possible d’avoir `a chaque instant une quantit´e importante et pr´ecise de donn´ees sur la posture courante du signeur. A titre indicatif, un suivi par marqueur passif comme celui d´ecrit dans la section §4.1.4.2 permet de mesurer `a chaque instant la position 3D d’une centaine de marqueurs `a la surface du signeur.

– Si le corpus est uniquement film´e par une seule cam´era. On disposera aussi de nombreuses informations, parfois moins pr´ecises, comme la position 2D des diff´erents membres du signeur, les d´eformations du visage, la forme de la main du signeur.

– L’acquisition par un syst`eme multi-vue constitue un cas interm´ediaire qui permet de recons-truire partiellement l’information 3D.

Dans tous les cas, se pose le probl`eme du choix des donn´ees `a traiter pour une caract´erisation ou une reconnaissance des signes. L’id´eal serait, comme le propose [HCGM06], de dissocier les param`etres permettant d’identifier le signe des autres param`etres li´es au style du signeur. Malheureusement, au-cune ´etude n’a `a ce jour propos´e de m´ethode satisfaisante pour dissocier les gest`emes3 du style du signeur.

Nous abordons dans les parties qui suivent diff´erentes solutions pour parvenir `a une repr´esentation du signal plus facile `a traiter automatiquement.

5.3.1 Compression du vecteur d’entr´ee

Une des premi`eres solutions pour obtenir un signal plus synth´etique est de le repr´esenter dans un espace de plus petite dimension, ou de l’´echantillonner avec une r´esolution temporelle inf´erieure. Ceci pr´esente surtout un int´erˆet dans les cas o`u on dispose de trop d’informations, par exemple pour les donn´ees issues de capture de mouvement.

[HCGM06] montre que l’espace des posture peut ˆetre r´eduit par Analyse en Composante Principale

(ACP) `a une dimension quatre 4. Mˆeme dans cette nouvelle base, l’´enonc´e restitu´e par un signeur virtuel reste intelligible.

[FF05] propose une variante de cette approche en utilisant des ACP pond´er´es. La repr´esentation des mouvements dans des bases parcimonieuses est d’autant plus int´eressante que le nombre de composantes utilis´ees pour la reconstruction d’un mouvement peut ˆetre un indice int´eressant pour une reconnaissance ult´erieure de mouvements. Soulignons toutefois un inconv´enient des m´ethodes d’ACP. Les composantes principales optimales pour la reconstruction d’un signal sont d´ependantes du signal. Il faut donc s’assurer que le corpus qui servira `a d´eterminer la nouvelle base sera bien repr´esentatif, du point de vue de sa variabilit´e, de l’ensemble des signes qui seront projet´es par la suite sur les diff´erents vecteurs qui la composent.

La compression par projection dans une autre base peut ´egalement ˆetre utilis´ee pour la repr´esentation des configurations manuelles. Ainsi, [CSW95] utilise l’Analyse en Composantes Discriminantes (ACD) pour coder les configurations manuelles et reconnaˆıtre 28 signes. [HSA95] caract´erise les contours de la main par des Smart-Snakes, ce qui lui permet aussi d’avoir une repr´esentation com-pacte de la main par un faible de nombre de points de contrˆole.

Parall`element `a cette compression dans le domaine spatial, il est possible d’effectuer une autre com-pression dans le domaine temporel. [Vat08] propose de mod´eliser les trajectoires sous forme de spline, puis d’utiliser les points de contrˆole pour effectuer la reconnaissance de primitives. Bien que cette derni`ere approche soit appliqu´ee `a la reconnaissance de mouvements de souris d’ordinateur, la d´emarche nous semble transposable aux LS dans la mesure o`u nous savons que les points de rebrous-sements jouent un rˆole important dans la reconnaissance des signes. C’est d’ailleurs en suivant une m´ethode similaire que [SSA92] compresse une animation d’avatar en s´electionnant des postures cl´es quand la vitesse est minimale ou quand il y a un changement brusque de trajectoire.

5.3.2 Transformation des coordonn´ees

Si les donn´ees disponibles pour la reconnaissance sont moins nombreuses, l’´etape de compression du signal n’est pas forc´ement n´ecessaire. Par contre, le probl`eme de la base dans laquelle doivent ˆetre repr´esent´ees les donn´ees demeure.

Dans [CBA+96], l’auteur propose de focaliser le traitement des mouvements des mains. Il compare les performances de reconnaissance de signes en repr´esentant les trajectoires manuelles dans les espaces suivants repr´esent´es figure 5.4 :

– Les coordonn´ees cart´esiennes(x, y, z) des mains en position absolue ou relative par rapport `a la tˆete.

– Les vitesses des mains(dx dt,dydt,dz

dt) par rapport `a un rep`ere absolu ou `a la tˆete du signeur. – Les coordonn´ees des mains(r, θ, z) par rapport `a la tˆete du signeur.

– La vitesse des mains (dr dt,

dt,dz

dt) exprim´ees dans un rep`ere cylindrique centr´e sur la tˆete du signeur.

– D’autres variantes comme l’utilisation de coordonn´ees sph´eriques.

D’une mani`ere g´en´erale, il ressort de cette ´etude que le taux de reconnaissance est meilleur en utili-sant les vitesses des mains et en utiliutili-sant un rep`ere relatif li´e `a la tˆete du signeur.

Vogler va plus loin dans [VM99a] en montrant la sup´eriorit´e des indices globaux (lignes, plan) sur les indices locaux comme la vitesse et la position des mains. Il faut cependant garder `a l’esprit que l’´etude pr´esent´ee ne portait que sur la reconnaissance de 22 signes.

x y z . z . θ r

Repère cartésien Repère cylindrique

FIGURE5.4 – Implantation des rep`eres utilis´es pour la reconnaissance

5.3.3 Solution composite

Nous venons d’´enum´erer plusieurs solutions pour repr´esenter le signal d’une mani`ere plus facilement utilisable dans le cadre du Traitement Automatique des Langues des Signes. Ces solutions de projec-tion dans un autre espace de plus petite dimension, de r´e´echantillonage temporel et de changement d’espace de repr´esentation ne sont pas mutuellement exclusives et sont amen´ees `a ˆetre combin´ees dans de nombreuses ´etudes. On citera `a titre d’exemple le travail pr´esent´e dans [BWK+04]. L’auteur dissocie dans un premier temps les param`etres de position absolue, de position relative des mains, de mouvement et de caract´erisation des configurations. Ensuite, une projection est effectu´ee dans un espace de plus petite dimension par le biais d’Analyse en Composante Ind´ependante.

Une fois le signal convenablement repr´esent´e, les donn´ees peuvent ˆetre trait´ees par diff´erentes m´ethodes pour reconnaˆıtre ou caract´eriser les signes. Dans les sections qui suivent, nous passons en revue les m´ethodes de R´eseaux Neuronaux, de Dynamic Time Warping et de Mod`eles de Markov Cach´es qui sont les plus utilis´ees dans le domaine, puis nous mettons en avant plusieurs m´ethodes alternatives.