• Aucun résultat trouvé

ANNEXE III : M ´ ETHODES DE RECONNAISSANCE ET DE RECALAGE TEMPOREL

III.3 Comparaison des m´ethodes DTW et HMM

5.3 Diff´erentes topologies de r´eseaux neuronaux

Un des inconv´enients de l’utilisation des perceptrons pour la reconnaissance des mots parl´es est le fait qu’ils traitent mal la dimension temporelle du signal. Plusieurs solutions ont ´et´e propos´ees `a ce probl`eme.

• Chaque neurone peut recevoir une caract´eristique `a un instant pr´ecis du signal `a reconnaˆıtre. On est

ainsi dans le cas d’un r´eseau multicouches `a retard (TDNN). Ce type de r´eseau donne des r´esultats de reconnaissance satisfaisants pour la d´etection de mots de faible longueur et de syllabes [WHH+90].

• Il est possible d’utiliser une ´etape de d´eformation temporelle dynamique ou d’alignement temporel

`a l’aide de MMC pour normaliser temporellement les signaux `a reconnaˆıtre avant de les introduire dans les r´eseaux neuronaux de types TDNN.

• La modification de la topologie des r´eseaux neuronaux est aussi une solution pour prendre en compte

utilis´ees comme entr´ees du r´eseau `a l’instant t+1. [Jor90] Ces types de r´eseaux nomm´es “r´eseaux de neurones r´ecurrents” (RNN) peuvent ˆetre utilis´es pour le traitement de syllabes et de mots de courte dur´ee. Le traitement d’unit´es plus longues posent des probl`emes d’apprentissage des param`etres du r´eseau de neurone et s’av`ere long `a mettre en oeuvre. Mˆeme si des ´etudes comme [OR08] portent aujourd’hui encore sur la reconnaissance de la parole exclusivement `a l’aide de r´eseaux neuronaux, il semble que cette m´ethode soit mal adapt´ee `a la reconnaissance d’un grand nombre d’unit´es lexicales. Malgr´e tout, les r´eseaux neuronaux peuvent ˆetre utiles en compl´ement d’autres m´ethodes comme celles bas´ees sur les MMC et les DTW pour effectuer des tˆaches telles que la classification de phon`emes [FSC93] ou la suppression de bruits de fond [TW88].

5.2 Difficult´e d’application des m´ethodes traditionnelles de TAL au TALS

Les m´ethodes de traitement issues du traitement automatique de la parole sont difficilement transpo- sables `a la LSF. Nous parlons dans la section suivante des probl`emes directement li´es aux sp´ecificit´es des LS, dont certaines sont r´esum´ees dans [Bos02] et [DSD+08]. Nous d´egagerons les difficult´es li´ees `a l’h´et´erog´en´eit´e des donn´ees `a traiter, `a la variabilit´e des signes, `a l’iconicit´e et la grammaire spatiale.

5.2.1 Des donn´ees d’entr´ees h´et´erog`enes

La premi`ere difficult´e `a surmonter pour parvenir `a un Traitement Automatique de Langue des Signes prenant en compte les diff´erents param`etres impliqu´es dans la production de signe, est de traiter des donn´ee d’entr´ees tr`es h´et´erog`enes :

– La posture du signeur peut ˆetre repr´esent´ee comme un vecteur d’angles correspondant aux orientations relatives des diff´erents membres.

– Les configurations manuelles peuvent elles aussi ˆetre repr´esent´ees comme des vecteurs d’angles. Une vingtaine d’angles est en g´en´eral n´ecessaire pour les d´ecrire pr´ecis´ement.

– Les expressions du visages sont couramment repr´esent´ees comme des d´eformations de texture par les traiteurs d’images2. Les mod`eles peuvent alors faire appel au d´eplacement de points de contrˆole situ´es `a la surface du visage. Le nombre de points de contrˆole est de l’ordre de 35 dans [Mer07] et 70 dans [SK08].

– La direction du regard peut ˆetre mesur´ee `a l’aide de deux angles.

2Toutefois, d’autres mod´elisations utilis´ees dans le domaine de l’animation 3D de signeurs virtuels peuvent faire appel `a des squelettes sur lequel s’appuie la peau du visage. L’expression du visage peut donc ˆetre aussi repr´esent´ee par un vecteur d’angles.

On le voit donc `a partir de l’´enum´eration qui pr´ec`ede, l’espace caract´erisant l’´etat d’un signeur `a un instant donn´e est de grande dimension. Par ailleurs, les donn´ees caract´erisant cet ´etat sont de nature tr`es diff´erente. Bien que la majorit´e puisse ˆetre d´ecrite par un vecteur d’angle, chaque mesure n’a pas la mˆeme signification, ni la mˆeme importance relative dans la caract´erisation du mouvement.

La pr´ecision de la caract´erisation de l’´etat courant du signeur varie en fonction de l’appareillage de capture utilis´e (cf.§4). Si les syst`emes de capture de mouvements optiques ou m´ecaniques permettent de mesurer avec pr´ecision les diff´erents angles relatifs aux postures et aux configurations manuelles, le traitement de vid´eo ne permet qu’un acc`es partiel `a ces donn´ees. Ceci est dˆu autant au fait que le probl`eme de reconstruction 3D de posture est mal pos´e, qu’aux m´ethodes de traitement d’images uti- lis´ees qui ne permettent pas encore de mesurer pr´ecis´ement les param`etres relatifs aux configurations manuelles.

Une difficult´e suppl´ementaire pour l’exploitation du signal est le fait que la perception des mouve- ment fait appel `a la fois `a la compr´ehension de la posture `a un instant donn´e, `a sa variation (vitesse) et `a sa d´eriv´ee seconde (acc´el´eration).

Il se pose donc un probl`eme fondamental de repr´esentation du signal `a traiter, qu’on peut rapprocher du probl`eme de s´election des bandes de fr´equences significatives `a prendre en compte dans le cadre du Traitement Automatique de la Parole.

5.2.2 Difficult´es dues `a la variabilit´e des signes

La seconde difficult´e dont il est n´ecessaire de tenir compte est la variabilit´e des signes. Cette va- riabilit´e, mentionn´ee dans [Vibilis00] est extrˆemement importante. Par contre, il n’est pas possible de consid´erer syst´ematiquement, comme dans le traitement automatique des langues orales, que la variabilit´e des signes est une d´eviation par rapport `a une forme de r´ef´erence du signe. Il s’agit bien au contraire d’une variation signifiante qu’il est n´ecessaire de mod´eliser et de quantifier, car elle est interpr´etable comme une flexion du signe (cf.§2.3.1).

Les variations de signes peuvent toucher diff´erents param`etres. L’´enum´eration qui suit n’est pas forc´ement exhaustive, mais donne une id´ee des diff´erentes variations qu’il faudra ˆetre en mesure de prendre en compte dans une mod´elisation de signe :

– Certains signes peuvent ˆetre effectu´es `a une ou `a deux mains.

– Il est possible d’effectuer simultan´ement plusieurs signes (parall´elisme).

– La g´eom´etrie des signes peut changer en fonction de leur utilisation. Ainsi, le placement du signe, son orientation et son amplitude sont fr´equemment amen´es `a ˆetre modifi´es suivant la structure de l’´enonc´e, ou les nuances apport´ees au signe.

– La structure temporelle peut ˆetre amen´ee `a changer entre deux utilisations d’un mˆeme signe. Ainsi, il est courant que des signes soient pr´esent´es par des signeurs comme poss´edant des

r´ep´etitions, mais que les r´ep´etitions disparaissent lorsque ces signes sont utilis´es en contexte. D’autre part, le nombre de r´ep´etitions n’est pas forc´ement constant d’une utilisation `a l’autre. Ce probl`eme des r´ep´etitions est soulign´e en particulier par [SWP98].

– Les configurations manuelles utilis´ees pour la r´ealisation du signes peuvent ˆetre amen´ees `a varier dans certains signes. Si on prend l’exemple du verbe [DONNER], la configuration de la main d´ependra de l’objet que l’on donne.

La variabilit´e affecte donc l’ensemble des param`etres du signe ainsi que sa structure temporelle. Les mod`eles d’analyse devront prendre en compte cet aspect.

5.2.3 Difficult´es dues `a l’iconicit´e

La troisi`eme difficult´e est la nature iconique des LS. La pr´esence d’un lexique non-standard rend d’embl´ee impossible un inventaire et une mod´elisation exhaustive de l’ensemble des unit´es ges- tuelles qui composeront les phrases `a traiter. Pour autant, un mod`ele de traitement automatique des LS abouti devra ˆetre en mesure de mod´eliser ces unit´es et de traiter les ´enonc´es qui les contiennent. Un probl`eme li´e `a l’iconicit´e et `a la multilin´earit´e des LS est la pr´esence d’unit´es non-manuelles por- teuses de sens comme l’expression du visage, le balancement des ´epaules du signeur, l’orientation du buste et le regard. Ces unit´es interviennent peu au niveau lexical, mais ont une grande importance dans la structure de l’´enonc´e.

5.2.4 Difficult´es dues `a la grammaire spatiale

Les m´ethodes de reconnaissance de TAP les plus populaires sont essentiellement temporelles, autant au niveau lexical qu’au niveau de l’´enonc´e. Les grammaires utilis´ees dans le cadre du traitement automatique des langues vocales sont principalement bas´ees sur des grammaires et des mod`eles de langages statistiques qui ne prennent pas en compte la dimension spatiale.

Cela pose doublement probl`eme pour une application directe des m´ethode du TAP aux LS. D’une part, le fait que l’ordre des signes soit beaucoup moins contraint que dans les langues vocales rend plus difficile l’utilisation de mod`eles statistiques bas´es sur des enchaˆınements bigrammes ou tri- grammes de signes. D’autre part, l’ignorance des param`etres spatiaux conduit `a une reconstruction ambigu¨e du sens des ´enonc´es.

5.3 Probl`eme de repr´esentation du signal

Nous venons de le voir, les probl`emes d’adaptation des m´ethodes du traitement automatique de la parole sont multiples. Le premier d’entre eux est la quantit´e importante et l’h´et´erog´en´eit´e des donn´ees `a traiter (cf.§5.2.1).

Il convient d`es `a pr´esent de distinguer plusieurs cas de figure, suivant la m´ethode de capture de l’´enonc´e :

– Si le corpus est captur´e via des dispositifs de capture de mouvements, il est possible d’avoir `a chaque instant une quantit´e importante et pr´ecise de donn´ees sur la posture courante du signeur. A titre indicatif, un suivi par marqueur passif comme celui d´ecrit dans la section §4.1.4.2 permet de mesurer `a chaque instant la position 3D d’une centaine de marqueurs `a la surface du signeur.

– Si le corpus est uniquement film´e par une seule cam´era. On disposera aussi de nombreuses informations, parfois moins pr´ecises, comme la position 2D des diff´erents membres du signeur, les d´eformations du visage, la forme de la main du signeur.

– L’acquisition par un syst`eme multi-vue constitue un cas interm´ediaire qui permet de recons- truire partiellement l’information 3D.

Dans tous les cas, se pose le probl`eme du choix des donn´ees `a traiter pour une caract´erisation ou une reconnaissance des signes. L’id´eal serait, comme le propose [HCGM06], de dissocier les param`etres permettant d’identifier le signe des autres param`etres li´es au style du signeur. Malheureusement, au- cune ´etude n’a `a ce jour propos´e de m´ethode satisfaisante pour dissocier les gest`emes3 du style du

signeur.

Nous abordons dans les parties qui suivent diff´erentes solutions pour parvenir `a une repr´esentation du signal plus facile `a traiter automatiquement.

5.3.1 Compression du vecteur d’entr´ee

Une des premi`eres solutions pour obtenir un signal plus synth´etique est de le repr´esenter dans un espace de plus petite dimension, ou de l’´echantillonner avec une r´esolution temporelle inf´erieure. Ceci pr´esente surtout un int´erˆet dans les cas o`u on dispose de trop d’informations, par exemple pour les donn´ees issues de capture de mouvement.

[HCGM06] montre que l’espace des posture peut ˆetre r´eduit par Analyse en Composante Principale

(ACP) `a une dimension quatre4. Mˆeme dans cette nouvelle base, l’´enonc´e restitu´e par un signeur

virtuel reste intelligible.

[FF05] propose une variante de cette approche en utilisant des ACP pond´er´es. La repr´esentation des mouvements dans des bases parcimonieuses est d’autant plus int´eressante que le nombre de composantes utilis´ees pour la reconstruction d’un mouvement peut ˆetre un indice int´eressant pour une reconnaissance ult´erieure de mouvements. Soulignons toutefois un inconv´enient des m´ethodes d’ACP. Les composantes principales optimales pour la reconstruction d’un signal sont d´ependantes du signal. Il faut donc s’assurer que le corpus qui servira `a d´eterminer la nouvelle base sera bien repr´esentatif, du point de vue de sa variabilit´e, de l’ensemble des signes qui seront projet´es par la suite sur les diff´erents vecteurs qui la composent.

La compression par projection dans une autre base peut ´egalement ˆetre utilis´ee pour la repr´esentation des configurations manuelles. Ainsi, [CSW95] utilise l’Analyse en Composantes Discriminantes (ACD) pour coder les configurations manuelles et reconnaˆıtre 28 signes. [HSA95] caract´erise les contours de la main par des Smart-Snakes, ce qui lui permet aussi d’avoir une repr´esentation com- pacte de la main par un faible de nombre de points de contrˆole.

Parall`element `a cette compression dans le domaine spatial, il est possible d’effectuer une autre com- pression dans le domaine temporel. [Vat08] propose de mod´eliser les trajectoires sous forme de spline, puis d’utiliser les points de contrˆole pour effectuer la reconnaissance de primitives. Bien que cette derni`ere approche soit appliqu´ee `a la reconnaissance de mouvements de souris d’ordinateur, la d´emarche nous semble transposable aux LS dans la mesure o`u nous savons que les points de rebrous- sements jouent un rˆole important dans la reconnaissance des signes. C’est d’ailleurs en suivant une m´ethode similaire que [SSA92] compresse une animation d’avatar en s´electionnant des postures cl´es quand la vitesse est minimale ou quand il y a un changement brusque de trajectoire.

5.3.2 Transformation des coordonn´ees

Si les donn´ees disponibles pour la reconnaissance sont moins nombreuses, l’´etape de compression du signal n’est pas forc´ement n´ecessaire. Par contre, le probl`eme de la base dans laquelle doivent ˆetre repr´esent´ees les donn´ees demeure.

Dans [CBA+96], l’auteur propose de focaliser le traitement des mouvements des mains. Il compare les performances de reconnaissance de signes en repr´esentant les trajectoires manuelles dans les espaces suivants repr´esent´es figure 5.4 :

– Les coordonn´ees cart´esiennes(x, y, z) des mains en position absolue ou relative par rapport `a la tˆete.

– Les vitesses des mains(dxdt,dydt,dz

dt) par rapport `a un rep`ere absolu ou `a la tˆete du signeur.

– Les coordonn´ees des mains(r, θ, z) par rapport `a la tˆete du signeur.

– La vitesse des mains (drdt,dθdt,dzdt) exprim´ees dans un rep`ere cylindrique centr´e sur la tˆete du

signeur.

– D’autres variantes comme l’utilisation de coordonn´ees sph´eriques.

D’une mani`ere g´en´erale, il ressort de cette ´etude que le taux de reconnaissance est meilleur en utili- sant les vitesses des mains et en utilisant un rep`ere relatif li´e `a la tˆete du signeur.

Vogler va plus loin dans [VM99a] en montrant la sup´eriorit´e des indices globaux (lignes, plan) sur les indices locaux comme la vitesse et la position des mains. Il faut cependant garder `a l’esprit que l’´etude pr´esent´ee ne portait que sur la reconnaissance de 22 signes.

x y z . z .  r

Repère cartésien Repère cylindrique