• Aucun résultat trouvé

Implantation des rep`eres utilis´es pour la reconnaissance

ANNEXE III : M ´ ETHODES DE RECONNAISSANCE ET DE RECALAGE TEMPOREL

III.3 Comparaison des m´ethodes DTW et HMM

5.4 Implantation des rep`eres utilis´es pour la reconnaissance

5.3.3 Solution composite

Nous venons d’´enum´erer plusieurs solutions pour repr´esenter le signal d’une mani`ere plus facilement utilisable dans le cadre du Traitement Automatique des Langues des Signes. Ces solutions de projec- tion dans un autre espace de plus petite dimension, de r´e´echantillonage temporel et de changement d’espace de repr´esentation ne sont pas mutuellement exclusives et sont amen´ees `a ˆetre combin´ees dans de nombreuses ´etudes. On citera `a titre d’exemple le travail pr´esent´e dans [BWK+04]. L’auteur dissocie dans un premier temps les param`etres de position absolue, de position relative des mains, de mouvement et de caract´erisation des configurations. Ensuite, une projection est effectu´ee dans un espace de plus petite dimension par le biais d’Analyse en Composante Ind´ependante.

Une fois le signal convenablement repr´esent´e, les donn´ees peuvent ˆetre trait´ees par diff´erentes m´ethodes pour reconnaˆıtre ou caract´eriser les signes. Dans les sections qui suivent, nous passons en revue les m´ethodes de R´eseaux Neuronaux, de Dynamic Time Warping et de Mod`eles de Markov Cach´es qui sont les plus utilis´ees dans le domaine, puis nous mettons en avant plusieurs m´ethodes alternatives.

5.4 R´eseau neuronaux pour la reconnaissance de signes

Commenc¸ons par souligner le fait que les r´eseaux neuronaux sont plutˆot adapt´es `a un traitement de donn´ees statiques qu’`a un signal dynamique. Ceci explique pourquoi leur principal domaine d’ap- plication dans le domaine du TALS est la reconnaissance des configurations manuelles. Ainsi par exemple, [Mau09] utilise un perceptron pour la reconnaissance de configurations manuelles.

Toutefois, plusieurs ´etudes mentionnent ´egalement l’utilisation de r´eseaux neuronaux pour la recon- naissance de signes. [MHTAM07] traite dans un premier temps des images statiques `a partir d’une transform´ee de Hough puis ins`ere les r´esultats dans un r´eseau de neurones afin de reconnaˆıtre le signe qui aurait pu g´en´erer l’image. [WK95] utilise aussi des r´eseaux de neurones qui rec¸oit en entr´ee, une caract´erisation du d´ebut et de la fin des signes `a reconnaˆıtre. Il obtient 96% de reconnaissance sur un ensemble de 14 signes. Les r´eseaux de neurones sont aussi utilis´es entre autre par [Su00] et [KJB96]. Pour pouvoir traiter les signes dans le domaine temporel, certaines adaptations des r´eseaux de neu- rones sont n´ecessaires. Ainsi, [MT91] utilise des r´eseaux de neurones r´ecurrents tandis que [YAT02] met en oeuvre des r´eseaux de neurones `a d´elai temporel.

Dans l’ensemble, les conclusions issues des r´esultats des traitements de signes par r´eseaux neuronaux sont assez proches de celles obtenues dans le cadre du Traitement Automatique de la Parole. Les cor- pus utilis´es pour la validation sont en g´en´eral de l’ordre de quelques dizaines de signes seulement pour des performances de plus de 90% d’identification correcte. Les performances chutent d`es que le nombre de signes devient plus important. Le temps n´ecessaire pour la reconnaissance d’un signe est tr`es cons´equent. A titre indicatif, [HH98] rapporte un temps n´ecessaire de traitement de 10s pour arriver `a reconnaˆıtre un signe parmi 15.

Il semble donc que l’utilisation de r´eseaux neuronaux pour la reconnaissance de signe soit relative- ment peu efficace et les performances obtenues laissent peu vraisemblable le passage possible `a une ´echelle de plusieurs milliers de signes.

5.5 DTW pour la reconnaissance de signes

Les m´ethodes bas´ees sur le Dynamic Time Warping permettent d’effectuer un alignement temporel et une comparaison de deux signes. L’avantage de ces m´ethodes est qu’elles ne requi`erent qu’un

exemplaire du signe `a reconnaˆıtre. Ce signe peut alors directement ˆetre utilis´e comme mod`ele de r´ef´erence.

[DP93] utilise les DTW pour discriminer 4 signes monomanuels. Il utilise la corr´elation de l’image de la main du signeur avec un certain nombre d’images de r´ef´erence pour arriver `a identifier les configurations manuelles. Les m´ethodes bas´ees sur le DTW ont aussi ´et´e utilis´ees avec succ`es par [HCGM06] et [FF05] pour l’alignement de signes. Plus r´ecemment, [Alo06] a utilis´e une m´ethode de DTW pour localiser les exemplaires d’un signe dans une vid´eo en LS.

Les m´ethodes de DTW ont comme inconv´enient la relative lourdeur du mod`ele constitu´e pour chaque signe. Le mod`ele est en effet constitu´e par une caract´erisation de la posture du signeur `a chaque ins- tant pendant la production du signe. Une des cons´equences est un temps de calcul important pour effectuer un alignement et une comparaison de signes. Pour r´esoudre ce probl`eme, [Alo06] propose d’abandonner l’alignement de s´equences temporelles si leur similarit´e est inf´erieure `a un certain seuil (´elagage). [SSA92] sugg`ere un r´e´echantillonage temporel irr´egulier du signe de r´ef´erence pr´eservant la dynamique du mouvement, ce qui permet de diminuer le volume du mod`ele, tout en restant com- patible avec un traitement efficace de l’alignement temporel bas´e sur la programmation dynamique.

5.6 Les Mod`eles de Markov pour la reconnaissance de signes

L’exemple du travail de [SSA92] que nous venons de citer montre la pr´eoccupation de r´eduire la taille du mod`ele `a un minimum d’´etats. Les Mod`eles de Markov Cach´es (MMC) s’inscrivent dans cette perspective. Comme dans le cas de la parole, les MMC ont ´et´e abondamment employ´es dans le domaine de la reconnaissance de signes. Leur utilisation est bas´ee sur l’hypoth`ese forte que le signe est une succession de gest`emes.

Les travaux visant `a une reconnaissance des signes bas´es sur les MCC utilisent aussi bien des donn´ees issues de traitement de vid´eos monovues [SHJ94] que des donn´ees de capture de mouve- ment [YAT02]. Les performances rapport´ees par les auteurs varient en fonction du dispositif d’acqui- sition et de la taille du vocabulaire. Un autre facteur important mentionn´e par plusieurs ´etudes est la d´egradation des performances de reconnaissances lorsque le signeur ex´ecutant le signe `a reconnaˆıtre est diff´erent de celui qui a produit le corpus d’apprentissage. A titre indicatif, [ZK05] rapporte un taux de performance de 99,3% pour reconnaˆıtre 232 signes, qui chute `a 44,1% dans la version multi- signeur de l’algorithme. [AG98] fait ´etat d’un taux de reconnaissance de 94% pour un corpus de 262 signes qui chute `a 73% lorsqu’un signeur diff´erent est utilis´e dans les ´etapes d’apprentissage et de reconnaissance.

Plutˆot que d’´enum´erer les nombreux travaux qui utilisent les Mod`eles de Markov Cach´es, nous pr´ef´erons souligner les adaptations n´ecessaires de ces m´ethodes au traitement des LS, en nous fo- calisant sur les probl`emes de mod´elisation des phon`emes, de parall´elisation des traitements, de la mod´elisation des transitions et de la prise en compte de la variation des signes.

5.6.1 La mod´elisation des gest`emes

Nous rappelions dans le paragraphe pr´ec´edent que la mod´elisation de signes sous forme de mod`eles de Markov ´etait fond´ee sur l’hypoth`ese que le signe ´etait une s´equence d’´etats. Pour les langues vo- cales, ces ´etats correspondent approximativement `a des phon`emes ou des parties de phon`emes que l’ont peut d´enombrer (de l’ordre de 37 en franc¸ais). Qu’en est-il pour les LS ?

Comme le souligne Vogler dans [VM99b] , un ´etat correspond au moins `a un emplacement, une orientation et une configuration manuelle pour chaque main. Selon l’auteur, il y aurait en tout plus de1010 combinaisons possibles des diff´erents param`etres.

Certaines ´etudes comme [WSG02] se sont engag´ees dans cette voie de mod´elisation de tous les phon`emes. Les mod`eles propos´es contiennent en tout 2400 phon`emes. Les auteurs rapportent toute- fois des r´esultats satisfaisants, uniquement lorsque les phrases `a reconnaˆıtre appartiennent au corpus d’apprentissage.

Pourtant, nous savons par ailleurs qu’il existe un faible nombre de primitives de mouvement qui re- groupent la majorit´e des signes [Bra96]. Les configurations impliqu´ees dans la production des signes de la LSF peuvent ˆetre ´evalu´ees `a un peu plus d’une cinquantaine [Bou09].

Il serait donc possible de diminuer le nombre de phon`emes `a condition de traiter s´epar´ement les diff´erentes composantes du signe (configuration, orientation, mouvement, labialisation, expression du visage . . .).

5.6.2 Les Mod`eles de Markov Cach´es et leurs variantes

Le traitement s´epar´e des diff´erentes composantes implique une modification de la topologie des Mod`eles de Markov Cach´es. Ceci est le cas dans les mod`eles suivants illustr´es dans la figure 5.5 :

– Les MMC coupl´es, o`u chaque ´etat de l’instant t est li´e `a un ´etat `a l’instant t+ 1. Ces mod`eles prennent en compte la synchronisation des diff´erentes composantes du signe.

– Les MMC li´es, o`u plusieurs ´etats de l’instant t sont li´es entre eux. Ces mod`eles prennent en compte l’interd´ependance des param`etres `a chaque instant de la production du signe.

– Les MMC parall`eles, o`u les ´etats sont synchronis´es seulement en d´ebut et en fin de signe. Ces mod`eles prennent en compte uniquement le parall´elisme des diff´erents param`etres.

Une ´etude men´ee sur la reconnaissance de gestes de Taichi [BOP97] montre que les MMC coupl´es donnent des r´esultats meilleurs que les MMC li´es en terme de reconnaissance. Vogler, dans [VM99a] [VSM00] utilise les MMC parall`eles en utilisant deux chaˆınes correspondant aux deux mains. Les deux chaˆınes sont synchronis´ees en d´ebut et en fin de signe. L’auteur rapporte des r´esultats de 94,23% de succ`es sur 22 signes.

Modèle de Markov Caché standard (cf. annexes)

Modèle de Markov Caché Couplé

Modèle de Markov Caché Lié

Modèle de Markov Caché Parallèle

couplage couplage