Implantation des rep`eres utilis´es pour la reconnaissance

ANNEXE III : M ´ ETHODES DE RECONNAISSANCE ET DE RECALAGE TEMPOREL

III.3 Comparaison des m´ethodes DTW et HMM

5.4 Implantation des rep`eres utilis´es pour la reconnaissance

5.3.3 Solution composite

Nous venons d’énumérer plusieurs solutions pour représenter le signal d’une manière plus facilement utilisable dans le cadre du Traitement Automatique des Langues des Signes. Ces solutions de projection dans un autre espace de plus petite dimension, de rééchantillonage temporel et de changement d’espace de représentation ne sont pas mutuellement exclusives et sont amenées à être combinées dans de nombreuses études. On citera à titre d’exemple le travail présenté dans [BWK+04]. L’auteur dissocie dans un premier temps les paramètres de position absolue, de position relative des mains, de mouvement et de caractérisation des configurations. Ensuite, une projection est effectuée dans un espace de plus petite dimension par le biais d’Analyse en Composante Indépendante.

Une fois le signal convenablement représenté, les données peuvent être traitées par différentes méthodes pour reconnaˆıtre ou caractériser les signes. Dans les sections qui suivent, nous passons en revue les méthodes de Réseaux Neuronaux, de Dynamic Time Warping et de Modèles de Markov Cachés qui sont les plus utilisées dans le domaine, puis nous mettons en avant plusieurs méthodes alternatives.

5.4 R´eseau neuronaux pour la reconnaissance de signes

Commençons par souligner le fait que les réseaux neuronaux sont plutôt adaptés à un traitement de données statiques qu’à un signal dynamique. Ceci explique pourquoi leur principal domaine d’ap- plication dans le domaine du TALS est la reconnaissance des configurations manuelles. Ainsi par exemple, [Mau09] utilise un perceptron pour la reconnaissance de configurations manuelles.

Toutefois, plusieurs études mentionnent également l’utilisation de réseaux neuronaux pour la reconnaissance de signes. [MHTAM07] traite dans un premier temps des images statiques à partir d’une transformée de Hough puis insère les résultats dans un réseau de neurones afin de reconnaˆıtre le signe qui aurait pu générer l’image. [WK95] utilise aussi des réseaux de neurones qui reçoit en entrée, une caractérisation du début et de la fin des signes à reconnaˆıtre. Il obtient 96% de reconnaissance sur un ensemble de 14 signes. Les réseaux de neurones sont aussi utilisés entre autre par [Su00] et [KJB96]. Pour pouvoir traiter les signes dans le domaine temporel, certaines adaptations des réseaux de neurones sont nécessaires. Ainsi, [MT91] utilise des réseaux de neurones récurrents tandis que [YAT02] met en oeuvre des réseaux de neurones à délai temporel.

Dans l’ensemble, les conclusions issues des résultats des traitements de signes par réseaux neuronaux sont assez proches de celles obtenues dans le cadre du Traitement Automatique de la Parole. Les corpus utilisés pour la validation sont en général de l’ordre de quelques dizaines de signes seulement pour des performances de plus de 90% d’identification correcte. Les performances chutent dès que le nombre de signes devient plus important. Le temps nécessaire pour la reconnaissance d’un signe est très conséquent. A titre indicatif, [HH98] rapporte un temps nécessaire de traitement de 10s pour arriver à reconnaˆıtre un signe parmi 15.

Il semble donc que l’utilisation de réseaux neuronaux pour la reconnaissance de signe soit relative- ment peu efficace et les performances obtenues laissent peu vraisemblable le passage possible à une échelle de plusieurs milliers de signes.

5.5 DTW pour la reconnaissance de signes

Les méthodes basées sur le Dynamic Time Warping permettent d’effectuer un alignement temporel et une comparaison de deux signes. L’avantage de ces méthodes est qu’elles ne requièrent qu’un

exemplaire du signe à reconnaˆıtre. Ce signe peut alors directement être utilisé comme modèle de référence.

[DP93] utilise les DTW pour discriminer 4 signes monomanuels. Il utilise la corrélation de l’image de la main du signeur avec un certain nombre d’images de référence pour arriver à identifier les configurations manuelles. Les méthodes basées sur le DTW ont aussi été utilisées avec succès par [HCGM06] et [FF05] pour l’alignement de signes. Plus récemment, [Alo06] a utilisé une méthode de DTW pour localiser les exemplaires d’un signe dans une vidéo en LS.

Les méthodes de DTW ont comme inconvénient la relative lourdeur du modèle constitué pour chaque signe. Le modèle est en effet constitué par une caractérisation de la posture du signeur à chaque instant pendant la production du signe. Une des conséquences est un temps de calcul important pour effectuer un alignement et une comparaison de signes. Pour résoudre ce problème, [Alo06] propose d’abandonner l’alignement de séquences temporelles si leur similarité est inférieure à un certain seuil (élagage). [SSA92] suggère un rééchantillonage temporel irrégulier du signe de référence préservant la dynamique du mouvement, ce qui permet de diminuer le volume du modèle, tout en restant com- patible avec un traitement efficace de l’alignement temporel basé sur la programmation dynamique.

5.6 Les Mod`eles de Markov pour la reconnaissance de signes

L’exemple du travail de [SSA92] que nous venons de citer montre la préoccupation de réduire la taille du modèle à un minimum d’états. Les Modèles de Markov Cachés (MMC) s’inscrivent dans cette perspective. Comme dans le cas de la parole, les MMC ont été abondamment employés dans le domaine de la reconnaissance de signes. Leur utilisation est basée sur l’hypothèse forte que le signe est une succession de gestèmes.

Les travaux visant à une reconnaissance des signes basés sur les MCC utilisent aussi bien des données issues de traitement de vidéos monovues [SHJ94] que des données de capture de mouvement [YAT02]. Les performances rapportées par les auteurs varient en fonction du dispositif d’acqui- sition et de la taille du vocabulaire. Un autre facteur important mentionné par plusieurs études est la dégradation des performances de reconnaissances lorsque le signeur exécutant le signe à reconnaˆıtre est différent de celui qui a produit le corpus d’apprentissage. A titre indicatif, [ZK05] rapporte un taux de performance de 99,3% pour reconnaˆıtre 232 signes, qui chute à 44,1% dans la version multi- signeur de l’algorithme. [AG98] fait état d’un taux de reconnaissance de 94% pour un corpus de 262 signes qui chute à 73% lorsqu’un signeur différent est utilisé dans les étapes d’apprentissage et de reconnaissance.

Plutôt que d’énumérer les nombreux travaux qui utilisent les Modèles de Markov Cachés, nous préférons souligner les adaptations nécessaires de ces méthodes au traitement des LS, en nous fo- calisant sur les problèmes de modélisation des phonèmes, de parallélisation des traitements, de la modélisation des transitions et de la prise en compte de la variation des signes.

5.6.1 La mod´elisation des gest`emes

Nous rappelions dans le paragraphe précédent que la modélisation de signes sous forme de modèles de Markov était fondée sur l’hypothèse que le signe était une séquence d’états. Pour les langues vo- cales, ces états correspondent approximativement à des phonèmes ou des parties de phonèmes que l’ont peut dénombrer (de l’ordre de 37 en français). Qu’en est-il pour les LS ?

Comme le souligne Vogler dans [VM99b] , un état correspond au moins à un emplacement, une orientation et une configuration manuelle pour chaque main. Selon l’auteur, il y aurait en tout plus de1010 combinaisons possibles des différents paramètres.

Certaines études comme [WSG02] se sont engagées dans cette voie de modélisation de tous les phonèmes. Les modèles proposés contiennent en tout 2400 phonèmes. Les auteurs rapportent toutefois des résultats satisfaisants, uniquement lorsque les phrases à reconnaˆıtre appartiennent au corpus d’apprentissage.

Pourtant, nous savons par ailleurs qu’il existe un faible nombre de primitives de mouvement qui re- groupent la majorité des signes [Bra96]. Les configurations impliquées dans la production des signes de la LSF peuvent être évaluées à un peu plus d’une cinquantaine [Bou09].

Il serait donc possible de diminuer le nombre de phonèmes à condition de traiter séparément les différentes composantes du signe (configuration, orientation, mouvement, labialisation, expression du visage . . .).

5.6.2 Les Mod`eles de Markov Cach´es et leurs variantes

Le traitement séparé des différentes composantes implique une modification de la topologie des Modèles de Markov Cachés. Ceci est le cas dans les modèles suivants illustrés dans la figure 5.5 :

– Les MMC couplés, où chaque état de l’instant t est lié à un état à l’instant t+ 1. Ces modèles prennent en compte la synchronisation des différentes composantes du signe.

– Les MMC liés, où plusieurs états de l’instant t sont liés entre eux. Ces modèles prennent en compte l’interdépendance des paramètres à chaque instant de la production du signe.

– Les MMC parallèles, où les états sont synchronisés seulement en début et en fin de signe. Ces modèles prennent en compte uniquement le parallélisme des différents paramètres.

Une étude menée sur la reconnaissance de gestes de Taichi [BOP97] montre que les MMC couplés donnent des résultats meilleurs que les MMC liés en terme de reconnaissance. Vogler, dans [VM99a] [VSM00] utilise les MMC parallèles en utilisant deux chaˆınes correspondant aux deux mains. Les deux chaˆınes sont synchronisées en début et en fin de signe. L’auteur rapporte des résultats de 94,23% de succès sur 22 signes.

Modèle de Markov Caché standard (cf. annexes)

Modèle de Markov Caché Couplé

Modèle de Markov Caché Lié

Modèle de Markov Caché Parallèle

couplage couplage

Dans le document Traitement automatique de vidéos en LSF. Modélisation et exploitation des contraintes phonologiques du mouvement (Page 102-106)