• Aucun résultat trouvé

De la reconnaissance de signes isol´es `a la reconnaissance en continu

CHAPITRE 3 : LA NOTATION DU SIGNE

5.8 De la reconnaissance de signes isol´es `a la reconnaissance en continu

Nous avons abord´e jusqu’ici le probl`eme de reconnaissance ou de caract´erisation du signe isol´e. Cette section est consacr´ee au probl`eme de reconnaissance du signe dans un ´enonc´e. Dans ce domaine, on note ´egalement la pr´edominance des m´ethodes bas´ees sur les Mod`eles de Markov Cach´es. Comme pour les langues vocales, les statistiques sur les enchaˆınements de signes sont utilis´ees pour cr´eer un mod`ele de langue et trouver l’enchaˆınement de signe le plus probable correspondant `a l’´enonc´e. Cette approche pose cependant plusieurs probl`emes :

– Pour obtenir un mod`ele de langue r´ealiste, un volume important de corpus annot´e est n´ecessaire. Nous ne disposons pas d’un tel corpus pour les raisons mentionn´ees au§5.6.4.3.

– Un mod`ele de langue statistique est en g´en´eral uniquement temporel. Dans les LS, l’ordre des signes est en g´en´eral beaucoup moins strict que pour les langues vocales. De plus, la syn-taxe des LS fait appel `a la spatialisation qui est ignor´ee par les mod`eles de langue statistiques traditionnels.

– L’ensemble de signes utilisable n’est pas d´enombrable car des unit´es gestuelles de grande ico-nicit´e peuvent ˆetre cr´e´ees `a partir de proformes de base5. Un mod`ele de langue prenant en compte les probabilit´e d’enchaˆınement entre tous les signes n’est donc pas envisageable.

– Du fait du parall´elisme, la structure des ´enonc´es des LS n’est pas uniquement s´equentielle.

Malgr´e tout, les mod`eles de langue statistiques ont ´et´e utilis´es dans le cadre du traitement automatique des LS dans des ´etudes comme [SP95]. [VM97] utilise ´egalement cette approche pour reconnaˆıtre une quarantaine de signes en contexte. Cependant, ces deux derni`eres ´etudes ne portaient que sur la reconnaissance de signes standards.

La reconnaissance de signes composant un ´enonc´e ne peut pas ˆetre limit´ee `a une simple glose. Des signes comme les pointages doivent ˆetre davantage caract´eris´es pour pouvoir rendre l’´enonc´e qui les contient interpr´etable [ST00]. Les travaux de TALS int´egrant cette spatialisation sont encore peu nombreux. Nous n’en citons que quelques uns dans les lignes qui suivent car la th´ematique d’interpr´etation de signes en contexte se trouve en marge des travaux pr´esent´e dans cette th`ese. Dans [Bra96], l’auteur montre l’architecture d’un vrai syst`eme prenant en compte la dimension spa-tiale et l’´evalue sur un petit ensemble de signes. [ST99] s’attache `a l’interpr´etation de verbes direc-tionnels et `a leur flexion pour les accorder dans l’espace. Esp´erons que les mod`eles informatiques de LS comme celui d´evelopp´e dans [DL05] permettront d’int´egrer mieux la spatialisation des LS dans les futurs travaux de Traitements Automatiques des Langues des Signes.

En plus de la spatialisation, il sera ´egalement n´ecessaire de mettre l’accent sur la d´etection et le suivi des param`etres non-manuels. Comme le font remarquer les auteurs de [OR05], la prise en compte de ces indices est encore tr`es limit´ee, voire inexistante dans la plupart des ´etudes. Citons `a titre d’exception l’´etude [MGW00] qui prend en compte la labialisation en compl´ement des param`etres manuels pour am´eliorer les performances de reconnaissance. Dans ce travail, la synchronisation des param`etres manuels et non manuels est effectu´ee `a l’aide de MMC Parall`eles. L’´etude de [Par03] pr´esente aussi une m´ethode d’interpr´etation des mouvements de la tˆete en compl´ement de celui des mains pour arriver `a reconnaˆıtre les n´egations.

Enfin, d`es lors qu’il ne s’agit plus de reconnaˆıtre des signes isol´es mais un ´enonc´e, on peut faire intervenir des unit´es s´emantique ou pragmatique (dialogue) de plus haut niveau, et exporter des donn´ees contextuelles. On est alors dans le cadre de l’´etude d’un syst`eme dans lequel les traite-ments ne sont plus seulement ascendants (du signal vers l’interpr´etation), mais aussi descendant et donc pr´edictifs. Ceci permet d’introduire des contraintes suppl´ementaires dans les m´ethodes que nous avons pr´esent´ees, en permettant de lever l’ambigu¨ıt´e, voire de d´evelopper de nouvelles m´ethodes (de type v´erification de pr´ediction). Ceci ne rentre pas dans le cadre de cette th`ese.

5.9 Bilan

Les approches de traitement automatiques des LS sont multiples mais on note une claire pr´edominance des m´ethodes bas´ees sur les Mod`eles de Markov Cach´es. Le choix de ces outils peut ˆetre expliqu´e par plusieurs facteurs comme le nombre important d’algorithmes d´ej`a disponibles, le cadre math´ematique rigoureux des MMC et les performances obtenues dans le cadre du traitement automatique des langues vocales.

Des modification de la structure traditionnelle des chaˆınes de Markov sont n´ecessaires pour prendre en compte le parall´elisme, la variabilit´e et la structure temporelle des signes. Les adaptations ap-port´ees par les diff´erentes ´etudes auxquelles nous faisons r´ef´erence portent sur les aspects suivants :

– Une repr´esentation du signal favorisant une exploitation de ph´enom`enes s’´etendant sur des intervalles de temps de plus en plus long (d´etection de meilleur plan, d’amplitude d’un mou-vement).

– Un traitement s´epar´e des diff´erents param`etres constitutifs du signe dans les MMC Parall`eles .

– Une mod´elisation explicite de la variabilit´e des signes affectant l’ensemble des ´etats.

– Une modification de la topologie des chaˆınes de Markov pour faire ressortir la synchronisation des diff´erents param`etres et prendre en compte les signes `a r´ep´etition.

Les performances obtenues `a l’aide de ces m´ethodes sont assez difficile `a comparer car les conditions d’´evaluation diff`erent suivant les ´etudes. Cela est d’autant plus probl´ematique que les performances varient en fonction de nombreux facteurs :

– Les performances chutent si le signeur ne fait pas partie de la base d’apprentissage [ZK05]. – Les r´esultats de reconnaissances sont moins bons si le signe est effectu´e en contexte.

– Les signes ne sont que rarement effectu´es par des signeurs ayant une LS comme premi`ere langue [OR05] lors des apprentissages et des ´evaluations. Derechef, lorsque le vocabulaire `a reconnaˆıtre est tr`es limit´e, les ´enonc´es utilis´es pour les textes sont tellement contraints que les signes sont utilis´es avec moins de variabilit´e.

– Les conditions d’acquisition du corpus (fond fixe ou uniforme, mains nues ou color´ees . . .) influencent ´egalement les performances du suivi, et donc du syst`eme de reconnaissance.

Les meilleures performances de reconnaissance de signes dans une vid´eo sont de l’ordre de quelques centaines de signes reconnus avec plus de 90% de succ`es. Les r´esultats sont en revanche bien meilleurs pour la reconnaissance bas´ee sur des donn´ees issues de capture de mouvement. A titre indicatif, [FGZ04] reporte un taux de succ`es de 83,7% sur 5113 signes.

On voit ´egalement ´emerger en marge des approches traditionnelles, d’autres m´ethodes de recon-naissance ou de caract´erisation de signes prenant davantage en compte les sp´ecificit´es des LS. Ces approches fond´ees linguistiquement sur des mod`eles param´etriques de signe prennent plus en compte la variabilit´e des signes, tant au niveau des flexion spatiales qu’au niveau de la structure temporelle. Les ´enonc´es utilis´es pour l’´evaluation des m´ethodes sont souvent peu repr´esentatifs dans leur com-position, de la diversit´e des structures observables en LS. En particulier, il est rarement fait mention de l’utilisation de param`etres non manuels ou de la prise en compte des unit´es gestuelles iconiques non standard.

Pour permettre une meilleur prise en compte de la richesse des LS, nous prendrons pour constituer nos mod`eles, des productions de sourds dont la LS est la premi`ere langue. La plupart de ces ´enonc´es n’ont pas ´et´e constitu´es sp´ecifiquement dans un but d’analyse automatique de vid´eo. Ceci ajoute une

difficult´e pour le suivi du signeur dans la vid´eo mais garantit une application de nos algorithmes de traitement dans une plus large palette d’applications. Le probl`eme de suivi du signeur dans une vid´eo sera d’ailleurs l’objet du prochain chapitre.

Troisi`eme partie

Un mod`ele param´etrique au service du

traitement automatique des Langues des

Signes

SUIVI D’UN SIGNEUR DANS UNE VID ´EO MONO-VUE