• Aucun résultat trouvé

RECONNAISSANCE DES GESTES DE LA MAIN 69 sc`ene ainsi que sur la fa¸con dont elle est reli´ee aux autres sc`enes et ` a l’environnement physique

Description de l’information labiale et manuelle

2.2. RECONNAISSANCE DES GESTES DE LA MAIN 69 sc`ene ainsi que sur la fa¸con dont elle est reli´ee aux autres sc`enes et ` a l’environnement physique

Les repr´esentations employ´ees sont causales dans la mesure o`u elles d´ecrivent la physique sous-jacente de la sc`ene. Dans le cas de la compr´ehension des gestes, trois types de connaissances peuvent ˆetre utilis´ees : (i) connaˆıtre le m´ecanisme du syst`eme qui produit le mouvement (donc le corps) ; (ii) connaˆıtre la fa¸con selon laquelle ce comportement se transforme en des symboles significatifs (par exemple quels gestes sont privil´egi´es) ; (iii) et connaˆıtre pourquoi certains gestes prennent des sens dans une s´equence. Brand et Irfan (1995) ont appliqu´e l’analyse causale dans un syst`eme de reconnaissance des gestes en se fondant sur l’approche vision. Ils ont utilis´e des connaissances sur les aspects dynamiques du corps pour retrouver `a partir du flux vid´eo les caract´eristiques qui peuvent ˆetre utilis´ees pour identifier les gestes. Leur syst`eme extrait d’abord des informations sur les positions jointes de l’´epaule, du coude et du poignet dans le plan de l’image. Ensuite, `a partir de ces positions, un lot de caract´eristiques, incluant l’acc´el´eration et la d´ecc´el´eration du poignet, la taille du geste, l’aire entre les bras, l’angle entre les avant-bras, est extrait. En normalisant et en combinant ces caract´eristiques ainsi qu’en utilisant des connaissances causales sur la mani`ere avec laquelle les humains interagissent avec les objets dans l’environnement physique, des filtres gestuels sont con¸cus pour reconnaˆıtre des gestes tels que l’ouverture, la pouss´ee, l’arrˆet ...etc. Ce syst`eme propos´e par Brand et Irfan (1995) semble ˆetre int´eressant dans la mesure o`u il utilise des informations sur l’interaction des humains avec le monde physique ambiant pour identifier les gestes. Cependant, cette technique pr´esente certaines limitations. En effet, elle n’est utilis´ee que pour un nombre limit´e de gestes et n’utilise ni les donn´ees sur la position et l’orientation de la main ni les donn´ees des doigts.

Cette technique est d´efinie comme une g´en´eralisation d’une nouvelle cible `a classifier `a partir d’exemples d’apprentissage emmagasin´es. Les exemples d’apprentissage sont trait´es quand une nouvelle entit´e cible arrive.

Les techniques s’appuyant sur l’apprentissage par l’exemple (IBL)24 consistent `a classifier une cible `a partir d’un ensemble d’exemples appris. Ces exemples sont trait´es chaque fois une nouvelle entit´e cible arrive. Une table (instance) est en g´en´eral un vecteur de caract´eristiques de l’entit´e `a classifier. Chaque fois qu’une interrogation sur une nouvelle cible est rencontr´ee, sa relation avec les exemples emmagasin´es pr´ec´edemment est examin´ee pour assigner une valeur de fonction cible pour cette instance. En reconnaissance des gestes et des postures, le vecteur des caract´eristiques d’uneinstance peut ˆetre la position et l’orientation de la main ainsi que les valeurs de pliage des doigts.

Les algorithmes IBL consistent simplement d’abord `a emmagasiner des exemples d’appren-tissage (donn´ees). Ensuite, quand une nouvelleinstance est rencontr´ee, un ensemble d’instances relativement similaires est r´ecup´er´e de la m´emoire et utilis´e apr`es pour classifier l’instance en question. Les techniques IBL peuvent construire diff´erentes approximations de la fonction cible pour chaqueinstance distincte en question. Certaines techniques construisent seulement des ap-proximations locales de la fonction cible qui s’applique dans le voisinage de la nouvelleinstance candidate. Ces techniques ne construisent pas d’approximation destin´ee s’appliquer sur l’espace entier des instances. Ceci a un avantage significatif quand la fonction cible est tr`es complexe.

24Les techniques fond´ees sur l’apprentissage par l’exemple sont aussi appel´ees parfois apprentissage local (Lazy learning) du fait qu’elles retardent le traitement jusqu’`a ce qu’arrive une nouvelle cible `a classifier.

Les algorithmes suivants peuvent ˆetre mis dans la cat´egorie des m´ethodes IBL :

* La m´ethode des k plus proches voisins (k-Nearest Neighbor),

* La r´egression localement pond´er´ee (Locally weighted regression),

* Les fonctions de base radiales (Radial basis functions),

* Raisonnement `a base de cas25 (Case-based reasoning).

Ces algorithmes ont l’avantage d’ˆetre relativement simples `a impl´ementer, `a l’exception du rai-sonnement `a base de cas. Avec ces algorithmes, un ensemble large de postures et de gestes de la main peut ˆetre reconnu avec une pr´ecision mod´er´ement ´elev´ee. Cependant, les inconv´enients ne manquent pas. D’abord, la quantit´e de m´emoire de travail augmente sensiblement avec la taille de l’ensemble d’apprentissage. Ensuite, tous les calculs doivent ˆetre fait `a chaque classifi-cation d’une nouvelleinstance. Ceci implique des probl`emes concernant le temps de r´eponse qui augmente avec le traitement d’un ensemble large d’exemples d’apprentissage.

Tr`es peu d’´etudes ont ´et´e men´ees en utilisant l’approche IBL pour reconnaˆıtre des gestes et des postures. Notons seulement que Ahaet al.(1991) ont d´ecrit un syst`eme et une m´ethodologie s’appuyant sur technique IBL, qui g´en`ere des pr´edictions de classification en utilisant seulement desinstances sp´ecifiques. Ils ont ainsi d´evelopp´e trois algorithmes d’apprentissage par table tout en essayant d’att´enuer certains probl`emes que connaˆıt l’approche apprentissage par l’exemple.

Utilisant ces algorithmes, Kadous (1996) a reconnu, avec une pr´ecision de 80%, 95 postures discr`etes de la main provenant du language des signes et d´ecrites par des caract´eristiques ex-traites par un gant instrument´ePower Glove.

2.2.4 R´esum´e

Ce que nous pouvons retenir de toutes ces exp´eriences est que quelque soit la technique de d´etection de la main et de ses gestes, les ambigu¨ıt´es dues aux occlusions posent de s´erieux probl`emes. Les solutions donn´ees par certaines ´etudes `a ces probl`emes restent laborieuses et d´ependent beaucoup des conditions de chaque exp´erience. Il est certes facile d’´eviter ces probl`emes en imposant certaines restrictions concernant les couleurs et les objets qui doivent apparaˆıtre, mais ces derni`eres enl`event le caract`ere naturel au syst`eme. D’un autre cot´e, les m´ethodes de classification, que ce soit avec mod`ele ou non, ont des performances tr`es variables. Souvent, un compromis est n´ecessaire entre la complexit´e de la m´ethode et sa robustesse. Certaines n’´etaient

`

a ce jour jamais utilis´ees pour reconnaˆıtre des gestes et des postures de la main. Leurs perfor-mances dans ce cas restent encore `a ´evaluer.

2.2.5 Syst`emes pour la reconnaissance des gestes manuels du code LPC A partir des d´efinitions que nous avons donn´e aux gestes et postures en g´en´eral, il est maintenant possible de faire le lien avec les gestes du code manuel LPC. Ainsi, dans ce cas, le mouvement local peut ˆetre la formation de la configuration de la main, tandis que le mouvement global est mat´erialis´e par le d´eplacement de la main d’une position `a l’autre. Il est important de noter que les gestes manuels du code LPC sont des gestes particuliers qui diff`erent de ceux d’autres syst`emes manuels tels que la langue des signes. D’une part, la main dans le code LPC

25Ou syst`eme de raisonnement par cas.

2.2. RECONNAISSANCE DES GESTES DE LA MAIN 71 peut ˆetre en contact direct avec le visage qui a la mˆeme apparence que la main. D’autre part, le code LPC n´ecessite la d´etection pr´ecise de la position de la main par rapport au visage.

De tr`es rares travaux ont concern´e la reconnaissance des gestes LPC de la main. Gibertet al.

(2005) ont utilis´e 12 param`etres pour mod´eliser statistiquement les diff´erentes configurations de la main dans un objectif visant `a r´ealiser un avatar codant en LPC. Pour arriver `a ces param`etres, les auteurs ont enregistr´e les positions 3D de 50 marqueurs, sensibles aux infra-rouges, plac´es sur la main d’un sujet en utilisant un syst`eme de capture de mouvement appel´e Vicon cavec 12 cam´eras. Les auteurs notent que construire un mod`ele statistique des d´eformations de la main est tr`es complexe. En effet, ils consid`erent que les 50 marqueurs subissent le mouvement rigide de l’avant-bras qui est consid´er´e comme le porteur de la main. De ce fait, les mouvements du poignet, de la paume et des phalanges des doigts ont une influence non lin´eaire tout `a fait complexe sur les positions 3D des marqueurs. Ces positions ne refl`etent pas suffisamment les rotations implicites des articulations. Pour r´esoudre ces contraintes anatomiques, les auteurs utilisent un mod`ele non lin´eaire calculant tous les angles possibles entre le segment de la main et l’avant-bras ainsi qu’entre les phalanges successives. Avec une analyse statistique, les auteurs retiennent seulement 12 param`etres pour contrˆoler le mod`ele de la main. Les auteurs ont ensuite test´e la reconnaissance de la forme et le placement de la main. Pour choisir les formes cibles `a classifier, Gibert et al. (2005) se sont fond´es sur le fait que l’extension/r´etraction maximale des doigts

´etait approximativement synchrone avec le d´ebut acoustique de la consonne (r´esultat obtenu par Attinaet al.(2002)). Ainsi, les images cibles contenant des formes de la main ont ´et´e s´electionn´ees aux environs du d´ebut acoustique de la consonne. Elles ´etaient ensuite labelis´ees avec une valeur appropri´ee (les auteurs ont choisi de les num´eroter de 0 `a 8 en affectant les num´eros 1 `a 8 aux 8 configurations LPC de la main et 0 pour le reste). Ces trames ont ´et´e prudemment choisies en tra¸cant les valeurs de sept param`etres au cours du temps. Ces param`etres concernent diff´erentes distances absolues : pour chaque doigt entre le point de fl´echissement de la premi`ere phalange la plus pr`es de la paume, et celle pr`es du bout du doigt, entre les bouts de l’index et du majeur, et entre le bout du pouce et la paume. Au final, 4114 formes de la main ´etaient identifi´ees et labelis´ees. Les sept param`etres caract´eristiques associ´es aux formes cibles de la main sont collect´es et de simples mod`eles Gaussiens sont estim´es pour chaque forme de la main. Ainsi, la probabilit´e a posteriori pour chaque trame de s’accorder avec chacune des 8 mod`eles des formes de la main est estim´ee. En testant les 4114 trames, les auteurs obtiennent un taux de reconnaissance des formes de la main de 98,78%. Sur ces mˆemes images, les auteurs ajoutent un autre label concernant la position de la main. En effet, ils attribuent en plus du label de la forme, une valeur appropri´ee pour d´esigner la position de la main (un nombre de 0 `a 5, 0 est attribu´e `a toute position diff´erente des cinq positions LPC). Les placements de la main pour ces configurations cibles sont caract´eris´es par la position 3D du doigt le plus long dans un rep`ere r´eferentiel li´e `a la tˆete. Ce doigt est le majeur dans le cas o`u il est consid´er´e dans une configuration sinon c’est l’index. Une fois que les coordonn´ees 3D de ce doigt sont collect´ees, des mod`eles Gaussiens simples sont estim´es pour chaque placement de la main. En testant les 4114 placements de la main, le syst`eme identifie correctement 96,76% de ces placements. Il est important de noter que ces hauts scores ont ´et´e obtenus sur des images utilis´ees par la suite pour construire des mod`eles qui ont servi pour la synth`ese de la main.

Dans un registre plus proche de notre travail qui porte sur la reconnaissance des gestes LPC de la main, les travaux effectu´es par Burger `a FT R&D26 et au DIS-GIPSA27 ont pour objectif de d´evelopper un outil pour la reconnaissance des gestes manuels du code LPC. En utilisant un gant color´e, la main est d´etect´ee pour ensuite reconnaˆıtre la configuration et la position de la main. L’architecture globale du syst`eme de reconnaissance des gestes du code LPC ainsi d´evelopp´e est constitu´ee des modules suivants : - segmentation colorim´etrique de la main suite

`

a un apprentissage de la couleur du gant port´e par le codeur (figure 2.9) ; - d´etection des images cibles par utilisation d’un filtre r´etinien qui permet de d´etecter les images pour lesquelles on enregistre un fort ralentissement du mouvement global de la main et du mouvement des doigts (Burger et al., 2006b) ; - localisation du visage et des yeux et de la bouche par un algorithme propos´e par Garcia et Delakis (2004) et qui se base sur une architecture neurale ; - d´etection de la zone point´ee par la main par analyse de la position du doigt pointeur par rapport aux traits permanents du visage que sont les yeux et la bouche (figure 2.9) ; - classification de la configuration par utilisation de la th´eorie de l’´evidence, des machines `a vecteurs de support (SVM)28 et de la g´en´eralisation de la transformation pignistique. Ces choix ont permi, selon les auteurs, de s’affranchir de certaines limitations li´ees aux m´ethodes probabilistes classiques (Burger et al., 2006a; Aranet al., 2007).

Fig. 2.9 – A gauche, segmentation de la main ; A droite, diff´erentes zones de pointage.

Enfin, les deux techniques pr´esent´ees ci-dessus se classe dans l’approche ”‘vision”’ avec arti-fices d’apr`es notre classification pr´ec´edente.

2.3 Conclusion

Le traitement automatique de la lecture labiale n´ecessite l’extraction de caract´eristiques visuelles contenant l’information phon´etique. Deux approches sont g´en´eralement consid´er´ees : approche ”mod`ele” et approche ”image”. Dans la premi`ere approche, les contours interne et externe des l`evres sont extraits `a partir des images du locuteur. Un mod`ele de contour peut ˆetre

26France T´el´ecom Recherche et D´eveloppement.

27nous rappelons que c’est le D´epartement Image Signal du laboratoire Grenoble Images Parole Signal Automa-tique.

28Une machine `a vecteurs de support ou s´eparateur `a vaste marge ou encore machine `a support vectoriel (en anglais Support Vector Machine ou SVM) est une technique de discrimination. Elle consiste `a s´eparer deux (ou plus) ensembles de points par un hyperplan. Selon les cas et la configuration des points, la performance de la machine `a vecteurs de support peut ˆetre sup´erieure `a celle d’un r´eseau de neurones ou d’un mod`ele de mixture gaussienne.

2.3. CONCLUSION 73 obtenue d’une mani`ere statistique ou param´etrique. Ainsi, l’ensemble des param`etres du mod`ele contient l’information visuelle de parole. Dans d’autres ´etudes, des param`etres g´eom´etriques des contours de l`evres sont utilis´es. Dans la seconde approche, des transformations appropri´ees, telles que la transformation en cosinus discret ou l’analyse en composantes principales, sont appliqu´ees aux pixels de l’image correspondant `a la r´egion de la bouche du locuteur.

Ces deux approches ont ´et´e peu compar´ees et ces comparaisons ne semblent pas avantager une par rapport `a l’autre. En revanche, certaines ´etudes les ont combin´ees dans le but d’augmenter les performances et de rehausser les informations visuelles extraites. Cependant, il y a peu d’´evaluation significative permettant de confirmer cette am´elioration.

Pour reconnaˆıtre les gestes (ou les postures) de la main, deux ´etapes sont n´ecessaires. La premi`ere ´etape consiste `a collecter des donn´ees contenant des informations suffisamment per-tinentes des gestes `a reconnaˆıtre. Deux approches sont utilis´ees. Dans la premi`ere, des gants instrument´es port´es par la main et ´equip´es de capteurs sont utilis´es pour enregistrer et trans-mettre des param`etres contenant les informations spatiale et et temporelle sur les doigts et la main. Dans la seconde, les informations sont extraites `a partir des images d’un enregistrement vid´eo. Cette extraction peut se faire de deux fa¸cons selon qu’on utilise des artifices ou non.

La seconde ´etape consiste `a classifier ces donn´ees extraites pour reconnaˆıtre enfin les gestes de la main. Les m´ethodes de classification utilis´ees dans la litt´erature peuvent s’appuyer sur des mod`eles ou s’appliquer directement sur les donn´ees. Les performances de ces m´ethodes sont tr`es variables.

Dans le cas du code LPC, tr`es peu d’´etudes ont tent´e de reconnaˆıtre les gestes de la main. Le fait que, en code LPC, la main est souvent en contact direct avec le visage a exig´e, dans toutes ces ´etudes, d’employer des artifices pour faciliter l’extraction des donn´ees.

Enfin, il est `a noter que nous n’avons trouv´e aucun travail, `a notre connaissance, consacr´e `a l’´etude d’un syst`eme fusionnant les deux informations du code LPC (manuelle et labiale) dans le cadre de la reconnaissance automatique. Nous verrons dans le chapitre suivant quels sont les mod`eles de fusion qui peuvent ˆetre adapt´es pour la reconnaissance des gestes du code LPC.

Chapitre 3

Documents relatifs