• Aucun résultat trouvé

Etude du flux labial

7.3. VERS UNE RECONNAISSANCE DE MOTS 171

Tab. 7.15 – Liste des mots compos´es de deux syllabes CV successives.

Fig.7.14 – Repr´esentation des signaux labiaux du mot [ZamE]. La transition entre les 2 syllabes CV est marqu´ee.

78,57%. Les erreurs se produisent globalement entre les mod`eles qui ont une classe de syllabes commune.En enlevant la transition, ce taux augmente et atteint 88,1%. Ceci implique que nous pouvons ´evaluer `a 10% l’erreur due `a la pr´esence de la transition. En mod´elisant cette transition, nous devrions pouvoir ´eviter cette erreur.

7.4 Conclusion

Dans ce chapitre, l’´etude du flux labial nous a permis de relever plusieurs points importants et essentiels en vue de la fusion avec le flux manuel. Tout d’abord, le fait que les voyelles soient toutes articul´ees aux l`evres implique qu’elles peuvent ˆetre caract´eris´ees par des param`etres labiaux extraits `a un seul instant (l’instant de l’atteinte de la cible vocalique aux l`evres L2).

Notre m´ethode de d´etection de la cible vocalique aux l`evres, s’appuyant sur les minima de la vitesse labiale, permet de d´eterminer cet instant. De plus, les param`etres issus du contour interne des l`evres peuvent ˆetre suffisants pour mod´eliser toutes les voyelles. En s’appuyant sur ces param`etres, nous avons confirm´e, d’un cot´e, les ambigu¨ıt´es de la lecture labiale en contexte de production de parole continue (phrases). D’un autre cot´e, une repr´esentation hi´erarchique des distributions des voyelles a montr´e que ces derni`eres peuvent ˆetre cat´egoris´ees en trois vis`emes compatibles, `a une exception pr`es, avec les groupes du syst`eme manuel du code LPC ; ce qui d´emontre la compl´ementarit´e de ce code.

En terme de classification, un simple classifieur gaussien permet d’obtenir de bonnes perfor-mances de reconnaissance des voyelles par position LPC (taux global de reconnaissance de 89%) et des vis`emes de voyelles (taux de 92,6%). L’analyse des erreurs d’identifcation dans ces deux tests montre que le probl`eme principal r´eside dans les impr´ecisions de la m´ethode de d´etection de la cible vocalique, et plus pr´ecisement sur les impr´ecisions des instants d´etermin´es par la segmentation du signal audio (´etiquetage automatique phon´etique). Nous notons aussi dans ce cas, les effets de la coarticulation qui influent beaucoup sur les cibles vocaliques aux l`evres. En effet, pour certaines voyelles, notamment arrondies, pr´ec´ed´ees par certaines consonnes non arti-cul´ees aux l`evres (les consonnes fricatives par exemple), la cible vocalique aux l`evres se retrouve dans la r´ealisation acoustique de la consonne ; c’est-`a-dire la r´ealisation labiale de la voyelle est anticip´ee dans la r´ealisation de la consonne.

Par ailleurs, l’´etude effectu´ee sur les voyelles ne peut ˆetre appliqu´ee directement sur les consonnes. La faute est attribu´ee `a la non articulation aux l`evres de toutes les consonnes. Pour reconnaˆıtre les consonnes, la solution est de les associer avec les voyelles dans le cadre d’une syllabe CV. Ceci est d’un grand int´erˆet puisque le code LPC est un syst`eme qui s’appuie sur des unit´es syllabiques de type CV. Dans ce cas, c’est toute la transition entre la consonne et la voyelle qui est consid´er´ee. La mod´elisation des syllabes CV n´ecessite donc des syst`emes qui prennent en compte ce type de donn´ees d’observation ; d’o`u l’emploi des mod`eles HMM. En absence de la fusion avec l’information de la main, les syllabes ne peuvent ˆetre consid´er´ees qu’en termes de vis`emes.

La mod´elisation HMM des syllabes CV donne des performances encourageantes. En recon-naissance, le regroupement des consonnes en vis`emes et les param`etres labiaux utilis´es ont une importance primordiale dans l’am´elioration des performances. Dans les meilleurs cas, c’est-`a-dire avec le regroupement des consonnes s’appuyant sur le lieu d’articulation de la langue et avec les param`etres de pincement, le taux de reconnaissance des vis`emes de syllabes CV avoisine les 80%. Cependant, cette ´etude a montr´e que les erreurs sont principalement observ´ees sur des groupes de consonnes en contexte des voyelles arrondies. En revanche, les syllabes CV pour des voyelles non arrondies et semi-arrondies sont mieux reconnues (87%).

7.4. CONCLUSION 173 Dans cette ´etude, les syllabes CV mod´elis´ees se situent en contexte de phrases. L’effet du contexte a, par cons´equent, une influence sur les mod`eles des classes syllabiques et par la suite sur les taux de reconnaissance. Ainsi, une optimisation des dur´ees d’observations des syllabes CV est n´ecessaires pour r´eduire cet effet. Dans ce sens, les instants obtenus `a partir des segmentations temporelles des flux labial et manuel (M2 pour les positions LPC de la main et L2 pour les voyelles) peuvent ˆetre consid´er´es ; ce qui nous permet en plus de s’affranchir du besoin des

´etiquettes acoustiques. Les r´esultats obtenus montrent que nous pouvons compter sur l’instant L2. Par contre, les performances avec l’instantM2 sont diminu´ees, probablement `a cause de sa variance par rapport aux instants acoustiques.

En derni`ere ´etude, nous avons montr´e que les mod`eles HMM des syllabes CV construites peuvent servir `a reconnaˆıtre, en termes de vis`emes, des mots compos´es de syllabes CV suc-cessives. Dans ce cas aussi, nous obtenons de bonnes performances encourageantes pour une

´eventuelle reconnaissance compl`ete de la parole continue en contexte du code LPC.

Enfin, tous ces points peuvent ˆetre utiles pour ´etablir des mod`eles de fusion des informations manuelle et labiale. Dans le chapitre suivant, nous pr´esenterons les premiers mod`eles de fusion des gestes main-l`evres.

Chapitre 8

Reconnaissance phon´ etique des

Documents relatifs