• Aucun résultat trouvé

Reconnaissance phon´ etique des gestes main-l` evres

8.2 Perspectives : Mod` ele de fusion pour reconnaˆıtre les syllabes CV

Dans le chapitre 7, nous avons ´etudi´e la mod´elisation et la reconnaissance, en termes de vis`emes, des syllabes CV. Nous avons ainsi montr´e qu’une mod´elisation HMM peut donner de bons r´esultats en reconnaissance des vis`emes syllabiques. Pour reconnaˆıtre compl`etement la syllabe produite en LPC, il faut tenir compte de l’information de la main (compl´ementarit´e du code LPC). Ce qui nous ram`ene vers la probl´ematique de la fusion des gestes main-l`evres du code LPC. Dans ce sens, notre mod`ele de fusion, d´efini pr´ec´edemment pour la reconnaissance compl`ete de la voyelle, peut ˆetre utilis´e dans le cas des syllabes CV. En effet, dans l’intervalle d´elimit´e par les instants M2 et L2, nous poss´edons suffisamment d’informations manuelle et labiale pour pouvoir envisager une reconnaissance compl`ete de la syllabe. D’une part, `a l’instant M2, l’information manuelle, position et configuration LPC, est connue (voir chapitre 6 et 7).

Ainsi, la position LPC de la main identifie un groupe de voyelles et la configuration de la main un groupe de consonnes. D’autre part, la transition des param`etres labiaux entre l’instantM2 et L2 porte des informations labiales suffisantes pour identifier le vis`eme syllabique correspondant

`

a la syllabe produite. Cette derni`ere est d´etermin´ee comme l’intersection entre les groupes de voyelles et de consonnes issus de la d´ecision sur le flux manuel et le vis`eme syllabique issu de la d´ecision sur le flux labial.

Pour avoir la d´ecision sur le flux labial, une classification HMM est utilis´ee. Si nous consid´erons que les consonnes sont regroup´ees en 5 vis`emes (voir chapitre 7) et les voyelles en 3 vis`emes, alors 15 mod`eles HMM sont `a apprendre. Dans la phase de test, pour chaque s´equence d’obser-vations en entr´ee du classifieur HMM, les 15 mod`eles sont test´es. Il est possible, comme nous l’avons fait pour le cas de la voyelle, de contraindre le classifieur HMM par la d´ecision sur le flux manuel ; ce qui permet de s´electionner un nombre inf´erieur de mod`eles `a tester (la d´ecision sur la position donne au maximum 3 voyelles possibles tandis que la d´ecision sur la configuration donne au maximum 4 consonnes, ce qui fait que dans ce cas 12 mod`eles peuvent ˆetre consid´er´es).

Contrairement au cas de la voyelle, reconnue en sortie du classifieur, nous obtenons dans le cas des syllabes CV en sortie du classifieur seulement un vis`eme de syllabe. C’est apr`es l’intersection de ce vis`eme avec les deux groupes (de voyelles et de consonnes) obtenus par la d´ecision sur le flux manuel, que la syllabe est enfin identifi´ee. Avec ce sch´ema ainsi con¸cu, nous pensons r´eduire l’erreur de reconnaissance. Ce sch´ema a un principe similaire au sch´ema de fusion ”la main en premier, ensuite les l`evres” que nous avons test´e pour les voyelles. La figure 8.4 illustre ce dernier sch´ema dans le cas des syllabes CV.

Dans la mˆeme optique de r´eduire le nombre de mod`eles HMM employ´es par le classifieur et d’am´eliorer la reconnaissance, ce sch´ema de fusion pour les syllabes CV est combin´e avec un sch´ema de fusion permettant d’identifier compl`etement la voyelle. En effet, le classifieur HMM re¸coit en entr´ee l’information sur la voyelle qui permet d’identifier le vis`eme auquel elle appartient. Ainsi, le nombre de mod`eles HMM `a utiliser est divis´e par trois. Dans ce cas, le classifieur teste quatre mod`eles `a la place de douze. En sortie de ce classifieur, un vis`eme de syllabe CV est donc obtenu pour lequel la voyelle est d´ej`a reconnue. Ensuite, l’intersection avec le groupe LPC des consonnes obtenu par le traitement de la main identifie ensuite la consonne

8.3. CONCLUSION 181

Fig. 8.4 – Identification des syllabes CV : sch´ema de fusion ”la main en premier, ensuite les l`evres”.

et en mˆeme temps la syllabe CV. La figure 8.5 montre ce processus.

Nous avons donc construit un mod`ele hybride ”la main en premier, ensuite les l`evres” o`u la voyelle est reconnue s´epar´ement grˆace `a un mod`ele maˆıtre-esclave pilot´e par la main, et vient contraindre le syst`eme de reconnaissance de la syllabe CV.

8.3 Conclusion

Pour reconnaˆıtre compl`etement la voyelle, nous proposons un mod`ele de fusion maˆıtre-esclave

”la main en premier, ensuite les l`evres” qui est un mod`ele `a identification s´epar´ee pilot´ee par le flux manuel. Dans ce mod`ele, la d´ecision sur la main obtenue `a partir du codage automatique de la main s´electionne d’abord, `a l’instant d’atteinte de la position LPC cible par la main, un

Fig.8.5 – Identification des syllabes CV : sch´ema hybride de fusion ”la main en premier, ensuite les l`evres” avec en plus l’information sur la voyelle .

groupe de voyelles candidates. Puis, cette information est inject´ee dans un classifieur (Gaussien dans notre cas) qui reconnaˆıt la voyelle parmi les candidates `a partir des param`etres labiaux extraits `a l’instant d’atteinte de la cible vocalique aux l`evres. Le test exp´erimental de ce mod`ele a permis d’obtenir un taux honorable et encouragent de 75% de reconnaissance compl`ete de la voyelle. En plus des erreurs caus´ees par la classification labiale estim´ees `a 11% (voir chapitre pr´ec´edent), des erreurs estim´ees `a 14% sont dues `a la pr´ecision sur le codage de la position LPC de la main et `a l’appariement main-l`evres.

Par ailleurs, notre mod`ele de fusion pourrait tout `a fait ˆetre adapt´e au cas des syllabes CV.

Dans ce cas, un classifieur permettant de prendre en compte toute la dur´ee d’observation des syllabes CV (un HMM par exemple), remplace le classifieur Gaussien. De plus, l’information

8.3. CONCLUSION 183

Documents relatifs