• Aucun résultat trouvé

1 0.1 log WER(%) Heures Semi−supervisé Supervisé

Fig. 1.8 – Taux d’erreurs de mots (%) en fonction de la quantit´e de donn´ees audio d’apprentissage (chiffres donn´es dans [Lamel & Adda, 2002])

1.9 Conclusion

Nous avons pr´esent´e le principe de la reconnaissance de la parole par mod`eles statis-tiques, et d´ecrit bri`evement les diff´erentes composantes d’un syst`eme standard : mod`eles acoustiques de phones, mod`eles de langage, lexique de prononciation, et pr´esent´e tr`es suc-cinctement le principe des d´ecodeurs. Des taux d’erreurs indicatifs ont ´et´e donn´es pour des syst`emes de reconnaissance `a l’´etat de l’art pour la langue la plus ´etudi´ee, l’anglais am´ericain. En particulier pour de la parole provenant d’´emissions de radio-t´el´evision, le taux d’erreurs de mots est d’environ 10% sans aucune restriction sur les donn´ees. Pour arriver `a de telles performances, de tr`es grands corpus de donn´ees sont n´ecessaires pour estimer les param`etres des mod`eles. En fin de chapitre, nous avons pr´ecis´e les probl`emes pos´es par le manque de donn´ees d’apprentissage, et d´efini ce que sont les langues peu dot´ees vis-`a-vis de la reconnaissance de la parole. Le manque de textes pour ces langues est `a nos yeux le probl`eme le plus central. Aux difficult´es li´ees au manque de donn´ees s’ajoute en g´en´eral le manque d’expertise et d’informations linguistiques. Comment ´elaborer un lexique de prononciations ? Quelles sont les performances de reconnaissance d’un syst`eme en fonction des quantit´es de donn´ees d’apprentissage pour une langue peu dot´ee ? Le prochain chapitre tentera de r´epondre `a ces questions sur un cas d’´etude.

Reconnaissance automatique de

l’amharique

Ce chapitre a pour but de montrer quels ont ´et´e les probl`emes pratiques que nous avons rencontr´e lors de l’´elaboration d’un syst`eme de reconnaissance pour l’amharique : nor-malisation des textes et g´en´eration du lexique de prononciations en particulier.

Nous d´ecrivons ´egalement une ´etude exp´erimentale sur l’influence compar´ee des quantit´es d’audio transcrit, de transcriptions et de textes utilis´es pour l’apprentissage des mod`eles acoustiques et mod`eles de langage. Enfin, nous montrerons les r´esultats obtenus lors d’une premi`ere exp´erience de d´ecompositions des unit´es lexicales, qui a ´et´e le point de d´epart des recherches sur la mod´elisation lexicale qui fera l’objet des chapitres suivants.

2.1 Pr´esentation de la langue amharique

L’amharique est la langue officielle de la R´epublique D´emocratique F´ed´erale d’´Ethiopie. La carte 2.1 situe l’´Ethiopie au sein du continent africain (source : Wikipedia).

L’amharique est parl´e par environ 22 millions de locuteurs dont 17 millions comme langue maternelle, et 5 millions comme seconde langue [Appleyard, 1995]. Si l’amharique est la langue la plus parl´ee en ´Ethiopie, il existe cependant plus de 80 langues diff´erentes et quelques 200 dialectes. La seconde langue la plus importante est l’oromo, parl´ee par plus de 17 millions de locuteurs.

Bien que faisant partie des langues s´emitiques comme l’arabe et l’h´ebreu, l’amharique poss`ede une ´ecriture de gauche `a droite, avec un syllabaire sp´ecifique appel´e « Fidel », terme qui signifie ´egalement « lettre, caract`ere ». Le Fidel est d´eriv´e de la langue classique ´ethiopienne, le ge’ez. Il poss`ede 34 symboles de base dont 85% repr´esentent une s´equence CV (C pour consonne, V pour voyelle), les autres symboles repr´esentent une s´equence

Fig. 2.1 – Situation g´eographique de l’´Ethiopie (source : Wikipedia).

CwV o`u w est une semi-consonne. Un dernier symbole repr´esente le son complexe [ts]. Cette langue poss`ede sept voyelles au total, schwa inclus, appel´ees les sept ordres : [E], [u], [i], [a], [e], [@] et [o]. Les sept ordres sont indiqu´es `a l’´ecrit par une modification du signe de base des consonnes. Il existe ´egalement des symboles redondants, qui repr´esentent une mˆeme syllabe. Il y a donc au total plus de 240 symboles diff´erents.

Il faut remarquer qu’il existe des probl`emes de normalisation de l’orthographe amharique, tr`es bien expos´es dans [Yacob, 2003], o`u trois niveaux de langue sont distingu´es : l’amharique canonique qui est r´eserv´e aux ´erudits avec une orthographe unique par

mot,

l’amharique commun qui est celui des journaux, de la litt´erature avec de nombreuses formes homophones et des variantes orthographiques inter-individuelles,

l’amharique quotidien pour lequel aucun jugement n’est port´e sur l’orthographe des mots.

L’orthographe des mots amhariques utilis´es au quotidien est tr`es libre, le nombre de formes ´ecrites diff´erentes pour un mˆeme mot peut ˆetre tr`es grand. L’exemple suivant montre la diversit´e des formes que nous avons rencontr´e dans les corpus de textes. Il s’agit de l’entit´e nomm´ee « Francfort Germany », mais le ph´enom`ene est tout `a fait g´en´eral sur les mots amhariques. Comme nous le d´etaillerons ci-dessous, les caract`eres amhariques ont ´et´e transcod´es `a l’aide d’un jeu de lettres latines, et ici le « x » repr´esente un schwa. Dans « Germany », le /a/ est remplac´e par un /E/. « Francfort » est ´ecrit soit en un mot, soit en deux mots, avec des confusions possibles dans les voyelles, ici entre /E/ et /o/.

fxranxkxfErxtx JErxmani fxranxkxforxtx JErxmani fxranxkx fErxtx JErxmEni fxranxkxfErxtx JErxmEni

Quelques propri´et´es lexicales

La figure 2.2 montre le nombre de mots distincts du corpus audio en fonction de la taille des mots en phones (50,3k mots distincts). La longueur des mots la plus fr´equente est de 10 phones soit 5 syllabes. Cette longueur relativement grande s’explique par l’agglu-tination d’affixes pour les articles, les d´emonstratifs, les marques de pluriel entre autres [Demisse & Imbert-Vier, 1996].

40K 30K 20K 10K 0