• Aucun résultat trouvé

Utilisation de ontraintes graphémiques

Lorsdenostravaux,nousavonsremarquéqueleslouteurs prononçaient lesphonèmes dela langueible,enl'ourrenel'anglais,d'une manièrediérenteselonlesmots.Plus préisément, nousavons notéque laprononiation d'un phonème dépend des lettres (graphèmes)

orrespon-dant à e dernier (au sein de la graphie des mots prononés). Ce type d'erreurs est d'autant plusprobable que lemotàprononer existe ave lamême graphiedanslalangue maternelledu louteur. Considéronsl'exempleextrait denotreorpuspourlesmotsanglaisapproah et po-sition prononés par unlouteur français. Nouspouvonsvoirdanslatable 2.3quelephonème anglais[℄ aétéprononéommelephonèmefrançais [a℄lorsqu'ilorrespondaità lagraphie a etommelephonème [O℄ lorsqu'ilorrespondait àlagraphie o.

Tab. 2.3Prononiation des mot anglaisapproah etposition par un louteur français.

approah position

Prononiation anglaise [℄[p℄ [r℄[O℄[tS℄ [p℄ [℄[z℄ [i℄[S℄ [℄[n℄ Prononiation réalisée [a℄[p℄ [r℄[O℄[t℄ [S℄ [p℄ [O℄[z℄ [i℄[S℄[O℄ [n℄

Ces onstatations nous ont onduit à onsidérer la prise en ompte des ontraintes graphé-miquesdansnotreapprohedemodélisationdeprononiation.Nousavonsentreprisd'introduire lesorrespondanesentrelesphonèmesetlesaratèresdanslesrèglesdeonfusionsphonétiques ([Bouselmietal.,2006a ℄, [Bouselmietal., 2006b ℄, [Bouselmiet al.,2006 ℄). En eet, en tenant omptedesontraintesgraphémiques,lemodèledeprononiationseraitpluspréisetonduirait à unemeilleure préision dusystème deRAP nal.

Il s'agit d'introduire une ondition graphémique dans les règles de onfusions phonétiques. Une règle de onfusion phonétique (r) ne serait plussous laforme p →(mi)i[1..nr],maisserait de la forme p (mi)i[1..nr]/(Gi)i[1..k], (Gi)i[1..k] estla suite de graphèmes onditionnant larègle r.

2.7.1 Extration des ontraintes graphémiques

Lebutdeettepremière étapeestdedéterminerlaorrespondaneentrelesphonèmes etles graphèmesdesmotsdulexique.Eneet,andeprendreenomptelesontraintesgraphémiques, nousavonsbesoindesorrespondanes entreles phonèmes etlesaratères pourhaquemotdu lexique du système de RAP. Dans le as général, ette information n'est malheureusement pas disponible etles lexiques(ou ditionnaires phonétiques)ontiennent simplement les mots etles suites dephonèmes orrespondantes.

Il ne s'agit pas d'une tradution graphèmes phonèmes lasuite de phonèmes est in-onnue : un simple ditionnaire phonétique surait à résoudre e problème. Ce n'est pas non plus une tradution phonèmes graphèmes dont nous avons besoin. Nous sommes plutt faeà laproblématique suivante:onnaissant les aratères etles phonèmes d'unmot, ils'agit de trouverles orrespondanes entrees derniers. En d'autrestermes, étant donné une suite de aratèresetunesuitedesons,latâheàréaliseronsisteàalignerlesphonèmesetlesgraphèmes.

Pour e faire, nous avons opté pour une approhe omplètement automatisée pour l'ali-gnement phonème-graphèmes. Nous avons utilisé un système de reonnaissane à observations disrètes basésurdes HMM disrets.Dans e système, les modèles HMMreprésentent les pho-nèmes et les observations disrètes représentent les aratères. Le orpus d'apprentissage pour

lesmodèles HMM estun largeditionnaire phonétique:le lexiqueduCMU 6

[CMU, ℄.

Tout d'abord,leditionnaire est analyséan de déterminer l'ensemble desaratères et des phonèmes utilisé . Un modèle HMM disret un état et une transition de boulage) est réé pour haque phonèmerenontrédansleditionnaired'apprentissage etunesuite d'observations disrètesestrééepourhaquemot.Lestransriptionsdessuitesd'observationssontsimplement lessuites dephonèmes orrespondantes.

Le systèmede reonnaissane peutensuite être entraîné sur es suites d'observations. L'al-gorithmeemployé à eteet estl'algorithmestandard Baum-Welh.

Une fois entraîné, le système de reonnaissane à HMM disrets est utilisé dans une phase d'alignementforésurlabased'apprentissage,i.e.lessuitesd'observations disrètes.Onobtient ainsilesorrespondanesentrelesphonèmes etlesaratères dehaundesmotsduditionnaire d'apprentissage, qui ne sont autres que les assoiations entre les modèles HMM et les observ a-tions disrètes dans es alignements. Ces assoiations sont ensuite ltrées : une assoiation aL

(relativeauphonèmeL)n'est retenue quesiellevériel'inéquation(2.11).Ceipermet de mini-miserles erreurs intrinsèques au proessus d'alignement etelles ontenues dansle ditionnaire d'apprentissage.NousobtenonsainsiunensembleAd'assoiationsphonème-graphèmesquenous nommonsassoiations standard A.

n(aL)≥γ X

x∈AL

n(x) (2.11)

AL est l'ensemble d'assoiations relatives au phonème L, n(aL) le nombred'apparitions del'assoiationaL,et γ estun fateur.

Une assoiation phonème-graphèmes se présente sous laforme p (Gi)i[1..k] (f. 2.7). La table2.4en illustre quelquesexemplesonretsdansle asduphonème anglais[S℄.

Tab.2.4 Exempled'assoiations phonème-graphèmes

Assoiation Exemple demot

[S℄ (s, h) Show [S℄ (t, i) Position

[S℄ (s, ,h) ash (nom propre) [S℄ (s, s,i) session

[S℄ (,h) hagrin

Problèmesd'alignement

Lorsde laoneption del'approhed'alignementphonème-graphèmes, nousavonsrenontré un problème relevant du nombre de sons et de aratères dans les mots. Considérons le mot anglais used omposé des phonèmes [j℄ [u:℄ [z℄ [d℄. Un alignement diret appliqué sur e mot

6

donnerait le résultat unique suivant : [j℄-u, [u:℄-s, [z℄-e, [d℄-d. Cette mise en orrespondane, erronée, est induitepar la nature intrinsèquedes systèmes de reonnaissanebasée sur le para-digme HMM.Eneet,un HMMestun automateà étatsnis oùhaquemodèleHMM,ouplus préisément haqueétatd'unHMM,génèreau moinsuneobservation.Dans leasdumot used, lesystèmeest onfronté à 4états et4 observations,e qui produit lerésultat erroné préédent.

An de ontourner e problème, nous avons déidé de multiplier les observations par un fateurentier.Pourl'exemplepréédent,lesystèmen'auraplusàgérerlaséquened'observations (u,s,e,d),maispluttune séquenedelaforme(u,u,..,u,s, s,..,s,e,e,..,e,d,d,..,d).Cei permettrad'assoier plusieursphonèmes àunmême symboleommesuit :[j℄-u..u,[u:℄-u..u, [z℄-s..s,[d℄-e..ed..d.Untraitement enavalréduiralesgraphèmesdupliquésetdonneral'alignement : [j℄-u, [u:℄-u,[z℄-s,[d℄-ed.

2.7.2 Utilisation des ontraintes graphémiques

Ladeuxièmeétapedeette approheonsiste àajouterlesassoiations phonème-graphèmes ommeontraintespourlamodélisationdeprononiation.Commeexpliquédanslesparagraphes préédents(f.2.7),ils'agitd'introduireuneonditiondanslesrèglesdeonfusionsphonétiques. Cette ondition n'est autre que la suite de aratères auxquels est rattahé le phonème (de la langueible)onsidérédanslarègledeonfusion.Nousobtiendronsainsidesrèglesdeonfusions phonétiques diérentes pour haque ouple(phonème, séquenede graphèmes) (f.2.7).

Pour ela,nous avonstransformé le lexiquedu systèmede RAP de la langue ible en y in-troduisant les ontraintes graphémiques. Nous avons ajouté à haque phonème la séquene de aratères qui lui orrespond dans les prononiations des mots. La prononiation d'un mot du lexique ne sera plus une suite de phonèmes, mais plutt une suite de ouples (phonème, gra-phèmes). Ainsi,lors de lamodélisationde prononiation,e ne sontplus lesphonèmes seulsqui seront traités,maislesphonèmes rattahés auxgraphèmesorrespondants.

Nousutilisonslesystèmedereonnaissane àHMMdisrets(f. 2.7.1)an deproéderàun alignementforésurlelexiquedelalangueible.Lesassoiations phonème-graphèmesobtenues sont analyséesetseuleselles quisont présentesdansl'ensemble d'assoiations standardA sont retenues. Par lasuite,ilsut de remplaer lesphonèmes par les ouples(phonème, graphèmes) danslaprononiationdehaquemot.Pourunmotdulexique,lesphonèmesdontlesassoiations phonème-graphèmes n'ont pasété retenues restent inhangés dansla prononiation de e mot : i.e.phonèmes sansontraintes graphémique. Voii un exemple de transformation de l'entrée du lexiquede lalangueible pour lemot anglaisused :

Mot Prononiation

entrée dulexique used [j℄ [u:℄ [z℄ [d℄

entrée modiéedanslelexique used [j℄-u [u:℄-u [z℄-s [d℄-ed