1.3 Reonnaissane de la parole non-native
1.3.5 Modélisation de la prononiation non-native
Lamodélisationdelaprononiationnon-nativeonsiste àprendreenompte diérentes
àombiner diérentsmodèles aoustiques(i.e. prononiation dephonèmes) de façon à e qu'ils
représentent, d'une manière onurrente, la même entité phonétique dans le système de RAP.
Autrementdit,ils'agitderépertorierlesdiérentesprononiationsnon-nativespourhaque
pho-nèmedelalangueible,etdelesinluredanslesystèmedeRAPdefaçon àpouvoirreonnaître
l'unedesdiérentesprononiations onsidéréespourhaque phonème.
Contrairement aux approhes de modélisationaoustique, la modélisation de prononiation
non-native ne modient ni les paramètres des modèles aoustiques ni les régions de l'espae
aoustiquemodéliséesparlesphonèmes(f.setion1.3.4,gures1.5,1.6et1.7).Lamodélisation
deprononiationviseplutt àequelesdiérentsmodèlesaoustiquesreprésentant haun une
prononiationnon-nativepossibled'unphonèmedelalangueiblesoientreonnusparlesystème
deRAP ommeétant les variantesde e même phonème.Soit l'exemple suivant :
un premierensemble demodèles(représentant l'aent anonique) :{[a1],[b1],[c1],...} un deuxième ensemble de modèles (représentant l'aent non-natif) :{[a2], [b2],[c2],
...}
une matriede onfusionsphonétiques ontenant lesassoiationssuivantes:{[a1]→[a2],
[b1]→[b2],[c1]→[c2]}
un motw delalangue ible, phonétiséde lamanièresuivante:w : /a/ /b/ /c/
Il s'agit, danset exemple, depermettre au systèmede RAP de reonnaître indiéremment
les réalisations sonores [a1] et [a2] pour le même phonème /a/, de même pour les ouples de phonèmes ([b1], [b2]) et ([c1], [c2]). De même, le système devrait reonnaître les ombinaisons de prononiations possibles de haque mot onsidéré. Pour le mot w, ité dans l'exemple, les phonétisationssuivantesdevraient êtreprise en ompte par lesystèmede RAP:
w : [a1] [b1] [c1] w : [a2] [b1] [c1] w : [a1] [b2] [c1] w : [a2] [b2] [c1] w : [a1] [b1] [c2] w : [a2] [b1] [c2] w : [a1] [b2] [c2] w : [a2] [b2] [c2]
Lesvariantesdeprononiationnon-nativepeuventêtredéduitesde manièreautomatique(en
onstruisantune matrie onfusionphonétique) oumanuellement (ensebasant surdes
onnais-sanes humaines). Lesmanières dont esprononiations non-natives sont prisesen ompte sont
variées;nousen dérironsquelquesunesdansles setions suivantes.
Ajout de variantes de prononiation dans le lexique
Une approhe direte pour la prise en ompte des variantes de prononiations phonétiques
onsiste à rajouter de nouvelles phonétisations dans le lexique. Rappelons que le lexique d'un
systèmede RAP (ou ditionnaire phonétique) ontient les mots à reonnaître et leurs
phonéti-sations possibles. Dans l'exemple du paragraphe préédent, il s'agit de rajouter les diérentes
manièresdeprononerlemotwauseindulexique.Lorsdelaphasedereonnaissane,lesystème deRAP pourra ainsiévalueres diérentes phonétisationseten séletionner laplusprobable.
lexique présente un inonvénient majeur lié à la taille des informations supplémentaires. En
eet, dans l'exemple préédent, le mot w génère 9 prononiations non-natives. D'une manière générale, pour un nombre moyen m de phonèmes dansun mot, et pour k prononiations alter-nativespar phonème,le nombre moyen de prononiationspar mots'élève à (1 +k)m
.
Généralement, lesapprohesd'ajout de variantesde prononiation danslelexique réduisent
le nombre de prononiations prises en ompte. Ainsi, la taille du lexique résultant pourra être
gérée par lessystèmes deRAP [Amdalet al.,2000 ℄.
Règles de réériture
Letravail de [Shaden, 2003 ℄est une approhe de modélisationde prononiation non-native
basée sur des onnaissanes phonétiques des deux langues parlée et native. Les auteurs ont
reours à l'expertise de phonétiiens an de reenser les erreurs de prononiations suseptibles
d'apparaîtredanslaparolenon-native,pourLdiérentsniveauxdemaîtrisedelalangueible.Un ensemblederèglesderéériture dephonèmesdelalangueibleestensuiteonstruitpourhaun
desniveauxde maîtriseonsidérés, entenant ompte desontextes phonétiqueetgraphémique.
Une règle de réériture r onsiste à remplaer, dansla prononiation d'un mot w,un phonème
p1 dela langueible par unphonème p2 de lalanguematernelle si:
p2 est une variante de prononiation non-native pour p1 (selon les onsignes des experts phonétiiens onsultés)
leontextephonétique delarègle r est réalisée pourle phonèmep1 danslemot w
ausein du motw,lephonème p1 orrespond àun graphème spéiédanslarègle r
Parlasuite,lesauteursdériventlesLprononiationspourhaquemotenutilisantlesLensembles derèglesderéériture.CesprononiationssontinséréesdansleditionnairedusystèmedeRAP.
Cetteméthodeprésentel'avantagedegénérerdesprononiationsnon-nativespréisesainsiquede
n'aroîtrequelinéairement latailledulexique. Toutefois,elle néessiteuneétudephonologique
poussée des aratéristiquesdesdeuxlangues, etn'est don pasfailement reprodutible.
Transduteurs à états nis
L'approhe dérite dans[Livesu and Glass,2000 ℄ estune méthode de modélisationde
pro-noniations non-natives basée sur une onfusion phonétique et le paradigme des transduteurs
nis. Les transduteurs nis sont des automates à états nis apables de oder des séquenes
de symboles. Ce paradigme a déjà été utilisé dans les systèmes de RAP an de modéliser le
ditionnaire phonétique(lexique) etlemodèle delangage.
L'ensemblede onfusionsphonétiques utilisé dans[Livesuand Glass,2000℄ estintra-langue
et one-to-one, i.e.un phonèmede lalangue iblepeutêtreassoiéave une (ouplusieurs)
pro-noniationsalternatives,onstituéeshauned'unseulphonèmedelalangueible.Cesonfusions
phonétiques sont extraites automatiquement à l'aide d'unorpus de parole non-native. Les
au-teursontexprimé etensembledeonfusionssouslaformedetransduteursàétats nisomme
le dérit la gure 1.8. Cette formalisation permet d'introduire les prononiations non-natives
d'une manière simple dansle système de RAP.En eet, il sut de omposer les transduteurs
représentant les onfusionsphonétiques ave lestransduteurs représentantsles modèles de
lan-gageetde prononiation.
Fig. 1.8 Représentation des onfusions phonétiques sous la forme d'un transduteur à états
nis.
modèlesutilisésdanslesystèmedeRAP.Eneet,similairementàl'approhed'ajoutdevariantes
deprononiation danslelexique,prendreenomptetouteslesprononiationsalternativesinduit
une augmentation importantede lataille desmodèles. An de ontourner e problème, les
au-teursn'appliquent laompositiondestransduteursreprésentant lesonfusionsphonétiques que
pendant laphasede reonnaissaneetélaguent une partie desprononiationsalternatives.
Combinaison de modèles aoustiques
Letravailde[Bartkova andJouvet, 2006℄estuneapprohedemodélisationdeprononiation
pourlaRAPnon-nativepourdesaentsmultiples.Cetteapproheonernelaparoleenlangue
française prononée par des louteurs d'origines diverses. Pour un phonème [p1] de la langue ible,les auteurs ombinent les modèles aoustiquessuivants:
lemodèleaoustiqueanonique duphonème [p1]
pourhaunedeslanguesd'origineonsidérées(notéei∈ {2,3, ..., n}),lemodèleaoustique duphonème[p1]adaptéaoustiquementsurunorpusdeparolenativedeettelangue(noté
[p1]i, i∈ {2,3, ..., n})
pour haunedes langues d'origine onsidérées, lemodèle aoustique du phonème
orres-pondant à [p1] dans ette langue (noté [pi], i ∈ {2,3, ..., n}), et e d'après des ritères phonologiques
Cesmodèles aoustiquessontombinéssouslaforme d'unméta-HMM,oùhaun représente
unhemin d'étatsHMM distint, ommeillustrédansla gure1.9. Le méta-modèle aoustique
représentela prononiation anonique duphonème [p1],ainsique ses diérentes prononiations non-natives. Ce dernier est utilisé en lieu et plae du modèle de [p1] dans le système de RAP. Les résultats publiés dans [Bartkovaand Jouvet,2006℄ montrent que ette méthode réduit les
taux d'erreurs pour la parole non-native tout en introduisant une faible dégradation de
aoustiques,elle n'enreste pas moinsune approhe de modélisationde prononiation (utilisant
une modélisation aoustique en amont). En eet, le but de la ombinaison des modèles
aous-tiques est de permettre au système de RAP de reonnaître l'une des prononiationsalternative
dehaundesphonèmes.Ceproédédemodiationdesmodèles aoustiquesesttrèssimilaireà
l'ajout deprononiationsparallèles aulexique.Toutefois, l'aroissementde latailledesmodèles
aoustiques n'est que linéaire, ontrairement à l'ajout de prononiations au niveau du lexique
qui résulteen unaroissement exponentielde e dernier.
Fig.1.9 Modèles aoustiques ombinés.