HAL Id: tel-00588738
https://tel.archives-ouvertes.fr/tel-00588738
Submitted on 26 Apr 2011
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Contributions à la reconnaissance automatique de la parole non-native
Ghazi Bouselmi
To cite this version:
Ghazi Bouselmi. Contributions à la reconnaissance automatique de la parole non-native. Interface homme-machine [cs.HC]. Université Henri Poincaré - Nancy I, 2008. Français. �tel-00588738�
D´epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine´ UFR STMIA
Contributions ` a la reconnaissance automatique de la parole non-native
TH` ESE
pr´esent´ee et soutenue publiquement le Pr´esent´ee et soutenue publiquement le 12 Novembre 2008 pour l’obtention du
Doctorat de l’universit´e Henri Poincar´e – Nancy 1
(sp´ecialit´e informatique)
par
Ghazi Bouselmi
Composition du jury
Rapporteurs : Pr. Ellouze Noureddine Besacier Laurent Directeur : Jean-Paul Haton Examinateurs : Jean-Fran¸cois Bonastre
Jean-Pierre Martens Dominique Fohr Irina Illina
Marie-Odile Berger
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503
Je tiens à vivement remerier le professeur Jean-Paul Haton à qui je dois ma présene au
LORIA.Ilm'apermisdedéouvriretenvironnementetaétémondireteuretguidebienavant
ettethèse.Outre sesonseils etsonorientation,je luiexprime magratitudepoursagénérosité
etsabonté deoeur.
J'exprime également mareonnaissane pour IrinaIllina etDominique Fohr pour leur suivi
onstant, leurs onseils préieuxetleur soutient ontinu.Leurs enadrement etenouragements
inessants ont été des fateurslefs dansl'avanement de ma thèse. Au delà des onnaissanes
sientiquesqu'ilsm'ontapportées,'estunevéritableexpérienedesrelationshumainesquej'ai
eul'oasionde vivreave euxetqui m'a onsidérablement enrihi.
Je tiens aussià remerier M
me
Martine Kuhlmann, assistantede l'équipe Parole et Cortex
auLORIA,etM
me
NadineBeurné pour leurextrême amabilitéetgentillesse.Ellesont toujours
étéserviables,patientesetattentionnéesmême dansles situationsles plusdiiles.
Enn,ilmetientàoeurd'exprimermareonnaissaneàtouslesmembresdel'équipeParole
pour m'avoiraueilli parmi euxetaidétout aulongde mathèse. Je remerie partiulièrement
BlaisePotard, Farid Feiz, JeremyFixetImenJemaa pour leursoutient etleur amitié.
ma mère etma soeur.
Elles ont toujoursété
présentes, aux meilleurs
omme aux pires moments.
Toutema gratitude etamour.
Aidéeparlesavanéestehnologiques, lareonnaissaneautomatiquedelaparole(RAP)est
deplusenplusperformante.Toutefois,laRAPnonnativesoureenored'unehutesigniative
depréision.Cettedégradation estdue auxerreursd'aentetde prononiation queproduisent
les louteurs non natifs. Le travail présenté dans ette thèse s'insrit dans le adre de la RAP
non native.Les reherhes quenous avonsentreprises ont pour but d'atténuer l'impat desa-
ents non natifs sur les performanes des systèmes de RAP. Nous avons proposé une nouvelle
approhe pour la modélisation de prononiation non native permettant de prendre en ompte
plusieursaentsétrangers.Cetteapproheautomatiqueutiliseunorpusdeparolenonnativeet
deuxensemblesdemodèles aoustiques:lepremierensemblereprésentel'aentanoniquedela
langueibleetledeuxièmereprésentel'aentétranger.Ahaquephonèmedupremierensemble
de modèles sont assoiées une ou plusieurs prononiations étrangères, représentée haune par
une suite de phonèmes du deuxième ensemble. Les modèles aoustiques du premier ensemble
sont modiés par l'ajout de nouveauxhemins d'étatsHMM.Chaun de esnouveauxhemins
d'étatsHMMorrespond àuneprononiationétrangère, etestonstituédelaonaténationdes
modèles aoustiques des phonèmes orrespondants. Cette approhe néessite la onnaissane a
prioridelalangued'originedeslouteursdontlaparoleestàreonnaître.Aetégard,nousavons
proposéune nouvelle approhe pour la détetion de lalangue maternelle basée surla détetion
deséquenesdisriminantes dephonèmes.Par ailleurs,nousavonsproposéune approhe demo-
délisationde prononiation non native multi-aent permettant de prendreen ompte plusieurs
aents étrangers simultanément. D'autre part, dans le but d'aner la préision de la modé-
lisation de prononiation, nous avons proposé l'utilisation de ontraintes graphémiques. Nous
avons onçu une approhe automatique pour la detetion des ontraintes graphémiques et leur
prise enompte pour l'approhe de RAP nonnative. Vuquenotre méthode de modélisation de
prononiationaugmentelaomplexité desmodèlesaoustiques, nousavonsétudié lesapprohes
dealulrapide de vraisemblane pour les GMM.En outre, Nousavonsproposétrois nouvelles
approheseaesdont lebut estl'aélérationdu alulde vraisemblanesansdégradation de
lapréision.
Mots-lés: Reonnaissane automatique de la parole, parole non native, modélisation de pro-
noniation,modélisationaoustique,multi-aent,détetiondelalanguematernelle,ontraintes
graphémiques,alulrapide devraisemblane.
Abstrat
Speehreognitiontehnologyattainedahighlevelofreliability,mainlythankstotehno-
logialadvanes. Nevertheless, automati speeh reognition (ASR)systems arestill vulnerable
to nonnative aents. Theirpreision drastiallydrops asnon native speakers ommit aousti
and pronuniation errors. Our researh work aimsat rendering ASR systems more tolerant to
nonnative aents. We haveproposed anew approah for nonnative ASR basedonpronunia-
tionmodelling.Thisapproah usesanon nativespeehorpusand twosets ofaoustimodels:
the rst set stands for the anonial target language aent and the seond stands for the non
nativeaent.Itisanautomatedapproahthatassoiates,to eahphonemefromtherstsetof
theseondsetofmodels.ThesepronuniationsaretakenintoaountthroughaddingnewHMM
pathstothemodelsofeahphonemefromtherstsetofmodels.EahofthesenewHMMpaths
orresponds to one non native pronuniation and onsists of the onatenation of the models
of the underlying phones from the seond set. The pronuniation modeling approah requires
thea priori knowledge of theoriginof thetested speakers. For thatmatter we have developed
a new approah for the automati detetion of the mother tong of non native speakers. This
approah is based on the detetion of disriminative phoneme sequenes, and is usedas a rst
step of the ASP proess. As opposed to origin detetion, we have proposeda multi-aent non
nativepronuniationmodelingapproahthattakesinto aountseveralforeignaents.Besides,
wehavedevelopedanapproahofautomatiphoneme-graphemealignmentinordertotakeinto
aount the graphemi onstraints within the non native pronuniation modeling. The gaol of
this proedure is the sharpen the pronuniation modeling and enhane the ASR auray. As
ournonnatie ASRapproahinreasestheomplexityofaoustimodels,wehave studiedsome
fast likelihood omputation tehinques, and we have proposed three novel appraohes thataim
at enhaning likelihood omputation speed withoutharmingASR preision.
Keywords: Automati speeh reognition, non-native speeh, pronuniation modeling, aous-
ti modeling, multi-aent, native language detetion , graphemi onstraints, fast likelihood
omputation
Introdution générale
1
État de l'art
1.1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Reonnaissane analytiquede laparole . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Paramètrisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Modèles de langagestatistiques . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Modèlede prononiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Modèles aoustiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.5 Déodage ave l'algorithmede Viterbi . . . . . . . . . . . . . . . . . . . . 7
1.2.6 Parole non-native . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Reonnaissane delaparole non-native . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Spéiitésde laparole non-native . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Impatsde laparole non-native surles performanes delareonnaissane automatique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Notions deonfusions phonétiques . . . . . . . . . . . . . . . . . . . . . . 10
1.3.4 Modélisationaoustiquede l'aent non-natif . . . . . . . . . . . . . . . . 12
1.3.5 Modélisationde laprononiation non-native . . . . . . . . . . . . . . . . . 18
1.3.6 Adaptation du modèlede langage àla parolenon-native . . . . . . . . . . 22
1.4 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 Notre ontribution pour la reonnaissane de parole non-native 2.1 Shéma général denosapprohespour laRAPnon-native . . . . . . . . . . . . . 27
2.1.1 Approhesutilisant une détetion delalangue maternelle . . . . . . . . . 27
2.1.2 Approhesmulti-aents . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Détetion de l'originedu louteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Détetion automatique desséquenes disriminantes de phonèmes . . . . . 31
2.2.2 Calulde probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.3 Classiation delalangue maternelle . . . . . . . . . . . . . . . . . . . . . 34
2.3 Modèle de prononiationnon-native . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1 Formalisation du modèle deprononiation . . . . . . . . . . . . . . . . . . 36
2.4 Constrution automatiquedu modèlede prononiation . . . . . . . . . . . . . . . 36
2.4.1 Extration desrègles deonfusions phonétiques . . . . . . . . . . . . . . . 38
2.5 Modiation desHMMen fontion desrèglesde onfusionsphonétiques . . . . . 40
2.5.1 Ajoutde nouveauxhemins danslesmodèles HMMs . . . . . . . . . . . . 41
2.6 Combinerla modélisationde prononiation etl'adaptation aoustiqueauxaents étrangers . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.6.1 MLLR etMAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6.2 Modèles ré-estimés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.7 Utilisationde ontraintes graphémiques . . . . . . . . . . . . . . . . . . . . . . . 47
2.7.1 Extration desontraintesgraphémiques . . . . . . . . . . . . . . . . . . . 48
2.7.2 Utilisationdesontraintesgraphémiques . . . . . . . . . . . . . . . . . . . 50
2.8 Approhesmulti-aents pour lareonnaissanede laparole non-native. . . . . . 50
2.8.1 Adaptation aoustiquemulti-aents . . . . . . . . . . . . . . . . . . . . . 51
2.8.2 Modélisation de prononiationmulti-aents . . . . . . . . . . . . . . . . . 52
2.8.3 Robustesse auxaentsinonnus . . . . . . . . . . . . . . . . . . . . . . . 55
2.9 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3 Expérimentations et résultats 3.1 Condition expérimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.1.1 ProjetHIWIRE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.1.2 CorpusHIWIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.1.3 Lexique etgrammaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.1.4 Notre systèmedeRAP,paramètres etmodèlesaoustiques . . . . . . . . . 61
3.1.5 Protoole de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1.6 Remarquesur l'utilisation delatehnique MLLR . . . . . . . . . . . . . . 63
3.2 Évaluationdesapproheslassiquesd'adaptation aoustiqueà l'aent étranger . 63 3.2.1 Évaluationsurles louteurs non-natifs . . . . . . . . . . . . . . . . . . . . 64
3.2.2 Évaluationsurles louteurs anglais . . . . . . . . . . . . . . . . . . . . . . 65
3.2.3 Adaptation aoustiqueau louteur . . . . . . . . . . . . . . . . . . . . . . 66
3.3 Évaluationde notreapprohe demodélisationdeprononiation . . . . . . . . . . 69
3.3.1 Systèmestestés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3.2 Tests surlaparole non-native . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3.4 Conlusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.4 Détetion de lalangue maternelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4.1 Constrution du déideur probabiliste . . . . . . . . . . . . . . . . . . . . 83
3.4.2 Exemplesde séquenes de phonèmes disriminantes . . . . . . . . . . . . . 84
3.4.3 Préision de ladétetion del'origine . . . . . . . . . . . . . . . . . . . . . 84
3.4.4 Combinaison de ladétetion de l'origine ave un système de RAP adapté à l'aent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.5 Approhesmulti-aent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.5.1 Adaptation aoustiquemulti-aent . . . . . . . . . . . . . . . . . . . . . . 86
3.5.2 Modélisationde prononiation multi-aent . . . . . . . . . . . . . . . . . 89
3.5.3 Robustesse à laparole anoniqueanglaise . . . . . . . . . . . . . . . . . . 89
3.5.4 Robustesse auxaents inonnus . . . . . . . . . . . . . . . . . . . . . . . 91
3.6 Adjontion de ontraintes graphémiques . . . . . . . . . . . . . . . . . . . . . . . 92
3.6.1 Tests deRAP non-native ave les ontraintes graphémiques . . . . . . . . 95
3.7 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4 Calulrapide de probabilité 4.1 Approhesexistantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.1.1 L'approhe PDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.1.2 PDE pour lealulde probabilité . . . . . . . . . . . . . . . . . . . . . . . 102
4.1.3 Séletion statiquede gaussiennepar VQ . . . . . . . . . . . . . . . . . . . 107
4.2 Notre approhe deEPDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.3 Notre approhe deséletion dynamique degaussiennes . . . . . . . . . . . . . . . 110
4.4 ApprohesDGS etEPDE ombinées . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.5 Evaluationexpérimentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.6 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Conlusions et perspetives A Listes de publiations B Exemple de règles de onfusions phonétiques B.1 Cas du françaisommelanguematernelle . . . . . . . . . . . . . . . . . . . . . . 129
B.2 Cas du greommelangue maternelle . . . . . . . . . . . . . . . . . . . . . . . . 130
B.3 Cas del'italien ommelangue maternelle. . . . . . . . . . . . . . . . . . . . . . . 131
B.4 Cas del'espagnol ommelangue maternelle . . . . . . . . . . . . . . . . . . . . . 132
Bibliographie 135