Contributions à la reconnaissance automatique de la parole non-native

(1)

HAL Id: tel-00588738

https://tel.archives-ouvertes.fr/tel-00588738

Submitted on 26 Apr 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Contributions à la reconnaissance automatique de la parole non-native

Ghazi Bouselmi

To cite this version:

Ghazi Bouselmi. Contributions à la reconnaissance automatique de la parole non-native. Interface homme-machine [cs.HC]. Université Henri Poincaré - Nancy I, 2008. Français. �tel-00588738�

(2)

D´epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine´ UFR STMIA

Contributions ` a la reconnaissance automatique de la parole non-native

TH` ESE

présentée et soutenue publiquement le Présentée et soutenue publiquement le 12 Novembre 2008 pour l’obtention du

Doctorat de l’universit´e Henri Poincar´e – Nancy 1

(sp´ecialit´e informatique)

par

Ghazi Bouselmi

Composition du jury

Rapporteurs : Pr. Ellouze Noureddine Besacier Laurent Directeur : Jean-Paul Haton Examinateurs : Jean-Fran¸cois Bonastre

Jean-Pierre Martens Dominique Fohr Irina Illina

Marie-Odile Berger

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

(3)

(4)

Je tiens à vivement remerier le professeur Jean-Paul Haton à qui je dois ma présene au

LORIA.Ilm'apermisdedéouvriretenvironnementetaétémondireteuretguidebienavant

ettethèse.Outre sesonseils etsonorientation,je luiexprime magratitudepoursagénérosité

etsabonté deoeur.

J'exprime également mareonnaissane pour IrinaIllina etDominique Fohr pour leur suivi

onstant, leurs onseils préieuxetleur soutient ontinu.Leurs enadrement etenouragements

inessants ont été des fateurslefs dansl'avanement de ma thèse. Au delà des onnaissanes

sientiquesqu'ilsm'ontapportées,'estunevéritableexpérienedesrelationshumainesquej'ai

eul'oasionde vivreave euxetqui m'a onsidérablement enrihi.

Je tiens aussià remerier M

me

Martine Kuhlmann, assistantede l'équipe Parole et Cortex

auLORIA,etM

me

NadineBeurné pour leurextrême amabilitéetgentillesse.Ellesont toujours

étéserviables,patientesetattentionnéesmême dansles situationsles plusdiiles.

Enn,ilmetientàoeurd'exprimermareonnaissaneàtouslesmembresdel'équipeParole

pour m'avoiraueilli parmi euxetaidétout aulongde mathèse. Je remerie partiulièrement

BlaisePotard, Farid Feiz, JeremyFixetImenJemaa pour leursoutient etleur amitié.

(5)

(6)

ma mère etma soeur.

Elles ont toujoursété

présentes, aux meilleurs

omme aux pires moments.

Toutema gratitude etamour.

(7)

(8)

Aidéeparlesavanéestehnologiques, lareonnaissaneautomatiquedelaparole(RAP)est

deplusenplusperformante.Toutefois,laRAPnonnativesoureenored'unehutesigniative

depréision.Cettedégradation estdue auxerreursd'aentetde prononiation queproduisent

les louteurs non natifs. Le travail présenté dans ette thèse s'insrit dans le adre de la RAP

non native.Les reherhes quenous avonsentreprises ont pour but d'atténuer l'impat desa-

ents non natifs sur les performanes des systèmes de RAP. Nous avons proposé une nouvelle

approhe pour la modélisation de prononiation non native permettant de prendre en ompte

plusieursaentsétrangers.Cetteapproheautomatiqueutiliseunorpusdeparolenonnativeet

deuxensemblesdemodèles aoustiques:lepremierensemblereprésentel'aentanoniquedela

langueibleetledeuxièmereprésentel'aentétranger.Ahaquephonèmedupremierensemble

de modèles sont assoiées une ou plusieurs prononiations étrangères, représentée haune par

une suite de phonèmes du deuxième ensemble. Les modèles aoustiques du premier ensemble

sont modiés par l'ajout de nouveauxhemins d'étatsHMM.Chaun de esnouveauxhemins

d'étatsHMMorrespond àuneprononiationétrangère, etestonstituédelaonaténationdes

modèles aoustiques des phonèmes orrespondants. Cette approhe néessite la onnaissane a

prioridelalangued'originedeslouteursdontlaparoleestàreonnaître.Aetégard,nousavons

proposéune nouvelle approhe pour la détetion de lalangue maternelle basée surla détetion

deséquenesdisriminantes dephonèmes.Par ailleurs,nousavonsproposéune approhe demo-

délisationde prononiation non native multi-aent permettant de prendreen ompte plusieurs

aents étrangers simultanément. D'autre part, dans le but d'aner la préision de la modé-

lisation de prononiation, nous avons proposé l'utilisation de ontraintes graphémiques. Nous

avons onçu une approhe automatique pour la detetion des ontraintes graphémiques et leur

prise enompte pour l'approhe de RAP nonnative. Vuquenotre méthode de modélisation de

prononiationaugmentelaomplexité desmodèlesaoustiques, nousavonsétudié lesapprohes

dealulrapide de vraisemblane pour les GMM.En outre, Nousavonsproposétrois nouvelles

approheseaesdont lebut estl'aélérationdu alulde vraisemblanesansdégradation de

lapréision.

Mots-lés: Reonnaissane automatique de la parole, parole non native, modélisation de pro-

noniation,modélisationaoustique,multi-aent,détetiondelalanguematernelle,ontraintes

graphémiques,alulrapide devraisemblane.

Abstrat

Speehreognitiontehnologyattainedahighlevelofreliability,mainlythankstotehno-

logialadvanes. Nevertheless, automati speeh reognition (ASR)systems arestill vulnerable

to nonnative aents. Theirpreision drastiallydrops asnon native speakers ommit aousti

and pronuniation errors. Our researh work aimsat rendering ASR systems more tolerant to

nonnative aents. We haveproposed anew approah for nonnative ASR basedonpronunia-

tionmodelling.Thisapproah usesanon nativespeehorpusand twosets ofaoustimodels:

the rst set stands for the anonial target language aent and the seond stands for the non

nativeaent.Itisanautomatedapproahthatassoiates,to eahphonemefromtherstsetof

(9)

theseondsetofmodels.ThesepronuniationsaretakenintoaountthroughaddingnewHMM

pathstothemodelsofeahphonemefromtherstsetofmodels.EahofthesenewHMMpaths

orresponds to one non native pronuniation and onsists of the onatenation of the models

of the underlying phones from the seond set. The pronuniation modeling approah requires

thea priori knowledge of theoriginof thetested speakers. For thatmatter we have developed

a new approah for the automati detetion of the mother tong of non native speakers. This

approah is based on the detetion of disriminative phoneme sequenes, and is usedas a rst

step of the ASP proess. As opposed to origin detetion, we have proposeda multi-aent non

nativepronuniationmodelingapproahthattakesinto aountseveralforeignaents.Besides,

wehavedevelopedanapproahofautomatiphoneme-graphemealignmentinordertotakeinto

aount the graphemi onstraints within the non native pronuniation modeling. The gaol of

this proedure is the sharpen the pronuniation modeling and enhane the ASR auray. As

ournonnatie ASRapproahinreasestheomplexityofaoustimodels,wehave studiedsome

fast likelihood omputation tehinques, and we have proposed three novel appraohes thataim

at enhaning likelihood omputation speed withoutharmingASR preision.

Keywords: Automati speeh reognition, non-native speeh, pronuniation modeling, aous-

ti modeling, multi-aent, native language detetion , graphemi onstraints, fast likelihood

omputation

(10)

Introdution générale

1

État de l'art

1.1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Reonnaissane analytiquede laparole . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.1 Paramètrisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.2 Modèles de langagestatistiques . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.3 Modèlede prononiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.4 Modèles aoustiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.5 Déodage ave l'algorithmede Viterbi . . . . . . . . . . . . . . . . . . . . 7

1.2.6 Parole non-native . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Reonnaissane delaparole non-native . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3.1 Spéiitésde laparole non-native . . . . . . . . . . . . . . . . . . . . . . 8

1.3.2 Impatsde laparole non-native surles performanes delareonnaissane automatique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.3 Notions deonfusions phonétiques . . . . . . . . . . . . . . . . . . . . . . 10

1.3.4 Modélisationaoustiquede l'aent non-natif . . . . . . . . . . . . . . . . 12

1.3.5 Modélisationde laprononiation non-native . . . . . . . . . . . . . . . . . 18

1.3.6 Adaptation du modèlede langage àla parolenon-native . . . . . . . . . . 22

1.4 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 Notre ontribution pour la reonnaissane de parole non-native 2.1 Shéma général denosapprohespour laRAPnon-native . . . . . . . . . . . . . 27

2.1.1 Approhesutilisant une détetion delalangue maternelle . . . . . . . . . 27

2.1.2 Approhesmulti-aents . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2 Détetion de l'originedu louteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.1 Détetion automatique desséquenes disriminantes de phonèmes . . . . . 31

(11)

2.2.2 Calulde probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.2.3 Classiation delalangue maternelle . . . . . . . . . . . . . . . . . . . . . 34

2.3 Modèle de prononiationnon-native . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.3.1 Formalisation du modèle deprononiation . . . . . . . . . . . . . . . . . . 36

2.4 Constrution automatiquedu modèlede prononiation . . . . . . . . . . . . . . . 36

2.4.1 Extration desrègles deonfusions phonétiques . . . . . . . . . . . . . . . 38

2.5 Modiation desHMMen fontion desrèglesde onfusionsphonétiques . . . . . 40

2.5.1 Ajoutde nouveauxhemins danslesmodèles HMMs . . . . . . . . . . . . 41

2.6 Combinerla modélisationde prononiation etl'adaptation aoustiqueauxaents étrangers . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.6.1 MLLR etMAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.6.2 Modèles ré-estimés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.7 Utilisationde ontraintes graphémiques . . . . . . . . . . . . . . . . . . . . . . . 47

2.7.1 Extration desontraintesgraphémiques . . . . . . . . . . . . . . . . . . . 48

2.7.2 Utilisationdesontraintesgraphémiques . . . . . . . . . . . . . . . . . . . 50

2.8 Approhesmulti-aents pour lareonnaissanede laparole non-native. . . . . . 50

2.8.1 Adaptation aoustiquemulti-aents . . . . . . . . . . . . . . . . . . . . . 51

2.8.2 Modélisation de prononiationmulti-aents . . . . . . . . . . . . . . . . . 52

2.8.3 Robustesse auxaentsinonnus . . . . . . . . . . . . . . . . . . . . . . . 55

2.9 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3 Expérimentations et résultats 3.1 Condition expérimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.1.1 ProjetHIWIRE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.1.2 CorpusHIWIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.1.3 Lexique etgrammaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.1.4 Notre systèmedeRAP,paramètres etmodèlesaoustiques . . . . . . . . . 61

3.1.5 Protoole de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.1.6 Remarquesur l'utilisation delatehnique MLLR . . . . . . . . . . . . . . 63

3.2 Évaluationdesapproheslassiquesd'adaptation aoustiqueà l'aent étranger . 63 3.2.1 Évaluationsurles louteurs non-natifs . . . . . . . . . . . . . . . . . . . . 64

3.2.2 Évaluationsurles louteurs anglais . . . . . . . . . . . . . . . . . . . . . . 65

3.2.3 Adaptation aoustiqueau louteur . . . . . . . . . . . . . . . . . . . . . . 66

3.3 Évaluationde notreapprohe demodélisationdeprononiation . . . . . . . . . . 69

3.3.1 Systèmestestés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.3.2 Tests surlaparole non-native . . . . . . . . . . . . . . . . . . . . . . . . . 70

(12)

3.3.4 Conlusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

3.4 Détetion de lalangue maternelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.4.1 Constrution du déideur probabiliste . . . . . . . . . . . . . . . . . . . . 83

3.4.2 Exemplesde séquenes de phonèmes disriminantes . . . . . . . . . . . . . 84

3.4.3 Préision de ladétetion del'origine . . . . . . . . . . . . . . . . . . . . . 84

3.4.4 Combinaison de ladétetion de l'origine ave un système de RAP adapté à l'aent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.5 Approhesmulti-aent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.5.1 Adaptation aoustiquemulti-aent . . . . . . . . . . . . . . . . . . . . . . 86

3.5.2 Modélisationde prononiation multi-aent . . . . . . . . . . . . . . . . . 89

3.5.3 Robustesse à laparole anoniqueanglaise . . . . . . . . . . . . . . . . . . 89

3.5.4 Robustesse auxaents inonnus . . . . . . . . . . . . . . . . . . . . . . . 91

3.6 Adjontion de ontraintes graphémiques . . . . . . . . . . . . . . . . . . . . . . . 92

3.6.1 Tests deRAP non-native ave les ontraintes graphémiques . . . . . . . . 95

3.7 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4 Calulrapide de probabilité 4.1 Approhesexistantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.1.1 L'approhe PDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.1.2 PDE pour lealulde probabilité . . . . . . . . . . . . . . . . . . . . . . . 102

4.1.3 Séletion statiquede gaussiennepar VQ . . . . . . . . . . . . . . . . . . . 107

4.2 Notre approhe deEPDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.3 Notre approhe deséletion dynamique degaussiennes . . . . . . . . . . . . . . . 110

4.4 ApprohesDGS etEPDE ombinées . . . . . . . . . . . . . . . . . . . . . . . . . 113

4.5 Evaluationexpérimentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

4.6 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Conlusions et perspetives A Listes de publiations B Exemple de règles de onfusions phonétiques B.1 Cas du françaisommelanguematernelle . . . . . . . . . . . . . . . . . . . . . . 129

B.2 Cas du greommelangue maternelle . . . . . . . . . . . . . . . . . . . . . . . . 130

(13)

B.3 Cas del'italien ommelangue maternelle. . . . . . . . . . . . . . . . . . . . . . . 131

B.4 Cas del'espagnol ommelangue maternelle . . . . . . . . . . . . . . . . . . . . . 132

Bibliographie 135