• Aucun résultat trouvé

Tests de RAP non-native ave les ontraintes graphémiques

3.6 Adjontion de ontraintes graphémiques

3.6.1 Tests de RAP non-native ave les ontraintes graphémiques

Letableau3.22ontient lesrésultatsdelaméthodedemodélisationdeprononiationTGRA -TR.Lesensembles de modèles aoustiquesutilisés dansetteméthode sont :

premier ensemble:les modèlesaoustiques anoniques delalangue ible auxquelsont été rajoutées les ontraintes graphémiques,TGRA.

deuxième ensemble : modèles aoustiques de la langue ible adaptés à l'aent non-natif par ré-estimation, TR.

Enomparaison avel'approhe T-TR (f. tableaux3.6,3.7et 3.8),lesystèmeTGRA-TR réduit (enmoyenne) le taux d'erreur en mots de 5.9% eten phrases de 4.4%, ete en utilisant une grammaire libre. Cette augmentation de performanes est maximale ave l'utilisation de l'adaptationau louteur par MAP, ave une rédution en taux d'erreurs en mots de 15%et en phrasesde 7.7%.L'adjontiondeontraintesgraphémiques augmentelégèrement lapréision de lamodélisationde prononiation non-native.

Toutefois, l'approhe TGRA-TR augmente en moyenne le taux d'erreurs en mots de 1.3% (relatif) eten phrases de 1.5% (relatif) en utilisant une grammaire ontrainte, omparé à

l'ap-prohe T-TR. Cette augmentation d'erreurs est faible, les performanes des deux systèmes peuvent êtreonsidéréesommeidentiques.Ceipourrait-êtreexpliquépar lataillerelativement petitedu orpusHIWIRE. En eet,l'adjontion des ontraintes graphémiques a pour but d'af-ner la modélisation de prononiation non-native, et e en onsidérant les ouples (phonème, graphèmes) au lieu des phonèmes simples. Cei a pour onséquenes d'augmenter le nombre d'entités phonétiques à gérer, i.e.ouples de (phonème, graphèmes). Dansle asdu orpus HI-WIRE, nousavons obtenus 148 ouples (phonème, graphèmes), ontre 48 phonèmes de départ. La taille du orpus HIWIRE pourrait-être trop faible pour une modélisation de prononiation able deesentités phonétiques.

Deplus, la grammaire ontrainte du projet HIWIRE (langage de ommande déterministe) guidelemoteurdereonnaissanevoale.Lesgainsenpréisiondesmodèlesaoustiquesapportés par les ontraintes graphémiques n'ont qu'un faible poids omparés aux ontraintes grammati-ales imposéespar lelangage de ommande.

3.7 Conlusion

Danse hapitre,nous avons présenté les diérentes expérimentationsque nousavons ee-tuées.

Tout d'abord, nous avons évalué les méthodeslassiques d'adaptation aoustiqueà l'aent étranger MLLR, MAP etré-estimation. Nous avons vuque es méthodeslassiques améliorent signiativement les performanes de la RAP pour les louteurs non-natifs. Toutefois, es mé-thodesdégradent lapréision delaRAP pourles louteurs natifs de lalangueible.

Nous avons ensuite présenté les résultats des tests des approhes de modélisation de pro-noniation pour laparole non-native. Laplupart desméthodestestéesont réalisé unerédution signiative des taux d'erreurs atteignant 70.8%. Nous avons vu que l'utilisation de deux en-semblesde modèles aoustiquesdiérentsdanslamodélisationde prononiationa des réperus-sionspositivessurlapréisiondelaRAP.Notamment,lessystèmesT-TR etTR-TP réalisent les meilleursrésultats parmi lesméthodestestées.

Nous avons également onstaté que l'utilisation de l'adaptation à l'aent étranger par la tehnique MLLR (globale) dans la modélisation de prononiation n'améliore pas signiative-ment lapréision delaRAP non-native. Contrairement, l'utilisationde latehnique MAP dans lamodélisationdeprononiationréduitsigniativementlestauxd'erreurs.Deplus,l'utilisation del'adaptationpar latehnique deré-estimation danslamodélisationde prononiationproduit la meilleure préision pour les louteurs non-natifs. Cei est prévisible puisque la tehnique de ré-estimation n'est autreque l'apprentissage desmodèles aoustiques.

Lestestsdesapprohesdemodélisationdeprononiationeetués pour leslouteursanglais ont montré quela plupart de esapprohes dégradent lesperformanes en omparaison ave le systèmede base.

Néanmoins,lessystèmes T-TM, T-TP etT-TR ont réalisé uneamélioration des perfor-manes omparés ausystèmede base, ete sansadaptation au louteur.

Par ailleurs, les systèmes T-TM, T-TP et T-TR ont des performanes omparables au système de base, en utilisant une adaptation MAP au louteur. Nous en onluons que l'utili-sation des modèles anoniques de la langue ible (T) pour la modélisation de prononiation

Tab. 3.22 Résultats de la modélisation de prononiation TGRA-TR ombinée ave les ontraintes graphémiques. Tests eetués sur les louteurs non-natifs. Les taux d'erreur sont exprimés en%.

A. Grammaire ontrainte :

Sansadaptationau louteur:

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T 6.0 12.8 5.6 12.2 10.4 19.2 7.0 15.2 7.2

TGRA-TR 2.0 4.7 1.2 3.2 2.9 6.7 3.1 7.4 2.2 -69.4%

Adaptation MLLRau louteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T+Mloc 4.2 8.8 3.8 9.7 8.0 15.0 4.6 10.2 5.1

TGRA-TR +Mloc 1.7 3.8 0.9 2.5 2.0 5.1 2.3 5.8 1.7 -66.7%

Adaptation MAPau louteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T+Ploc 2.7 5.9 1.8 4.7 4.6 9.1 2.5 6.0 2.9

TGRA-TR +Ploc 1.5 3.2 0.7 2.2 1.5 3.9 1.4 3.6 1.3 -55.2%

A. Grammaire Libre :

Sansadaptationau louteur:

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T 35.7 47.9 36.7 49.2 43.5 52.0 39.9 53.5 38.5

TGRA-TR 12.9 21.7 11.8 21.3 18.4 31.3 23.2 35.7 15.3 -60.3%

Adaptation MLLRau louteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T+Mloc 27.4 39.2 27.2 39.7 32.7 44.3 30.4 45.9 29.1

TGRA-TR +Mloc 12.0 20.7 10.4 19.6 15.4 27.2 18.8 32.5 13.3 -54.3%

Adaptation MAPau louteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T+Ploc 19.3 30.4 17.5 30.2 21.5 33.5 21.0 34.9 19.7

TGRA-TR +Ploc 8.5 17.0 8.3 17.3 11.4 22.0 12.2 24.5 9.7 -50.8%

TGRA : Modèles anoniques de la langue ible auxquels ont été rajoutées les ontraintes graphémiques.

onserve lapréision desmodèles aoustiques pour laparole native.

D'aprèslesonstationspréédentes, l'approhedemodélisationdeprononiationT-TR réa-lisela meilleurerédution de l'erreur de RAPpour laparole non-native etpréserve lapréision de RAPpour laparole native.

Parlasuite,nousavonsprésentélesrésultatsdel'approhedemodélisationdeprononiation T-TR ombinée ave une détetion de l'origine. Nousavonsobservé une faible dégradation de lapréision de laRAP,omparé au systèmeT-TR ave onnaissane a priori de l'origine des louteurs. Cette dégradation, de l'ordre de 4%(relatif), estdûe aux erreurs de lassiation de lalangue d'origine.

Nousavonsensuiteprésentélesrésultatsdesapprohesdemodélisationaoustique(TP−M ulti et TR−M ulti) et de prononiation (T-TP−M ulti et T-TR−M ulti) multi-aent. Les résultats ontmontréquetoutesesméthodessontrobustesauxaentsinonnus.Toutefois,lesapprohes de modélisation aoustiques multi-aent sont moinsrobustes aux aents inonnus que les ap-prohesde modélisationde prononiation multi-aent.

Par ailleurs,nousavonsonstatéquel'approhe T-TR−M ulti dégrades lapréisionen mots de la RAP de 13%, omparée au système T-TR ave une détetion de l'origine. La modélisa-tion simultanée deplusieurs aentsétrangers a l'avantage de réduirelenombre d'ensembles de modèles aoustiquespour laRAPnon-native.Eneet,unseulensembledemodèlesaoustiques multi-aent estutilisé, au lieu de plusieurs ensembles de modèles adaptés haun à un unique aent non-natif. De plus, auune détetion de l'aent étranger n'est néessaire. Néanmoins, ette modélisation multi-aent introduit une légère dégradation de la préision pour la RAP non-native,enomparaisonavelamodélisationmono-aent.PourlaRAPnon-native,un om-promisest àétablir entrelaomplexité dusystème deRAP etsapréision.

Enn, nous avons présenté les résultats de RAP suite à l'adjontion de ontraintes graphé-miquesàlamodélisationdeprononiation(TGRA-TR).Nousavonsonstatéquelesontraintes graphémiquesonteuuneréperussionnonsigniativesurlapréisiondelaRAPenutilisantune grammaireontrainte.Néanmoins,une rédutionsigniativedu tauxd'erreuren mots (15%)a étéobservéeenutilisantunegrammairelibreetuneadaptation MAPaulouteur.Nousenavons onlu que le orpus HIWIRE est de taille trop faible pour une modélisation de prononiation able enutilisant les ontraintes graphémiques.

Calul rapide de probabilité

Sommaire

4.1 Approhes existantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.1.1 L'approhePDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.1.2 PDEpourlealuldeprobabilité. . . . . . . . . . . . . . . . . . . . . . 102 4.1.3 SéletionstatiquedegaussienneparVQ . . . . . . . . . . . . . . . . . . 107 4.2 Notreapprohe de EPDE . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.3 Notreapprohe de séletiondynamique de gaussiennes . . . . . . . 110 4.4 Approhes DGS etEPDEombinées. . . . . . . . . . . . . . . . . . . 113 4.5 Evaluationexpérimentale. . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.6 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Glossaire :

HMM :Hiddem Markov Model,modèlede Markovahé. GMM:Guassian Mixture Model, mixture demodèles guassiens.

PDE:PartialDistaneElimination,méthodelassiquepourlealulrapidedeprobabilité. VQ:Vetor Quantization (quantiation vetorielle).

gaussienne optimale (meilleure gaussienne, gaussienne prépondérante) :pour un GMMet uneobservationdonnés,désignelagaussienne(appartenantauGMM)donnantlameilleure probabilitéd'émission de l'observation(omparée auxautres gaussiennesdu GMM). gaussienne sous-optimale:qui n'est paslagaussienne optimale.

probabilité élémentaire :pour unegaussienne etuneobservation multi-dimentionnelles, la probabilité élémentaire au rang r est laprobabilité de lagaussienne mono-dimentionnelle de rangr.Lealulde probabilitéd'une gaussiennede dimension N impliquele alul de

N probabilitésélémentaires.

probabilité d'émission totale d'une gaussienne : probabilité d'émission d'une gaussienne pour uneobservation donnée.

probabilitéd'émissiontotale d'unGMM:sommepondéréedesprobabilitésd'émissiondes gaussiennesqui omposent le GMM,pourune observation donnée.

rang d'arrêt : le rang (dimension) auquel l'approhe PDE arrête le alul de probabilité pour unegaussienne sous-optimale.

p(x|G) :probabilité d'émission d'unedistribution gaussienne Gpour une observationx. ℓ(x|G) :logarithmedelaprobabilité d'émissiondistributiongaussienneGpourune

obser-vation x,ℓ(x|G) =log(P(x|G)):log-probabilité.

D(x|G):distaneentreuneobservationxetunedistributiongaussienneG,dénieomme lelogarithmede laprobabilité d'émission de Gpour x,D(x|G) =ℓ(x|G).

Introdution

Danslehapitre2,nousavonsprésentéplusieursméthodesd'adaptationdesystèmesdeRAP auxaentsnonnatifs.Parmiesméthodes,lamodélisationdeprononiationsétrangèrespermet deombinerdesmodèlesanoniquesdelalangueibleavedesmodèlesaoustiquementadaptés à l'aent non natif (ou aux aents non natifs). Dans ette approhe, nousrajoutons, au sein de haque modèle dephonème delalangue ible,des hemins HMMsorrespondants àdes mo-dèles de phonèmes qui représentent les prononiations étrangères. Deette manière, les HMMs modiésontiennent unhemin d'étatspour laprononiation anoniquedelalangueible,ainsi qu'un hemin d'états par prononiation alternative. Ces modèles modiés permettent don de reonnaître aussi biende laparole anonique de la langue ible que de laparole prononée par deslouteurs étrangers.

Nousavonsmontréquenotreapproheimpliqueunfaibleaugmentationdelaomplexitédes modèles aoustiques touten intégrant toutes les prononiations étrangères possibles(f. 2.5.1). La taille des modèles s'aroîtd'une manière linéaire en fontion du nombre de prononiations alternatives prises en ompte. Toutefois, un aroissement existe et ela aete le temps et la hargede alulpour le systèmede RAP.En eet,nousobservonsunaroissement de la om-plexité des modèles HMM d'un fateur de 3, en moyenne. Ce qui onduirait à tripler le temps de alul pour l'évaluation de probabilité (likelihood) des modèles aoustiques lors de la reon-naissane voale. Nosexpérimentations sur le orpus HIWIRE montrent une augmentation du temps de aluldeprobabilité variant de 100%à 200%.

Cette observation a motivé notre travail de reherhe dans le domaine du alul rapide de probabilité.Nousavonsdéveloppédeuxméthodesdestinéesàréduireletempsdealulde proba-bilitédesmodèlesaoustiquesdanslessystèmesdeRAP.Lapremièreestunproédédeséletion automatiquedegaussienneslorsdelaphasedealulde probabilité.Ladeuxièmeestune exten-sion de laméthode PDE (Partial Distane Elimination) permettant une rédution arue de la hargede alul([Bei andGray,1985 ℄,[Pellom etal.,2001℄). Danslasuite dee hapitre, nous allonsTout d'abord dérirequelquesapprohesdel'état del'artqui ont étédéveloppées dansle adredualulrapidedeprobabilité.NousdérironsensuitenotreméthodeEPDE(PDEétendu, Extended PDE)[Bouselmi and Cai,2008 ℄.Nousallonsensuiteprésenternotreméthodede séle-tiondynamique degaussiennes(DGS, Dynami Gaussian Seletion) ([Caiand Bouselmi, 2008 ℄, [Bouselmi and Cai,2008 ℄,[Caietal.,2008 ℄). Nousprésenterons ensuite uneombinaisonde nos deuxméthodes, DGSetEPDE, appeléeEDGS (Extended Dynami GuassianSeletion).La mé-thode EDGS permetune préision arue etune rédutionde temps de alul plus importante pourlaRAP.Enn, nousdérirons lesrésultatsexpérimentaux etnousnirons lehapitre ave onlusion.

4.1 Approhes existantes

D'une manière générale, les systèmes de RAP à grand voabulaire (large voabulary onti-nuous speehreognition,LVCSR) utilisentdesmodèles HMMsàdensitésontinues (ontinuous densityHMMs,CD-HMMs)pourlamodélisationaoustiquedessignauxdeparole.Cessystèmes utilisent des modèles aoustiques dépendants du ontexte pour une préision arue de la re-onnaissane, i.e. des triphones. Le nombre de triphones peut être ompris entre 600 et 2000, donnant lieuà un nombred'états dansles modèles HMMspouvant atteindre les6000. Celarge nombre d'états et de modèles gaussiens induit en une harge de alul importante lors de la reonnaissane puisque laprobabilité de haun des états HMMatifs est évaluée pour haque observationdusignaldeparole.LesexpérimentationsdeGalesetal.[Galesetal.,1999 ℄montrent quelealuldeprobabilité onsommede30%à70%dutempsdereonnaissanetotal.Laharge dualulde probabilité dépend delatâhe etde laomplexité desmodèles.