• Aucun résultat trouvé

Robustesse à la parole anonique anglaise

3.5 Approhes multi-aent

3.5.3 Robustesse à la parole anonique anglaise

Le but de e test est d'évaluer le omportement des approhes non-natives multi-aent en présene de parole anonique de la langue ible. Nous avons utilisé le orpus de test TIMIT. Auune adaptation au louteur n'a été utilisée. La grammaire est une bigramme onstruite à partirdestransriptionsduorpus TIMIT etlelexiqueomporte6500 mots .

D'aprèsletableau 3.18,lesapprohesd'adaptation aoustiquemulti-aent introduisent une dégradation signiative de la préision de la reonnaissane voale, en omparaison ave le système de base. Par rapport au système de base, le système TP−M ulti augmente le taux d'erreurenmotsde43%enphrasesde28%.LeTR−M ulti augmenteletauxd'erreurenmotsde

Tab. 3.17 Résultats des approhes de modélisationde prononiation multi-aent. Tests ee-tués sur les louteurs non-natifs.Les tauxd'erreurssont exprimés en%.

A. Grammaire ontrainte :

Sansadaptationau louteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T 6.0 12.8 5.6 12.2 10.4 19.2 7.0 15.2 7.2

T-TP−M ulti 2.1 4.6 1.5 3.5 4.6 10.2 2.8 6.6 2.7 -62.5%

T-TR−M ulti 1.7 4.2 1.0 2.7 4.5 9.5 2.6 6.0 2.4 -66.7%

Adaptation MLLR aulouteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T+Mloc 4.2 8.8 3.8 9.7 8.0 15.0 4.6 10.2 5.1

T-TP−M ulti +Mloc 2.0 4.4 1.2 3.0 4.4 8.5 2.2 5.2 2.4 -52.9% T-TR−M ulti +Mloc 1.8 4.2 0.7 2.2 4.2 8.9 2.2 5.2 2.2 -56.9%

Adaptation MAP aulouteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T+Ploc 2.7 5.9 1.8 4.7 4.6 9.1 2.5 6.0 2.9

T-TP−M ulti +Ploc 1.6 3.7 1.0 2.3 2.5 5.3 1.3 3.4 1.7 -41.4% T-TR−M ulti +Ploc 1.3 3.2 0.6 1.8 2.4 5.0 1.7 4.2 1.4 -51.7%

B. Grammaire libre : Sansadaptationau louteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T 35.7 47.9 36.7 49.2 43.5 52.0 39.9 53.5 38.5

T-TP−M ulti 18.8 30.7 15.3 28.3 22.2 36.2 21.2 36.1 19.1 -51.6% T-TR−M ulti 15.7 27.6 12.4 24.3 19.5 32.3 18.7 33.5 16.2 -59.0%

Adaptation MLLR aulouteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T+Mloc 27.4 39.2 27.2 39.7 32.7 44.3 30.4 45.9 29.1

T-TP−M ulti +Mloc 16.2 27.4 12.8 23.8 19.5 33.1 18.2 31.7 16.4 -43.6% T-TR−M ulti +Mloc 14.0 24.2 10.4 20.9 17.3 30.2 15.6 29.5 14.1 -44.3%

Adaptation MAP aulouteur :

Français Gre Italien Espagnol Moyenne

Méthode WER SER WER SER WER SER WER SER WER Rédution

T+Ploc 19.3 30.4 17.5 30.2 21.5 33.5 21.0 34.9 19.7

T-TP−M ulti +Ploc 12.5 21.6 9.7 18.9 15.2 26.5 14.5 26.1 12.7 -35.5% T-TR−M ulti +Ploc 10.9 19.0 8.0 16.7 13.9 24.8 11.7 22.7 11.0 -44.2%

237%etenphrasesde95%. Cettedégradationdelapréisionestprévisiblepuisquel'adaptation aoustiqueàl'aent étrangeréloigneles modèles aoustiques de laprononiation anonique de lalangueible.

Notonségalement queladégradationdelapréisionintroduiteparlesystèmeTR−M ulti est plusimportante queelleintroduiteparlesystèmeTP−M ulti.Eneet,l'adaptation aoustique àl'aide dela tehnique de ré-estimationrapprohe les modèles aoustiques auxaratéristiques des données d'adaptation (parole non-native) d'une manière plus aentuée que la tehnique MAP.

COntrairement aux approhes d'adaptation aoustique multi-aent, les approhes de mo-délisation de prononiation multi-aent introduisent une faible dégradation de la préision de reonnaissanevoaleparrapportausystèmedebase.L'augmentation dutauxd'erreurenmots estde 2.7% pour les deux systèmes T-TP−M ulti etT-TR−M ulti.Le taux d'erreur en phrases augmenteenmoyennede5.7%.Ladégradationdepréision introduiteparesapprohesesttrès faibleen omparaison ave lesapprohe d'adaptation aoustiquemulti-aent.

Ceiestdûàlastruture desmodèlesaoustiquesutilisésdanslessystèmesT-TP−M ulti et T-TR−M ulti (f. gure 2.15). Chaun de es modèles ontient lemodèle aoustique anonique dela langueible orrespondant en parallèle à d'autresmodèles aoustiquement adaptésà l'a-ent étranger. Cette struture permet au moteur de reonnaissane de séletionner, au sein de haun des modèles aoustiques des systèmes T-TP−M ulti et T-TR−M ulti, le hemin HMM orrespondant au modèle anonique ou l'un des hemins orrespondant aux modèles adaptées à l'aent étranger. Puisque les modèles anoniques sont plus prohes des aratéristiques de la parole du orpus TIMIT, les hemins orrespondant à es modèles anoniques ont une plus grandeprobabilitéd'être séletionnés.

D'après les résultats préédents, nous onluons que les approhes d'adaptation aoustique multi-aent dégradent signiativement la préision de laRAP pour les louteurs natifs. Nous onluons également que les approhes de modélisation de prononiation multi-aent sont ro-bustesvis-à-vis de laparoleanonique delalangue ible,et introduisent une faible dégradation deperformanes.

Tab. 3.18 Adaptation aoustique et modélisation de prononiation multi-aent, testée sur le orpus de test de TIMIT.Le modèle de langage utilisé est une grammaire bigramme, onstruite à partir des transriptions du orpus TIMIT.

Résultats Augmentation relative

Approhe Système WER SER WER SER

De base T 11.3 34.2

Adaptation aoustique aux aents TP−M ulti 16.2 43.8 +43.4% +28.1%

non-natifs (multi-aent) TR−M ulti 38.1 66.9 +237% +95.6%

Modélisation deprononiation T-TP−M ulti 11.6 36.4 +2.7% +6.4%

(multi-aent) T-TR−M ulti 11.6 35.9 +2.7% +5.0%

3.5.4 Robustesse aux aents inonnus

Ces testsont pourbut de vérierlarobustessedesméthodes d'adaptationaoustiques et de modélisationde prononiation multi-aent vis-à-vis des aents inonnus. Rappelons que pour

le test de robustesseauxaentsinonnus, laparole non-native orrespondant à l'aent du lo-uteur detest n'est jamaisrenontré lors de l'adaptation non-native (f. Ÿ2.8.3).

Letableau3.19illustrelesrésultatsdutestderobustessepourl'approhed'adaptation aous-tiquemulti-aent. LesystèmeTP−M ulti réalise,aveune grammaireontrainte,unerédution moyenne dutauxd'erreurenmotsde55%etenphrasesde51%parrapportausystèmedebase. Le système TR−M ulti réalise une rédution moyenne du taux d'erreur en mots de 45% et en phrasesde 47%par rapportau systèmede base.

Enomparant es résultatsave eux du tableau 3.16, on peut voir quel'adaptation aous-tique multi-aent est moins préise lorsque l'aent orrespondant à l'origine des louteurs de test n'est pas renontré dansle orpus de développement. Pour le système TP−M ulti, le taux d'erreurenmots augmente enmoyenne de17%etletauxd'erreurenphrasesaugmentede13%. La dégradationdelapréision dereonnaissaneest plusaentuéepourlesystèmeTR−M ulti, ave une augmentation du taux d'erreur en mots de 37% et en phrases de 26%. Cette baisse de préision est prévisible, puisque, pour les tests de robustesseaux aents inonnus, l'aent orrespondant à l'originedes louteurs de test n'est paspris en ompte dans laphase de déve-loppement des systèmes TP−M ulti etTR−M ulti. Celaexplique également la grande perte de préision pour le système TR−M ulti omparé au systèmeTP−M ulti, puisque la tehnique de ré-estimation esttrès sensibleauxaratéristiques delaparole duorpus d'adaptation. D'après es résultats, nous pouvons onlure que l'approhe de modélisation de prononiation multi-aent à travers la tehnique MAP (TP−M ulti) est robuste aux aents inonnus. L'approhe de modélisationdeprononiation multi-aent par ré-estimation(TR−M ulti)estmoinsrobuste auxaents inonnus, omparéeà l'approhe TP−M ulti.

Lesrésultatsdu test de robustesseauxaentsinonnus pour lesméthodesde modélisation de prononiation multi-aent sont présentésau tableau 3.20.Les systèmesT-TP−M ulti et T-TR−M ulti améliorent signiativement les performanes pour les louteurs non-natifsomparés au système de baseT. Ave une grammaire ontrainte, la rédutiondu taux d'erreur en mots variede 38%à 62%, etenphrasesde 35%à 65%.

Par ailleurs, pour toutes les onditions de test,le systèmeT-TR−M ulti réalise en moyenne unepréisionlégèrementsupérieureàelledusystèmeT-TP−M ulti,aveunerédutionmoyenne destaux d'erreuren mots de12% etenphrasesde 6%.

nousobservonsqueles approhes demodélisationde prononiation multi-aent perdent,en moyenne,15%enpréisionlorsquel'aentorrespondantàl'originedulouteurdetestn'estpas renontrédanslaphasededéveloppement (enomparaisonavelesrésultatsdutableau3.17,où lesaentstestésontétéobservésdanslaphasededéveloppement).Cettebaissedeperformanes est attenduepuisque les aentsà reonnaître n'ont pasété prisen ompte. L'augmentation du tauxd'erreur enmots variede0.2% à0.5% (valeur absolue)eten phrasesde0.5% à1%(valeur absolue). Nous en onluons que les approhes de modélisation de prononiation multi-aent sont robustesfaeauxaentsnon renontrés danslaphasede développement.