• Aucun résultat trouvé

Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée

N/A
N/A
Protected

Academic year: 2022

Partager "Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée"

Copied!
188
0
0

Texte intégral

(1)

D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´ UFR STMIA

Mesures de confiance trame-synchrones et locales en reconnaissance

automatique de la parole

TH` ESE

pr´esent´ee et soutenue publiquement le 9 octobre 2007 pour l’obtention du

Doctorat de l’universit´ e Henri Poincar´ e – Nancy Universit´ e

(sp´ ecialit´ e informatique)

par

Joseph Razik

Composition du jury

Pr´ esident : Ren´e Schott Professeur, UHP–LORIA Nancy

Rapporteurs : Jean-Fran¸cois Bonastre Maˆıtre de conf´erences (HDR), LIA–CERI Avignon G´erard Chollet Directeur de recherche CNRS, ENST–TSI Paris Examinateurs : Laurent Besacier Maˆıtre de conf´erences (HDR), CLIPS–IMAG Grenoble

Jean-Paul Haton Professeur, UHP–LORIA Nancy (Directeur)

Odile Mella Maˆıtre de conf´erences, UHP–LORIA Nancy (Co-directrice)

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

(2)
(3)

Mes remeriementsvont prinipalement aux personnes dont les noms sont dans lagrille i-

dessous.

Je remerie les diérentes personnes obayes qui ont bien voulu prendre sur leur temps et

partiiperà l'expérienede ompréhensionde texte.

Jeremerieégalementtouseuxquej'aioubliésainsiquetouseuxquilirontesquelqueslignes

etlespages quisuivent.

1 2 3

4 5

6 7

8 9

10

11 12

13 14

15

16 17

18

19 20 21

22

23

24

25

26

27

28

29

(4)

5. Faire des balades en forêt ave un violon, e n'est pas pratique, mais pour attraper des

truites,e n'estvraimentpaspratique

6. Mais qu'este que'est queette histoiredepouetetde anards?!

8. Un granddadetqui parle tropfort

11. Le vendredi e n'estpaslapeinede leherher, 'estgolf!

13. Le maître del'enfumage

14. Consienieuse etprofessionnelle, très(trop)impliquée,attention ausurmenage

16. Paris,laapitale, latourEieletl'ENST

19. La hartreuse,ça nevautpaslamirabelle maisil faut faireave lesmoyensdubord

22. Elle pourraitparlerplusfort quandelle ditau revoir

23. Femmeauvolant ...

25. Mister CVS

26. Jen'ai toujours pasles aents, mêmeenHTML!

27. Un peutrop haneux, mêmeàlaxbox

28. It's theFinalCountdown

29. Toutlemondene sort pasindemned'unstage deheadshot

Vertial

1. Onydanse tousen rond...peutêtrequelui aussi

2. Toujoursprêt àaider,ommesonnom l'indique

3. Ona quandmêmefait debellesparties deping-pong

4. Mon guideà Pékin etaussiun peu danslaulturehinoise

7. Ilestétonnantd'avoirétédanslemêmepetitollègeaveuneannéed'éartpuisnalement

dene seonnaître qu'une vingtained'années plustard

9. Un jour iloubliera satêteen plusde sonportable,sonportefeuille,seslés ...

10. Petit meusiendeviendra Doteur

12. Ca nesert à riende regarderdansl'équipe siVézeliseest passéeen L1

15. Sanseux, je ne seraispaslà

17. Toutunentourage sympathiqueetaueillant,presqueune famille

18. Studio mobileave vuesur leLoria

20. La vie peut-elleêtre modélisée parunproessusMarkovien?

21. N46

24. Quelle idéede uisiner de laviandeavedu oa!

25. Mon...Mon...Mon...Monster Kill

Remarque

Etant l'auteur des dénitions, leur ontexte m'est propre et il n'est pas forément aisé de

trouverles noms.Aussilagrilleréponseestdonnéeen annexe A.4.

(5)

quipoussedans monjardin seret

(6)
(7)

Introdution générale xv

Chapitre 1

Arhiteture d'un système de reonnaissane automatique de la parole 1

1.1 Introdution . . . 2

1.2 Arhitetured'unsystème dereonnaissane . . . 2

1.3 Paramétrisation dusignal . . . 3

1.3.1 Les paramètresMFCC . . . 4

1.4 Modélisationde laparole Modélisationaoustique . . . 5

1.4.1 Modèles de Markovahés . . . 5

1.4.2 Apprentissagedes modèles deMarkovahés . . . 6

1.4.2.1 L'algorithmede Baum etWelh . . . 7

1.4.2.2 La méthodeforward . . . 9

1.4.2.3 La méthodebakward . . . 9

1.5 Lexique etmodèle delangage . . . 10

1.5.1 Lexique . . . 10

1.5.2 Modèlede langage . . . 10

1.6 Prinipede fontionnement d'unmoteurde reonnaissane. . . 12

1.6.1 L'algorithmede Viterbi . . . 13

1.6.1.1 Le prinipe de Viterbi . . . 13

1.6.1.2 Le prinipe d'optimalitéde Bellman . . . 14

1.6.1.3 L'algorithmede Viterbi . . . 14

1.6.1.4 Algorithme deViterbi dansleasd'une phrase . . . 15

1.6.2 L'algorithme

A

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.6.3 Résultats de lareonnaissane. . . 18

1.6.3.1 N-meilleures phrases . . . 18

1.6.3.2 Graphede mots . . . 19

1.6.3.3 Réseau deonfusion . . . 20

(8)

1.7 Conlusion. . . 21

Chapitre 2 Mesures de onane 2.1 Introdution . . . 25

2.2 Exemplesd'appliationsetintérêt desmesures deonane . . . 26

2.2.1 Reonnaissanede laparole :transription. . . 26

2.2.2 Détetion desmots horsvoabulaire . . . 27

2.2.3 Détetion de motslés . . . 27

2.2.4 Dialogue Homme/Mahine. . . 29

2.2.5 Apprentissage semi-supervisé . . . 29

2.2.6 Adaptation . . . 31

2.3 Mesuresde onane . . . 31

2.3.1 Critèresnon probabilistes . . . 32

2.3.1.1 Stabilitéaoustique . . . 32

2.3.1.2 Densitéd'hypothèses. . . 32

2.3.1.3 Dépendanedesmots . . . 33

2.3.2 Critèresrelatifs au modèle delangage . . . 33

2.3.2.1 Lemodèlede langage . . . 33

2.3.2.2 Replidu modèlede langage . . . 34

2.3.3 Critèressémantiques etsyntaxiques. . . 35

2.3.3.1 Analysesémantiquelatente . . . 35

2.3.3.2 Informationmutuelle . . . 36

2.3.3.3 Catégoried'unmot . . . 37

2.3.4 Autresritèresempiriques . . . 37

2.3.5 Mesuresfondéessur lerapportde vraisemblane . . . 38

2.3.5.1 Tests d'hypothèse . . . 38

2.3.5.2 Rapport devraisemblane . . . 38

2.3.5.3 Modèle /Anti-Modèle . . . 39

2.3.5.4 Modèle générique . . . 39

2.3.5.5 Modèles ompétitifs . . . 40

2.3.6 Mesuresfondéessur lesprobabilitéa posteriori . . . 41

2.3.6.1 Mesuresfondéessurlaliste de n-meilleuresphrases. . . 42

2.3.6.2 Mesuresfondéessurlesgraphesdemotsetl'algorithmedeforward- bakward . . . 42

2.3.6.3 Mesurede onanedu systèmede reonnaissaneJulius . . . . 44

2.3.6.4 Mesuresfondéessurles réseauxde onfusion . . . 45

(9)

babilité a posteriori . . . 46

2.3.7 Combinaison demesures de onane . . . 46

2.3.7.1 Combinaisons de mesuresetd'heuristiques . . . 46

2.3.7.2 Combinaisonde systèmes dereonnaissane . . . 47

2.4 Méthodes d'évaluation . . . 48

2.4.1 Tauxd'égaleerreur . . . 48

2.4.2 Tauxd'erreur deonane . . . 50

2.4.3 Entropieroisée normalisée . . . 50

2.4.4 Coeient de orrélation. . . 51

2.4.5 Rappel/ Préision . . . 52

2.4.6 Synthèse. . . 53

2.5 Quelques résultats . . . 53

2.6 Conlusion. . . 54

Chapitre 3 Propositions de nouvelles mesures de onane 3.1 Objetifs. . . 58

3.1.1 Appliations visées . . . 58

3.1.1.1 Transriptiond'émissions . . . 58

3.1.1.2 Transriptionde oursen sallede lasse . . . 59

3.1.1.3 Détetion de mots lés . . . 61

3.1.2 Nos mesuresde onane:dansquel but? omment? . . . 61

3.1.2.1 Caratéristiquesprinipales denosmesures de onane . . . 61

3.1.2.2 Quelstypesde mesures de onane? . . . 62

3.1.2.3 Soure d'informationpouralulerles mesures . . . 62

3.1.2.4 Mesuresde onaneà quel niveau? . . . 63

3.2 Mesurestrame-synhrones . . . 63

3.2.1 Dénition desmots onurrentsde l'ensemble

E

. . . . . . . . . . . . . . 64

3.2.2 Gestion desourrenes multiples. . . 64

3.2.3 Mesure fondéesurlaprobabilité unigramme . . . 65

3.2.4 Introdution de fateursd'éhelle . . . 66

3.2.5 Mesure fondéesurlaprobabilité bigramme . . . 66

3.2.6 Mesure fondéesurlaprobabilité trigramme . . . 67

3.2.7 Implantation . . . 69

3.2.7.1 Constrution de l'ensemble

E b

. . . . . . . . . . . . . . . . . . . . 69

(10)

3.2.7.2 Calul des mesures fondées sur les probabilités unigramme, bi-

grammeettrigramme . . . 69

3.3 Mesuresloales . . . 71

3.3.1 Mesuresfondéessur laprobabilitéa posteriori. . . 72

3.3.2 Dénition desvoisinages . . . 73

3.3.3 Introdutiond'unfateur de exibilité

η

. . . . . . . . . . . . . . . . . . . 73

3.4 Homogénéisationde larépartitiondesvaleursde onane . . . 74

3.5 Complexitéde nosmesures deonane . . . 77

3.5.1 Mesurestrame-synhrones . . . 77

3.5.2 Mesuresloales . . . 77

3.6 Conlusion. . . 78

Chapitre 4 Conditions expérimentales 4.1 Introdution . . . 82

4.2 Moteurde reonnaissane :Julius . . . 82

4.2.1 La première passede Julius . . . 83

4.2.2 La deuxième passede Julius . . . 83

4.2.3 Optionsde ompilation . . . 84

4.2.4 Le graphede mots . . . 84

4.3 Paramétrisation . . . 85

4.4 Modèles aoustiques . . . 85

4.4.1 Monophones. . . 85

4.4.2 Triphones . . . 85

4.5 Lexique etmodèlede langage . . . 86

4.5.1 Utilisés onjointement ave lesmodèles monophones . . . 86

4.5.2 Utilisés onjointement ave lesmodèles triphones . . . 86

4.6 Corpusde développement etde test . . . 87

4.7 Complexitéde nosmesures deonane . . . 87

4.7.1 Mesurestrame-synhrones . . . 88

4.7.2 Mesuresloales . . . 88

4.8 Conlusion. . . 88

Chapitre 5 Evaluation des mesures de onane ave le taux d'EER 5.1 Introdution . . . 90

5.2 Protoole d'évaluation . . . 90

(11)

5.4 Mesurestrame-synhrones . . . 92

5.4.1 Mesure fondéesurlaprobabilité unigramme . . . 93

5.4.1.1 Gestion desourrenesmultiplesparsommation. . . 94

5.4.2 Mesure fondéesurlaprobabilité bigramme . . . 95

5.4.2.1 Gestion desourrenesmultiplesparmaximisation . . . 95

5.4.2.2 Gestion desourrenesmultiplesparsommation. . . 96

5.4.2.3 Prédéesseurau sens deViterbi. . . 96

5.4.2.4 Filtrageparles

n

-meilleuresphrases . . . 97

5.4.2.5 Probabilitébigrammeseule . . . 98

5.4.2.6 Inlusion/exlusiondu mot

w b

dansl'ensemble

E b

. . . . . . . . . 99

5.4.2.7 Probabilitébigrammeinverse . . . 100

5.4.2.8 Homogénéisationdesvaleurs . . . 100

5.4.3 Mesure fondéesurlaprobabilité trigramme . . . 102

5.4.3.1 Probabilitétrigramme inverse. . . 104

5.4.4 Synthèse. . . 105

5.5 Mesuresloales . . . 106

5.5.1 Mesure à voisinagesymétrique . . . 106

5.5.2 Mesure à voisinageasymétrique . . . 108

5.5.3 Homogénéisation desvaleurs deonane . . . 110

5.5.4 Synthèse. . . 112

5.6 Inuene delataille desmots . . . 113

5.7 Comparaison ave la mesurede onane intégréedans le système de reonnais- sane Julius . . . 116

5.8 Evaluationsur leorpusde test etonlusion . . . 117

Chapitre 6 Evaluation dans le adre d'appliations spéiques 6.1 Introdution . . . 122

6.2 Appliation àladétetion demots lés . . . 122

6.3 Intégrationd'une mesurede onanedanslemoteurde reonnaissane . . . 125

6.3.1 Méthodologie . . . 125

6.3.2 Expérimentation . . . 126

6.4 Transriptionde ours ensalle delasse . . . 129

6.4.1 Présentation du systèmeinitial . . . 129

6.4.2 Utilisation delamesure deonane . . . 130

6.4.3 Protoolede test . . . 131

(12)

6.5 Conlusion. . . 135

Conlusion et perspetives 137 Annexe A 145 A.1 Entropieroiséenormalisée . . . 145

A.2 Tauxd'erreur de onane . . . 146

A.3 Inuenede latailledes mots . . . 146

A.4 Questionnairepourl'évaluation destransriptionspourmalentendants . . . 149

Glossaire 151

Bibliographie 153

Publiations personnelles 163

(13)

1.1 Arhitetured'un systèmede reonnaissaneautomatique de laparole etdesap-

prentissagesnéessaires. . . 2

1.2 Etapesde aluldesoeientsepstraux àéhelleMel. . . 4

1.3 Filtres triangulairesàéhelleMel (20bandes).. . . 4

1.4 HMM gauhe-droite àtroisétats. . . 5

1.5 Graphe de Viterbi pour un HMM à 3 états gauhe-droite etune séquene de 10 observations . . . 13

1.6 Exemple d'unextrait de grapheand'illustrer leprinipe d'optimalitéde Bellman. 14 1.7 Exemple d'ungraphede mots . . . 19

1.8 Seond exempled'ungraphe demots . . . 20

1.9 Exemple d'unréseau de onfusion. . . 20

2.1 Etapes de réalisation d'un apprentissage semi-supervisé ave l'utilisation d'une mesure deonane. . . 30

2.2 Exemple d'une ourbe ROC-DET. L'intersetion entre lapremière bissetrie et laourbedéterminelepoint EER. . . 49

3.1 Les 5 positions de la main pour le odage des voyelles phonétiques en Langage Parlé Complété.. . . 59

3.2 Les 8ongurationsde doigtspourleodagedesonsonnes phonétiquesen Lan- gageParlé Complété. . . 60

3.3 Tête odeuse de synthèse développée au Loria pour le projet LABIAO (le son pa enLPC).. . . 60

3.4 Illustration du voisinage pris en omptepourla mesure de onane symétrique de paramètre de taille

x

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.5 Illustration duvoisinage pris enomptepourlamesurede onaneasymétrique de paramètre de taille

x

et

y

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.6 Distribution dutaux de mots orrets etde lavaleurmoyennede onanepour 20 intervalles de taille identique pourtous les mots d'unensemble de graphes de mots.. . . 75

3.7 Distribution dutaux de mots orrets etde lavaleurmoyennede onanepour 20 intervalles de taille identique pour les mots faisant partie d'un ensemble de phrasesreonnues. . . 76

5.1 CourbeDETdelamesurederéférenefondéesurlaprobabilitéaposterioriglobale

(α = 0, 1)

,

(β = 1)

et

(η = 1)

.EER=22,0% (orpusde développement). . . 92

5.2 CourbeDETde lamesuredeonanefondéesurlaprobabilitéunigramme

(α =

0, 1)

,

(β = 0, 5)

et

(ε = 0, 1)

.EER=37,6% (orpusde développement). . . 94

(14)

5.3 Distributiondu tauxde mots orrets etde lavaleur moyennede onane pour

20 intervalles de taille identique sur le orpus de développement pour la mesure

bigramme

(α = 0, 1)

,

(β = 0, 95)

et

(ε = 0, 1)

. . . . . . . . . . . . . . . . . . . . . 101

5.4 Variation du taux d'EER de la mesure de onane fondée sur la probabilité

trigramme,enfontiondurapportdesfateursd'éhellelinguistiqueetaoustique

β/α

(

α = 0, 1

et

ε = 0, 1

). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5.5 Courbedutauxd'EERde lamesureloaleàvoisinagesymétriquerelativement à

diérentes taillesde voisinage.

(α = 0, 1)

,

(β = 0, 95)

et

(η = 0, 5)

. . . . . . . . . 107

5.6 Taux d'EERde la mesurede onane loale à voisinage asymétrique à taille de

voisinage passévariableettaille de voisinagefuturxe (0,40,60, et84trames) . 109

5.7 Répartitiondu taux de mots orrets et de la valeur moyenne de onane pour

20 intervalles de taille identique sur le orpus de développement pour la mesure

loale symétriqueavevoisinagede 84 trames,

(α = 0, 1)

,

(β = 0, 95)

et

(η = 0, 5)

111

5.8 Répartitiondutauxdemotsorretsetdelavaleurmoyennedeonanepour20

intervallesdetailleidentiquesurleorpusdedéveloppementpourlamesureloale

asymétriquetrame-synhroneprenanten omptetoutlevoisinagepassé depuisle

débutde laphrase,

(α = 0, 1)

,

(β = 0, 95)

et

(η = 0, 5)

. . . . . . . . . . . . . . . 112

5.9 Evolutiondutauxd'EERsuivantlatailleenphonèmesdesmots analyséspourla

mesurede référene. . . 114

5.10 Evolutiondutauxd'EERsuivantlatailleenphonèmesdesmots analyséspourla

mesureloale symétrique. . . 115

5.11 Evolutiondutauxd'EERsuivantlatailleenphonèmesdesmots analyséspourla

mesuretrame-synhronebigrammedirete . . . 115

5.12 Répartitiondesmots de lareonnaissane pourleorpusde développement selon

leurtaille en phonèmes. . . 116

5.13 Courbe DET de la mesure de onane intégrée dans Julius ainsi que elles de

la mesure loale symétrique ave voisinage de 84 trames et de la mesure trame-

synhronebigrammeinverse.. . . 117

6.1 Evolution du nombre de fausses aeptations et du nombre de bons mots lés

restant enfontion du seuilde déision(orpusde développement). . . 123

6.2 Evolution du nombre de fausses aeptations et du nombre de bons mots lés

restant enfontion du seuilde déision(orpusde test). . . 124

6.3 Distributiondutauxdemotsorretsenfontiondelavaleurmoyennedeonane

pour20 intervalles detaille identiquesurleorpus utilisédansleadrede lame-

surebigrammeintégréedanslemoteur dereonnaissane. . . 127

6.4 Tête odeuse de synthèse développée au Loria pour le projet LABIAO (le son

paen LPC).. . . 129

A.1 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour

lamesurede référene . . . 147

A.2 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour

lamesureloale symétrique . . . 148

A.3 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour

lamesuretrame-synhronebigrammedirete . . . 148

(15)

1.1 Exemple de listedes5 meilleuresphrasesissuesd'unsystème dereonnaissane.. 18

2.1 Résultats obtenuspardiérentesmesures de onanesurdiérentsorpus. . . . 54

5.1 Tauxd'EERdelamesurederéférenefondéesurlaprobabilitéaposterioriglobale

alulée sur la phrase omplète ave diérents fateurs d'éhelle et fateur de

exibilité(orpusde développement). . . 92

5.2 Tauxd'EERobtenusparlamesuredeonaneunigrammeavediérentsfateurs

d'éhelleetde relâhement (orpusde développement). . . 93

5.3 Taux d'EER des mesures de onane unigramme ave gestion des ourrenes

multiplesparmaximisation etsommationave diérentsfateursd'éhelleet

ε = 0, 1

(orpusde développement). . . 94 5.4 Tauxd'EERobtenusparlamesuredeonanebigrammeavegestionparmaxi-

misation pourdiérents fateurs d'éhelle et de relâhement (orpusde dévelop-

pement). . . 95

5.5 Taux d'EER des mesures de onane bigramme ave gestion des ourrenes

multiplesparmaximisation etsommationave diérentsfateursd'éhelleet

ε = 0, 1

(orpusde développement). . . 96 5.6 Taux d'EER des mesures de onane bigramme ave gestion par maximisation

et ave préédents temporels direts ou ave préédent au sens de Viterbi ave

diérentsfateursd'éhelle,

ε = 0, 1

(orpusdedéveloppement). . . 97 5.7 Tauxd'EERdelamesurebigrammeave etsansltragedesmotspréédentspar

les

n

-meilleuresphrases,

(α = 0, 1)

,

(β = 0, 95)

(orpusde développement). . . 98 5.8 Tauxd'EERdelamesuredeonanebigrammeaveprédéesseurstemporelsou

de Viterbi etave ou sansprobabilité unigramme.. . . 99

5.9 Tauxd'EERdesmesuresde onanebigramme,mesuresinluantou exluant

w b

del'ensemble

E b

avediérentsfateursd'éhelle,

ε = 0, 1

(orpusdedéveloppement). 99 5.10 Tauxd'EERdesmesuresde onanefondéesurlaprobabilitébigrammedirete

etinverseave diérents fateursd'éhelle,

ε = 0, 1

(orpusde développement). . 100 5.11 Taux d'EER des mesures de onane bigramme ave gestion par maximisation

ettouslespréédentstemporelsdirets,ave etsanshomogénéisationdesvaleurs

de onane ave diérentsfateursd'éhelle,

ε = 0, 1

(orpusdedéveloppement). 102 5.12 Tauxd'EER de omparaison de la mesurede onane fondéesur la probabilité

trigramme etde saversionmodiée,

ε = 0, 1

(orpusde développement). . . 104 5.13 Tauxd'EERdesmesuresdeonanefondéesurlaprobabilitétrigrammedirete

etinverseave diérents fateursd'éhelle,

ε = 0, 1

(orpusde développement). . 105

(16)

5.14 Taux d'EER obtenus par lamesure de onane loale fondée sur la probabilité

a posteriori ave un voisinage symétrique de 84 trames, pour diérents fateurs

d'éhelleetde relâhement(orpusde développement). . . 107

5.15 Synthèsedesrésultatsobtenusparnosmesuresdeonaneainsiqueparlamesure

de référenesurorpus dedéveloppement entaux d'EERetsurleorpus de test

en tauxde faussesalarmes (FA),taux defaux rejets(FR)etde CER. . . 119

6.1 Listedes33 mots lés. . . 122

6.2 Tauxd'erreurenmotsàlandelapremièrepassesuivantdiérentesintégrations

de lavaleur de onane.. . . 128

6.3 Tauxd'erreurenmotsàlandeladeuxièmepassesuivantdiérentesintégrations

de lavaleur de onane.. . . 128

6.4 Exemple desvaleursde onane desmots d'unephrase. . . 130

6.5 Tauxd'erreurenmotssurlespartiesretransritesdestextessuivantlesdiérentes

modalités. . . 134

6.6 Tauxde réponseaux questionsdestextesselon les diérentes modalités. . . 135

(17)

Auommenementétait la parole (Jean 1 :1-5).

Queesoitsouslaformedegrognementsommenosanêtresprimitifs,ousousuneformeplus

évoluéeetomplexeànotreère,lelangageetlaommuniationtiennentuneplaeprépondérante

dans la soiété humaine. Depuis es temps immémoriaux, la parole a toujours été le support

majeur d'expression des êtres humains. Grâe à la voix, les personnes peuvent partager des

informations, dialoguer, exprimer des sentiments, et. Bien que tout être humain soit apable

des'exprimer parlaparole depuisdes millénaires,lesméanismes assoiés àlaprodution ou à

l'aquisition delaparole sont omplexesetne sont pasenore totalementmaîtrisés.

La prodution d'unson est lerésultat d'une ombinaison de nombreuses interationsméa-

niques et physiologiques qui vont inuener ses aratéristiques aoustiques. Par exemple, un

homme, une femme, ou un enfant auront une fréquene fondamentale diérente et don le son

émisseralui mêmediérent.Des aratéristiquesplus subtilessontégalement transmises viala

parole.Parexemple,ommentexpliquerlefaitquenouspuissionssavoiraveunequasiertitude

qu'unepersonne parleau téléphoneen souriant?

Cetteomplexitéauniveaudelaprodutiondusonamèneégalementdenombreusesdiul-

tésauniveaudel'aquisition dulangage etde saompréhension.Depuisleurplusjeuneâge,les

enfantséoutent les adultes parler, tentent de reproduire tant bien quemal e qu'ilsentendent

maiségalement essaient de donnerun sens à e otsonore. Pour ela plusieursétapes sont né-

essaires:segmenterlaphrase en mots,les reonnaître,analyser leur signiationetnalement

omprendrelaphrase.

L'intelligene artiielle voudrait pouvoir réaliser es étapes qu'eetuent quotidiennement

leshumains,etmêmeles enfants,parlebiaisd'une mahine, d'unproessusautomatique.Ave

lesdébutsdesenregistrementssonoresdevoixoudemusique,denombreusespersonnesonttenté

d'analyser, de retrouversur es traes de voix e qui avait été prononé. Trouverle seret qui

permet de distinguerun a d'uno. Les premièresexpérienes peuvent apparaître de nos

joursommetrès grossières,voireinimaginables, maisune grande partiedesonnaissaness sur

laprodutionetl'analyse de laparolevient de esétudes dusignal brut.

Puis des personnes de tous horizons, herheurs ou auteurs, ont ommené à imaginer des

appliations assoiées à la reonnaissane de es sons. Ave l'utilisation grandissante des ordi-

nateurs et l'idée d'une intelligene artiielle, la siene tion a souvent donné des exemples

d'appliationde lareonnaissane voale pardesmahines, desordinateurs.

Par exemple des robots serviteurs ommandés à la voix : méaniiens ou traduteurs dans

ununiversfuturiste omme StarWars. Ou bien,dans unontexte plusontemporainl'exemple

d'unevoitureéquipéed'unordinateurapablededialogueretdemontrerunomportementquasi

humain.Cettevisiond'unesimplevoiturequipuisseàlafoisomprendre,s'exprimeretmêmese

omporter ommeun être humain,laisse dansl'esprit du publi l'idée queette tehnologie est

(18)

presqueexistantealorsqueelaestenoreunobjetifdiileàatteindrepourlesherheurs

en intelligeneartiielle.

Depuisplusieursannéesnouspouvonsommanderoralementun ordinateur,pourdestâhes

simples,aveundialoguestritementdiretifetlimité;desappliationsdeditéevoaleexistent;

desappliations de type renseignementstéléphoniques voient le jour,aeptant divers sénarios

de dialogue, plus ou moins exibles. Toutefois nous sommes enore très loin des rêves des au-

teurs de siene tion. En eet, les appliations itées préédemment existent mais ave des

onditions d'utilisation extrêmement restritives : voabulaire limité, généralement une seule

languetraitée,onditionsd'utilisationoptimales,importantesensibilitéauxbruits,longuephase

d'apprentissage,et.

Atuellement,lebut de lareherhe en reonnaissaneautomatique estde onsidérertoutes

eslimitationsd'utilisation,delesdépasseretdeomprendredemieuxenmieuxlesméanismes

liésà laparole (prodution,pereption,ompréhension).

Parler à une mahine et voir elle-i retransrire mot pour mot e qui a été prononé pré-

sente un té magique et fasinant. Les appliations de ditée voale ou plus généralement de

transriptiond'undoumentsonore,ontommeobjetifdefournirsousforme detextelaparole

ontenue dans le signal audio traité. Cette tâhe est une des plus diiles du domaine de la

reonnaissane automatiquede laparole.

Lespremierssystèmes dereonnaissane netraitaient quedesmots isolés,puis,lapuissane

des ordinateurs augmentant, le traitement de phrases entières a été envisagé. Cependant, la

modélisation de la grammaire d'une langue naturelle est diile voire impossible, ar elle-i

a évolué au ours du temps, ave des modiations, des simpliations, des habitudes qui ne

suiventpasforément lesrèglesdelalangue.Deplus,haquerègle n'a-t-ellepassonexeption?

Ainsi les premierssystèmes traitant desphrasesétaient fondés sur une modélisationlimitée

delalanguedesortequelelouteurn'avaitquepeudehoixdanslesphrasesqu'ilétaitautorisé

à prononer.

A l'heure atuelle, les systèmes de reonnaissane automatique de la parole aeptent des

onditions d'utilisation de moins en moins ontraintes,plus prohe des onditions d'utilisation

renontréesdanslaréalité.Celaimpliquede prendreenomptedesphénomènesdeplusenplus

omplexesomme lebruit,les toursde parole,lalangue utilisée, lalanguematernelle,et.

Plus les onditions expérimentales sont diiles etplus le système est à même de faire des

erreurs. L'inidene de es erreurs peut être plus ou moins importante : une erreur d'aord

grammatialimpliquetrèsrarementune mauvaiseompréhension,equiestsouventleaspour

un mottotalement malreonnun'ayantauunsens avele ontexte.

Plusieursdiretions sont envisageables an d'évitereserreurs :

anerles diérentsmodèles mis enjeu dansleproessusde reonnaissane,

explorer de nouvelles diretions de reherhe an de trouver des modèles plus robustes

(paramétrisation,lassieur, et),

utiliserd'autres informations ande orriger ou déteterles erreurs potentiellement om-

mises(débruitage, mesuresde onane).

Conernantedernierpoint,ilseraitintéressantdedénirdesindiessupplémentaires,autres

que le résultat de la reonnaissane, an d'estimer la qualité de la phrase reonnue, puis de

prendre en omptees indies an d'eetuersoit desorretions, soit desalertes. Lesmesures

de onaneremplissent e rle.L'objetif d'unemesurede onane estde pouvoirestimerau

mieuxlaprobabilité qu'une phraseou qu'undes motsreonnus soit juste.

Conevoirdesmesuresdeonaneestuneproblématiquediileapparueenreonnaissane

automatique de la parole depuis une dizaine d'années. En eet, hoisir et réer une mesure de

(19)

bonne eaité, les résultats onrets sont souvent insusants pour être exploités dans des

appliations.Toutefois dans plusieurs situations les mesures de onane apportent réellement

une onnaissane supplémentaire, notamment pour les tâhes d'aeptation/rejet d'hypothèses

(dialogues homme/mahine, détetion de mots lés), de séletions de données (apprentissage

semi-supervisé)etplusgénéralement dansles tâhesde transription.

Dans ette thèse nous nous sommes intéressé aux mesures de onane dans le adre des

appliationsdereonnaissanedelaparolegrandvoabulaireetàuxontinu.Noussouhaitions

dénirdesmesuresde onanepouvantêtrealuléessansattendrequelesignal(laphrase)ne

soit déodé dans son intégralité par le système de reonnaissane. Les appliations visées sont

pluspartiulièrement :

la transription d'émissionsradiophoniques à lavolée danslaquelle nouspourrons mettre

en ouleurles motsde faible onane,

latransription de oursen sallede lassepourdesélèvessourds ou malentendants,

ladétetion de motslés à lavolée.

Nous dérirons en détail es appliations dans le hapitre 3 de e mémoire. Toutefois, une

aratéristiqueimportantedeesux,quiserontdéodésàlavolée,estqu'ilssontvirtuellement

sans n, à l'opposé des douments pré-enregistrés. Le fait que la n du ux ne soit pas déter-

minéeempêhel'utilisationde méthode oudealulnéessitant laonnaissaneetletraitement

dusignaldanssonintégralité.Or atuellement,bien qu'ilexiste dessystèmesde reonnaissane

apablesde traiter des ux en diret, peu de mesures de onane peuvent être aluléesdans

esonditions.C'estlaraisonpourlaquellenousavonsdéidédedénirdenouvellesmesures de

onanequi sont trame-synhrones ouqui ne néessitent qu'une partiede laphrase pourpou-

voirêtreestimées.Lesmesurestrame-synhronespermettentdealulerune valeur deonane

exatementenmêmetempsqueledéodagedelaphraseesteetuéparlemoteurdereonnais-

sane.Les mesures loales que nous dénissons utilisent des onnaissanes futures par rapport

aumot dont nousvoulons estimerlaonane.Cependant,la partiefuture estde taillelimitée,

equi implique simplement un ourtdélai avant de pouvoir alulerla valeur de onaned'un

mot.

Ce mémoire débute par une présentation de l'arhiteture générale des systèmes de reon-

naissaneatuels danslaquellenousdérivonspluspartiulièrement les aspetsliésau adre de

notreétude.

Le hapitre 2 est onsaré à l'état de l'art. Avant de présenter les prinipales mesures de

onane introduites en reonnaissane de la parole, nous montrons leur utilité pour ertaines

appliationsphares de lareonnaissanede laparole. Ennnous terminonse hapitre parune

desriptiondesprinipalesméthodesd'évaluationdesmesures deonane.

Le hapitre 3 onerne nos travaux. Après une introdution des objetifs de notre étude,

notamment ene quionerneles appliationsiblées,nousprésentonsles nouvellesmesures de

onanequenousavonsdéniesau oursdeette étude:desmesurestrame-synhronesetdes

mesuresloales.

An d'évaluer les performanesde nosmesures de onane en situation réelle, nousavons

déni des onditions d'expérimentation qui sont détaillées dans le hapitre 4 : le moteur de

reonnaissane utilisé, les diérentes modélisations aoustiques et linguistiques hoisies, ainsi

quelesorpus de développement etde test.

Danslehapitre5,lesperformanesdesdiérentesmesuresetdeleursvariantessontévaluées

selonun ritèreindépendant detoute appliation.

Lehapitre6,quantàlui,regroupelesexpérimentationsquenousavonsmenéessurertaines

de nosmesures de onanedans leadre de deuxappliations bien spéiques :une détetion

(20)

de mots lés et une expériene qualitative de transription de ours pour des enfants sourds

ou malentendants. Ce hapitre setermine parla donnée de quelques résultats sur l'intégration

d'une mesure trame-synhrone dans le proessus de déodage du système de reonnaissane.

Nous onluons e mémoire par une disussion de nos travaux et de leurs résultats et par une

présentation desperspetivesenvisageables.

(21)

Arhiteture d'un système de

reonnaissane automatique de la

parole

Sommaire

1.1 Introdution . . . 2

1.2 Arhitetured'un système de reonnaissane. . . 2

1.3 Paramétrisation du signal . . . 3

1.3.1 LesparamètresMFCC . . . 4

1.4 Modélisation de la parole Modélisation aoustique . . . 5

1.4.1 ModèlesdeMarkovahés. . . 5

1.4.2 ApprentissagedesmodèlesdeMarkovahés . . . 6

1.4.2.1 L'algorithmedeBaumet Welh . . . 7

1.4.2.2 Laméthodeforward . . . 9

1.4.2.3 Laméthodebakward . . . 9

1.5 Lexiqueetmodèlede langage . . . 10

1.5.1 Lexique . . . 10

1.5.2 Modèledelangage . . . 10

1.6 Prinipe de fontionnement d'un moteur de reonnaissane . . . 12

1.6.1 L'algorithmedeViterbi . . . 13

1.6.1.1 LeprinipedeViterbi . . . 13

1.6.1.2 Lepriniped'optimalitédeBellman . . . 14

1.6.1.3 L'algorithmedeViterbi . . . 14

1.6.1.4 Algorithme deViterbidansleasd'unephrase . . . 15

1.6.2 L'algorithme

A

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.6.3 Résultatsdelareonnaissane . . . 18

1.6.3.1 N-meilleuresphrases . . . 18

1.6.3.2 Graphe demots . . . 19

1.6.3.3 Réseaudeonfusion . . . 20

1.7 Conlusion . . . 21

(22)

1.1 Introdution

L'objetifd'unsystèmedereonnaissaneautomatiquedelaparoleestdetransrirelaparole

ontenuedansundoumentsonore donnéenentrée.Latransriptionseprésentehabituellement

sous la forme d'une séquene de mots. Un dé atuel est de pouvoir reonnaître de la parole

spontanée,utilisantun langage naturel.

Le résultat délivré parlesystème de reonnaissane estla solution d'unproblème ombina-

toireomplexe. Depuisquelques déennies,les systèmes qui permettent d'obtenir les meilleures

performanessontfondés surdesmodélisations statistiques dessonsélémentaires(modélisation

aoustique)etdulangage(modèlelinguistiquen-grammes).Lesystèmedereonnaissanefournit

alorsommesolution laséquene de mots laplusprobable orrespondantau segment de parole

analysé,en généralune phrase.

Parailleurs,lesystèmeoumoteurdereonnaissanen'utilisepasdiretementlesignalsonore

brutmaiseetueunpré-traitementdusignaland'enextrairedesparamètresaoustiquesplus

robustesetplus disriminants.

Nous allons don brièvement dérire dans e hapitre les diérents onepts que sont la

paramétrisation, la modélisation aoustique et la modélisation linguistique. En revanhe nous

détaillerons un peu plus l'algorithme d'apprentissage des modèles aoustiques ainsi que le mo-

teurdereonnaissane;pluspartiulièrement l'algorithmede reonnaissaneetlesstruturesde

données assoiées, nostravauxde reherhe étant diretement liésà esderniers éléments.

1.2 Arhiteture d'un système de reonnaissane

Pour un segment sonore donné en entrée, un système de reonnaissane de la parole dé-

livre une transription érite de laparole ontenue dans e segment. La gure 1.1 présente les

prinipales étapes d'un système de reonnaissane.Le proessus de reonnaissane néessite la

dénition d'une paramétrisation du signal et la fourniture de plusieurs données pré-alulées :

les modèles aoustiques,le lexique et les modèles linguistiques. La onstrutiondes modèles et

du lexiquenéessitedesapprentissagesqui doiventêtre réalisésau préalable.

Moteur

Modèles

acoustiques Lexique

Modèle de Langage

Apprentissage Corpus

Textuels Apprentissage Transcription Paramétrisation

Corpus Acoustiques Reconnaissance Apprentissage

Fig.1.1Arhitetured'unsystèmedereonnaissaneautomatiquede laparole etdesappren-

tissagesnéessaires.

(23)

Lapremière étape onsisteàtransformerlesignalaudiobrutenparamètresplusrobusteset

plusdisriminants.Cesparamètresvontserviràlafoisàlaonstrutiondesmodèlesaoustiques

et au moteur de reonnaissane. Au ours de ette étape de paramétrisation, le signal sonore

esttoutd'abordéhantillonné.Puis,plusieurstraitementsmathématiquessontappliquéssures

éhantillons an d'obtenir desveteursde paramètres,appelés observations.

La seonde étape représente le ÷ur du système : le moteur de reonnaissane. Le moteur

utiliselesstruturesde données externessuivantes:

desmodèlesaoustiques,

un lexique(voabulaire),

un modèlede langage (grammaire).

Lesmodèles aoustiques sont lareprésentation probabiliste d'unitésélémentairesde parole:

phones,phonèmes, syllabesoumots.

Lelexiquedénitl'ensembledesmotsquipourrontêtrereonnusparlesystème.Unmotqui

n'estpasdanse voabulaireprédéni ne pourrajamaisgurer dansun résultat dusystème de

reonnaissane.

Le modèle de langage tente de représenter, par le biais de probabilités, des phénomènes

syntaxiquesdelalangue.Lamodélisationgénéralementutiliséeestonstruiteàpartirdel'analyse

de séquenes de mots dans un orpus textuel. Trois types d'information sont habituellement

estimés : les probabilités d'apparition d'un mot (unigrammes), d'une séquene de deux mots

suessifs(bigrammes)etd'uneséquene detroismots (trigrammes).

Lesmodélisationsaoustiques,linguistiquesetlelexiquesontonstruitsaupréalableàpartir

d'importants orpus de parole et de texte, distints de eux sur lesquels le système sera testé.

Une fois es phases d'apprentissage réalisées, le moteur a toutes les données néessaires pour

eetuerlareonnaissane d'unsignalde parole.

Dans les setions suivantes, nous dérivons un peu plus en détails es diérentes étapes

préliminairesde paramétrisation,de modélisationainsique lemoteurde reonnaissane.

1.3 Paramétrisation du signal

La paramétrisation du signal aoustiquejoue un rle majeur dansle système de reonnais-

sane de la parole. Son objetif est de transposer le signal sonore brut dans un domaine plus

robusteetplusdisriminant.C'est-à-dire queles paramètresdevront être lesplus indépendants

possibles des onditions d'enregistrement, mais aussi permettre de distinguer au maximum les

diérentesunitésélémentairesde parole entreelles.

Parexemple,diérentesparamétrisationspeuventêtreenvisagéesdansledomainespetral:le

spetre dusignal, lesformants,lesoeientsdeodagepréditiflinéaire(LinearPreditiveCo-

dingLPC)[Markel 76,Rabiner 78,Hai03℄.D'autrestehniquesproposentd'ajouteraudomaine

deparamétrisation desonnaissanesissuesde lapsyho-aoustiquehumaine.C'est notamment

leasdelapréditionlinéairepereptive(PereptualLinearPreditionPLP)[Hermansky90℄)

oudelatransformation bilinéaireBark(BarkBilinearTransformBBT)[Smith 95℄,quitoutes

deux se basent sur une résolution non linéaire en fréquene à l'aide de l'éhelle Bark. La pa-

ramétrisation la plus largement répandue en reonnaissane automatique de la parole se situe

dansle domaineepstraletutiliselesoeients epstrauxà éhelleMelenore appelésMFCC

[Davis80℄.Aladiérenedesoeientsspetraux,l'interprétationdesoeientsMFCCn'est

passimple. Toutefois, eux-i demeurent globalement les plusrobustes et les plus performants.

Cependant,unenouvelle paramétrisationfondéesurlesondelettessembleavoirunfortpotentiel

(24)

[Deviren03℄.Les ondelettesse plaent dansun domaine temps-fréquenealors queles paramé-

trisations lassiques ne ontiennent plus d'informations temporelles. Mais la mise en plae des

ondelettesestdiilear etype de paramétrisationn'estpasenore susammentmaîtrisé.

Quelle que soit la paramétrisation,les dérivées d'ordremultiples desparamètressont égale-

ment assoiéesauxvaleursstatiquesan detenir omptede ladynamiquedelaparole.L'évolu-

tion desparamètres au ours du tempsest souvent une donnéeplus importanteque les valeurs

desparamètreseux-mêmes.

Dansleadredenostravaux,notresystèmeserabasésuruneparamétrisationparlesepstres

à éhelleMelassoiés à leursdérivéespremièresetseondes.

1.3.1 Les paramètres MFCC

Les prinipales étapes du alul des oeients epstraux à éhelle Mel (Mel Frequeny

Cepstral Coeient MFCC) sont dérites Figure 1.2. Le proessus de alul ommene par

un déoupage du signal en fenêtres reouvrantes, puis les étapes d'obtention des MFCC sont

suessivement appliquées à haune de es fenêtres [Davis80, Rabiner93℄. Ces étapes sont :

unepré-aentuationanderenforerleshautesfréquenesduspetre,l'utilisationdefenêtrede

typeHamming,unetransforméedeFourierpourpasserdansledomainespetral,puisunltrage

suivant l'éhellefréquentiellenon linéaireMeldulogarithmeduspetre etennune transformée

de Fourierinverse an depasserdansledomaine epstral.

pré-a.

-

Hamming

- F F T -

Log

-

FiltreMel

- F F T −1 - -

MFCC signal

Fig. 1.2Etapesdealuldes oeientsepstraux àéhelleMel.

L'éhelle Mel, par rapport à une répartition linéaire en fréquene, tente de reproduire une

aratéristiquephysiologiquedel'oreillehumaine.Des sonsàunefréquenede100 Hzet150Hz

sont lairementdistintspourtousmaisil nousest quasimentimpossiblededistinguerunsonà

4000Hz d'unsonà4050Hz.L'éhelleMelshématiseettepereptionendénissant uneéhelle

logarithmique de répartition des fréquenes. Une représentation d'un ban de vingt ltres Mel

estdonnée Figure1.3.

Fig. 1.3Filtres triangulairesà éhelleMel(20bandes).

(25)

1.4 Modélisation de la parole Modélisation aoustique

La modélisation aoustique permet au moteur de reonnaissane de déterminer quelles ont

étéles unitésaoustiquesprononées(phones,phonèmes,syllabes,mots).La littératurepropose

plusieursmodélisationspossiblesetparmilesplusfréquentessetrouventlesréseauxdeneurones

[Robinson88,Robinson 94,Tebelskis95℄,lesmodèlesdeMarkovahésetlesréseauxBayesiens

[Rabiner89, Deviren 02℄. Les modèles de Markov ahés (Hidden Markov Model - HMM) ont

étéintroduits dansledomainede lareonnaissanede laparole depuisdéjà une trentaine d'an-

nées[Baker75,Jelinek 76℄, etlamajeurepartiedesmodélisations atuellessont fondéessures

modèles. Une telle modélisation probabiliste de la parole peut être étendue parl'intermédiaire

de strutures telles que les HMM multidimensionnels ou enore parles réseaux Bayesiens dont

lesmodèles de Markovahéssont un aspartiulier [Mari97,Deviren04℄.

1.4.1 Modèles de Markov ahés

Un modèle de Markov ahé peut être dérit omme un automate probabiliste à

N

états

omportantdeuxproessus:unproessusahédehangementd'étatetunproessusd'émission.

Leproessusdehangement d'étatest ahéarelui-in'estpasobservable. Cependant,parle

proessusd'émission, latransitiondu modèledansunétatgénère uneobservation.Lagure1.4

représenteunmodèlede Markovahé àtroisétats.

a 11 a 22 a 33

a 12 a 23

1 1

b (o ) b (o ) 2 2

2 3

b (o ) b (o ) 2 4 b (o ) 3 6

O 1 O 2 O 3 O 4 O 5 O 6

3 5

b (o ) 2

1 3

Fig. 1.4HMM gauhe-droite àtroisétats.

La réalisation d'un proessus de Markov ahé se traduit par l'existene d'une séquene

Q = (q 0 , . . . , q T )

d'états de l'automate. Le proessus d'émission du modèle de Markov ahé assoie à

Q

une séquene de

T

observations

O = (o 1 , . . . , o T )

. Avant le début du proessus,

le système se trouve dans un état initial

q 0

sans émettre d'observations. Au temps

t

, le HMM

eetue une transition vers l'état

q t

et émet l'observation

o t

. Un modèle de Markov ahé est

aratérisépartroisparamètres:

π i

,lesprobabilités initiales,'est-à-direlaprobabilitéd'êtredansl'état

i

de l'automateau

temps0,

π i = P (q 0 = i), ∀i ∈ {1, N }

A = ((a ij ))

,lamatriedetransitionentrelesétats del'automate;

a ij

représentelaproba-

bilité de transitionpourallerde l'état

i

àl'état

j

,

a ij = P (q t = j|q t−1 = i), ∀i, j ∈ {1, N } 2

(26)

b i (o t )

,ladistributiondesprobabilitésd'émissiondel'observation

o t

àl'état

i

del'automate,

b i (o t ) = P(o t |q t = i), ∀i ∈ {1, N }, ∀t ∈ {1, T }.

Pour haque état, la probabilité d'émission représente la probabilité qu'un état de l'auto-

mate ait généré une observation partiulière. Cette probabilité d'émission de l'observation est

généralement modélisée parunesomme pondérée de

G

fontionsde densitégaussienne

N (µ, Σ)

(GaussianMixture Model - GMM)d'espérane

µ

etde matrie de ovariane

Σ

.La probabilité d'observation estalorsdénie parl'équationsuivante:

b i (o t ) = X G k=1

c ik N (o t , µ ik , Σ ik ),

X G k=1

c ik = 1

(1.1)

haque gaussienneayant unedensité deprobabilité ontinue égaleà

q 1

(2π) D det(Σ)

exp(− 1 2

t (o t − µ)Σ −1 (o t − µ))

pourlaquelle

o t

représenteleveteurd'observationà

D

omposantes,

µ

leveteurmoyende

lagaussienne,et

Σ

lamatriede ovariane.

Lamatrie detransitiondénitlatopologiedel'automatedumodèledeMarkovahé.Dans

l'exemple de la gure 1.4, le modèle à 3 états possède des transitions gauhe-droite entre les

étatsainsiquedestransitionsdeboulage.Cetype demodélisationestemployépourdénirdes

modèlesdephonèmes.Dansesmodèles,lestransitionssontgauhe-droite(pasderetourarrière

possible)pouressayer de représenter l'évolutionaoustique d'un phonème au ours du temps :

ledébutdu phonème,sapartieentraleetlan duphonème.

La modélisationHMMpeutêtreappliquéede plusieursmanières pourtraiter leasdessons

d'unelangue.Laplussimpleestdefaireautantdemodèlesquedephonèmes.Lesmodèlesrepré-

senterontequ'onappelledesmonophones.Cependant,ilestpossibledehoisirunemodélisation

plus ne en tenant ompte du ontexte aoustiqueentourant le phonème. Ainsi, un modèle ne

dénit plusunphonème maisune réalisationpartiulière de e phonème,dépendanteduou des

phonèmeslepréédant etde eluioueux luisuédant.Ce sont lesn-phones.

Les modèles aoustiques, qu'ils soient monophones ou n-phones, sont appris sur un orpus

aoustiqueontenant desexemplesde parole et leurtransription phonétique. Le passageà des

modèles n-phones augmente fortement le nombre de modèles à apprendre et en même temps

diminue fortement le nombre d'ourrenes de haun d'eux dans le orpus d'apprentissage.

Des méthodes ont alors été développées an de limiter l'impat du manque d'exemples pour

l'apprentissage des modèles. Une possibilité onsiste à dénir un ensemble xe de gaussiennes

qui seront partagéesparles diérents modèles ouparles états desmodèles [Lee00℄.

1.4.2 Apprentissage des modèles de Markov ahés

La phase de onstrution d'unmodèle est lepoint ruial de tout système. L'apprentissage

revêtdon unegrandeimportane.Lesmodèlesaoustiquesnéessitent unimportantorpusso-

noretransritdeplusieursentainesd'heures.Unetransriptionphonétiqueestassoiéeàhaque

éhantillonsonore de sorte qu'au nalhaque modèle possède desreprésentantsdansle orpus.

Unefoisl'ensembledesdonnéesprêt,laphased'apprentissagedesmodèless'eetue.Nousallons

dérire dans ette setion l'algorithme ommunément utilisé dans la phase d'apprentissage des

modèles de Markovahéspourlareonnaissanede laparole.

(27)

A partir d'exemples dont nous onnaissons à lafois laséquene des modèles etla séquene

d'observationsengendrée, noussouhaitons déterminer les paramètresdénissant les modèles de

Markovahésde haqueunité phonétique.Ilnous fautdon estimerpourhaquemodèle :

les probabilités initiales

π i

,

les probabilités detransition

a ij

,

les probabilités d'émissions

b i (o t )

qui sont aratériséespar:

lesmoyennes

µ i

,

lesmatriesde ovarianes

Σ i

,

lesoeients dumélangede gaussiennes

c i

.

Dans le adre modèles de Markov ahés, la méthode ommunément utilisée repose sur le

ritèredumaximumdevraisemblane(MaximumLikelihoodML).Toutefois,d'autresméthodes

ontétédéveloppées,parexemplelatehniqued'apprentissagedisriminantfondéesurleritèredu

maximumd'information mutuelle(MaximumMutualInformationMMI). Soit

λ = (π i , a ij , b i )

les paramètres dénissant un modèle HMM, nous devons d'après le ritère du maximum de

vraisemblane,trouverunmodèle

Λ

quimaximise

P (O|λ)

.

Λ = arg max

λ P (O|λ)

Or,il n'existepasde méthodedirete pourrésoudree problème demaximisation de

Λ

.

1.4.2.1 L'algorithme de Baum et Welh

Baum a eul'idée d'introduire d'autresfontions redénissant leproblème de reherhe d'un

système

λ

. Puis il a dérit un algorithme permettant l'estimation des nouveaux modèles de manièreitérative[Baum70℄.

Soit

p

unefontionpositive,et

P (λ) = R p(q, λ)dq

,nouspouvonsalorsintroduireunefontion

auxiliaire

Q

:

Q(λ, λ ) = 1 P (λ)

Z

p(q, λ) log p(q, λ )dq

Bauma démontré d'unepartlapropriété suivante:

Q(λ, λ ) − Q(λ, λ) ≤ log P(λ ) − log P(λ)

etd'autrepartqu'en dénissant lafontion

T

ainsi:

T (λ) = arg max

λ Q(λ, λ )

nousavonsalorsl'inégalité suivante:

P (T (λ)) ≥ P(λ).

L'algorithme de Baum et Welh onsiste à trouver un nouveau modèle

λ

qui maximise

Q(λ, λ )

.Cetalgorithmeestitératifetommeneparunjeudeparamètresarbitraires

λ 0

.Ensuite,

nousherhons

λ 1

quimaximise

Q(λ 0 , λ)

,puis

λ 2

quimaximise

Q(λ 1 , λ)

,etainsidesuite.Nous

avons, de plus,lapropriété

P (λ 2 ) ≥ P (λ 1 ) ≥ P (λ 0 )

.

Il faut trouvermaintenant uneméthode pourmaximiserlafontion

Q

.

Dansle asdesmodèles de Markovonsidérés,

P (λ)

s'érit:

P(λ) = X

q∈Ξ

π q 0

Y T t=1

a q t− 1 q t b q t (o t )

(28)

Ξ

étantl'ensemble desheminspossiblespourunHMM gauhe-droit.

Dans e as

Q(λ, λ )

peutseréérire sous laformed'une sommede troistermes:

Q(λ, λ ) = A(π i ) + B(a ij ) + C(b i ).

Ainsi, maximiser

Q(λ, λ )

revient à maximiser les trois termes séparément. Or, la topologie de nos modèles fore les valeurs des

π i

, arnous ommençons obligatoirement parle premier état du modèle. Les

π i

sont don onstants. La maximisation des termes

B

et

C

onduisent à des

formulesde ré-estimationpourles probabilitésd'observationetde transition.Nousdonnonses

formulespourdesprobabilitésd'observationmonogaussiennes.

Aussi, pourles probabilités detransition

a ij

etpourune loigaussienne

N (µ k , Σ k )

à l'état

k

dumodèle

λ

,ilfaut exprimerlesquantités

µ k

,

Σ k

et

a ij

en fontiondumodèle

λ

.Ces éritures

n'étant pasimmédiates,il estnéessaired'introduire denouvellesvariables

γ

et

ξ

,puis

α

et

β

.

Les probabilités d'observation

Lesformulesderé-estimationdesprobabilitésd'observationpouruneloigaussienne

N (µ k , Σ k )

du nouveau modèle

λ

sontdérites parles équations suivantes:

µ k = nb de f ois ` a l etat k et observation de o ´ t nb de f ois a l ` ´ etat k

= P T t=1

γ t (k)o t P T t=1 γ t (k) Σ k =

P T t=1

γ t (j)(o t − µ j )(o t − µ j ) P T

t=1

γ t (j)

γ

étant laprobabilité a posterioride s'êtretrouvéà l'état

i

àl'instant

t

onnaissantlaséquene

d'observationsetle modèle:

γ t (i) = P (q t = i|O, λ)

Les probabilités de transition

Les valeursdes probabilitésde transitionsont :

a ij = nb de transitions ij nb trans. sortantes de i =

P T t=1

ξ t (i, j) P T t=1

ξ t (i)

ξ

étant la probabilité de s'être trouvé à l'état

i

à l'instant

t

, et à l'état

j

à l'instant

t + 1

onnaissantla séquened'observationset

λ

:

ξ t (i, j) = P (q t = i, q t+1 = j|O, λ)

(29)

Hélas, le problème est simplement reporté sur deux nouvelles inonnues,

γ

et

ξ

. Il est alors

possible d'introduirede nouveau deuxvariables supplémentaires:

soit

α t (i) = P (o 1 . . . o t , q t = i|λ)

,la probabilité d'observer laséquene

o 1 . . . o t

etd'être à

l'état

i

àl'instant

t

sahantle modèle

λ

.

soitégalement

β t (i) = P(o t+1 . . . o T |q t = i, λ)

,laprobabilitéd'observerlaséquene

o t+1 . . . o T

sahant

λ

,etd'êtreàl'état

i

autemps

t

.

Les valeurs de

γ

et

ξ

peuvent s'exprimer en fontion de

α

et

β

. Nous obtenons alors les

équationssuivantes:

γ t (i) = α t (i)β t (i) P N

i=1

α t (i)β t (i)

ξ t (i, j) = α t (i)a ij b j (o t+1t+1 (j) P N

i=1

P N j=1

α t (i)a ij b j (o t+1t+1 (j)

Par l'introdution de nouvelles inonnues

α

et

β

, Baum et Welh reformulent la dénition desinonnues

γ

et

ξ

.Toutefois,Il està présentlapossibilitédealuler esnouvelles inonnues àpartirdes probabilitésd'observation etdestransitions initialesdu modèle

λ

parlesméthodes

forward etbakward.

1.4.2.2 La méthode forward

Eneet,ilestpossible dealuler

α

parréurrenearhaqueétapedealulautemps

t

ne

néessitequeles observationsdestempspréédents. Voii ladénitionde ette réurrene:

Initialisation :

α 1 (i) = π i b i (o 1 )

Réurrene :

α t+1 (j) = h X N i=1

α t (i)a ij i b j (o t+1 )

Deplus,nousavonsla propriétésuivante:

P(O|λ) = X N i=1

P (O, q T = i|λ) = X N i=1

α T (i)

1.4.2.3 La méthode bakward

De même que pour

α

, il est possible de aluler

β

par réurrene. Par ontre, dans le as

de

β

, les aluls à l'étape de temps

t

ont besoin des observations des temps suivants. Voii la dénitionde laréurrenede

β

:

Initialisation :

β T (i) = 1, 1 ≤ i ≤ N

Réurrene :

β t (i) = X N j=1

a ij b j (o t+1t+1 (j)

(30)

Ces résultatsamènent unepropriété intéressante:

P (O|λ) = X N i=1

α T (i) = X N i=1

β 1 (i) = X N i=1

α t (i)β t (i).

Dans es deux réurrenes relatives aux valeurs

α

et

β

, auune nouvelle inonnue n'a été

introduite,ettoutes lesautres valeursprésentessont dénies,lealuleetifestdon possible.

Il sut d'utiliser les diérentes égalités et inonnues introduites pour obtenir les valeurs de

ré-estimation des

a ij

etdes

b i

.

Ensuite, nous itérons le proessus de alul du système

λ i

, qui sera au moins aussi bon

que le système

λ i−1

. Le nombre d'itérations réalisées est habituellement déni à une valeur xée de manière arbitraire, ou bien dépend d'unritère d'arrêt exprimant la stabilisation de la

onvergene desmodèles

λ i

.

1.5 Lexique et modèle de langage

1.5.1 Lexique

Lesystèmedereonnaissanenéessiteladénitiondel'ensembledesmotsqu'ilseraàmême

dereonnaître.Cetensembleestdénommélexiqueouvoabulaire.Unmotn'appartenantpasau

lexiquene pourra jamaisêtre présent danslasolution fournie parlesystèmede reonnaissane.

Une façon lassique de onstruire le lexique onsiste à extraire à partir d'un orpus textuel

l'ensemble des mots les plus fréquents de e orpus. Pour les systèmes de reonnaissane dit

grand voabulaire la taille du lexique est de l'ordre de plusieursdizaines de milliers de mots et

le orpus textuel de l'ordre de plusieurs millions de mots (respetivement 54747 mots et plus

de 200 millions de mots dans le adre de nostravaux). En plus de dénir l'ensemble des mots

onnus du système,le lexiqueassoie àhaque motsadéomposition enunitésphonétiques. Le

lexiquedoitégalementtenir omptedesmultiplesprononiationspossiblesd'unmotauséespar

desélisionsou desliaisonsentreles mots.

1.5.2 Modèle de langage

Lesmodèlesdelangageontpourobjetifdereprésenterlesloisquirégissentleomportement

de la langue. Ainsi, le modèle de langage aide à déterminer si une phrase est valide ou non

par rapport à la langue modélisée. S'inspirer des onnaissanes linguistiques est la manière la

plusintuitive deonstruireunmodèlede langage.Généralement,lesonnaissaneslinguistiques

s'expriment pardesrèglesdérivant lastrutured'unephrase.L'avantagede ettemodélisation

vient du fait qu'elle dérit préisément les onditions de validité, de onstrution d'une phrase

de la langue. Cependant ertains phénomènes restent mal modélisés et de telles onstrutions

grammatiales nesont pasenadéquationave lalangueorale.En eet,enparole spontanée,les

règlesdeonstrutiondesphrasesnesontpassouventrespetéesetainsietypedemodélisation

nevalideraitpassouventlaparole spontanée.Deplus,l'élaborationdeesmodèlesnéessiteune

partimportanted'interventionmanuelle,e quine failite guèrel'adaptationdelamodélisation

auxévolutionsde lalangueou à uneautre langue.

Dans les systèmes de reonnaissane automatique de laparole, la langue est modélisée par

une autre atégorie de modèles de langage, les modèles statistiques. Ces modèles sont appris

(31)

automatiquement sur des orpus textuels de taille importante (plusieurs millions de mots). La

modélisation statistique n-grammes est la plus utilisée. Cette modélisation onsiste à estimer,

à partir d'un orpus textuel, les probabilités des séquenes de

n

mots. Le prinipe de base est

d'exploiter la fréquene d'apparition de séquenes de mots et d'en déduire des estimations des

probabilités unigrammes(probabilité d'apparition d'unmot), bigrammes (probabilité d'appari-

tiond'uneséquenededeuxmots)etplusgénéralementden-grammes.Leritèreommunément

utilisé pour l'estimation de es diérentes probabilités est le ritère du maximum de vraisem-

blane[Federio98℄.

Considérant l'ensemble des séquenes de

n

mots possibles à partir du lexique, beauoup

n'apparaissent pas dansle orpus d'apprentissage pare qu'elles sont impossibles voire très im-

probables pour le langage onsidéré, omme parexemple le bigrammele maison. Toutefois

un nombre non négligeable d'entre elles sont valides au sens du langage mais peuvent ne pas

apparaîtredans leorpus d'apprentissage.Aussi,pourlaisserune haneà esséquenes d'être

reonnues,haqueséqueneden-motsdoitavoiruneprobabiliténonnulle.Diérentestehniques

dites de repli (bako) permettent d'estimer la probabilité de es séquenes, même si elles-i

n'ont jamaisétérenontréesdansleorpus[Chen99℄.

Soit la séquene de mot

w 1 , w 2 , w 3

, nous dénissons la probabilité trigramme omme la quantité

p(w 3 |w 1 , w 2 )

. L'algorithme 1.1 dérit le alul de la probabilité trigramme direte

p(w 3 |w 1 , w 2 )

dansleas d'unmodèle linguistique intégrant lanotion de repli. Lesmêmes teh- niques sont utilisées dans le alul de la probabilité bigramme

p(w 2 |w 1 )

(Algo. 1.2). Dans es

algorithmes:

p n (w 1 , . . . , w n )

est l'estimation sur le orpus d'apprentissage de la probabilité n-gramme

p(w n |w 1 . . . w n−1 )

danslemodèlelangage,

repli n−1 (w 1 , . . . , w n−1 )

est la valeur de repli alulée par le modèle de langage pour une

séquene de

n

mots nonrenontréedansle orpusd'apprentissage.

Lorsqu'une séquene de

n

mots n'est pas modélisée par le modèle de langage (probabilité n-gramme),un premierniveaude repliesteetuéen n'utilisantplus quedesrelationsentreau

maximum

n − 1

mots. Ce proessus peut être appliqué réursivement tant qu'une probabilité m-grammen'estpasdéniedansle modèlede langage.

Algorithme 1.1:

si letrigramme

w 1 , w 2 , w 3

existe dans le modèle delangage

alors

/* on utilise la valeur donnée par le modèle */

p(w 3 |w 1 , w 2 ) = p 3 (w 1 , w 2 , w 3 )

sinon

/* on utilise un premier niveau de repli */

si lebigramme

w 1 , w 2

existe alors

p(w 3 |w 1 , w 2 ) = repli 2 (w 1 , w 2 ) ∗ p(w 3 |w 2 )

sinon

/* on utilise un deuxième niveau de repli */

p(w 3 |w 1 , w 2 ) = p(w 3 |w 2 )

n

n

Toutommeilestpossibled'ajouterdesonnaissanespsyho-aoustiquesauniveaudelapa-

Références

Documents relatifs

Cette fenêtre est déplacée pas à pas, c'est-à-dire déplacée d’un vecteur au suivant (Figure 1.2). Dans cette méthode, lorsque les éléments audio à comparer sont courts

Des ANOVA à un facteur pour chaque voyelle pour la série Min, d’une part, et pour la série Max, d’autre part, sont calculées de manière à évaluer l’effet du locuteur sur

description speech prosody characteristics that are used to facilitate syntactic parsing [Selrik, 1984, Dell, 1984, Price et al., 1991, Ladd, 1996, Delais-Roussarie, 2000]

Le premier type de combinaison présenté dans le chapitre 4 consiste à ex- ploiter les sorties des systèmes de reconnaissance de la parole utilisant le même type de modélisation mais

Le processus de reconnaissance d'un groupe de soue comporte généralement au moins trois étapes : une première qui, sur la base d'un modèle de langue peu précis et d'un

Dans [Lamel & Adda, 2002], l’´etude a ´et´e ´etendue en mesurant les taux d’erreurs obtenus avec des quantit´es de donn´ees d’apprentissage comprises entre 10 minutes et

5% des séquences utilisées pour créer le modèle du monde ont été sélectionnées comme données de contre exemple (environ 200000 trames). La table B.1 présente les résultats.

Etant donn´e, le grand nombre global de distributions (6108 * 32), pour optimiser le temps de d´ecodage de ce syst`eme nous avons opt´e pour des techniques ad´equates dont la