D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´ UFR STMIA
Mesures de confiance trame-synchrones et locales en reconnaissance
automatique de la parole
TH` ESE
pr´esent´ee et soutenue publiquement le 9 octobre 2007 pour l’obtention du
Doctorat de l’universit´ e Henri Poincar´ e – Nancy Universit´ e
(sp´ ecialit´ e informatique)
par
Joseph Razik
Composition du jury
Pr´ esident : Ren´e Schott Professeur, UHP–LORIA Nancy
Rapporteurs : Jean-Fran¸cois Bonastre Maˆıtre de conf´erences (HDR), LIA–CERI Avignon G´erard Chollet Directeur de recherche CNRS, ENST–TSI Paris Examinateurs : Laurent Besacier Maˆıtre de conf´erences (HDR), CLIPS–IMAG Grenoble
Jean-Paul Haton Professeur, UHP–LORIA Nancy (Directeur)
Odile Mella Maˆıtre de conf´erences, UHP–LORIA Nancy (Co-directrice)
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503
Mes remeriementsvont prinipalement aux personnes dont les noms sont dans lagrille i-
dessous.
Je remerie les diérentes personnes obayes qui ont bien voulu prendre sur leur temps et
partiiperà l'expérienede ompréhensionde texte.
Jeremerieégalementtouseuxquej'aioubliésainsiquetouseuxquilirontesquelqueslignes
etlespages quisuivent.
1 2 3
4 5
6 7
8 9
10
11 12
13 14
15
16 17
18
19 20 21
22
23
24
25
26
27
28
29
5. Faire des balades en forêt ave un violon, e n'est pas pratique, mais pour attraper des
truites,e n'estvraimentpaspratique
6. Mais qu'este que'est queette histoiredepouetetde anards?!
8. Un granddadetqui parle tropfort
11. Le vendredi e n'estpaslapeinede leherher, 'estgolf!
13. Le maître del'enfumage
14. Consienieuse etprofessionnelle, très(trop)impliquée,attention ausurmenage
16. Paris,laapitale, latourEieletl'ENST
19. La hartreuse,ça nevautpaslamirabelle maisil faut faireave lesmoyensdubord
22. Elle pourraitparlerplusfort quandelle ditau revoir
23. Femmeauvolant ...
25. Mister CVS
26. Jen'ai toujours pasles aents, mêmeenHTML!
27. Un peutrop haneux, mêmeàlaxbox
28. It's theFinalCountdown
29. Toutlemondene sort pasindemned'unstage deheadshot
Vertial
1. Onydanse tousen rond...peutêtrequelui aussi
2. Toujoursprêt àaider,ommesonnom l'indique
3. Ona quandmêmefait debellesparties deping-pong
4. Mon guideà Pékin etaussiun peu danslaulturehinoise
7. Ilestétonnantd'avoirétédanslemêmepetitollègeaveuneannéed'éartpuisnalement
dene seonnaître qu'une vingtained'années plustard
9. Un jour iloubliera satêteen plusde sonportable,sonportefeuille,seslés ...
10. Petit meusiendeviendra Doteur
12. Ca nesert à riende regarderdansl'équipe siVézeliseest passéeen L1
15. Sanseux, je ne seraispaslà
17. Toutunentourage sympathiqueetaueillant,presqueune famille
18. Studio mobileave vuesur leLoria
20. La vie peut-elleêtre modélisée parunproessusMarkovien?
21. N46
24. Quelle idéede uisiner de laviandeavedu oa!
25. Mon...Mon...Mon...Monster Kill
Remarque
Etant l'auteur des dénitions, leur ontexte m'est propre et il n'est pas forément aisé de
trouverles noms.Aussilagrilleréponseestdonnéeen annexe A.4.
quipoussedans monjardin seret
Introdution générale xv
Chapitre 1
Arhiteture d'un système de reonnaissane automatique de la parole 1
1.1 Introdution . . . 2
1.2 Arhitetured'unsystème dereonnaissane . . . 2
1.3 Paramétrisation dusignal . . . 3
1.3.1 Les paramètresMFCC . . . 4
1.4 Modélisationde laparole Modélisationaoustique . . . 5
1.4.1 Modèles de Markovahés . . . 5
1.4.2 Apprentissagedes modèles deMarkovahés . . . 6
1.4.2.1 L'algorithmede Baum etWelh . . . 7
1.4.2.2 La méthodeforward . . . 9
1.4.2.3 La méthodebakward . . . 9
1.5 Lexique etmodèle delangage . . . 10
1.5.1 Lexique . . . 10
1.5.2 Modèlede langage . . . 10
1.6 Prinipede fontionnement d'unmoteurde reonnaissane. . . 12
1.6.1 L'algorithmede Viterbi . . . 13
1.6.1.1 Le prinipe de Viterbi . . . 13
1.6.1.2 Le prinipe d'optimalitéde Bellman . . . 14
1.6.1.3 L'algorithmede Viterbi . . . 14
1.6.1.4 Algorithme deViterbi dansleasd'une phrase . . . 15
1.6.2 L'algorithme
A ∗
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.6.3 Résultats de lareonnaissane. . . 18
1.6.3.1 N-meilleures phrases . . . 18
1.6.3.2 Graphede mots . . . 19
1.6.3.3 Réseau deonfusion . . . 20
1.7 Conlusion. . . 21
Chapitre 2 Mesures de onane 2.1 Introdution . . . 25
2.2 Exemplesd'appliationsetintérêt desmesures deonane . . . 26
2.2.1 Reonnaissanede laparole :transription. . . 26
2.2.2 Détetion desmots horsvoabulaire . . . 27
2.2.3 Détetion de motslés . . . 27
2.2.4 Dialogue Homme/Mahine. . . 29
2.2.5 Apprentissage semi-supervisé . . . 29
2.2.6 Adaptation . . . 31
2.3 Mesuresde onane . . . 31
2.3.1 Critèresnon probabilistes . . . 32
2.3.1.1 Stabilitéaoustique . . . 32
2.3.1.2 Densitéd'hypothèses. . . 32
2.3.1.3 Dépendanedesmots . . . 33
2.3.2 Critèresrelatifs au modèle delangage . . . 33
2.3.2.1 Lemodèlede langage . . . 33
2.3.2.2 Replidu modèlede langage . . . 34
2.3.3 Critèressémantiques etsyntaxiques. . . 35
2.3.3.1 Analysesémantiquelatente . . . 35
2.3.3.2 Informationmutuelle . . . 36
2.3.3.3 Catégoried'unmot . . . 37
2.3.4 Autresritèresempiriques . . . 37
2.3.5 Mesuresfondéessur lerapportde vraisemblane . . . 38
2.3.5.1 Tests d'hypothèse . . . 38
2.3.5.2 Rapport devraisemblane . . . 38
2.3.5.3 Modèle /Anti-Modèle . . . 39
2.3.5.4 Modèle générique . . . 39
2.3.5.5 Modèles ompétitifs . . . 40
2.3.6 Mesuresfondéessur lesprobabilitéa posteriori . . . 41
2.3.6.1 Mesuresfondéessurlaliste de n-meilleuresphrases. . . 42
2.3.6.2 Mesuresfondéessurlesgraphesdemotsetl'algorithmedeforward- bakward . . . 42
2.3.6.3 Mesurede onanedu systèmede reonnaissaneJulius . . . . 44
2.3.6.4 Mesuresfondéessurles réseauxde onfusion . . . 45
babilité a posteriori . . . 46
2.3.7 Combinaison demesures de onane . . . 46
2.3.7.1 Combinaisons de mesuresetd'heuristiques . . . 46
2.3.7.2 Combinaisonde systèmes dereonnaissane . . . 47
2.4 Méthodes d'évaluation . . . 48
2.4.1 Tauxd'égaleerreur . . . 48
2.4.2 Tauxd'erreur deonane . . . 50
2.4.3 Entropieroisée normalisée . . . 50
2.4.4 Coeient de orrélation. . . 51
2.4.5 Rappel/ Préision . . . 52
2.4.6 Synthèse. . . 53
2.5 Quelques résultats . . . 53
2.6 Conlusion. . . 54
Chapitre 3 Propositions de nouvelles mesures de onane 3.1 Objetifs. . . 58
3.1.1 Appliations visées . . . 58
3.1.1.1 Transriptiond'émissions . . . 58
3.1.1.2 Transriptionde oursen sallede lasse . . . 59
3.1.1.3 Détetion de mots lés . . . 61
3.1.2 Nos mesuresde onane:dansquel but? omment? . . . 61
3.1.2.1 Caratéristiquesprinipales denosmesures de onane . . . 61
3.1.2.2 Quelstypesde mesures de onane? . . . 62
3.1.2.3 Soure d'informationpouralulerles mesures . . . 62
3.1.2.4 Mesuresde onaneà quel niveau? . . . 63
3.2 Mesurestrame-synhrones . . . 63
3.2.1 Dénition desmots onurrentsde l'ensemble
E
. . . . . . . . . . . . . . 643.2.2 Gestion desourrenes multiples. . . 64
3.2.3 Mesure fondéesurlaprobabilité unigramme . . . 65
3.2.4 Introdution de fateursd'éhelle . . . 66
3.2.5 Mesure fondéesurlaprobabilité bigramme . . . 66
3.2.6 Mesure fondéesurlaprobabilité trigramme . . . 67
3.2.7 Implantation . . . 69
3.2.7.1 Constrution de l'ensemble
E b
. . . . . . . . . . . . . . . . . . . . 693.2.7.2 Calul des mesures fondées sur les probabilités unigramme, bi-
grammeettrigramme . . . 69
3.3 Mesuresloales . . . 71
3.3.1 Mesuresfondéessur laprobabilitéa posteriori. . . 72
3.3.2 Dénition desvoisinages . . . 73
3.3.3 Introdutiond'unfateur de exibilité
η
. . . . . . . . . . . . . . . . . . . 733.4 Homogénéisationde larépartitiondesvaleursde onane . . . 74
3.5 Complexitéde nosmesures deonane . . . 77
3.5.1 Mesurestrame-synhrones . . . 77
3.5.2 Mesuresloales . . . 77
3.6 Conlusion. . . 78
Chapitre 4 Conditions expérimentales 4.1 Introdution . . . 82
4.2 Moteurde reonnaissane :Julius . . . 82
4.2.1 La première passede Julius . . . 83
4.2.2 La deuxième passede Julius . . . 83
4.2.3 Optionsde ompilation . . . 84
4.2.4 Le graphede mots . . . 84
4.3 Paramétrisation . . . 85
4.4 Modèles aoustiques . . . 85
4.4.1 Monophones. . . 85
4.4.2 Triphones . . . 85
4.5 Lexique etmodèlede langage . . . 86
4.5.1 Utilisés onjointement ave lesmodèles monophones . . . 86
4.5.2 Utilisés onjointement ave lesmodèles triphones . . . 86
4.6 Corpusde développement etde test . . . 87
4.7 Complexitéde nosmesures deonane . . . 87
4.7.1 Mesurestrame-synhrones . . . 88
4.7.2 Mesuresloales . . . 88
4.8 Conlusion. . . 88
Chapitre 5 Evaluation des mesures de onane ave le taux d'EER 5.1 Introdution . . . 90
5.2 Protoole d'évaluation . . . 90
5.4 Mesurestrame-synhrones . . . 92
5.4.1 Mesure fondéesurlaprobabilité unigramme . . . 93
5.4.1.1 Gestion desourrenesmultiplesparsommation. . . 94
5.4.2 Mesure fondéesurlaprobabilité bigramme . . . 95
5.4.2.1 Gestion desourrenesmultiplesparmaximisation . . . 95
5.4.2.2 Gestion desourrenesmultiplesparsommation. . . 96
5.4.2.3 Prédéesseurau sens deViterbi. . . 96
5.4.2.4 Filtrageparles
n
-meilleuresphrases . . . 975.4.2.5 Probabilitébigrammeseule . . . 98
5.4.2.6 Inlusion/exlusiondu mot
w b
dansl'ensembleE b
. . . . . . . . . 995.4.2.7 Probabilitébigrammeinverse . . . 100
5.4.2.8 Homogénéisationdesvaleurs . . . 100
5.4.3 Mesure fondéesurlaprobabilité trigramme . . . 102
5.4.3.1 Probabilitétrigramme inverse. . . 104
5.4.4 Synthèse. . . 105
5.5 Mesuresloales . . . 106
5.5.1 Mesure à voisinagesymétrique . . . 106
5.5.2 Mesure à voisinageasymétrique . . . 108
5.5.3 Homogénéisation desvaleurs deonane . . . 110
5.5.4 Synthèse. . . 112
5.6 Inuene delataille desmots . . . 113
5.7 Comparaison ave la mesurede onane intégréedans le système de reonnais- sane Julius . . . 116
5.8 Evaluationsur leorpusde test etonlusion . . . 117
Chapitre 6 Evaluation dans le adre d'appliations spéiques 6.1 Introdution . . . 122
6.2 Appliation àladétetion demots lés . . . 122
6.3 Intégrationd'une mesurede onanedanslemoteurde reonnaissane . . . 125
6.3.1 Méthodologie . . . 125
6.3.2 Expérimentation . . . 126
6.4 Transriptionde ours ensalle delasse . . . 129
6.4.1 Présentation du systèmeinitial . . . 129
6.4.2 Utilisation delamesure deonane . . . 130
6.4.3 Protoolede test . . . 131
6.5 Conlusion. . . 135
Conlusion et perspetives 137 Annexe A 145 A.1 Entropieroiséenormalisée . . . 145
A.2 Tauxd'erreur de onane . . . 146
A.3 Inuenede latailledes mots . . . 146
A.4 Questionnairepourl'évaluation destransriptionspourmalentendants . . . 149
Glossaire 151
Bibliographie 153
Publiations personnelles 163
1.1 Arhitetured'un systèmede reonnaissaneautomatique de laparole etdesap-
prentissagesnéessaires. . . 2
1.2 Etapesde aluldesoeientsepstraux àéhelleMel. . . 4
1.3 Filtres triangulairesàéhelleMel (20bandes).. . . 4
1.4 HMM gauhe-droite àtroisétats. . . 5
1.5 Graphe de Viterbi pour un HMM à 3 états gauhe-droite etune séquene de 10 observations . . . 13
1.6 Exemple d'unextrait de grapheand'illustrer leprinipe d'optimalitéde Bellman. 14 1.7 Exemple d'ungraphede mots . . . 19
1.8 Seond exempled'ungraphe demots . . . 20
1.9 Exemple d'unréseau de onfusion. . . 20
2.1 Etapes de réalisation d'un apprentissage semi-supervisé ave l'utilisation d'une mesure deonane. . . 30
2.2 Exemple d'une ourbe ROC-DET. L'intersetion entre lapremière bissetrie et laourbedéterminelepoint EER. . . 49
3.1 Les 5 positions de la main pour le odage des voyelles phonétiques en Langage Parlé Complété.. . . 59
3.2 Les 8ongurationsde doigtspourleodagedesonsonnes phonétiquesen Lan- gageParlé Complété. . . 60
3.3 Tête odeuse de synthèse développée au Loria pour le projet LABIAO (le son pa enLPC).. . . 60
3.4 Illustration du voisinage pris en omptepourla mesure de onane symétrique de paramètre de taille
x
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.5 Illustration duvoisinage pris enomptepourlamesurede onaneasymétrique de paramètre de taille
x
ety
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.6 Distribution dutaux de mots orrets etde lavaleurmoyennede onanepour 20 intervalles de taille identique pourtous les mots d'unensemble de graphes de mots.. . . 75
3.7 Distribution dutaux de mots orrets etde lavaleurmoyennede onanepour 20 intervalles de taille identique pour les mots faisant partie d'un ensemble de phrasesreonnues. . . 76
5.1 CourbeDETdelamesurederéférenefondéesurlaprobabilitéaposterioriglobale
(α = 0, 1)
,(β = 1)
et(η = 1)
.EER=22,0% (orpusde développement). . . 925.2 CourbeDETde lamesuredeonanefondéesurlaprobabilitéunigramme
(α =
0, 1)
,(β = 0, 5)
et(ε = 0, 1)
.EER=37,6% (orpusde développement). . . 945.3 Distributiondu tauxde mots orrets etde lavaleur moyennede onane pour
20 intervalles de taille identique sur le orpus de développement pour la mesure
bigramme
(α = 0, 1)
,(β = 0, 95)
et(ε = 0, 1)
. . . . . . . . . . . . . . . . . . . . . 1015.4 Variation du taux d'EER de la mesure de onane fondée sur la probabilité
trigramme,enfontiondurapportdesfateursd'éhellelinguistiqueetaoustique
β/α
(α = 0, 1
etε = 0, 1
). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1035.5 Courbedutauxd'EERde lamesureloaleàvoisinagesymétriquerelativement à
diérentes taillesde voisinage.
(α = 0, 1)
,(β = 0, 95)
et(η = 0, 5)
. . . . . . . . . 1075.6 Taux d'EERde la mesurede onane loale à voisinage asymétrique à taille de
voisinage passévariableettaille de voisinagefuturxe (0,40,60, et84trames) . 109
5.7 Répartitiondu taux de mots orrets et de la valeur moyenne de onane pour
20 intervalles de taille identique sur le orpus de développement pour la mesure
loale symétriqueavevoisinagede 84 trames,
(α = 0, 1)
,(β = 0, 95)
et(η = 0, 5)
1115.8 Répartitiondutauxdemotsorretsetdelavaleurmoyennedeonanepour20
intervallesdetailleidentiquesurleorpusdedéveloppementpourlamesureloale
asymétriquetrame-synhroneprenanten omptetoutlevoisinagepassé depuisle
débutde laphrase,
(α = 0, 1)
,(β = 0, 95)
et(η = 0, 5)
. . . . . . . . . . . . . . . 1125.9 Evolutiondutauxd'EERsuivantlatailleenphonèmesdesmots analyséspourla
mesurede référene. . . 114
5.10 Evolutiondutauxd'EERsuivantlatailleenphonèmesdesmots analyséspourla
mesureloale symétrique. . . 115
5.11 Evolutiondutauxd'EERsuivantlatailleenphonèmesdesmots analyséspourla
mesuretrame-synhronebigrammedirete . . . 115
5.12 Répartitiondesmots de lareonnaissane pourleorpusde développement selon
leurtaille en phonèmes. . . 116
5.13 Courbe DET de la mesure de onane intégrée dans Julius ainsi que elles de
la mesure loale symétrique ave voisinage de 84 trames et de la mesure trame-
synhronebigrammeinverse.. . . 117
6.1 Evolution du nombre de fausses aeptations et du nombre de bons mots lés
restant enfontion du seuilde déision(orpusde développement). . . 123
6.2 Evolution du nombre de fausses aeptations et du nombre de bons mots lés
restant enfontion du seuilde déision(orpusde test). . . 124
6.3 Distributiondutauxdemotsorretsenfontiondelavaleurmoyennedeonane
pour20 intervalles detaille identiquesurleorpus utilisédansleadrede lame-
surebigrammeintégréedanslemoteur dereonnaissane. . . 127
6.4 Tête odeuse de synthèse développée au Loria pour le projet LABIAO (le son
paen LPC).. . . 129
A.1 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour
lamesurede référene . . . 147
A.2 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour
lamesureloale symétrique . . . 148
A.3 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour
lamesuretrame-synhronebigrammedirete . . . 148
1.1 Exemple de listedes5 meilleuresphrasesissuesd'unsystème dereonnaissane.. 18
2.1 Résultats obtenuspardiérentesmesures de onanesurdiérentsorpus. . . . 54
5.1 Tauxd'EERdelamesurederéférenefondéesurlaprobabilitéaposterioriglobale
alulée sur la phrase omplète ave diérents fateurs d'éhelle et fateur de
exibilité(orpusde développement). . . 92
5.2 Tauxd'EERobtenusparlamesuredeonaneunigrammeavediérentsfateurs
d'éhelleetde relâhement (orpusde développement). . . 93
5.3 Taux d'EER des mesures de onane unigramme ave gestion des ourrenes
multiplesparmaximisation etsommationave diérentsfateursd'éhelleet
ε = 0, 1
(orpusde développement). . . 94 5.4 Tauxd'EERobtenusparlamesuredeonanebigrammeavegestionparmaxi-misation pourdiérents fateurs d'éhelle et de relâhement (orpusde dévelop-
pement). . . 95
5.5 Taux d'EER des mesures de onane bigramme ave gestion des ourrenes
multiplesparmaximisation etsommationave diérentsfateursd'éhelleet
ε = 0, 1
(orpusde développement). . . 96 5.6 Taux d'EER des mesures de onane bigramme ave gestion par maximisationet ave préédents temporels direts ou ave préédent au sens de Viterbi ave
diérentsfateursd'éhelle,
ε = 0, 1
(orpusdedéveloppement). . . 97 5.7 Tauxd'EERdelamesurebigrammeave etsansltragedesmotspréédentsparles
n
-meilleuresphrases,(α = 0, 1)
,(β = 0, 95)
(orpusde développement). . . 98 5.8 Tauxd'EERdelamesuredeonanebigrammeaveprédéesseurstemporelsoude Viterbi etave ou sansprobabilité unigramme.. . . 99
5.9 Tauxd'EERdesmesuresde onanebigramme,mesuresinluantou exluant
w b
del'ensemble
E b
avediérentsfateursd'éhelle,ε = 0, 1
(orpusdedéveloppement). 99 5.10 Tauxd'EERdesmesuresde onanefondéesurlaprobabilitébigrammedireteetinverseave diérents fateursd'éhelle,
ε = 0, 1
(orpusde développement). . 100 5.11 Taux d'EER des mesures de onane bigramme ave gestion par maximisationettouslespréédentstemporelsdirets,ave etsanshomogénéisationdesvaleurs
de onane ave diérentsfateursd'éhelle,
ε = 0, 1
(orpusdedéveloppement). 102 5.12 Tauxd'EER de omparaison de la mesurede onane fondéesur la probabilitétrigramme etde saversionmodiée,
ε = 0, 1
(orpusde développement). . . 104 5.13 Tauxd'EERdesmesuresdeonanefondéesurlaprobabilitétrigrammedireteetinverseave diérents fateursd'éhelle,
ε = 0, 1
(orpusde développement). . 1055.14 Taux d'EER obtenus par lamesure de onane loale fondée sur la probabilité
a posteriori ave un voisinage symétrique de 84 trames, pour diérents fateurs
d'éhelleetde relâhement(orpusde développement). . . 107
5.15 Synthèsedesrésultatsobtenusparnosmesuresdeonaneainsiqueparlamesure
de référenesurorpus dedéveloppement entaux d'EERetsurleorpus de test
en tauxde faussesalarmes (FA),taux defaux rejets(FR)etde CER. . . 119
6.1 Listedes33 mots lés. . . 122
6.2 Tauxd'erreurenmotsàlandelapremièrepassesuivantdiérentesintégrations
de lavaleur de onane.. . . 128
6.3 Tauxd'erreurenmotsàlandeladeuxièmepassesuivantdiérentesintégrations
de lavaleur de onane.. . . 128
6.4 Exemple desvaleursde onane desmots d'unephrase. . . 130
6.5 Tauxd'erreurenmotssurlespartiesretransritesdestextessuivantlesdiérentes
modalités. . . 134
6.6 Tauxde réponseaux questionsdestextesselon les diérentes modalités. . . 135
Auommenementétait la parole (Jean 1 :1-5).
Queesoitsouslaformedegrognementsommenosanêtresprimitifs,ousousuneformeplus
évoluéeetomplexeànotreère,lelangageetlaommuniationtiennentuneplaeprépondérante
dans la soiété humaine. Depuis es temps immémoriaux, la parole a toujours été le support
majeur d'expression des êtres humains. Grâe à la voix, les personnes peuvent partager des
informations, dialoguer, exprimer des sentiments, et. Bien que tout être humain soit apable
des'exprimer parlaparole depuisdes millénaires,lesméanismes assoiés àlaprodution ou à
l'aquisition delaparole sont omplexesetne sont pasenore totalementmaîtrisés.
La prodution d'unson est lerésultat d'une ombinaison de nombreuses interationsméa-
niques et physiologiques qui vont inuener ses aratéristiques aoustiques. Par exemple, un
homme, une femme, ou un enfant auront une fréquene fondamentale diérente et don le son
émisseralui mêmediérent.Des aratéristiquesplus subtilessontégalement transmises viala
parole.Parexemple,ommentexpliquerlefaitquenouspuissionssavoiraveunequasiertitude
qu'unepersonne parleau téléphoneen souriant?
Cetteomplexitéauniveaudelaprodutiondusonamèneégalementdenombreusesdiul-
tésauniveaudel'aquisition dulangage etde saompréhension.Depuisleurplusjeuneâge,les
enfantséoutent les adultes parler, tentent de reproduire tant bien quemal e qu'ilsentendent
maiségalement essaient de donnerun sens à e otsonore. Pour ela plusieursétapes sont né-
essaires:segmenterlaphrase en mots,les reonnaître,analyser leur signiationetnalement
omprendrelaphrase.
L'intelligene artiielle voudrait pouvoir réaliser es étapes qu'eetuent quotidiennement
leshumains,etmêmeles enfants,parlebiaisd'une mahine, d'unproessusautomatique.Ave
lesdébutsdesenregistrementssonoresdevoixoudemusique,denombreusespersonnesonttenté
d'analyser, de retrouversur es traes de voix e qui avait été prononé. Trouverle seret qui
permet de distinguerun a d'uno. Les premièresexpérienes peuvent apparaître de nos
joursommetrès grossières,voireinimaginables, maisune grande partiedesonnaissaness sur
laprodutionetl'analyse de laparolevient de esétudes dusignal brut.
Puis des personnes de tous horizons, herheurs ou auteurs, ont ommené à imaginer des
appliations assoiées à la reonnaissane de es sons. Ave l'utilisation grandissante des ordi-
nateurs et l'idée d'une intelligene artiielle, la siene tion a souvent donné des exemples
d'appliationde lareonnaissane voale pardesmahines, desordinateurs.
Par exemple des robots serviteurs ommandés à la voix : méaniiens ou traduteurs dans
ununiversfuturiste omme StarWars. Ou bien,dans unontexte plusontemporainl'exemple
d'unevoitureéquipéed'unordinateurapablededialogueretdemontrerunomportementquasi
humain.Cettevisiond'unesimplevoiturequipuisseàlafoisomprendre,s'exprimeretmêmese
omporter ommeun être humain,laisse dansl'esprit du publi l'idée queette tehnologie est
presqueexistantealorsqueelaestenoreunobjetifdiileàatteindrepourlesherheurs
en intelligeneartiielle.
Depuisplusieursannéesnouspouvonsommanderoralementun ordinateur,pourdestâhes
simples,aveundialoguestritementdiretifetlimité;desappliationsdeditéevoaleexistent;
desappliations de type renseignementstéléphoniques voient le jour,aeptant divers sénarios
de dialogue, plus ou moins exibles. Toutefois nous sommes enore très loin des rêves des au-
teurs de siene tion. En eet, les appliations itées préédemment existent mais ave des
onditions d'utilisation extrêmement restritives : voabulaire limité, généralement une seule
languetraitée,onditionsd'utilisationoptimales,importantesensibilitéauxbruits,longuephase
d'apprentissage,et.
Atuellement,lebut de lareherhe en reonnaissaneautomatique estde onsidérertoutes
eslimitationsd'utilisation,delesdépasseretdeomprendredemieuxenmieuxlesméanismes
liésà laparole (prodution,pereption,ompréhension).
Parler à une mahine et voir elle-i retransrire mot pour mot e qui a été prononé pré-
sente un té magique et fasinant. Les appliations de ditée voale ou plus généralement de
transriptiond'undoumentsonore,ontommeobjetifdefournirsousforme detextelaparole
ontenue dans le signal audio traité. Cette tâhe est une des plus diiles du domaine de la
reonnaissane automatiquede laparole.
Lespremierssystèmes dereonnaissane netraitaient quedesmots isolés,puis,lapuissane
des ordinateurs augmentant, le traitement de phrases entières a été envisagé. Cependant, la
modélisation de la grammaire d'une langue naturelle est diile voire impossible, ar elle-i
a évolué au ours du temps, ave des modiations, des simpliations, des habitudes qui ne
suiventpasforément lesrèglesdelalangue.Deplus,haquerègle n'a-t-ellepassonexeption?
Ainsi les premierssystèmes traitant desphrasesétaient fondés sur une modélisationlimitée
delalanguedesortequelelouteurn'avaitquepeudehoixdanslesphrasesqu'ilétaitautorisé
à prononer.
A l'heure atuelle, les systèmes de reonnaissane automatique de la parole aeptent des
onditions d'utilisation de moins en moins ontraintes,plus prohe des onditions d'utilisation
renontréesdanslaréalité.Celaimpliquede prendreenomptedesphénomènesdeplusenplus
omplexesomme lebruit,les toursde parole,lalangue utilisée, lalanguematernelle,et.
Plus les onditions expérimentales sont diiles etplus le système est à même de faire des
erreurs. L'inidene de es erreurs peut être plus ou moins importante : une erreur d'aord
grammatialimpliquetrèsrarementune mauvaiseompréhension,equiestsouventleaspour
un mottotalement malreonnun'ayantauunsens avele ontexte.
Plusieursdiretions sont envisageables an d'évitereserreurs :
anerles diérentsmodèles mis enjeu dansleproessusde reonnaissane,
explorer de nouvelles diretions de reherhe an de trouver des modèles plus robustes
(paramétrisation,lassieur, et),
utiliserd'autres informations ande orriger ou déteterles erreurs potentiellement om-
mises(débruitage, mesuresde onane).
Conernantedernierpoint,ilseraitintéressantdedénirdesindiessupplémentaires,autres
que le résultat de la reonnaissane, an d'estimer la qualité de la phrase reonnue, puis de
prendre en omptees indies an d'eetuersoit desorretions, soit desalertes. Lesmesures
de onaneremplissent e rle.L'objetif d'unemesurede onane estde pouvoirestimerau
mieuxlaprobabilité qu'une phraseou qu'undes motsreonnus soit juste.
Conevoirdesmesuresdeonaneestuneproblématiquediileapparueenreonnaissane
automatique de la parole depuis une dizaine d'années. En eet, hoisir et réer une mesure de
bonne eaité, les résultats onrets sont souvent insusants pour être exploités dans des
appliations.Toutefois dans plusieurs situations les mesures de onane apportent réellement
une onnaissane supplémentaire, notamment pour les tâhes d'aeptation/rejet d'hypothèses
(dialogues homme/mahine, détetion de mots lés), de séletions de données (apprentissage
semi-supervisé)etplusgénéralement dansles tâhesde transription.
Dans ette thèse nous nous sommes intéressé aux mesures de onane dans le adre des
appliationsdereonnaissanedelaparolegrandvoabulaireetàuxontinu.Noussouhaitions
dénirdesmesuresde onanepouvantêtrealuléessansattendrequelesignal(laphrase)ne
soit déodé dans son intégralité par le système de reonnaissane. Les appliations visées sont
pluspartiulièrement :
la transription d'émissionsradiophoniques à lavolée danslaquelle nouspourrons mettre
en ouleurles motsde faible onane,
latransription de oursen sallede lassepourdesélèvessourds ou malentendants,
ladétetion de motslés à lavolée.
Nous dérirons en détail es appliations dans le hapitre 3 de e mémoire. Toutefois, une
aratéristiqueimportantedeesux,quiserontdéodésàlavolée,estqu'ilssontvirtuellement
sans n, à l'opposé des douments pré-enregistrés. Le fait que la n du ux ne soit pas déter-
minéeempêhel'utilisationde méthode oudealulnéessitant laonnaissaneetletraitement
dusignaldanssonintégralité.Or atuellement,bien qu'ilexiste dessystèmesde reonnaissane
apablesde traiter des ux en diret, peu de mesures de onane peuvent être aluléesdans
esonditions.C'estlaraisonpourlaquellenousavonsdéidédedénirdenouvellesmesures de
onanequi sont trame-synhrones ouqui ne néessitent qu'une partiede laphrase pourpou-
voirêtreestimées.Lesmesurestrame-synhronespermettentdealulerune valeur deonane
exatementenmêmetempsqueledéodagedelaphraseesteetuéparlemoteurdereonnais-
sane.Les mesures loales que nous dénissons utilisent des onnaissanes futures par rapport
aumot dont nousvoulons estimerlaonane.Cependant,la partiefuture estde taillelimitée,
equi implique simplement un ourtdélai avant de pouvoir alulerla valeur de onaned'un
mot.
Ce mémoire débute par une présentation de l'arhiteture générale des systèmes de reon-
naissaneatuels danslaquellenousdérivonspluspartiulièrement les aspetsliésau adre de
notreétude.
Le hapitre 2 est onsaré à l'état de l'art. Avant de présenter les prinipales mesures de
onane introduites en reonnaissane de la parole, nous montrons leur utilité pour ertaines
appliationsphares de lareonnaissanede laparole. Ennnous terminonse hapitre parune
desriptiondesprinipalesméthodesd'évaluationdesmesures deonane.
Le hapitre 3 onerne nos travaux. Après une introdution des objetifs de notre étude,
notamment ene quionerneles appliationsiblées,nousprésentonsles nouvellesmesures de
onanequenousavonsdéniesau oursdeette étude:desmesurestrame-synhronesetdes
mesuresloales.
An d'évaluer les performanesde nosmesures de onane en situation réelle, nousavons
déni des onditions d'expérimentation qui sont détaillées dans le hapitre 4 : le moteur de
reonnaissane utilisé, les diérentes modélisations aoustiques et linguistiques hoisies, ainsi
quelesorpus de développement etde test.
Danslehapitre5,lesperformanesdesdiérentesmesuresetdeleursvariantessontévaluées
selonun ritèreindépendant detoute appliation.
Lehapitre6,quantàlui,regroupelesexpérimentationsquenousavonsmenéessurertaines
de nosmesures de onanedans leadre de deuxappliations bien spéiques :une détetion
de mots lés et une expériene qualitative de transription de ours pour des enfants sourds
ou malentendants. Ce hapitre setermine parla donnée de quelques résultats sur l'intégration
d'une mesure trame-synhrone dans le proessus de déodage du système de reonnaissane.
Nous onluons e mémoire par une disussion de nos travaux et de leurs résultats et par une
présentation desperspetivesenvisageables.
Arhiteture d'un système de
reonnaissane automatique de la
parole
Sommaire
1.1 Introdution . . . 2
1.2 Arhitetured'un système de reonnaissane. . . 2
1.3 Paramétrisation du signal . . . 3
1.3.1 LesparamètresMFCC . . . 4
1.4 Modélisation de la parole Modélisation aoustique . . . 5
1.4.1 ModèlesdeMarkovahés. . . 5
1.4.2 ApprentissagedesmodèlesdeMarkovahés . . . 6
1.4.2.1 L'algorithmedeBaumet Welh . . . 7
1.4.2.2 Laméthodeforward . . . 9
1.4.2.3 Laméthodebakward . . . 9
1.5 Lexiqueetmodèlede langage . . . 10
1.5.1 Lexique . . . 10
1.5.2 Modèledelangage . . . 10
1.6 Prinipe de fontionnement d'un moteur de reonnaissane . . . 12
1.6.1 L'algorithmedeViterbi . . . 13
1.6.1.1 LeprinipedeViterbi . . . 13
1.6.1.2 Lepriniped'optimalitédeBellman . . . 14
1.6.1.3 L'algorithmedeViterbi . . . 14
1.6.1.4 Algorithme deViterbidansleasd'unephrase . . . 15
1.6.2 L'algorithme
A ∗
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.6.3 Résultatsdelareonnaissane . . . 18
1.6.3.1 N-meilleuresphrases . . . 18
1.6.3.2 Graphe demots . . . 19
1.6.3.3 Réseaudeonfusion . . . 20
1.7 Conlusion . . . 21
1.1 Introdution
L'objetifd'unsystèmedereonnaissaneautomatiquedelaparoleestdetransrirelaparole
ontenuedansundoumentsonore donnéenentrée.Latransriptionseprésentehabituellement
sous la forme d'une séquene de mots. Un dé atuel est de pouvoir reonnaître de la parole
spontanée,utilisantun langage naturel.
Le résultat délivré parlesystème de reonnaissane estla solution d'unproblème ombina-
toireomplexe. Depuisquelques déennies,les systèmes qui permettent d'obtenir les meilleures
performanessontfondés surdesmodélisations statistiques dessonsélémentaires(modélisation
aoustique)etdulangage(modèlelinguistiquen-grammes).Lesystèmedereonnaissanefournit
alorsommesolution laséquene de mots laplusprobable orrespondantau segment de parole
analysé,en généralune phrase.
Parailleurs,lesystèmeoumoteurdereonnaissanen'utilisepasdiretementlesignalsonore
brutmaiseetueunpré-traitementdusignaland'enextrairedesparamètresaoustiquesplus
robustesetplus disriminants.
Nous allons don brièvement dérire dans e hapitre les diérents onepts que sont la
paramétrisation, la modélisation aoustique et la modélisation linguistique. En revanhe nous
détaillerons un peu plus l'algorithme d'apprentissage des modèles aoustiques ainsi que le mo-
teurdereonnaissane;pluspartiulièrement l'algorithmede reonnaissaneetlesstruturesde
données assoiées, nostravauxde reherhe étant diretement liésà esderniers éléments.
1.2 Arhiteture d'un système de reonnaissane
Pour un segment sonore donné en entrée, un système de reonnaissane de la parole dé-
livre une transription érite de laparole ontenue dans e segment. La gure 1.1 présente les
prinipales étapes d'un système de reonnaissane.Le proessus de reonnaissane néessite la
dénition d'une paramétrisation du signal et la fourniture de plusieurs données pré-alulées :
les modèles aoustiques,le lexique et les modèles linguistiques. La onstrutiondes modèles et
du lexiquenéessitedesapprentissagesqui doiventêtre réalisésau préalable.
Moteur
Modèles
acoustiques Lexique
Modèle de Langage
Apprentissage Corpus
Textuels Apprentissage Transcription Paramétrisation
Corpus Acoustiques Reconnaissance Apprentissage
Fig.1.1Arhitetured'unsystèmedereonnaissaneautomatiquede laparole etdesappren-
tissagesnéessaires.
Lapremière étape onsisteàtransformerlesignalaudiobrutenparamètresplusrobusteset
plusdisriminants.Cesparamètresvontserviràlafoisàlaonstrutiondesmodèlesaoustiques
et au moteur de reonnaissane. Au ours de ette étape de paramétrisation, le signal sonore
esttoutd'abordéhantillonné.Puis,plusieurstraitementsmathématiquessontappliquéssures
éhantillons an d'obtenir desveteursde paramètres,appelés observations.
La seonde étape représente le ÷ur du système : le moteur de reonnaissane. Le moteur
utiliselesstruturesde données externessuivantes:
desmodèlesaoustiques,
un lexique(voabulaire),
un modèlede langage (grammaire).
Lesmodèles aoustiques sont lareprésentation probabiliste d'unitésélémentairesde parole:
phones,phonèmes, syllabesoumots.
Lelexiquedénitl'ensembledesmotsquipourrontêtrereonnusparlesystème.Unmotqui
n'estpasdanse voabulaireprédéni ne pourrajamaisgurer dansun résultat dusystème de
reonnaissane.
Le modèle de langage tente de représenter, par le biais de probabilités, des phénomènes
syntaxiquesdelalangue.Lamodélisationgénéralementutiliséeestonstruiteàpartirdel'analyse
de séquenes de mots dans un orpus textuel. Trois types d'information sont habituellement
estimés : les probabilités d'apparition d'un mot (unigrammes), d'une séquene de deux mots
suessifs(bigrammes)etd'uneséquene detroismots (trigrammes).
Lesmodélisationsaoustiques,linguistiquesetlelexiquesontonstruitsaupréalableàpartir
d'importants orpus de parole et de texte, distints de eux sur lesquels le système sera testé.
Une fois es phases d'apprentissage réalisées, le moteur a toutes les données néessaires pour
eetuerlareonnaissane d'unsignalde parole.
Dans les setions suivantes, nous dérivons un peu plus en détails es diérentes étapes
préliminairesde paramétrisation,de modélisationainsique lemoteurde reonnaissane.
1.3 Paramétrisation du signal
La paramétrisation du signal aoustiquejoue un rle majeur dansle système de reonnais-
sane de la parole. Son objetif est de transposer le signal sonore brut dans un domaine plus
robusteetplusdisriminant.C'est-à-dire queles paramètresdevront être lesplus indépendants
possibles des onditions d'enregistrement, mais aussi permettre de distinguer au maximum les
diérentesunitésélémentairesde parole entreelles.
Parexemple,diérentesparamétrisationspeuventêtreenvisagéesdansledomainespetral:le
spetre dusignal, lesformants,lesoeientsdeodagepréditiflinéaire(LinearPreditiveCo-
dingLPC)[Markel 76,Rabiner 78,Hai03℄.D'autrestehniquesproposentd'ajouteraudomaine
deparamétrisation desonnaissanesissuesde lapsyho-aoustiquehumaine.C'est notamment
leasdelapréditionlinéairepereptive(PereptualLinearPreditionPLP)[Hermansky90℄)
oudelatransformation bilinéaireBark(BarkBilinearTransformBBT)[Smith 95℄,quitoutes
deux se basent sur une résolution non linéaire en fréquene à l'aide de l'éhelle Bark. La pa-
ramétrisation la plus largement répandue en reonnaissane automatique de la parole se situe
dansle domaineepstraletutiliselesoeients epstrauxà éhelleMelenore appelésMFCC
[Davis80℄.Aladiérenedesoeientsspetraux,l'interprétationdesoeientsMFCCn'est
passimple. Toutefois, eux-i demeurent globalement les plusrobustes et les plus performants.
Cependant,unenouvelle paramétrisationfondéesurlesondelettessembleavoirunfortpotentiel
[Deviren03℄.Les ondelettesse plaent dansun domaine temps-fréquenealors queles paramé-
trisations lassiques ne ontiennent plus d'informations temporelles. Mais la mise en plae des
ondelettesestdiilear etype de paramétrisationn'estpasenore susammentmaîtrisé.
Quelle que soit la paramétrisation,les dérivées d'ordremultiples desparamètressont égale-
ment assoiéesauxvaleursstatiquesan detenir omptede ladynamiquedelaparole.L'évolu-
tion desparamètres au ours du tempsest souvent une donnéeplus importanteque les valeurs
desparamètreseux-mêmes.
Dansleadredenostravaux,notresystèmeserabasésuruneparamétrisationparlesepstres
à éhelleMelassoiés à leursdérivéespremièresetseondes.
1.3.1 Les paramètres MFCC
Les prinipales étapes du alul des oeients epstraux à éhelle Mel (Mel Frequeny
Cepstral Coeient MFCC) sont dérites Figure 1.2. Le proessus de alul ommene par
un déoupage du signal en fenêtres reouvrantes, puis les étapes d'obtention des MFCC sont
suessivement appliquées à haune de es fenêtres [Davis80, Rabiner93℄. Ces étapes sont :
unepré-aentuationanderenforerleshautesfréquenesduspetre,l'utilisationdefenêtrede
typeHamming,unetransforméedeFourierpourpasserdansledomainespetral,puisunltrage
suivant l'éhellefréquentiellenon linéaireMeldulogarithmeduspetre etennune transformée
de Fourierinverse an depasserdansledomaine epstral.
pré-a.
-
Hamming- F F T -
Log-
FiltreMel- F F T −1 - -
MFCC signal
Fig. 1.2Etapesdealuldes oeientsepstraux àéhelleMel.
L'éhelle Mel, par rapport à une répartition linéaire en fréquene, tente de reproduire une
aratéristiquephysiologiquedel'oreillehumaine.Des sonsàunefréquenede100 Hzet150Hz
sont lairementdistintspourtousmaisil nousest quasimentimpossiblededistinguerunsonà
4000Hz d'unsonà4050Hz.L'éhelleMelshématiseettepereptionendénissant uneéhelle
logarithmique de répartition des fréquenes. Une représentation d'un ban de vingt ltres Mel
estdonnée Figure1.3.
Fig. 1.3Filtres triangulairesà éhelleMel(20bandes).
1.4 Modélisation de la parole Modélisation aoustique
La modélisation aoustique permet au moteur de reonnaissane de déterminer quelles ont
étéles unitésaoustiquesprononées(phones,phonèmes,syllabes,mots).La littératurepropose
plusieursmodélisationspossiblesetparmilesplusfréquentessetrouventlesréseauxdeneurones
[Robinson88,Robinson 94,Tebelskis95℄,lesmodèlesdeMarkovahésetlesréseauxBayesiens
[Rabiner89, Deviren 02℄. Les modèles de Markov ahés (Hidden Markov Model - HMM) ont
étéintroduits dansledomainede lareonnaissanede laparole depuisdéjà une trentaine d'an-
nées[Baker75,Jelinek 76℄, etlamajeurepartiedesmodélisations atuellessont fondéessures
modèles. Une telle modélisation probabiliste de la parole peut être étendue parl'intermédiaire
de strutures telles que les HMM multidimensionnels ou enore parles réseaux Bayesiens dont
lesmodèles de Markovahéssont un aspartiulier [Mari97,Deviren04℄.
1.4.1 Modèles de Markov ahés
Un modèle de Markov ahé peut être dérit omme un automate probabiliste à
N
étatsomportantdeuxproessus:unproessusahédehangementd'étatetunproessusd'émission.
Leproessusdehangement d'étatest ahéarelui-in'estpasobservable. Cependant,parle
proessusd'émission, latransitiondu modèledansunétatgénère uneobservation.Lagure1.4
représenteunmodèlede Markovahé àtroisétats.
a 11 a 22 a 33
a 12 a 23
1 1
b (o ) b (o ) 2 2
2 3
b (o ) b (o ) 2 4 b (o ) 3 6
O 1 O 2 O 3 O 4 O 5 O 6
3 5
b (o ) 2
1 3
Fig. 1.4HMM gauhe-droite àtroisétats.
La réalisation d'un proessus de Markov ahé se traduit par l'existene d'une séquene
Q = (q 0 , . . . , q T )
d'états de l'automate. Le proessus d'émission du modèle de Markov ahé assoie àQ
une séquene deT
observationsO = (o 1 , . . . , o T )
. Avant le début du proessus,le système se trouve dans un état initial
q 0
sans émettre d'observations. Au tempst
, le HMMeetue une transition vers l'état
q t
et émet l'observationo t
. Un modèle de Markov ahé estaratérisépartroisparamètres:
π i
,lesprobabilités initiales,'est-à-direlaprobabilitéd'êtredansl'étati
de l'automateautemps0,
π i = P (q 0 = i), ∀i ∈ {1, N }
A = ((a ij ))
,lamatriedetransitionentrelesétats del'automate;a ij
représentelaproba-bilité de transitionpourallerde l'état
i
àl'étatj
,a ij = P (q t = j|q t−1 = i), ∀i, j ∈ {1, N } 2
b i (o t )
,ladistributiondesprobabilitésd'émissiondel'observationo t
àl'étati
del'automate,b i (o t ) = P(o t |q t = i), ∀i ∈ {1, N }, ∀t ∈ {1, T }.
Pour haque état, la probabilité d'émission représente la probabilité qu'un état de l'auto-
mate ait généré une observation partiulière. Cette probabilité d'émission de l'observation est
généralement modélisée parunesomme pondérée de
G
fontionsde densitégaussienneN (µ, Σ)
(GaussianMixture Model - GMM)d'espérane
µ
etde matrie de ovarianeΣ
.La probabilité d'observation estalorsdénie parl'équationsuivante:b i (o t ) = X G k=1
c ik N (o t , µ ik , Σ ik ),
X G k=1
c ik = 1
(1.1)haque gaussienneayant unedensité deprobabilité ontinue égaleà
q 1
(2π) D det(Σ)
exp(− 1 2
t (o t − µ)Σ −1 (o t − µ))
pourlaquelle
o t
représenteleveteurd'observationàD
omposantes,µ
leveteurmoyendelagaussienne,et
Σ
lamatriede ovariane.Lamatrie detransitiondénitlatopologiedel'automatedumodèledeMarkovahé.Dans
l'exemple de la gure 1.4, le modèle à 3 états possède des transitions gauhe-droite entre les
étatsainsiquedestransitionsdeboulage.Cetype demodélisationestemployépourdénirdes
modèlesdephonèmes.Dansesmodèles,lestransitionssontgauhe-droite(pasderetourarrière
possible)pouressayer de représenter l'évolutionaoustique d'un phonème au ours du temps :
ledébutdu phonème,sapartieentraleetlan duphonème.
La modélisationHMMpeutêtreappliquéede plusieursmanières pourtraiter leasdessons
d'unelangue.Laplussimpleestdefaireautantdemodèlesquedephonèmes.Lesmodèlesrepré-
senterontequ'onappelledesmonophones.Cependant,ilestpossibledehoisirunemodélisation
plus ne en tenant ompte du ontexte aoustiqueentourant le phonème. Ainsi, un modèle ne
dénit plusunphonème maisune réalisationpartiulière de e phonème,dépendanteduou des
phonèmeslepréédant etde eluioueux luisuédant.Ce sont lesn-phones.
Les modèles aoustiques, qu'ils soient monophones ou n-phones, sont appris sur un orpus
aoustiqueontenant desexemplesde parole et leurtransription phonétique. Le passageà des
modèles n-phones augmente fortement le nombre de modèles à apprendre et en même temps
diminue fortement le nombre d'ourrenes de haun d'eux dans le orpus d'apprentissage.
Des méthodes ont alors été développées an de limiter l'impat du manque d'exemples pour
l'apprentissage des modèles. Une possibilité onsiste à dénir un ensemble xe de gaussiennes
qui seront partagéesparles diérents modèles ouparles états desmodèles [Lee00℄.
1.4.2 Apprentissage des modèles de Markov ahés
La phase de onstrution d'unmodèle est lepoint ruial de tout système. L'apprentissage
revêtdon unegrandeimportane.Lesmodèlesaoustiquesnéessitent unimportantorpusso-
noretransritdeplusieursentainesd'heures.Unetransriptionphonétiqueestassoiéeàhaque
éhantillonsonore de sorte qu'au nalhaque modèle possède desreprésentantsdansle orpus.
Unefoisl'ensembledesdonnéesprêt,laphased'apprentissagedesmodèless'eetue.Nousallons
dérire dans ette setion l'algorithme ommunément utilisé dans la phase d'apprentissage des
modèles de Markovahéspourlareonnaissanede laparole.
A partir d'exemples dont nous onnaissons à lafois laséquene des modèles etla séquene
d'observationsengendrée, noussouhaitons déterminer les paramètresdénissant les modèles de
Markovahésde haqueunité phonétique.Ilnous fautdon estimerpourhaquemodèle :
les probabilités initiales
π i
,les probabilités detransition
a ij
,les probabilités d'émissions
b i (o t )
qui sont aratériséespar:•
lesmoyennesµ i
,•
lesmatriesde ovarianesΣ i
,•
lesoeients dumélangede gaussiennesc i
.Dans le adre modèles de Markov ahés, la méthode ommunément utilisée repose sur le
ritèredumaximumdevraisemblane(MaximumLikelihoodML).Toutefois,d'autresméthodes
ontétédéveloppées,parexemplelatehniqued'apprentissagedisriminantfondéesurleritèredu
maximumd'information mutuelle(MaximumMutualInformationMMI). Soit
λ = (π i , a ij , b i )
les paramètres dénissant un modèle HMM, nous devons d'après le ritère du maximum de
vraisemblane,trouverunmodèle
Λ
quimaximiseP (O|λ)
.Λ = arg max
λ P (O|λ)
Or,il n'existepasde méthodedirete pourrésoudree problème demaximisation de
Λ
.1.4.2.1 L'algorithme de Baum et Welh
Baum a eul'idée d'introduire d'autresfontions redénissant leproblème de reherhe d'un
système
λ
. Puis il a dérit un algorithme permettant l'estimation des nouveaux modèles de manièreitérative[Baum70℄.Soit
p
unefontionpositive,etP (λ) = R p(q, λ)dq
,nouspouvonsalorsintroduireunefontionauxiliaire
Q
:Q(λ, λ ′ ) = 1 P (λ)
Z
p(q, λ) log p(q, λ ′ )dq
Bauma démontré d'unepartlapropriété suivante:
Q(λ, λ ′ ) − Q(λ, λ) ≤ log P(λ ′ ) − log P(λ)
etd'autrepartqu'en dénissant lafontion
T
ainsi:T (λ) = arg max
λ ′ Q(λ, λ ′ )
nousavonsalorsl'inégalité suivante:
P (T (λ)) ≥ P(λ).
L'algorithme de Baum et Welh onsiste à trouver un nouveau modèle
λ ′
qui maximiseQ(λ, λ ′ )
.Cetalgorithmeestitératifetommeneparunjeudeparamètresarbitrairesλ 0
.Ensuite,nousherhons
λ 1
quimaximiseQ(λ 0 , λ)
,puisλ 2
quimaximiseQ(λ 1 , λ)
,etainsidesuite.Nousavons, de plus,lapropriété
P (λ 2 ) ≥ P (λ 1 ) ≥ P (λ 0 )
.Il faut trouvermaintenant uneméthode pourmaximiserlafontion
Q
.Dansle asdesmodèles de Markovonsidérés,
P (λ)
s'érit:P(λ) = X
q∈Ξ
π q 0
Y T t=1
a q t− 1 q t b q t (o t )
Ξ
étantl'ensemble desheminspossiblespourunHMM gauhe-droit.Dans e as
Q(λ, λ ′ )
peutseréérire sous laformed'une sommede troistermes:Q(λ, λ ′ ) = A(π i ) + B(a ij ) + C(b i ).
Ainsi, maximiser
Q(λ, λ ′ )
revient à maximiser les trois termes séparément. Or, la topologie de nos modèles fore les valeurs desπ i
, arnous ommençons obligatoirement parle premier état du modèle. Lesπ i
sont don onstants. La maximisation des termesB
etC
onduisent à desformulesde ré-estimationpourles probabilitésd'observationetde transition.Nousdonnonses
formulespourdesprobabilitésd'observationmonogaussiennes.
Aussi, pourles probabilités detransition
a ′ ij
etpourune loigaussienneN (µ ′ k , Σ ′ k )
à l'étatk
dumodèle
λ ′
,ilfaut exprimerlesquantitésµ ′ k
,Σ ′ k
eta ′ ij
en fontiondumodèleλ
.Ces érituresn'étant pasimmédiates,il estnéessaired'introduire denouvellesvariables
γ
etξ
,puisα
etβ
.Les probabilités d'observation
Lesformulesderé-estimationdesprobabilitésd'observationpouruneloigaussienne
N (µ ′ k , Σ ′ k )
du nouveau modèle
λ ′
sontdérites parles équations suivantes:µ ′ k = nb de f ois ` a l ′ etat k et observation de o ´ t nb de f ois a l ` ′ ´ etat k
= P T t=1
γ t (k)o t P T t=1 γ t (k) Σ ′ k =
P T t=1
γ t (j)(o t − µ j )(o t − µ j ) P T
t=1
γ t (j)
γ
étant laprobabilité a posterioride s'êtretrouvéà l'étati
àl'instantt
onnaissantlaséquened'observationsetle modèle:
γ t (i) = P (q t = i|O, λ)
Les probabilités de transition
Les valeursdes probabilitésde transitionsont :
a ′ ij = nb de transitions ij nb trans. sortantes de i =
P T t=1
ξ t (i, j) P T t=1
ξ t (i)
ξ
étant la probabilité de s'être trouvé à l'étati
à l'instantt
, et à l'étatj
à l'instantt + 1
onnaissantla séquened'observationset
λ
:ξ t (i, j) = P (q t = i, q t+1 = j|O, λ)
Hélas, le problème est simplement reporté sur deux nouvelles inonnues,
γ
etξ
. Il est alorspossible d'introduirede nouveau deuxvariables supplémentaires:
soit
α t (i) = P (o 1 . . . o t , q t = i|λ)
,la probabilité d'observer laséqueneo 1 . . . o t
etd'être àl'état
i
àl'instantt
sahantle modèleλ
.soitégalement
β t (i) = P(o t+1 . . . o T |q t = i, λ)
,laprobabilitéd'observerlaséqueneo t+1 . . . o T
sahant
λ
,etd'êtreàl'étati
autempst
.Les valeurs de
γ
etξ
peuvent s'exprimer en fontion deα
etβ
. Nous obtenons alors leséquationssuivantes:
γ t (i) = α t (i)β t (i) P N
i=1
α t (i)β t (i)
ξ t (i, j) = α t (i)a ij b j (o t+1 )β t+1 (j) P N
i=1
P N j=1
α t (i)a ij b j (o t+1 )β t+1 (j)
Par l'introdution de nouvelles inonnues
α
etβ
, Baum et Welh reformulent la dénition desinonnuesγ
etξ
.Toutefois,Il està présentlapossibilitédealuler esnouvelles inonnues àpartirdes probabilitésd'observation etdestransitions initialesdu modèleλ
parlesméthodesforward etbakward.
1.4.2.2 La méthode forward
Eneet,ilestpossible dealuler
α
parréurrenearhaqueétapedealulautempst
nenéessitequeles observationsdestempspréédents. Voii ladénitionde ette réurrene:
Initialisation :
α 1 (i) = π i b i (o 1 )
Réurrene :
α t+1 (j) = h X N i=1
α t (i)a ij i b j (o t+1 )
Deplus,nousavonsla propriétésuivante:
P(O|λ) = X N i=1
P (O, q T = i|λ) = X N i=1
α T (i)
1.4.2.3 La méthode bakward
De même que pour
α
, il est possible de alulerβ
par réurrene. Par ontre, dans le asde
β
, les aluls à l'étape de tempst
ont besoin des observations des temps suivants. Voii la dénitionde laréurrenedeβ
:Initialisation :
β T (i) = 1, 1 ≤ i ≤ N
Réurrene :
β t (i) = X N j=1
a ij b j (o t+1 )β t+1 (j)
Ces résultatsamènent unepropriété intéressante:
P (O|λ) = X N i=1
α T (i) = X N i=1
β 1 (i) = X N i=1
α t (i)β t (i).
Dans es deux réurrenes relatives aux valeurs
α
etβ
, auune nouvelle inonnue n'a étéintroduite,ettoutes lesautres valeursprésentessont dénies,lealuleetifestdon possible.
Il sut d'utiliser les diérentes égalités et inonnues introduites pour obtenir les valeurs de
ré-estimation des
a ij
etdesb i
.Ensuite, nous itérons le proessus de alul du système
λ i
, qui sera au moins aussi bonque le système
λ i−1
. Le nombre d'itérations réalisées est habituellement déni à une valeur xée de manière arbitraire, ou bien dépend d'unritère d'arrêt exprimant la stabilisation de laonvergene desmodèles
λ i
.1.5 Lexique et modèle de langage
1.5.1 Lexique
Lesystèmedereonnaissanenéessiteladénitiondel'ensembledesmotsqu'ilseraàmême
dereonnaître.Cetensembleestdénommélexiqueouvoabulaire.Unmotn'appartenantpasau
lexiquene pourra jamaisêtre présent danslasolution fournie parlesystèmede reonnaissane.
Une façon lassique de onstruire le lexique onsiste à extraire à partir d'un orpus textuel
l'ensemble des mots les plus fréquents de e orpus. Pour les systèmes de reonnaissane dit
grand voabulaire la taille du lexique est de l'ordre de plusieursdizaines de milliers de mots et
le orpus textuel de l'ordre de plusieurs millions de mots (respetivement 54747 mots et plus
de 200 millions de mots dans le adre de nostravaux). En plus de dénir l'ensemble des mots
onnus du système,le lexiqueassoie àhaque motsadéomposition enunitésphonétiques. Le
lexiquedoitégalementtenir omptedesmultiplesprononiationspossiblesd'unmotauséespar
desélisionsou desliaisonsentreles mots.
1.5.2 Modèle de langage
Lesmodèlesdelangageontpourobjetifdereprésenterlesloisquirégissentleomportement
de la langue. Ainsi, le modèle de langage aide à déterminer si une phrase est valide ou non
par rapport à la langue modélisée. S'inspirer des onnaissanes linguistiques est la manière la
plusintuitive deonstruireunmodèlede langage.Généralement,lesonnaissaneslinguistiques
s'expriment pardesrèglesdérivant lastrutured'unephrase.L'avantagede ettemodélisation
vient du fait qu'elle dérit préisément les onditions de validité, de onstrution d'une phrase
de la langue. Cependant ertains phénomènes restent mal modélisés et de telles onstrutions
grammatiales nesont pasenadéquationave lalangueorale.En eet,enparole spontanée,les
règlesdeonstrutiondesphrasesnesontpassouventrespetéesetainsietypedemodélisation
nevalideraitpassouventlaparole spontanée.Deplus,l'élaborationdeesmodèlesnéessiteune
partimportanted'interventionmanuelle,e quine failite guèrel'adaptationdelamodélisation
auxévolutionsde lalangueou à uneautre langue.
Dans les systèmes de reonnaissane automatique de laparole, la langue est modélisée par
une autre atégorie de modèles de langage, les modèles statistiques. Ces modèles sont appris
automatiquement sur des orpus textuels de taille importante (plusieurs millions de mots). La
modélisation statistique n-grammes est la plus utilisée. Cette modélisation onsiste à estimer,
à partir d'un orpus textuel, les probabilités des séquenes de
n
mots. Le prinipe de base estd'exploiter la fréquene d'apparition de séquenes de mots et d'en déduire des estimations des
probabilités unigrammes(probabilité d'apparition d'unmot), bigrammes (probabilité d'appari-
tiond'uneséquenededeuxmots)etplusgénéralementden-grammes.Leritèreommunément
utilisé pour l'estimation de es diérentes probabilités est le ritère du maximum de vraisem-
blane[Federio98℄.
Considérant l'ensemble des séquenes de
n
mots possibles à partir du lexique, beauoupn'apparaissent pas dansle orpus d'apprentissage pare qu'elles sont impossibles voire très im-
probables pour le langage onsidéré, omme parexemple le bigrammele maison. Toutefois
un nombre non négligeable d'entre elles sont valides au sens du langage mais peuvent ne pas
apparaîtredans leorpus d'apprentissage.Aussi,pourlaisserune haneà esséquenes d'être
reonnues,haqueséqueneden-motsdoitavoiruneprobabiliténonnulle.Diérentestehniques
dites de repli (bako) permettent d'estimer la probabilité de es séquenes, même si elles-i
n'ont jamaisétérenontréesdansleorpus[Chen99℄.
Soit la séquene de mot
w 1 , w 2 , w 3
, nous dénissons la probabilité trigramme omme la quantitép(w 3 |w 1 , w 2 )
. L'algorithme 1.1 dérit le alul de la probabilité trigramme diretep(w 3 |w 1 , w 2 )
dansleas d'unmodèle linguistique intégrant lanotion de repli. Lesmêmes teh- niques sont utilisées dans le alul de la probabilité bigrammep(w 2 |w 1 )
(Algo. 1.2). Dans esalgorithmes:
p n (w 1 , . . . , w n )
est l'estimation sur le orpus d'apprentissage de la probabilité n-grammep(w n |w 1 . . . w n−1 )
danslemodèlelangage,
repli n−1 (w 1 , . . . , w n−1 )
est la valeur de repli alulée par le modèle de langage pour uneséquene de
n
mots nonrenontréedansle orpusd'apprentissage.Lorsqu'une séquene de
n
mots n'est pas modélisée par le modèle de langage (probabilité n-gramme),un premierniveaude repliesteetuéen n'utilisantplus quedesrelationsentreaumaximum
n − 1
mots. Ce proessus peut être appliqué réursivement tant qu'une probabilité m-grammen'estpasdéniedansle modèlede langage.Algorithme 1.1:
si letrigramme
w 1 , w 2 , w 3
existe dans le modèle delangagealors
/* on utilise la valeur donnée par le modèle */
p(w 3 |w 1 , w 2 ) = p 3 (w 1 , w 2 , w 3 )
sinon
/* on utilise un premier niveau de repli */
si lebigramme
w 1 , w 2
existe alorsp(w 3 |w 1 , w 2 ) = repli 2 (w 1 , w 2 ) ∗ p(w 3 |w 2 )
sinon
/* on utilise un deuxième niveau de repli */
p(w 3 |w 1 , w 2 ) = p(w 3 |w 2 )
n
n
Toutommeilestpossibled'ajouterdesonnaissanespsyho-aoustiquesauniveaudelapa-