HAL Id: tel-01748236
https://hal.univ-lorraine.fr/tel-01748236
Submitted on 29 Mar 2018
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Mesures de confiance trame-synchrones et locales en
reconnaissance automatique de la parole
Joseph Razik
To cite this version:
Joseph Razik. Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la
parole. Autre [cs.OH]. Université Henri Poincaré - Nancy 1, 2007. Français. �NNT : 2007NAN10072�.
�tel-01748236�
AVERTISSEMENT
Ce document est le fruit d'un long travail approuvé par le jury de
soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.
Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors de
l’utilisation de ce document.
D'autre part, toute contrefaçon, plagiat, reproduction illicite
encourt une poursuite pénale.
Contact : [email protected]
LIENS
Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
D´
epartement de formation doctorale en informatique
Ecole doctorale IAEM Lorraine
´
UFR STMIA
Mesures de confiance trame-synchrones
et locales en reconnaissance
automatique de la parole
TH`
ESE
pr´esent´ee et soutenue publiquement le 9 octobre 2007
pour l’obtention du
Doctorat de l’universit´
e Henri Poincar´
e – Nancy Universit´
e
(sp´
ecialit´
e informatique)
par
Joseph Razik
Composition du jury
Pr´
esident :
Ren´e Schott
Professeur, UHP–LORIA Nancy
Rapporteurs :
Jean-Fran¸cois Bonastre
Maˆıtre de conf´erences (HDR), LIA–CERI Avignon
G´erard Chollet
Directeur de recherche CNRS, ENST–TSI Paris
Examinateurs :
Laurent Besacier
Maˆıtre de conf´erences (HDR), CLIPS–IMAG Grenoble
Jean-Paul Haton
Professeur, UHP–LORIA Nancy (Directeur)
Odile Mella
Maˆıtre de conf´erences, UHP–LORIA Nancy (Co-directrice)
Mes remer iements vont prin ipalement aux personnes dont les noms sont dans lagrille i-dessous.
Je remer ie les diérentes personnes obayes qui ont bien voulu prendre sur leur temps et parti iperà l'expérien ede ompréhensionde texte.
Jeremer ieégalement tous euxquej'aioubliésainsiquetous euxquiliront esquelqueslignes etlespages quisuivent.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
3. Cons ien ieuse etprofessionnelle,très (trop) impliquée,attention ausurmenage 7. Ca nesert à riende regarderdansl'équipe siVézeliseestpassée en L1
8. Toujours prêtà aider, ommesonnom l'indique 10. Femme auvolant...
11. Petit meusiendeviendra Do teur 13. Sanseux, je ne seraispaslà
14. Ilestétonnantd'avoirétédanslemême petit ollègeave une annéed'é artpuis nale-ment de nese onnaître qu'une vingtaine d'années plustard
16. Ungranddadetqui parle tropfort
17. Mon guideà Pékin etaussiun peu dansla ulture hinoise 21. Ona quandmême fait debellesparties deping-pong
22. Maisqu'est e que 'est que ette histoire depouetetde anards?! 25. Mon...Mon...Mon...Monster Kill
27. Tout unentourage sympathique eta ueillant, presqueune famille 28. Unpeutrop han eux, même àlaxbox
29. Paris,la apitale, latourEieletl'ENST
Verti al
1. Je n'ai toujours paslesa ents,même en HTML!
2. Tout lemondene sortpas indemne d'unstagede headshot 4. Le vendredi e n'est paslapeinede le her her, 'estgolf! 5. N46
6. Mister CVS
9. Un jour iloubliera satêteen plusde sonportable,sonportefeuille, ses lés ...
12. Faire desbalades en forêt ave un violon, e n'est pas pratique,mais pour attraper des truites, e n'est vraiment paspratique
15. Lavie peut-elleêtre modélisée par unpro essusMarkovien? 18. Lemaître del'enfumage
19. La hartreuse, ça nevaut paslamirabelle maisil faut faireave lesmoyensdubord 20. Studiomobileave vuesur leLoria
23. Ellepourraitparler plusfort quandelle ditau revoir 24. Quelleidée de uisiner de laviande ave du o a! 26. It'sthe FinalCountdown
Remarque
Etant l'auteur des dénitions, leur ontexte m'est propre et il n'est pas for ément aisé de trouverles noms.Aussilagrille réponseestdonnéeen annexe A.4.
Introdu tion générale xv
Chapitre 1
Ar hite ture d'un système de re onnaissan e automatique de la parole 1
1.1 Introdu tion . . . 2
1.2 Ar hite tured'unsystème dere onnaissan e . . . 2
1.3 Paramétrisation dusignal . . . 3
1.3.1 Les paramètres MFCC . . . 4
1.4 Modélisationde laparole Modélisationa oustique . . . 5
1.4.1 Modèles de Markov a hés . . . 5
1.4.2 Apprentissage desmodèles deMarkov a hés . . . 6
1.4.2.1 L'algorithme de Baum etWel h . . . 7
1.4.2.2 La méthodeforward . . . 9
1.4.2.3 La méthodeba kward . . . 9
1.5 Lexique etmodèle de langage . . . 10
1.5.1 Lexique . . . 10
1.5.2 Modèle delangage . . . 10
1.6 Prin ipe de fon tionnement d'unmoteur de re onnaissan e. . . 12
1.6.1 L'algorithme deViterbi . . . 13
1.6.1.1 Le prin ipe de Viterbi . . . 13
1.6.1.2 Le prin ipe d'optimalité de Bellman . . . 14
1.6.1.3 L'algorithme de Viterbi . . . 14
1.6.1.4 Algorithme deViterbi dansle asd'une phrase . . . 15
1.6.2 L'algorithme
A
∗
. . . 16 1.6.3 Résultats de lare onnaissan e. . . 18 1.6.3.1 N-meilleures phrases . . . 18 1.6.3.2 Graphe de mots . . . 19 1.6.3.3 Réseau de onfusion . . . 201.7 Con lusion. . . 21
Chapitre 2 Mesures de onan e 2.1 Introdu tion . . . 25
2.2 Exemplesd'appli ations etintérêt desmesures de onan e . . . 26
2.2.1 Re onnaissan ede laparole :trans ription. . . 26
2.2.2 Déte tion desmots horsvo abulaire . . . 27
2.2.3 Déte tion demots lés . . . 27
2.2.4 Dialogue Homme/Ma hine. . . 29
2.2.5 Apprentissage semi-supervisé . . . 29
2.2.6 Adaptation . . . 31
2.3 Mesuresde onan e . . . 31
2.3.1 Critères nonprobabilistes . . . 32
2.3.1.1 Stabilité a oustique . . . 32
2.3.1.2 Densitéd'hypothèses. . . 32
2.3.1.3 Dépendan edesmots . . . 33
2.3.2 Critères relatifs aumodèle delangage . . . 33
2.3.2.1 Le modèlede langage . . . 33
2.3.2.2 Replidu modèle delangage . . . 34
2.3.3 Critères sémantiques etsyntaxiques. . . 35
2.3.3.1 Analysesémantiquelatente . . . 35
2.3.3.2 Informationmutuelle . . . 36
2.3.3.3 Catégoried'unmot . . . 37
2.3.4 Autres ritères empiriques . . . 37
2.3.5 Mesuresfondées surlerapportde vraisemblan e . . . 38
2.3.5.1 Tests d'hypothèse . . . 38
2.3.5.2 Rapportdevraisemblan e . . . 38
2.3.5.3 Modèle /Anti-Modèle . . . 39
2.3.5.4 Modèle générique . . . 39
2.3.5.5 Modèles ompétitifs . . . 40
2.3.6 Mesuresfondées surlesprobabilité a posteriori . . . 41
2.3.6.1 Mesuresfondéessurla listede n-meilleuresphrases. . . 42
2.3.6.2 Mesuresfondéessurlesgraphesdemotsetl'algorithmede forward-ba kward . . . 42
2.3.6.3 Mesurede onan e dusystèmede re onnaissan e Julius . . . . 44
babilité a posteriori . . . 46
2.3.7 Combinaison demesures de onan e . . . 46
2.3.7.1 Combinaisons de mesuresetd'heuristiques . . . 46
2.3.7.2 Combinaisonde systèmes dere onnaissan e . . . 47
2.4 Méthodes d'évaluation . . . 48
2.4.1 Tauxd'égaleerreur . . . 48
2.4.2 Tauxd'erreur de onan e . . . 50
2.4.3 Entropie roisée normalisée . . . 50
2.4.4 Coe ient de orrélation. . . 51 2.4.5 Rappel/ Pré ision . . . 52 2.4.6 Synthèse. . . 53 2.5 Quelques résultats . . . 53 2.6 Con lusion. . . 54 Chapitre 3 Propositions de nouvelles mesuresde onan e 3.1 Obje tifs. . . 58
3.1.1 Appli ations visées . . . 58
3.1.1.1 Trans ription d'émissions . . . 58
3.1.1.2 Trans ription de oursen sallede lasse . . . 59
3.1.1.3 Déte tion de mots lés . . . 61
3.1.2 Nos mesuresde onan e :dans quelbut? omment? . . . 61
3.1.2.1 Cara téristiques prin ipales denosmesures de onan e . . . 61
3.1.2.2 Quels types demesures de onan e? . . . 62
3.1.2.3 Sour e d'informationpour al ulerles mesures . . . 62
3.1.2.4 Mesuresde onan eà quel niveau? . . . 63
3.2 Mesurestrame-syn hrones . . . 63
3.2.1 Dénition desmots on urrents del'ensemble
E
. . . 643.2.2 Gestion deso urren es multiples . . . 64
3.2.3 Mesure fondéesurlaprobabilité unigramme . . . 65
3.2.4 Introdu tion de fa teursd'é helle . . . 66
3.2.5 Mesure fondéesurlaprobabilité bigramme . . . 66
3.2.6 Mesure fondéesurlaprobabilité trigramme . . . 67
3.2.7 Implantation . . . 69
3.2.7.2 Cal ul des mesures fondées sur les probabilités unigramme,
bi-grammeettrigramme . . . 69
3.3 Mesureslo ales . . . 71
3.3.1 Mesuresfondées surlaprobabilité a posteriori. . . 72
3.3.2 Dénition desvoisinages . . . 73
3.3.3 Introdu tiond'un fa teurde exibilité
η
. . . 733.4 Homogénéisation de larépartitiondesvaleursde onan e . . . 74
3.5 Complexitéde nosmesures de onan e . . . 77
3.5.1 Mesurestrame-syn hrones . . . 77 3.5.2 Mesureslo ales . . . 77 3.6 Con lusion. . . 78 Chapitre 4 Conditions expérimentales 4.1 Introdu tion . . . 82
4.2 Moteurde re onnaissan e :Julius . . . 82
4.2.1 La première passede Julius . . . 83
4.2.2 La deuxième passede Julius . . . 83
4.2.3 Optionsde ompilation . . . 84 4.2.4 Le graphede mots . . . 84 4.3 Paramétrisation . . . 85 4.4 Modèlesa oustiques . . . 85 4.4.1 Monophones. . . 85 4.4.2 Triphones . . . 85
4.5 Lexique etmodèlede langage . . . 86
4.5.1 Utilisés onjointement ave lesmodèles monophones . . . 86
4.5.2 Utilisés onjointement ave lesmodèles triphones . . . 86
4.6 Corpusde développement etde test . . . 87
4.7 Complexitéde nosmesures de onan e . . . 87
4.7.1 Mesurestrame-syn hrones . . . 88
4.7.2 Mesureslo ales . . . 88
4.8 Con lusion. . . 88
Chapitre 5 Evaluation des mesures de onan e ave le tauxd'EER 5.1 Introdu tion . . . 90
5.4 Mesurestrame-syn hrones . . . 92
5.4.1 Mesure fondéesurlaprobabilité unigramme . . . 93
5.4.1.1 Gestion deso urren esmultiples parsommation. . . 94
5.4.2 Mesure fondéesurlaprobabilité bigramme . . . 95
5.4.2.1 Gestion deso urren esmultiples parmaximisation . . . 95
5.4.2.2 Gestion deso urren esmultiples parsommation. . . 96
5.4.2.3 Prédé esseurau sens deViterbi. . . 96
5.4.2.4 Filtragepar les
n
-meilleuresphrases . . . 975.4.2.5 Probabilité bigramme seule . . . 98
5.4.2.6 In lusion/ex lusion du mot
w
b
dansl'ensembleE
b
. . . 995.4.2.7 Probabilité bigramme inverse . . . 100
5.4.2.8 Homogénéisation desvaleurs . . . 100
5.4.3 Mesure fondéesurlaprobabilité trigramme . . . 102
5.4.3.1 Probabilité trigramme inverse. . . 104
5.4.4 Synthèse. . . 105
5.5 Mesureslo ales . . . 106
5.5.1 Mesure à voisinagesymétrique . . . 106
5.5.2 Mesure à voisinageasymétrique . . . 108
5.5.3 Homogénéisation desvaleursde onan e . . . 110
5.5.4 Synthèse. . . 112
5.6 Inuen e delataille desmots . . . 113
5.7 Comparaison ave la mesurede onan e intégrée dans le système de re onnais-san e Julius . . . 116
5.8 Evaluation surle orpusde test et on lusion . . . 117
Chapitre 6 Evaluation dans le adre d'appli ations spé iques 6.1 Introdu tion . . . 122
6.2 Appli ation àladéte tion demots lés . . . 122
6.3 Intégrationd'une mesurede onan edanslemoteur dere onnaissan e . . . 125
6.3.1 Méthodologie . . . 125
6.3.2 Expérimentation . . . 126
6.4 Trans riptionde ours ensalle de lasse . . . 129
6.4.1 Présentation du systèmeinitial . . . 129
6.4.2 Utilisation delamesure de onan e . . . 130
6.5 Con lusion. . . 135
Con lusion et perspe tives 137 Annexe A 145 A.1 Entropie roisée normalisée . . . 145
A.2 Tauxd'erreur de onan e . . . 146
A.3 Inuen ede latailledes mots . . . 146
A.4 Questionnaire pour l'évaluation destrans riptionspourmalentendants . . . 149
Glossaire 151
Bibliographie 153
1.1 Ar hite tured'un systèmede re onnaissan eautomatique dela parole et des
ap-prentissages né essaires. . . 2
1.2 Etapes de al uldes oe ients epstraux àé helle Mel. . . 4
1.3 Filtres triangulaires àé helle Mel(20 bandes).. . . 4
1.4 HMM gau he-droite àtroisétats. . . 5
1.5 Graphe de Viterbi pour un HMM à 3 états gau he-droite etune séquen e de 10 observations . . . 13
1.6 Exemple d'unextrait de graphean d'illustrerleprin ipe d'optimalité de Bellman. 14 1.7 Exemple d'ungraphe demots . . . 19
1.8 Se ondexemple d'ungraphe demots . . . 20
1.9 Exemple d'unréseau de onfusion . . . 20
2.1 Etapes de réalisation d'un apprentissage semi-supervisé ave l'utilisation d'une mesure de onan e. . . 30
2.2 Exemple d'une ourbe ROC-DET. L'interse tion entre lapremière bisse tri e et la ourbedétermine le point EER. . . 49
3.1 Les 5 positions de la main pour le odage des voyelles phonétiques en Langage Parlé Complété.. . . 59
3.2 Les 8 ongurations dedoigts pour le odage des onsonnes phonétiques en Lan-gage Parlé Complété. . . 60
3.3 Tête odeuse de synthèse développée au Loria pour le projet LABIAO (le son pa en LPC).. . . 60
3.4 Illustration du voisinage pris en ompte pour lamesure de onan e symétrique de paramètre de taille
x
. . . 733.5 Illustration duvoisinage pris en ompte pourlamesurede onan easymétrique de paramètre de taille
x
ety
. . . 733.6 Distribution dutaux de mots orre ts etde lavaleurmoyenne de onan epour 20 intervalles de taille identiquepour tous les mots d'un ensemble de graphes de mots.. . . 75
3.7 Distribution dutaux de mots orre ts etde lavaleurmoyenne de onan epour 20 intervalles de taille identique pour les mots faisant partie d'un ensemble de phrases re onnues. . . 76
5.1 CourbeDETdelamesurederéféren efondéesurlaprobabilitéaposterioriglobale
(α = 0, 1)
,(β = 1)
et(η = 1)
.EER=22,0% ( orpus de développement). . . 925.2 CourbeDETde lamesurede onan efondéesurlaprobabilitéunigramme
(α =
0, 1)
,(β = 0, 5)
et(ε = 0, 1)
.EER=37,6% ( orpus de développement). . . 945.3 Distribution du tauxde mots orre ts etde lavaleur moyenne de onan e pour 20 intervalles de taille identique sur le orpus de développement pour la mesure bigramme
(α = 0, 1)
,(β = 0, 95)
et(ε = 0, 1)
. . . 101 5.4 Variation du taux d'EER de la mesure de onan e fondée sur la probabilitétrigramme,enfon tiondurapportdesfa teursd'é hellelinguistiqueeta oustique
β/α
(α = 0, 1
etε = 0, 1
). . . 1035.5 Courbedutauxd'EERde lamesurelo aleàvoisinagesymétriquerelativement à diérentes taillesde voisinage.
(α = 0, 1)
,(β = 0, 95)
et(η = 0, 5)
. . . 107 5.6 Taux d'EERde la mesurede onan e lo ale à voisinage asymétrique à taille devoisinage passévariableettaille de voisinagefuturxe (0,40,60, et84trames) . 109 5.7 Répartition du taux de mots orre ts et de la valeur moyenne de onan e pour
20 intervalles de taille identique sur le orpus de développement pour la mesure lo ale symétriqueave voisinagede 84 trames,
(α = 0, 1)
,(β = 0, 95)
et(η = 0, 5)
111 5.8 Répartitiondutauxdemots orre tsetdelavaleurmoyennede onan epour20intervallesdetailleidentiquesurle orpusdedéveloppementpourlamesurelo ale asymétriquetrame-syn hroneprenanten omptetoutlevoisinagepassé depuisle débutde laphrase,
(α = 0, 1)
,(β = 0, 95)
et(η = 0, 5)
. . . 112 5.9 Evolutiondutauxd'EERsuivantlatailleenphonèmes desmots analyséspourlamesurede référen e. . . 114 5.10 Evolutiondutauxd'EERsuivantlatailleenphonèmes desmots analyséspourla
mesurelo ale symétrique. . . 115 5.11 Evolutiondutauxd'EERsuivantlatailleenphonèmes desmots analyséspourla
mesuretrame-syn hronebigramme dire te . . . 115 5.12 Répartition desmotsde lare onnaissan e pour le orpusde développement selon
leurtaille en phonèmes . . . 116 5.13 Courbe DET de la mesure de onan e intégrée dans Julius ainsi que elles de
la mesure lo ale symétrique ave voisinage de 84 trames et de la mesure trame-syn hronebigramme inverse.. . . 117
6.1 Evolution du nombre de fausses a eptations et du nombre de bons mots lés restant enfon tion du seuilde dé ision( orpus de développement). . . 123 6.2 Evolution du nombre de fausses a eptations et du nombre de bons mots lés
restant enfon tion du seuilde dé ision( orpus de test). . . 124 6.3 Distributiondutauxdemots orre tsenfon tiondelavaleurmoyennede onan e
pour 20 intervalles detaille identiquesurle orpus utilisé dansle adrede la me-surebigramme intégrée dansle moteur dere onnaissan e. . . 127 6.4 Tête odeuse de synthèse développée au Loria pour le projet LABIAO (le son
paen LPC).. . . 129
A.1 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour lamesurede référen e . . . 147 A.2 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour
lamesurelo ale symétrique . . . 148 A.3 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour
1.1 Exemple de listedes5 meilleures phrasesissuesd'unsystème dere onnaissan e. . 18
2.1 Résultats obtenus par diérentes mesures de onan esurdiérents orpus. . . . 54
5.1 Tauxd'EERdelamesurederéféren efondéesurlaprobabilitéaposterioriglobale al ulée sur la phrase omplète ave diérents fa teurs d'é helle et fa teur de exibilité ( orpus de développement). . . 92 5.2 Tauxd'EERobtenusparlamesurede onan eunigrammeave diérentsfa teurs
d'é helle etde relâ hement ( orpus de développement). . . 93 5.3 Taux d'EER des mesures de onan e unigramme ave gestion des o urren es
multiples par maximisation etsommationave diérents fa teursd'é helle et
ε =
0, 1
( orpusde développement). . . 94 5.4 Tauxd'EERobtenusparlamesurede onan ebigrammeave gestionparmaxi-misation pour diérents fa teurs d'é helle et de relâ hement ( orpus de dévelop-pement). . . 95 5.5 Taux d'EER des mesures de onan e bigramme ave gestion des o urren es
multiples par maximisation etsommationave diérents fa teursd'é helle et
ε =
0, 1
( orpusde développement). . . 96 5.6 Taux d'EER des mesures de onan e bigramme ave gestion par maximisationet ave pré édents temporels dire ts ou ave pré édent au sens de Viterbi ave diérentsfa teursd'é helle,
ε = 0, 1
( orpus dedéveloppement). . . 97 5.7 Tauxd'EERde lamesurebigramme ave etsansltragedesmotspré édentsparles
n
-meilleuresphrases,(α = 0, 1)
,(β = 0, 95)
( orpus de développement). . . 98 5.8 Tauxd'EERdelamesurede onan ebigramme ave prédé esseurstemporelsoude Viterbi etave ou sansprobabilité unigramme.. . . 99 5.9 Tauxd'EERdesmesuresde onan e bigramme,mesuresin luantou ex luant
w
b
del'ensemble
E
b
ave diérentsfa teursd'é helle,ε = 0, 1
( orpusdedéveloppement). 99 5.10 Tauxd'EERdesmesuresde onan efondéesurlaprobabilitébigrammedire teetinverseave diérents fa teursd'é helle,
ε = 0, 1
( orpus de développement). . 100 5.11 Taux d'EER des mesures de onan e bigramme ave gestion par maximisationettouslespré édentstemporelsdire ts, ave etsanshomogénéisation desvaleurs de onan e ave diérentsfa teursd'é helle,
ε = 0, 1
( orpus dedéveloppement). 102 5.12 Tauxd'EER de omparaison de la mesurede onan e fondéesur la probabilitétrigramme etde saversionmodiée,
ε = 0, 1
( orpus de développement). . . 104 5.13 Tauxd'EERdesmesuresde onan efondéesurlaprobabilitétrigrammedire te5.14 Taux d'EER obtenus par lamesure de onan e lo ale fondée sur la probabilité a posteriori ave un voisinage symétrique de 84 trames, pour diérents fa teurs d'é helle etde relâ hement ( orpus de développement). . . 107 5.15 Synthèsedesrésultatsobtenusparnosmesuresde onan eainsiqueparlamesure
deréféren e sur orpus dedéveloppement entaux d'EERetsurle orpus detest entaux de faussesalarmes (FA),taux defaux rejets(FR)etde CER. . . 119
6.1 Listedes33 mots lés. . . 122 6.2 Tauxd'erreurenmots àlandelapremièrepassesuivantdiérentesintégrations
dela valeur de onan e.. . . 128 6.3 Tauxd'erreurenmotsàlandeladeuxièmepassesuivantdiérentesintégrations
de lavaleur de onan e.. . . 128 6.4 Exemple desvaleursde onan e desmots d'unephrase. . . 130 6.5 Tauxd'erreurenmotssurlespartiesretrans ritesdestextessuivantlesdiérentes
modalités. . . 134 6.6 Taux deréponse auxquestionsdestextes selonles diérentes modalités. . . 135
Au ommen ementétait la parole(Jean 1 :1-5).
Que esoitsouslaformedegrognements ommenosan êtresprimitifs,ousousuneformeplus évoluéeet omplexeànotreère,lelangageetla ommuni ationtiennentunepla eprépondérante dans la so iété humaine. Depuis es temps immémoriaux, la parole a toujours été le support majeur d'expression des êtres humains. Grâ e à la voix, les personnes peuvent partager des informations, dialoguer, exprimer des sentiments, et . Bien que tout être humain soit apable des'exprimer par laparole depuisdes millénaires, lesmé anismes asso iés àlaprodu tion ou à l'a quisition delaparole sont omplexesetne sont pasen ore totalement maîtrisés.
La produ tion d'un sonest lerésultat d'une ombinaison de nombreuses intera tions mé a-niques et physiologiques qui vont inuen er ses ara téristiques a oustiques. Par exemple, un homme, une femme, ou un enfant auront une fréquen e fondamentale diérente et don le son émisseralui même diérent.Des ara téristiquesplus subtiles sontégalement transmises viala parole.Parexemple, ommentexpliquerlefaitquenouspuissionssavoirave unequasi ertitude qu'unepersonne parleau téléphoneen souriant?
Cette omplexitéauniveaudelaprodu tiondusonamèneégalementdenombreuses di ul-tésauniveaudel'a quisition dulangage etde sa ompréhension. Depuisleurplusjeune âge,les enfants é outent les adultes parler, tentent de reproduire tant bien quemal e qu'ilsentendent maiségalement essaient de donner unsens à e ot sonore. Pour ela plusieurs étapes sont né- essaires:segmenterla phraseen mots,les re onnaître,analyser leur signi ationetnalement omprendrelaphrase.
L'intelligen e arti ielle voudrait pouvoir réaliser es étapes qu'ee tuent quotidiennement leshumains,etmême les enfants,par lebiaisd'une ma hine, d'unpro essusautomatique. Ave lesdébutsdesenregistrementssonoresdevoixoudemusique,denombreusespersonnesonttenté d'analyser, de retrouver sur es tra es de voix e qui avait été pronon é. Trouver le se ret qui permet de distinguer un a d'uno. Les premièresexpérien es peuvent apparaître de nos jours omme très grossières,voireinimaginables, maisune grande partie des onnaissan ess sur laprodu tionetl'analyse de laparolevient de esétudes dusignal brut.
Puis des personnes de tous horizons, her heurs ou auteurs, ont ommen é à imaginer des appli ations asso iées à la re onnaissan e de es sons. Ave l'utilisation grandissante des ordi-nateurs et l'idée d'une intelligen e arti ielle, la s ien e tion a souvent donné des exemples d'appli ationde lare onnaissan e vo ale par desma hines,des ordinateurs.
Par exemple des robots serviteurs ommandés à la voix : mé ani iens ou tradu teurs dans ununivers futuriste ommeStar Wars. Ou bien, dansun ontexte plus ontemporain l'exemple d'unevoitureéquipéed'unordinateur apablededialogueretdemontrerun omportementquasi humain.Cettevisiond'unesimplevoiture quipuisseàlafois omprendre, s'exprimeretmêmese omporter ommeun être humain,laisse dansl'esprit du publi l'idée que ette te hnologie est
presqueexistantealorsque elaesten oreunobje tifdi ileàatteindrepourles her heurs en intelligen earti ielle.
Depuisplusieurs annéesnouspouvons ommanderoralement unordinateur, pour destâ hes simples,ave undialoguestri tementdire tifetlimité;desappli ationsdedi téevo aleexistent; desappli ations de type renseignements téléphoniques voient le jour,a eptant divers s énarios de dialogue, plus ou moins exibles. Toutefois nous sommes en ore très loin des rêves des au-teurs de s ien e tion. En eet, les appli ations itées pré édemment existent mais ave des onditions d'utilisation extrêmement restri tives : vo abulaire limité, généralement une seule languetraitée, onditionsd'utilisationoptimales,importantesensibilitéauxbruits,longuephase d'apprentissage,et .
A tuellement, lebut de lare her he en re onnaissan eautomatique estde onsidérer toutes eslimitationsd'utilisation,delesdépasseretde omprendredemieuxenmieuxlesmé anismes liésà laparole (produ tion,per eption, ompréhension).
Parler à une ma hine et voir elle- i retrans rire mot pour mot e qui a été pronon é pré-sente un té magique et fas inant. Les appli ations de di tée vo ale ou plus généralement de trans riptiond'undo ument sonore,ont ommeobje tifdefournir sousforme detextelaparole ontenue dans le signal audio traité. Cette tâ he est une des plus di iles du domaine de la re onnaissan e automatiquede laparole.
Lespremierssystèmes dere onnaissan e netraitaient quedesmots isolés,puis,lapuissan e des ordinateurs augmentant, le traitement de phrases entières a été envisagé. Cependant, la modélisation de la grammaire d'une langue naturelle est di ile voire impossible, ar elle- i a évolué au ours du temps, ave des modi ations, des simpli ations, des habitudes qui ne suiventpasfor ément lesrèglesdelalangue. Deplus, haquerègle n'a-t-ellepassonex eption? Ainsiles premiers systèmes traitant desphrasesétaient fondés sur une modélisationlimitée delalanguedesortequelelo uteurn'avaitquepeude hoix danslesphrasesqu'ilétaitautorisé à pronon er.
A l'heure a tuelle, les systèmes de re onnaissan e automatique de la parole a eptent des onditions d'utilisation de moins en moins ontraintes, plus pro he des onditions d'utilisation ren ontrées danslaréalité.Celaimpliquede prendreen ompte desphénomènesdeplusenplus omplexes omme lebruit,lestours de parole,lalangue utilisée, lalanguematernelle, et .
Plus les onditions expérimentales sont di iles etplus le système est à même de faire des erreurs. L'in iden e de es erreurs peut être plus ou moins importante : une erreur d'a ord grammati al impliquetrès rarementune mauvaise ompréhension, equiestsouventle aspour un mottotalement malre onnun'ayant au un sens ave le ontexte.
Plusieurs dire tionssont envisageables an d'éviter eserreurs :
anerles diérents modèles mis enjeu danslepro essusde re onnaissan e,
explorer de nouvelles dire tions de re her he an de trouver des modèles plus robustes (paramétrisation, lassieur, et ),
utiliserd'autres informations ande orriger ou déte terles erreurs potentiellement om-mises(débruitage, mesuresde onan e).
Con ernant edernierpoint,ilseraitintéressantdedénirdesindi essupplémentaires,autres que le résultat de la re onnaissan e, an d'estimer la qualité de la phrase re onnue, puis de prendre en ompte es indi es an d'ee tuer soit des orre tions, soit desalertes. Lesmesures de onan eremplissent e rle.L'obje tif d'unemesurede onan e estde pouvoirestimer au mieuxla probabilité qu'une phraseou qu'undes mots re onnus soit juste.
Con evoirdesmesuresde onan eestuneproblématiquedi ileapparueenre onnaissan e automatique de la parole depuis une dizaine d'années. En eet, hoisir et réer une mesure de
bonne e a ité, les résultats on rets sont souvent insusants pour être exploités dans des appli ations. Toutefois dans plusieurs situations les mesures de onan e apportent réellement une onnaissan e supplémentaire, notamment pour les tâ hes d'a eptation/rejet d'hypothèses (dialogues homme/ma hine, déte tion de mots lés), de séle tions de données (apprentissage semi-supervisé)etplusgénéralement dansles tâ hesde trans ription.
Dans ette thèse nous nous sommes intéressé aux mesures de onan e dans le adre des appli ationsdere onnaissan edelaparolegrandvo abulaireetàux ontinu.Noussouhaitions dénirdesmesuresde onan epouvantêtre al ulées sansattendre quelesignal(laphrase) ne soit dé odé dans son intégralité par le système de re onnaissan e. Les appli ations viséessont plusparti ulièrement :
la trans ription d'émissionsradiophoniques à lavolée dans laquellenouspourrons mettre en ouleur lesmots de faible onan e,
latrans ription de oursen sallede lasse pour desélèvessourds ou malentendants, ladéte tion de mots lésà lavolée.
Nous dé rirons en détail es appli ations dans le hapitre 3 de e mémoire. Toutefois, une ara téristiqueimportantede esux,quiserontdé odésàlavolée,estqu'ilssontvirtuellement sans n, à l'opposé des do uments pré-enregistrés. Le fait que la n du ux ne soit pas déter-minéeempê he l'utilisationde méthode oude al ulné essitant la onnaissan e et letraitement dusignaldanssonintégralité.Or a tuellement,bien qu'ilexiste dessystèmesde re onnaissan e apablesde traiter des ux en dire t, peu de mesures de onan e peuvent être al ulées dans es onditions.C'estlaraisonpourlaquellenousavonsdé idédedénirdenouvellesmesures de onan equi sont trame-syn hrones ouqui ne né essitent qu'une partie de laphrase pour pou-voirêtreestimées.Lesmesurestrame-syn hronespermettent de al ulerune valeur de onan e exa tement enmêmetempsqueledé odagedelaphraseestee tuépar lemoteurde re onnais-san e. Les mesures lo ales que nous dénissons utilisent des onnaissan es futures par rapport aumotdont nousvoulons estimer la onan e. Cependant, lapartie futureestde taillelimitée, equi implique simplement un ourtdélai avant de pouvoir al ulerla valeur de onan ed'un mot.
Ce mémoire débute par une présentation de l'ar hite ture générale des systèmes de re on-naissan ea tuels danslaquellenousdé rivons plusparti ulièrement les aspe tsliésau adre de notreétude.
Le hapitre 2 est onsa ré à l'état de l'art. Avant de présenter les prin ipales mesures de onan e introduites en re onnaissan e de la parole, nous montrons leur utilité pour ertaines appli ationsphares de lare onnaissan ede laparole. Ennnous terminons e hapitre par une des riptiondesprin ipalesméthodesd'évaluationdesmesures de onan e.
Le hapitre 3 on erne nos travaux. Après une introdu tion des obje tifs de notre étude, notamment en e qui on erne les appli ations iblées,nousprésentonsles nouvellesmesures de onan equenousavonsdéniesau oursde etteétude:desmesurestrame-syn hroneset des mesureslo ales.
An d'évaluer les performan es de nosmesures de onan e en situation réelle, nousavons déni des onditions d'expérimentation qui sont détaillées dans le hapitre 4 : le moteur de re onnaissan e utilisé, les diérentes modélisations a oustiques et linguistiques hoisies, ainsi queles orpus de développement etde test.
Dansle hapitre5,lesperforman esdesdiérentesmesuresetdeleursvariantessontévaluées selonun ritère indépendant detoute appli ation.
Le hapitre 6,quantàlui,regroupelesexpérimentationsquenousavonsmenéessur ertaines de nosmesures de onan edans le adre de deux appli ationsbien spé iques :une déte tion
de mots lés et une expérien e qualitative de trans ription de ours pour des enfants sourds ou malentendants. Ce hapitre setermine par la donnée de quelques résultats sur l'intégration d'une mesure trame-syn hrone dans le pro essus de dé odage du système de re onnaissan e. Nous on luons e mémoire par une dis ussion de nos travaux et de leurs résultats et par une présentation desperspe tivesenvisageables.
Ar hite ture d'un système de
re onnaissan e automatique de la
parole
Sommaire
1.1 Introdu tion . . . 2 1.2 Ar hite tured'un système de re onnaissan e. . . 2 1.3 Paramétrisation du signal . . . 3 1.3.1 LesparamètresMFCC . . . 4 1.4 Modélisation de la parole Modélisation a oustique . . . 5 1.4.1 ModèlesdeMarkov a hés. . . 5 1.4.2 ApprentissagedesmodèlesdeMarkov a hés . . . 6 1.4.2.1 L'algorithmedeBaumet Wel h . . . 7 1.4.2.2 Laméthodeforward . . . 9 1.4.2.3 Laméthodeba kward . . . 9 1.5 Lexiqueetmodèle de langage . . . 10 1.5.1 Lexique . . . 10 1.5.2 Modèledelangage . . . 10 1.6 Prin ipede fon tionnementd'un moteur de re onnaissan e . . . 12 1.6.1 L'algorithmedeViterbi . . . 13 1.6.1.1 Leprin ipedeViterbi . . . 13 1.6.1.2 Leprin iped'optimalitédeBellman . . . 14 1.6.1.3 L'algorithmedeViterbi . . . 14 1.6.1.4 AlgorithmedeViterbidansle asd'unephrase . . . 15 1.6.2 L'algorithme
A
∗
. . . 16 1.6.3 Résultatsdelare onnaissan e . . . 18 1.6.3.1 N-meilleuresphrases. . . 18 1.6.3.2 Graphe demots . . . 19 1.6.3.3 Réseaude onfusion . . . 20 1.7 Con lusion . . . 211.1 Introdu tion
L'obje tifd'unsystèmedere onnaissan eautomatiquedelaparoleestdetrans rirelaparole ontenuedansundo umentsonore donnéenentrée.Latrans riptionseprésentehabituellement sous la forme d'une séquen e de mots. Un dé a tuel est de pouvoir re onnaître de la parole spontanée, utilisant un langage naturel.
Le résultatdélivré par lesystème de re onnaissan e estla solution d'unproblème ombina-toire omplexe. Depuisquelques dé ennies, les systèmes qui permettent d'obtenir les meilleures performan es sontfondés surdesmodélisations statistiques dessonsélémentaires (modélisation a oustique)etdulangage(modèlelinguistiquen-grammes).Lesystèmedere onnaissan efournit alors ommesolution laséquen e de mots laplusprobable orrespondant au segment de parole analysé,en général une phrase.
Parailleurs,lesystèmeoumoteurdere onnaissan en'utilisepasdire tement lesignalsonore brutmaisee tueunpré-traitement dusignaland'enextrairedesparamètres a oustiquesplus robustesetplus dis riminants.
Nous allons don brièvement dé rire dans e hapitre les diérents on epts que sont la paramétrisation, la modélisation a oustique et la modélisation linguistique. En revan he nous détaillerons un peu plus l'algorithme d'apprentissage des modèles a oustiques ainsi que le mo-teurdere onnaissan e;plusparti ulièrementl'algorithmede re onnaissan eetlesstru turesde données asso iées, nostravauxde re her he étant dire tement liésà esderniers éléments.
1.2 Ar hite ture d'un système de re onnaissan e
Pour un segment sonore donné en entrée, un système de re onnaissan e de la parole dé-livre une trans ription é rite de la parole ontenue dans e segment. La gure 1.1 présente les prin ipales étapes d'un système de re onnaissan e. Le pro essus de re onnaissan e né essite la dénition d'une paramétrisation du signal et la fourniture de plusieurs données pré- al ulées : les modèles a oustiques, lelexique et les modèles linguistiques.La onstru tion des modèles et du lexiquené essitedesapprentissagesqui doivent être réalisésau préalable.
Moteur
Modèles
acoustiques
Lexique
Modèle de
Langage
Apprentissage
Corpus
Textuels
Apprentissage
Transcription
Paramétrisation
Corpus
Acoustiques
Reconnaissance
Apprentissage
Fig.1.1Ar hite tured'unsystèmedere onnaissan eautomatiquedelaparole etdes appren-tissagesné essaires.
Lapremière étape onsisteàtransformerlesignalaudiobrutenparamètres plusrobusteset plusdis riminants.Cesparamètresvontserviràlafoisàla onstru tiondesmodèlesa oustiques et au moteur de re onnaissan e. Au ours de ette étape de paramétrisation, le signal sonore esttoutd'abordé hantillonné.Puis,plusieurstraitementsmathématiquessontappliquéssur es é hantillons an d'obtenir desve teursde paramètres,appelés observations.
La se onde étape représente le ÷ur du système : le moteur de re onnaissan e. Le moteur utilise lesstru turesde données externessuivantes:
desmodèlesa oustiques, un lexique(vo abulaire),
un modèlede langage (grammaire).
Lesmodèles a oustiques sont lareprésentation probabiliste d'unitésélémentaires de parole: phones,phonèmes, syllabesoumots.
Lelexiquedénitl'ensembledesmotsquipourrontêtrere onnus parlesystème.Unmotqui n'est pasdans e vo abulaireprédéni ne pourrajamaisgurer dansun résultat dusystème de re onnaissan e.
Le modèle de langage tente de représenter, par le biais de probabilités, des phénomènes syntaxiquesdelalangue.Lamodélisationgénéralementutiliséeest onstruiteàpartirdel'analyse de séquen es de mots dans un orpus textuel. Trois types d'information sont habituellement estimés : les probabilités d'apparition d'un mot (unigrammes), d'une séquen e de deux mots su essifs(bigrammes) etd'uneséquen e detrois mots(trigrammes).
Lesmodélisationsa oustiques,linguistiquesetlelexiquesont onstruitsaupréalableàpartir d'importants orpus de parole et de texte, distin ts de eux sur lesquels le système sera testé. Une fois es phases d'apprentissage réalisées, le moteur a toutes les données né essaires pour ee tuerlare onnaissan e d'unsignalde parole.
Dans les se tions suivantes, nous dé rivons un peu plus en détails es diérentes étapes préliminairesde paramétrisation, de modélisationainsique lemoteur de re onnaissan e.
1.3 Paramétrisation du signal
La paramétrisation du signal a oustique joue un rle majeur dansle système de re onnais-san e de la parole. Son obje tif est de transposer le signal sonore brut dans un domaine plus robuste etplusdis riminant.C'est-à-dire queles paramètres devront être lesplus indépendants possibles des onditions d'enregistrement, mais aussi permettre de distinguer au maximum les diérentesunités élémentairesde parole entre elles.
Parexemple,diérentesparamétrisationspeuventêtreenvisagéesdansledomainespe tral:le spe tredusignal,lesformants,les oe ientsde odageprédi tiflinéaire (LinearPredi tive Co-dingLPC)[Markel 76 ,Rabiner 78,Hai03℄.D'autreste hniquesproposentd'ajouteraudomaine deparamétrisation des onnaissan esissuesde lapsy ho-a oustiquehumaine.C'est notamment le asdelaprédi tionlinéaire per eptive(Per eptualLinearPredi tionPLP) [Hermansky90℄) oudelatransformation bilinéaireBark(BarkBilinearTransformBBT)[Smith 95 ℄,quitoutes deux se basent sur une résolution non linéaire en fréquen e à l'aide de l'é helle Bark. La pa-ramétrisation la plus largement répandue en re onnaissan e automatique de la parole se situe dansle domaine epstraletutilise les oe ients epstrauxà é helle Melen ore appelésMFCC [Davis80 ℄.Aladiéren edes oe ientsspe traux,l'interprétationdes oe ientsMFCCn'est passimple. Toutefois, eux- i demeurent globalement les plus robusteset les plus performants. Cependant,unenouvelle paramétrisationfondéesurlesondelettessembleavoirunfortpotentiel
[Deviren03 ℄. Les ondelettes sepla ent dansun domaine temps-fréquen ealors queles paramé-trisations lassiques ne ontiennent plus d'informations temporelles. Mais la mise en pla e des ondelettes estdi ile ar e type de paramétrisationn'est pasen ore susamment maîtrisé.
Quelleque soit la paramétrisation, les dérivées d'ordre multiples desparamètres sont égale-ment asso iéesauxvaleursstatiques andetenir omptede ladynamiquedelaparole. L'évolu-tion desparamètres au ours du temps est souvent une donnéeplus importanteque les valeurs desparamètres eux-mêmes.
Dansle adredenostravaux,notresystèmeserabasésuruneparamétrisationparles epstres à é helle Melasso iés à leurs dérivéespremières etse ondes.
1.3.1 Les paramètres MFCC
Les prin ipales étapes du al ul des oe ients epstraux à é helle Mel (Mel Frequen y Cepstral Coe ient MFCC) sont dé rites Figure 1.2. Le pro essus de al ul ommen e par un dé oupage du signal en fenêtres re ouvrantes, puis les étapes d'obtention des MFCC sont su essivement appliquées à ha une de es fenêtres [Davis80 , Rabiner 93℄. Ces étapes sont : unepré-a entuationanderenfor erleshautesfréquen esduspe tre,l'utilisationdefenêtrede typeHamming,unetransforméedeFourierpourpasserdansledomainespe tral,puisunltrage suivant l'é hellefréquentiellenon linéaireMeldulogarithmedu spe treetennune transformée de Fourier inverse an depasserdansledomaine epstral.
pré-a . Hamming
F F T
LogFiltreMel
F F T
−1
-
-
-
-
-
-MFCC signalFig. 1.2Etapes de al uldes oe ients epstraux àé helle Mel.
L'é helle Mel, par rapport à une répartition linéaire en fréquen e, tente de reproduire une ara téristique physiologiquedel'oreille humaine. Dessons àunefréquen ede100 Hzet150Hz sont lairement distin tspour tousmaisil nousest quasiment impossiblededistinguer unsonà 4000Hz d'unsonà4050Hz.L'é helle Mels hématise etteper eptionendénissant uneé helle logarithmique de répartition des fréquen es. Une représentation d'un ban de vingtltres Mel est donnéeFigure1.3.
1.4 Modélisation de la parole Modélisation a oustique
La modélisation a oustique permet au moteur de re onnaissan e de déterminer quelles ont étéles unitésa oustiquespronon ées(phones,phonèmes,syllabes,mots).La littératurepropose plusieursmodélisationspossiblesetparmilesplusfréquentessetrouventlesréseauxdeneurones [Robinson88 ,Robinson 94,Tebelskis95 ℄,lesmodèlesdeMarkov a hésetlesréseauxBayesiens [Rabiner89, Deviren 02℄. Les modèles de Markov a hés (Hidden Markov Model - HMM) ont étéintroduits dansledomaine de lare onnaissan ede laparole depuisdéjà une trentaine d'an-nées[Baker75 ,Jelinek 76 ℄, etlamajeurepartie desmodélisations a tuelles sont fondéessur es modèles. Une telle modélisation probabiliste de la parole peut être étendue par l'intermédiaire de stru tures telles que les HMM multidimensionnels ou en ore par les réseauxBayesiens dont lesmodèles de Markov a héssont un asparti ulier [Mari97, Deviren04 ℄.
1.4.1 Modèles de Markov a hés
Un modèle de Markov a hé peut être dé rit omme un automate probabiliste à
N
états omportantdeuxpro essus:unpro essus a héde hangementd'étatetunpro essusd'émission. Lepro essusde hangement d'étatest a hé ar elui- in'est pasobservable. Cependant, parle pro essusd'émission, latransitiondu modèledansunétatgénèreune observation. Lagure1.4 représente unmodèlede Markov a hé àtrois états.a
11
a
22
a
33
a
12
a
23
1
1
b (o )
b (o )
2
2
2
3
b (o )
b (o )
2
4
3
6
b (o )
O
1
O
2
O
3
O
4
O
5
O
6
3
5
b (o )
2
1
3
Fig. 1.4 HMMgau he-droite àtroisétats.
La réalisation d'un pro essus de Markov a hé se traduit par l'existen e d'une séquen e
Q = (q
0
, . . . , q
T
)
d'états de l'automate. Le pro essus d'émission du modèle de Markov a héasso ie à
Q
une séquen e deT
observationsO = (o
1
, . . . , o
T
)
. Avant le début du pro essus, le système se trouve dans un état initialq
0
sans émettre d'observations. Au tempst
, le HMM ee tue une transition vers l'étatq
t
et émet l'observationo
t
. Un modèle de Markov a hé est ara térisépar troisparamètres :
π
i
,les probabilitésinitiales, 'est-à-direlaprobabilité d'êtredansl'étati
de l'automateau temps 0,π
i
= P (q
0
= i),
∀i ∈ {1, N }
A = ((a
ij
))
,lamatri edetransitionentrelesétats del'automate;a
ij
représentelaproba-bilité de transitionpour allerde l'état
i
àl'étatj
,
b
i
(o
t
)
,ladistributiondesprobabilitésd'émissiondel'observationo
t
àl'étati
del'automate,b
i
(o
t
) = P (o
t
|q
t
= i),
∀i ∈ {1, N }, ∀t ∈ {1, T }.
Pour haque état, la probabilité d'émission représente la probabilité qu'un état de l'auto-mate ait généré une observation parti ulière. Cette probabilité d'émission de l'observation est généralement modélisée par une sommepondérée de
G
fon tionsde densitégaussienneN (µ, Σ)
(GaussianMixture Model - GMM)d'espéran eµ
etde matri e de ovarian eΣ
.Laprobabilité d'observation estalors dénie par l'équationsuivante :b
i
(o
t
) =
G
X
k=1
c
ik
N (o
t
, µ
ik
, Σ
ik
),
G
X
k=1
c
ik
= 1
(1.1)haque gaussienneayant unedensité deprobabilité ontinue égaleà
1
q
(2π)
D
det(Σ)
exp(−
1
2
t
(o
t
− µ)Σ
−1
(o
t
− µ))
pour laquelle
o
t
représente le ve teurd'observationàD
omposantes,µ
leve teur moyen de lagaussienne,etΣ
la matri ede ovarian e.Lamatri edetransitiondénitlatopologie del'automatedumodèledeMarkov a hé.Dans l'exemple de la gure 1.4, le modèle à 3 états possède des transitions gau he-droite entre les étatsainsiquedestransitionsdebou lage.Cetype demodélisationestemployé pour dénirdes modèlesdephonèmes.Dans esmodèles,lestransitionssontgau he-droite (pasderetourarrière possible)pour essayer de représenter l'évolution a oustique d'un phonème au ours du temps : ledébutdu phonème,sapartie entrale etlan duphonème.
LamodélisationHMMpeutêtreappliquéede plusieursmanières pourtraiter le asdessons d'unelangue.Laplussimpleestdefaireautant demodèlesquedephonèmes.Lesmodèles repré-senteront equ'onappelledesmonophones.Cependant,ilestpossiblede hoisirunemodélisation plus ne en tenant ompte du ontexte a oustiqueentourant le phonème. Ainsi, un modèle ne dénit plusun phonèmemaisune réalisationparti ulière de e phonème,dépendanteduou des phonèmes lepré édant etde eluiou eux luisu édant.Ce sont lesn-phones.
Les modèles a oustiques, qu'ils soient monophones ou n-phones, sont appris sur un orpus a oustique ontenant desexemplesde parole et leurtrans ription phonétique. Le passage à des modèles n-phones augmente fortement le nombre de modèles à apprendre et en même temps diminue fortement le nombre d'o urren es de ha un d'eux dans le orpus d'apprentissage. Des méthodes ont alors été développées an de limiter l'impa t du manque d'exemples pour l'apprentissage des modèles. Une possibilité onsiste à dénir un ensemble xe de gaussiennes qui seront partagéespar les diérents modèles oupar les états desmodèles [Lee00 ℄.
1.4.2 Apprentissage des modèles de Markov a hés
La phase de onstru tion d'unmodèle est le point ru ial de tout système. L'apprentissage revêtdon unegrandeimportan e.Lesmodèlesa oustiquesné essitent unimportant orpus so-noretrans ritdeplusieurs entainesd'heures.Unetrans riptionphonétiqueestasso iéeà haque é hantillon sonore de sorte qu'au nal haque modèle possède desreprésentants dansle orpus. Unefoisl'ensembledesdonnéesprêt,laphased'apprentissagedesmodèless'ee tue.Nousallons dé rire dans ette se tion l'algorithme ommunément utilisé dans la phase d'apprentissage des modèles de Markov a héspour lare onnaissan ede laparole.
A partir d'exemples dont nous onnaissons à lafois laséquen e des modèles etla séquen e d'observations engendrée, noussouhaitons déterminer les paramètres dénissant les modèles de Markov a hésde haque unité phonétique. Ilnous fautdon estimer pour haque modèle :
les probabilités initiales
π
i
, les probabilités detransitiona
ij
,les probabilités d'émissions
b
i
(o
t
)
qui sont ara tériséespar :•
lesmoyennesµ
i
,•
lesmatri esde ovarian esΣ
i
,•
les oe ients dumélangede gaussiennesc
i
.Dans le adre modèles de Markov a hés, la méthode ommunément utilisée repose sur le ritèredumaximumdevraisemblan e(MaximumLikelihoodML).Toutefois,d'autresméthodes ontétédéveloppées,parexemplelate hniqued'apprentissagedis riminantfondéesurle ritèredu maximumd'information mutuelle(MaximumMutualInformationMMI). Soit
λ = (π
i
, a
ij
, b
i
)
les paramètres dénissant un modèle HMM, nous devons d'après le ritère du maximum de vraisemblan e,trouverun modèleΛ
quimaximiseP (O|λ)
.Λ = arg max
λ
P (O|λ)
Or,il n'existepasde méthodedire te pour résoudre e problème demaximisation de
Λ
. 1.4.2.1 L'algorithme de Baum et Wel hBaum a eul'idée d'introduire d'autresfon tions redénissant leproblème de re her he d'un système
λ
. Puis il a dé rit un algorithme permettant l'estimation des nouveaux modèles de manièreitérative [Baum70℄.Soit
p
unefon tionpositive,etP (λ) =
R
p(q, λ)dq
,nouspouvonsalorsintroduireunefon tionauxiliaire
Q
:Q(λ, λ
′
) =
1
P (λ)
Z
p(q, λ) log p(q, λ
′
)dq
Bauma démontré d'unepartlapropriété suivante:
Q(λ, λ
′
) − Q(λ, λ) ≤ log P (λ
′
) − log P (λ)
etd'autre partqu'en dénissant lafon tion
T
ainsi:T (λ) = arg max
λ
′
Q(λ, λ
′
)
nousavonsalors l'inégalité suivante :
P (T (λ)) ≥ P (λ).
L'algorithme de Baum et Wel h onsiste à trouver un nouveau modèle
λ
′
qui maximise
Q(λ, λ
′
)
.Cetalgorithmeestitératifet ommen eparunjeudeparamètresarbitrairesλ
0
.Ensuite,nous her hons
λ
1
quimaximiseQ(λ
0
, λ)
,puisλ
2
quimaximiseQ(λ
1
, λ)
,etainsidesuite.Nous avons, de plus, lapropriétéP (λ
2
) ≥ P (λ
1
) ≥ P (λ
0
)
.Il faut trouver maintenant uneméthode pour maximiserlafon tion
Q
. Dansle as desmodèles de Markov onsidérés,P (λ)
s'é rit :P (λ) =
X
q∈Ξ
π
q
0
T
Y
t=1
a
q
t−1
q
t
b
q
t
(o
t
)
Ξ
étant l'ensemble des hemins possiblespour unHMM gau he-droit.Dans e as
Q(λ, λ
′
)
peutseréé rire sous laformed'une sommede troistermes:
Q(λ, λ
′
) = A(π
i
) + B(a
ij
) + C(b
i
).
Ainsi, maximiser
Q(λ, λ
′
)
revient à maximiser les trois termes séparément. Or, la topologie de nos modèles for e les valeurs des
π
i
, ar nous ommençons obligatoirement par le premier état du modèle. Lesπ
i
sont don onstants. La maximisation des termesB
etC
onduisent à des formules de ré-estimationpourles probabilitésd'observationetde transition.Nousdonnons es formules pour desprobabilitésd'observationmonogaussiennes.Aussi,pour les probabilités detransition
a
′
ij
etpour une loigaussienneN (µ
′
k
, Σ
′
k
)
à l'étatk
dumodèleλ
′
,ilfaut exprimerlesquantités
µ
′
k
,Σ
′
k
eta
′
ij
en fon tiondu modèleλ
.Ces é ritures n'étant pasimmédiates,il estné essaired'introduire denouvellesvariablesγ
etξ
,puisα
etβ
. Les probabilités d'observationLesformulesderé-estimationdesprobabilitésd'observationpouruneloigaussienne
N (µ
′
k
, Σ
′
k
)
du nouveau modèle
λ
′
sontdé rites par les équationssuivantes:
µ
′
k
=
nb de f ois `
a l
′
etat k et observation de o
´
t
nb de f ois `
a l
′
´
etat k
=
T
P
t=1
γ
t
(k)o
t
T
P
t=1
γ
t
(k)
Σ
′
k
=
T
P
t=1
γ
t
(j)(o
t
− µ
j
)(o
t
− µ
j
)
T
P
t=1
γ
t
(j)
γ
étantlaprobabilité a posterioride s'êtretrouvéà l'étati
àl'instantt
onnaissantlaséquen e d'observations etle modèle:γ
t
(i) = P (q
t
= i|O, λ)
Les probabilités de transition
Lesvaleursdes probabilitésde transitionsont :
a
′
ij
=
nb de transitions ij
nb trans. sortantes de i
=
T
P
t=1
ξ
t
(i, j)
T
P
t=1
ξ
t
(i)
ξ
étant la probabilité de s'être trouvé à l'étati
à l'instantt
, et à l'étatj
à l'instantt + 1
onnaissant la séquen ed'observations etλ
:Hélas, le problème est simplement reporté sur deuxnouvelles in onnues,
γ
etξ
. Il est alors possible d'introduirede nouveau deuxvariables supplémentaires :soit
α
t
(i) = P (o
1
. . . o
t
, q
t
= i|λ)
,la probabilité d'observer laséquen eo
1
. . . o
t
etd'être àl'état
i
àl'instantt
sa hant le modèleλ
.soitégalement
β
t
(i) = P (o
t+1
. . . o
T
|q
t
= i, λ)
,laprobabilitéd'observerlaséquen eo
t+1
. . . o
T
sa hantλ
,etd'être àl'étati
autempst
.Les valeurs de
γ
etξ
peuvent s'exprimer en fon tion deα
etβ
. Nous obtenons alors les équationssuivantes:γ
t
(i) =
α
t
(i)β
t
(i)
N
P
i=1
α
t
(i)β
t
(i)
ξ
t
(i, j) =
α
t
(i)a
ij
b
j
(o
t+1
)β
t+1
(j)
N
P
i=1
N
P
j=1
α
t
(i)a
ij
b
j
(o
t+1
)β
t+1
(j)
Par l'introdu tion de nouvelles in onnues
α
etβ
, Baum et Wel h reformulent la dénition desin onnuesγ
etξ
.Toutefois,Il està présent lapossibilitéde al uler esnouvelles in onnues àpartirdes probabilitésd'observationet destransitions initialesdu modèleλ
par les méthodes forward etba kward.1.4.2.2 La méthode forward
Eneet,ilestpossible de al uler
α
parré urren e ar haque étapede al ulautempst
ne né essitequeles observations des tempspré édents. Voi i ladénitionde ette ré urren e:Initialisation :
α
1
(i) = π
i
b
i
(o
1
)
Ré urren e :α
t+1
(j) =
h
X
N
i=1
α
t
(i)a
ij
i
b
j
(o
t+1
)
Deplus, nousavonslapropriété suivante :
P (O|λ) =
N
X
i=1
P (O, q
T
= i|λ) =
N
X
i=1
α
T
(i)
1.4.2.3 La méthode ba kwardDe même que pour
α
, il est possible de al ulerβ
par ré urren e. Par ontre, dans le as deβ
, les al uls à l'étape de tempst
ont besoin des observations des temps suivants. Voi i la dénitionde laré urren edeβ
: Initialisation :β
T
(i) = 1, 1 ≤ i ≤ N
Ré urren e :β
t
(i) =
N
X
j=1
a
ij
b
j
(o
t+1
)β
t+1
(j)
Ces résultatsamènent une propriété intéressante :
P (O|λ) =
N
X
i=1
α
T
(i) =
N
X
i=1
β
1
(i) =
N
X
i=1
α
t
(i)β
t
(i).
Dans es deux ré urren es relatives aux valeurs
α
etβ
, au une nouvelle in onnue n'a été introduite,ettoutes lesautres valeursprésentessont dénies,le al ulee tifestdon possible. Il sut d'utiliser les diérentes égalités et in onnues introduites pour obtenir les valeurs de ré-estimation desa
ij
etdesb
i
.Ensuite, nous itérons le pro essus de al ul du système
λ
i
, qui sera au moins aussi bon que le systèmeλ
i−1
. Le nombre d'itérations réalisées est habituellement déni à une valeur xée de manière arbitraire, ou bien dépend d'un ritère d'arrêt exprimant la stabilisation de la onvergen e desmodèlesλ
i
.1.5 Lexique et modèle de langage
1.5.1 Lexique
Lesystèmedere onnaissan ené essiteladénitiondel'ensembledesmotsqu'ilseraàmême dere onnaître.Cetensembleestdénommélexiqueouvo abulaire. Unmotn'appartenant pasau lexiquene pourrajamaisêtre présent danslasolution fournie par lesystèmede re onnaissan e. Une façon lassique de onstruire le lexique onsiste à extraire à partir d'un orpus textuel l'ensemble des mots les plus fréquents de e orpus. Pour les systèmes de re onnaissan e dit grand vo abulaire la taille du lexique est de l'ordre de plusieurs dizaines de milliers de mots et le orpus textuel de l'ordre de plusieurs millions de mots (respe tivement 54747 mots et plus de 200 millions de mots dans le adre de nos travaux). En plus de dénir l'ensemble des mots onnus du système,le lexiqueasso ie à haque motsadé omposition enunités phonétiques. Le lexiquedoitégalementtenir omptedesmultiples pronon iationspossiblesd'unmot auséespar desélisionsou desliaisonsentreles mots.
1.5.2 Modèle de langage
Lesmodèlesdelangageontpourobje tifdereprésenterlesloisquirégissentle omportement de la langue. Ainsi, le modèle de langage aide à déterminer si une phrase est valide ou non par rapport à la langue modélisée. S'inspirer des onnaissan es linguistiques est la manière la plusintuitive de onstruire unmodèlede langage.Généralement, les onnaissan eslinguistiques s'expriment pardesrègles dé rivant lastru tured'unephrase.L'avantagede ettemodélisation vient du fait qu'elle dé rit pré isément les onditions de validité, de onstru tion d'une phrase de la langue. Cependant ertains phénomènes restent mal modélisés et de telles onstru tions grammati alesne sont pasenadéquation ave lalangueorale.En eet,enparole spontanée, les règlesde onstru tion desphrasesnesontpassouventrespe téesetainsi etypedemodélisation nevalideraitpassouventlaparolespontanée.Deplus,l'élaboration de esmodèlesné essiteune partimportante d'intervention manuelle, e quine fa ilite guèrel'adaptation delamodélisation auxévolutionsde lalangueou à uneautre langue.
Dans les systèmes de re onnaissan e automatique de la parole, la langue est modélisée par une autre atégorie de modèles de langage, les modèles statistiques. Ces modèles sont appris
automatiquement sur des orpus textuels de taille importante (plusieurs millions de mots). La modélisation statistique n-grammes est la plus utilisée. Cette modélisation onsiste à estimer, à partir d'un orpus textuel, les probabilités des séquen es de
n
mots. Le prin ipe de base est d'exploiter la fréquen e d'apparition de séquen es de mots et d'en déduire des estimations des probabilités unigrammes(probabilité d'apparition d'unmot), bigrammes (probabilité d'appari-tiond'uneséquen ededeuxmots)etplusgénéralementden-grammes.Le ritère ommunément utilisé pour l'estimation de es diérentes probabilités est le ritère du maximum de vraisem-blan e[Federi o98℄.Considérant l'ensemble des séquen es de
n
mots possibles à partir du lexique, beau oup n'apparaissent pas dansle orpus d'apprentissage par e qu'elles sont impossibles voire très im-probables pour lelangage onsidéré, omme par exemple le bigramme le maison. Toutefois un nombre non négligeable d'entre elles sont valides au sens du langage mais peuvent ne pas apparaîtredans le orpus d'apprentissage. Aussi,pour laisserune han eà esséquen es d'être re onnues, haqueséquen eden-motsdoitavoiruneprobabiliténonnulle.Diérenteste hniques dites de repli (ba ko) permettent d'estimer la probabilité de es séquen es, même si elles- i n'ont jamaisétéren ontrées dans le orpus[Chen 99℄.Soit la séquen e de mot
w
1
, w
2
, w
3
, nous dénissons la probabilité trigramme omme la quantitép(w
3
|w
1
, w
2
)
. L'algorithme 1.1 dé rit le al ul de la probabilité trigramme dire tep(w
3
|w
1
, w
2
)
dans le as d'unmodèle linguistique intégrant lanotion de repli. Lesmêmes te h-niques sont utilisées dans le al ul de la probabilité bigrammep(w
2
|w
1
)
(Algo. 1.2). Dans es algorithmes:
p
n
(w
1
, . . . , w
n
)
est l'estimation sur le orpus d'apprentissage de la probabilité n-grammep(w
n
|w
1
. . . w
n−1
)
danslemodèle langage,
repli
n−1
(w
1
, . . . , w
n−1
)
est la valeur de repli al ulée par le modèle de langage pour uneséquen e de
n
mots nonren ontrée dansle orpusd'apprentissage.Lorsqu'une séquen e de
n
mots n'est pas modélisée par le modèle de langage (probabilité n-gramme),unpremier niveaude repliestee tuéen n'utilisant plusque desrelations entre au maximumn − 1
mots. Ce pro essus peut être appliqué ré ursivement tant qu'une probabilité m-grammen'est pasdéniedansle modèlede langage.Algorithme 1.1:
si letrigramme
w
1
, w
2
, w
3
existe dans le modèle delangage alors/* on utilise la valeur donnée par le modèle */
p(w
3
|w
1
, w
2
) = p
3
(w
1
, w
2
, w
3
)
sinon
/* on utilise un premier niveau de repli */ si lebigramme
w
1
, w
2
existe alorsp(w
3
|w
1
, w
2
) = repli
2
(w
1
, w
2
) ∗ p(w
3
|w
2
)
sinon
/* on utilise un deuxième niveau de repli */
p(w
3
|w
1
, w
2
) = p(w
3
|w
2
)
n n
pa-Algorithme 1.2:
si le bigramme
w
1
, w
2
existe dans lemodèle de langage alorsp(w
2
|w
1
) = p
2
(w
1
, w
2
)
sinon
p(w
2
|w
1
) = repli
1
(w
1
) ∗ p
1
(w
2
)
n
ramétrisation, ilestégalementpossibled'ajouterdes onnaissan eslinguistiques àunmodèlede langagestatistique. Aussi,destravauxontproposédesmodèles utilisant des lasses syntaxiques ousémantiquesdemotsoudesmodèles sebasant surdestraits ara téristiquestelsquelegenre etlenombre des mots[Brown 92,Brill 98,Rosenfel96 ,Kuhn90, Lave hia 06℄.
1.6 Prin ipe de fon tionnement d'un moteur de re onnaissan e
Nousdé rivonsdans ette se tion le prin ipe de fon tionnement d'un moteur de re onnais-san e fondé surune modélisation a oustiquesto hastique à basede modèles de Markov a hés. Après l'étape de paramétrisation, nous obtenons en entrée du moteur une séquen e
O
deT
ve teurs d'observation,O = (o
1
, . . . , o
T
)
.Ee tuer lare onnaissan e d'une phraserevient à dé-terminer la séquen e de motsW
∗
= w
1
. . . w
n
qui maximise la probabilité que ette séquen eorresponde à laséquen ed'observations
O
.Ce problèmes'é rit ainsi:W
∗
= arg max
W
P (W |O)
Cependant, il est di ile voire impossible de al uler dire tement la probabilité
P (W |O)
. Toutefois lethéorèmede Bayespermetde reformuler ette équation ainsi:W
∗
= arg max
W
P (O|W )P (W )
P (O)
(1.2)Par ette nouvelle formulation, nousobtenons l'expressiondu problème en fon tion de trois autres probabilités :
P (O|W )
:laprobabilité d'observer laséquen eO
desobservations sa hant laséquen edemots
W
(probabilitéa oustique),
P (W )
:laprobabilité a prioride laséquen e demotsW
(probabilité linguistique),
P (O)
:laprobabilitéde l'observation.La séquen e d'observations
O
étant xée,P (O)
ne dépend pas de la séquen e de motsW
étudiée.L'équation1.2sesimpliealorsenl'équation1.3quinedépendplusquedesprobabilités a oustiques etlinguistiques:W
∗
= arg max
W
P (O|W )P (W )
(1.3)
Anderésoudre eproblème,ilestdon né essairede al uler
P (W )
etP (O|W )
pourtoutes les séquen es demots possibles,puis de omparer less oresP (O|W )P (W )
entreeux.Sinoussupposons dorénavant que lesséquen es
W
sont uniquement limitées à des modèles de Markov a hésM
d'un mot, alors :P (O|W ) = P (O|M ) = max
q∈Ξ
π
q
0
T
Y
t=1
a
q
t−1
q
t
b
q
t
(o
t
)
(1.4)Ξ
étant l'ensemble desséquen es d'étatspossiblesetT
lalongueur delaséquen e d'observa-tions.Or, al ulerP (O|M )
dire tementenpar ouranttouteslesséquen esd'étatspossiblespose unproblème d'explosion ombinatoire.En eet,pourun modèle de Markov a hé àN
états,la omplexitéde e al ulestenO(T.N
T
)
.Ilestdon né essaired'introduiredesméthodesplus as-tu ieusespermettantderésoudre eproblèmeengardantune omplexitéraisonnable.Laméthode habituellementutiliséeestl'algorithmedeViterbiquipermetderéduirela omplexitédu al ulen
O(T.N
2
)
[Viterbi67 ,Forney 73 ℄.Cetalgorithme,ousesvariantes,estau ÷urdenombreuxsys-tèmesautomatiquesdere onnaissan edelaparole:Julius[Lee01℄,HTK[Young 94a ℄,Sphinx-4 [Lamere03 ℄,ESPERE[Fohr 00℄,SPIRAL[Linares 05℄,Siro o[Gravier02 ℄,ISIP[Deshmukh 99℄. D'autresalgorithme dere her he de meilleur heminont également été utiliséstels l'algorithme
A
∗
,des algorithmes àpile ou l'algorithme de programmation dynamiqueà deux niveaux (Two-Level Dynami Programming TLDP) [Agbago 04 ℄. Le systèmede re onnaissan e Julius, que nousavons utilisé dans nos expérimentations, est fondé sur un pro essus de re onnaissan e en deux passes : une passe avant utilisant l'algorithme de Viterbi et une passe arrière basée sur l'algorithme
A
∗
.
1.6.1 L'algorithme de Viterbi
1.6.1.1 Le prin ipe de Viterbi
Nous her hons i i à déterminer la séquen e d'états maximisant
P (O|M )
. Le système à résoudrepeutsereprésentersous laformed'ungrapheàdeux dimensions:laséquen e d'obser-vations en abs isse,lemodèleM
en ordonnée.LaFigure1.5représente untelgraphepourunexempled'uneséquen ede10observationset unmodèledeMarkov a héàtroisétatsàtopologiedetransitiongau he-droite.Dans egraphe, unn÷udreprésenteunétat
i
dumodèlepourune ertaineobservationo
t
ave unevaleurasso iée égaleàb
i
(o
t
)
. Lesar s orrespondent auxtransitions d'unétati
à un étatj
(i
peutêtre égal àj
) etont omme valeur asso iéelaprobabilité detransitiona
ij
( .f.se tion 1.4.1).O1
O2
O3
O4
O5
O6
O7
O8
O9
O10
Fig. 1.5 Graphe de Viterbi pour un HMM à 3 états gau he-droite et une séquen e de 10 observations
La solution se présente ainsi sous la forme d'un hemin ayant omme origine un état du modèledeMarkovautemps