HAL Id: tel-00185747
https://tel.archives-ouvertes.fr/tel-00185747v2
Submitted on 14 Nov 2007
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
reconnaissance automatique de la parole
Joseph Razik
To cite this version:
Joseph Razik. Mesure de confiance trame-synchrones et locales en reconnaissance automatique de la parole. Interface homme-machine [cs.HC]. Université Henri Poincaré - Nancy I, 2007. Français.
�tel-00185747v2�
D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´ UFR STMIA
Mesures de confiance trame-synchrones et locales en reconnaissance
automatique de la parole
TH` ESE
pr´esent´ee et soutenue publiquement le 9 octobre 2007 pour l’obtention du
Doctorat de l’universit´ e Henri Poincar´ e – Nancy Universit´ e
(sp´ ecialit´ e informatique)
par
Joseph Razik
Composition du jury
Pr´ esident : Ren´e Schott Professeur, UHP–LORIA Nancy
Rapporteurs : Jean-Fran¸cois Bonastre Maˆıtre de conf´erences (HDR), LIA–CERI Avignon G´erard Chollet Directeur de recherche CNRS, ENST–TSI Paris Examinateurs : Laurent Besacier Maˆıtre de conf´erences (HDR), CLIPS–IMAG Grenoble
Jean-Paul Haton Professeur, UHP–LORIA Nancy (Directeur)
Odile Mella Maˆıtre de conf´erences, UHP–LORIA Nancy (Co-directrice)
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503
Mes remeriementsvont prinipalement aux personnes dont les noms sont dans lagrille i-
dessous.
Je remerie les diérentes personnes obayes qui ont bien voulu prendre sur leur temps et
partiiperà l'expérienede ompréhensionde texte.
Jeremerieégalementtouseuxquej'aioubliésainsiquetouseuxquilirontesquelqueslignes
etlespages quisuivent.
1 2 3
4 5
6 7
8 9
10
11 12
13 14
15
16 17
18
19 20 21
22
23
24
25
26
27
28
29
5. Faire des balades en forêt ave un violon, e n'est pas pratique, mais pour attraper des
truites,e n'estvraimentpaspratique
6. Mais qu'este que'est queette histoiredepouetetde anards?!
8. Un granddadetqui parle tropfort
11. Le vendredi e n'estpaslapeinede leherher, 'estgolf!
13. Le maître del'enfumage
14. Consienieuse etprofessionnelle, très(trop)impliquée,attention ausurmenage
16. Paris,laapitale, latourEieletl'ENST
19. La hartreuse,ça nevautpaslamirabelle maisil faut faireave lesmoyensdubord
22. Elle pourraitparlerplusfort quandelle ditau revoir
23. Femmeauvolant ...
25. Mister CVS
26. Jen'ai toujours pasles aents, mêmeenHTML!
27. Un peutrop haneux, mêmeàlaxbox
28. It's theFinalCountdown
29. Toutlemondene sort pasindemned'unstage deheadshot
Vertial
1. Onydanse tousen rond...peutêtrequelui aussi
2. Toujoursprêt àaider,ommesonnom l'indique
3. Ona quandmêmefait debellesparties deping-pong
4. Mon guideà Pékin etaussiun peu danslaulturehinoise
7. Ilestétonnantd'avoirétédanslemêmepetitollègeaveuneannéed'éartpuisnalement
dene seonnaître qu'une vingtained'années plustard
9. Un jour iloubliera satêteen plusde sonportable,sonportefeuille,seslés ...
10. Petit meusiendeviendra Doteur
12. Ca nesert à riende regarderdansl'équipe siVézeliseest passéeen L1
15. Sanseux, je ne seraispaslà
17. Toutunentourage sympathiqueetaueillant,presqueune famille
18. Studio mobileave vuesur leLoria
20. La vie peut-elleêtre modélisée parunproessusMarkovien?
21. N46
24. Quelle idéede uisiner de laviandeavedu oa!
25. Mon...Mon...Mon...Monster Kill
Remarque
Etant l'auteur des dénitions, leur ontexte m'est propre et il n'est pas forément aisé de
trouverles noms.Aussilagrilleréponseestdonnéeen annexe A.4.
quipoussedans monjardin seret
Introdution générale xv
Chapitre 1
Arhiteture d'un système de reonnaissane automatique de la parole 1
1.1 Introdution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Arhitetured'unsystème dereonnaissane . . . . . . . . . . . . . . . . . . . . . 2
1.3 Paramétrisation dusignal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Les paramètresMFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Modélisationde laparole Modélisationaoustique . . . . . . . . . . . . . . . . 5
1.4.1 Modèles de Markovahés . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Apprentissagedes modèles deMarkovahés . . . . . . . . . . . . . . . . 6
1.4.2.1 L'algorithmede Baum etWelh . . . . . . . . . . . . . . . . . . 7
1.4.2.2 La méthodeforward . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2.3 La méthodebakward . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Lexique etmodèle delangage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.1 Lexique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.2 Modèlede langage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Prinipede fontionnement d'unmoteurde reonnaissane. . . . . . . . . . . . . 12
1.6.1 L'algorithmede Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1.1 Le prinipe de Viterbi . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1.2 Le prinipe d'optimalitéde Bellman . . . . . . . . . . . . . . . . 14
1.6.1.3 L'algorithmede Viterbi . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1.4 Algorithme deViterbi dansleasd'une phrase . . . . . . . . . . 15
1.6.2 L'algorithme
A
∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.6.3 Résultats de lareonnaissane. . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.3.1 N-meilleures phrases . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.3.2 Graphede mots . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.6.3.3 Réseau deonfusion . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Chapitre 2 Mesures de onane 2.1 Introdution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Exemplesd'appliationsetintérêt desmesures deonane . . . . . . . . . . . . 26
2.2.1 Reonnaissanede laparole :transription. . . . . . . . . . . . . . . . . . 26
2.2.2 Détetion desmots horsvoabulaire . . . . . . . . . . . . . . . . . . . . . 27
2.2.3 Détetion de motslés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.4 Dialogue Homme/Mahine. . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.5 Apprentissage semi-supervisé . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.6 Adaptation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Mesuresde onane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Critèresnon probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.1.1 Stabilitéaoustique . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.1.2 Densitéd'hypothèses. . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.1.3 Dépendanedesmots . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2 Critèresrelatifs au modèle delangage . . . . . . . . . . . . . . . . . . . . 33
2.3.2.1 Lemodèlede langage . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2.2 Replidu modèlede langage . . . . . . . . . . . . . . . . . . . . . 34
2.3.3 Critèressémantiques etsyntaxiques. . . . . . . . . . . . . . . . . . . . . . 35
2.3.3.1 Analysesémantiquelatente . . . . . . . . . . . . . . . . . . . . . 35
2.3.3.2 Informationmutuelle . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.3.3 Catégoried'unmot . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.4 Autresritèresempiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.5 Mesuresfondéessur lerapportde vraisemblane . . . . . . . . . . . . . . 38
2.3.5.1 Tests d'hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.5.2 Rapport devraisemblane . . . . . . . . . . . . . . . . . . . . . . 38
2.3.5.3 Modèle /Anti-Modèle . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.5.4 Modèle générique . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.5.5 Modèles ompétitifs . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.6 Mesuresfondéessur lesprobabilitéa posteriori . . . . . . . . . . . . . . . 41
2.3.6.1 Mesuresfondéessurlaliste de n-meilleuresphrases. . . . . . . . 42
2.3.6.2 Mesuresfondéessurlesgraphesdemotsetl'algorithmedeforward- bakward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.6.3 Mesurede onanedu systèmede reonnaissaneJulius . . . . 44
2.3.6.4 Mesuresfondéessurles réseauxde onfusion . . . . . . . . . . . 45
babilité a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.7 Combinaison demesures de onane . . . . . . . . . . . . . . . . . . . . 46
2.3.7.1 Combinaisons de mesuresetd'heuristiques . . . . . . . . . . . . 46
2.3.7.2 Combinaisonde systèmes dereonnaissane . . . . . . . . . . . . 47
2.4 Méthodes d'évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4.1 Tauxd'égaleerreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4.2 Tauxd'erreur deonane . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.4.3 Entropieroisée normalisée . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.4.4 Coeient de orrélation. . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.4.5 Rappel/ Préision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.4.6 Synthèse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5 Quelques résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.6 Conlusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Chapitre 3 Propositions de nouvelles mesures de onane 3.1 Objetifs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.1 Appliations visées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.1.1 Transriptiond'émissions . . . . . . . . . . . . . . . . . . . . . . 58
3.1.1.2 Transriptionde oursen sallede lasse . . . . . . . . . . . . . . 59
3.1.1.3 Détetion de mots lés . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1.2 Nos mesuresde onane:dansquel but? omment? . . . . . . . . . . . 61
3.1.2.1 Caratéristiquesprinipales denosmesures de onane . . . . . 61
3.1.2.2 Quelstypesde mesures de onane? . . . . . . . . . . . . . . . 62
3.1.2.3 Soure d'informationpouralulerles mesures . . . . . . . . . . 62
3.1.2.4 Mesuresde onaneà quel niveau? . . . . . . . . . . . . . . . . 63
3.2 Mesurestrame-synhrones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2.1 Dénition desmots onurrentsde l'ensemble
E
. . . . . . . . . . . . . . 643.2.2 Gestion desourrenes multiples. . . . . . . . . . . . . . . . . . . . . . . 64
3.2.3 Mesure fondéesurlaprobabilité unigramme . . . . . . . . . . . . . . . . . 65
3.2.4 Introdution de fateursd'éhelle . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.5 Mesure fondéesurlaprobabilité bigramme . . . . . . . . . . . . . . . . . 66
3.2.6 Mesure fondéesurlaprobabilité trigramme . . . . . . . . . . . . . . . . . 67
3.2.7 Implantation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2.7.1 Constrution de l'ensemble