Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole

(1)

HAL Id: tel-01748236

https://hal.univ-lorraine.fr/tel-01748236

Submitted on 29 Mar 2018

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Mesures de confiance trame-synchrones et locales en

reconnaissance automatique de la parole

Joseph Razik

To cite this version:

Joseph Razik. Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la

parole. Autre [cs.OH]. Université Henri Poincaré - Nancy 1, 2007. Français. �NNT : 2007NAN10072�.

�tel-01748236�

(2)

AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le jury de

soutenance et mis à disposition de l'ensemble de la

communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci

implique une obligation de citation et de référencement lors de

l’utilisation de ce document.

D'autre part, toute contrefaçon, plagiat, reproduction illicite

encourt une poursuite pénale.

Contact : [email protected]

LIENS

Code de la Propriété Intellectuelle. articles L 122. 4

Code de la Propriété Intellectuelle. articles L 335.2- L 335.10

http://www.cfcopies.com/V2/leg/leg_droi.php

(3)

D´

epartement de formation doctorale en informatique

Ecole doctorale IAEM Lorraine

´

UFR STMIA

Mesures de confiance trame-synchrones

et locales en reconnaissance

automatique de la parole

TH`

ESE

pr´esent´ee et soutenue publiquement le 9 octobre 2007

pour l’obtention du

Doctorat de l’universit´

e Henri Poincar´

e – Nancy Universit´

e

(sp´

ecialit´

e informatique)

par

Joseph Razik

Composition du jury

Pr´

esident :

Ren´e Schott

Professeur, UHP–LORIA Nancy

Rapporteurs :

Jean-Fran¸cois Bonastre

Maˆıtre de conf´erences (HDR), LIA–CERI Avignon

G´erard Chollet

Directeur de recherche CNRS, ENST–TSI Paris

Examinateurs :

Laurent Besacier

Maˆıtre de conf´erences (HDR), CLIPS–IMAG Grenoble

Jean-Paul Haton

Professeur, UHP–LORIA Nancy (Directeur)

Odile Mella

Maˆıtre de conf´erences, UHP–LORIA Nancy (Co-directrice)

(4)

(5)

Mes remer iements vont prin ipalement aux personnes dont les noms sont dans lagrille i-dessous.

Je remer ie les diérentes personnes obayes qui ont bien voulu prendre sur leur temps et parti iperà l'expérien ede ompréhensionde texte.

Jeremer ieégalement tous euxquej'aioubliésainsiquetous euxquiliront esquelqueslignes etlespages quisuivent.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

(6)

3. Cons ien ieuse etprofessionnelle,très (trop) impliquée,attention ausurmenage 7. Ca nesert à riende regarderdansl'équipe siVézeliseestpassée en L1

8. Toujours prêtà aider, ommesonnom l'indique 10. Femme auvolant...

11. Petit meusiendeviendra Do teur 13. Sanseux, je ne seraispaslà

14. Ilestétonnantd'avoirétédanslemême petit ollègeave une annéed'é artpuis nale-ment de nese onnaître qu'une vingtaine d'années plustard

16. Ungranddadetqui parle tropfort

17. Mon guideà Pékin etaussiun peu dansla ulture hinoise 21. Ona quandmême fait debellesparties deping-pong

22. Maisqu'est e que 'est que ette histoire depouetetde anards?! 25. Mon...Mon...Mon...Monster Kill

27. Tout unentourage sympathique eta ueillant, presqueune famille 28. Unpeutrop han eux, même àlaxbox

29. Paris,la apitale, latourEieletl'ENST

Verti al

1. Je n'ai toujours paslesa ents,même en HTML!

2. Tout lemondene sortpas indemne d'unstagede headshot 4. Le vendredi e n'est paslapeinede le her her, 'estgolf! 5. N46

6. Mister CVS

9. Un jour iloubliera satêteen plusde sonportable,sonportefeuille, ses lés ...

12. Faire desbalades en forêt ave un violon, e n'est pas pratique,mais pour attraper des truites, e n'est vraiment paspratique

15. Lavie peut-elleêtre modélisée par unpro essusMarkovien? 18. Lemaître del'enfumage

19. La hartreuse, ça nevaut paslamirabelle maisil faut faireave lesmoyensdubord 20. Studiomobileave vuesur leLoria

23. Ellepourraitparler plusfort quandelle ditau revoir 24. Quelleidée de uisiner de laviande ave du o a! 26. It'sthe FinalCountdown

Remarque

Etant l'auteur des dénitions, leur ontexte m'est propre et il n'est pas for ément aisé de trouverles noms.Aussilagrille réponseestdonnéeen annexe A.4.

(7)

(8)

(9)

Introdu tion générale xv

Chapitre 1

Ar hite ture d'un système de re onnaissan e automatique de la parole 1

1.1 Introdu tion . . . 2

1.2 Ar hite tured'unsystème dere onnaissan e . . . 2

1.3 Paramétrisation dusignal . . . 3

1.3.1 Les paramètres MFCC . . . 4

1.4 Modélisationde laparole Modélisationa oustique . . . 5

1.4.1 Modèles de Markov a hés . . . 5

1.4.2 Apprentissage desmodèles deMarkov a hés . . . 6

1.4.2.1 L'algorithme de Baum etWel h . . . 7

1.4.2.2 La méthodeforward . . . 9

1.4.2.3 La méthodeba kward . . . 9

1.5 Lexique etmodèle de langage . . . 10

1.5.1 Lexique . . . 10

1.5.2 Modèle delangage . . . 10

1.6 Prin ipe de fon tionnement d'unmoteur de re onnaissan e. . . 12

1.6.1 L'algorithme deViterbi . . . 13

1.6.1.1 Le prin ipe de Viterbi . . . 13

1.6.1.2 Le prin ipe d'optimalité de Bellman . . . 14

1.6.1.3 L'algorithme de Viterbi . . . 14

1.6.1.4 Algorithme deViterbi dansle asd'une phrase . . . 15

1.6.2 L'algorithme

A

∗

. . . 16 1.6.3 Résultats de lare onnaissan e. . . 18 1.6.3.1 N-meilleures phrases . . . 18 1.6.3.2 Graphe de mots . . . 19 1.6.3.3 Réseau de onfusion . . . 20

(10)

1.7 Con lusion. . . 21

Chapitre 2 Mesures de onan e 2.1 Introdu tion . . . 25

2.2 Exemplesd'appli ations etintérêt desmesures de onan e . . . 26

2.2.1 Re onnaissan ede laparole :trans ription. . . 26

2.2.2 Déte tion desmots horsvo abulaire . . . 27

2.2.3 Déte tion demots lés . . . 27

2.2.4 Dialogue Homme/Ma hine. . . 29

2.2.5 Apprentissage semi-supervisé . . . 29

2.2.6 Adaptation . . . 31

2.3 Mesuresde onan e . . . 31

2.3.1 Critères nonprobabilistes . . . 32

2.3.1.1 Stabilité a oustique . . . 32

2.3.1.2 Densitéd'hypothèses. . . 32

2.3.1.3 Dépendan edesmots . . . 33

2.3.2 Critères relatifs aumodèle delangage . . . 33

2.3.2.1 Le modèlede langage . . . 33

2.3.2.2 Replidu modèle delangage . . . 34

2.3.3 Critères sémantiques etsyntaxiques. . . 35

2.3.3.1 Analysesémantiquelatente . . . 35

2.3.3.2 Informationmutuelle . . . 36

2.3.3.3 Catégoried'unmot . . . 37

2.3.4 Autres ritères empiriques . . . 37

2.3.5 Mesuresfondées surlerapportde vraisemblan e . . . 38

2.3.5.1 Tests d'hypothèse . . . 38

2.3.5.2 Rapportdevraisemblan e . . . 38

2.3.5.3 Modèle /Anti-Modèle . . . 39

2.3.5.4 Modèle générique . . . 39

2.3.5.5 Modèles ompétitifs . . . 40

2.3.6 Mesuresfondées surlesprobabilité a posteriori . . . 41

2.3.6.1 Mesuresfondéessurla listede n-meilleuresphrases. . . 42

2.3.6.2 Mesuresfondéessurlesgraphesdemotsetl'algorithmede forward-ba kward . . . 42

2.3.6.3 Mesurede onan e dusystèmede re onnaissan e Julius . . . . 44

(11)

babilité a posteriori . . . 46

2.3.7 Combinaison demesures de onan e . . . 46

2.3.7.1 Combinaisons de mesuresetd'heuristiques . . . 46

2.3.7.2 Combinaisonde systèmes dere onnaissan e . . . 47

2.4 Méthodes d'évaluation . . . 48

2.4.1 Tauxd'égaleerreur . . . 48

2.4.2 Tauxd'erreur de onan e . . . 50

2.4.3 Entropie roisée normalisée . . . 50

2.4.4 Coe ient de orrélation. . . 51 2.4.5 Rappel/ Pré ision . . . 52 2.4.6 Synthèse. . . 53 2.5 Quelques résultats . . . 53 2.6 Con lusion. . . 54 Chapitre 3 Propositions de nouvelles mesuresde onan e 3.1 Obje tifs. . . 58

3.1.1 Appli ations visées . . . 58

3.1.1.1 Trans ription d'émissions . . . 58

3.1.1.2 Trans ription de oursen sallede lasse . . . 59

3.1.1.3 Déte tion de mots lés . . . 61

3.1.2 Nos mesuresde onan e :dans quelbut? omment? . . . 61

3.1.2.1 Cara téristiques prin ipales denosmesures de onan e . . . 61

3.1.2.2 Quels types demesures de onan e? . . . 62

3.1.2.3 Sour e d'informationpour al ulerles mesures . . . 62

3.1.2.4 Mesuresde onan eà quel niveau? . . . 63

3.2 Mesurestrame-syn hrones . . . 63

3.2.1 Dénition desmots on urrents del'ensemble

E

. . . 64

3.2.2 Gestion deso urren es multiples . . . 64

3.2.3 Mesure fondéesurlaprobabilité unigramme . . . 65

3.2.4 Introdu tion de fa teursd'é helle . . . 66

3.2.5 Mesure fondéesurlaprobabilité bigramme . . . 66

3.2.6 Mesure fondéesurlaprobabilité trigramme . . . 67

3.2.7 Implantation . . . 69

(12)

3.2.7.2 Cal ul des mesures fondées sur les probabilités unigramme,

bi-grammeettrigramme . . . 69

3.3 Mesureslo ales . . . 71

3.3.1 Mesuresfondées surlaprobabilité a posteriori. . . 72

3.3.2 Dénition desvoisinages . . . 73

3.3.3 Introdu tiond'un fa teurde exibilité

η

. . . 73

3.4 Homogénéisation de larépartitiondesvaleursde onan e . . . 74

3.5 Complexitéde nosmesures de onan e . . . 77

3.5.1 Mesurestrame-syn hrones . . . 77 3.5.2 Mesureslo ales . . . 77 3.6 Con lusion. . . 78 Chapitre 4 Conditions expérimentales 4.1 Introdu tion . . . 82

4.2 Moteurde re onnaissan e :Julius . . . 82

4.2.1 La première passede Julius . . . 83

4.2.2 La deuxième passede Julius . . . 83

4.2.3 Optionsde ompilation . . . 84 4.2.4 Le graphede mots . . . 84 4.3 Paramétrisation . . . 85 4.4 Modèlesa oustiques . . . 85 4.4.1 Monophones. . . 85 4.4.2 Triphones . . . 85

4.5 Lexique etmodèlede langage . . . 86

4.5.1 Utilisés onjointement ave lesmodèles monophones . . . 86

4.5.2 Utilisés onjointement ave lesmodèles triphones . . . 86

4.6 Corpusde développement etde test . . . 87

4.7 Complexitéde nosmesures de onan e . . . 87

4.7.1 Mesurestrame-syn hrones . . . 88

4.7.2 Mesureslo ales . . . 88

4.8 Con lusion. . . 88

Chapitre 5 Evaluation des mesures de onan e ave le tauxd'EER 5.1 Introdu tion . . . 90

(13)

5.4 Mesurestrame-syn hrones . . . 92

5.4.1 Mesure fondéesurlaprobabilité unigramme . . . 93

5.4.1.1 Gestion deso urren esmultiples parsommation. . . 94

5.4.2 Mesure fondéesurlaprobabilité bigramme . . . 95

5.4.2.1 Gestion deso urren esmultiples parmaximisation . . . 95

5.4.2.2 Gestion deso urren esmultiples parsommation. . . 96

5.4.2.3 Prédé esseurau sens deViterbi. . . 96

5.4.2.4 Filtragepar les

n

-meilleuresphrases . . . 97

5.4.2.5 Probabilité bigramme seule . . . 98

5.4.2.6 In lusion/ex lusion du mot

w

b

dansl'ensemble

E

b

. . . 99

5.4.2.7 Probabilité bigramme inverse . . . 100

5.4.2.8 Homogénéisation desvaleurs . . . 100

5.4.3 Mesure fondéesurlaprobabilité trigramme . . . 102

5.4.3.1 Probabilité trigramme inverse. . . 104

5.4.4 Synthèse. . . 105

5.5 Mesureslo ales . . . 106

5.5.1 Mesure à voisinagesymétrique . . . 106

5.5.2 Mesure à voisinageasymétrique . . . 108

5.5.3 Homogénéisation desvaleursde onan e . . . 110

5.5.4 Synthèse. . . 112

5.6 Inuen e delataille desmots . . . 113

5.7 Comparaison ave la mesurede onan e intégrée dans le système de re onnais-san e Julius . . . 116

5.8 Evaluation surle orpusde test et on lusion . . . 117

Chapitre 6 Evaluation dans le adre d'appli ations spé iques 6.1 Introdu tion . . . 122

6.2 Appli ation àladéte tion demots lés . . . 122

6.3 Intégrationd'une mesurede onan edanslemoteur dere onnaissan e . . . 125

6.3.1 Méthodologie . . . 125

6.3.2 Expérimentation . . . 126

6.4 Trans riptionde ours ensalle de lasse . . . 129

6.4.1 Présentation du systèmeinitial . . . 129

6.4.2 Utilisation delamesure de onan e . . . 130

(14)

6.5 Con lusion. . . 135

Con lusion et perspe tives 137 Annexe A 145 A.1 Entropie roisée normalisée . . . 145

A.2 Tauxd'erreur de onan e . . . 146

A.3 Inuen ede latailledes mots . . . 146

A.4 Questionnaire pour l'évaluation destrans riptionspourmalentendants . . . 149

Glossaire 151

Bibliographie 153

(15)

1.1 Ar hite tured'un systèmede re onnaissan eautomatique dela parole et des

ap-prentissages né essaires. . . 2

1.2 Etapes de al uldes oe ients epstraux àé helle Mel. . . 4

1.3 Filtres triangulaires àé helle Mel(20 bandes).. . . 4

1.4 HMM gau he-droite àtroisétats. . . 5

1.5 Graphe de Viterbi pour un HMM à 3 états gau he-droite etune séquen e de 10 observations . . . 13

1.6 Exemple d'unextrait de graphean d'illustrerleprin ipe d'optimalité de Bellman. 14 1.7 Exemple d'ungraphe demots . . . 19

1.8 Se ondexemple d'ungraphe demots . . . 20

1.9 Exemple d'unréseau de onfusion . . . 20

2.1 Etapes de réalisation d'un apprentissage semi-supervisé ave l'utilisation d'une mesure de onan e. . . 30

2.2 Exemple d'une ourbe ROC-DET. L'interse tion entre lapremière bisse tri e et la ourbedétermine le point EER. . . 49

3.1 Les 5 positions de la main pour le odage des voyelles phonétiques en Langage Parlé Complété.. . . 59

3.2 Les 8 ongurations dedoigts pour le odage des onsonnes phonétiques en Lan-gage Parlé Complété. . . 60

3.3 Tête odeuse de synthèse développée au Loria pour le projet LABIAO (le son pa en LPC).. . . 60

3.4 Illustration du voisinage pris en ompte pour lamesure de onan e symétrique de paramètre de taille

x

. . . 73

3.5 Illustration duvoisinage pris en ompte pourlamesurede onan easymétrique de paramètre de taille

x

et

y

. . . 73

3.6 Distribution dutaux de mots orre ts etde lavaleurmoyenne de onan epour 20 intervalles de taille identiquepour tous les mots d'un ensemble de graphes de mots.. . . 75

3.7 Distribution dutaux de mots orre ts etde lavaleurmoyenne de onan epour 20 intervalles de taille identique pour les mots faisant partie d'un ensemble de phrases re onnues. . . 76

5.1 CourbeDETdelamesurederéféren efondéesurlaprobabilitéaposterioriglobale

(α = 0, 1)

,

(β = 1)

et

(η = 1)

.EER=22,0% ( orpus de développement). . . 92

5.2 CourbeDETde lamesurede onan efondéesurlaprobabilitéunigramme

(α =

0, 1)

,

(β = 0, 5)

et

(ε = 0, 1)

.EER=37,6% ( orpus de développement). . . 94

(16)

5.3 Distribution du tauxde mots orre ts etde lavaleur moyenne de onan e pour 20 intervalles de taille identique sur le orpus de développement pour la mesure bigramme

(α = 0, 1)

,

(β = 0, 95)

et

(ε = 0, 1)

. . . 101 5.4 Variation du taux d'EER de la mesure de onan e fondée sur la probabilité

trigramme,enfon tiondurapportdesfa teursd'é hellelinguistiqueeta oustique

β/α

(

α = 0, 1

et

ε = 0, 1

). . . 103

5.5 Courbedutauxd'EERde lamesurelo aleàvoisinagesymétriquerelativement à diérentes taillesde voisinage.

(α = 0, 1)

,

(β = 0, 95)

et

(η = 0, 5)

. . . 107 5.6 Taux d'EERde la mesurede onan e lo ale à voisinage asymétrique à taille de

voisinage passévariableettaille de voisinagefuturxe (0,40,60, et84trames) . 109 5.7 Répartition du taux de mots orre ts et de la valeur moyenne de onan e pour

20 intervalles de taille identique sur le orpus de développement pour la mesure lo ale symétriqueave voisinagede 84 trames,

(α = 0, 1)

,

(β = 0, 95)

et

(η = 0, 5)

111 5.8 Répartitiondutauxdemots orre tsetdelavaleurmoyennede onan epour20

intervallesdetailleidentiquesurle orpusdedéveloppementpourlamesurelo ale asymétriquetrame-syn hroneprenanten omptetoutlevoisinagepassé depuisle débutde laphrase,

(α = 0, 1)

,

(β = 0, 95)

et

(η = 0, 5)

. . . 112 5.9 Evolutiondutauxd'EERsuivantlatailleenphonèmes desmots analyséspourla

mesurede référen e. . . 114 5.10 Evolutiondutauxd'EERsuivantlatailleenphonèmes desmots analyséspourla

mesurelo ale symétrique. . . 115 5.11 Evolutiondutauxd'EERsuivantlatailleenphonèmes desmots analyséspourla

mesuretrame-syn hronebigramme dire te . . . 115 5.12 Répartition desmotsde lare onnaissan e pour le orpusde développement selon

leurtaille en phonèmes . . . 116 5.13 Courbe DET de la mesure de onan e intégrée dans Julius ainsi que elles de

la mesure lo ale symétrique ave voisinage de 84 trames et de la mesure trame-syn hronebigramme inverse.. . . 117

6.1 Evolution du nombre de fausses a eptations et du nombre de bons mots lés restant enfon tion du seuilde dé ision( orpus de développement). . . 123 6.2 Evolution du nombre de fausses a eptations et du nombre de bons mots lés

restant enfon tion du seuilde dé ision( orpus de test). . . 124 6.3 Distributiondutauxdemots orre tsenfon tiondelavaleurmoyennede onan e

pour 20 intervalles detaille identiquesurle orpus utilisé dansle adrede la me-surebigramme intégrée dansle moteur dere onnaissan e. . . 127 6.4 Tête odeuse de synthèse développée au Loria pour le projet LABIAO (le son

paen LPC).. . . 129

A.1 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour lamesurede référen e . . . 147 A.2 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour

lamesurelo ale symétrique . . . 148 A.3 Evolution des taux d'EERsuivant la taille en phonèmes des mots analysés pour

(17)

1.1 Exemple de listedes5 meilleures phrasesissuesd'unsystème dere onnaissan e. . 18

2.1 Résultats obtenus par diérentes mesures de onan esurdiérents orpus. . . . 54

5.1 Tauxd'EERdelamesurederéféren efondéesurlaprobabilitéaposterioriglobale al ulée sur la phrase omplète ave diérents fa teurs d'é helle et fa teur de exibilité ( orpus de développement). . . 92 5.2 Tauxd'EERobtenusparlamesurede onan eunigrammeave diérentsfa teurs

d'é helle etde relâ hement ( orpus de développement). . . 93 5.3 Taux d'EER des mesures de onan e unigramme ave gestion des o urren es

multiples par maximisation etsommationave diérents fa teursd'é helle et

ε =

0, 1

( orpusde développement). . . 94 5.4 Tauxd'EERobtenusparlamesurede onan ebigrammeave gestionpar

maxi-misation pour diérents fa teurs d'é helle et de relâ hement ( orpus de dévelop-pement). . . 95 5.5 Taux d'EER des mesures de onan e bigramme ave gestion des o urren es

multiples par maximisation etsommationave diérents fa teursd'é helle et

ε =

0, 1

( orpusde développement). . . 96 5.6 Taux d'EER des mesures de onan e bigramme ave gestion par maximisation

et ave pré édents temporels dire ts ou ave pré édent au sens de Viterbi ave diérentsfa teursd'é helle,

ε = 0, 1

( orpus dedéveloppement). . . 97 5.7 Tauxd'EERde lamesurebigramme ave etsansltragedesmotspré édentspar

les

n

-meilleuresphrases,

(α = 0, 1)

,

(β = 0, 95)

( orpus de développement). . . 98 5.8 Tauxd'EERdelamesurede onan ebigramme ave prédé esseurstemporelsou

de Viterbi etave ou sansprobabilité unigramme.. . . 99 5.9 Tauxd'EERdesmesuresde onan e bigramme,mesuresin luantou ex luant

w

b

del'ensemble

E

b

ave diérentsfa teursd'é helle,

ε = 0, 1

( orpusdedéveloppement). 99 5.10 Tauxd'EERdesmesuresde onan efondéesurlaprobabilitébigrammedire te

etinverseave diérents fa teursd'é helle,

ε = 0, 1

( orpus de développement). . 100 5.11 Taux d'EER des mesures de onan e bigramme ave gestion par maximisation

ettouslespré édentstemporelsdire ts, ave etsanshomogénéisation desvaleurs de onan e ave diérentsfa teursd'é helle,

ε = 0, 1

( orpus dedéveloppement). 102 5.12 Tauxd'EER de omparaison de la mesurede onan e fondéesur la probabilité

trigramme etde saversionmodiée,

ε = 0, 1

( orpus de développement). . . 104 5.13 Tauxd'EERdesmesuresde onan efondéesurlaprobabilitétrigrammedire te

(18)

5.14 Taux d'EER obtenus par lamesure de onan e lo ale fondée sur la probabilité a posteriori ave un voisinage symétrique de 84 trames, pour diérents fa teurs d'é helle etde relâ hement ( orpus de développement). . . 107 5.15 Synthèsedesrésultatsobtenusparnosmesuresde onan eainsiqueparlamesure

deréféren e sur orpus dedéveloppement entaux d'EERetsurle orpus detest entaux de faussesalarmes (FA),taux defaux rejets(FR)etde CER. . . 119

6.1 Listedes33 mots lés. . . 122 6.2 Tauxd'erreurenmots àlandelapremièrepassesuivantdiérentesintégrations

dela valeur de onan e.. . . 128 6.3 Tauxd'erreurenmotsàlandeladeuxièmepassesuivantdiérentesintégrations

de lavaleur de onan e.. . . 128 6.4 Exemple desvaleursde onan e desmots d'unephrase. . . 130 6.5 Tauxd'erreurenmotssurlespartiesretrans ritesdestextessuivantlesdiérentes

modalités. . . 134 6.6 Taux deréponse auxquestionsdestextes selonles diérentes modalités. . . 135

(19)

Au ommen ementétait la parole(Jean 1 :1-5).

Que esoitsouslaformedegrognements ommenosan êtresprimitifs,ousousuneformeplus évoluéeet omplexeànotreère,lelangageetla ommuni ationtiennentunepla eprépondérante dans la so iété humaine. Depuis es temps immémoriaux, la parole a toujours été le support majeur d'expression des êtres humains. Grâ e à la voix, les personnes peuvent partager des informations, dialoguer, exprimer des sentiments, et . Bien que tout être humain soit apable des'exprimer par laparole depuisdes millénaires, lesmé anismes asso iés àlaprodu tion ou à l'a quisition delaparole sont omplexesetne sont pasen ore totalement maîtrisés.

La produ tion d'un sonest lerésultat d'une ombinaison de nombreuses intera tions mé a-niques et physiologiques qui vont inuen er ses ara téristiques a oustiques. Par exemple, un homme, une femme, ou un enfant auront une fréquen e fondamentale diérente et don le son émisseralui même diérent.Des ara téristiquesplus subtiles sontégalement transmises viala parole.Parexemple, ommentexpliquerlefaitquenouspuissionssavoirave unequasi ertitude qu'unepersonne parleau téléphoneen souriant?

Cette omplexitéauniveaudelaprodu tiondusonamèneégalementdenombreuses di ul-tésauniveaudel'a quisition dulangage etde sa ompréhension. Depuisleurplusjeune âge,les enfants é outent les adultes parler, tentent de reproduire tant bien quemal e qu'ilsentendent maiségalement essaient de donner unsens à e ot sonore. Pour ela plusieurs étapes sont né- essaires:segmenterla phraseen mots,les re onnaître,analyser leur signi ationetnalement omprendrelaphrase.

L'intelligen e arti ielle voudrait pouvoir réaliser es étapes qu'ee tuent quotidiennement leshumains,etmême les enfants,par lebiaisd'une ma hine, d'unpro essusautomatique. Ave lesdébutsdesenregistrementssonoresdevoixoudemusique,denombreusespersonnesonttenté d'analyser, de retrouver sur es tra es de voix e qui avait été pronon é. Trouver le se ret qui permet de distinguer un a d'uno. Les premièresexpérien es peuvent apparaître de nos jours omme très grossières,voireinimaginables, maisune grande partie des onnaissan ess sur laprodu tionetl'analyse de laparolevient de esétudes dusignal brut.

Puis des personnes de tous horizons, her heurs ou auteurs, ont ommen é à imaginer des appli ations asso iées à la re onnaissan e de es sons. Ave l'utilisation grandissante des ordi-nateurs et l'idée d'une intelligen e arti ielle, la s ien e tion a souvent donné des exemples d'appli ationde lare onnaissan e vo ale par desma hines,des ordinateurs.

Par exemple des robots serviteurs ommandés à la voix : mé ani iens ou tradu teurs dans ununivers futuriste ommeStar Wars. Ou bien, dansun ontexte plus ontemporain l'exemple d'unevoitureéquipéed'unordinateur apablededialogueretdemontrerun omportementquasi humain.Cettevisiond'unesimplevoiture quipuisseàlafois omprendre, s'exprimeretmêmese omporter ommeun être humain,laisse dansl'esprit du publi l'idée que ette te hnologie est

(20)

presqueexistantealorsque elaesten oreunobje tifdi ileàatteindrepourles her heurs en intelligen earti ielle.

Depuisplusieurs annéesnouspouvons ommanderoralement unordinateur, pour destâ hes simples,ave undialoguestri tementdire tifetlimité;desappli ationsdedi téevo aleexistent; desappli ations de type renseignements téléphoniques voient le jour,a eptant divers s énarios de dialogue, plus ou moins exibles. Toutefois nous sommes en ore très loin des rêves des au-teurs de s ien e tion. En eet, les appli ations itées pré édemment existent mais ave des onditions d'utilisation extrêmement restri tives : vo abulaire limité, généralement une seule languetraitée, onditionsd'utilisationoptimales,importantesensibilitéauxbruits,longuephase d'apprentissage,et .

A tuellement, lebut de lare her he en re onnaissan eautomatique estde onsidérer toutes eslimitationsd'utilisation,delesdépasseretde omprendredemieuxenmieuxlesmé anismes liésà laparole (produ tion,per eption, ompréhension).

Parler à une ma hine et voir elle- i retrans rire mot pour mot e qui a été pronon é pré-sente un té magique et fas inant. Les appli ations de di tée vo ale ou plus généralement de trans riptiond'undo ument sonore,ont ommeobje tifdefournir sousforme detextelaparole ontenue dans le signal audio traité. Cette tâ he est une des plus di iles du domaine de la re onnaissan e automatiquede laparole.

Lespremierssystèmes dere onnaissan e netraitaient quedesmots isolés,puis,lapuissan e des ordinateurs augmentant, le traitement de phrases entières a été envisagé. Cependant, la modélisation de la grammaire d'une langue naturelle est di ile voire impossible, ar elle- i a évolué au ours du temps, ave des modi ations, des simpli ations, des habitudes qui ne suiventpasfor ément lesrèglesdelalangue. Deplus, haquerègle n'a-t-ellepassonex eption? Ainsiles premiers systèmes traitant desphrasesétaient fondés sur une modélisationlimitée delalanguedesortequelelo uteurn'avaitquepeude hoix danslesphrasesqu'ilétaitautorisé à pronon er.

A l'heure a tuelle, les systèmes de re onnaissan e automatique de la parole a eptent des onditions d'utilisation de moins en moins ontraintes, plus pro he des onditions d'utilisation ren ontrées danslaréalité.Celaimpliquede prendreen ompte desphénomènesdeplusenplus omplexes omme lebruit,lestours de parole,lalangue utilisée, lalanguematernelle, et .

Plus les onditions expérimentales sont di iles etplus le système est à même de faire des erreurs. L'in iden e de es erreurs peut être plus ou moins importante : une erreur d'a ord grammati al impliquetrès rarementune mauvaise ompréhension, equiestsouventle aspour un mottotalement malre onnun'ayant au un sens ave le ontexte.

Plusieurs dire tionssont envisageables an d'éviter eserreurs :

anerles diérents modèles mis enjeu danslepro essusde re onnaissan e,

explorer de nouvelles dire tions de re her he an de trouver des modèles plus robustes (paramétrisation, lassieur, et ),

utiliserd'autres informations ande orriger ou déte terles erreurs potentiellement om-mises(débruitage, mesuresde onan e).

Con ernant edernierpoint,ilseraitintéressantdedénirdesindi essupplémentaires,autres que le résultat de la re onnaissan e, an d'estimer la qualité de la phrase re onnue, puis de prendre en ompte es indi es an d'ee tuer soit des orre tions, soit desalertes. Lesmesures de onan eremplissent e rle.L'obje tif d'unemesurede onan e estde pouvoirestimer au mieuxla probabilité qu'une phraseou qu'undes mots re onnus soit juste.

Con evoirdesmesuresde onan eestuneproblématiquedi ileapparueenre onnaissan e automatique de la parole depuis une dizaine d'années. En eet, hoisir et réer une mesure de

(21)

bonne e a ité, les résultats on rets sont souvent insusants pour être exploités dans des appli ations. Toutefois dans plusieurs situations les mesures de onan e apportent réellement une onnaissan e supplémentaire, notamment pour les tâ hes d'a eptation/rejet d'hypothèses (dialogues homme/ma hine, déte tion de mots lés), de séle tions de données (apprentissage semi-supervisé)etplusgénéralement dansles tâ hesde trans ription.

Dans ette thèse nous nous sommes intéressé aux mesures de onan e dans le adre des appli ationsdere onnaissan edelaparolegrandvo abulaireetàux ontinu.Noussouhaitions dénirdesmesuresde onan epouvantêtre al ulées sansattendre quelesignal(laphrase) ne soit dé odé dans son intégralité par le système de re onnaissan e. Les appli ations viséessont plusparti ulièrement :

la trans ription d'émissionsradiophoniques à lavolée dans laquellenouspourrons mettre en ouleur lesmots de faible onan e,

latrans ription de oursen sallede lasse pour desélèvessourds ou malentendants, ladéte tion de mots lésà lavolée.

Nous dé rirons en détail es appli ations dans le hapitre 3 de e mémoire. Toutefois, une ara téristiqueimportantede esux,quiserontdé odésàlavolée,estqu'ilssontvirtuellement sans n, à l'opposé des do uments pré-enregistrés. Le fait que la n du ux ne soit pas déter-minéeempê he l'utilisationde méthode oude al ulné essitant la onnaissan e et letraitement dusignaldanssonintégralité.Or a tuellement,bien qu'ilexiste dessystèmesde re onnaissan e apablesde traiter des ux en dire t, peu de mesures de onan e peuvent être al ulées dans es onditions.C'estlaraisonpourlaquellenousavonsdé idédedénirdenouvellesmesures de onan equi sont trame-syn hrones ouqui ne né essitent qu'une partie de laphrase pour pou-voirêtreestimées.Lesmesurestrame-syn hronespermettent de al ulerune valeur de onan e exa tement enmêmetempsqueledé odagedelaphraseestee tuépar lemoteurde re onnais-san e. Les mesures lo ales que nous dénissons utilisent des onnaissan es futures par rapport aumotdont nousvoulons estimer la onan e. Cependant, lapartie futureestde taillelimitée, equi implique simplement un ourtdélai avant de pouvoir al ulerla valeur de onan ed'un mot.

Ce mémoire débute par une présentation de l'ar hite ture générale des systèmes de re on-naissan ea tuels danslaquellenousdé rivons plusparti ulièrement les aspe tsliésau adre de notreétude.

Le hapitre 2 est onsa ré à l'état de l'art. Avant de présenter les prin ipales mesures de onan e introduites en re onnaissan e de la parole, nous montrons leur utilité pour ertaines appli ationsphares de lare onnaissan ede laparole. Ennnous terminons e hapitre par une des riptiondesprin ipalesméthodesd'évaluationdesmesures de onan e.

Le hapitre 3 on erne nos travaux. Après une introdu tion des obje tifs de notre étude, notamment en e qui on erne les appli ations iblées,nousprésentonsles nouvellesmesures de onan equenousavonsdéniesau oursde etteétude:desmesurestrame-syn hroneset des mesureslo ales.

An d'évaluer les performan es de nosmesures de onan e en situation réelle, nousavons déni des onditions d'expérimentation qui sont détaillées dans le hapitre 4 : le moteur de re onnaissan e utilisé, les diérentes modélisations a oustiques et linguistiques hoisies, ainsi queles orpus de développement etde test.

Dansle hapitre5,lesperforman esdesdiérentesmesuresetdeleursvariantessontévaluées selonun ritère indépendant detoute appli ation.

Le hapitre 6,quantàlui,regroupelesexpérimentationsquenousavonsmenéessur ertaines de nosmesures de onan edans le adre de deux appli ationsbien spé iques :une déte tion

(22)

de mots lés et une expérien e qualitative de trans ription de ours pour des enfants sourds ou malentendants. Ce hapitre setermine par la donnée de quelques résultats sur l'intégration d'une mesure trame-syn hrone dans le pro essus de dé odage du système de re onnaissan e. Nous on luons e mémoire par une dis ussion de nos travaux et de leurs résultats et par une présentation desperspe tivesenvisageables.

(23)

Ar hite ture d'un système de

re onnaissan e automatique de la

parole

Sommaire

1.1 Introdu tion . . . 2 1.2 Ar hite tured'un système de re onnaissan e. . . 2 1.3 Paramétrisation du signal . . . 3 1.3.1 LesparamètresMFCC . . . 4 1.4 Modélisation de la parole Modélisation a oustique . . . 5 1.4.1 ModèlesdeMarkov a hés. . . 5 1.4.2 ApprentissagedesmodèlesdeMarkov a hés . . . 6 1.4.2.1 L'algorithmedeBaumet Wel h . . . 7 1.4.2.2 Laméthodeforward . . . 9 1.4.2.3 Laméthodeba kward . . . 9 1.5 Lexiqueetmodèle de langage . . . 10 1.5.1 Lexique . . . 10 1.5.2 Modèledelangage . . . 10 1.6 Prin ipede fon tionnementd'un moteur de re onnaissan e . . . 12 1.6.1 L'algorithmedeViterbi . . . 13 1.6.1.1 Leprin ipedeViterbi . . . 13 1.6.1.2 Leprin iped'optimalitédeBellman . . . 14 1.6.1.3 L'algorithmedeViterbi . . . 14 1.6.1.4 AlgorithmedeViterbidansle asd'unephrase . . . 15 1.6.2 L'algorithme

A

∗

. . . 16 1.6.3 Résultatsdelare onnaissan e . . . 18 1.6.3.1 N-meilleuresphrases. . . 18 1.6.3.2 Graphe demots . . . 19 1.6.3.3 Réseaude onfusion . . . 20 1.7 Con lusion . . . 21

(24)

1.1 Introdu tion

L'obje tifd'unsystèmedere onnaissan eautomatiquedelaparoleestdetrans rirelaparole ontenuedansundo umentsonore donnéenentrée.Latrans riptionseprésentehabituellement sous la forme d'une séquen e de mots. Un dé a tuel est de pouvoir re onnaître de la parole spontanée, utilisant un langage naturel.

Le résultatdélivré par lesystème de re onnaissan e estla solution d'unproblème ombina-toire omplexe. Depuisquelques dé ennies, les systèmes qui permettent d'obtenir les meilleures performan es sontfondés surdesmodélisations statistiques dessonsélémentaires (modélisation a oustique)etdulangage(modèlelinguistiquen-grammes).Lesystèmedere onnaissan efournit alors ommesolution laséquen e de mots laplusprobable orrespondant au segment de parole analysé,en général une phrase.

Parailleurs,lesystèmeoumoteurdere onnaissan en'utilisepasdire tement lesignalsonore brutmaisee tueunpré-traitement dusignaland'enextrairedesparamètres a oustiquesplus robustesetplus dis riminants.

Nous allons don brièvement dé rire dans e hapitre les diérents on epts que sont la paramétrisation, la modélisation a oustique et la modélisation linguistique. En revan he nous détaillerons un peu plus l'algorithme d'apprentissage des modèles a oustiques ainsi que le mo-teurdere onnaissan e;plusparti ulièrementl'algorithmede re onnaissan eetlesstru turesde données asso iées, nostravauxde re her he étant dire tement liésà esderniers éléments.

1.2 Ar hite ture d'un système de re onnaissan e

Pour un segment sonore donné en entrée, un système de re onnaissan e de la parole dé-livre une trans ription é rite de la parole ontenue dans e segment. La gure 1.1 présente les prin ipales étapes d'un système de re onnaissan e. Le pro essus de re onnaissan e né essite la dénition d'une paramétrisation du signal et la fourniture de plusieurs données pré- al ulées : les modèles a oustiques, lelexique et les modèles linguistiques.La onstru tion des modèles et du lexiquené essitedesapprentissagesqui doivent être réalisésau préalable.

Moteur

Modèles

acoustiques

Lexique

Modèle de

Langage

Apprentissage

Corpus

Textuels

Apprentissage

Transcription

Paramétrisation

Corpus

Acoustiques

Reconnaissance

Apprentissage

Fig.1.1Ar hite tured'unsystèmedere onnaissan eautomatiquedelaparole etdes appren-tissagesné essaires.

(25)

Lapremière étape onsisteàtransformerlesignalaudiobrutenparamètres plusrobusteset plusdis riminants.Cesparamètresvontserviràlafoisàla onstru tiondesmodèlesa oustiques et au moteur de re onnaissan e. Au ours de ette étape de paramétrisation, le signal sonore esttoutd'abordé hantillonné.Puis,plusieurstraitementsmathématiquessontappliquéssur es é hantillons an d'obtenir desve teursde paramètres,appelés observations.

La se onde étape représente le ÷ur du système : le moteur de re onnaissan e. Le moteur utilise lesstru turesde données externessuivantes:

desmodèlesa oustiques, un lexique(vo abulaire),

un modèlede langage (grammaire).

Lesmodèles a oustiques sont lareprésentation probabiliste d'unitésélémentaires de parole: phones,phonèmes, syllabesoumots.

Lelexiquedénitl'ensembledesmotsquipourrontêtrere onnus parlesystème.Unmotqui n'est pasdans e vo abulaireprédéni ne pourrajamaisgurer dansun résultat dusystème de re onnaissan e.

Le modèle de langage tente de représenter, par le biais de probabilités, des phénomènes syntaxiquesdelalangue.Lamodélisationgénéralementutiliséeest onstruiteàpartirdel'analyse de séquen es de mots dans un orpus textuel. Trois types d'information sont habituellement estimés : les probabilités d'apparition d'un mot (unigrammes), d'une séquen e de deux mots su essifs(bigrammes) etd'uneséquen e detrois mots(trigrammes).

Lesmodélisationsa oustiques,linguistiquesetlelexiquesont onstruitsaupréalableàpartir d'importants orpus de parole et de texte, distin ts de eux sur lesquels le système sera testé. Une fois es phases d'apprentissage réalisées, le moteur a toutes les données né essaires pour ee tuerlare onnaissan e d'unsignalde parole.

Dans les se tions suivantes, nous dé rivons un peu plus en détails es diérentes étapes préliminairesde paramétrisation, de modélisationainsique lemoteur de re onnaissan e.

1.3 Paramétrisation du signal

La paramétrisation du signal a oustique joue un rle majeur dansle système de re onnais-san e de la parole. Son obje tif est de transposer le signal sonore brut dans un domaine plus robuste etplusdis riminant.C'est-à-dire queles paramètres devront être lesplus indépendants possibles des onditions d'enregistrement, mais aussi permettre de distinguer au maximum les diérentesunités élémentairesde parole entre elles.

Parexemple,diérentesparamétrisationspeuventêtreenvisagéesdansledomainespe tral:le spe tredusignal,lesformants,les oe ientsde odageprédi tiflinéaire (LinearPredi tive Co-dingLPC)[Markel 76 ,Rabiner 78,Hai03℄.D'autreste hniquesproposentd'ajouteraudomaine deparamétrisation des onnaissan esissuesde lapsy ho-a oustiquehumaine.C'est notamment le asdelaprédi tionlinéaire per eptive(Per eptualLinearPredi tionPLP) [Hermansky90℄) oudelatransformation bilinéaireBark(BarkBilinearTransformBBT)[Smith 95 ℄,quitoutes deux se basent sur une résolution non linéaire en fréquen e à l'aide de l'é helle Bark. La pa-ramétrisation la plus largement répandue en re onnaissan e automatique de la parole se situe dansle domaine epstraletutilise les oe ients epstrauxà é helle Melen ore appelésMFCC [Davis80 ℄.Aladiéren edes oe ientsspe traux,l'interprétationdes oe ientsMFCCn'est passimple. Toutefois, eux- i demeurent globalement les plus robusteset les plus performants. Cependant,unenouvelle paramétrisationfondéesurlesondelettessembleavoirunfortpotentiel

(26)

[Deviren03 ℄. Les ondelettes sepla ent dansun domaine temps-fréquen ealors queles paramé-trisations lassiques ne ontiennent plus d'informations temporelles. Mais la mise en pla e des ondelettes estdi ile ar e type de paramétrisationn'est pasen ore susamment maîtrisé.

Quelleque soit la paramétrisation, les dérivées d'ordre multiples desparamètres sont égale-ment asso iéesauxvaleursstatiques andetenir omptede ladynamiquedelaparole. L'évolu-tion desparamètres au ours du temps est souvent une donnéeplus importanteque les valeurs desparamètres eux-mêmes.

Dansle adredenostravaux,notresystèmeserabasésuruneparamétrisationparles epstres à é helle Melasso iés à leurs dérivéespremières etse ondes.

1.3.1 Les paramètres MFCC

Les prin ipales étapes du al ul des oe ients epstraux à é helle Mel (Mel Frequen y Cepstral Coe ient MFCC) sont dé rites Figure 1.2. Le pro essus de al ul ommen e par un dé oupage du signal en fenêtres re ouvrantes, puis les étapes d'obtention des MFCC sont su essivement appliquées à ha une de es fenêtres [Davis80 , Rabiner 93℄. Ces étapes sont : unepré-a entuationanderenfor erleshautesfréquen esduspe tre,l'utilisationdefenêtrede typeHamming,unetransforméedeFourierpourpasserdansledomainespe tral,puisunltrage suivant l'é hellefréquentiellenon linéaireMeldulogarithmedu spe treetennune transformée de Fourier inverse an depasserdansledomaine epstral.

pré-a . Hamming

F F T

Log

FiltreMel

F F T

−1

-

-MFCC signal

Fig. 1.2Etapes de al uldes oe ients epstraux àé helle Mel.

L'é helle Mel, par rapport à une répartition linéaire en fréquen e, tente de reproduire une ara téristique physiologiquedel'oreille humaine. Dessons àunefréquen ede100 Hzet150Hz sont lairement distin tspour tousmaisil nousest quasiment impossiblededistinguer unsonà 4000Hz d'unsonà4050Hz.L'é helle Mels hématise etteper eptionendénissant uneé helle logarithmique de répartition des fréquen es. Une représentation d'un ban de vingtltres Mel est donnéeFigure1.3.

(27)

1.4 Modélisation de la parole Modélisation a oustique

La modélisation a oustique permet au moteur de re onnaissan e de déterminer quelles ont étéles unitésa oustiquespronon ées(phones,phonèmes,syllabes,mots).La littératurepropose plusieursmodélisationspossiblesetparmilesplusfréquentessetrouventlesréseauxdeneurones [Robinson88 ,Robinson 94,Tebelskis95 ℄,lesmodèlesdeMarkov a hésetlesréseauxBayesiens [Rabiner89, Deviren 02℄. Les modèles de Markov a hés (Hidden Markov Model - HMM) ont étéintroduits dansledomaine de lare onnaissan ede laparole depuisdéjà une trentaine d'an-nées[Baker75 ,Jelinek 76 ℄, etlamajeurepartie desmodélisations a tuelles sont fondéessur es modèles. Une telle modélisation probabiliste de la parole peut être étendue par l'intermédiaire de stru tures telles que les HMM multidimensionnels ou en ore par les réseauxBayesiens dont lesmodèles de Markov a héssont un asparti ulier [Mari97, Deviren04 ℄.

1.4.1 Modèles de Markov a hés

Un modèle de Markov a hé peut être dé rit omme un automate probabiliste à

N

états omportantdeuxpro essus:unpro essus a héde hangementd'étatetunpro essusd'émission. Lepro essusde hangement d'étatest a hé ar elui- in'est pasobservable. Cependant, parle pro essusd'émission, latransitiondu modèledansunétatgénèreune observation. Lagure1.4 représente unmodèlede Markov a hé àtrois états.

a

₁₁

_a

22 a

33 a

12 a

23

1

1 b (o )

b (o )

2

3 b (o )

b (o )

2

4

3

6 b (o )

O

1 O

2 O

3 O

4 O

5 O

6

3

5 b (o )

2

1

3

Fig. 1.4 HMMgau he-droite àtroisétats.

La réalisation d'un pro essus de Markov a hé se traduit par l'existen e d'une séquen e

Q = (q

0 , . . . , q

T

)

d'états de l'automate. Le pro essus d'émission du modèle de Markov a hé

asso ie à

Q

une séquen e de

T

observations

O = (o

1 , . . . , o

T

)

. Avant le début du pro essus, le système se trouve dans un état initial

q

0

sans émettre d'observations. Au temps

t

, le HMM ee tue une transition vers l'état

q

t

et émet l'observation

o

t

. Un modèle de Markov a hé est ara térisépar troisparamètres :

π

i

,les probabilitésinitiales, 'est-à-direlaprobabilité d'êtredansl'état

i

de l'automateau temps 0,

π

i

= P (q

0 = i),

∀i ∈ {1, N }

A = ((a

ij

))

,lamatri edetransitionentrelesétats del'automate;

a

ij

représentela

proba-bilité de transitionpour allerde l'état

i

àl'état

j

,

(28)

b

i

(o

t

)

,ladistributiondesprobabilitésd'émissiondel'observation

o

t

àl'état

i

del'automate,

b

i

(o

t

) = P (o

t

|q

t

= i),

∀i ∈ {1, N }, ∀t ∈ {1, T }.

Pour haque état, la probabilité d'émission représente la probabilité qu'un état de l'auto-mate ait généré une observation parti ulière. Cette probabilité d'émission de l'observation est généralement modélisée par une sommepondérée de

G

fon tionsde densitégaussienne

N (µ, Σ)

(GaussianMixture Model - GMM)d'espéran e

µ

etde matri e de ovarian e

Σ

.Laprobabilité d'observation estalors dénie par l'équationsuivante :

b

i

(o

t

) =

G

X

k=1

c

ik

N (o

t

, µ

ik

, Σ

ik

),

G

X

k=1

c

ik

= 1

(1.1)

haque gaussienneayant unedensité deprobabilité ontinue égaleà

1 q

(2π)

D

_det(Σ)

exp(−

1

2 t

_(o

t

− µ)Σ

−1

(o

t

− µ))

pour laquelle

o

t

représente le ve teurd'observationà

D

omposantes,

µ

leve teur moyen de lagaussienne,et

Σ

la matri ede ovarian e.

Lamatri edetransitiondénitlatopologie del'automatedumodèledeMarkov a hé.Dans l'exemple de la gure 1.4, le modèle à 3 états possède des transitions gau he-droite entre les étatsainsiquedestransitionsdebou lage.Cetype demodélisationestemployé pour dénirdes modèlesdephonèmes.Dans esmodèles,lestransitionssontgau he-droite (pasderetourarrière possible)pour essayer de représenter l'évolution a oustique d'un phonème au ours du temps : ledébutdu phonème,sapartie entrale etlan duphonème.

LamodélisationHMMpeutêtreappliquéede plusieursmanières pourtraiter le asdessons d'unelangue.Laplussimpleestdefaireautant demodèlesquedephonèmes.Lesmodèles repré-senteront equ'onappelledesmonophones.Cependant,ilestpossiblede hoisirunemodélisation plus ne en tenant ompte du ontexte a oustiqueentourant le phonème. Ainsi, un modèle ne dénit plusun phonèmemaisune réalisationparti ulière de e phonème,dépendanteduou des phonèmes lepré édant etde eluiou eux luisu édant.Ce sont lesn-phones.

Les modèles a oustiques, qu'ils soient monophones ou n-phones, sont appris sur un orpus a oustique ontenant desexemplesde parole et leurtrans ription phonétique. Le passage à des modèles n-phones augmente fortement le nombre de modèles à apprendre et en même temps diminue fortement le nombre d'o urren es de ha un d'eux dans le orpus d'apprentissage. Des méthodes ont alors été développées an de limiter l'impa t du manque d'exemples pour l'apprentissage des modèles. Une possibilité onsiste à dénir un ensemble xe de gaussiennes qui seront partagéespar les diérents modèles oupar les états desmodèles [Lee00 ℄.

1.4.2 Apprentissage des modèles de Markov a hés

La phase de onstru tion d'unmodèle est le point ru ial de tout système. L'apprentissage revêtdon unegrandeimportan e.Lesmodèlesa oustiquesné essitent unimportant orpus so-noretrans ritdeplusieurs entainesd'heures.Unetrans riptionphonétiqueestasso iéeà haque é hantillon sonore de sorte qu'au nal haque modèle possède desreprésentants dansle orpus. Unefoisl'ensembledesdonnéesprêt,laphased'apprentissagedesmodèless'ee tue.Nousallons dé rire dans ette se tion l'algorithme ommunément utilisé dans la phase d'apprentissage des modèles de Markov a héspour lare onnaissan ede laparole.

(29)

A partir d'exemples dont nous onnaissons à lafois laséquen e des modèles etla séquen e d'observations engendrée, noussouhaitons déterminer les paramètres dénissant les modèles de Markov a hésde haque unité phonétique. Ilnous fautdon estimer pour haque modèle :

les probabilités initiales

π

i

, les probabilités detransition

a

ij

,

les probabilités d'émissions

b

i

(o

t

)

qui sont ara tériséespar :

•

lesmoyennes

µ

i

,

•

lesmatri esde ovarian es

Σ

i

,

•

les oe ients dumélangede gaussiennes

c

i

.

Dans le adre modèles de Markov a hés, la méthode ommunément utilisée repose sur le ritèredumaximumdevraisemblan e(MaximumLikelihoodML).Toutefois,d'autresméthodes ontétédéveloppées,parexemplelate hniqued'apprentissagedis riminantfondéesurle ritèredu maximumd'information mutuelle(MaximumMutualInformationMMI). Soit

λ = (π

i

, a

ij

, b

i

)

les paramètres dénissant un modèle HMM, nous devons d'après le ritère du maximum de vraisemblan e,trouverun modèle

Λ

quimaximise

P (O|λ)

.

Λ = arg max

λ

P (O|λ)

Or,il n'existepasde méthodedire te pour résoudre e problème demaximisation de

Λ

. 1.4.2.1 L'algorithme de Baum et Wel h

Baum a eul'idée d'introduire d'autresfon tions redénissant leproblème de re her he d'un système

λ

. Puis il a dé rit un algorithme permettant l'estimation des nouveaux modèles de manièreitérative [Baum70℄.

Soit

p

unefon tionpositive,et

P (λ) =

R

p(q, λ)dq

,nouspouvonsalorsintroduireunefon tion

auxiliaire

Q

:

Q(λ, λ

′

) =

1 P (λ)

Z

p(q, λ) log p(q, λ

′

)dq

Bauma démontré d'unepartlapropriété suivante:

Q(λ, λ

′

) − Q(λ, λ) ≤ log P (λ

′

) − log P (λ)

etd'autre partqu'en dénissant lafon tion

T

ainsi:

T (λ) = arg max

λ

′

Q(λ, λ

′

₎

nousavonsalors l'inégalité suivante :

P (T (λ)) ≥ P (λ).

L'algorithme de Baum et Wel h onsiste à trouver un nouveau modèle

λ

′

qui maximise

Q(λ, λ

′

)

.Cetalgorithmeestitératifet ommen eparunjeudeparamètresarbitraires

λ

0

.Ensuite,

nous her hons

λ

1

quimaximise

Q(λ

0 , λ)

,puis

λ

2

quimaximise

Q(λ

1 , λ)

,etainsidesuite.Nous avons, de plus, lapropriété

P (λ

2 ) ≥ P (λ

1 ) ≥ P (λ

0 )

.

Il faut trouver maintenant uneméthode pour maximiserlafon tion

Q

. Dansle as desmodèles de Markov onsidérés,

P (λ)

s'é rit :

P (λ) =

X

q∈Ξ

π

q

0 T

Y

t=1

a

q

t−1

q

t

b

q

t

(o

t

)

(30)

Ξ

étant l'ensemble des hemins possiblespour unHMM gau he-droit.

Dans e as

Q(λ, λ

′

₎

peutseréé rire sous laformed'une sommede troistermes:

Q(λ, λ

′

) = A(π

i

) + B(a

ij

) + C(b

i

).

Ainsi, maximiser

Q(λ, λ

′

₎

revient à maximiser les trois termes séparément. Or, la topologie de nos modèles for e les valeurs des

π

i

, ar nous ommençons obligatoirement par le premier état du modèle. Les

π

i

sont don onstants. La maximisation des termes

B

et

C

onduisent à des formules de ré-estimationpourles probabilitésd'observationetde transition.Nousdonnons es formules pour desprobabilitésd'observationmonogaussiennes.

Aussi,pour les probabilités detransition

a

′

ij

etpour une loigaussienne

N (µ

′

k

, Σ

′

k

)

à l'état

k

dumodèle

λ

′

,ilfaut exprimerlesquantités

µ

′

k

,

Σ

′

k

et

a

′

ij

en fon tiondu modèle

λ

.Ces é ritures n'étant pasimmédiates,il estné essaired'introduire denouvellesvariables

γ

et

ξ

,puis

α

et

β

. Les probabilités d'observation

Lesformulesderé-estimationdesprobabilitésd'observationpouruneloigaussienne

N (µ

′

k

, Σ

′

k

)

du nouveau modèle

λ

′

sontdé rites par les équationssuivantes:

µ

′

_k

=

nb de f ois `

a l

′

_{etat k et observation de o}

_´

t

nb de f ois `

a l

′

_´

_{etat k}

=

T

P

t=1

γ

t

(k)o

t

T

P

t=1

γ

t

(k)

Σ

′

_k

=

T

P

t=1

γ

t

(j)(o

t

− µ

j

)(o

t

− µ

j

)

T

P

t=1

γ

t

(j)

γ

étantlaprobabilité a posterioride s'êtretrouvéà l'état

i

àl'instant

t

onnaissantlaséquen e d'observations etle modèle:

γ

t

(i) = P (q

t

= i|O, λ)

Les probabilités de transition

Lesvaleursdes probabilitésde transitionsont :

a

′

_ij

=

nb de transitions ij

nb trans. sortantes de i

=

T

P

t=1

ξ

t

(i, j)

T

P

t=1

ξ

t

(i)

ξ

étant la probabilité de s'être trouvé à l'état

i

à l'instant

t

, et à l'état

j

à l'instant

t + 1

onnaissant la séquen ed'observations et

λ

:

(31)

Hélas, le problème est simplement reporté sur deuxnouvelles in onnues,

γ

et

ξ

. Il est alors possible d'introduirede nouveau deuxvariables supplémentaires :

soit

α

t

(i) = P (o

1 . . . o

t

, q

t

= i|λ)

,la probabilité d'observer laséquen e

o

1 . . . o

t

etd'être à

l'état

i

àl'instant

t

sa hant le modèle

λ

.

soitégalement

β

t

(i) = P (o

t+1

. . . o

T

|q

t

= i, λ)

,laprobabilitéd'observerlaséquen e

o

t+1

. . . o

T

sa hant

λ

,etd'être àl'état

i

autemps

t

.

Les valeurs de

γ

et

ξ

peuvent s'exprimer en fon tion de

α

et

β

. Nous obtenons alors les équationssuivantes:

γ

t

(i) =

α

t

(i)β

t

(i)

N

P

i=1

α

t

(i)β

t

(i)

ξ

t

(i, j) =

α

t

(i)a

ij

b

j

(o

t+1

)β

t+1

(j)

N

P

i=1

N

P

j=1

α

t

(i)a

ij

b

j

(o

t+1

)β

t+1

(j)

Par l'introdu tion de nouvelles in onnues

α

et

β

, Baum et Wel h reformulent la dénition desin onnues

γ

et

ξ

.Toutefois,Il està présent lapossibilitéde al uler esnouvelles in onnues àpartirdes probabilitésd'observationet destransitions initialesdu modèle

λ

par les méthodes forward etba kward.

1.4.2.2 La méthode forward

Eneet,ilestpossible de al uler

α

parré urren e ar haque étapede al ulautemps

t

ne né essitequeles observations des tempspré édents. Voi i ladénitionde ette ré urren e:

Initialisation :

α

1 (i) = π

i

b

i

(o

1 )

Ré urren e :

α

t+1

(j) =

h

_X

N

i=1

α

t

(i)a

ij

i

b

j

(o

t+1

)

Deplus, nousavonslapropriété suivante :

P (O|λ) =

N

X

i=1

P (O, q

T

= i|λ) =

N

X

i=1

α

T

(i)

1.4.2.3 La méthode ba kward

De même que pour

α

, il est possible de al uler

β

par ré urren e. Par ontre, dans le as de

β

, les al uls à l'étape de temps

t

ont besoin des observations des temps suivants. Voi i la dénitionde laré urren ede

β

: Initialisation :

β

T

(i) = 1, 1 ≤ i ≤ N

Ré urren e :

β

t

(i) =

N

X

j=1

a

ij

b

j

(o

t+1

)β

t+1

(j)

(32)

Ces résultatsamènent une propriété intéressante :

P (O|λ) =

N

X

i=1

α

T

(i) =

N

X

i=1

β

1 (i) =

N

X

i=1

α

t

(i)β

t

(i).

Dans es deux ré urren es relatives aux valeurs

α

et

β

, au une nouvelle in onnue n'a été introduite,ettoutes lesautres valeursprésentessont dénies,le al ulee tifestdon possible. Il sut d'utiliser les diérentes égalités et in onnues introduites pour obtenir les valeurs de ré-estimation des

a

ij

etdes

b

i

.

Ensuite, nous itérons le pro essus de al ul du système

λ

i

, qui sera au moins aussi bon que le système

λ

i−1

. Le nombre d'itérations réalisées est habituellement déni à une valeur xée de manière arbitraire, ou bien dépend d'un ritère d'arrêt exprimant la stabilisation de la onvergen e desmodèles

λ

i

.

1.5 Lexique et modèle de langage

1.5.1 Lexique

Lesystèmedere onnaissan ené essiteladénitiondel'ensembledesmotsqu'ilseraàmême dere onnaître.Cetensembleestdénommélexiqueouvo abulaire. Unmotn'appartenant pasau lexiquene pourrajamaisêtre présent danslasolution fournie par lesystèmede re onnaissan e. Une façon lassique de onstruire le lexique onsiste à extraire à partir d'un orpus textuel l'ensemble des mots les plus fréquents de e orpus. Pour les systèmes de re onnaissan e dit grand vo abulaire la taille du lexique est de l'ordre de plusieurs dizaines de milliers de mots et le orpus textuel de l'ordre de plusieurs millions de mots (respe tivement 54747 mots et plus de 200 millions de mots dans le adre de nos travaux). En plus de dénir l'ensemble des mots onnus du système,le lexiqueasso ie à haque motsadé omposition enunités phonétiques. Le lexiquedoitégalementtenir omptedesmultiples pronon iationspossiblesd'unmot auséespar desélisionsou desliaisonsentreles mots.

1.5.2 Modèle de langage

Lesmodèlesdelangageontpourobje tifdereprésenterlesloisquirégissentle omportement de la langue. Ainsi, le modèle de langage aide à déterminer si une phrase est valide ou non par rapport à la langue modélisée. S'inspirer des onnaissan es linguistiques est la manière la plusintuitive de onstruire unmodèlede langage.Généralement, les onnaissan eslinguistiques s'expriment pardesrègles dé rivant lastru tured'unephrase.L'avantagede ettemodélisation vient du fait qu'elle dé rit pré isément les onditions de validité, de onstru tion d'une phrase de la langue. Cependant ertains phénomènes restent mal modélisés et de telles onstru tions grammati alesne sont pasenadéquation ave lalangueorale.En eet,enparole spontanée, les règlesde onstru tion desphrasesnesontpassouventrespe téesetainsi etypedemodélisation nevalideraitpassouventlaparolespontanée.Deplus,l'élaboration de esmodèlesné essiteune partimportante d'intervention manuelle, e quine fa ilite guèrel'adaptation delamodélisation auxévolutionsde lalangueou à uneautre langue.

Dans les systèmes de re onnaissan e automatique de la parole, la langue est modélisée par une autre atégorie de modèles de langage, les modèles statistiques. Ces modèles sont appris

(33)

automatiquement sur des orpus textuels de taille importante (plusieurs millions de mots). La modélisation statistique n-grammes est la plus utilisée. Cette modélisation onsiste à estimer, à partir d'un orpus textuel, les probabilités des séquen es de

n

mots. Le prin ipe de base est d'exploiter la fréquen e d'apparition de séquen es de mots et d'en déduire des estimations des probabilités unigrammes(probabilité d'apparition d'unmot), bigrammes (probabilité d'appari-tiond'uneséquen ededeuxmots)etplusgénéralementden-grammes.Le ritère ommunément utilisé pour l'estimation de es diérentes probabilités est le ritère du maximum de vraisem-blan e[Federi o98℄.

Considérant l'ensemble des séquen es de

n

mots possibles à partir du lexique, beau oup n'apparaissent pas dansle orpus d'apprentissage par e qu'elles sont impossibles voire très im-probables pour lelangage onsidéré, omme par exemple le bigramme le maison. Toutefois un nombre non négligeable d'entre elles sont valides au sens du langage mais peuvent ne pas apparaîtredans le orpus d'apprentissage. Aussi,pour laisserune han eà esséquen es d'être re onnues, haqueséquen eden-motsdoitavoiruneprobabiliténonnulle.Diérenteste hniques dites de repli (ba ko) permettent d'estimer la probabilité de es séquen es, même si elles- i n'ont jamaisétéren ontrées dans le orpus[Chen 99℄.

Soit la séquen e de mot

w

1 , w

2 , w

3

, nous dénissons la probabilité trigramme omme la quantité

p(w

3 |w

1 , w

2 )

. L'algorithme 1.1 dé rit le al ul de la probabilité trigramme dire te

p(w

3 |w

1 , w

2 )

dans le as d'unmodèle linguistique intégrant lanotion de repli. Lesmêmes te h-niques sont utilisées dans le al ul de la probabilité bigramme

p(w

2 |w

1 )

(Algo. 1.2). Dans es algorithmes:

p

n

(w

1 , . . . , w

n

)

est l'estimation sur le orpus d'apprentissage de la probabilité n-gramme

p(w

n

|w

1 . . . w

n−1

)

danslemodèle langage,

repli

n−1

(w

1 , . . . , w

n−1

)

est la valeur de repli al ulée par le modèle de langage pour une

séquen e de

n

mots nonren ontrée dansle orpusd'apprentissage.

Lorsqu'une séquen e de

n

mots n'est pas modélisée par le modèle de langage (probabilité n-gramme),unpremier niveaude repliestee tuéen n'utilisant plusque desrelations entre au maximum

n − 1

mots. Ce pro essus peut être appliqué ré ursivement tant qu'une probabilité m-grammen'est pasdéniedansle modèlede langage.

Algorithme 1.1:

si letrigramme

w

1 , w

2 , w

3

existe dans le modèle delangage alors

/* on utilise la valeur donnée par le modèle */

p(w

3 |w

1 , w

2 ) = p

3 (w

1 , w

2 , w

3 )

sinon

/* on utilise un premier niveau de repli */ si lebigramme

w

1 , w

2

existe alors

p(w

3 |w

1 , w

2 ) = repli

2 (w

1 , w

2 ) ∗ p(w

3 |w

2 )

sinon

/* on utilise un deuxième niveau de repli */

p(w

3 |w

1 , w

2 ) = p(w

3 |w

2 )

n n

(34)

pa-Algorithme 1.2:

si le bigramme

w

1 , w

2

existe dans lemodèle de langage alors

p(w

2 |w

1 ) = p

2 (w

1 , w

2 )

sinon

p(w

2 |w

1 ) = repli

1 (w

1 ) ∗ p

1 (w

2 )

n

ramétrisation, ilestégalementpossibled'ajouterdes onnaissan eslinguistiques àunmodèlede langagestatistique. Aussi,destravauxontproposédesmodèles utilisant des lasses syntaxiques ousémantiquesdemotsoudesmodèles sebasant surdestraits ara téristiquestelsquelegenre etlenombre des mots[Brown 92,Brill 98,Rosenfel96 ,Kuhn90, Lave hia 06℄.

1.6 Prin ipe de fon tionnement d'un moteur de re onnaissan e

Nousdé rivonsdans ette se tion le prin ipe de fon tionnement d'un moteur de re onnais-san e fondé surune modélisation a oustiquesto hastique à basede modèles de Markov a hés. Après l'étape de paramétrisation, nous obtenons en entrée du moteur une séquen e

O

de

T

ve teurs d'observation,

O = (o

1 , . . . , o

T

)

.Ee tuer lare onnaissan e d'une phraserevient à dé-terminer la séquen e de mots

W

∗

_{= w}

1 . . . w

n

qui maximise la probabilité que ette séquen e

orresponde à laséquen ed'observations

O

.Ce problèmes'é rit ainsi:

W

∗

= arg max

W

P (W |O)

Cependant, il est di ile voire impossible de al uler dire tement la probabilité

P (W |O)

. Toutefois lethéorèmede Bayespermetde reformuler ette équation ainsi:

W

∗

= arg max

W

P (O|W )P (W )

P (O)

(1.2)

Par ette nouvelle formulation, nousobtenons l'expressiondu problème en fon tion de trois autres probabilités :

P (O|W )

:laprobabilité d'observer laséquen e

O

desobservations sa hant laséquen ede

mots

W

(probabilitéa oustique),

P (W )

:laprobabilité a prioride laséquen e demots

W

(probabilité linguistique),

P (O)

:laprobabilitéde l'observation.

La séquen e d'observations

O

étant xée,

P (O)

ne dépend pas de la séquen e de mots

W

étudiée.L'équation1.2sesimpliealorsenl'équation1.3quinedépendplusquedesprobabilités a oustiques etlinguistiques:

W

∗

= arg max

W

P (O|W )P (W )

(1.3)

Anderésoudre eproblème,ilestdon né essairede al uler

P (W )

et

P (O|W )

pourtoutes les séquen es demots possibles,puis de omparer less ores

P (O|W )P (W )

entreeux.

Sinoussupposons dorénavant que lesséquen es

W

sont uniquement limitées à des modèles de Markov a hés

M

d'un mot, alors :

(35)

P (O|W ) = P (O|M ) = max

q∈Ξ

π

q

0 T

Y

t=1

a

q

t−1

q

t

b

q

t

(o

t

)

(1.4)

Ξ

étant l'ensemble desséquen es d'étatspossibleset

T

lalongueur delaséquen e d'observa-tions.Or, al uler

P (O|M )

dire tementenpar ouranttouteslesséquen esd'étatspossiblespose unproblème d'explosion ombinatoire.En eet,pourun modèle de Markov a hé à

N

états,la omplexitéde e al ulesten

O(T.N

T

₎

.Ilestdon né essaired'introduiredesméthodesplus as-tu ieusespermettantderésoudre eproblèmeengardantune omplexitéraisonnable.Laméthode habituellementutiliséeestl'algorithmedeViterbiquipermetderéduirela omplexitédu al ulen

O(T.N

2 )

[Viterbi67 ,Forney 73 ℄.Cetalgorithme,ousesvariantes,estau ÷urdenombreux

sys-tèmesautomatiquesdere onnaissan edelaparole:Julius[Lee01℄,HTK[Young 94a ℄,Sphinx-4 [Lamere03 ℄,ESPERE[Fohr 00℄,SPIRAL[Linares 05℄,Siro o[Gravier02 ℄,ISIP[Deshmukh 99℄. D'autresalgorithme dere her he de meilleur heminont également été utiliséstels l'algorithme

A

∗

,des algorithmes àpile ou l'algorithme de programmation dynamiqueà deux niveaux (Two-Level Dynami Programming TLDP) [Agbago 04 ℄. Le systèmede re onnaissan e Julius, que nousavons utilisé dans nos expérimentations, est fondé sur un pro essus de re onnaissan e en deux passes : une passe avant utilisant l'algorithme de Viterbi et une passe arrière basée sur l'algorithme

A

∗

.

1.6.1 L'algorithme de Viterbi

1.6.1.1 Le prin ipe de Viterbi

Nous her hons i i à déterminer la séquen e d'états maximisant

P (O|M )

. Le système à résoudrepeutsereprésentersous laformed'ungrapheàdeux dimensions:laséquen e d'obser-vations en abs isse,lemodèle

M

en ordonnée.

LaFigure1.5représente untelgraphepourunexempled'uneséquen ede10observationset unmodèledeMarkov a héàtroisétatsàtopologiedetransitiongau he-droite.Dans egraphe, unn÷udreprésenteunétat