Détection de mots clés dans un flux de parole

(1)

HAL Id: tel-00005753

https://pastel.archives-ouvertes.fr/tel-00005753

Submitted on 5 Apr 2004

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Yassine Ben Ayed

To cite this version:

Yassine Ben Ayed. Détection de mots clés dans un flux de parole. Interface homme-machine [cs.HC].

Télécom ParisTech, 2003. Français. �tel-00005753�

(2)

ENST

Detection de mots cles dans un ux de

parole

TH ESE

presentee etsoutenue publiquementle23 decembre2003

pourl'obtention du

Doctorat de l'Ecole Nationale Superieure des Telecommunications

(Specialite : Signal et Images)

par

Yassine BEN AYED

Composition du jury

President : Rene Carre Directeur de recherche ENST, LTCI-CNRS

Rapporteurs : Regine Andre-Obrecht ProfesseurUniversite Paul Sabatier

RenatoDeMori ProfesseurUniversite d'Avignon

Examinateurs : Gerard CholletDirecteur de recherche ENST,LTCI-CNRS

Jean-Paul HatonProfesseur UniversiteHenriPoincare-Nancy1

DominiqueFohrCharge de recherche LORIA-CNRS

DenisJouvetIngenieurFrance Telecom R&D-DIH-IPS

(3)

(4)

La reconnaissanceautomatique delaparole susciteactuellement ungrand intérêt. En

parti-culier, la détection de mots clés qui constitue une branche importante de l'interaction

homme-machine vu le besoin de communiquer avec nos machines d'une façon naturelle et directe en

utilisant laparolespontanée.Cettetechnique consisteà détecterdansune phraseprononcée,les

mots clés caractérisant l'application et de rejeter les mots hors-vocabulaire ainsique les

hésita-tions,lesfaux départs etc.

Le travail que nous présentons dans ce manuscrit s'inscrit dans le cadre de la détection de

motsclésdansunuxdeparole.Toutd'abord,nousproposonsdenouveauxmodèlespoubelles

fondéssurlamodélisationdesmotshors-vocabulaire.Puisnousintroduisonslareconnaissanceà

basede boucle de phonèmes, danslaquellenous appliquons diérentes fonctionsde récompense

favorisant lareconnaissance desmots clés.

Ensuitenousproposonsl'utilisation desmesuresdeconanceandepouvoirprendrela

déci-sionderejeteroud'accepterunmotcléhypothèse.Lesdiérentesmesuresdeconanceproposées

sontbasées surlaprobabilité d'observationacoustiquelocale.Enpremier lieu,nousutilisonsles

moyennes arithmétique, géométrique et harmonique comme mesures de conance pour chaque

mot clé. En second lieu, nous proposons de calculer lamesure de conance en se basant sur la

méthode à basede boucle dephonèmes.

Enn nous présentons le problème de détection comme un problème de classication où

chaque motclépeutappartenir àdeuxclassesdiérentes,à savoircorrect etincorrect. Cette

classication est réalisée en utilisant des Support Vector Machines (SVM) qui constituent une

nouvelle technique d'apprentissage statistique. Chaque mot clé reconnu est représenté par un

vecteur caractéristique qui constitue l'entrée du classieur SVM. Pour déterminer ce vecteur,

nousutilisons laprobabilité d'observation acoustiquelocale et nousintroduisons ensuite la

du-rée de chaque état. An d'améliorer les performances, nous proposons des approches hybrides

combinant les modèles poubellesavec mesurede conanceetmesure deconance avec SVM.

Pour testerles performances del'ensemble de cesmodèles nous utilisonsla basede données

française SPEECHDAT. L'évaluation de tous les résultats a été réalisée en se basant sur les

courbes ROC et les courbes rappel/précision. Les meilleurs résultats ont été obtenus par les

méthodes basées sur l'utilisation des SVM. Les méthodes hybrides nous ont permis aussi de

réaliserdebonnesperformances.

Mots-clés: Reconnaissance de la parole, détection de mots clés, modèle poubelle, mesure de

(5)

The automatic speech recognition currently arouses a great interest. In particular, the

keyword detection whichconstitutes asignicant branchof thehuman-machineinteraction and

which can help us to communicate with our machines in a natural and direct way by using

spontaneousspeech.Thistechniqueconsistsindetectinginapronouncedsentence,thekeywords

characterizing the application and in rejecting out-of-vocabulary words as well as hesitations,

false startsetc.

Theworkpresentedinthisthesisreportdeals withproblemofkeyword detectioninaspeech

ow. First of all, we propose new garbage models founded on the modelling of the

out-of-vocabularywords.Second,weintroducetherecognitionbasedonloopofphonemes,inwhichwe

apply variousreward functionssupporting keyword recognition.

Then we propose to use condence measures in order to make the decision of rejection or

acceptanceofagivenkeyword.Thevariouscondencemeasures usedarebasedonthe

probabil-ityofthelocalacousticobservation.First,weusetheseprobabilitiesto calculatethearithmetic,

geometric and harmonic means as condence measures for each keyword. Second, we propose

some others condencemeasures basedon theloop ofphonemes recognition method.

Finallywe present the problemof detection asa classication problemwhere each keyword

canbelongtotwodierent classes,namelycorrect andincorrect. Thisclassication iscarried

out by using Support Vector Machines (SVM) which constitute a new technique of statistical

training.Eachrecognizedkeywordisrepresentedbyacharacteristicvectorwhichconstitutesthe

entryoftheSVMclassier.Todetermine thisvector,weusetheprobabilityofthelocalacoustic

observationandthenweintroduce thedurationofeach state.Inordertoimprove performances,

we proposehybrid approachescombiningthe garbage models withthecondencemeasures and

thecondence measures withthe SVM.

Totest our models we usetheFrench data baseSPEECHDAT. The evaluationof allresults

was carried out using the ROC and the recall/precision curves. The best results were obtained

by the SVMbasedmethods. Thehybrid methods also enabledus to get goodperformances.

Keywords:Speechrecognition,keyworddetection,garbagemodel,condencemeasure, support

(6)

Remerciements

Mespremiers remerciementss'adressentà mes rapporteurs, MadameRégine André-Obrecht

etMonsieurRenatoDeMori,quiontbienvouluaccepterd'évaluerleprésenttravailetcemalgré

toutes les responsabilités qu'ilsassument. Je les remercie pour letemps qu'ils consacreront à la

lecturede cemémoire etje souhaitequ'ilsytrouvent entièresatisfaction.

Je remercie MonsieurRené Carré pour m'avoir faitl'honneur deprésider monjury de thèse

etpour l'intérêt qu'il aportéà montravail.

Je tiens également à remercierMonsieurDenisJouvetd'avoiraccepté departiciperauJury.

Je le remercie particulièrement pour sa lecture attentive et ses remarques constructives sur le

manuscritainsiquepour sesnombreux etprécieux conseils.

Mesvifsremerciements s'adressent à MonsieurGérard Chollet, monco-directeur de thèse à

l'ENSTquim'afaitl'honneurd'encadrermathèsependantcesannées.J'ainotammentbeaucoup

appréciésescritiques constructives concernant mon travail etlerecul dont ila su fairepreuve.

J'aiétéextrêmementheureuxd'avoirMonsieurJean-PaulHatoncommeco-directeurdethèse

auLORIA.Je leremercie de m'avoirconsacréautant detemps etde m'avoir faitproterdeson

expérience et de son savoir. Je n'oublierais guère son soutien aux moments les plus diciles

durant ces années. Mercibeaucoup!

Un grandmercià MonsieurDominique Fohr pour avoir étéprésent auxinstantsimportants

deprise dedécision ainsiquepour lesdiscussionsrichesetvivesquenousavonseuesdurant ces

troisdernières anneés. Je leremercie aussi pour ses remarques et critiques qui ont contribué à

l'élaboration de ce travail.

Mercià touslesmembresde l'équipeparole ausein duquelce travailfut eectué.Leur

com-pétence etqualité humaine ont grandement facilité montravail.

Un merci particulier à Monsieur Yann Guermeur pour avoir accepté de lire et corriger ce

document.L'aide qu'il m'aapportée fut précieuse.

Mes derniers remerciements mais non les moindres s'adressent à ma femme Salma et à ma

(7)

(8)

Àmon lsAhmad etàmafemme Salma.

(9)

(10)

Table des gures xi

Liste des tableaux xv

Introduction générale 1

1 Reconnaissance Automatique de la Parole (RAP) 5

1.1 Introduction . . . 5

1.2 Le signalde parole . . . 5

1.3 Les dicultésliéesau signalde parole . . . 7

1.4 Extraction desparamètres . . . 7

1.5 Les coecients MFCC . . . 8

1.6 L'approcheprobabiliste de laRAP . . . 10

1.7 Application des HMMà laRAP . . . 12

1.7.1 Introduction . . . 12

1.7.2 Les problèmesfondamentaux desHMMs . . . 13

1.7.3 Problème d'évaluation . . . 14

1.7.4 Problème de décodage . . . 16

1.7.5 Problème d'apprentissage . . . 17

1.7.6 Densitésd'observationcontinues dansles modèles deMarkovcachés . 19 1.8 L'approchephonétique . . . 19 2 Détection de motsclés 23 2.1 Introduction . . . 23 2.2 Modèlepoubelle . . . 25 2.3 Mesure de conance . . . 28 2.3.1 Programmation dynamique . . . 29

2.3.2 Algorithme de Viterbiet de Baum-Welch . . . 31

2.3.3 Utilisationdes tracesd'alignements . . . 32

(11)

2.3.5 Seuil surles scoresdereconnaissance . . . 34

2.3.6 Méthodesd'adaptation . . . 36

2.3.7 Connaissances acoustiquesetlinguistiques. . . 37

2.3.8 Réseauxde neurones. . . 40 2.3.9 Transformations etalgorithmes . . . 42 2.4 Lesapplications . . . 44 2.5 Conclusion . . . 45 3 Classication statistique 47 3.1 Introduction . . . 47 3.2 Le Perceptron Multi-Couches . . . 48 3.2.1 Introduction . . . 48 3.2.2 Perceptron . . . 49 3.2.3 Perceptron Multi-Couches. . . 50

3.3 Théoriede l'apprentissage de Vapnik. . . 54

3.3.2 Minimisation durisque empirique . . . 55

3.3.3 Consistancedu principe de minimisationdu risqueempirique . . . 55

3.3.4 Bornessurlavitessede convergence desprocessusd'apprentissage . . 57

3.3.5 Contrôle de lacapacitéde généralisation desprocessus d'apprentissage 59 3.3.6 Minimisation durisque structurel . . . 60

3.4 Support Vector Machines . . . 61

3.4.2 Cas desdonnéeslinéairement séparables . . . 62

3.4.3 Cas desdonnéesnon-linéairement séparables . . . 65

3.4.4 PrincipesdesSVM. . . 66

3.5 Support vectormachines multi-classes . . . 67

3.5.2 Résolution duproblème multi-classespar desSVM binaires . . . 68

3.5.3 Résolution duproblème SVMmulti-classes par une seuleoptimisation 68 3.6 Conclusion . . . 72

Deuxième partie 75 4 Système de reconnaissance et méthodes d'évaluation 77 4.1 Introduction . . . 77

(12)

4.3 Base de données . . . 78

4.4 Les systèmesd'évaluation . . . 80

4.4.2 Estimation dutaux d'erreur . . . 80

4.4.3 Les CourbesROC :ReceiverOperatingCharacteristic . . . 81

4.4.4 Les mesuresde rappeletde précision . . . 85

4.4.5 Intervalle de conance . . . 88

5 Modèle poubelle 91 5.1 Introduction . . . 91

5.2 Modélisationdesmots . . . 91

5.2.1 État poubelle sansapprentissage . . . 92

5.2.2 Modèlepoubelleavec apprentissage . . . 97

5.2.3 Modèlecombiné . . . 98

5.3 Modèleà basede boucles de phonèmes . . . 101

5.3.2 Méthode à récompense constante . . . 104

5.3.3 Méthode à récompense ane . . . 105

5.3.4 Méthode à récompense sigmoïdale . . . 107

5.4 Conclusion . . . 109

6 Mesure de conance 111 6.1 Introduction . . . 111

6.2 Mesuresde conancebasées sur lesmoyennes desprobabilités a posteriori . . 112

6.2.1 Pré-traitement . . . 112

6.2.2 Mesuresde conance àbasede moyennes . . . 113

6.2.3 Mesuresde conance àbasede moyennes normalisées . . . 115

6.3 Mesuresde conanceà basede bouclede phonèmes . . . 117

6.3.1 Pré-traitement . . . 118

6.3.2 Rapportde vraisemblance. . . 118

6.3.3 Distance de vraisemblance . . . 119

6.4 Modèlehybride. . . 122

6.5 Conclusion . . . 124

7 La classication pour la détection de mots clés 127 7.1 Introduction . . . 127

(13)

7.4 Combinaisondesmesures de conance . . . 129

7.5 Représentation vectorielle desmots . . . 132

7.5.1 Utilisationdesprobabilités d'observations acoustiques locales . . . 132

7.5.2 Utilisationdunombre detrames par état . . . 134

7.5.3 Représentation vectorielle mixte . . . 136

7.6 Classicationmulti-classes pour ladétectionde mots clés . . . 137

7.7 Conclusion . . . 139 Conclusions 141 Perspectives 145 Annexe 147 Publications personnelles 151 Bibliographie 153

(14)

1.1 Mise en formedu signal . . . 8

1.2 Calcul descoecientsMFCC (Mel-Scale Frequency Cepstralcoecients) . . . . 9

1.3 Les composantes principalesdu processusdela reconnaissancede laparole. . . . 10

1.4 L'approche probabilistede lareconnaissance automatiquede laparole . . . 11

1.5 Exemple d'unHMM à troisétats caractérisé par unedistribution de probabilités pour chaque état associé à une observation et par des probabilités de transition entre lesétats. . . 14

1.6 Modèlede phonème àtroisétats . . . 20

1.7 Modèlede diphone . . . 20

1.8 Modèlede triphone . . . 20

1.9 HMM d'unmotobtenu par concaténation de HMMsdephonèmes. . . 21

1.10 HMM d'unephrase obtenupar concaténation de HMMsde mots . . . 21

2.1 Descriptiondusystèmededétectiondemotsclésbasésurl'utilisationd'unréseau de mots clés etdemots poubelles . . . 26

2.2 Réseau parallèle introduisant desmodèles de bruit . . . 26

2.3 Programmation dynamique . . . 29

2.4 Architecturedu réseau deneurone ou . . . 41

3.1 Architectured'unneurone formel . . . 49

3.2 Architectured'unPMC . . . 51

3.3 Modèlegénéral de l'apprentissage statistiqueselon Vapnik . . . 54

3.4 Consistance duprincipe deminimisation durisqueempirique. Risque(R ( m ))et risque empirique (R emp ( m )) en fonction du nombre de points d'apprentissage, (InfR ())est lerisque minimal. . . 56

3.5 Consistance du principe de minimisation du risque empirique. Risque (R ()), risqueminimal(InfR ())etrisqueempirique(R emp ())enfonctiondelacapacité du modèle pour unensemble d'apprentissage xe. . . 59

3.6 Comportementdurisqueempirique,del'intervalledeconanceetdurisquegaranti en fonction de laVC-dimension. . . 60

3.7 Principe desSVM . . . 61

3.8 Hyperplans séparateurs : H est un hyperplan quelconque, H O est l' hyperplan optimal, VS:sont les Vecteurs Support. . . 62

3.9 Hyperplans séparateurs dans le cas de données non-linéairement séparables : H est un hyperplan quelconque, H O est l'hyperplan optimal, VS :sont les Vecteurs Support. . . 65

(15)

3.10 La décision DAG pour la recherche de la meilleureclasse parmi 4 classes, laliste

d'étatséquivalentepour chaquen÷ud estindiquée àcôté dun÷ud. . . 69

3.11 Diagramme de l'espace d'entrée pour un problème de 4 classes, un SVM binaire (un-contre-un) ne peutexclure qu'unseule classe. . . 69

4.1 Illustrationschématique decourbesR OC pour untest idéal, estiméettypique. . 82

4.2 IllustrationschématiquedecourbesR OC detypeP(erreurdetypeII)en fonction deP(erreur de typeI). . . 83

4.3 TFAetTFR en fonctiondu seuilT. . . 83

4.4 TFR enfonction TFA. . . 84

4.5 CourbeROC,indicateur FOM . . . 85

4.6 Courbesrappel/précision . . . 87

5.1 Pénalisation des passages du mot clé Mc i vers les autres mots Mc j pour j 2 f1;:::;ng. . . 93

5.2 Modélisation dumot cléavril par laconcaténation desphonèmes a,v,r,iet l. 94 5.3 Grammairedel'ensembledesmotsclésavecunseulmodèlepoubelleetunmodèle silence.. . . 95

5.4 Reconnaissancedelaphraseokjeréservepourjeudiaprèsmidivoilàenutilisant unétat poubelle sansapprentissage. . . 95

5.5 CourbeROC del'état poubelle sansapprentissage. . . 96

5.6 Courberappel/précision de l'étatpoubelle sans apprentissage. . . 96

5.7 CourbeROC dumodèle poubelle avec apprentissage. . . 99

5.8 Courberappel/précision dumodèlepoubelle avec apprentissage.. . . 99

5.9 Grammairedel'ensembledesmotsclésavecdeuxmodèlespoubellesetunmodèle silence . . . 100

5.10 Reconnaissancedelaphraseokjeréservepourjeudiaprèsmidivoilà enutilisant unmodèlepoubelle combiné. . . 101

5.11 CourbeROC dumodèle poubelle combiné. . . 102

5.12 Courberappel/précision dumodèlepoubelle combiné. . . 102

5.13 grammaireà basede boucle dephonèmes. . . 103

5.14 Reconnaissanceà basede boucle dephonèmes . . . 103

5.15 Favorisation dupassage aux motsclés. . . 105

5.16 CourbeROC delaméthode àrécompense constante. . . 105

5.17 Courberappel/précision de laméthodeà récompenseconstante. . . 106

5.18 CourbeROC delaméthode àrécompense ane. . . 107

5.19 Courberappel/précision de laméthodeà récompenseane. . . 107

5.20 CourbeROC delaméthode àrécompense sigmoïdale. . . 108

5.21 Courberappel/précision de laméthodeà récompensesigmoïdale. . . 109

6.1 CourbesROC des mesures de conance calculées comme moyenne arithmétique, moyennegéométriqueetmoyenneharmoniquedesprobabilitésd'observations acous-tiqueslocalesdes phonèmes. . . 114

6.2 Courbes rappel/précision des mesures de conance calculées comme moyenne arithmétique,moyennegéométriqueetmoyenneharmoniquedesprobabilités d'ob-servationsacoustiques locales desphonèmes. . . 115

(16)

arith-6.4 Courbes rappel/précision des mesures de conance calculées comme étant les

moyennesarithmétique, géométrique etharmonique normalisées. . . 117

6.5 Courbes ROC de l'approche basée sur le rapport de vraisemblance avec et sans

normalisation. . . 119

6.6 Courbesrappel/précisiondel'approchebaséesurlerapportdevraisemblanceavec

etsans normalisation. . . 120

6.7 CourbesROC de laméthode baséesur ladistancede vraisemblance avec et sans

normalisation. . . 121

6.8 Courbes rappel/précision de la méthode basée sur la distance de vraisemblance

avec etsans normalisation.. . . 121

6.9 CourbesROCdu modèle hybrideetdu modèlecombiné. . . 123

6.10 Courbesrappel/précision dumodèlehybrideetdumodèlecombiné . . . 123

7.1 CourbesROCdelamesuredeconanceàbasedemoyenneharmoniquenormalisée

etdu PMCen utilisant unvecteur composé desixmesures de conance. . . 130

7.2 Courbesrappel/précisiondelamesuredeconanceàbasedemoyenneharmonique

normalisée etduPMCen utilisantunvecteurcomposéde sixmesures deconance.130

7.3 CourbesROCobtenuespar lacombinaison desixmesures de conance. . . 131

7.4 Courbesrappel/précision obtenuespar la combinaisonde sixmesuresde conance.132

7.5 Courbes ROC obtenues par une représentation vectorielle à base de probabilités

acoustiques locales desphonèmes. . . 133

7.6 Courbes rappel/précision obtenues par une représentation vectorielle à base de

probabilités acoustiques locales desphonèmes. . . 134

7.7 Courbes ROC obtenues par une représentation vectorielle à base du nombre de

trames par étatdanschaquephonème. . . 135

7.8 Courbes rappel/précision obtenues par une représentation vectorielle à base de

nombre detrame par état danschaquephonème. . . 135

7.9 CourbesROCobtenuespar une représentation vectorielle mixte. . . 136

7.10 Courbesrappel/précision obtenuespar une représentation vectorielle mixte. . . . 137

7.11 CourbesROCobtenuespar une classication multi-classes. . . 138

(17)

(18)

4.1 La liste desmots cléschoisis etleurs nombresd'occurrencesdanslabase detest. 79

5.1 Grand vocabulaire. . . 92

5.2 Tauxde reconnaissanceen fonction de lavaleur de N. . . 93

5.3 Tableaurécapitulatifdesrésultatsobtenus enutilisant lesdiérentsmodèles

pou-belles. . . 110

6.1 Tableaurécapitulatifdesrésultatsobtenusenutilisantlesdiérentesméthodesde

mesures de conance. . . 124

7.1 Tableaurécapitulatif desrésultatsobtenusen utilisantdiérentesreprésentations

(19)

(20)

Dialoguer oralement avec les machines était un rêve humain dès l'apparition des premiers

ordinateurs. Ce rêve a commencé d'être un sujet de recherche vers les années soixante-dix,

no-tammentaveclepremierprojetARPA(AdvancedResearchProjectsAgency)decompréhension

de laparole qui a été lancé en 1971

[

Klatt, 1977

]

. Le but ultime de ce projetétait de pouvoir

dialoguer librement en langage naturel avec nos machines. Cependant, c'était très optimiste

d'imaginerqu'on puisseréaliser de tels systèmes en une dizaine d'années. En eet,aujourd'hui

et après plus de 30 ans, nous n'avons pas encore atteint les performances humaines même au

niveau de lapremière phasede ce projetà savoirlareconnaissance automatiquede laparole.

Ce sujet, qui a suscité un grand intérêt des chercheurs du domaine, commence à avoir un

impactdanslaviecourante.Lesprogrès réalisésdansledomainedelaRAPnouspermettent

au-jourd'huidereconnaîtrelaparole,deréaliserdessystèmesdedictéevocaleetd'élaborerquelques

applications interactives guidées très simplesà vocabulaire limité. Cependant noussommes

en-coreloin deréaliserdes systèmesde dialogue homme-machine trèsperformants.

À petits pas vers la réalisation d'applications interactives, utilisant la parole spontanée et

permettantdecomprendreetderépondreauxutilisateurs, unautredomaine avulejour depuis

unedizained'années, ils'agit de ladétectionde mots clés dansunuxde parole.

Ladétection demots cléspermetd'éviteren partielacomplexité etles défautsdessystèmes

dereconnaissance automatique delaparole continue, en détectant seulement un petit ensemble

de mots clés utiles pour comprendre la phrase prononcée. En eet, dans certaines applications

interactives, laprononciationd'un motclésut pour déclencher laréponseappropriée. L'étape

dedétection s'avère alors plusintéressante qu'une reconnaissancecomplète de laphrasecarelle

permetau systèmede réagirimmédiatement à lademandede l'utilisateur

[Gorin

etal.,

1997].

Comme son nom l'indique, cette technique consiste à détecter les mots clés les plus

carac-téristiques du domaine de l'application considérée, dans l'ensemble des productions vocales, y

compris les hésitations, les faux départs etc. Il s'agit donc de traiter la parole spontanée avec

toutes sessubtilités, de rejeterles mots hors-vocabulaire, considérés inutiles, etde ne conserver

que les mots qui ont une importance pour l'interprétation sémantique de la phrase prononcée,

lesmots clés de l'application.

Grâce à cette approche, les utilisateurs peu conscients des contraintes des systèmes de

re-connaissance ous'exprimant d'unemanière spontanée sansfaire attention auxstructures

gram-maticales de leurs phrases, eraient moins les concepteurs des applications interactives. Cette

approche a suscité beaucoup d'intérêt et a été utilisée dans de nombreuses applications, entre

(21)

l'ac-cès aux bases de données, le routage et la surveillance des appels téléphoniques [F

oote et al.,

1995][Gelin, 1997].

Le travail que nous présentons s'inscrit dans le cadre de la détection de mots clés dans un

uxde parole.Tout d'abord,nousétudionsplusieurs techniques dedétection etnousproposons

denouvellesméthodesbaséesprincipalementsurlesmodèlespoubellesetlamesuredeconance,

ainsiquedesapproches hybrides combinant ces deuxnotions.

En second lieu, nous présentons le système de détection de mots clés, comme un problème

de classication, danslequel chaque motclé doit êtreclassé commeun motcorrect (C) s'il

cor-respond àunmotclécorrectement reconnuoucommeunmotincorrect(I)s'ilcorrespondàune

fausseacceptation(insertionoufaussereconnaissance).Ainsi,unemauvaisereconnaissancedans

un tel système correspond à une fausse acceptation (I est classé comme C) ou à un faux rejet

(C classé comme I). Dans notre travail, nous étudions le classieur de type SVM (en anglais,

Supports Vector Machines) and'améliorer les performances de ladétection.

Cemémoire secomposededeuxparties:lapremièrepartie(chapitres1,2et3)faitl'étatde

larecherche dans ledomaine. La deuxième partie (chapitres 4, 5,6 et7) présente notre

contri-bution àladétection demots clés.

Dans le premier chapitre, nous décrivons tout d'abord les caractéristiques du signal de la

parole,puisnousévoquonslesdicultés liéesàlareconnaissancevocale.Ensuite nousexposons

les diérentes étapes utiles à l'extraction des paramètres du signal. Puis nousprésentons

l'ap-prochephonétique etl'approcheprobabiliste dansledomaine de lareconnaissanceautomatique

de laparole. Ennnous détaillonsl'application des HMMspour la reconnaissanceautomatique

de la parole, en résolvant les trois problèmes fondamentaux des HMMsà savoir l'évaluation, le

décodage etl'apprentissage.

Nousproposonsdansledeuxièmechapitre unétatdel'artdel'utilisation dumodèlepoubelle

et de la mesurede conance dans lecadre de notre application. Enpremier lieunous exposons

les diverses méthodes de construction du modèle poubelle. Ensuite nous détaillons diérentes

techniques à base de mesure de conance qui ont été proposées an de détecter les mots clés.

Enn nousterminons par lesapplications de détectionde motsclés.

Letroisièmechapitre estconsacréàlaclassication statistique,danslapremièrepartie,nous

décrivonstoutd'abordlesimplePerceptronetsonprinciped'apprentissagepourdétaillerensuite

le casle plus général du Perceptron multi-couches avec son algorithmede rétro-propagation de

l'erreur. Dansladeuxième partie,nousévoquonslathéorie d'apprentissage de Vapnik desSVM

ainsiqueleprincipe de laminimisation durisque structurel. Ensuite nousintroduisonsles trois

formules mathématiques surlesquellessont basésles SVMet nousprésentonsleurs applications

pour la recherche d'un hyperplan optimal permettant de classer des données. Enn nous

ter-minonspar une descriptiondes principesdes SVM.Dans latroisième partie, nousintroduisons

les SVM multi-classes etnous présentons les solutions proposées àbase desSVM binaires pour

décrireà lan,larésolution du problèmemulti-classes par une méthode d'optimisation.

Lequatrièmechapitre décritlesystèmedereconnaissancedelaparoleESPERE. Cesystème

(22)

d'évaluationainsiquequelquesmesuresd'évaluationutilespour ladétection demots clés.Nous

présentons enn les courbes ROC et les courbes rappel/précision qui seront utilisées comme

moyen d'évaluationdesméthodesélaborées toutaulong denotre travail.

Le cinquième chapitre permetde présenter diérentes approches pour la détection de mots

cléssefondant surlanotion demodèle poubelle.Nousévoquons alorsdiérentes techniques

no-vatrices pour mieuxrésoudreleproblèmede ladétectiondesmotshors-vocabulaire. En premier

lieu,nouscommençons par unmodèlepoubellesans apprentissage.Ensuite nousproposons une

nouvelle méthode à base d'un modèle poubelle appris en utilisant un GMM. Enn nous

abor-donsuneapprochehybridecombinantlesdeuxpremiersmodèles.Ensecondlieu,nousproposons

d'utiliserune reconnaissanceàbasedeboucledephonèmes,danslaquellenousappliquons

dié-rentesfonctionsde récompensequi favorisent lepassageentrelesphonèmesconstituantsunmot

clé.Une comparaison de l'ensemblede ces approches estprésentéeàla ndu chapitre.

Le sixième chapitre s'intéresse aux mesures de conance. Ces mesures permettent de

déci-der s'il faut rejeter ou accepter un mot clé reconnu. Nous dénissons alors diérentes mesures

de conance. La base fondamentale de ces mesures est la probabilité d'observation acoustique

localequ'onutilise pourcalculerles moyennesarithmétique,géométrique etharmonique comme

premières mesures à tester. Ensuite nous proposons la mesure de conance à base de boucle

de phonèmes, dans laquelle nous calculons en premier lieu, un rapport de vraisemblance et en

second lieu, une distance de vraisemblance. Ces mesures utilisent le score du mot clé reconnu

etsonimage quicorrespond àun ensemble de phonèmes reconnus en se basant surla méthode

de boucle de phonèmes. Enn nous combinons la notion de modèle poubelle avec la mesure de

conanceau seind'unmême système hybridepour ladétectionde mots clés.

Le septième chapitre introduit les SVM dansledomaine de ladétection de mots clés. Nous

montronsalorsqueleproblèmededétectiondesmotscléspeutêtreconsidérécommeunproblème

de classication, où chaque mot clé peut appartenir à deux classes diérentes à savoir correct

etincorrect. Levecteur d'entrée desSVMestun vecteurcaractéristique dumot cléconsidéré, il

contient ainsi les caractéristiques obtenues par un alignement de la sortie de notre système de

reconnaissanceavec lesmodèlesHMMdesphonèmes asscociés.Nousproposons diérentes

tech-niquespour lareprésentationvectorielled'unmotclé.Enpremierlieu,nousutilisonslesmesures

deconancebaseéssurlesmoyennes.Ensecondlieu,nousemployonslaprobabilitéd'observation

acoustiquelocaledechaquephonème.Puisnousintroduisonsunvecteurcaractéristique basésur

le nombre de trames dans chaque état. Enn, nous testons toutes ces diérentes méthodes en

utilisant un Perceptron multi-couches etunSVM binaire.La meilleure représentation esttestée

aussiparleSVMmulti-classes.Une étudecomparativedecesdiérentsmodèles terminece

cha-pitre.

(23)

(24)

Reconnaissance Automatique de la

Parole (RAP)

1.1 Introduction

Lareconnaissanceautomatiquede laparole estundomaine d'étudeactif depuisledébutdes

années 50. Il est clair qu'un outil de reconnaissance de la parole ecace facilitera l'interaction

entre les hommes etles machines. Les applications possiblesassociées à un tel outil sont

nom-breusesetsontamenéesàconnaîtreungrandessor.Laplupartdesapplicationsenreconnaissance

de la parole peuvent être regroupées en quatre catégories :commande et contrôle, accès à des

bases de données ou recherche d'informations, dictée vocale et transcription automatique de la

parole.

La technologie laplus utiliséedepuis plusde 20 ans estbasée sur desmodèles statistiques :

les modèles de Markov cachés (enanglais Hidden MarkovModels :HMM) capables de

modéli-ser simultanément les caractéristiques fréquentielles et temporelles du signal de parole. Depuis

l'introductionde cesmodèles,denombreux progrèsont étéréalisésdansledomainede la

recon-naissancede la parole.Néanmoins, les performances obtenuessont encore largement inférieures

àcelles desêtres humains, même siles progrès réalisésen moinsde 50 anssonténormes.

Nous présentons dans le paragraphe suivant le signal de parole en analysant ses

caracté-ristiques et ses composantes. Nous exposons dans le paragraphe 1.3, les dicultés liées à la

reconnaissancevocale.Ensuite nousdétaillons lesdiérentes étapes utilesà l'extractiondes

pa-ramètres du signal et nous présentons l'approche phonétique. Puis, nous montrons l'approche

probabiliste et surtout celle à base des modèles de Markov cachés, qui est la plus utilisée de

nosjours dansle domaine de la reconnaissance automatique de la parole.Enn nous décrivons

l'application desHMMspour lareconnaissance automatiquede laparole.

1.2 Le signal de parole

Lesignaldeparoleappartient àlaclassedessignauxacoustiquesproduitspardesvibrations

descouchesd'air.Lesuctuationsdelapressiondel'airproduisentdesvariationsdecesignal,en

fonctiondu temps, quipeuvent êtreenregistrées de façon analogique ou digitale.Ceci constitue

unereprésentationélémentaire dusignaldeparole

[Boite

etKunt,

1987].

Cesignalestlerésultat

(25)

travers leconduit vocal. Le signal de parole est donc une onde acoustique qui se propage dans

un milieu donné (en général l'air) et qui est le résultat de la modulation par le conduit vocal

d'uneonde d'excitation.

Lesphonèmessontlesélémentslesplusbrefsquipermettentdedistinguerdiérentsmots

[

Cal-liope, 1989].

Unmot peutêtre considérécomme un ensemblede phonèmes.Plusieurs formesdu

conduit vocal peuvent produire le même phonème. La forme que le conduit vocal prend pour

laproduction d'unphonème, dansun contexte donné, estassez variable et surtout dépendante

de ce contexte. Dece fait, nous remarquonsque les formesacoustiques associées àun phonème

déterminé sont variables. Cette variabilité est double : d'une part une variabilité du contenu

acoustiqueduphonème(dûàlavariétédesformesduconduitvocaldonnantlieuàce phonème)

etd'autrepartunevariabilitédeladuréeduphonème.Cettedernièrevariabilitérésulte

essentiel-lement dufait quelesystème articulatoire meten jeudes constantes mécaniquesqui contrôlent

les mouvementsmusculaires.

L'étudedesmécanismes les plusrépandus chez l'homme,ont montréquel'analyse des

mou-vements des diérents paramètres articulatoires peut être représentée par un modèle de type

source-ltre. Deux ltresplacés en cascade constituent lemodèlede chaque paramètre

articula-toire. Le premier est un ltre intégrateur, il est associé au système mécanique de la chaîne de

production de la parole. Le deuxième est un intégrateur d'ordre 2 et il correspond au système

physiologique. La source,quantà elle,est représentéepar une séquenced'impulsions

[George et

al.,1994

] .

La parole est un signal quasi stationnaire. Elle est formée de phonèmes et de transitions

entreces phonèmes (bienque lephonème nesoit pasune entité acoustiquement xe).Plusieurs

types de phonèmes existent : les voyelles, les consonnes fricatives etles consonnes plosives, les

nasales etles liquides. Les voyelles sont desphonèmes voisés (l'excitation se fait par la glotte),

leurproduction sefaitgénéralementavec unconduit vocalrelativement ouverteten absencede

constrictions et leur prononciation peut être isolée et durable dans le temps. Les consonnes se

caractérisent par une constriction (ou occlusion) dans leconduit vocal lors de leur production.

Ellespeuventêtrevoiséesounonvoisées.Danslecasdesfricatives,lacontrictiongénèreunbruit

local qui peut persister dansle temps et qui excite une partie du conduit vocal. Contrairement

auxvoyellesetauxfricatives,lesplosivesnedurentpasdansletemps,ellessontproduitesparun

relâchement rapided'uneocclusionduconduitvocal,quiproduituneperturbationlocale se

tra-duisant acoustiquement parunbruit impulsifde faibledurée. Destransitionslientles phonèmes

adjacents.D'une façontrèssimpliée,lestransitionsacoustiquescorrespondent àdestransitions

dansl'appareildeproductiondel'étatcorrespondant aupremierphonèmeàl'étatcorrespondant

au suivant

[Koreman

et al.,

1999].

Enconclusion,laparole est unsignalquasi stationnaireformé departies stationnaires et de

transitions entre ces diérentes parties. C'est un signal non déterministe, dans le sens où deux

réalisations d'un même mot auront nécessairement deux formes acoustiques diérentes, même

(26)

1.3 Les dicultés liées au signal de parole

Le problème de la reconnaissance de la parole réside essentiellement dansla spécité du

si-gnalvocal.Cesignalpossèdeunetrèsgrandevariabilité.Unemêmepersonneneprononcejamais

un mot deux fois de façon identique. La vitesse d'élocution peut varier, la durée du signal est

alors modiée. Toute altération de l'appareil phonatoire peut modier la qualité de l'émission

(exemple:rhume, fatigue,...). Deplus, ladiction évolue dansletemps. La voix est modiée au

coursdes étapesde lavie d'un êtrehumain (enfance,adolescence, âge adulte,...). La variabilité

interlocuteurestencoreplusévidente.Lahauteurdelavoix,l'intonation,l'accentdièrent selon

lesexe,l'originesociale,régionale ounationale

[

Hatonetal.,1991

]

.Ainsilaparoleestunmoyen

de communication où de nombreux éléments entrent en jeu, tels que le lieu,l'émotion du

locu-teur,larelationqui s'établitentre leslocuteurs (stressanteouamicale).Ces facteursinuencent

la forme et le contenu du message. L'acoustique du milieu (milieu protégé ou environnement

bruité), la qualité du microphone ou de la ligne téléphonique, les bruits de la bouche, les

hé-sitations, les mots hors-vocabulaire sont autant d'interférences supplémentaires surle signal de

paroleque lesystèmede reconnaissancedoit compenser.

L'aspect continu du signal de parole complique encore la tâche de reconnaissance. En eet,

lorsqu'onécoute parlerune personne, onperçoitune suitede mots,alors quel'analysedusignal

vocal ne permet de déceler aucun séparateur. Le même problème de segmentation se retrouve

à l'intérieur du mot lui même. Celui-ci est perçu comme une suite de sons élémentaires, les

phonèmes. L'analysedu signalne permetpas aussi de découperen segments distinctsle signal

acoustiqueand'identier les diérentsphonèmes quilecomposent.

1.4 Extraction des paramètres

L'objectif de cette phase de reconnaissance est d'extraire des coecients représentatifs du

signaldeparole.Cescoecientssontcalculés àintervallestemporelsréguliers.Ensimpliant les

choses,le signaldeparole esttransformé en unesériede vecteursde coecients, cescoecients

doivent représenter au mieux ce qu'ils sont censés modéliser et doivent extraire le maximum

d'informations utilespour lareconnaissance.

Parmi les coecients les plus utilisés etqui représentent au mieuxle signal de la parole en

reconnaissancedelaparole,noustrouvonslescoecientscepstraux,appeléségalement cepstres.

Les deux méthodes les plus connues pour l'extraction de ces cepstres sont : l'analyse spectrale

etl'analyseparamétrique. Pour l'analyse spectrale(parexemple, Mel-Scale Frequency Cepstral

Coecients (MFCC)) comme pour l'analyse paramétrique (par exemple, le codage prédictif

li-néaire (LPC)), le signal de parole est transformé en une série de vecteurs calculés pour chaque

trame.

Ilexisted'autrestypesdecoecientsquisontsurtoututilisésdanslesmilieuxbruités,nous

ci-tonsparexemplelescoecientsPLP(PerceptualLinearPredictive).Cescoecientspermettent

d'estimerlesparamètres d'unltre auto-régressif enmodélisant aumieuxlespectre auditif

[F

u-rui, 1981].

Ilexisteplusieurstechniquespermettantl'améliorationdelaqualitédecescoecients,

noustrouvonspar exemple :l'analysediscriminante linéaire (LDA), l'analysediscriminante non

linéaire(NLDA),etc.Pourplusdedétails surlesdiérentesméthodesd'extraction deces

(27)

Ces coecients jouent un rôle capital dans les approches utilisées pour la reconnaissance

de la parole. En eet, ces paramètres qui modélisent le signal seront fournis au système de

reconnaissance pour l'estimation de la probabilité P(sequencejmessage). Dans notre travail,

étant donné que nous ne nous intéressons qu'au milieu non bruité, nous nous sommes limités

à l'utilisation des coecients MFCC.Ces paramètres ont montré une bonne représentation des

aspects perceptuels du spectrede parole

[

Davis etMermelstein, 1980

] .

1.5 Les coecients MFCC

Dans le cadre d'une application de reconnaissance de la parole, seule l'estimation de

l'en-veloppe spectrale est nécessaire

[

Deroo,1998

]

. L'extraction de coecients MFCC estbasée sur

l'analyseparbanc deltresquiconsisteàltrerlesignalparunensembledeltrespasse-bande.

L'énergie en sortie de chaque ltre est attribuée à sa fréquence centrale. Pour simuler le

fonc-tionnement du systèmeauditifhumain,lesfréquences centralessont réparties uniformément sur

une échelle perceptive. Plus la fréquence centrale d'un ltre est élevée, plus sabande passante

estlarge.Cela permetd'augmenterlarésolution dansles bassesfréquences,zonequicontient le

plus d'information utile dans le signal de parole. Les échelles perceptives les plus utilisées sont

l'échelle Mel

1

oul'échelle Bark

2

.Dupoint devueperformancedessystèmesdereconnaissance

de laparole,ces deuxéchelles sont quasiment identiques.Dans nosexpériences,nousavonsfait

lechoix d'utiliser l'échelle Mel.

en trames

Segmentation

analogique

Signal

discrétisé

Signal

Filtrage et

Multiplication

de Hamming

par une fenetre

^

échantillonnage

Pré−accentuation

Fig. 1.1 Miseen forme dusignal

Lenombrede ltresutilisésdansune telleanalyseestchoisidemanière empirique:Zwicker

propose24 ltres

[

Zwicker etFeldtkeller, 1981

]

. Delamême manière, on choisit empiriquement

le type des ltres optimaux pour la reconnaissance de la parole

[Benayed, 1999].

Avant tout

calcul, ilestnécessaire d'eectuer quelquesopérations pour mettreen forme lesignaldeparole.

La gure 1.1 illustre l'ensemble de ces opérations. Le signal est tout d'abord ltré puis

échan-tillonné à une fréquence donnée. Une pré-accentuation est eectuée an de relever les hautes

fréquences, ensuitele signalest segmenté en trames. Chaque trame est constituée d'unnombre

xeN d'échantillons de parole.En généralN estxéde tellemanièrequechaquetrame

corres-ponde à environ 30ms de parole (durée pendant laquelle la parole peut être considérée comme

stationnaire). Enn, le fait de traiter un petit morceau de signal amène des problèmes dans le

ltrage(eetsdebord).Pour évitercela,nousutilisonsdesfenêtresdepondération.Cesont des

fonctionsquel'onapplique àl'ensembledeséchantillons prélevésdanslafenêtredusignal

origi-nalde façon à diminuerles eets de bords. Parmi les fenêtres les plus courantes, nouspouvons

citerlafenêtre de Hamming

3

.En général, lesfenêtres successivesse recouvrent etellesdoivent

1 ÉchelleMel:Mel (f)= 1000 Log(2) (1+ f 1000 ),f représentelafréquence 2

ÉchelleBark:Bark(f)=6:Arcsinh(

f 1000

),freprésentelafréquence

3

FenêtredeHamming :w(n) =0:54+0:46:cos(2

n

N 1

).Outre ce typedefenêtre, ilexiste plusieursautres

(28)

avoir une longueur susante. En pratique,on prend256 ou 512 échantillons, avec un

recouvre-ment par exemple de la moitié de la taille c'est-à-dire 128 ou 256 échantillons respectivement.

Cetraitement implique une hypothèse importante :Le signal vocal est supposé stationnaire sur

une courte période.

Après cette mise en forme du signal (commune à la plupart des méthodes d'analyse de la

parole), une transformée de Fourier discrète (DFT : Discret Fourier Transform), en particulier

FFT(Transformée de Fourier Rapide:Fast Fourier Transform), estappliquéepourpasserdans

ledomaine fréquentieletpour extrairele spectredu signal.

Ensuite le ltrage est eectué en multipliant le spectre obtenu par les gabarits des ltres.

Cesltres sont engénéral, soit triangulaires soitsinusoïdaux. Dansnosexpériences,nousavons

choisid'utiliser desltres triangulaires répartis surune échelle Mel.

sur une échelle MEL

Intégration des bandes critiques

2 FFT

Log ( . )

IFFT

MFCC

Signal

discrétisé

Fig.1.2 Calcul descoecientsMFCC (Mel-Scale Frequency Cepstralcoecients)

Le traitement décrit dansle paragraphe précédent permetd'obtenir une estimation de

l'en-veloppe spectrale(densité spectralelissée). Il est possible d'utiliser les sorties dubanc de ltres

comme entrée pour le système de reconnaissance. Cependant, d'autres coecients dérivés des

sorties d'un banc de ltres, sont plus discriminants, plus robustes au bruit ambiant et moins

corrélésentreeux. Ils'agit descoecients cepstrauxdérivésdessorties dubanc deltres

répar-tislinéairement surl'échelle Mel, ce sont les coecient MFCC. Le cepstreest dénicommela

transforméede Fourier inverse du logarithme de ladensité spectrale. Ceci a une interprétation

du point de vue de la déconvolution homomorphique : alors que le ltrage linéaire permet de

séparerdescomposantescombinéeslinéairement,danslecasdecomposantescombinées defaçon

non linéaire (multiplication ou convolution), les méthodes homomorphiques permettent de se

ramener au cas linéaire. Pour le signal de parole, la source d'excitation glottique est convoluée

avec laréponse impulsionnelledu conduit vocal considérécommeun ltre linéaire :

s(t)=e(t)h(t)

où s(t) estle signalde parole, e(t) est lasource d'excitation glottique eth(t) est laréponse

impulsionnelleduconduitvocal. L'applicationàl'équationprécédentedulogarithmedumodule

delatransformée deFourier donne :

LogjS(f)j=LogjE(f)j+LogjH(f)j

Par une transforméede Fourier inverse on obtient :

s(cef)=e(cef)+h(cef)

(29)

liftrage. Ce domaine est intéressant pour faire la séparation du conduit vocal et de la source

d'excitation. En eet, si les contributions relevant du conduit vocal et les contributions de la

source d'excitation évoluent avec des rapidités diérentes dans letemps, alors il est possible de

les séparer par application d'une simple fenêtre dansle domaine quéfrentiel (liftrage passe-bas

pour le conduit vocal). Le conduit vocal possède une contribution fréquentielle assez lisse qui

aboutiàuncepstrebasse-quéfrence.Réciproquement,lasourcepossèdeunecontributionquivarie

trèsrapidement dansledomainefréquentiel,soncepstreseradoncdansleshautesquéfrences.Le

domaine quéfrentiel estle domaine idéal pour séparerles deuxcomposantes, carnon seulement

leurcontributionssontséparéesdanscedomaine,maisaussiellessontadditives

[

Benayed,1999

] .

Lesétapes d'uneanalyseMFCC sont présentées danslagure1.2.

1.6 L'approche probabiliste de la RAP

Danslecadred'uneapplication delareconnaissanceautomatiquedelaparole,troisfacteurs

principaux interviennent (gure1.3) :

Le locuteur, qui à partir d'un message m (suite de mots) qu'il veut transmettre produit

unsignalacoustiques(t).

L'analyseuracoustique,quià partirdusignals(t) produit uneparamétrisationsousforme

d' une suite de vecteurs (séquence d'observations o) contenant l'information pertinente

pour lareconnaissance.

Undécodeurdontlerôle consisteàdéterminerà partir delaséquenced'observations o, la

séquencede mots m^ quicorrespond au messagem.

Génération

du message

signal de parole

Production du

Aquisation et

paramétrisation du signal

Décodeur

(suite de mots)

(suite de vecteurs)

m (mots reconnus)

^

séquence d’observations

m

s (t)

(30)

Lareconstitution d'unmessageminconnuàpartir d'uneséquenced'observations o, consiste

à retrouver, parmi tous les messages possibles, celui qui selon toute vraisemblance, correspond

à o. L'utilisation de la règle de Bayes permet de décomposer la probabilité P(mjo) en deux

composantes :

^

m=arg

m

maxP(mjo)=arg

m max

P(m)P(ojm)

P(o)

Ledénominateurestconstant pourtouslesmessagespossibles,donconpeutl'omettreet m^ sera

alorsécrit souslaforme suivante :

^

m=arg

m

maxP(m)P(ojm)

Ainsi, l'étape de reconnaissance consiste à déterminer la suite de mots m^ qui maximise le

produit des deux termes P(m) etP(ojm). Le premier terme représente la probabilité a priori

d'observer lasuite de mots m indépendamment du signal. Cette probabilitéest déterminée par

lemodèle de langage. Le deuxième terme indique la probabilité d'observer la séquence de

vec-teurs acoustiques o sachant une séquence de mots spéciques m. Cette probabilité est estimée

par le modèle acoustique. La qualité d'un tel système de reconnaissance de la parole peut être

caractérisée par la précision et la robustesse des deux modèles qui permettent de calculer ces

deuxtermesP(m) etP(ojm).

Modèle acoustique

Vecteurs acoustiques

mot 1

mot 2

mot 3

mot 4

· · ·

mot n

Dictionnaire de

prononciation

Extraction des paramètres

Modèle de langage

m

O

P (m) . P ( O | m)

Transcription phonétique

Fig. 1.4 L'approche probabilistede lareconnaissance automatiquede laparole

L'outil statistique le plus utilisé et le plus performant, de nos jours, pour la modélisation

acoustique est fondé sur les modèles de Markov cachés

[

Bahl et al., 1983

] [

Rabiner et Juang,

1993].

(31)

illus-de vecteurs acoustiques. En utilisant ces vecteurs, le modèle acoustique se charge, à partir des

HMMsde phonèmes appris surun corpus d'apprentissage, de construire lasuite des phonèmes

hypothèsesdu signalprononcé. Un seul modèle HMM,représentant l'hypothèse, sera construit

par la concaténation de l'ensemble des HMMs de phonèmes qui la compose et génère ainsi la

probabilitédusignals(t),ce quidénitlaprobabilitéP(ojm).Ainsi,àpartirdudictionnairedes

prononciations, lasuite des mots hypothèses sera déterminée. Cette suite de mots sera évaluée

par lemodèlede langage pour estimer laprobabilité P(m). Enprincipe,ce processusestrépété

pour toutes les hypothèsespossibles. Le systèmedonne enn lameilleure hypothèse comme

ré-sultatde lareconnaissance.

L'espacede toutes les séquences de mots m augmente très rapidement avec lataille du

vo-cabulaire. Il convient donc de restreindre larecherche à l'espace desséquences de mots les plus

plausibles.Lesapplicationsrécentesenreconnaissancedelaparoleutilisentsouventdesmodèles

de langage stochastiques. Un modèle de langage est un automate à états nis dont les états

représentent les mots du vocabulaire et les arcs les probabilités conditionnelles des transitions.

Ces probabilitéssontapprises surdescorpus de textesde l'application en question.

Considéronslecasd'une séquencem constituée dela suite desmots m

i avec i2f1;:::;Lg P(m)=P(m 1 m 2 :::m L )=P(m 1 ) L Y i=2 P(m i jm 1 m 2 :::m i 1 )

Dansla pratiqueon approxime P(m

i jm 1 m 2 :::m i 1 ) par P(m i jm i 1

),on parle dansce cas

de modèle de langage bigramme, ou par P(m

i jm

i 1

m

i 2

) et on parle alors de modèle de

lan-gagetrigramme. Lesmodèlesbigrammes et trigrammes sontles options les pluscourantes, elles

impliquent en général peude restrictionsgrammaticales, puisquecelles-ci portent seulement sur

desséquences de 2ou de 3mots.

1.7 Application des HMM à la RAP

1.7.1 Introduction

Unproblème majeur de lareconnaissance dela parole estde modéliser au mieuxdes unités

représentatives du signal de parole. Il existe en fait deux types de modélisation possibles des

propriétés d'unsignaldonné :

Lamodélisationdéterministe, quiexploite les propriétés intrinsèques dusignal.

Lamodélisationstatistique, quicaractérise les propriétésstatistiques du signal.

Dans ce travail, nous utilisons des modèles statistiques : les modèles de Markov cachés.

Un HMM peut être vu comme un ensemble discret de noeuds ou d'états et de transitions ou

d'arcsreliant cesétatsentreeux.Formellement,ilpeutêtredénipar l'ensembledesparamètres

[Rabiner etJuang, 1989] : =(N;A;B;)

(32)

A = fa ij g = fP(q j jq i

)g est la matrice des probabilités de transition sur l'ensemble des

états du modèle. La probabilité de transitionest laprobabilitéde choisir latransitiona

ij

pour accéder à l'état q

j

,étant donné un processus à l'état q

i

.Pour un HMM d'ordre un,

cette probabiliténe dépend quede l'étatprécédent :

P(q t =jjq t 1 =i;q t 2 =k;:::)=P(q t =jjq t 1 =i)

Elle dépenddes deuxprécédentsdanslecas d'unHMMd'ordre deux:

P(q t =jjq t 1 =i;q t 2 =k;:::)=P(q t =jjq t 1 =i;q t 2 =k)

End'autres termes,l'évolutiondu systèmeentredeuxinstantst 1 ettne dépend quede

l'état decesystèmeau tempst 1(ordre1) oudesdeuxinstantsprécédents t 1 ett 2

(ordre deux). B = fb j (o t )g = fP(o t jq j

)g est l'ensemble des probabilités d'émission de l'observation o

t

dans l'état q

j

. La forme que prend cette distribution détermine le type du HMM. C'est

ainsiqu'onparledeHMMsdiscrets,semi-continus,continus,etc.Pourplusd'informations

surlesdiérentstypesdeHMMs,lelecteurpourraconsulterlesouvragessuivants

[ Rabiner etJuang, 1989 ] [ Roxane,1995 ] .

est la distribution initiale des états, P(q

0

=j); 8j 2 [1;N]. q

0

représente l'état initial

du modèleHMM.Il ne peut émettre de vecteursacoustiques.

En reconnaissance de laparole, desmodèles de Markov gauche-droite d'ordre 1 sont le plus

souvent utilisés du fait de l'aspect séquentiel du signal de la parole

[

Bakis,1976

]

.La gure 1.5

illustre un HMM à 3 états typique utilisé en RAP pour la modélisation d'un phonème. Les

états d'entrée et de sortie sont fournis pour faciliter la concaténation des modèles entre eux.

L'état de sortie d'un modèle de phonème peut être fusionné avec l'état d'entrée d'un autre

modèle de Markov caché pour former un modèle composite. Cecipermet aux modèles de

pho-nèmes d'être concaténés ensemble pour former les mots et ainsi les phrases. On remarque que

lesseulestransitionspermisessontde typegauche-droite etceci danslebut demieux modéliser

lacontrainte temporellede laparole. Un HMM estconsidéré comme ungénérateur de vecteurs

acoustiques, c'est une machine à états nis qui change d'état à chaque unité de temps. Pour

chaque unitédetemps t, unefois arrivé àl'étatq

j

,unvecteur acoustiqueo

t

est généréavec une

densité de probabilité b

j (o

t

). De plus, la transition de l'état q

i

à l'état q

j

est probabiliste, sa

probabilitéestgénéralement notée a

ij

.Enpratique,c'estseulement laséquenced'observations :

O =o 1 ;o 2 ;:::;o T

qui est connue. La séquence d'états est non directement observable, d'où le

nomdemodèlede Markovcaché.

1.7.2 Les problèmes fondamentaux des HMMs

SoientunmodèledeMarkovcachéetOuneséquenced'observations acoustiques.La

recon-naissancedecetteséquences'eectueentrouvantlemodèlequimaximiselaprobabilitéP(jO)

(probabilité qu'un modèle génère une séquence de vecteurs acoustiques O).Cette probabilité

est aussi appelée probabilité aposteriori. Malheureusement, il n'est pas possible d'accéder

di-rectement àcette probabilité.Maison peutcalculerlaprobabilitéqu'unmodèle donnégénérera

(33)

1

2

3

4

5 a

₁₂

a

₄₅

22

23

33

34

44 o

₂

o

₁

o

₃

b (o )

₃

b (o )

₃

o

₅

o

₆

o

₈

o

₉

O =

b (o )

₄

4

2

1

3

4

7

8

9 o

₄

o

₇

Séquence

d’observations

de Markov

Modèle

Fig.1.5Exempled'unHMMàtroisétats caractérisépar unedistributiondeprobabilitéspour

chaqueétat associéàune observationet par desprobabilités de transitionentreles états.

Enutilisant laloide Bayes, il estpossiblede liercesdeux probabilitéspar :

P(jO)=

P(Oj):P()

P(O)

P(Oj) estlavraisemblance de laséquenced'observations O étant donné lemodèle .

P() est laprobabilité aprioridumodèle.

P(O) estlaprobabilité aprioride laséquencedesvecteurs acoustiques.

Pour une séquence d'observations connue O = o

1

;o

2

;:::;o

T

., P(O) peut être considérée

constante, puisqu'elle est indépendante du modèle si les paramètres de ce dernier sont xés.

AinsimaximiserP(jO) revient àmaximiserP(Oj)P().

Pour cela,il fautrésoudre lestroisproblèmes fondamentaux desHMMssuivants:

Évaluation:

Étantdonnésuneséquenced'observations:O=o

1 ;o 2 ;:::;o T etlemodèle=(N;A;B;),

comment calculer ecacement P(Oj) laprobabilité d'observer laséquence O sachant le

modèle?

Décodage :

Étantdonnésuneséquenced'observations:O=o

1 ;o 2 ;:::;o T etlemodèle=(N;A;B;),

commentchoisirlaséquenced'étatsQ=q

1

;q

2

;:::;q

T

quialeplusdechanced'émettrela

séquenced'observations O?

Apprentissage:

Commentdéterminerlesparamètresdumodèle=(N;A;B;)andemaximiserP(Oj)?

1.7.3 Problème d'évaluation Soient le modèle = (N;A;B;), O = o 1 ;o 2 ;:::;o T

une séquence d'observations et Q =

q 1 ;q 2 ;:::;q T

une séquence d'états. La probabilité d'observer la séquence O pour une séquence

d'étatsQ est: P(OjQ;)=b q (o 1 ):b q (o 2 ):::b q (o T )

(34)

Or,la probabilitédela séquenceQ peuts'écriresous laformesuivante: P(Qj)= q 1 a q 1 q 2 a q 2 q 3 :::a q T 1 q T

La probabilité conjointe du chemin Qetdesobservations O est :

P(O;Qj)=P(Qj):P(OjQ;)

La probabilité de la séquenced'observations O sachant lemodèle est obtenue par la

som-mationdeP(O;Qj) surtoutesles séquencesd'étatsQpossibles.Ainsilaprobabilitéd'émission

desobservations est:

P(O;)= X Q P(O;Qj) P(O;)= X q 1 ;q 2 ;:::;q T q1 b q1 (o 1 )a q1q2 b q2 (o 2 ):::a q T 1 q T b q T (o T )

Pour unemachineàN états,cecalculdirectnécessite(2T 1)N

T

multiplicationsetN

T 1

additions, ce qui le rendtrop complexe et impossible à implémenter. Il existe heureusement un

algorithmerapideetecaceditavant-arrière(Forward-Backward)quidonneunesolutionpour

menerecacement ce calcul.

L'algorithme avant-arrière

Soit, la probabilité avant :

t (i) = P(o 1 ;o 2 ;:::;o t ;q t

= ij), la probabilité d'observer la

séquenceo 1 ;o 2 ;:::;o t

etd'être à l'étatià l'instant t sachant le modèle .Cetteprobabilité est

calculéed'unemanière récursive.

Algorithme1 Algorithme avant

Initialisation: 1 (i)= i b i (o 1 ) 1iN Récurrence: t+1 (j)=[ P N i=1 t (i)a ij ]b j (o t+1 ); t2f1;2;:::;T 1g et 1jN Terminaison :P(Oj)= P N i=1 T (i)

Cetterécursiondépenddufaitquelaprobabilité d'êtreàl'étatj autempst+1etd'observer

o t+1

peutêtre déduite en sommant les probabilités avant pour tous les états prédécesseursde j

pondérées par les probabilitésde transitiona

ij .

Delamême manière, soit laprobabilité arrière

t (j) dénie par : t (j) =P(o t+1 ;o t+2 ;:::;o T jq t =j;)

C'est la probabilité d'observer la séquence o

t+1

;o

t+2

;:::;o

T

sachant qu'on est à l'état i au

temps tetqu'on alemodèle .

(35)

Algorithme 2 Algorithmearrière Initialisation : T (i)=1 1iN Récurrence : t (i)= P N j=1 a ij b j (o t+1 ) t+1 (j); t2fT 1;T 2;:::;1g et 1iN Terminaison:P(Oj)= P N i=1 T (i)= P N i=1 i b i (o 1 ) 1 (i)= P N i=1 t (i) t (i) 1.7.4 Problème de décodage

Étant donnés une séquence d'observations O, et un modèle = (N;A;B;), le problème

de décodage revient à la recherche d'une séquence d'états optimale. Cela peut-être fait de

diérentes façons.La dicultérésidedansladénitiondelaséquenced'étatsoptimale.Donc,il

fautchoisiruncritèreparmi plusieurscritères d'optimalité.Par exemple,uncritère envisageable

pour répartir les vecteurs de la séquence d'observations sur les états de la chaîne, consiste à

optimiserséparémentchaqueétatq

t

.Pour implémentercette solution, unevariable estdénie

par : t (i)=P(q t =ijO;)= t (i) t (i) P N i=1 t (i) t (i) = t (i) t (i) P(Oj) t

(i) estlaprobabilitéd'êtreà l'étatiau tempst, étant donnéel'observation O etlemodèle

.

L'état optimalà uninstant tsera donc :

q t =arg i max[ t (i)]

Cecritère d'optimalitémaximise lenombre d'états. Cependant, cetteméthode peutaboutir

à deserreurs.Par exemple,lorsque lemodèle deMarkovpossède desprobabilités detransitions

égalesàzéro,laséquenceoptimale obtenuepourraitenfaitnepasêtreuneséquenced'états

pos-sibles puisquelecritère considéréne tient pascompte desprobabilités deschangements d'états.

Une solution possible est de modier le critère d'optimalité. On pourrait par exemple

cher-cher la séquence d'états qui maximise les paires d'états (q

t

;q

t+1

) ou même les triplets d'états

(q t ;q t+1 ;q t+2 ).

Sicescritèressonttoutàfaitadaptésàcertainesapplications,lecritèreleplusutiliséestcelui

qui cherche lameilleure séquenced'états globale (le meilleurchemin), c'est-à-direqui maximise

P(QjO;)ce quirevientà maximiserP(Q;Oj). Unetechnique formelleexiste pourcalculer ce

chemin optimal,ils'agit del'algorithme de Viterbi.

L'algorithme de Viterbi

Pourtrouverlameilleureséquenced'étatsQ=q

1

;q

2

;:::;q

T

,connaissantuneséquence

d'ob-servations O=o 1 ;o 2 ;:::;o T

,ona besoinde dénir laquantité Æ

t (i). Æ t (i)=max q1;q2;:::;qt 1 P(q 1 ;q 2 ;:::;q t =i;o 1 ;o 2 ;:::;o t j)

(36)

Æ t

(i) estle meilleur résultat (probabilité laplus grande) selon un simple chemin;ce chemin

secomposedestpremièresobservations etsetermine dansl'état i.OnpeutdéterminerlesÆ

t (i)

defaçon itérative.Ona eneet :

Æ t+1 (j)=max 1iN [Æ t (i)a ij ]b j (o t+1 )

Algorithme3 Algorithme deViterbi

Initialisation: Æ 1 (i)= i b i (o 1 ) 1iN 1 (i)=0 Récurrence: Æ t (j)=max 1iN [Æ t 1 (i)a ij ]b j (o t ) 2tT 1jN t (j)=arg 1iN max[Æ t 1 (i)a ij ] Terminaison : P =max 1iN [Æ T (i)] T =arg 1iN max[Æ T (i)] Recherche : q t = t+1 (q t+1 ) t=T 1;T 2;:::1

Pour déterminerlaséquenced'états,ilestdonc nécessairedegarderlatracedel'indice iqui

amaximisélaformuleprécédente,etcecipourtouttettoutj.Onréalisececiparl'intermédiaire

d'untableau (j).

1.7.5 Problème d'apprentissage

Letroisièmeproblèmeconsisteàtrouveruneméthodepourajusterlesparamètresdumodèle

=(N;A;B;) ande maximiserlaprobabilité d'uneséquenced'observations donnée,sachant

lemodèle . Ce problème n'a pasde solution analytique connue et il n'existepas de technique

optimalepourestimer lesparamètres dumodèle. Onpeutcependantchoisir=(N;A;B;) de

tellefaçon queP(Oj)soit localement maximaleenutilisantune procédureitérative tellequela

méthode de Baum-Welch ou la technique du gradient

[ Juang, 1985 ] [ Bahl et al., 1986 ] .Dansce

quisuit nousprésentonsune procédureitérative baséesurlatechnique deBaum-Welch.

Pour décrire comment re-estimer les paramètres du HMM, on dénit la probabilité

t

(i;j)

(37)

t (i;j)=P(q t =i;q t+1 =jjO;)

D'après les dénitions des probabilités avant et arrière, (i;j) peut s'écrire sous la forme

suivante : t (i;j) = t (i)a ij b j (o t+1 ) t+1 (j) P(Oj)

Nousavonsdéni, précédemment

t

(i)comme étantlaprobabilité d'êtreà l'étatiau temps

t, étant donnée l'observation O etlemodèle .Ainsinouspouvonsrelier

t

(i)à

t

(i;j) par une

sommationsurj,d'oularelation suivante :

t (i)= N X j=1 t (i;j)

L'algorithmedeBaum-Welch estimelesnouveauxparamètres delachaînedeMarkovcachée

comme suit : i = 1 (i); 1iN a ij = P T 1 t=1 t (i;j) P T 1 t=1 t (i) 1iN; 1jN b j (k)= P T t=1;o t =k t(j) P T t=1 t (j) 1jN La ré-estimation de i

est laprobabilité d'être à l'état i au temps t= 1.La formule de

ré-estimationdea

ij

estlerapportdunombredetransitionsdel'étativersl'étatj surlenombrede

transitions partant de l'état i.La ré-estimation deb

j

(k) est lerapportdu nombrede fois d'être

à l'étatien observant k surlenombrede foisétant dansl'étati.

Nousavons dénilemodèlecourant =(N;A;B;),et nousl'avons utilisé pourrecalculer

cesvariables,ainsinousavonslemodèleré-estimé

=(N;

A ;

B;).Nouspouvonsainsiarmer

l'une aul'autre de cespropositions :

le modèle initial dénit un point critique de la fonction de vraisemblance, dans ce cas

=

le modèle

est meilleur que le modèle dans le sens où P(Oj

) > P(Oj), donc la

sé-quence d'observations O est plusprobable avec lenouveau modèle

.

En se basant sur cette procédure, si nous utilisons itérativement le modèle

à la place de

et si nous répétons l'étape de laré-estimation desparamètres. Nouspouvons alors améliorer

la probabilité que O soit observée sachant le modèle jusqu'à atteindre un certain point limite.

Le résultat nal de la procédure de ré-estimation est appelé : l'estimation au maximum de

vraisemblance du HMM (Maximum Likelihood Estimation : MLE). Il existe d'autres critères

(38)

MMI(MaximumMutualInformation) [Cardin etal., 1991][Kapadia etal., 1993],

maisleurmise

en÷uvre estgénéralement plusdicile.

1.7.6 Densités d'observation continues dans les modèles de Markov cachés

Jusqu'à présent nous n'avons considéré que le cas où les observations prennent des valeurs

dansunalphabetnidiscret etnouspouvionsdonc utiliserune loi de probabilité discrète dans

chaque état du modèle. Une telleapproche n'est pascompatible avec desobservations qui sont

dessignaux continus. Bien sûr, quantier lesignal pourraitpermettre de résoudre leproblème,

maiscelanepourraitentraînerquedesdégradations.Ilestdoncpréférabled'utiliserdesmodèles

de Markov cachésavec des densités d'observation continues. La représentation la plus générale

de la fonction des densités de probabilités pour laquelle une procédure de ré-estimation a été

eectuéeestde laforme :

b j (o t )= M X m=1 c jm N(o t ; jm ; jm ) avec M X m=1 c jm =1 1jN où c jm estle m ieme

coecient du mélangedans l'étatj etN( ) est une densité gaussienne

demoyenne

jm

etdematrice de covariance

jm .

Dans lecasd'une distributionmonogaussienne, les formulesde ré-estimation de lamoyenne

etdelamatricedecovariancedeladensitédeprobabilitéàl'étatksontdonnéesparleséquations

suivantes: k = P T t=1 t (k)o t P T t=1 t (k) k = P T t=1 t (k)(o t k )(o t k ) P T t=1 t (k)

1.8 L'approche phonétique

Les modèles de Markov cachés sont largement employés en RAP ces dernières années. Ces

modèles se sont avérés les mieux adaptés auxproblèmes de lareconnaissance de laparole

[

Ra-biner et Juang,

1993].

La quasi-totalité des outils de reconnaissance de la parole disponibles

actuellement sur le marché sont basés sur cette technologie. Un modèle de Markov caché est

un automate stochastique particulier capable, après avoir été entraîné, d'estimer la probabilité

qu'uneséquenced'observationsaitétégénéréeparcemodèle.Idéalement,ilfautpouvoirassocier

àchaquephrasepossibleunmodèle.Ilvadesoiquececiestirréalisableenpratiquecarlenombre

de modèles serait très élevé. Des sous-unités lexicales comme le mot, la syllabe, ou le phonème

sont utilisées an de réduire le nombre de paramètres à entraîner. À chacune de ces unités est

associé un modèle de Markov caché constitué d'un nombre nid'états prédéterminés. Ainsi un

HMMpeutreprésentern'importequelensembled'unitésacoustiques:mots,phonèmesetc.Mais,

dans le cas des grands vocabulaires, le fait d'associer à chaque mot un HMM distinct pose de

sérieuxproblèmes d'apprentissageetdestockage.Eneet,pourréalisercettetâchecorrectement

il faut que le corpus d'apprentissage contienne plusieurs occurrences de chaque mot. Ceci est