HAL Id: tel-00005753
https://pastel.archives-ouvertes.fr/tel-00005753
Submitted on 5 Apr 2004
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Yassine Ben Ayed
To cite this version:
Yassine Ben Ayed. Détection de mots clés dans un flux de parole. Interface homme-machine [cs.HC].
Télécom ParisTech, 2003. Français. �tel-00005753�
ENST
Detection de mots cles dans un ux de
parole
TH ESE
presentee etsoutenue publiquementle23 decembre2003
pourl'obtention du
Doctorat de l'Ecole Nationale Superieure des Telecommunications
(Specialite : Signal et Images)
par
Yassine BEN AYED
Composition du jury
President : Rene Carre Directeur de recherche ENST, LTCI-CNRS
Rapporteurs : Regine Andre-Obrecht ProfesseurUniversite Paul Sabatier
RenatoDeMori ProfesseurUniversite d'Avignon
Examinateurs : Gerard CholletDirecteur de recherche ENST,LTCI-CNRS
Jean-Paul HatonProfesseur UniversiteHenriPoincare-Nancy1
DominiqueFohrCharge de recherche LORIA-CNRS
DenisJouvetIngenieurFrance Telecom R&D-DIH-IPS
La reconnaissanceautomatique delaparole susciteactuellement ungrand intérêt. En
parti-culier, la détection de mots clés qui constitue une branche importante de l'interaction
homme-machine vu le besoin de communiquer avec nos machines d'une façon naturelle et directe en
utilisant laparolespontanée.Cettetechnique consisteà détecterdansune phraseprononcée,les
mots clés caractérisant l'application et de rejeter les mots hors-vocabulaire ainsique les
hésita-tions,lesfaux départs etc.
Le travail que nous présentons dans ce manuscrit s'inscrit dans le cadre de la détection de
motsclésdansunuxdeparole.Toutd'abord,nousproposonsdenouveauxmodèlespoubelles
fondéssurlamodélisationdesmotshors-vocabulaire.Puisnousintroduisonslareconnaissanceà
basede boucle de phonèmes, danslaquellenous appliquons diérentes fonctionsde récompense
favorisant lareconnaissance desmots clés.
Ensuitenousproposonsl'utilisation desmesuresdeconanceandepouvoirprendrela
déci-sionderejeteroud'accepterunmotcléhypothèse.Lesdiérentesmesuresdeconanceproposées
sontbasées surlaprobabilité d'observationacoustiquelocale.Enpremier lieu,nousutilisonsles
moyennes arithmétique, géométrique et harmonique comme mesures de conance pour chaque
mot clé. En second lieu, nous proposons de calculer lamesure de conance en se basant sur la
méthode à basede boucle dephonèmes.
Enn nous présentons le problème de détection comme un problème de classication où
chaque motclépeutappartenir àdeuxclassesdiérentes,à savoircorrect etincorrect. Cette
classication est réalisée en utilisant des Support Vector Machines (SVM) qui constituent une
nouvelle technique d'apprentissage statistique. Chaque mot clé reconnu est représenté par un
vecteur caractéristique qui constitue l'entrée du classieur SVM. Pour déterminer ce vecteur,
nousutilisons laprobabilité d'observation acoustiquelocale et nousintroduisons ensuite la
du-rée de chaque état. An d'améliorer les performances, nous proposons des approches hybrides
combinant les modèles poubellesavec mesurede conanceetmesure deconance avec SVM.
Pour testerles performances del'ensemble de cesmodèles nous utilisonsla basede données
française SPEECHDAT. L'évaluation de tous les résultats a été réalisée en se basant sur les
courbes ROC et les courbes rappel/précision. Les meilleurs résultats ont été obtenus par les
méthodes basées sur l'utilisation des SVM. Les méthodes hybrides nous ont permis aussi de
réaliserdebonnesperformances.
Mots-clés: Reconnaissance de la parole, détection de mots clés, modèle poubelle, mesure de
The automatic speech recognition currently arouses a great interest. In particular, the
keyword detection whichconstitutes asignicant branchof thehuman-machineinteraction and
which can help us to communicate with our machines in a natural and direct way by using
spontaneousspeech.Thistechniqueconsistsindetectinginapronouncedsentence,thekeywords
characterizing the application and in rejecting out-of-vocabulary words as well as hesitations,
false startsetc.
Theworkpresentedinthisthesisreportdeals withproblemofkeyword detectioninaspeech
ow. First of all, we propose new garbage models founded on the modelling of the
out-of-vocabularywords.Second,weintroducetherecognitionbasedonloopofphonemes,inwhichwe
apply variousreward functionssupporting keyword recognition.
Then we propose to use condence measures in order to make the decision of rejection or
acceptanceofagivenkeyword.Thevariouscondencemeasures usedarebasedonthe
probabil-ityofthelocalacousticobservation.First,weusetheseprobabilitiesto calculatethearithmetic,
geometric and harmonic means as condence measures for each keyword. Second, we propose
some others condencemeasures basedon theloop ofphonemes recognition method.
Finallywe present the problemof detection asa classication problemwhere each keyword
canbelongtotwodierent classes,namelycorrect andincorrect. Thisclassication iscarried
out by using Support Vector Machines (SVM) which constitute a new technique of statistical
training.Eachrecognizedkeywordisrepresentedbyacharacteristicvectorwhichconstitutesthe
entryoftheSVMclassier.Todetermine thisvector,weusetheprobabilityofthelocalacoustic
observationandthenweintroduce thedurationofeach state.Inordertoimprove performances,
we proposehybrid approachescombiningthe garbage models withthecondencemeasures and
thecondence measures withthe SVM.
Totest our models we usetheFrench data baseSPEECHDAT. The evaluationof allresults
was carried out using the ROC and the recall/precision curves. The best results were obtained
by the SVMbasedmethods. Thehybrid methods also enabledus to get goodperformances.
Keywords:Speechrecognition,keyworddetection,garbagemodel,condencemeasure, support
Remerciements
Mespremiers remerciementss'adressentà mes rapporteurs, MadameRégine André-Obrecht
etMonsieurRenatoDeMori,quiontbienvouluaccepterd'évaluerleprésenttravailetcemalgré
toutes les responsabilités qu'ilsassument. Je les remercie pour letemps qu'ils consacreront à la
lecturede cemémoire etje souhaitequ'ilsytrouvent entièresatisfaction.
Je remercie MonsieurRené Carré pour m'avoir faitl'honneur deprésider monjury de thèse
etpour l'intérêt qu'il aportéà montravail.
Je tiens également à remercierMonsieurDenisJouvetd'avoiraccepté departiciperauJury.
Je le remercie particulièrement pour sa lecture attentive et ses remarques constructives sur le
manuscritainsiquepour sesnombreux etprécieux conseils.
Mesvifsremerciements s'adressent à MonsieurGérard Chollet, monco-directeur de thèse à
l'ENSTquim'afaitl'honneurd'encadrermathèsependantcesannées.J'ainotammentbeaucoup
appréciésescritiques constructives concernant mon travail etlerecul dont ila su fairepreuve.
J'aiétéextrêmementheureuxd'avoirMonsieurJean-PaulHatoncommeco-directeurdethèse
auLORIA.Je leremercie de m'avoirconsacréautant detemps etde m'avoir faitproterdeson
expérience et de son savoir. Je n'oublierais guère son soutien aux moments les plus diciles
durant ces années. Mercibeaucoup!
Un grandmercià MonsieurDominique Fohr pour avoir étéprésent auxinstantsimportants
deprise dedécision ainsiquepour lesdiscussionsrichesetvivesquenousavonseuesdurant ces
troisdernières anneés. Je leremercie aussi pour ses remarques et critiques qui ont contribué à
l'élaboration de ce travail.
Mercià touslesmembresde l'équipeparole ausein duquelce travailfut eectué.Leur
com-pétence etqualité humaine ont grandement facilité montravail.
Un merci particulier à Monsieur Yann Guermeur pour avoir accepté de lire et corriger ce
document.L'aide qu'il m'aapportée fut précieuse.
Mes derniers remerciements mais non les moindres s'adressent à ma femme Salma et à ma
Àmon lsAhmad etàmafemme Salma.
Table des gures xi
Liste des tableaux xv
Introduction générale 1
1 Reconnaissance Automatique de la Parole (RAP) 5
1.1 Introduction . . . 5
1.2 Le signalde parole . . . 5
1.3 Les dicultésliéesau signalde parole . . . 7
1.4 Extraction desparamètres . . . 7
1.5 Les coecients MFCC . . . 8
1.6 L'approcheprobabiliste de laRAP . . . 10
1.7 Application des HMMà laRAP . . . 12
1.7.1 Introduction . . . 12
1.7.2 Les problèmesfondamentaux desHMMs . . . 13
1.7.3 Problème d'évaluation . . . 14
1.7.4 Problème de décodage . . . 16
1.7.5 Problème d'apprentissage . . . 17
1.7.6 Densitésd'observationcontinues dansles modèles deMarkovcachés . 19 1.8 L'approchephonétique . . . 19 2 Détection de motsclés 23 2.1 Introduction . . . 23 2.2 Modèlepoubelle . . . 25 2.3 Mesure de conance . . . 28 2.3.1 Programmation dynamique . . . 29
2.3.2 Algorithme de Viterbiet de Baum-Welch . . . 31
2.3.3 Utilisationdes tracesd'alignements . . . 32
2.3.5 Seuil surles scoresdereconnaissance . . . 34
2.3.6 Méthodesd'adaptation . . . 36
2.3.7 Connaissances acoustiquesetlinguistiques. . . 37
2.3.8 Réseauxde neurones. . . 40 2.3.9 Transformations etalgorithmes . . . 42 2.4 Lesapplications . . . 44 2.5 Conclusion . . . 45 3 Classication statistique 47 3.1 Introduction . . . 47 3.2 Le Perceptron Multi-Couches . . . 48 3.2.1 Introduction . . . 48 3.2.2 Perceptron . . . 49 3.2.3 Perceptron Multi-Couches. . . 50
3.3 Théoriede l'apprentissage de Vapnik. . . 54
3.3.1 Introduction . . . 54
3.3.2 Minimisation durisque empirique . . . 55
3.3.3 Consistancedu principe de minimisationdu risqueempirique . . . 55
3.3.4 Bornessurlavitessede convergence desprocessusd'apprentissage . . 57
3.3.5 Contrôle de lacapacitéde généralisation desprocessus d'apprentissage 59 3.3.6 Minimisation durisque structurel . . . 60
3.4 Support Vector Machines . . . 61
3.4.1 Introduction . . . 61
3.4.2 Cas desdonnéeslinéairement séparables . . . 62
3.4.3 Cas desdonnéesnon-linéairement séparables . . . 65
3.4.4 PrincipesdesSVM. . . 66
3.5 Support vectormachines multi-classes . . . 67
3.5.1 Introduction . . . 67
3.5.2 Résolution duproblème multi-classespar desSVM binaires . . . 68
3.5.3 Résolution duproblème SVMmulti-classes par une seuleoptimisation 68 3.6 Conclusion . . . 72
Deuxième partie 75 4 Système de reconnaissance et méthodes d'évaluation 77 4.1 Introduction . . . 77
4.3 Base de données . . . 78
4.4 Les systèmesd'évaluation . . . 80
4.4.1 Introduction . . . 80
4.4.2 Estimation dutaux d'erreur . . . 80
4.4.3 Les CourbesROC :ReceiverOperatingCharacteristic . . . 81
4.4.4 Les mesuresde rappeletde précision . . . 85
4.4.5 Intervalle de conance . . . 88
5 Modèle poubelle 91 5.1 Introduction . . . 91
5.2 Modélisationdesmots . . . 91
5.2.1 État poubelle sansapprentissage . . . 92
5.2.2 Modèlepoubelleavec apprentissage . . . 97
5.2.3 Modèlecombiné . . . 98
5.3 Modèleà basede boucles de phonèmes . . . 101
5.3.1 Introduction . . . 101
5.3.2 Méthode à récompense constante . . . 104
5.3.3 Méthode à récompense ane . . . 105
5.3.4 Méthode à récompense sigmoïdale . . . 107
5.4 Conclusion . . . 109
6 Mesure de conance 111 6.1 Introduction . . . 111
6.2 Mesuresde conancebasées sur lesmoyennes desprobabilités a posteriori . . 112
6.2.1 Pré-traitement . . . 112
6.2.2 Mesuresde conance àbasede moyennes . . . 113
6.2.3 Mesuresde conance àbasede moyennes normalisées . . . 115
6.3 Mesuresde conanceà basede bouclede phonèmes . . . 117
6.3.1 Pré-traitement . . . 118
6.3.2 Rapportde vraisemblance. . . 118
6.3.3 Distance de vraisemblance . . . 119
6.4 Modèlehybride. . . 122
6.5 Conclusion . . . 124
7 La classication pour la détection de mots clés 127 7.1 Introduction . . . 127
7.4 Combinaisondesmesures de conance . . . 129
7.5 Représentation vectorielle desmots . . . 132
7.5.1 Utilisationdesprobabilités d'observations acoustiques locales . . . 132
7.5.2 Utilisationdunombre detrames par état . . . 134
7.5.3 Représentation vectorielle mixte . . . 136
7.6 Classicationmulti-classes pour ladétectionde mots clés . . . 137
7.7 Conclusion . . . 139 Conclusions 141 Perspectives 145 Annexe 147 Publications personnelles 151 Bibliographie 153
1.1 Mise en formedu signal . . . 8
1.2 Calcul descoecientsMFCC (Mel-Scale Frequency Cepstralcoecients) . . . . 9
1.3 Les composantes principalesdu processusdela reconnaissancede laparole. . . . 10
1.4 L'approche probabilistede lareconnaissance automatiquede laparole . . . 11
1.5 Exemple d'unHMM à troisétats caractérisé par unedistribution de probabilités pour chaque état associé à une observation et par des probabilités de transition entre lesétats. . . 14
1.6 Modèlede phonème àtroisétats . . . 20
1.7 Modèlede diphone . . . 20
1.8 Modèlede triphone . . . 20
1.9 HMM d'unmotobtenu par concaténation de HMMsdephonèmes. . . 21
1.10 HMM d'unephrase obtenupar concaténation de HMMsde mots . . . 21
2.1 Descriptiondusystèmededétectiondemotsclésbasésurl'utilisationd'unréseau de mots clés etdemots poubelles . . . 26
2.2 Réseau parallèle introduisant desmodèles de bruit . . . 26
2.3 Programmation dynamique . . . 29
2.4 Architecturedu réseau deneurone ou . . . 41
3.1 Architectured'unneurone formel . . . 49
3.2 Architectured'unPMC . . . 51
3.3 Modèlegénéral de l'apprentissage statistiqueselon Vapnik . . . 54
3.4 Consistance duprincipe deminimisation durisqueempirique. Risque(R ( m ))et risque empirique (R emp ( m )) en fonction du nombre de points d'apprentissage, (InfR ())est lerisque minimal. . . 56
3.5 Consistance du principe de minimisation du risque empirique. Risque (R ()), risqueminimal(InfR ())etrisqueempirique(R emp ())enfonctiondelacapacité du modèle pour unensemble d'apprentissage xe. . . 59
3.6 Comportementdurisqueempirique,del'intervalledeconanceetdurisquegaranti en fonction de laVC-dimension. . . 60
3.7 Principe desSVM . . . 61
3.8 Hyperplans séparateurs : H est un hyperplan quelconque, H O est l' hyperplan optimal, VS:sont les Vecteurs Support. . . 62
3.9 Hyperplans séparateurs dans le cas de données non-linéairement séparables : H est un hyperplan quelconque, H O est l'hyperplan optimal, VS :sont les Vecteurs Support. . . 65
3.10 La décision DAG pour la recherche de la meilleureclasse parmi 4 classes, laliste
d'étatséquivalentepour chaquen÷ud estindiquée àcôté dun÷ud. . . 69
3.11 Diagramme de l'espace d'entrée pour un problème de 4 classes, un SVM binaire (un-contre-un) ne peutexclure qu'unseule classe. . . 69
4.1 Illustrationschématique decourbesR OC pour untest idéal, estiméettypique. . 82
4.2 IllustrationschématiquedecourbesR OC detypeP(erreurdetypeII)en fonction deP(erreur de typeI). . . 83
4.3 TFAetTFR en fonctiondu seuilT. . . 83
4.4 TFR enfonction TFA. . . 84
4.5 CourbeROC,indicateur FOM . . . 85
4.6 Courbesrappel/précision . . . 87
5.1 Pénalisation des passages du mot clé Mc i vers les autres mots Mc j pour j 2 f1;:::;ng. . . 93
5.2 Modélisation dumot cléavril par laconcaténation desphonèmes a,v,r,iet l. 94 5.3 Grammairedel'ensembledesmotsclésavecunseulmodèlepoubelleetunmodèle silence.. . . 95
5.4 Reconnaissancedelaphraseokjeréservepourjeudiaprèsmidivoilàenutilisant unétat poubelle sansapprentissage. . . 95
5.5 CourbeROC del'état poubelle sansapprentissage. . . 96
5.6 Courberappel/précision de l'étatpoubelle sans apprentissage. . . 96
5.7 CourbeROC dumodèle poubelle avec apprentissage. . . 99
5.8 Courberappel/précision dumodèlepoubelle avec apprentissage.. . . 99
5.9 Grammairedel'ensembledesmotsclésavecdeuxmodèlespoubellesetunmodèle silence . . . 100
5.10 Reconnaissancedelaphraseokjeréservepourjeudiaprèsmidivoilà enutilisant unmodèlepoubelle combiné. . . 101
5.11 CourbeROC dumodèle poubelle combiné. . . 102
5.12 Courberappel/précision dumodèlepoubelle combiné. . . 102
5.13 grammaireà basede boucle dephonèmes. . . 103
5.14 Reconnaissanceà basede boucle dephonèmes . . . 103
5.15 Favorisation dupassage aux motsclés. . . 105
5.16 CourbeROC delaméthode àrécompense constante. . . 105
5.17 Courberappel/précision de laméthodeà récompenseconstante. . . 106
5.18 CourbeROC delaméthode àrécompense ane. . . 107
5.19 Courberappel/précision de laméthodeà récompenseane. . . 107
5.20 CourbeROC delaméthode àrécompense sigmoïdale. . . 108
5.21 Courberappel/précision de laméthodeà récompensesigmoïdale. . . 109
6.1 CourbesROC des mesures de conance calculées comme moyenne arithmétique, moyennegéométriqueetmoyenneharmoniquedesprobabilitésd'observations acous-tiqueslocalesdes phonèmes. . . 114
6.2 Courbes rappel/précision des mesures de conance calculées comme moyenne arithmétique,moyennegéométriqueetmoyenneharmoniquedesprobabilités d'ob-servationsacoustiques locales desphonèmes. . . 115
arith-6.4 Courbes rappel/précision des mesures de conance calculées comme étant les
moyennesarithmétique, géométrique etharmonique normalisées. . . 117
6.5 Courbes ROC de l'approche basée sur le rapport de vraisemblance avec et sans
normalisation. . . 119
6.6 Courbesrappel/précisiondel'approchebaséesurlerapportdevraisemblanceavec
etsans normalisation. . . 120
6.7 CourbesROC de laméthode baséesur ladistancede vraisemblance avec et sans
normalisation. . . 121
6.8 Courbes rappel/précision de la méthode basée sur la distance de vraisemblance
avec etsans normalisation.. . . 121
6.9 CourbesROCdu modèle hybrideetdu modèlecombiné. . . 123
6.10 Courbesrappel/précision dumodèlehybrideetdumodèlecombiné . . . 123
7.1 CourbesROCdelamesuredeconanceàbasedemoyenneharmoniquenormalisée
etdu PMCen utilisant unvecteur composé desixmesures de conance. . . 130
7.2 Courbesrappel/précisiondelamesuredeconanceàbasedemoyenneharmonique
normalisée etduPMCen utilisantunvecteurcomposéde sixmesures deconance.130
7.3 CourbesROCobtenuespar lacombinaison desixmesures de conance. . . 131
7.4 Courbesrappel/précision obtenuespar la combinaisonde sixmesuresde conance.132
7.5 Courbes ROC obtenues par une représentation vectorielle à base de probabilités
acoustiques locales desphonèmes. . . 133
7.6 Courbes rappel/précision obtenues par une représentation vectorielle à base de
probabilités acoustiques locales desphonèmes. . . 134
7.7 Courbes ROC obtenues par une représentation vectorielle à base du nombre de
trames par étatdanschaquephonème. . . 135
7.8 Courbes rappel/précision obtenues par une représentation vectorielle à base de
nombre detrame par état danschaquephonème. . . 135
7.9 CourbesROCobtenuespar une représentation vectorielle mixte. . . 136
7.10 Courbesrappel/précision obtenuespar une représentation vectorielle mixte. . . . 137
7.11 CourbesROCobtenuespar une classication multi-classes. . . 138
4.1 La liste desmots cléschoisis etleurs nombresd'occurrencesdanslabase detest. 79
5.1 Grand vocabulaire. . . 92
5.2 Tauxde reconnaissanceen fonction de lavaleur de N. . . 93
5.3 Tableaurécapitulatifdesrésultatsobtenus enutilisant lesdiérentsmodèles
pou-belles. . . 110
6.1 Tableaurécapitulatifdesrésultatsobtenusenutilisantlesdiérentesméthodesde
mesures de conance. . . 124
7.1 Tableaurécapitulatif desrésultatsobtenusen utilisantdiérentesreprésentations
Dialoguer oralement avec les machines était un rêve humain dès l'apparition des premiers
ordinateurs. Ce rêve a commencé d'être un sujet de recherche vers les années soixante-dix,
no-tammentaveclepremierprojetARPA(AdvancedResearchProjectsAgency)decompréhension
de laparole qui a été lancé en 1971
[
Klatt, 1977
]
. Le but ultime de ce projetétait de pouvoir
dialoguer librement en langage naturel avec nos machines. Cependant, c'était très optimiste
d'imaginerqu'on puisseréaliser de tels systèmes en une dizaine d'années. En eet,aujourd'hui
et après plus de 30 ans, nous n'avons pas encore atteint les performances humaines même au
niveau de lapremière phasede ce projetà savoirlareconnaissance automatiquede laparole.
Ce sujet, qui a suscité un grand intérêt des chercheurs du domaine, commence à avoir un
impactdanslaviecourante.Lesprogrès réalisésdansledomainedelaRAPnouspermettent
au-jourd'huidereconnaîtrelaparole,deréaliserdessystèmesdedictéevocaleetd'élaborerquelques
applications interactives guidées très simplesà vocabulaire limité. Cependant noussommes
en-coreloin deréaliserdes systèmesde dialogue homme-machine trèsperformants.
À petits pas vers la réalisation d'applications interactives, utilisant la parole spontanée et
permettantdecomprendreetderépondreauxutilisateurs, unautredomaine avulejour depuis
unedizained'années, ils'agit de ladétectionde mots clés dansunuxde parole.
Ladétection demots cléspermetd'éviteren partielacomplexité etles défautsdessystèmes
dereconnaissance automatique delaparole continue, en détectant seulement un petit ensemble
de mots clés utiles pour comprendre la phrase prononcée. En eet, dans certaines applications
interactives, laprononciationd'un motclésut pour déclencher laréponseappropriée. L'étape
dedétection s'avère alors plusintéressante qu'une reconnaissancecomplète de laphrasecarelle
permetau systèmede réagirimmédiatement à lademandede l'utilisateur
[Gorin
etal.,
1997].
Comme son nom l'indique, cette technique consiste à détecter les mots clés les plus
carac-téristiques du domaine de l'application considérée, dans l'ensemble des productions vocales, y
compris les hésitations, les faux départs etc. Il s'agit donc de traiter la parole spontanée avec
toutes sessubtilités, de rejeterles mots hors-vocabulaire, considérés inutiles, etde ne conserver
que les mots qui ont une importance pour l'interprétation sémantique de la phrase prononcée,
lesmots clés de l'application.
Grâce à cette approche, les utilisateurs peu conscients des contraintes des systèmes de
re-connaissance ous'exprimant d'unemanière spontanée sansfaire attention auxstructures
gram-maticales de leurs phrases, eraient moins les concepteurs des applications interactives. Cette
approche a suscité beaucoup d'intérêt et a été utilisée dans de nombreuses applications, entre
l'ac-cès aux bases de données, le routage et la surveillance des appels téléphoniques [F
oote et al.,
1995][Gelin, 1997].
Le travail que nous présentons s'inscrit dans le cadre de la détection de mots clés dans un
uxde parole.Tout d'abord,nousétudionsplusieurs techniques dedétection etnousproposons
denouvellesméthodesbaséesprincipalementsurlesmodèlespoubellesetlamesuredeconance,
ainsiquedesapproches hybrides combinant ces deuxnotions.
En second lieu, nous présentons le système de détection de mots clés, comme un problème
de classication, danslequel chaque motclé doit êtreclassé commeun motcorrect (C) s'il
cor-respond àunmotclécorrectement reconnuoucommeunmotincorrect(I)s'ilcorrespondàune
fausseacceptation(insertionoufaussereconnaissance).Ainsi,unemauvaisereconnaissancedans
un tel système correspond à une fausse acceptation (I est classé comme C) ou à un faux rejet
(C classé comme I). Dans notre travail, nous étudions le classieur de type SVM (en anglais,
Supports Vector Machines) and'améliorer les performances de ladétection.
Cemémoire secomposededeuxparties:lapremièrepartie(chapitres1,2et3)faitl'étatde
larecherche dans ledomaine. La deuxième partie (chapitres 4, 5,6 et7) présente notre
contri-bution àladétection demots clés.
Dans le premier chapitre, nous décrivons tout d'abord les caractéristiques du signal de la
parole,puisnousévoquonslesdicultés liéesàlareconnaissancevocale.Ensuite nousexposons
les diérentes étapes utiles à l'extraction des paramètres du signal. Puis nousprésentons
l'ap-prochephonétique etl'approcheprobabiliste dansledomaine de lareconnaissanceautomatique
de laparole. Ennnous détaillonsl'application des HMMspour la reconnaissanceautomatique
de la parole, en résolvant les trois problèmes fondamentaux des HMMsà savoir l'évaluation, le
décodage etl'apprentissage.
Nousproposonsdansledeuxièmechapitre unétatdel'artdel'utilisation dumodèlepoubelle
et de la mesurede conance dans lecadre de notre application. Enpremier lieunous exposons
les diverses méthodes de construction du modèle poubelle. Ensuite nous détaillons diérentes
techniques à base de mesure de conance qui ont été proposées an de détecter les mots clés.
Enn nousterminons par lesapplications de détectionde motsclés.
Letroisièmechapitre estconsacréàlaclassication statistique,danslapremièrepartie,nous
décrivonstoutd'abordlesimplePerceptronetsonprinciped'apprentissagepourdétaillerensuite
le casle plus général du Perceptron multi-couches avec son algorithmede rétro-propagation de
l'erreur. Dansladeuxième partie,nousévoquonslathéorie d'apprentissage de Vapnik desSVM
ainsiqueleprincipe de laminimisation durisque structurel. Ensuite nousintroduisonsles trois
formules mathématiques surlesquellessont basésles SVMet nousprésentonsleurs applications
pour la recherche d'un hyperplan optimal permettant de classer des données. Enn nous
ter-minonspar une descriptiondes principesdes SVM.Dans latroisième partie, nousintroduisons
les SVM multi-classes etnous présentons les solutions proposées àbase desSVM binaires pour
décrireà lan,larésolution du problèmemulti-classes par une méthode d'optimisation.
Lequatrièmechapitre décritlesystèmedereconnaissancedelaparoleESPERE. Cesystème
d'évaluationainsiquequelquesmesuresd'évaluationutilespour ladétection demots clés.Nous
présentons enn les courbes ROC et les courbes rappel/précision qui seront utilisées comme
moyen d'évaluationdesméthodesélaborées toutaulong denotre travail.
Le cinquième chapitre permetde présenter diérentes approches pour la détection de mots
cléssefondant surlanotion demodèle poubelle.Nousévoquons alorsdiérentes techniques
no-vatrices pour mieuxrésoudreleproblèmede ladétectiondesmotshors-vocabulaire. En premier
lieu,nouscommençons par unmodèlepoubellesans apprentissage.Ensuite nousproposons une
nouvelle méthode à base d'un modèle poubelle appris en utilisant un GMM. Enn nous
abor-donsuneapprochehybridecombinantlesdeuxpremiersmodèles.Ensecondlieu,nousproposons
d'utiliserune reconnaissanceàbasedeboucledephonèmes,danslaquellenousappliquons
dié-rentesfonctionsde récompensequi favorisent lepassageentrelesphonèmesconstituantsunmot
clé.Une comparaison de l'ensemblede ces approches estprésentéeàla ndu chapitre.
Le sixième chapitre s'intéresse aux mesures de conance. Ces mesures permettent de
déci-der s'il faut rejeter ou accepter un mot clé reconnu. Nous dénissons alors diérentes mesures
de conance. La base fondamentale de ces mesures est la probabilité d'observation acoustique
localequ'onutilise pourcalculerles moyennesarithmétique,géométrique etharmonique comme
premières mesures à tester. Ensuite nous proposons la mesure de conance à base de boucle
de phonèmes, dans laquelle nous calculons en premier lieu, un rapport de vraisemblance et en
second lieu, une distance de vraisemblance. Ces mesures utilisent le score du mot clé reconnu
etsonimage quicorrespond àun ensemble de phonèmes reconnus en se basant surla méthode
de boucle de phonèmes. Enn nous combinons la notion de modèle poubelle avec la mesure de
conanceau seind'unmême système hybridepour ladétectionde mots clés.
Le septième chapitre introduit les SVM dansledomaine de ladétection de mots clés. Nous
montronsalorsqueleproblèmededétectiondesmotscléspeutêtreconsidérécommeunproblème
de classication, où chaque mot clé peut appartenir à deux classes diérentes à savoir correct
etincorrect. Levecteur d'entrée desSVMestun vecteurcaractéristique dumot cléconsidéré, il
contient ainsi les caractéristiques obtenues par un alignement de la sortie de notre système de
reconnaissanceavec lesmodèlesHMMdesphonèmes asscociés.Nousproposons diérentes
tech-niquespour lareprésentationvectorielled'unmotclé.Enpremierlieu,nousutilisonslesmesures
deconancebaseéssurlesmoyennes.Ensecondlieu,nousemployonslaprobabilitéd'observation
acoustiquelocaledechaquephonème.Puisnousintroduisonsunvecteurcaractéristique basésur
le nombre de trames dans chaque état. Enn, nous testons toutes ces diérentes méthodes en
utilisant un Perceptron multi-couches etunSVM binaire.La meilleure représentation esttestée
aussiparleSVMmulti-classes.Une étudecomparativedecesdiérentsmodèles terminece
cha-pitre.
Reconnaissance Automatique de la
Parole (RAP)
1.1 Introduction
Lareconnaissanceautomatiquede laparole estundomaine d'étudeactif depuisledébutdes
années 50. Il est clair qu'un outil de reconnaissance de la parole ecace facilitera l'interaction
entre les hommes etles machines. Les applications possiblesassociées à un tel outil sont
nom-breusesetsontamenéesàconnaîtreungrandessor.Laplupartdesapplicationsenreconnaissance
de la parole peuvent être regroupées en quatre catégories :commande et contrôle, accès à des
bases de données ou recherche d'informations, dictée vocale et transcription automatique de la
parole.
La technologie laplus utiliséedepuis plusde 20 ans estbasée sur desmodèles statistiques :
les modèles de Markov cachés (enanglais Hidden MarkovModels :HMM) capables de
modéli-ser simultanément les caractéristiques fréquentielles et temporelles du signal de parole. Depuis
l'introductionde cesmodèles,denombreux progrèsont étéréalisésdansledomainede la
recon-naissancede la parole.Néanmoins, les performances obtenuessont encore largement inférieures
àcelles desêtres humains, même siles progrès réalisésen moinsde 50 anssonténormes.
Nous présentons dans le paragraphe suivant le signal de parole en analysant ses
caracté-ristiques et ses composantes. Nous exposons dans le paragraphe 1.3, les dicultés liées à la
reconnaissancevocale.Ensuite nousdétaillons lesdiérentes étapes utilesà l'extractiondes
pa-ramètres du signal et nous présentons l'approche phonétique. Puis, nous montrons l'approche
probabiliste et surtout celle à base des modèles de Markov cachés, qui est la plus utilisée de
nosjours dansle domaine de la reconnaissance automatique de la parole.Enn nous décrivons
l'application desHMMspour lareconnaissance automatiquede laparole.
1.2 Le signal de parole
Lesignaldeparoleappartient àlaclassedessignauxacoustiquesproduitspardesvibrations
descouchesd'air.Lesuctuationsdelapressiondel'airproduisentdesvariationsdecesignal,en
fonctiondu temps, quipeuvent êtreenregistrées de façon analogique ou digitale.Ceci constitue
unereprésentationélémentaire dusignaldeparole
[Boite
etKunt,
1987].
Cesignalestlerésultat
travers leconduit vocal. Le signal de parole est donc une onde acoustique qui se propage dans
un milieu donné (en général l'air) et qui est le résultat de la modulation par le conduit vocal
d'uneonde d'excitation.
Lesphonèmessontlesélémentslesplusbrefsquipermettentdedistinguerdiérentsmots
[
Cal-liope, 1989].
Unmot peutêtre considérécomme un ensemblede phonèmes.Plusieurs formesdu
conduit vocal peuvent produire le même phonème. La forme que le conduit vocal prend pour
laproduction d'unphonème, dansun contexte donné, estassez variable et surtout dépendante
de ce contexte. Dece fait, nous remarquonsque les formesacoustiques associées àun phonème
déterminé sont variables. Cette variabilité est double : d'une part une variabilité du contenu
acoustiqueduphonème(dûàlavariétédesformesduconduitvocaldonnantlieuàce phonème)
etd'autrepartunevariabilitédeladuréeduphonème.Cettedernièrevariabilitérésulte
essentiel-lement dufait quelesystème articulatoire meten jeudes constantes mécaniquesqui contrôlent
les mouvementsmusculaires.
L'étudedesmécanismes les plusrépandus chez l'homme,ont montréquel'analyse des
mou-vements des diérents paramètres articulatoires peut être représentée par un modèle de type
source-ltre. Deux ltresplacés en cascade constituent lemodèlede chaque paramètre
articula-toire. Le premier est un ltre intégrateur, il est associé au système mécanique de la chaîne de
production de la parole. Le deuxième est un intégrateur d'ordre 2 et il correspond au système
physiologique. La source,quantà elle,est représentéepar une séquenced'impulsions
[George et
al.,1994
] .
La parole est un signal quasi stationnaire. Elle est formée de phonèmes et de transitions
entreces phonèmes (bienque lephonème nesoit pasune entité acoustiquement xe).Plusieurs
types de phonèmes existent : les voyelles, les consonnes fricatives etles consonnes plosives, les
nasales etles liquides. Les voyelles sont desphonèmes voisés (l'excitation se fait par la glotte),
leurproduction sefaitgénéralementavec unconduit vocalrelativement ouverteten absencede
constrictions et leur prononciation peut être isolée et durable dans le temps. Les consonnes se
caractérisent par une constriction (ou occlusion) dans leconduit vocal lors de leur production.
Ellespeuventêtrevoiséesounonvoisées.Danslecasdesfricatives,lacontrictiongénèreunbruit
local qui peut persister dansle temps et qui excite une partie du conduit vocal. Contrairement
auxvoyellesetauxfricatives,lesplosivesnedurentpasdansletemps,ellessontproduitesparun
relâchement rapided'uneocclusionduconduitvocal,quiproduituneperturbationlocale se
tra-duisant acoustiquement parunbruit impulsifde faibledurée. Destransitionslientles phonèmes
adjacents.D'une façontrèssimpliée,lestransitionsacoustiquescorrespondent àdestransitions
dansl'appareildeproductiondel'étatcorrespondant aupremierphonèmeàl'étatcorrespondant
au suivant
[Koreman
et al.,
1999].
Enconclusion,laparole est unsignalquasi stationnaireformé departies stationnaires et de
transitions entre ces diérentes parties. C'est un signal non déterministe, dans le sens où deux
réalisations d'un même mot auront nécessairement deux formes acoustiques diérentes, même
1.3 Les dicultés liées au signal de parole
Le problème de la reconnaissance de la parole réside essentiellement dansla spécité du
si-gnalvocal.Cesignalpossèdeunetrèsgrandevariabilité.Unemêmepersonneneprononcejamais
un mot deux fois de façon identique. La vitesse d'élocution peut varier, la durée du signal est
alors modiée. Toute altération de l'appareil phonatoire peut modier la qualité de l'émission
(exemple:rhume, fatigue,...). Deplus, ladiction évolue dansletemps. La voix est modiée au
coursdes étapesde lavie d'un êtrehumain (enfance,adolescence, âge adulte,...). La variabilité
interlocuteurestencoreplusévidente.Lahauteurdelavoix,l'intonation,l'accentdièrent selon
lesexe,l'originesociale,régionale ounationale
[
Hatonetal.,1991
]
.Ainsilaparoleestunmoyen
de communication où de nombreux éléments entrent en jeu, tels que le lieu,l'émotion du
locu-teur,larelationqui s'établitentre leslocuteurs (stressanteouamicale).Ces facteursinuencent
la forme et le contenu du message. L'acoustique du milieu (milieu protégé ou environnement
bruité), la qualité du microphone ou de la ligne téléphonique, les bruits de la bouche, les
hé-sitations, les mots hors-vocabulaire sont autant d'interférences supplémentaires surle signal de
paroleque lesystèmede reconnaissancedoit compenser.
L'aspect continu du signal de parole complique encore la tâche de reconnaissance. En eet,
lorsqu'onécoute parlerune personne, onperçoitune suitede mots,alors quel'analysedusignal
vocal ne permet de déceler aucun séparateur. Le même problème de segmentation se retrouve
à l'intérieur du mot lui même. Celui-ci est perçu comme une suite de sons élémentaires, les
phonèmes. L'analysedu signalne permetpas aussi de découperen segments distinctsle signal
acoustiqueand'identier les diérentsphonèmes quilecomposent.
1.4 Extraction des paramètres
L'objectif de cette phase de reconnaissance est d'extraire des coecients représentatifs du
signaldeparole.Cescoecientssontcalculés àintervallestemporelsréguliers.Ensimpliant les
choses,le signaldeparole esttransformé en unesériede vecteursde coecients, cescoecients
doivent représenter au mieux ce qu'ils sont censés modéliser et doivent extraire le maximum
d'informations utilespour lareconnaissance.
Parmi les coecients les plus utilisés etqui représentent au mieuxle signal de la parole en
reconnaissancedelaparole,noustrouvonslescoecientscepstraux,appeléségalement cepstres.
Les deux méthodes les plus connues pour l'extraction de ces cepstres sont : l'analyse spectrale
etl'analyseparamétrique. Pour l'analyse spectrale(parexemple, Mel-Scale Frequency Cepstral
Coecients (MFCC)) comme pour l'analyse paramétrique (par exemple, le codage prédictif
li-néaire (LPC)), le signal de parole est transformé en une série de vecteurs calculés pour chaque
trame.
Ilexisted'autrestypesdecoecientsquisontsurtoututilisésdanslesmilieuxbruités,nous
ci-tonsparexemplelescoecientsPLP(PerceptualLinearPredictive).Cescoecientspermettent
d'estimerlesparamètres d'unltre auto-régressif enmodélisant aumieuxlespectre auditif
[F
u-rui, 1981].
Ilexisteplusieurstechniquespermettantl'améliorationdelaqualitédecescoecients,
noustrouvonspar exemple :l'analysediscriminante linéaire (LDA), l'analysediscriminante non
linéaire(NLDA),etc.Pourplusdedétails surlesdiérentesméthodesd'extraction deces
Ces coecients jouent un rôle capital dans les approches utilisées pour la reconnaissance
de la parole. En eet, ces paramètres qui modélisent le signal seront fournis au système de
reconnaissance pour l'estimation de la probabilité P(sequencejmessage). Dans notre travail,
étant donné que nous ne nous intéressons qu'au milieu non bruité, nous nous sommes limités
à l'utilisation des coecients MFCC.Ces paramètres ont montré une bonne représentation des
aspects perceptuels du spectrede parole
[
Davis etMermelstein, 1980
] .
1.5 Les coecients MFCC
Dans le cadre d'une application de reconnaissance de la parole, seule l'estimation de
l'en-veloppe spectrale est nécessaire
[
Deroo,1998
]
. L'extraction de coecients MFCC estbasée sur
l'analyseparbanc deltresquiconsisteàltrerlesignalparunensembledeltrespasse-bande.
L'énergie en sortie de chaque ltre est attribuée à sa fréquence centrale. Pour simuler le
fonc-tionnement du systèmeauditifhumain,lesfréquences centralessont réparties uniformément sur
une échelle perceptive. Plus la fréquence centrale d'un ltre est élevée, plus sabande passante
estlarge.Cela permetd'augmenterlarésolution dansles bassesfréquences,zonequicontient le
plus d'information utile dans le signal de parole. Les échelles perceptives les plus utilisées sont
l'échelle Mel
1
oul'échelle Bark
2
.Dupoint devueperformancedessystèmesdereconnaissance
de laparole,ces deuxéchelles sont quasiment identiques.Dans nosexpériences,nousavonsfait
lechoix d'utiliser l'échelle Mel.
en trames
Segmentation
analogique
Signal
discrétisé
Signal
Filtrage et
Multiplication
de Hamming
par une fenetre
^
échantillonnage
Pré−accentuation
Fig. 1.1 Miseen forme dusignal
Lenombrede ltresutilisésdansune telleanalyseestchoisidemanière empirique:Zwicker
propose24 ltres
[
Zwicker etFeldtkeller, 1981
]
. Delamême manière, on choisit empiriquement
le type des ltres optimaux pour la reconnaissance de la parole
[Benayed, 1999].
Avant tout
calcul, ilestnécessaire d'eectuer quelquesopérations pour mettreen forme lesignaldeparole.
La gure 1.1 illustre l'ensemble de ces opérations. Le signal est tout d'abord ltré puis
échan-tillonné à une fréquence donnée. Une pré-accentuation est eectuée an de relever les hautes
fréquences, ensuitele signalest segmenté en trames. Chaque trame est constituée d'unnombre
xeN d'échantillons de parole.En généralN estxéde tellemanièrequechaquetrame
corres-ponde à environ 30ms de parole (durée pendant laquelle la parole peut être considérée comme
stationnaire). Enn, le fait de traiter un petit morceau de signal amène des problèmes dans le
ltrage(eetsdebord).Pour évitercela,nousutilisonsdesfenêtresdepondération.Cesont des
fonctionsquel'onapplique àl'ensembledeséchantillons prélevésdanslafenêtredusignal
origi-nalde façon à diminuerles eets de bords. Parmi les fenêtres les plus courantes, nouspouvons
citerlafenêtre de Hamming
3
.En général, lesfenêtres successivesse recouvrent etellesdoivent
1 ÉchelleMel:Mel (f)= 1000 Log(2) (1+ f 1000 ),f représentelafréquence 2
ÉchelleBark:Bark(f)=6:Arcsinh(
f 1000
),freprésentelafréquence
3
FenêtredeHamming :w(n) =0:54+0:46:cos(2
n
N 1
).Outre ce typedefenêtre, ilexiste plusieursautres
avoir une longueur susante. En pratique,on prend256 ou 512 échantillons, avec un
recouvre-ment par exemple de la moitié de la taille c'est-à-dire 128 ou 256 échantillons respectivement.
Cetraitement implique une hypothèse importante :Le signal vocal est supposé stationnaire sur
une courte période.
Après cette mise en forme du signal (commune à la plupart des méthodes d'analyse de la
parole), une transformée de Fourier discrète (DFT : Discret Fourier Transform), en particulier
FFT(Transformée de Fourier Rapide:Fast Fourier Transform), estappliquéepourpasserdans
ledomaine fréquentieletpour extrairele spectredu signal.
Ensuite le ltrage est eectué en multipliant le spectre obtenu par les gabarits des ltres.
Cesltres sont engénéral, soit triangulaires soitsinusoïdaux. Dansnosexpériences,nousavons
choisid'utiliser desltres triangulaires répartis surune échelle Mel.
sur une échelle MEL
Intégration des bandes critiques
2
FFT
Log ( . )
IFFT
MFCC
Signal
discrétisé
Fig.1.2 Calcul descoecientsMFCC (Mel-Scale Frequency Cepstralcoecients)
Le traitement décrit dansle paragraphe précédent permetd'obtenir une estimation de
l'en-veloppe spectrale(densité spectralelissée). Il est possible d'utiliser les sorties dubanc de ltres
comme entrée pour le système de reconnaissance. Cependant, d'autres coecients dérivés des
sorties d'un banc de ltres, sont plus discriminants, plus robustes au bruit ambiant et moins
corrélésentreeux. Ils'agit descoecients cepstrauxdérivésdessorties dubanc deltres
répar-tislinéairement surl'échelle Mel, ce sont les coecient MFCC. Le cepstreest dénicommela
transforméede Fourier inverse du logarithme de ladensité spectrale. Ceci a une interprétation
du point de vue de la déconvolution homomorphique : alors que le ltrage linéaire permet de
séparerdescomposantescombinéeslinéairement,danslecasdecomposantescombinées defaçon
non linéaire (multiplication ou convolution), les méthodes homomorphiques permettent de se
ramener au cas linéaire. Pour le signal de parole, la source d'excitation glottique est convoluée
avec laréponse impulsionnelledu conduit vocal considérécommeun ltre linéaire :
s(t)=e(t)h(t)
où s(t) estle signalde parole, e(t) est lasource d'excitation glottique eth(t) est laréponse
impulsionnelleduconduitvocal. L'applicationàl'équationprécédentedulogarithmedumodule
delatransformée deFourier donne :
LogjS(f)j=LogjE(f)j+LogjH(f)j
Par une transforméede Fourier inverse on obtient :
s(cef)=e(cef)+h(cef)
liftrage. Ce domaine est intéressant pour faire la séparation du conduit vocal et de la source
d'excitation. En eet, si les contributions relevant du conduit vocal et les contributions de la
source d'excitation évoluent avec des rapidités diérentes dans letemps, alors il est possible de
les séparer par application d'une simple fenêtre dansle domaine quéfrentiel (liftrage passe-bas
pour le conduit vocal). Le conduit vocal possède une contribution fréquentielle assez lisse qui
aboutiàuncepstrebasse-quéfrence.Réciproquement,lasourcepossèdeunecontributionquivarie
trèsrapidement dansledomainefréquentiel,soncepstreseradoncdansleshautesquéfrences.Le
domaine quéfrentiel estle domaine idéal pour séparerles deuxcomposantes, carnon seulement
leurcontributionssontséparéesdanscedomaine,maisaussiellessontadditives
[
Benayed,1999
] .
Lesétapes d'uneanalyseMFCC sont présentées danslagure1.2.
1.6 L'approche probabiliste de la RAP
Danslecadred'uneapplication delareconnaissanceautomatiquedelaparole,troisfacteurs
principaux interviennent (gure1.3) :
Le locuteur, qui à partir d'un message m (suite de mots) qu'il veut transmettre produit
unsignalacoustiques(t).
L'analyseuracoustique,quià partirdusignals(t) produit uneparamétrisationsousforme
d' une suite de vecteurs (séquence d'observations o) contenant l'information pertinente
pour lareconnaissance.
Undécodeurdontlerôle consisteàdéterminerà partir delaséquenced'observations o, la
séquencede mots m^ quicorrespond au messagem.
Génération
du message
signal de parole
Production du
Aquisation et
paramétrisation du signal
Décodeur
(suite de mots)
(suite de vecteurs)
m (mots reconnus)
^
séquence d’observations
m
s (t)
Lareconstitution d'unmessageminconnuàpartir d'uneséquenced'observations o, consiste
à retrouver, parmi tous les messages possibles, celui qui selon toute vraisemblance, correspond
à o. L'utilisation de la règle de Bayes permet de décomposer la probabilité P(mjo) en deux
composantes :
^
m=arg
m
maxP(mjo)=arg
m max
P(m)P(ojm)
P(o)
Ledénominateurestconstant pourtouslesmessagespossibles,donconpeutl'omettreet m^ sera
alorsécrit souslaforme suivante :
^
m=arg
m
maxP(m)P(ojm)
Ainsi, l'étape de reconnaissance consiste à déterminer la suite de mots m^ qui maximise le
produit des deux termes P(m) etP(ojm). Le premier terme représente la probabilité a priori
d'observer lasuite de mots m indépendamment du signal. Cette probabilitéest déterminée par
lemodèle de langage. Le deuxième terme indique la probabilité d'observer la séquence de
vec-teurs acoustiques o sachant une séquence de mots spéciques m. Cette probabilité est estimée
par le modèle acoustique. La qualité d'un tel système de reconnaissance de la parole peut être
caractérisée par la précision et la robustesse des deux modèles qui permettent de calculer ces
deuxtermesP(m) etP(ojm).
Modèle acoustique
Vecteurs acoustiques
mot 1
mot 2
mot 3
mot 4
· · ·
mot n
Dictionnaire de
prononciation
Extraction des paramètres
Modèle de langage
m
O
P (m) . P ( O | m)
Transcription phonétique
Fig. 1.4 L'approche probabilistede lareconnaissance automatiquede laparole
L'outil statistique le plus utilisé et le plus performant, de nos jours, pour la modélisation
acoustique est fondé sur les modèles de Markov cachés
[
Bahl et al., 1983
] [
Rabiner et Juang,
1993].
illus-de vecteurs acoustiques. En utilisant ces vecteurs, le modèle acoustique se charge, à partir des
HMMsde phonèmes appris surun corpus d'apprentissage, de construire lasuite des phonèmes
hypothèsesdu signalprononcé. Un seul modèle HMM,représentant l'hypothèse, sera construit
par la concaténation de l'ensemble des HMMs de phonèmes qui la compose et génère ainsi la
probabilitédusignals(t),ce quidénitlaprobabilitéP(ojm).Ainsi,àpartirdudictionnairedes
prononciations, lasuite des mots hypothèses sera déterminée. Cette suite de mots sera évaluée
par lemodèlede langage pour estimer laprobabilité P(m). Enprincipe,ce processusestrépété
pour toutes les hypothèsespossibles. Le systèmedonne enn lameilleure hypothèse comme
ré-sultatde lareconnaissance.
L'espacede toutes les séquences de mots m augmente très rapidement avec lataille du
vo-cabulaire. Il convient donc de restreindre larecherche à l'espace desséquences de mots les plus
plausibles.Lesapplicationsrécentesenreconnaissancedelaparoleutilisentsouventdesmodèles
de langage stochastiques. Un modèle de langage est un automate à états nis dont les états
représentent les mots du vocabulaire et les arcs les probabilités conditionnelles des transitions.
Ces probabilitéssontapprises surdescorpus de textesde l'application en question.
Considéronslecasd'une séquencem constituée dela suite desmots m
i avec i2f1;:::;Lg P(m)=P(m 1 m 2 :::m L )=P(m 1 ) L Y i=2 P(m i jm 1 m 2 :::m i 1 )
Dansla pratiqueon approxime P(m
i jm 1 m 2 :::m i 1 ) par P(m i jm i 1
),on parle dansce cas
de modèle de langage bigramme, ou par P(m
i jm
i 1
m
i 2
) et on parle alors de modèle de
lan-gagetrigramme. Lesmodèlesbigrammes et trigrammes sontles options les pluscourantes, elles
impliquent en général peude restrictionsgrammaticales, puisquecelles-ci portent seulement sur
desséquences de 2ou de 3mots.
1.7 Application des HMM à la RAP
1.7.1 Introduction
Unproblème majeur de lareconnaissance dela parole estde modéliser au mieuxdes unités
représentatives du signal de parole. Il existe en fait deux types de modélisation possibles des
propriétés d'unsignaldonné :
Lamodélisationdéterministe, quiexploite les propriétés intrinsèques dusignal.
Lamodélisationstatistique, quicaractérise les propriétésstatistiques du signal.
Dans ce travail, nous utilisons des modèles statistiques : les modèles de Markov cachés.
Un HMM peut être vu comme un ensemble discret de noeuds ou d'états et de transitions ou
d'arcsreliant cesétatsentreeux.Formellement,ilpeutêtredénipar l'ensembledesparamètres
[Rabiner etJuang, 1989] : =(N;A;B;)
A = fa ij g = fP(q j jq i
)g est la matrice des probabilités de transition sur l'ensemble des
états du modèle. La probabilité de transitionest laprobabilitéde choisir latransitiona
ij
pour accéder à l'état q
j
,étant donné un processus à l'état q
i
.Pour un HMM d'ordre un,
cette probabiliténe dépend quede l'étatprécédent :
P(q t =jjq t 1 =i;q t 2 =k;:::)=P(q t =jjq t 1 =i)
Elle dépenddes deuxprécédentsdanslecas d'unHMMd'ordre deux:
P(q t =jjq t 1 =i;q t 2 =k;:::)=P(q t =jjq t 1 =i;q t 2 =k)
End'autres termes,l'évolutiondu systèmeentredeuxinstantst 1 ettne dépend quede
l'état decesystèmeau tempst 1(ordre1) oudesdeuxinstantsprécédents t 1 ett 2
(ordre deux). B = fb j (o t )g = fP(o t jq j
)g est l'ensemble des probabilités d'émission de l'observation o
t
dans l'état q
j
. La forme que prend cette distribution détermine le type du HMM. C'est
ainsiqu'onparledeHMMsdiscrets,semi-continus,continus,etc.Pourplusd'informations
surlesdiérentstypesdeHMMs,lelecteurpourraconsulterlesouvragessuivants
[ Rabiner etJuang, 1989 ] [ Roxane,1995 ] .
est la distribution initiale des états, P(q
0
=j); 8j 2 [1;N]. q
0
représente l'état initial
du modèleHMM.Il ne peut émettre de vecteursacoustiques.
En reconnaissance de laparole, desmodèles de Markov gauche-droite d'ordre 1 sont le plus
souvent utilisés du fait de l'aspect séquentiel du signal de la parole
[
Bakis,1976
]
.La gure 1.5
illustre un HMM à 3 états typique utilisé en RAP pour la modélisation d'un phonème. Les
états d'entrée et de sortie sont fournis pour faciliter la concaténation des modèles entre eux.
L'état de sortie d'un modèle de phonème peut être fusionné avec l'état d'entrée d'un autre
modèle de Markov caché pour former un modèle composite. Cecipermet aux modèles de
pho-nèmes d'être concaténés ensemble pour former les mots et ainsi les phrases. On remarque que
lesseulestransitionspermisessontde typegauche-droite etceci danslebut demieux modéliser
lacontrainte temporellede laparole. Un HMM estconsidéré comme ungénérateur de vecteurs
acoustiques, c'est une machine à états nis qui change d'état à chaque unité de temps. Pour
chaque unitédetemps t, unefois arrivé àl'étatq
j
,unvecteur acoustiqueo
t
est généréavec une
densité de probabilité b
j (o
t
). De plus, la transition de l'état q
i
à l'état q
j
est probabiliste, sa
probabilitéestgénéralement notée a
ij
.Enpratique,c'estseulement laséquenced'observations :
O =o 1 ;o 2 ;:::;o T
qui est connue. La séquence d'états est non directement observable, d'où le
nomdemodèlede Markovcaché.
1.7.2 Les problèmes fondamentaux des HMMs
SoientunmodèledeMarkovcachéetOuneséquenced'observations acoustiques.La
recon-naissancedecetteséquences'eectueentrouvantlemodèlequimaximiselaprobabilitéP(jO)
(probabilité qu'un modèle génère une séquence de vecteurs acoustiques O).Cette probabilité
est aussi appelée probabilité aposteriori. Malheureusement, il n'est pas possible d'accéder
di-rectement àcette probabilité.Maison peutcalculerlaprobabilitéqu'unmodèle donnégénérera
1
2
3
4
5
a
12
a
a
a
a
a
a
45
22
23
33
34
44
o
2
o
1
o
3
b (o )
3
b (o )
3
o
5
o
6
o
8
o
9
O =
b (o )
b (o )
b (o )
b (o )
4
4
2
2
1
3
4
7
8
9
o
4
o
7
Séquence
d’observations
de Markov
Modèle
Fig.1.5Exempled'unHMMàtroisétats caractérisépar unedistributiondeprobabilitéspour
chaqueétat associéàune observationet par desprobabilités de transitionentreles états.
Enutilisant laloide Bayes, il estpossiblede liercesdeux probabilitéspar :
P(jO)=
P(Oj):P()
P(O)
P(Oj) estlavraisemblance de laséquenced'observations O étant donné lemodèle .
P() est laprobabilité aprioridumodèle.
P(O) estlaprobabilité aprioride laséquencedesvecteurs acoustiques.
Pour une séquence d'observations connue O = o
1
;o
2
;:::;o
T
., P(O) peut être considérée
constante, puisqu'elle est indépendante du modèle si les paramètres de ce dernier sont xés.
AinsimaximiserP(jO) revient àmaximiserP(Oj)P().
Pour cela,il fautrésoudre lestroisproblèmes fondamentaux desHMMssuivants:
Évaluation:
Étantdonnésuneséquenced'observations:O=o
1 ;o 2 ;:::;o T etlemodèle=(N;A;B;),
comment calculer ecacement P(Oj) laprobabilité d'observer laséquence O sachant le
modèle?
Décodage :
Étantdonnésuneséquenced'observations:O=o
1 ;o 2 ;:::;o T etlemodèle=(N;A;B;),
commentchoisirlaséquenced'étatsQ=q
1
;q
2
;:::;q
T
quialeplusdechanced'émettrela
séquenced'observations O?
Apprentissage:
Commentdéterminerlesparamètresdumodèle=(N;A;B;)andemaximiserP(Oj)?
1.7.3 Problème d'évaluation Soient le modèle = (N;A;B;), O = o 1 ;o 2 ;:::;o T
une séquence d'observations et Q =
q 1 ;q 2 ;:::;q T
une séquence d'états. La probabilité d'observer la séquence O pour une séquence
d'étatsQ est: P(OjQ;)=b q (o 1 ):b q (o 2 ):::b q (o T )
Or,la probabilitédela séquenceQ peuts'écriresous laformesuivante: P(Qj)= q 1 a q 1 q 2 a q 2 q 3 :::a q T 1 q T
La probabilité conjointe du chemin Qetdesobservations O est :
P(O;Qj)=P(Qj):P(OjQ;)
La probabilité de la séquenced'observations O sachant lemodèle est obtenue par la
som-mationdeP(O;Qj) surtoutesles séquencesd'étatsQpossibles.Ainsilaprobabilitéd'émission
desobservations est:
P(O;)= X Q P(O;Qj) P(O;)= X q 1 ;q 2 ;:::;q T q1 b q1 (o 1 )a q1q2 b q2 (o 2 ):::a q T 1 q T b q T (o T )
Pour unemachineàN états,cecalculdirectnécessite(2T 1)N
T
multiplicationsetN
T 1
additions, ce qui le rendtrop complexe et impossible à implémenter. Il existe heureusement un
algorithmerapideetecaceditavant-arrière(Forward-Backward)quidonneunesolutionpour
menerecacement ce calcul.
L'algorithme avant-arrière
Soit, la probabilité avant :
t (i) = P(o 1 ;o 2 ;:::;o t ;q t
= ij), la probabilité d'observer la
séquenceo 1 ;o 2 ;:::;o t
etd'être à l'étatià l'instant t sachant le modèle .Cetteprobabilité est
calculéed'unemanière récursive.
Algorithme1 Algorithme avant
Initialisation: 1 (i)= i b i (o 1 ) 1iN Récurrence: t+1 (j)=[ P N i=1 t (i)a ij ]b j (o t+1 ); t2f1;2;:::;T 1g et 1jN Terminaison :P(Oj)= P N i=1 T (i)
Cetterécursiondépenddufaitquelaprobabilité d'êtreàl'étatj autempst+1etd'observer
o t+1
peutêtre déduite en sommant les probabilités avant pour tous les états prédécesseursde j
pondérées par les probabilitésde transitiona
ij .
Delamême manière, soit laprobabilité arrière
t (j) dénie par : t (j) =P(o t+1 ;o t+2 ;:::;o T jq t =j;)
C'est la probabilité d'observer la séquence o
t+1
;o
t+2
;:::;o
T
sachant qu'on est à l'état i au
temps tetqu'on alemodèle .
Algorithme 2 Algorithmearrière Initialisation : T (i)=1 1iN Récurrence : t (i)= P N j=1 a ij b j (o t+1 ) t+1 (j); t2fT 1;T 2;:::;1g et 1iN Terminaison:P(Oj)= P N i=1 T (i)= P N i=1 i b i (o 1 ) 1 (i)= P N i=1 t (i) t (i) 1.7.4 Problème de décodage
Étant donnés une séquence d'observations O, et un modèle = (N;A;B;), le problème
de décodage revient à la recherche d'une séquence d'états optimale. Cela peut-être fait de
diérentes façons.La dicultérésidedansladénitiondelaséquenced'étatsoptimale.Donc,il
fautchoisiruncritèreparmi plusieurscritères d'optimalité.Par exemple,uncritère envisageable
pour répartir les vecteurs de la séquence d'observations sur les états de la chaîne, consiste à
optimiserséparémentchaqueétatq
t
.Pour implémentercette solution, unevariable estdénie
par : t (i)=P(q t =ijO;)= t (i) t (i) P N i=1 t (i) t (i) = t (i) t (i) P(Oj) t
(i) estlaprobabilitéd'êtreà l'étatiau tempst, étant donnéel'observation O etlemodèle
.
L'état optimalà uninstant tsera donc :
q t =arg i max[ t (i)]
Cecritère d'optimalitémaximise lenombre d'états. Cependant, cetteméthode peutaboutir
à deserreurs.Par exemple,lorsque lemodèle deMarkovpossède desprobabilités detransitions
égalesàzéro,laséquenceoptimale obtenuepourraitenfaitnepasêtreuneséquenced'états
pos-sibles puisquelecritère considéréne tient pascompte desprobabilités deschangements d'états.
Une solution possible est de modier le critère d'optimalité. On pourrait par exemple
cher-cher la séquence d'états qui maximise les paires d'états (q
t
;q
t+1
) ou même les triplets d'états
(q t ;q t+1 ;q t+2 ).
Sicescritèressonttoutàfaitadaptésàcertainesapplications,lecritèreleplusutiliséestcelui
qui cherche lameilleure séquenced'états globale (le meilleurchemin), c'est-à-direqui maximise
P(QjO;)ce quirevientà maximiserP(Q;Oj). Unetechnique formelleexiste pourcalculer ce
chemin optimal,ils'agit del'algorithme de Viterbi.
L'algorithme de Viterbi
Pourtrouverlameilleureséquenced'étatsQ=q
1
;q
2
;:::;q
T
,connaissantuneséquence
d'ob-servations O=o 1 ;o 2 ;:::;o T
,ona besoinde dénir laquantité Æ
t (i). Æ t (i)=max q1;q2;:::;qt 1 P(q 1 ;q 2 ;:::;q t =i;o 1 ;o 2 ;:::;o t j)
Æ t
(i) estle meilleur résultat (probabilité laplus grande) selon un simple chemin;ce chemin
secomposedestpremièresobservations etsetermine dansl'état i.OnpeutdéterminerlesÆ
t (i)
defaçon itérative.Ona eneet :
Æ t+1 (j)=max 1iN [Æ t (i)a ij ]b j (o t+1 )
Algorithme3 Algorithme deViterbi
Initialisation: Æ 1 (i)= i b i (o 1 ) 1iN 1 (i)=0 Récurrence: Æ t (j)=max 1iN [Æ t 1 (i)a ij ]b j (o t ) 2tT 1jN t (j)=arg 1iN max[Æ t 1 (i)a ij ] Terminaison : P =max 1iN [Æ T (i)] T =arg 1iN max[Æ T (i)] Recherche : q t = t+1 (q t+1 ) t=T 1;T 2;:::1
Pour déterminerlaséquenced'états,ilestdonc nécessairedegarderlatracedel'indice iqui
amaximisélaformuleprécédente,etcecipourtouttettoutj.Onréalisececiparl'intermédiaire
d'untableau (j).
1.7.5 Problème d'apprentissage
Letroisièmeproblèmeconsisteàtrouveruneméthodepourajusterlesparamètresdumodèle
=(N;A;B;) ande maximiserlaprobabilité d'uneséquenced'observations donnée,sachant
lemodèle . Ce problème n'a pasde solution analytique connue et il n'existepas de technique
optimalepourestimer lesparamètres dumodèle. Onpeutcependantchoisir=(N;A;B;) de
tellefaçon queP(Oj)soit localement maximaleenutilisantune procédureitérative tellequela
méthode de Baum-Welch ou la technique du gradient
[ Juang, 1985 ] [ Bahl et al., 1986 ] .Dansce
quisuit nousprésentonsune procédureitérative baséesurlatechnique deBaum-Welch.
Pour décrire comment re-estimer les paramètres du HMM, on dénit la probabilité
t
(i;j)
t (i;j)=P(q t =i;q t+1 =jjO;)
D'après les dénitions des probabilités avant et arrière, (i;j) peut s'écrire sous la forme
suivante : t (i;j) = t (i)a ij b j (o t+1 ) t+1 (j) P(Oj)
Nousavonsdéni, précédemment
t
(i)comme étantlaprobabilité d'êtreà l'étatiau temps
t, étant donnée l'observation O etlemodèle .Ainsinouspouvonsrelier
t
(i)à
t
(i;j) par une
sommationsurj,d'oularelation suivante :
t (i)= N X j=1 t (i;j)
L'algorithmedeBaum-Welch estimelesnouveauxparamètres delachaînedeMarkovcachée
comme suit : i = 1 (i); 1iN a ij = P T 1 t=1 t (i;j) P T 1 t=1 t (i) 1iN; 1jN b j (k)= P T t=1;o t =k t(j) P T t=1 t (j) 1jN La ré-estimation de i
est laprobabilité d'être à l'état i au temps t= 1.La formule de
ré-estimationdea
ij
estlerapportdunombredetransitionsdel'étativersl'étatj surlenombrede
transitions partant de l'état i.La ré-estimation deb
j
(k) est lerapportdu nombrede fois d'être
à l'étatien observant k surlenombrede foisétant dansl'étati.
Nousavons dénilemodèlecourant =(N;A;B;),et nousl'avons utilisé pourrecalculer
cesvariables,ainsinousavonslemodèleré-estimé
=(N;
A ;
B;).Nouspouvonsainsiarmer
l'une aul'autre de cespropositions :
le modèle initial dénit un point critique de la fonction de vraisemblance, dans ce cas
=
le modèle
est meilleur que le modèle dans le sens où P(Oj
) > P(Oj), donc la
sé-quence d'observations O est plusprobable avec lenouveau modèle
.
En se basant sur cette procédure, si nous utilisons itérativement le modèle
à la place de
et si nous répétons l'étape de laré-estimation desparamètres. Nouspouvons alors améliorer
la probabilité que O soit observée sachant le modèle jusqu'à atteindre un certain point limite.
Le résultat nal de la procédure de ré-estimation est appelé : l'estimation au maximum de
vraisemblance du HMM (Maximum Likelihood Estimation : MLE). Il existe d'autres critères
MMI(MaximumMutualInformation) [Cardin etal., 1991][Kapadia etal., 1993],
maisleurmise
en÷uvre estgénéralement plusdicile.
1.7.6 Densités d'observation continues dans les modèles de Markov cachés
Jusqu'à présent nous n'avons considéré que le cas où les observations prennent des valeurs
dansunalphabetnidiscret etnouspouvionsdonc utiliserune loi de probabilité discrète dans
chaque état du modèle. Une telleapproche n'est pascompatible avec desobservations qui sont
dessignaux continus. Bien sûr, quantier lesignal pourraitpermettre de résoudre leproblème,
maiscelanepourraitentraînerquedesdégradations.Ilestdoncpréférabled'utiliserdesmodèles
de Markov cachésavec des densités d'observation continues. La représentation la plus générale
de la fonction des densités de probabilités pour laquelle une procédure de ré-estimation a été
eectuéeestde laforme :
b j (o t )= M X m=1 c jm N(o t ; jm ; jm ) avec M X m=1 c jm =1 1jN où c jm estle m ieme
coecient du mélangedans l'étatj etN( ) est une densité gaussienne
demoyenne
jm
etdematrice de covariance
jm .
Dans lecasd'une distributionmonogaussienne, les formulesde ré-estimation de lamoyenne
etdelamatricedecovariancedeladensitédeprobabilitéàl'étatksontdonnéesparleséquations
suivantes: k = P T t=1 t (k)o t P T t=1 t (k) k = P T t=1 t (k)(o t k )(o t k ) P T t=1 t (k)
1.8 L'approche phonétique
Les modèles de Markov cachés sont largement employés en RAP ces dernières années. Ces
modèles se sont avérés les mieux adaptés auxproblèmes de lareconnaissance de laparole
[
Ra-biner et Juang,
1993].
La quasi-totalité des outils de reconnaissance de la parole disponibles
actuellement sur le marché sont basés sur cette technologie. Un modèle de Markov caché est
un automate stochastique particulier capable, après avoir été entraîné, d'estimer la probabilité
qu'uneséquenced'observationsaitétégénéréeparcemodèle.Idéalement,ilfautpouvoirassocier
àchaquephrasepossibleunmodèle.Ilvadesoiquececiestirréalisableenpratiquecarlenombre
de modèles serait très élevé. Des sous-unités lexicales comme le mot, la syllabe, ou le phonème
sont utilisées an de réduire le nombre de paramètres à entraîner. À chacune de ces unités est
associé un modèle de Markov caché constitué d'un nombre nid'états prédéterminés. Ainsi un
HMMpeutreprésentern'importequelensembled'unitésacoustiques:mots,phonèmesetc.Mais,
dans le cas des grands vocabulaires, le fait d'associer à chaque mot un HMM distinct pose de
sérieuxproblèmes d'apprentissageetdestockage.Eneet,pourréalisercettetâchecorrectement
il faut que le corpus d'apprentissage contienne plusieurs occurrences de chaque mot. Ceci est