D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´ UFR STMIA
Contributions ` a la reconnaissance automatique de la parole avec donn´ ees
manquantes
TH` ESE
pr´esent´ee et soutenue publiquement le 8 novembre 2007 pour l’obtention du
Doctorat de l’universit´ e Henri Poincar´ e – Nancy 1
(sp´ ecialit´ e informatique) par
S´ ebastien Demange
Composition du jury
Rapporteurs :
Laurent MiletProfesseur - ENSSAT- Lanion -Frane
Dirk Van Compernolle
Professeur - Université Catholiquede Louvain - Leuven -Belgique
Examinateurs :
Jean-Paul HatonProfesseur - Université HenriPoinaré -Nany - Frane
Noureddine Ellouze
Professeur - ENIT- Tunis- Tunisie
Salvatore Tabbone
MCF (HDR) -Université deNany 2 - Nany- Frane
Christophe Cerisara
Chargé dereherhe CNRS-Nany - Frane
Une thèse est une étape inportante dans la vie de toute personne attirée par le monde de
lareherhe.Cette histoire estrihe denouvellesexpérienes,d'éhanges et de renontres.A e
titre,j'aimeraisremerierdenombreusespersonnespouravoirontribué,hauneàleurmanière,
à la rédation de e mémoire. J'adresse don mes remeriements les plushaleureux et les plus
sinères :
à Violaine, qui partage ma vie depuis plus de 10 ans et qui m'a toujours enouragé et
soutenuestrois annéesdurant.
à Jean-Paul Haton et Christophe Cerisara pour m'avoir mis le pied à l'étrier, suivi et
onseilléainsique pour leur grandedisponibilité etgentillesse.
auxautresmembresdemonjurydethèse,SalvatoreTabbone,NourredineEllouze,Laurent
MiletetDirkVan Compernolle.
à tousles membres de l'équipe PAROLE.
àtoute mafamilleetplus partiulièrement mesparents, monfrère ainsique Mihel,Gene
etAmandine.
àtousmesamisaveunepenséepluspartiulièrepourCaroline,Emmanuel, Slim,Joseph,
Romain,Gilles, Loï, etbiend'autres
Desparolesde doueur
Des momentsde bonheur
Desregards éhangés
Un zestede ompliité
Des étoilesdansles yeux
Lajoied'êtredeux
Maindans lamain
Suivre lemême hemin
Justelamagie de l'amour
Unebelleviepour toujours
Table des gures ix
Liste des tableaux xi
Introdution générale xiii
Chapitre 1
La reonnaissane automatique de la parole robuste au bruit
1.1 Reonnaissaneautomatique de laparole. . . 2
1.1.1 Le signalde laparole. . . 2
1.1.2 Paramétrisationdu signal . . . 3
1.1.3 Prinipe de lareonnaissane . . . 5
1.1.4 Le modèle deMarkov ahé . . . 9
1.2 Robustesse aubruit . . . 16
1.2.1 Le bruit . . . 16
1.2.2 Stratégies pour lareonnaissanerobuste de laparole . . . 18
1.3 Conlusion. . . 23
Chapitre 2 Reonnaissane automatique de la parole ave données manquantes 2.1 Masquageen reonnaissanede laparole . . . 27
2.1.1 Théorie gestaltiste :pereption etstruturationdu monde . . . 27
2.1.2 Le masquage danslapereption humaine de laparole . . . 28
2.2 Masquageen reonnaissaneautomatique dela parole . . . 29
2.2.1 Masque de donnéesmanquantes. . . 30
2.2.2 Masque orale. . . 33
2.3 Reonnaissanede laparole surdesobservations partielles . . . 33
2.3.1 Le problèmedes donnéesmanquantes . . . 33
2.3.2 Imputation desdonnées . . . 34
2.3.3 Marginalisationdesdonnées . . . 39
2.4 Conlusion. . . 48
Chapitre 3 Estimation des masques : état de l'art 3.1 Introdution . . . 52
3.2 Analyseomputationnelle de sèneauditive . . . 53
3.2.1 Prinipesde base . . . 53
3.2.2 Brefsurvoldessystèmes CASA . . . 54
3.3 Traitement du signaletmodèles statistiques . . . 59
3.3.1 Séparationbasée surleSNR loal. . . 60
3.3.2 Réseauxde neurones . . . 62
3.3.3 Séparationde soures . . . 62
3.3.4 Modèles statistiques . . . 64
3.3.5 Masque ommeproduitde lareonnaissane. . . 66
3.4 Disussion . . . 67
Chapitre 4 Deux nouvelles approhes de modélisation des masques 4.1 Introdution . . . 72
4.2 Dépendanes temporelles etfréquentiellessur lesvaleursde masques . . . 74
4.2.1 Introdution. . . 74
4.2.2 Dépendanes fréquentielles. . . 74
4.2.3 Dépendanes temporelles . . . 78
4.2.4 Estimateurs demasques . . . 79
4.3 Une nouvelle aratérisation desmasquesde données manquantes . . . 81
4.3.1 Introdution. . . 81
4.3.2 Masque deontribution . . . 83
4.3.3 Masque deontribution etintervalle demarginalisation . . . 83
4.3.4 Gestion desoeientsde vitesse . . . 84
4.4 Conlusion. . . 85
Chapitre 5 Évaluations 5.1 Introdution . . . 89
5.2 Cadre expérimental . . . 89
5.2.1 Lesbases dedonnées . . . 89
5.2.4 Paramétrisationpour lesmodèles de masques . . . 94
5.3 Dépendanes surles valeursdemasque . . . 94
5.3.1 Inuenedesdépendanes surles masques . . . 95
5.3.2 Évaluationdesmasques . . . 97
5.3.3 Évaluationde lareonnaissane . . . 99
5.3.4 Conlusion . . . 106
5.4 Rédution desintervallesde marginalisation . . . 107
5.4.1 L'erreur marginale auxmoindres arrée :MaMSE. . . 107
5.4.2 Interprétationde lamesureMaMSE . . . 108
5.4.3 Résultats . . . 110
5.4.4 Conlusion . . . 115
Chapitre 6 Conlusion générale 6.1 Cadre de notreétude . . . 118
6.2 Contributions . . . 119
6.2.1 Dépendanes surles masques . . . 119
6.2.2 Une nouvelle dénition demasques . . . 120
6.3 Perspetives . . . 122
Annexes Annexe A Rappel des onepts probabilistes pour la lassiation bayésienne A.1 Aspetprobabiliste . . . 125
A.1.1 Probabilité jointe . . . 125
A.1.2 Loimarginale . . . 126
A.1.3 Loi onditionnelle. . . 126
A.1.4 Règle deBayes . . . 127
A.2 Aspetdéisionnel . . . 127
A.2.1 Déisions etrèglesde déision . . . 127
A.2.2 Fontions deoût etderisque . . . 128
A.2.3 Le lassieurdu tauxd'erreur minimum . . . 129
Annexe B
Liste des publiations
Glossaire 133
Bibliographie 135
1.1 Représentation temporelle d'un signal de parole orrespondant à la séquene de
mots onethree nineoh.. . . 2
1.2 Fenêtre de Hammingh(n). . . 4
1.3 Représentation spetraled'unsignalde laparole orrespondantà laphrase :one three nineoh. . . 5
1.4 Bande ltresà éhelle Mel. . . 6
1.5 Représentation Melspetraled'un signalde parole. . . 6
1.6 HMMgauhe-droiteà3étatsusuellement utilisépourlamodélisationdephonèmes. 13 1.7 Illustration dela reonnaissanede laparole par l'algorithmede Viterbi. . . 15
1.8 Représentation spetrale d'un signalde parole orrompu par le bruit du métro à 5 dB. . . 17
1.9 Stratégies pour lareonnaissanerobuste de laparole. . . 19
1.10 Combinaisonparallèle dedeux modèles deMarkov. . . 21
2.1 Reonstrution d'unsignalinomplet par interpolation temporelle. . . 36
2.2 Évaluationde lamarginalisation de données . . . 47
2.3 Arbredelassiationdesalgorithmesdereonnaissaneautomatiquedelaparole en présenede donnéesmanquantes ouinertaines . . . 50
3.1 Prinipe de l'analysede sènevisuelle . . . 53
3.2 Représentation de typesynhrony strands,de Cooke. . . 56
3.3 Exemple d'arhiteture d'unsystème CASAmulti-agents:Ipanema . . . 58
3.4 Arhiteture dusystème d'estimation de masquebasé sur unréseau de neurones osillant proposépar Wang etBrown[Wang 99℄ . . . 59
3.5 Utilisation d'algorithmes de séparation de soures pour l'estimation de masques de donnéesmanquantes. . . 63
3.6 Reonnaissanede parolesonurrentes àpartir d'unHMMfatoriel . . . 66
3.7 Le déodeurmulti-soures de Barker . . . 68
4.1 Struturespetraledesmasquesdedonnéesmanquantesvs.enveloppeénergétique du signaldeparole. . . 75
4.2 Évaluationdunombredemasques élémentairesenfontionduseuildeouverture
α
desmasques oralesetdu nombrede oeientsspetrauxsurAurora 2 . . . . 774.3 Détermination du nombre de masquesvetoriels élémentaires surAurora2 . . . . 78
4.4 Représentation des 4 estimateurs de masques dans le adre de l'évaluation des dépendanessur lesmasques. . . 80
4.5 Intervalles de marginalisation pour des masques fondés sur le seuillage du SNR loalà 0dB . . . 82
5.1 Impressionvisuellede l'eet desdépendanes temporelleset fréquentielles surles masques . . . 96
5.2 Évaluationdesdépendanes surlesmasques surlabase Aurora2 . . . 98
5.3 Erreursde reonnaissane. . . 100
5.4 Évaluationdesdépendanessurlesmasquesentauxdereonnaissanesurlabase Aurora2 . . . 101
5.5 Tauxdereonnaissaneobtenusàpartirdesmasquesoralesoriginauxetrestreints surAurora 2 . . . 103
5.6 Évaluation de la rédution de l'espae des masques dans le adre du problème oktailparty . . . 105
5.7 Évaluationde lamesureMaMSE . . . 109
5.8 Intervallesde marginalisation dérivésdesmasques de ontributions . . . 112
5.9 Intervallesde marginalisation dérivésdesmasques SNR-0 . . . 113
5.10 Comparaisondestaux dereonnaissane obtenus à partir desmasques orales de ontribution etSNR-0 surlabasede test Hiwire . . . 114
5.11 Comparaison destauxde reonnaissane obtenus àpartir des masques deontri- butionetSNR-0 estiméssurlabasede test Hiwire . . . 114
A.1 Loijointe
π(x, C k )
etses marginales . . . . . . . . . . . . . . . . . . . . . . . . . 1271.1 Propriétés aratérisantes du bruit . . . 17
5.1 Nombre d'enregistrements et de louteurs par langue maternelle pour le orpus
Hiwire. . . 89
5.2 Composition en nombre d'enregistrement de labase Hiwire utiliséepour nos ex-
périenes. . . 90
5.3 Composition de la base de données Aurora 2. Le nombre d'enregistrements est
fournit pour haque ondition(bruit - SNR)desbases d'apprentissage etde test. 91
5.4 Évaluation de la ontribution des dépendanes sur les masques par les taux de
reonnaissane obtenus surAurora 2. . . 102
5.5 Évaluation de la rédution des intervalles de marginalisation sur la base Hiwire
par lamesureMaMSE . . . 110
Ouvre la porte, HAL!
-2001 : l'odyssée de l'espae -
Parler ave les mahines est une desvisions réurrentes de notre imagination olletive de l'in-
formatique du futur. Dès 1968 Stanley Kubrik avait imaginé et mis en sène un ordinateur
intelligent, appelé HAL, apable de raisonner, de rééhir mais ausside ommuniquer verbale-
ment.Pourtant,àetteépoque,latehnologienepermettaitdereonnaîtretoutauplusquelques
entainesdemotspardessystèmessimuléssurdegrosordinateurs.Quaranteansplustard,grâe
à l'avènement de l'informatique et aux eorts déployés, les systèmes de reonnaissane voale
sont devenus des produits de onsommation destinés à un très large publique. La reonnais-
sane voale est devenue une des tehnologies prépondérantes dans le développement d'inter-
faesHomme-Mahineavanées.Toutefois,malgrélesavanéestrès importantes deesdernières
années dans e domaine, les systèmes atuels sont enore en deçà des performanes de notre
systèmed'audition.Un desprinipauxobstales audéploiement dessystèmesdereonnaissane
voale estlarobustesseau bruit.Lesdiérenes entre lesonditions d'utilisation (généralement
bruitées) etd'apprentissage (absene de bruit) des modèles aoustiques provoquent une dégra-
dation signiative des taux de reonnaissane, même si es dégradations semblent minimes à
l'oreille.
La reonnaissane de la parole ave données manquantes est une approhe qui fut développée
dans le domaine de la vision [Ahmad 93 ℄ et transposée à la reonnaissane automatique de la
parole il y a près de 10 ans [Cooke 96, Cooke 97 , Cooke 01b℄. A la diérene des méthodes de
débruitage ou d'adaptation, la reonnaissane ave données manquantes utilise un masque. Ce
masque orrespond à l'identiation dans le signal observé (plus préisément dans le domaine
spetral 1
) desparamètres troporrompuspar lebruit pour fournir uneinformation exploitable
etpertinente aumoteurde reonnaissane.Ilestmontréqu'ilestplusjudiieuxd'ignorerdetels
paramètresdurantleproessusdedéodage.Cesparamètressontommunémentappelésdonnées
manquantes ou masquées. Une foises paramètres identiés, des algorithmes dereonnaissane
en présenededonnées manquantessont mis en÷uvre. Ces algorithmes peuvent êtredivisésen
1
domainedeparamétrisationrésultantd'uneanalysefréquentielledusignal.
deux familles. Les tehniques dites d'imputation [Raj 00 ℄ estiment la ontribution énergétique
du signaldelaparole pour lesparamètres masqués. Lesdonnéesmanquantes sont reonstruites
andefourniraudéodeurunensembleompletdeparamètres dérivant lesignalàreonnaître.
Les tehniques dites de marginalisation [Vizinho 99, Barker 01b, Morris01a ℄ reposent sur une
adaptation du moteur de reonnaissane pour que e dernier puisse reonnaître un signal de
parole à partir d'une représentation inomplète de elui-i. Plus préisément, la vraisemblane
desparamètres masquésetsubstituée par sonespéranealuléesurl'ensembledesvaleurspos-
sibles de es paramètres. De nombreux travaux ont montré que de telles stratégies permettent
d'améliorer onsidérablement les taux de reonnaissane. Lorsque les masques sont onnus a
priori (masques orales), 'est-à-dire lorsque les paramètres masqués sont lairement identiés
à partir des signaux de parole seule et du bruit, les taux de reonnaissane sont prohes de
eux obtenus en absene de bruit.Cependant es performanes représentent seulement les per-
formanes potentiellement atteignables. En pratique les masques de données manquantes sont
estimésàpartirdesseulesobservationsbruitéesetonstituentparonséquentuneapproximation
erronéedesmasquesorales.Lesdiérenteserreursd'identiation ommisesparlesestimateurs
de masques setraduisent par une hute desperformanes illustrant lerle de premier plan des
masques. L'estimation des masques onstitue don un problème entral en reonnaissane au-
tomatiquedelaparoleavedonnéesmanquantesfaisant l'objetdenombreusespubliationsdans
e domaine.
Nostravauxseplaent dansleontextede l'estimationdemasques àpartir de modèlesstohas-
tiques.Cetteapprohefutinitiéeàl'universitédeCarnegieMellonparl'équipedeRihardStern.
Lespubliations[Seltzer 00,Raj 00 ,Kim05,Kim06℄dontellefaitl'objetmontrentqu'ilestpos-
sibled'apprendredesmodèlesdemasquesetlesrésultatsreportéssonttrèsenourageants.Notre
première ontribution onerne la dénitionde es modèles. L'estimateur bayésien proposé par
SeltzeretRajRamakrishnanlassie haqueoeient spetraldusignalobservéommeable
ou manquant de manière indépendante. En d'autres termes, lemasque d'unoeient spetral
partiuliernedépendpasdesmasquesdesoeientsdesonvoisinage. Pourtantnousmontrons
qu'une similitude existe entre la struture des masques et l'enveloppe énergétique du signal de
paroledansledomainespetral.Lesoeientsdefaible énergiesontplussensiblesaubruitque
les oeients de forte énergie etsont don plus souvent masqués. L'enveloppe énergétique du
signal de parole étant très struturée, noussupposons que les masques de données manquantes
lesontdelamêmemanière.Aetégardnousproposonsdenouvellesarhiteturesd'estimateurs
bayésiens dans le but de restituer ette struture. Des erreurs de masque loales peuvent ainsi
être évitéesen onsidérant un masquedanssaglobalité (lemasqued'unphrase par exemple)et
non plusommeune omposition d'entités(masques àl'éhelle du oeient)indépendantes.
La mise en ÷uvre d'un algorithme de déodage de la parole sur des observations partielles re-
aoustique est le plus souvent déterminée à partir du SNR . Tout oeient spetral dont le
SNR est inférieur à un seuil prédéterminé est onsidéré ommemanquant. Dans le adre de la
marginalisation dedonnées, laprise en ompte deette dénition de masque apermis d'aner
l'algorithme de déodage, notament en proposant des intervalles de marginalisation spéiques
auxdonnées manquantes etables.Ces intervallessont plusns queeux initialement proposés
permettant un gainsigniatif en terme de taux de reonnaissane. Nous proposons dansette
optique unenouvelle dénition demasque etmontrons omment l'exploiter danslebut demin-
imiser les intervalles de marginalisation.
Le premierhapitre onstitue une rapide introdution à la reonnaissane robuste de la parole.
Nousprésentonsdansunpremiertemps lesprinipesgénérauxdelareonnaissaneautomatique
de laparole et relatons diérentes stratégies de déodage usuellement utilisées. Nousdérivons
plus partiulièrement lemodèlede Markovahé ainsi quesamiseen ÷uvrepuisquee modèle
s'est imposé omme modèle de référene dans la ommunauté du traitement des langues nota-
ment pour sa apaité à modéliser un signal à évolution temporelle tel le signal de parole. Les
systèmes de reonnaissane de la parole atuelsexploitent pour la plupart e modèle. Dans un
seondtempsnousadressonsleproblèmedelarobustesseaubruit.Nousmettonsenévideneles
prinipalestehniquespermettant d'améliorerlarobustessedessystèmes.Celles-iinterviennent
à desétapes distintes du proessus de reonnaissane allant de laparamétrisation du signalà
l'algorithme dedéodage.
La reonnaissanede laparoleave donnéesmanquantes estprésentéeauhapitre 2.Nousrela-
tons destravaux montrant quenotre systèmeauditif seomporte de manière séletive vis-à-vis
desdiérentsstimuliqu'iltraite.L'oreillehumaineestapablededistinguerlesdiérentsateurs
d'unesèneauditiveetpeutparunproessusdemasquagesefoalisersurunesouresonorepar-
tiulière.Cesétudesnemontrentpasommentnousséletionnonslesportionsd'intérêtdusignal
maismontrentquenoussommesapablesdereonnaîtredelaparoleàpartird'unereprésentation
parellaire du signalaoustique. Nousdénissons ensuite les notions de donnéesmanquantes et
de masquededonnées manquantes dansleadredelareonnaissaneautomatiquede laparole.
Les diérents algorithmes d'imputations et de marginalisation sont dérits. Nous onluons e
hapitrepar uneévaluationomparativede3tehniquesdemarginalisationmettant enévidene
lefortpotentieldelareonnaissanedelaparole ave donnéesmanquantes maisaussilerlede
premier planquejouent les masques.
L'estimation de masques de données manquantes onstitue aujourd'hui un enjeu important et
motive de nombreux travaux. Nous proposons au troisième hapitre un état de l'art de et axe
dereherhe.Lesprinipalesapprohesproposéesdanslalittératuresontprésentéesaveomme
seulelimitationl'usaged'ununiquemirophonepourl'aquisitiondusignal.Cetravailprospetif
2
Rapportsignalsurbruit.Cettemesurepermetdequantierledegrédeorruptiondusignal.
n'est paslimitéauseul adreappliatifqueonstitue lareonnaissanede laparolemaisouvre
également des domaines onnexes omme la séparation aveugle de soures, l'analyse omputa-
tionnelle de sène auditive ou enore la détetion de parole utile. Nous avons hoisi de lasser
estravauxen deuxatégories:d'unepartlesméthodess'inspirant dufontionnement denotre
appareilauditif,etd'autre part,lesméthodesorientéestraitementdusignal. L'objetifn'est pas
d'opposer es deux approhes. Au ontraire, de réents travaux, le déodeur multi-soures de
Barker[Barker06 ℄parexemple,montrent lebénéede ombinerdesoneptsissusdeesdeux
approhes.
Nous proposons au hapitre 4 deux nouvelles modélisations des masques. La première a pour
objetif la modélisation desdépendanes existantes entre les valeurs de masque des oeients
spetraux.Nousmotivonsetteapproheenmettantenévidenelessimilitudesentrel'enveloppe
énergétiquedusignaldeparoleetlastruturedesmasquesdansledomainespetral.Nousdénis-
sons deuxtypes de dépendane : lesdépendanes temporelles etles dépendanes fréquentielles.
Nous dérivons omment es dépendanes peuvent être prise en ompte pendant le proessus
d'estimation demasque, etnousproposonsdenouveauxmodèles stohastiquesdemasquesinté-
grant individuellement ouonjointement esdépendanes.Nousproposons ensuiteune nouvelle
dénition de masque permettant, dans leadre de la marginalisation de données, d'aner l'al-
gorithme de déodage. Cette nouvelle dénition de masque permet de réduire les intervalles de
marginalisation omparativement auxintervalles dérivésdes masques fondéssur le seuillagedu
SNR lassiquement utilisés.
Ces propositions sont évaluées au hapitre 5. Une omparaison des masques générés par nos
estimateursavelesmasquesoralesestprésentéeanderendreomptedeleurqualitéenterme
d'identiation des données masquées. Nous présentons également une étude qualitative des
masques résultant denospropositions enles omparant auxmasques obtenus àpartir d'estima-
teurde référenequenousdénirons. L'objetif ahé de nostravauxestd'améliorer laqualité
des masques ainsi que leur prise en ompte par le moteur de reonnaissane. Nous présentons
dansette optique une évaluationomparative desrésultats de reonnaissaneobtenus à partir
de nos propositions sur diérentes bases de données par rapport aux taux de reonnaissane
obtenus ave lessystèmes de référene.
La reonnaissane automatique de la
parole robuste au bruit
J'entendsta voix dans tous les bruits du monde.
-Paul Eluard -
Sommaire
1.1 Reonnaissane automatique de la parole . . . 2
1.1.1 Lesignaldelaparole . . . 2
1.1.2 Paramétrisationdusignal . . . 3
1.1.2.1 Représentationsparamétriquesdusignaldelaparole . . . 3
1.1.2.2 Lespetrogramme . . . 4
1.1.3 Prinipedelareonnaissane . . . 5
1.1.3.1 Reonnaissaneàbased'exemples . . . 6
1.1.3.2 Classiationprobabiliste . . . 7
1.1.3.3 Surfaesdedéisionet fontionsdisriminantes. . . 7
1.1.3.4 Modèleshybrides . . . 9
1.1.4 LemodèledeMarkovahé . . . 9
1.1.4.1 Dénition d'unHMM . . . 10
1.1.4.2 Miseen÷uvre . . . 11
1.1.4.3 LimitationdesHMM . . . 16
1.2 Robustesse aubruit . . . 16
1.2.1 Lebruit . . . 16
1.2.2 Stratégiespourlareonnaissanerobuste delaparole . . . 18
1.2.2.1 Paramétrisationrobustedusignal . . . 18
1.2.2.2 Débruitagedusignal. . . 19
1.2.2.3 Adaptationdesmodèlesaoustiques . . . 20
1.2.2.4 Modiationdel'algorithmededéodage . . . 22
1.3 Conlusion . . . 23
Cehapitreprésenteleproblèmedelareonnaissaneautomatiquedelaparole(RAP). Nous
aratérisons dans un premier temps le signal aoustique de la parole. Nous évoquons ensuite
le prinipe général de la RAP et en partiulier l'approhe bayésienne qui est la plus répandue.
Nous détaillons un modèle bayésien partiulier :le modèle de Markov ahé (HMM : Hidden
Markov Model). Ce modèle fournit de très bons taux de reonnaissane en ondition d'utilisa-
tion maîtrisée. Cependant es performanes sont loin d'êtreaussibonnes lorsque les onditions
d'utilisation se dégradent. Cette diérene de performane due aux onditions d'expérimenta-
tion relève de la robustesseau bruit du système de reonnaissane. Nous exposons les grandes
approhesde reonnaissanerobuste de laparole.Plusieurs ouvrages traitent dee problème et
plus généralement delareonnaissane de laparole[Boite 00,Mariani 02 , Haton06 ℄.
1.1 Reonnaissane automatique de la parole
1.1.1 Le signal de la parole
Le signalde parole estune onde aoustiquemoduléepar l'appareil phonatoireen fréquene
et en amplitude. Cette onde est généralement présentée sous la forme d'une ourbe (Fig. 1.1)
représentant les variationsd'amplitude dusignal auours dutemps.
- 6
one three nine oh
Temps Amplitude
Fig. 1.1 Représentation temporelle d'un signal de parole orrespondant à la séquene de mots
one three nine oh.
Lesignaldeparoleestuneonaténationderéalisationsaoustiquesélémentaires.Cesréalisations
sont plusonnuessouslenomdephonèmes. Unphonèmeestune entité abstraite dénieomme
la plus petite unité aoustique. Chaque langue peut être alors aratérisée par un ensemble de
phonèmesquionstituentenquelquesortelesbriquesaoustiquesélémentairesàpartirdesquelles
lessyllabes,lesmotsetlesphrasessontonstruits.Toutsignaldelaparolepeutalorsêtreexprimé
ommeunesuessiondephonèmes.Cesignalvéhiuleunensembled'informationstrèsdiverses:
lemessagequeveutfairepasserlelouteur,sonhumeur,sonidentité,et.Lesignalàreonnaître
fait,dansunpremier,l'objetd'unprétraitement,appeléparamétrisation,onsistantàextrairede
1.1.2 Paramétrisation du signal
1.1.2.1 Représentations paramétriques du signal de la parole
Lerled'unmoduledeparamétrisationdusignalestdefourniretd'extrairedesinformations
aratéristiquesetpertinentesdusignal.Cesinformationssontrestituéessouslaformed'unesuite
disrète de veteurs, appelés veteurs aoustiques ou veteurs d'observations. Chaque veteur
ontient unnombre nide paramètres représentant les aratéristiquesd'un segment dusignal.
La onaténation de es veteurs fournit une représentation disrète etparamétrique du signal
à traiter [d'allessandro 92 ℄. La onversion du signal en séquene de veteurs d'observations est
régie par unmodèle paramétriquearatérisantle point devue souslequellesignalest observé.
La paramétrisation onsiste à estimer les paramètres de e modèle. Ces modèles peuvent être
lassés en quatrefamilles:
Les modèles artiulatoires
Ilspermettentd'extrairelesinformationsrégissantleméanismedephonation.Cetteparamétri-
sation s'appuiesurunformalisme issudelaméaniquedesuidespuisquel'ondeaoustiqueque
nous produisonsen parlant résulte de lairulation d'un uxd'air au travers du onduit voal
onstitué d'artiulateurs. Les paramètres extraits odent laposition desdiérents artiulateurs
(position deslèvres,ouverture de labouhe, protusion, position delalangue, et).
Les modèles de prodution
Ils permettent deréaliserune simulationde l'équivalentéletrique de l'appareilphonatoire. Ces
modèles sont une simpliation (ou approximation) desmodèles artiulatoires. On trouve dans
ette atégorie,les odagesLPC (Linear Predition Coding)etAR (AutoRegressive oding).
Les modèles phénoménologiques
Ces modèles tentent de modéliser le signal indépendamment de la façon dont il a été produit.
Les modèles basés sur l'analyse de Fourier en sont un exemple. Ils proposent des représen-
tations du signal basées sur une analyse fréquentielle de elui-i. Parmi les paramétrisations
dérivées de es modèles, nous détaillerons dans le paragraphe suivant la paramétrisation spe-
trale. Cette paramétrisation présente l'avantage de fournir une représentation temps-fréquene
(spetrogramme)dusignalpourlaquellelesénergiesdesdiérentssignauxonstituant unesène
auditive peuvent être onsidéréesommeadditives.
Les modèles d'audition
Cesmodèlestententdemettreàprotlesonnaissanesaquisessurlapereptiondessonsetsur
lefontionnementdenotresystèmeauditifand'améliorerlarobustessedesmodèlespréédents.
Par exemple l'introdution de onnaissanes issues de la psyhoaoustique dans l'estimation
des modèles AR ou spetraux a onduit respetivement aux analyses PLP (Pereptual Linear
Predition) etMFCC (Mel Frequeny CepstralCoeient).
1.1.2.2 Le spetrogramme
Le signal de la parole étant variable au ours du temps, l'extration des veteurs d'obser-
vation est généralement faite sur des fenêtres d'analyse temporelles de faible durée (de l'ordre
de quelques dizaines de milliseondes), de telle sorte que le signalpuisse être onsidéré omme
stationnairesurhauned'elles.Denombreusesfenêtresont étéétudiéesentraitement dusignal
(Hamming,Hanning, Kaiser,et).La fenêtrelaplusutiliséeenreonnaissanedelaparole estla
fenêtre de Hamming, illustréepar lagure1.2 etdéniepar l'équation :
h(n) =
( 0.54 − 0.46 cos(2π N n −1 )
si0 ≤ n ≤ N − 1 0
sinonoù
N
est la taille de la fenêtre en nombre d'éhantillons du signal. Par ailleurs, un ltre de préaentuationtrèssimpleestsouventappliquéausignalpourrenforerlessonsaigus,toujoursplus faiblesen énergiequelessons graves.
0 0.2 0.4 0.6 0.8 1
0 10 20 30 40
h(n)
n
Fig.1.2 Fenêtre de Hammingh(n).
Une représentation spetrale d'un signal aoustique est une onaténation de spetres à ourt
terme. Un spetre à ourt terme, appelé également spetre instantané, est le résultat de la
transforméede Fourier sur une fenêtre d'analysetelle lafenêtre de Hamming. Dans leas d'un
signal disret, ommeelui de laparole une foiséhantillonnée, lespetre àourt terme
S N (f )
peut s'érirepour une fenêtre
h(.)
entréesurm
:S N (f) =
n=N X
n=0
s m (n) h(n − m) e −i2πf n
La onaténation des spetres à ourt terme suessifs obtenus par glissement de la fenêtre
d'analyse forme un spetrogramme qui représente l'évolution dans le plan temps-fréquene de
de réduire les disontinuités, les fenêtres d'analyse suessives se reouvrent en partie (le plus
souvent demoitié) etsont aplaties à leurs extrémités.
Temps Fréquene
- 6
Fig.1.3Représentationspetraled'unsignaldelaparoleorrespondantàla phrase :onethree
nine oh.
Des études pereptives ont montré que notre oreille possède une meilleure résolution pour les
sons debasses fréquenesquepour lessons dehautes fréquene. Aet égard,le spetrogramme
obtenu par latransformation de Fourier à ourt termeest, en reonnaissanede laparole, sou-
ventperçuommeunensembledesignauxtemporelsontenantunepartiedel'informationsurle
signalvoaldanshaunedesbandesdefréquenes d'unbande ltres.Lesfréquenes entrales
desltressont déterminéesdemanièreàrestituerlarésolution fréquentiellede notreoreille.Les
deux prinipaleséhellespereptivessont les éhellesBark etMel.
UnBarkorrespondàlalargeurd'unebanderitique,quiroîtproportionnellementàsafréquene
entrale. Cetteéhelle orrespondau faitquel'oreille possèdeune bonnerésolution spetraleen
bassesfréquenes etmédioreen hautes fréquenes.
B ark = 13 Arctg 0.76 F Hz
100
!
+ 3.5 Arctg F Hz
7500
! 2
L'éhelle Mel est linéaire jusqu'à 100 Hz et logarithmique au-delà. Une expression analytique
possible estlasuivante[O'Shaugnessy 00℄:
M M el = 2595 log 10 1 + F Hz 700
!
La plupart des systèmes atuels de reonnaissane de la parole fondent leur analyse sur ette
éhelle. La gure1.4représente un ban deltres àéhelle Mel.
Legroupementdesénergiesdesspetresàourttermebaséesurl'éhelleMelfournitunereprésen-
tation Melspetrale dusignal, illustrée parlagure 1.5.
1.1.3 Prinipe de la reonnaissane
Considérons une séquene de veteurs d'observations
O
orrespondant à la prononiation d'une séquene de motsW
. Le prinipe même de la RAP est de parvenir à déterminerW
àFig.1.4 Ban de ltres à éhelle Mel.
Fig.1.5Représentation Mel spetrale d'unsignalparole.Chaque trameest exprimée ii par 32
oeients Mel spetraux.
partir des observations
O
. Trois stratégies de reonnaissane peuvent être envisagées plus une quatrièmerésultante de laombinaison despremières.1. La reonnaissaneà based'exemples
2. La reonnaissaneprobabiliste
3. La reonnaissanepar surfaesde déision etfontionsdisriminantes
4. L'hybridation de modèles
Nousproposons dansleparagraphe suivant un brefsurvoldees approhes.
1.1.3.1 Reonnaissane à base d'exemples
Cetteapprohe est laplus intuitive. Elle repose surl'idée qu'une même lasse regroupe des
objetsdeformessimilaires.Deette façon,ilestpossibleàpartird'unemétriquejudiieusement
hoisie de mesurer la similitude entre deux formes. La reonnaissane d'une forme inonnue
revient à omparer ette forme ave les formes représentatives des diérentes lasses. La om-
paraison de deux formes s'appuie sur des méthodes de omparaison élastique, fondées sur la
programmation dynamiqueetfournissantune solutionoptimale aurealagetemporel néessaire
à e type de lassiation. Cette approhe fut une des premières proposées dans le adre de
Elle fut étendue par la suite an de reonnaître des séquenes ontinues de mots [Sakoe 79 ℄ et
plus réemment à de la parole ontinue [Wahter 07℄. Les résultats publiés dans [Wahter 07℄
montrent que ette approhe peut rivaliser ave les meilleurs systèmes atuels. Cependant la
reonnaissane à base d'exemples reste très oûteuse en temps et en mémoire ar la forme à
reonnaître doit êtreomparée àtousles exemplesontenus danslabase desréférenes.
1.1.3.2 Classiation probabiliste
Cette atégorie de lassiation se base sur la onnaissane des distributions des diérents
paramètres de haquelasse. Considéronsun objet
X
devant être lassédansune desK
lassesC k
pour lesquelles un modèle paramétrique est disponible. La meilleure lasseC ⋆
est elle quiminimise lerisque bayésien
R(C i | X)
:C ⋆ = arg min
C i
R(C i | X)
R(C i | X) = X K
k=1
L(C i , C k ).P (C k | X)
L(C i , C k )
estle risque de mauvaise lassiation, ou enore le oûtoasionné par la fait d'as- signer la lasseC k
àX
sahant queX
appartient à la lasseC i
.P(C k | X)
est la probabilité a posteriori del'appartenane deX
àC k
.Pour desdistributions de probabilités
P (X | C i )
onnues (modèles paramétriquesdeslassesC i
),la règle de Bayes est optimale dans le sens où auune autre règle ne donnera un risque plus
faible. Considérant le as d'un risque binaire, 'est à dire assignant un oût de 1 à toute mau-
vaise lassiation et un oût de 0 à toute lassiation juste, minimiser le risque bayésien est
équivalentàassignerà
X
lalassepourlaquelleX
alaplusforteprobabilitéd'appartenir(ritère du Maximuma posteriori :MAP) :Aeter à
X
la lasseC i
si :P (C i | X) > P (C j | X) ∀ j 6 = i
P (X | C i ).P (C i ) > P (X | C j ).P (C j ) ∀ j 6 = i
(1.1)Une desription plus détaillée de e formalisme est présentée en annexe A.2. En général, les
probabilités a priori
P (C i )
de haque lasse ne sont pasonnues et doivent don être estiméesà partird'unebased'apprentissage.Lesmodèles deMarkovahés,dérits auparagraphe 1.1.4,
s'appuient sure formalisme.
1.1.3.3 Surfaes de déision et fontions disriminantes.
Lesparamètres
o
d'objetsappartenantàunemêmelassesont,s'ilssontbienhoisis,loalisés dansune région homogène de l'espae desparamètres. La lassiation par surfaes de déisionoufontionsdisriminantesreposesurunpartitionnement del'espae desparamètresen régions
mutuellement exlusives;haquerégion del'espae orrespondant auxréalisationspossiblesdes
paramètres d'une même lasse. Une région assoiée àla lasse
C k
est don aratérisée par unefontion disriminante
g k (o)
tel que:g k (o) > g j (o) ∀ o ∈ C k
et∀ j 6 = k
Siles fontionsdisriminantes sont desfontionslinéaires desparamètres, alors les régionssont
séparées linéairement par des hyperplans. En pratique e as est rare et les surfaes de déi-
sion sont approhées en onsidérant que elles-i sont linéaires par moreaux. Cette famille de
méthodesde lassiation regroupe entreautres :
Le pereptron
Le pereptron est un réseau de neurones formels entrant dans la atégorie des modèles neu-
romimétiques. Il produit une lassiation par fontion linéaire dans le as où il est onstitué
d'une seule ouhe de neurones [Rosenblatt 62℄. Cependant la fontion disriminante peut être
omplexiée par adjontion deouhes.
Un neurone formel est une représentation mathématique d'un neurone biologique. Les ations
exitatries et inhibitries des synapses sont représentées, la plupart du temps, par des oe-
ientsnumériquesassoiéesauxentrées.Lesvaleursnumériquessont ajustéesautomatiquedans
une phase d'apprentissage. Dans saversionla plussimple, un neurone formelalule lasomme
pondérée desesentrées,puisappliqueàettevaleurunefontiond'ativation, généralementnon
linéaire.Lavaleurnaleobtenue estlasortieduneurone.Individuellement,lesneuronesformels
alulent des fontions linéaires mais leur mise en réseau permet de simuler des fontions très
omplexes.
La mahine à veteursupport (SVM)
Une mahine à veteur support (SVM en anglais pour Support Vetor Mahine) onsiste à
séparerdeux ensemblesde pointspar unhyperplan.L'idée originale desMVS aété publiée par
VladimirVapnik[Vapnik 82 ,Vapnik 98℄.Elleestbaséesurl'utilisationdefontionsditesnoyaux
quipermettent uneséparation optimale (sans problèmed'optimum loal)despointsde l'espae
en diérentes lasses. Le prinipe est de projeter l'espae desparamètres surun espae de plus
grande dimension à l'aide de la fontion noyau de manière à pouvoir séparer linéairement les
pointsexprimés dans e nouvelespae. Les SVM ont été développésinitialement dans leadre
d'unelassiation bi-lasses, maisdesextensionsmulti-lasses ont étéproposées, ommelaM-
SVM[Guermeur05 ℄.LesSVMontétéintroduites réemmentpourlareonnaissanedelaparole
et ont donné des résultats prometteurs, notament pour l'identiation du louteur [Wan05b ,
Wan 07 ℄,lareonnaissanedeformesaoustiques[Wan05a ,Bernal-Chaves 05,Sharenborg06 ℄,
la détetion de mots-lés [Aye 02 , Keshet07℄ ainsi quepour la oneption de modèles hybrides
Les arbres de déision
Les arbres de déision [Breiman84 ℄ également appelés arbres de lassiation sont également
des lassieurs non linéaires par surfaes séparatries. Le prinipe est de déterminer la lasse
d'appartenane d'une forme par une suite detests surses paramètres. Un arbre de déision est
ainsiformé d'unensemblede n÷udsinternes ontenant destestsetpardesfeuilles représentant
haquelasse.L'identiationdelalassed'uneformeestdonnéeparunhemindepuislaraine
de l'arbre jusqu'à une feuille. Plusieurs progiiels d'arbres de déision tels CART ou C4.5 sont
disponiblesetont étéutilisésen reonnaissane delaparole.
1.1.3.4 Modèles hybrides
Les modèles de lassiation probabiliste et en partiulier les HMM ompte parmi les dif-
férentesapprohesdelassiationlesplusutilisésenreonnaissanedelaparole.L'intérêtqu'ils
susitent provient non seulement du fait qu'ils donnent de bonnes performanes mais aussi du
fait qu'ils sont partiulièrement bien adaptés au traitement de données à évolution temporelle.
Cependant, ilssont peudisriminantsenraison d'unapprentissage ditaumaximum devraisem-
blane (voirparagraphe 1.1.4.2).Certesilexistedesméthodesd'apprentissagedisriminantmais
l'apprentissage au maximum de vraisemblane reste le standard. Par onséquent des systèmes
hybridesont étéproposés,ombinant desHMMave desmodèles disriminants.
Parmi es hybridations, nous pouvons iter des modèles ombinant HMM et réseaux de neu-
rones. Detels modèles utilisent un réseau de neurones omme préproesseur [Lazli02℄ ou post-
proesseur[Guo 93℄d'unHMM.Danslepremierasun pereptronestentraîné pourapprendre
les probabilités a posteriori des lasses phonétiques
P(S i | O)
,S i
étant un état d'unHMM etO
unveteur d'observations.LaformuledeBayespermetàpartirde esprobabilités dealulerla
vraisemblane desobservations. Ces vraisemblanes sont alors utilisées enlieu et plae deelles
initialement alulées par les modèles à mélangede gaussiennesutilisés par unHMM lassique.
Dans le deuxième as, toutes les hypothèsesde reonnaissane (ou seulement les
N
meilleures) alulées par le HMM sont mises en entrée du réseau. Le réseau distinguera alors, parmi eshypothèses, lameilleured'entreelles.
Une autre hybridation onsiste à ombiner un HMM ave une SVM [Ganapathiraju 00℄. Une
telle hybridation présente également l'avantage de ombiner la apaité des HMM à modéliser
dessériestemporellesetlepouvoirdisriminant desSVM.Cesystèmehybridepossèdelamême
arhiteture que le système de Lazli et Sellami [Lazli 02℄ mais le réseau de neurones alulant
P (S i | O)
estremplaé par une SVM.1.1.4 Le modèle de Markov ahé
Les modèles de Markov ahés (HMM : Hidden Markov Model) ont été dérits pour la
première fois dans une série de publiations de statistique par Leonard E. Baum [Baum70,
Baum 72 ℄. Ce n'est qu'en 1975 qu'ils ont été proposés dans le adre de la reonnaissane au-
tomatique de la parole [Baker75a, Baker75b℄ et se sont imposés depuis omme modèles de
référenedanse domaine.Nousproposonsdanslesparagraphessuivantsde dénirequ'estun
HMMetdedériresamisen÷uvredansleadredelareonnaissaneautomatiquedelaparole.
1.1.4.1 Dénition d'un HMM
UnHMMestunaspartiulierdesmodèlesstohastiquesgraphiques,etpeutêtrevuomme
un automateprobabiliste. Il estgénéralement aratérisé par unquadruplet
(S, Π, A, B)
:
S = { S 0 , . . . , S i , . . . , S k }
estl'ensemble desétats del'automate.
Π = { π 0 , . . . , π i , . . . , π k }
,aveπ i
étant laprobabilité queS i
soit l'état initial.A est l'ensemble des probabilités de transition d'un état vers un autre. A est aratérisé
parunematrie
k ∗ k
d'élémentsa ij
avei et j ∈ [0, k]
etk
lenombred'états.Tout élémenta ij
de ette matrie est la probabilité d'atteindre l'étatS j
au tempst
sahant que nousétionsdansl'état
S i
au tempst − 1
.Bestun ensemble de loisdeprobabilité
b i (o)
donnant laprobabilitéP (o | S i )
quel'étatS i
aitgénérél'observation
o
.Cetteprobabilitéestlavraisemblanedel'observationauregard deS i
.Un HMMétant un automateprobabiliste, les ontraintes suivantes doivent être respetées:
1. La sommedesprobabilités desétats initiauxdoitêtre égale à1 :
X
i
π i = 1
2. La sommedesprobabilités destransitionssortant d'unétat doitêtre égaleà 1 :
∀ i X
j
a ij = 1
3. La sommedesprobabilités desémissions d'unétatdoit êtreégale à1 :
∀ i X
o
b i (o) = 1
dansleas d'observations disrètes.∀ i Z
o
b i (o) do = 1
dansleas d'observations ontinues.UnHMMreprésente unobjetpardeuxsuitesdevariablesaléatoires:l'unediteahée etl'autre
observable. La suite observable orrespond à lasuite d'observations
o 1 , o 2 , . . . , o T
où leso i
sontdes veteurs d'observations du signal à reonnaître. La suite ahée orrespond à une suite
d'états
q 1 , q 2 , . . . , q T
, où lesq i
puisent leurs valeurs parmi l'ensemble desN
états du modèle{ S 1 , S 2 , . . . , S N }
. La suite observable est dénie omme une réalisation partiulière de la suitede laséquened'observations
O = (o 1 , o 2 , . . . , o T )
.Le meilleurheminQ ⋆
estelui quimaximisela probabilité a posteriori
P (Q | O)
(ritère du maximum a posteriori : Eq. 1.1). En eet, endérivant etteprobabilité a posteriori par larègle de Bayes,il vient :
Q ⋆ = arg max
Q P (Q | O)
= arg max
Q
P (O | Q) P(Q) P (O) P (O)
étant onstant pour toutQ
:Q ⋆ = arg max
Q P (O | Q) P(Q)
(1.2)UnHMMprésenteplusieursavantages:ils'insritdansunformalismemathématiquebienétabli,
ilbénéiedeméthodesd'apprentissageautomatiquedessesparamètresetilestpartiulièrement
bien adaptéà lamodélisationde proessusàévolution temporelle.
1.1.4.2 Mise en ÷uvre
Lamiseen÷uvred'unsystèmedereonnaissane delaparole àpartir deHMMnéessitede
formulerquelqueshypothèsessimpliatriesdanslebutd'adapter leadrethéorique desHMM
àlaRAPmaisaussid'ensimplierleformalismemathématiqueetainsiproposerdesalgorithmes
d'apprentissageetdelassiationoptimauxsouseshypothèses.Unefoiseshypothèsesposées,
troispointsimportantssont àonsidérer pourlareonnaissane delaparole àpartir de HMM:
1. La topologie du modèle :
Comment dénir le nombre d'états du modèle? Quelles transitions entre les états sont
permises?quellesloisdeprobabilitéutiliserpourmodéliser ladistributiondesparamètres
de haqueétat?
2. L'apprentissage des paramètres :
Étant donnéunensemblede
J
séquenes d'observationsO j
représentant haunelamême entitéaoustiqueetdonassoiéesaumême HMMM j
,omment hoisirlesparamètresΛ j
de
M j
an demaximiserlaprobabilité queM j
engendre lasuite d'observationsO j
?3. Le déodage :
Étant donnée une séquene d'observations
O
, et un ensemble de HMM, quelle est laséquene demodèles qui maximise laprobabilité de généré
O
?Nousdérivonsdanslesparagraphessuivantlamanièredontespointssonttraitésdansleadre
de lareonnaissane automatiquede laparole.
Hypothèses simpliatries
Soit
O = (o 1 , o 2 , . . . , o T )
une suite deT
observations. SoitQ = (q 1 , q 2 , . . . , q T )
une séquened'états alignée ave la suite d'observations; au temps
t
le HMM est dans l'étatq t
engendrantl'observation
o t
.Hypothèse n1
La probabilité qu'une observation
o t
soit émise au tempst
ne dépend pas des observations antérieures.P (o t | q t , q t−1 . . . , q 1 , o t−1 , o t−2 , . . . , o 1 ) = P (o t | q t , q t−1 , . . . , q 1 )
(1.3)Hypothèse n2
La probabilitéqu'une observationsoit émise autemps
t
nedépend pasdesétats préédemment visités,maisseulement del'état ourant.P (o t | q t , q t−1 , . . . , q 1 ) = P(o t | q t )
(1.4)Hypothèse n3
La probabilitéqueleHMM soitdansl'état
q t
àl'instantt
nedépend quedel'étatdanslequelilsetrouvait à l'instant
t − 1
.P (q t | q t−1 , q t−2 , . . . , q 1 ) = P(q t | q t−1 )
(1.5)UnmodèlerespetantettedernièrehypothèseestappelémodèledeMarkovdupremierordrepar
oppositionauxmodèlesd'ordre
N
.Unmodèled'ordreN
estunmodèlepourlequellaprobabilité de setrouverdansunétatq t
estonditionnée par lasuited'étatsq t−1 , q t−2 , . . . , q t − N
.UnHMMduseondordreaétémisaupoint[Gong 94 ℄.Lesrésultatsobtenus enreonnaissanedehires
ontmontré unelégèreamélioration par rapport auxmodèlesdu premierordre. Cependant ette
amélioration se fait au détriment d'une omplexiation arue du modèle e qui limite son
intérêt.
Topologie du modèle
Lenombred'étatsd'unHMMdépenddel'entitéaoustiquequ'ilmodélise.L'entitélaplusrépan-
dueestlephonème,maisilestpossibledeonsidérerdesentitésplusgrandes(supra-phonétique),
ommelasyllabeoulemot.Cependant onstruireunsystèmepossédantunmodèlepour haque
motd'unelanguen'estpasenvisageablepourdesraisonsdetempsetd'espaedealulmaisaussi
pour desraisonsde tailledelabased'apprentissage devant ontenir susamment d'exemplesde
haquemotpourobtenir desmodèles ables.Une tellemodélisationestalors inonevablepour
dessystèmesgrandvoabulairepermettant dereonnaître plusieursdizainesde milliers demots
diérents. Néanmoins sous ertaines ontraintes omme l'utilisation d'un voabulaire restreint
ette modélisationpeuts'avéreravantageuse notament pour lamodélisationdesphénomènesde
o-artiulation.
Un phonème est généralement déomposé en 3 parties :un début, une partie stable et une n.
Une topologie à 3 états est par onséquent utilisée. Le seond état orrespondant à la partie
les eetsde lao-artiulation, 'estàdirelestransitionsentrephonèmes.Ceux-iorrespondent
don auxpartiesinstablesduphonèmearellessont inuenéespar leontextegauhe et droit.
Danslebutderestituerl'évolutiontemporelledusignaldelaparoleunetopologiegauhe-droite
est adoptée dans la grande majorité des as. Cei veut dire qu'auun retour en arrière n'est
possible.
π 1 = 1 a 12 a 23 a 34
a 11 a 22 a 33
b 1 (o) b 2 (o) b 3 (o)
S 1 S 2 S 3
Fig. 1.6 HMM gauhe-droite à 3 états usuellement utilisé pour la modélisation de phonèmes.
Les lois de probabilité
b i (o)
fournissant les probabiltés qu'une observationo
ait été générée parun état
S i
sontmodélisées par des modèles à mélange degaussiennes (GMM).Chaqueétat
S i
d'unHMMrenvoiepouruneobservationo
laprobabilitéqueo
aitétégénéréeparS i
. Lealulde ette probabilitéappelée également vraisemblane de l'observations'appuie sur une fontion de densité de probabilitésb i (0)
. Cette fontionb i (0)
est un modèle paramétrique de l'ensemble des observations pouvant être générées par l'étatS i
. La plupart des systèmess'appuient des densités de probabilités ontinues modélisée par un mélange de lois normales
(distributiongaussiennedesobservations).Lavraisemblaned'uneobservation
o
estdondonnéepar :
b i (o) =
N λ
X
j=1
λ j N (o; µ j , Σ j )
(1.6)ave
N (o; µ j , Σ j ) = 1
p (2π) M | Σ j | exp
− 1
2 (o − µ j ) ′ Σ −1 j (o − µ j )
(1.7)
N λ
estlenombre de gaussiennes,λ j
estlepoidslelaj
ième gaussienne,µ j
etΣ j
sont respetive-ment leveteur moyen etla matrie de ovariane de la
j
ième gaussienne etM
ladimension duveteur d'observations. La gure 1.6 présente un HMM gauhe-droite à 3 états utilisé pour la
modélisation dephonèmes.
Apprentissage
Considérons un ensemble de HMM
M j
et un ensemble deT
observationsO j
. Apprendre lesparamètres des HMM revient à herher le meilleur ensemble de paramètres
Λ ⋆ j = (µ ⋆ j , Σ ⋆ j )
tel que la probabilité que
O j
ait été générée parM j
soit maximale (ritère du maximum devraisemblane).
Λ ⋆ j = arg max
Λ j
Y T
t=1
P (O j (t) | M j , Λ j )
(1.8)Idéalement, 'est
P (M j | O j , Λ j )
qui devrait être maximisée. L'apprentissage serait alors plus disriminant :lorsquela vraisemblane dumodèlej
augmente pour les exemplesorrespondant aumodèlej
,lesvraisemblanesdesautresmodèlesdevraientdiminuerpouresmêmesexemples.LesHMMdevraient donêtreentraînés, nonseulementpourmaximiserlaprobabilitédegénérer
les exemples de sapropre lasse, mais aussipour les disriminer par rapport aux autres lasses
(ritèredumaximumaposteriori).Parequ'iln'existepasdeméthodepermettantdemaximiser
diretement
P (O j | M j , Λ j )
,lesparamètresdesmodèlessontobtenusenmaximisantl'équation1.8par laméthodeitérativedeBaum etWelh[Baum72℄, quiestunaspartiulierdel'algorithme
EM(ExpetationMaximisation) [Dempster77℄.
Déodage
LedéodagedelaparolepardesmodèlesHMMrevientàdéterminerlameilleureséquened'états
Q ⋆ = (q ⋆ 1 , q ⋆ 2 , . . . , q T ⋆ )
pouvant engendrer laséquened'observationsO = (o 1 , o 2 , . . . , o T )
:Q ⋆ = arg max
Q P(O | Q)
= arg max
Q π 0 Y T
t=1
a q t −1 q t .b q t (o t )
(1.9)Une solution naïve estde aluler laprobabilité
P (O | Q)
detoutes lesséquenes d'étatsQ
pos-sibles et de ne retenir que la meilleure. Cei peut se faire en onstruisant un arbre. A haque
temps
t
uneouhe den÷uds internes estajoutéeàl'arbre. Chaquen÷udinternereprésenteunétat partiulier des modèles etontient la probabilité de se trouver dans et état à l'instant
t
.Lesprobabilités desdiérenteshypothèsesde reonnaissane sont ontenuesdansles feuilles de
etarbre. Cependant une tellesolution esten pratique inappliablear lenombred'hypothèses
est trèsgrand.
L'algorithme deViterbi,variante stohastiquedelaprogrammationdynamique,proposedesim-
plier l'arbre au fur et à mesure de sa onstrution. En eet, lors de son déroulement on se
trouverapidement ave desbranhesproposant lesmêmessubstitutions,maisave desprobabil-
ités diérentes. Plusieurs hypothèses peuvent seretrouver dansle même état au même instant.
L'algorithmedeViterbistipulequ'iln'est pasnéessairededéroulerleshypothèsesdeplusfaible
- o 1 o 2 o 3 o 4 o 5 o 6 o 7 o 8 o 9 o 10 o 11 o 12 o 13 o 14 o 15
|i|
|s|
|i| |s| |i|
ii
Fig. 1.7 Illustration de la reonnaissane de la parole par l'algorithme de Viterbi. La phrase
reonnue orrespond à l'hypothèse dereonnaissane (ouhemin) ayant la plusforte probabilité
dans letreillisdeshypothèses.Pouretexemplela meilleurehypothèseorrespondàla suession
de phonèmes |i||s| |i|qui est la transription phonétique du mot ii.
Lamiseen÷uvredeetalgorithmeonsisteàonstruiredefaçon itérativelameilleureséquene
d'états à partir d'un tableau
T ∗ N
(T : nombre d'observations, N : nombre d'états total des modèles)appelétreillisdes hypothèses oùhaundesn÷uds(t, i)
ontientlavraisemblaneδ i (o t )
dumeilleurheminpassantparl'état
i
àl'instantt
.La vraisemblaneδ i (o T )
dumeilleurheminqui nità l'état
i
au tempsT
est alors aluléepar réurrene :1. Initialisation :
δ i (o 1 ) = π i
2. Réursion :pour setrouverdansl'état
i
àl'instantt
,leproessusmarkovien setrouvaitforémentdansunétat
j
àl'instantt − 1
pourlequelunetransitionversl'étati
estpossible:a ji > 0
.D'aprèslepriniped'optimalitédeBellman,δ i (o t ) = max j
δ j (o t−1 ) . a ji
. b i (o t )
.3. Terminaison:Lavraisemblanedesobservations orrespondant àlameilleure hypothèse
est obtenue en reherhant l'état
i
quimaximise la valeurδ i (o T )
à ladernière observationo T
:P (O | Q ⋆ ) = max
i
δ i (o T )
Unereprésentationvisuelle tivedel'algorithmede Viterbiestprésentépar lagure1.7.Cette
gure montre un treillis des hypothèses onstruit pour une séquene de 15 observations. Seule-
ment deux modèles sont représentés ii; deux HMM gauhe-droite à 3 états modélisant les
phonèmes |i|et |s|. Le meilleur hemin (en vert) orrespond à la séquene de phonèmes :|i| |s|
|i|. Cetteséqueneest latransription phonétiquedu motii.
1.1.4.3 Limitation des HMM
L'utilisationdes HMM en reonnaissane automatique de la parole repose surplusieurs hy-
pothèses simpliatries. Celles-i sont,ertes, néessaires,mais ellesonstituent également des
pointsfaiblesdesHMM.
La modélisationde laduréedesphonèmes n'est qu'impliitement ontenue autraversdesprob-
abilités de transitions entre les états. Une modélisation expliite de elle-i a ependant été
proposéeave suès[Russel 85 ,Levinson 86℄.
L'hypothèse d'indépendane onditionnelle des observations (équation 1.3) est irréaliste. Une
solutioneae etlargementrépandue onsisteàprendreenompte lesdérivéespremières
∆
etseondes
∆∆
desparamètres.Unedeuxièmesolutionestdemodéliserexpliitementlaorrélation entreles veteursd'observations suessifs [Russell93 ,Gales 93b ℄.1.2 Robustesse au bruit
Malgrédenombreuxeorts dereherhe entrepris depuisplusieurs années, larobustessedes
systèmes de reonnaissane de la parole au bruit reste problématique, e qui explique proba-
blement en grande partie leurdiusion et utilisation très limitée. Ce paragraphe dénit les dif-
férentstypesdebruitetrésumebrièvementlesgrandesfamillesd'approhequiont étéproposées
jusqu'alorspour résoudree problème derobustesse.
1.2.1 Le bruit
L'objetif d'un système de reonnaissane est de retransrire e qu'a prononé un louteur
partiulier. Nous onsidérons omme bruit toute distorsion du signal ou tout signal provenant
d'uneautre souresonore quelelouteur prinipal.Ondistingue deuxtypesde bruits.Le bruit
onvolutif, onséquenede ladistorsion dusignalinhérent à l'aquisition par unmirophone de
mauvaise qualité,ou induite par les aratéristiques du anal de transmission ommeles lignes
téléphoniques etlebruit additif orrespondant àune pollution sonore issued'autressoures.
Le bruitest très pénalisant pour lareonnaissane. Eneet les modèlesaoustiques sont appris
surdesorpusenregistrésenonditionsmaîtrisées,'est-à-direexemptsdebruit.Ilsnereprésen-
tent don quelesaratéristiques dusignal delaparole.Ces modèles ne sont alors plusdutout
Nous neonsidérons par lasuite que lesbruitsadditifs.
Un bruit peutêtre aratérisé par diérentes propriétés (TAB.1.1). Laonnaissane de es pro-
priétés dubruit permet d'adopterune stratégie robuste adaptée.
Propriétés Attributs de lapropriété
struture temporelle ontinu / impulsif/périodique
stationnarité stationnaire/ non-stationnaire
struturespetrale large-bande /onnéen bande
dépendane ave laparole orrélé /déorrélé
spatialisation ohérent / inohérent ave la sourede laparole
harmoniité harmonique / inharmonique
Tab. 1.1Propriétés aratérisantes du bruit (adapté de[Glotin 01℄).
Une des situations les moins pénalisantes en reonnaissane est de traiter un signal pollué par
un bruit ontinu,stationnaire, déorrélédu signalde laparole etinharmonique;un bruit blan
gaussien par exemple. Une situation beauoup plus pénalisante est de reonnaître un signalde
paroleparmid'autressignauxdeparole.Unetelleinterféreneestonnuesouslenomdeoktail
party. Lagure 1.8illustrel'altération d'unspetrogramme de parolepar du bruit.
Fig. 1.8 Haut : Représentation spetrale d'un signal de la parole orrespondant à la phrase :
one three nine oh. Bas:Le même signal,mais orrompupar lebruit du métro à 5 dB.
Ilestpossibledequantierleniveaudebruitdansunephrase.Lebruitestmesuréparlerapport
signal surbruit(SNR:Signal-to-Noise Ratioen anglais).Le SNR s'exprime endéibels(dB) :
SN R = 10 log 10 S
N
où
S
etN
sont respetivement les énergies du signal de laparole et du bruit. Il est possible de aluler leSNR àdiérents niveaux degranularité. Onpeutdon distinguer :1. SNR global :Le rapport est alulé en fontion des énergies totales sur la phrase de la
parole etdubruit.La quantité de bruit estalors quantiée par une seule valeur.
2. SNRsegmental:Lerapportestalulésurdessegmentstemporelsbiendénisdusignal.
Le bruit estalors quantié pour haun dessegments.
3. SNR segmental temporel et fréquentiel : Le alul de e rapport est identique que
pourle préédent, ependant lealulesteetuépour haque bande de fréquene.
4. SNR loal : Pour haque oeient du plan temps-fréquene (spetrogramme) un SNR
estalulé. C'est lagranularité laplusne, maisaussilaplus déliate àestimer.
1.2.2 Stratégies pour la reonnaissane robuste de la parole
Plusieurs stratégiesrobustes de reonnaissanede la parole ont été proposées.Lesprinipes
sous-jaentssontsouventsemblables,maislepointdevuediérentadoptélorsdelaoneptionde
haqueméthodeaboutitàdeshypothèsessimpliatriesdiérentesetdondesimplémentations
diérentes. Ces tehniques peuvent être lasséesen 4atégories (FIG.1.9) :
Paramétrisation robuste du signal : extraire du signal des paramètres représentatifs de la
parole possédant une sensibilitéau bruitréduite.
Débruitage du signal :éliminerou réduirel'inuene dubruit surlesignalà reonnaître
Adaptation des modèles aoustiques :adapter les modèles aoustiques de manière à min-
imiser l'inuene dubruit.
Modiation de l'algorithme de déodage :modier l'algorithme de déodage pour pren-
dre en ompte les diérenes entre le onditions d'apprentissage (parole seule) et de test
(parole+bruit).
Ces diérentes familles de stratégies sont dérites dans les paragraphes suivants. Pour haune
d'entre ellesnousproposons uneliste nonexhaustive deméthodes.
1.2.2.1 Paramétrisation robuste du signal
Une première approhe en reonnaissane robuste de la parole onsiste à extrairedu signal
uniquement des paramètres pertinents pour le déodage phonétique et à réduire au maximum
l'inuene des autres soures. Parmi les paramétrisations robustes nous avons déjà ité (para-
graphe1.1.2) lesméthodesMFCC etPLP.
Les ampagnes d'évaluation Aurora [Peare 00 ℄ de la reonnaissane de la parole robuste ont
permis la oneption d'un algorithme de paramétrisation standardisé par l'organisme ETSI
[ETSI ES202 050,03℄ . Cet algorithme est onnu sous le nom de paramétrisation WI008, ou
enore ETSI AFE (ETSI Advaned Front End). Les résultats obtenus par ette méthode de
Base
d'apprentissage
Base
detest
Paramétrisation Paramétrisation
Modèles
Aoustiques
Transription Moteur
de reonnaissane
Débruitage
Adaptation Paramétrisation
Robuste
Modiation
Fig. 1.9 Stratégies pour la reonnaissane robuste de la parole.
1.2.2.2 Débruitage du signal
Le prinipe des méthodes de débruitage est de réduire les diérenes entre les onditions
d'apprentissage etde test.Cesméthodess'appuient surdestehniquesde ltrageplus oumoins
omplexes quitentent de supprimer ou deréduirel'inuene du bruitsur lesignalde laparole.
Soustration spetrale
La ombinaison dessignauxde parole etdebruit est linéairedans ledomaine temporel :
y(t) = x(t) + n(t)
où
y(t)
,x(t)
etn(t)
représentent respetivement l'amplitude de la parole bruitée, de la parole seule etdubruitseulàl'instantt
.Cetterelationd'additivitéesttoujoursvalidedansledomaine spetraletpréservéelorsdupassagedanslespetredepuissaneàuntermededéphasagecos(Φ)
près.
| Y (τ ) | = | X(τ ) | + | N (τ ) | . cos(Φ)
Cependant ilest montré, par diversesonsidérations, quee termepeutêtre supposéprohe de
1 etdon :
| Y (τ ) | = | X(τ ) | + | N (τ ) |
La soustrationspetraleproposede alulerune estimée dubruitsurdesportionsdusignalne
ontenant pas de parole. Sous l'hypothèse que le bruit soit stationnaire, l'estimée du bruit est
soustraite duspetre depuissane du signalbruité.