HAL Id: tel-01748268
https://tel.archives-ouvertes.fr/tel-01748268v3
Submitted on 5 Feb 2008
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Contributions à la reconnaissance automatique de la
parole avec données manquantes
Sébastien Demange
To cite this version:
Sébastien Demange. Contributions à la reconnaissance automatique de la parole avec données
man-quantes. Acoustique [physics.class-ph]. Université Henri Poincaré - Nancy 1, 2007. Français.
�tel-01748268v3�
D´
epartement de formation doctorale en informatique
Ecole doctorale IAEM Lorraine
´
UFR STMIA
Contributions `
a la reconnaissance
automatique de la parole avec donn´
ees
manquantes
TH`
ESE
pr´esent´ee et soutenue publiquement le 8 novembre 2007
pour l’obtention du
Doctorat de l’universit´
e Henri Poincar´
e – Nancy 1
(sp´
ecialit´
e informatique)
par
S´
ebastien Demange
Composition du jury
Rapporteurs :
Laurent Mi letProfesseur - ENSSAT- Lanion -Fran e
Dirk Van Compernolle
Professeur - Université Catholiquede Louvain - Leuven -Belgique
Examinateurs :
Jean-Paul HatonProfesseur - Université HenriPoin aré -Nan y - Fran e
Noureddine Ellouze
Professeur - ENIT- Tunis- Tunisie
Salvatore Tabbone
MCF (HDR) -Université deNan y 2 - Nan y- Fran e
Christophe Cerisara
Une thèse est une étape inportante dans la vie de toute personne attirée par le monde de
lare her he.Cette histoire estri he denouvellesexpérien es,d'é hanges et de ren ontres.A e
titre,j'aimeraisremer ierdenombreusespersonnespouravoir ontribué, ha uneàleurmanière,
à la réda tion de e mémoire. J'adresse don mes remer iements les plus haleureux et les plus
sin ères :
à Violaine, qui partage ma vie depuis plus de 10 ans et qui m'a toujours en ouragé et
soutenu estrois annéesdurant.
à Jean-Paul Haton et Christophe Cerisara pour m'avoir mis le pied à l'étrier, suivi et
onseilléainsique pour leur grandedisponibilité etgentillesse.
auxautresmembresdemonjurydethèse,SalvatoreTabbone,NourredineEllouze,Laurent
Mi letetDirkVan Compernolle.
à tousles membres de l'équipe PAROLE.
àtoute mafamilleetplus parti ulièrement mesparents, monfrère ainsique Mi hel,Gene
etAmandine.
àtousmesamisave unepenséeplusparti ulièrepourCaroline,Emmanuel, Slim,Joseph,
Desparolesde dou eur
Des momentsde bonheur
Desregards é hangés
Un zestede ompli ité
Des étoilesdansles yeux
Lajoied'êtredeux
Maindans lamain
Suivre lemême hemin
Justelamagie de l'amour
Table des gures ix
Liste des tableaux xi
Introdu tion générale xiii
Chapitre 1
La re onnaissan e automatique de la parole robuste au bruit
1.1 Re onnaissan eautomatique de laparole. . . 2
1.1.1 Le signalde laparole. . . 2
1.1.2 Paramétrisationdu signal . . . 3
1.1.3 Prin ipe de lare onnaissan e . . . 5
1.1.4 Le modèle deMarkov a hé . . . 9
1.2 Robustesse aubruit . . . 16
1.2.1 Le bruit . . . 16
1.2.2 Stratégies pour lare onnaissan erobuste de laparole . . . 18
1.3 Con lusion. . . 23
Chapitre 2 Re onnaissan e automatique de la parole ave données manquantes 2.1 Masquageen re onnaissan ede laparole . . . 27
2.1.1 Théorie gestaltiste :per eption etstru turationdu monde . . . 27
2.1.2 Le masquage danslaper eption humaine de laparole . . . 28
2.2 Masquageen re onnaissan eautomatique dela parole . . . 29
2.2.1 Masque de donnéesmanquantes. . . 30
2.2.2 Masque ora le. . . 33
2.3 Re onnaissan ede laparole surdesobservations partielles . . . 33
2.3.1 Le problèmedes donnéesmanquantes . . . 33
2.3.3 Marginalisationdesdonnées . . . 39
2.4 Con lusion. . . 48
Chapitre 3 Estimation des masques : état de l'art 3.1 Introdu tion . . . 52
3.2 Analyse omputationnelle de s èneauditive . . . 53
3.2.1 Prin ipesde base . . . 53
3.2.2 Brefsurvoldessystèmes CASA . . . 54
3.3 Traitement du signaletmodèles statistiques . . . 59
3.3.1 Séparationbasée surleSNR lo al. . . 60
3.3.2 Réseauxde neurones . . . 62
3.3.3 Séparationde sour es . . . 62
3.3.4 Modèles statistiques . . . 64
3.3.5 Masque ommeproduitde lare onnaissan e. . . 66
3.4 Dis ussion . . . 67
Chapitre 4 Deux nouvelles appro hes de modélisation des masques 4.1 Introdu tion . . . 72
4.2 Dépendan es temporelles etfréquentiellessur lesvaleursde masques . . . 74
4.2.1 Introdu tion. . . 74
4.2.2 Dépendan es fréquentielles. . . 74
4.2.3 Dépendan es temporelles . . . 78
4.2.4 Estimateurs demasques . . . 79
4.3 Une nouvelle ara térisation desmasquesde données manquantes . . . 81
4.3.1 Introdu tion. . . 81
4.3.2 Masque de ontribution . . . 83
4.3.3 Masque de ontribution etintervalle demarginalisation . . . 83
4.3.4 Gestion des oe ientsde vitesse . . . 84
4.4 Con lusion. . . 85
Chapitre 5 Évaluations 5.1 Introdu tion . . . 89
5.2 Cadre expérimental . . . 89
5.2.1 Lesbases dedonnées . . . 89
5.2.4 Paramétrisationpour lesmodèles de masques . . . 94
5.3 Dépendan es surles valeursdemasque . . . 94
5.3.1 Inuen edesdépendan es surles masques . . . 95
5.3.2 Évaluationdesmasques . . . 97
5.3.3 Évaluationde lare onnaissan e . . . 99
5.3.4 Con lusion . . . 106
5.4 Rédu tion desintervallesde marginalisation . . . 107
5.4.1 L'erreur marginale auxmoindres arrée :MaMSE. . . 107
5.4.2 Interprétationde lamesureMaMSE . . . 108
5.4.3 Résultats . . . 110
5.4.4 Con lusion . . . 115
Chapitre 6 Con lusion générale 6.1 Cadre de notreétude . . . 118
6.2 Contributions . . . 119
6.2.1 Dépendan es surles masques . . . 119
6.2.2 Une nouvelle dénition demasques . . . 120
6.3 Perspe tives . . . 122
Annexes Annexe A Rappel des on epts probabilistes pour la lassi ation bayésienne A.1 Aspe tprobabiliste . . . 125
A.1.1 Probabilité jointe . . . 125
A.1.2 Loimarginale . . . 126
A.1.3 Loi onditionnelle. . . 126
A.1.4 Règle deBayes . . . 127
A.2 Aspe tdé isionnel . . . 127
A.2.1 Dé isions etrèglesde dé ision . . . 127
A.2.2 Fon tions de oût etderisque . . . 128
A.2.3 Le lassieurdu tauxd'erreur minimum . . . 129
Annexe B
Glossaire 133
1.1 Représentation temporelle d'un signal de parole orrespondant à la séquen e de
mots onethree nineoh.. . . 2
1.2 Fenêtre de Hammingh(n). . . 4
1.3 Représentation spe traled'unsignalde laparole orrespondantà laphrase :one three nineoh. . . 5
1.4 Ban de ltresà é helle Mel. . . 6
1.5 Représentation Melspe traled'un signalde parole. . . 6
1.6 HMMgau he-droiteà3étatsusuellement utilisépourlamodélisationdephonèmes. 13 1.7 Illustration dela re onnaissan ede laparole par l'algorithmede Viterbi. . . 15
1.8 Représentation spe trale d'un signalde parole orrompu par le bruit du métro à 5 dB. . . 17
1.9 Stratégies pour lare onnaissan erobuste de laparole. . . 19
1.10 Combinaisonparallèle dedeux modèles deMarkov. . . 21
2.1 Re onstru tion d'unsignalin omplet par interpolation temporelle. . . 36
2.2 Évaluationde lamarginalisation de données . . . 47
2.3 Arbrede lassi ationdesalgorithmesdere onnaissan eautomatiquedelaparole en présen ede donnéesmanquantes ouin ertaines . . . 50
3.1 Prin ipe de l'analysede s ènevisuelle . . . 53
3.2 Représentation de typesyn hrony strands,de Cooke. . . 56
3.3 Exemple d'ar hite ture d'unsystème CASAmulti-agents:Ipanema . . . 58
3.4 Ar hite ture dusystème d'estimation de masquebasé sur unréseau de neurones os illant proposépar Wang etBrown[Wang 99℄ . . . 59
3.5 Utilisation d'algorithmes de séparation de sour es pour l'estimation de masques de donnéesmanquantes. . . 63
3.6 Re onnaissan ede paroles on urrentes àpartir d'unHMMfa toriel . . . 66
3.7 Le dé odeurmulti-sour es de Barker . . . 68
4.1 Stru turespe traledesmasquesdedonnéesmanquantesvs.enveloppeénergétique du signaldeparole. . . 75
4.2 Évaluationdunombredemasques élémentairesenfon tionduseuilde ouverture
α
desmasques ora lesetdu nombrede oe ientsspe trauxsurAurora 2 . . . . 774.3 Détermination du nombre de masquesve toriels élémentaires surAurora2 . . . . 78
4.4 Représentation des 4 estimateurs de masques dans le adre de l'évaluation des dépendan essur lesmasques. . . 80
4.5 Intervalles de marginalisation pour des masques fondés sur le seuillage du SNR lo alà 0dB . . . 82
5.1 Impressionvisuellede l'eet desdépendan es temporelleset fréquentielles surles masques . . . 96
5.2 Évaluationdesdépendan es surlesmasques surlabase Aurora2 . . . 98
5.3 Erreursde re onnaissan e. . . 100
5.4 Évaluationdesdépendan essurlesmasquesentauxdere onnaissan esurlabase Aurora2 . . . 101
5.5 Tauxdere onnaissan eobtenusàpartirdesmasquesora lesoriginauxetrestreints surAurora 2 . . . 103
5.6 Évaluation de la rédu tion de l'espa e des masques dans le adre du problème o ktailparty . . . 105
5.7 Évaluationde lamesureMaMSE . . . 109
5.8 Intervallesde marginalisation dérivésdesmasques de ontributions . . . 112
5.9 Intervallesde marginalisation dérivésdesmasques SNR-0 . . . 113
5.10 Comparaisondestaux dere onnaissan e obtenus à partir desmasques ora les de ontribution etSNR-0 surlabasede test Hiwire . . . 114
5.11 Comparaison destauxde re onnaissan e obtenus àpartir des masques de ontri-butionetSNR-0 estiméssurlabasede test Hiwire . . . 114
1.1 Propriétés ara térisantes du bruit . . . 17
5.1 Nombre d'enregistrements et de lo uteurs par langue maternelle pour le orpus
Hiwire. . . 89
5.2 Composition en nombre d'enregistrement de labase Hiwire utiliséepour nos
ex-périen es. . . 90
5.3 Composition de la base de données Aurora 2. Le nombre d'enregistrements est
fournit pour haque ondition(bruit - SNR)desbases d'apprentissage etde test. 91
5.4 Évaluation de la ontribution des dépendan es sur les masques par les taux de
re onnaissan e obtenus surAurora 2. . . 102
5.5 Évaluation de la rédu tion des intervalles de marginalisation sur la base Hiwire
Ouvre la porte, HAL!
-2001 : l'odyssée de l'espa e
-Parler ave les ma hines est une desvisions ré urrentes de notre imagination olle tive de
l'in-formatique du futur. Dès 1968 Stanley Kubri k avait imaginé et mis en s ène un ordinateur
intelligent, appelé HAL, apable de raisonner, de réé hir mais ausside ommuniquer
verbale-ment.Pourtant,à etteépoque,late hnologienepermettaitdere onnaîtretoutauplusquelques
entainesdemotspardessystèmessimuléssurdegrosordinateurs.Quaranteansplustard,grâ e
à l'avènement de l'informatique et aux eorts déployés, les systèmes de re onnaissan e vo ale
sont devenus des produits de onsommation destinés à un très large publique. La
re onnais-san e vo ale est devenue une des te hnologies prépondérantes dans le développement
d'inter-fa esHomme-Ma hineavan ées.Toutefois,malgrélesavan éestrès importantes de esdernières
années dans e domaine, les systèmes a tuels sont en ore en deçà des performan es de notre
systèmed'audition.Un desprin ipauxobsta les audéploiement dessystèmesdere onnaissan e
vo ale estlarobustesseau bruit.Lesdiéren es entre les onditions d'utilisation (généralement
bruitées) etd'apprentissage (absen e de bruit) des modèles a oustiques provoquent une
dégra-dation signi ative des taux de re onnaissan e, même si es dégradations semblent minimes à
l'oreille.
La re onnaissan e de la parole ave données manquantes est une appro he qui fut développée
dans le domaine de la vision [Ahmad 93 ℄ et transposée à la re onnaissan e automatique de la
parole il y a près de 10 ans [Cooke 96, Cooke 97 , Cooke 01b℄. A la diéren e des méthodes de
débruitage ou d'adaptation, la re onnaissan e ave données manquantes utilise un masque. Ce
masque orrespond à l'identi ation dans le signal observé (plus pré isément dans le domaine
spe tral 1
) desparamètres trop orrompuspar lebruit pour fournir uneinformation exploitable
etpertinente aumoteurde re onnaissan e.Ilestmontréqu'ilestplusjudi ieuxd'ignorerdetels
paramètresdurantlepro essusdedé odage.Cesparamètressont ommunémentappelésdonnées
manquantes ou masquées. Une fois es paramètres identiés, des algorithmes dere onnaissan e
en présen ededonnées manquantessont mis en÷uvre. Ces algorithmes peuvent êtredivisésen
1
deux familles. Les te hniques dites d'imputation [Raj 00 ℄ estiment la ontribution énergétique
du signaldelaparole pour lesparamètres masqués. Lesdonnéesmanquantes sont re onstruites
andefourniraudé odeurunensemble ompletdeparamètres dé rivant lesignalàre onnaître.
Les te hniques dites de marginalisation [Vizinho 99, Barker 01b, Morris01a ℄ reposent sur une
adaptation du moteur de re onnaissan e pour que e dernier puisse re onnaître un signal de
parole à partir d'une représentation in omplète de elui- i. Plus pré isément, la vraisemblan e
desparamètres masquésetsubstituée par sonespéran e al uléesurl'ensembledesvaleurs
pos-sibles de es paramètres. De nombreux travaux ont montré que de telles stratégies permettent
d'améliorer onsidérablement les taux de re onnaissan e. Lorsque les masques sont onnus a
priori (masques ora les), 'est-à-dire lorsque les paramètres masqués sont lairement identiés
à partir des signaux de parole seule et du bruit, les taux de re onnaissan e sont pro hes de
eux obtenus en absen e de bruit.Cependant es performan es représentent seulement les
per-forman es potentiellement atteignables. En pratique les masques de données manquantes sont
estimésàpartirdesseulesobservationsbruitéeset onstituentpar onséquentuneapproximation
erronéedesmasquesora les.Lesdiérenteserreursd'identi ation ommisesparlesestimateurs
de masques setraduisent par une hute desperforman es illustrant lerle de premier plan des
masques. L'estimation des masques onstitue don un problème entral en re onnaissan e
au-tomatiquedelaparoleave donnéesmanquantesfaisant l'objetdenombreusespubli ationsdans
e domaine.
Nostravauxsepla ent dansle ontextede l'estimationdemasques àpartir de modèles
sto has-tiques.Cetteappro hefutinitiéeàl'universitédeCarnegieMellonparl'équipedeRi hardStern.
Lespubli ations[Seltzer 00,Raj 00 ,Kim05,Kim06℄dontellefaitl'objetmontrentqu'ilest
pos-sibled'apprendredesmodèlesdemasquesetlesrésultatsreportéssonttrèsen ourageants.Notre
première ontribution on erne la dénitionde es modèles. L'estimateur bayésien proposé par
SeltzeretRajRamakrishnan lassie haque oe ient spe traldusignalobservé ommeable
ou manquant de manière indépendante. En d'autres termes, lemasque d'un oe ient spe tral
parti uliernedépendpasdesmasquesdes oe ientsdesonvoisinage. Pourtantnousmontrons
qu'une similitude existe entre la stru ture des masques et l'enveloppe énergétique du signal de
paroledansledomainespe tral.Les oe ientsdefaible énergiesontplussensiblesaubruitque
les oe ients de forte énergie etsont don plus souvent masqués. L'enveloppe énergétique du
signal de parole étant très stru turée, noussupposons que les masques de données manquantes
lesontdelamêmemanière.A etégardnousproposonsdenouvellesar hite turesd'estimateurs
bayésiens dans le but de restituer ette stru ture. Des erreurs de masque lo ales peuvent ainsi
être évitéesen onsidérant un masquedanssaglobalité (lemasqued'unphrase par exemple)et
non plus ommeune omposition d'entités(masques àl'é helle du oe ient)indépendantes.
La mise en ÷uvre d'un algorithme de dé odage de la parole sur des observations partielles
a oustique est le plus souvent déterminée à partir du SNR . Tout oe ient spe tral dont le
SNR est inférieur à un seuil prédéterminé est onsidéré ommemanquant. Dans le adre de la
marginalisation dedonnées, laprise en ompte de ette dénition de masque apermis d'aner
l'algorithme de dé odage, notament en proposant des intervalles de marginalisation spé iques
auxdonnées manquantes etables.Ces intervallessont plusns que eux initialement proposés
permettant un gainsigni atif en terme de taux de re onnaissan e. Nous proposons dans ette
optique unenouvelle dénition demasque etmontrons omment l'exploiter danslebut de
min-imiser les intervalles de marginalisation.
Le premier hapitre onstitue une rapide introdu tion à la re onnaissan e robuste de la parole.
Nousprésentonsdansunpremiertemps lesprin ipesgénérauxdelare onnaissan eautomatique
de laparole et relatons diérentes stratégies de dé odage usuellement utilisées. Nousdé rivons
plus parti ulièrement lemodèlede Markov a hé ainsi quesamiseen ÷uvrepuisque e modèle
s'est imposé omme modèle de référen e dans la ommunauté du traitement des langues
nota-ment pour sa apa ité à modéliser un signal à évolution temporelle tel le signal de parole. Les
systèmes de re onnaissan e de la parole a tuelsexploitent pour la plupart e modèle. Dans un
se ondtempsnousadressonsleproblèmedelarobustesseaubruit.Nousmettonsenéviden eles
prin ipaleste hniquespermettant d'améliorerlarobustessedessystèmes.Celles- iinterviennent
à desétapes distin tes du pro essus de re onnaissan e allant de laparamétrisation du signalà
l'algorithme dedé odage.
La re onnaissan ede laparoleave donnéesmanquantes estprésentéeau hapitre 2.Nous
rela-tons destravaux montrant quenotre systèmeauditif se omporte de manière séle tive vis-à-vis
desdiérentsstimuliqu'iltraite.L'oreillehumaineest apablededistinguerlesdiérentsa teurs
d'unes èneauditiveetpeutparunpro essusdemasquagesefo alisersurunesour esonore
par-ti ulière.Cesétudesnemontrentpas ommentnousséle tionnonslesportionsd'intérêtdusignal
maismontrentquenoussommes apablesdere onnaîtredelaparoleàpartird'unereprésentation
par ellaire du signala oustique. Nousdénissons ensuite les notions de donnéesmanquantes et
de masquededonnées manquantes dansle adredelare onnaissan eautomatiquede laparole.
Les diérents algorithmes d'imputations et de marginalisation sont dé rits. Nous on luons e
hapitrepar uneévaluation omparativede3te hniquesdemarginalisationmettant enéviden e
lefortpotentieldelare onnaissan edelaparole ave donnéesmanquantes maisaussilerlede
premier planquejouent les masques.
L'estimation de masques de données manquantes onstitue aujourd'hui un enjeu important et
motive de nombreux travaux. Nous proposons au troisième hapitre un état de l'art de et axe
dere her he.Lesprin ipalesappro hesproposéesdanslalittératuresontprésentéesave omme
seulelimitationl'usaged'ununiquemi rophonepourl'a quisitiondusignal.Cetravailprospe tif
2
n'est paslimitéauseul adreappli atifque onstitue lare onnaissan ede laparolemais ouvre
également des domaines onnexes omme la séparation aveugle de sour es, l'analyse
omputa-tionnelle de s ène auditive ou en ore la déte tion de parole utile. Nous avons hoisi de lasser
estravauxen deux atégories:d'unepartlesméthodess'inspirant dufon tionnement denotre
appareilauditif,etd'autre part,lesméthodesorientéestraitementdusignal. L'obje tifn'est pas
d'opposer es deux appro hes. Au ontraire, de ré ents travaux, le dé odeur multi-sour es de
Barker[Barker06 ℄parexemple,montrent lebéné ede ombinerdes on eptsissusde esdeux
appro hes.
Nous proposons au hapitre 4 deux nouvelles modélisations des masques. La première a pour
obje tif la modélisation desdépendan es existantes entre les valeurs de masque des oe ients
spe traux.Nousmotivons etteappro heenmettantenéviden elessimilitudesentrel'enveloppe
énergétiquedusignaldeparoleetlastru turedesmasquesdansledomainespe tral.Nous
dénis-sons deuxtypes de dépendan e : lesdépendan es temporelles etles dépendan es fréquentielles.
Nous dé rivons omment es dépendan es peuvent être prise en ompte pendant le pro essus
d'estimation demasque, etnousproposonsdenouveauxmodèles sto hastiquesdemasques
inté-grant individuellement ou onjointement esdépendan es.Nousproposons ensuiteune nouvelle
dénition de masque permettant, dans le adre de la marginalisation de données, d'aner
l'al-gorithme de dé odage. Cette nouvelle dénition de masque permet de réduire les intervalles de
marginalisation omparativement auxintervalles dérivésdes masques fondéssur le seuillagedu
SNR lassiquement utilisés.
Ces propositions sont évaluées au hapitre 5. Une omparaison des masques générés par nos
estimateursave lesmasquesora lesestprésentéeanderendre omptedeleurqualitéenterme
d'identi ation des données masquées. Nous présentons également une étude qualitative des
masques résultant denospropositions enles omparant auxmasques obtenus àpartir
d'estima-teurde référen equenousdénirons. L'obje tif a hé de nostravauxestd'améliorer laqualité
des masques ainsi que leur prise en ompte par le moteur de re onnaissan e. Nous présentons
dans ette optique une évaluation omparative desrésultats de re onnaissan eobtenus à partir
de nos propositions sur diérentes bases de données par rapport aux taux de re onnaissan e
La re onnaissan e automatique de la
parole robuste au bruit
J'entendsta voix dans tous les bruits du monde.
-Paul Eluard
-Sommaire
1.1 Re onnaissan e automatique de la parole . . . 2
1.1.1 Lesignaldelaparole . . . 2
1.1.2 Paramétrisationdusignal . . . 3
1.1.2.1 Représentationsparamétriquesdusignaldelaparole . . . 3
1.1.2.2 Lespe trogramme . . . 4
1.1.3 Prin ipedelare onnaissan e . . . 5
1.1.3.1 Re onnaissan eàbased'exemples . . . 6
1.1.3.2 Classi ationprobabiliste . . . 7
1.1.3.3 Surfa esdedé isionet fon tionsdis riminantes. . . 7
1.1.3.4 Modèleshybrides . . . 9
1.1.4 LemodèledeMarkov a hé . . . 9
1.1.4.1 Dénition d'unHMM . . . 10
1.1.4.2 Miseen÷uvre . . . 11
1.1.4.3 LimitationdesHMM . . . 16
1.2 Robustesse aubruit . . . 16
1.2.1 Lebruit . . . 16
1.2.2 Stratégiespourlare onnaissan erobuste delaparole . . . 18
1.2.2.1 Paramétrisationrobustedusignal . . . 18
1.2.2.2 Débruitagedusignal. . . 19
1.2.2.3 Adaptationdesmodèlesa oustiques . . . 20
1.2.2.4 Modi ationdel'algorithmededé odage . . . 22
Ce hapitreprésenteleproblèmedelare onnaissan eautomatiquedelaparole(RAP). Nous
ara térisons dans un premier temps le signal a oustique de la parole. Nous évoquons ensuite
le prin ipe général de la RAP et en parti ulier l'appro he bayésienne qui est la plus répandue.
Nous détaillons un modèle bayésien parti ulier :le modèle de Markov a hé (HMM : Hidden
Markov Model). Ce modèle fournit de très bons taux de re onnaissan e en ondition
d'utilisa-tion maîtrisée. Cependant es performan es sont loin d'êtreaussibonnes lorsque les onditions
d'utilisation se dégradent. Cette diéren e de performan e due aux onditions
d'expérimenta-tion relève de la robustesseau bruit du système de re onnaissan e. Nous exposons les grandes
appro hesde re onnaissan erobuste de laparole.Plusieurs ouvrages traitent de e problème et
plus généralement delare onnaissan e de laparole[Boite 00,Mariani 02 , Haton06 ℄.
1.1 Re onnaissan e automatique de la parole
1.1.1 Le signal de la parole
Le signalde parole estune onde a oustiquemoduléepar l'appareil phonatoireen fréquen e
et en amplitude. Cette onde est généralement présentée sous la forme d'une ourbe (Fig. 1.1)
représentant les variationsd'amplitude dusignal au ours dutemps.
-6
one three nine oh
Temps Amplitude
Fig. 1.1 Représentation temporelle d'un signal de parole orrespondant à la séquen e de mots
one three nine oh.
Lesignaldeparoleestune on aténationderéalisationsa oustiquesélémentaires.Cesréalisations
sont plus onnuessouslenomdephonèmes. Unphonèmeestune entité abstraite dénie omme
la plus petite unité a oustique. Chaque langue peut être alors ara térisée par un ensemble de
phonèmesqui onstituentenquelquesortelesbriquesa oustiquesélémentairesàpartirdesquelles
lessyllabes,lesmotsetlesphrasessont onstruits.Toutsignaldelaparolepeutalorsêtreexprimé
ommeunesu essiondephonèmes.Cesignalvéhi uleunensembled'informationstrèsdiverses:
lemessagequeveutfairepasserlelo uteur,sonhumeur,sonidentité,et .Lesignalàre onnaître
fait,dansunpremier,l'objetd'unprétraitement,appeléparamétrisation, onsistantàextrairede
1.1.2 Paramétrisation du signal
1.1.2.1 Représentations paramétriques du signal de la parole
Lerled'unmoduledeparamétrisationdusignalestdefourniretd'extrairedesinformations
ara téristiquesetpertinentesdusignal.Cesinformationssontrestituéessouslaformed'unesuite
dis rète de ve teurs, appelés ve teurs a oustiques ou ve teurs d'observations. Chaque ve teur
ontient unnombre nide paramètres représentant les ara téristiquesd'un segment dusignal.
La on aténation de es ve teurs fournit une représentation dis rète etparamétrique du signal
à traiter [d'allessandro 92 ℄. La onversion du signal en séquen e de ve teurs d'observations est
régie par unmodèle paramétrique ara térisantle point devue souslequellesignalest observé.
La paramétrisation onsiste à estimer les paramètres de e modèle. Ces modèles peuvent être
lassés en quatrefamilles:
Les modèles arti ulatoires
Ilspermettentd'extrairelesinformationsrégissantlemé anismedephonation.Cette
paramétri-sation s'appuiesurunformalisme issudelamé aniquedesuidespuisquel'ondea oustiqueque
nous produisonsen parlant résulte de la ir ulation d'un uxd'air au travers du onduit vo al
onstitué d'arti ulateurs. Les paramètres extraits odent laposition desdiérents arti ulateurs
(position deslèvres,ouverture de labou he, protusion, position delalangue, et ).
Les modèles de produ tion
Ils permettent deréaliserune simulationde l'équivalentéle trique de l'appareilphonatoire. Ces
modèles sont une simpli ation (ou approximation) desmodèles arti ulatoires. On trouve dans
ette atégorie,les odagesLPC (Linear Predi tion Coding)etAR (AutoRegressive oding).
Les modèles phénoménologiques
Ces modèles tentent de modéliser le signal indépendamment de la façon dont il a été produit.
Les modèles basés sur l'analyse de Fourier en sont un exemple. Ils proposent des
représen-tations du signal basées sur une analyse fréquentielle de elui- i. Parmi les paramétrisations
dérivées de es modèles, nous détaillerons dans le paragraphe suivant la paramétrisation
spe -trale. Cette paramétrisation présente l'avantage de fournir une représentation temps-fréquen e
(spe trogramme)dusignalpourlaquellelesénergiesdesdiérentssignaux onstituant unes ène
auditive peuvent être onsidérées ommeadditives.
Les modèles d'audition
Cesmodèlestententdemettreàprotles onnaissan esa quisessurlaper eptiondessonsetsur
lefon tionnementdenotresystèmeauditifand'améliorerlarobustessedesmodèlespré édents.
des modèles AR ou spe traux a onduit respe tivement aux analyses PLP (Per eptual Linear
Predi tion) etMFCC (Mel Frequen y CepstralCoe ient).
1.1.2.2 Le spe trogramme
Le signal de la parole étant variable au ours du temps, l'extra tion des ve teurs
d'obser-vation est généralement faite sur des fenêtres d'analyse temporelles de faible durée (de l'ordre
de quelques dizaines de millise ondes), de telle sorte que le signalpuisse être onsidéré omme
stationnairesur ha uned'elles.Denombreusesfenêtresont étéétudiéesentraitement dusignal
(Hamming,Hanning, Kaiser,et ).La fenêtrelaplusutiliséeenre onnaissan edelaparole estla
fenêtre de Hamming, illustréepar lagure1.2 etdéniepar l'équation :
h(n) =
(
0.54
− 0.46 cos(2π
n
N −1
)
si0
≤ n ≤ N − 1
0
sinonoù
N
est la taille de la fenêtre en nombre d'é hantillons du signal. Par ailleurs, un ltre de préa entuationtrèssimpleestsouventappliquéausignalpourrenfor erlessonsaigus,toujoursplus faiblesen énergiequelessons graves.
0
0.2
0.4
0.6
0.8
1
0
10
20
30
40
h(n)
n
Fig.1.2 Fenêtre de Hammingh(n).
Une représentation spe trale d'un signal a oustique est une on aténation de spe tres à ourt
terme. Un spe tre à ourt terme, appelé également spe tre instantané, est le résultat de la
transforméede Fourier sur une fenêtre d'analysetelle lafenêtre de Hamming. Dans le as d'un
signal dis ret, omme elui de laparole une foisé hantillonnée, lespe tre à ourt terme
S
N
(f )
peut s'é rirepour une fenêtreh(.)
entréesurm
:S
N
(f ) =
n=N
X
n=0
s
m
(n) h(n
− m) e
−i2πf n
La on aténation des spe tres à ourt terme su essifs obtenus par glissement de la fenêtre
d'analyse forme un spe trogramme qui représente l'évolution dans le plan temps-fréquen e de
de réduire les dis ontinuités, les fenêtres d'analyse su essives se re ouvrent en partie (le plus
souvent demoitié) etsont aplaties à leurs extrémités.
Temps Fréquen e
-6
Fig.1.3Représentationspe traled'unsignaldelaparole orrespondantàla phrase :onethree
nine oh.
Des études per eptives ont montré que notre oreille possède une meilleure résolution pour les
sons debasses fréquen esquepour lessons dehautes fréquen e. A et égard,le spe trogramme
obtenu par latransformation de Fourier à ourt termeest, en re onnaissan ede laparole,
sou-ventperçu ommeunensembledesignauxtemporels ontenantunepartiedel'informationsurle
signalvo aldans ha unedesbandesdefréquen es d'unban de ltres.Lesfréquen es entrales
desltressont déterminéesdemanièreàrestituerlarésolution fréquentiellede notreoreille.Les
deux prin ipalesé hellesper eptivessont les é hellesBark etMel.
UnBark orrespondàlalargeurd'unebande ritique,qui roîtproportionnellementàsafréquen e
entrale. Cetteé helle orrespondau faitquel'oreille possèdeune bonnerésolution spe traleen
bassesfréquen es etmédio reen hautes fréquen es.
B
ark
= 13 Arctg
0.76 F
Hz
100
!
+ 3.5 Arctg
F
Hz
7500
!
2
L'é helle Mel est linéaire jusqu'à 100 Hz et logarithmique au-delà. Une expression analytique
possible estlasuivante[O'Shaugnessy 00℄:
M
M el
= 2595 log
10
1 +
F
Hz
700
!
La plupart des systèmes a tuels de re onnaissan e de la parole fondent leur analyse sur ette
é helle. La gure1.4représente un ban deltres àé helle Mel.
Legroupementdesénergiesdesspe tresà ourttermebaséesurl'é helleMelfournitune
représen-tation Melspe trale dusignal, illustrée parlagure 1.5.
1.1.3 Prin ipe de la re onnaissan e
Considérons une séquen e de ve teurs d'observations
O
orrespondant à la pronon iation d'une séquen e de motsW
. Le prin ipe même de la RAP est de parvenir à déterminerW
àFig.1.4 Ban de ltres à é helle Mel.
Fig.1.5Représentation Mel spe trale d'unsignalparole.Chaque trameest exprimée i i par 32
oe ients Mel spe traux.
partir des observations
O
. Trois stratégies de re onnaissan e peuvent être envisagées plus une quatrièmerésultante de la ombinaison despremières.1. La re onnaissan eà based'exemples
2. La re onnaissan eprobabiliste
3. La re onnaissan epar surfa esde dé ision etfon tionsdis riminantes
4. L'hybridation de modèles
Nousproposons dansleparagraphe suivant un brefsurvolde es appro hes.
1.1.3.1 Re onnaissan e à base d'exemples
Cetteappro he est laplus intuitive. Elle repose surl'idée qu'une même lasse regroupe des
objetsdeformessimilaires.De ette façon,ilestpossibleàpartird'unemétriquejudi ieusement
hoisie de mesurer la similitude entre deux formes. La re onnaissan e d'une forme in onnue
revient à omparer ette forme ave les formes représentatives des diérentes lasses. La
om-paraison de deux formes s'appuie sur des méthodes de omparaison élastique, fondées sur la
programmation dynamiqueetfournissantune solutionoptimale aure alagetemporel né essaire
à e type de lassi ation. Cette appro he fut une des premières proposées dans le adre de
Elle fut étendue par la suite an de re onnaître des séquen es ontinues de mots [Sakoe 79 ℄ et
plus ré emment à de la parole ontinue [Wa hter 07℄. Les résultats publiés dans [Wa hter 07℄
montrent que ette appro he peut rivaliser ave les meilleurs systèmes a tuels. Cependant la
re onnaissan e à base d'exemples reste très oûteuse en temps et en mémoire ar la forme à
re onnaître doit être omparée àtousles exemples ontenus danslabase desréféren es.
1.1.3.2 Classi ation probabiliste
Cette atégorie de lassi ation se base sur la onnaissan e des distributions des diérents
paramètres de haque lasse. Considéronsun objet
X
devant être lassédansune desK
lassesC
k
pour lesquelles un modèle paramétrique est disponible. La meilleure lasseC
⋆
est elle qui
minimise lerisque bayésien
R(C
i
|X)
:C
⋆
= arg min
C
i
R(C
i
|X)
R(C
i
|X) =
K
X
k=1
L(C
i
, C
k
).P (C
k
|X)
L(C
i
, C
k
)
estle risque de mauvaise lassi ation, ou en ore le oûto asionné par la fait d'as-signer la lasseC
k
àX
sa hant queX
appartient à la lasseC
i
.P (C
k
|X)
est la probabilité a posteriori del'appartenan e deX
àC
k
.Pour desdistributions de probabilités
P (X
|C
i
)
onnues (modèles paramétriquesdes lassesC
i
), la règle de Bayes est optimale dans le sens où au une autre règle ne donnera un risque plusfaible. Considérant le as d'un risque binaire, 'est à dire assignant un oût de 1 à toute
mau-vaise lassi ation et un oût de 0 à toute lassi ation juste, minimiser le risque bayésien est
équivalentàassignerà
X
la lassepourlaquelleX
alaplusforteprobabilitéd'appartenir( ritère du Maximuma posteriori :MAP) :Ae ter à
X
la lasseC
i
si :P (C
i
|X) > P (C
j
|X) ∀j 6= i
P (X
|C
i
).P (C
i
) > P (X
|C
j
).P (C
j
)
∀j 6= i
(1.1) Une des ription plus détaillée de e formalisme est présentée en annexe A.2. En général, lesprobabilités a priori
P (C
i
)
de haque lasse ne sont pas onnues et doivent don être estimées à partird'unebased'apprentissage.Lesmodèles deMarkov a hés,dé rits auparagraphe 1.1.4,s'appuient sur e formalisme.
1.1.3.3 Surfa es de dé ision et fon tions dis riminantes.
Lesparamètres
o
d'objetsappartenantàunemême lassesont,s'ilssontbien hoisis,lo alisés dansune région homogène de l'espa e desparamètres. La lassi ation par surfa es de dé isionoufon tionsdis riminantesreposesurunpartitionnement del'espa e desparamètresen régions
mutuellement ex lusives; haquerégion del'espa e orrespondant auxréalisationspossiblesdes
paramètres d'une même lasse. Une région asso iée àla lasse
C
k
est don ara térisée par une fon tion dis riminanteg
k
(o)
tel que:g
k
(o) > g
j
(o)
∀o ∈ C
k
et∀j 6= k
Siles fon tionsdis riminantes sont desfon tionslinéaires desparamètres, alors les régionssont
séparées linéairement par des hyperplans. En pratique e as est rare et les surfa es de
dé i-sion sont appro hées en onsidérant que elles- i sont linéaires par mor eaux. Cette famille de
méthodesde lassi ation regroupe entreautres :
Le per eptron
Le per eptron est un réseau de neurones formels entrant dans la atégorie des modèles
neu-romimétiques. Il produit une lassi ation par fon tion linéaire dans le as où il est onstitué
d'une seule ou he de neurones [Rosenblatt 62℄. Cependant la fon tion dis riminante peut être
omplexiée par adjon tion de ou hes.
Un neurone formel est une représentation mathématique d'un neurone biologique. Les a tions
ex itatri es et inhibitri es des synapses sont représentées, la plupart du temps, par des
oe- ientsnumériquesasso iéesauxentrées.Lesvaleursnumériquessont ajustéesautomatiquedans
une phase d'apprentissage. Dans saversionla plussimple, un neurone formel al ule lasomme
pondérée desesentrées,puisappliqueà ettevaleurunefon tiond'a tivation, généralementnon
linéaire.Lavaleurnaleobtenue estlasortieduneurone.Individuellement,lesneuronesformels
al ulent des fon tions linéaires mais leur mise en réseau permet de simuler des fon tions très
omplexes.
La ma hine à ve teursupport (SVM)
Une ma hine à ve teur support (SVM en anglais pour Support Ve tor Ma hine) onsiste à
séparerdeux ensemblesde pointspar unhyperplan.L'idée originale desMVS aété publiée par
VladimirVapnik[Vapnik 82 ,Vapnik 98℄.Elleestbaséesurl'utilisationdefon tionsditesnoyaux
quipermettent uneséparation optimale (sans problèmed'optimum lo al)despointsde l'espa e
en diérentes lasses. Le prin ipe est de projeter l'espa e desparamètres surun espa e de plus
grande dimension à l'aide de la fon tion noyau de manière à pouvoir séparer linéairement les
pointsexprimés dans e nouvelespa e. Les SVM ont été développésinitialement dans le adre
d'une lassi ation bi- lasses, maisdesextensionsmulti- lasses ont étéproposées, ommela
M-SVM[Guermeur05 ℄.LesSVMontétéintroduites ré emmentpourlare onnaissan edelaparole
et ont donné des résultats prometteurs, notament pour l'identi ation du lo uteur [Wan05b ,
Wan 07 ℄,lare onnaissan edeformesa oustiques[Wan05a ,Bernal-Chaves 05,S harenborg06 ℄,
la déte tion de mots- lés [Aye 02 , Keshet07℄ ainsi quepour la on eption de modèles hybrides
Les arbres de dé ision
Les arbres de dé ision [Breiman84 ℄ également appelés arbres de lassi ation sont également
des lassieurs non linéaires par surfa es séparatri es. Le prin ipe est de déterminer la lasse
d'appartenan e d'une forme par une suite detests surses paramètres. Un arbre de dé ision est
ainsiformé d'unensemblede n÷udsinternes ontenant destestsetpardesfeuilles représentant
haque lasse.L'identi ationdela lassed'uneformeestdonnéeparun hemindepuislara ine
de l'arbre jusqu'à une feuille. Plusieurs progi iels d'arbres de dé ision tels CART ou C4.5 sont
disponiblesetont étéutilisésen re onnaissan e delaparole.
1.1.3.4 Modèles hybrides
Les modèles de lassi ation probabiliste et en parti ulier les HMM ompte parmi les
dif-férentesappro hesde lassi ationlesplusutilisésenre onnaissan edelaparole.L'intérêtqu'ils
sus itent provient non seulement du fait qu'ils donnent de bonnes performan es mais aussi du
fait qu'ils sont parti ulièrement bien adaptés au traitement de données à évolution temporelle.
Cependant, ilssont peudis riminantsenraison d'unapprentissage ditaumaximum de
vraisem-blan e (voirparagraphe 1.1.4.2).Certesilexistedesméthodesd'apprentissagedis riminantmais
l'apprentissage au maximum de vraisemblan e reste le standard. Par onséquent des systèmes
hybridesont étéproposés, ombinant desHMMave desmodèles dis riminants.
Parmi es hybridations, nous pouvons iter des modèles ombinant HMM et réseaux de
neu-rones. Detels modèles utilisent un réseau de neurones omme prépro esseur [Lazli02℄ ou
post-pro esseur[Guo 93℄d'unHMM.Danslepremier asun per eptronestentraîné pourapprendre
les probabilités a posteriori des lasses phonétiques
P (S
i
|O)
,S
i
étant un état d'unHMM etO
unve teur d'observations.LaformuledeBayespermetàpartirde esprobabilités de al ulerlavraisemblan e desobservations. Ces vraisemblan es sont alors utilisées enlieu et pla e de elles
initialement al ulées par les modèles à mélangede gaussiennesutilisés par unHMM lassique.
Dans le deuxième as, toutes les hypothèsesde re onnaissan e (ou seulement les
N
meilleures) al ulées par le HMM sont mises en entrée du réseau. Le réseau distinguera alors, parmi eshypothèses, lameilleured'entreelles.
Une autre hybridation onsiste à ombiner un HMM ave une SVM [Ganapathiraju 00℄. Une
telle hybridation présente également l'avantage de ombiner la apa ité des HMM à modéliser
dessériestemporellesetlepouvoirdis riminant desSVM.Cesystèmehybridepossèdelamême
ar hite ture que le système de Lazli et Sellami [Lazli 02℄ mais le réseau de neurones al ulant
P (S
i
|O)
estrempla é par une SVM.1.1.4 Le modèle de Markov a hé
Les modèles de Markov a hés (HMM : Hidden Markov Model) ont été dé rits pour la
Baum 72 ℄. Ce n'est qu'en 1975 qu'ils ont été proposés dans le adre de la re onnaissan e
au-tomatique de la parole [Baker75a, Baker75b℄ et se sont imposés depuis omme modèles de
référen edans e domaine.Nousproposonsdanslesparagraphessuivantsde dénir equ'estun
HMMetdedé riresamisen÷uvredansle adredelare onnaissan eautomatiquedelaparole.
1.1.4.1 Dénition d'un HMM
UnHMMestun asparti ulierdesmodèlessto hastiquesgraphiques,etpeutêtrevu omme
un automateprobabiliste. Il estgénéralement ara térisé par unquadruplet
(S, Π, A, B)
:S =
{S
0
, . . . , S
i
, . . . , S
k
}
estl'ensemble desétats del'automate.
Π =
{π
0
, . . . , π
i
, . . . , π
k
}
,aveπ
i
étant laprobabilité queS
i
soit l'état initial.A est l'ensemble des probabilités de transition d'un état vers un autre. A est ara térisé
parunematri e
k
∗k
d'élémentsa
ij
avei et j
∈ [0, k]
etk
lenombred'états.Tout élémenta
ij
de ette matri e est la probabilité d'atteindre l'étatS
j
au tempst
sa hant que nous étionsdansl'étatS
i
au tempst
− 1
.Bestun ensemble de loisdeprobabilité
b
i
(o)
donnant laprobabilitéP (o
|S
i
)
quel'étatS
i
aitgénérél'observationo
.Cetteprobabilitéestlavraisemblan edel'observationauregard deS
i
.Un HMMétant un automateprobabiliste, les ontraintes suivantes doivent être respe tées:
1. La sommedesprobabilités desétats initiauxdoitêtre égale à1 :
X
i
π
i
= 1
2. La sommedesprobabilités destransitionssortant d'unétat doitêtre égaleà 1 :
∀i
X
j
a
ij
= 1
3. La sommedesprobabilités desémissions d'unétatdoit êtreégale à1 :
∀i
X
o
b
i
(o) = 1
dansle as d'observations dis rètes.∀i
Z
o
b
i
(o) do = 1
dansle as d'observations ontinues.UnHMMreprésente unobjetpardeuxsuitesdevariablesaléatoires:l'unedite a hée etl'autre
observable. La suite observable orrespond à lasuite d'observations
o
1
, o
2
, . . . , o
T
où leso
i
sont des ve teurs d'observations du signal à re onnaître. La suite a hée orrespond à une suited'états
q
1
, q
2
, . . . , q
T
, où lesq
i
puisent leurs valeurs parmi l'ensemble desN
états du modèle{S
1
, S
2
, . . . , S
N
}
. La suite observable est dénie omme une réalisation parti ulière de la suite a hée. L'obje tif est de déterminerla meilleure séquen e d'étatsQ
⋆
= (q
⋆
de laséquen ed'observations
O = (o
1
, o
2
, . . . , o
T
)
.Le meilleur heminQ
⋆
est elui quimaximise
la probabilité a posteriori
P (Q
|O)
( ritère du maximum a posteriori : Eq. 1.1). En eet, en dérivant etteprobabilité a posteriori par larègle de Bayes,il vient :Q
⋆
= arg max
Q
P (Q
|O)
= arg max
Q
P (O
|Q) P (Q)
P (O)
P (O)
étant onstant pour toutQ
:Q
⋆
= arg max
Q
P (O
|Q) P (Q)
(1.2)
UnHMMprésenteplusieursavantages:ils'ins ritdansunformalismemathématiquebienétabli,
ilbéné iedeméthodesd'apprentissageautomatiquedessesparamètresetilestparti ulièrement
bien adaptéà lamodélisationde pro essusàévolution temporelle.
1.1.4.2 Mise en ÷uvre
Lamiseen÷uvred'unsystèmedere onnaissan e delaparole àpartir deHMMné essitede
formulerquelqueshypothèsessimpli atri esdanslebutd'adapter le adrethéorique desHMM
àlaRAPmaisaussid'ensimplierleformalismemathématiqueetainsiproposerdesalgorithmes
d'apprentissageetde lassi ationoptimauxsous eshypothèses.Unefois eshypothèsesposées,
troispointsimportantssont à onsidérer pourlare onnaissan e delaparole àpartir de HMM:
1. La topologie du modèle :
Comment dénir le nombre d'états du modèle? Quelles transitions entre les états sont
permises?quellesloisdeprobabilitéutiliserpourmodéliser ladistributiondesparamètres
de haqueétat?
2. L'apprentissage des paramètres :
Étant donnéunensemblede
J
séquen es d'observationsO
j
représentant ha unelamême entitéa oustiqueetdon asso iéesaumême HMMM
j
, omment hoisirlesparamètresΛ
j
deM
j
an demaximiserlaprobabilité queM
j
engendre lasuite d'observationsO
j
?3. Le dé odage :
Étant donnée une séquen e d'observations
O
, et un ensemble de HMM, quelle est la séquen e demodèles qui maximise laprobabilité de généréO
?Nousdé rivonsdanslesparagraphessuivantlamanièredont espointssonttraitésdansle adre
de lare onnaissan e automatiquede laparole.
Hypothèses simpli atri es
Soit
O = (o
1
, o
2
, . . . , o
T
)
une suite deT
observations. SoitQ = (q
1
, q
2
, . . . , q
T
)
une séquen e d'états alignée ave la suite d'observations; au tempst
le HMM est dans l'étatq
t
engendrantl'observation
o
t
.Hypothèse n1
La probabilité qu'une observation
o
t
soit émise au tempst
ne dépend pas des observations antérieures.P (o
t
|q
t
, q
t−1
. . . , q
1
, o
t−1
, o
t−2
, . . . , o
1
) = P (o
t
|q
t
, q
t−1
, . . . , q
1
)
(1.3) Hypothèse n2La probabilitéqu'une observationsoit émise autemps
t
nedépend pasdesétats pré édemment visités,maisseulement del'état ourant.P (o
t
|q
t
, q
t−1
, . . . , q
1
) = P (o
t
|q
t
)
(1.4) Hypothèse n3La probabilitéqueleHMM soitdansl'état
q
t
àl'instantt
nedépend quedel'étatdanslequelil setrouvait à l'instantt
− 1
.P (q
t
|q
t−1
, q
t−2
, . . . , q
1
) = P (q
t
|q
t−1
)
(1.5) Unmodèlerespe tant ettedernièrehypothèseestappelémodèledeMarkovdupremierordreparoppositionauxmodèlesd'ordre
N
.Unmodèled'ordreN
estunmodèlepourlequellaprobabilité de setrouverdansunétatq
t
est onditionnée par lasuited'étatsq
t−1
, q
t−2
, . . . , q
t
−
N
.UnHMM
duse ondordreaétémisaupoint[Gong 94 ℄.Lesrésultatsobtenus enre onnaissan ede hires
ontmontré unelégèreamélioration par rapport auxmodèlesdu premierordre. Cependant ette
amélioration se fait au détriment d'une omplexi ation a rue du modèle e qui limite son
intérêt.
Topologie du modèle
Lenombred'étatsd'unHMMdépenddel'entitéa oustiquequ'ilmodélise.L'entitélaplus
répan-dueestlephonème,maisilestpossiblede onsidérerdesentitésplusgrandes(supra-phonétique),
ommelasyllabeoulemot.Cependant onstruireunsystèmepossédantunmodèlepour haque
motd'unelanguen'estpasenvisageablepourdesraisonsdetempsetd'espa ede al ulmaisaussi
pour desraisonsde tailledelabased'apprentissage devant ontenir susamment d'exemplesde
haquemotpourobtenir desmodèles ables.Une tellemodélisationestalors in on evablepour
dessystèmesgrandvo abulairepermettant dere onnaître plusieursdizainesde milliers demots
diérents. Néanmoins sous ertaines ontraintes omme l'utilisation d'un vo abulaire restreint
ette modélisationpeuts'avéreravantageuse notament pour lamodélisationdesphénomènesde
o-arti ulation.
Un phonème est généralement dé omposé en 3 parties :un début, une partie stable et une n.
Une topologie à 3 états est par onséquent utilisée. Le se ond état orrespondant à la partie
les eetsde la o-arti ulation, 'estàdirelestransitionsentrephonèmes.Ceux- i orrespondent
don auxpartiesinstablesduphonème arellessont inuen éespar le ontextegau he et droit.
Danslebutderestituerl'évolutiontemporelledusignaldelaparoleunetopologiegau he-droite
est adoptée dans la grande majorité des as. Ce i veut dire qu'au un retour en arrière n'est
possible.
π
1
= 1
a
12
a
23
a
34
a
11
a
22
a
33
b
1
(o)
b
2
(o)
b
3
(o)
S
1
S
2
S
3
Fig. 1.6 HMM gau he-droite à 3 états usuellement utilisé pour la modélisation de phonèmes.
Les lois de probabilité
b
i
(o)
fournissant les probabiltés qu'une observationo
ait été générée par un étatS
i
sontmodélisées par des modèles à mélange degaussiennes (GMM).Chaqueétat
S
i
d'unHMMrenvoiepouruneobservationo
laprobabilitéqueo
aitétégénéréeparS
i
. Le al ulde ette probabilitéappelée également vraisemblan e de l'observations'appuie sur une fon tion de densité de probabilitésb
i
(0)
. Cette fon tionb
i
(0)
est un modèle paramétrique de l'ensemble des observations pouvant être générées par l'étatS
i
. La plupart des systèmes s'appuient des densités de probabilités ontinues modélisée par un mélange de lois normales(distributiongaussiennedesobservations).Lavraisemblan ed'uneobservation
o
estdon donnée par :b
i
(o) =
N
λ
X
j=1
λ
j
N (o; µ
j
, Σ
j
)
(1.6) aveN (o; µ
j
, Σ
j
) =
1
p
(2π)
M
|Σ
j
|
exp
−
1
2
(o
− µ
j
)
′
Σ
−1
j
(o
− µ
j
)
(1.7)N
λ
estlenombre de gaussiennes,λ
j
estlepoidslelaj
ièmegaussienne,
µ
j
etΣ
j
sont respe tive-ment leve teur moyen etla matri e de ovarian e de laj
ième
gaussienne et
M
ladimension du ve teur d'observations. La gure 1.6 présente un HMM gau he-droite à 3 états utilisé pour laApprentissage
Considérons un ensemble de HMM
M
j
et un ensemble deT
observationsO
j
. Apprendre les paramètres des HMM revient à her her le meilleur ensemble de paramètresΛ
⋆
j
= (µ
⋆
j
, Σ
⋆
j
)
tel que la probabilité queO
j
ait été générée parM
j
soit maximale ( ritère du maximum de vraisemblan e).Λ
⋆
j
= arg max
Λ
j
T
Y
t=1
P (O
j
(t)
|M
j
, Λ
j
)
(1.8)Idéalement, 'est
P (M
j
|O
j
, Λ
j
)
qui devrait être maximisée. L'apprentissage serait alors plus dis riminant :lorsquela vraisemblan e dumodèlej
augmente pour les exemples orrespondant aumodèlej
,lesvraisemblan esdesautresmodèlesdevraientdiminuerpour esmêmesexemples. LesHMMdevraient don êtreentraînés, nonseulementpourmaximiserlaprobabilitédegénérerles exemples de sapropre lasse, mais aussipour les dis riminer par rapport aux autres lasses
( ritèredumaximumaposteriori).Par equ'iln'existepasdeméthodepermettantdemaximiser
dire tement
P (O
j
|M
j
, Λ
j
)
,lesparamètresdesmodèlessontobtenusenmaximisantl'équation1.8 par laméthodeitérativedeBaum etWel h[Baum72℄, quiestun asparti ulierdel'algorithmeEM(Expe tationMaximisation) [Dempster77℄.
Dé odage
Ledé odagedelaparolepardesmodèlesHMMrevientàdéterminerlameilleureséquen ed'états
Q
⋆
= (q
⋆
1
, q
⋆
2
, . . . , q
T
⋆
)
pouvant engendrer laséquen ed'observationsO = (o
1
, o
2
, . . . , o
T
)
:Q
⋆
= arg max
Q
P (O
|Q)
= arg max
Q
π
0
T
Y
t=1
a
q
t−1
q
t
.b
q
t
(o
t
)
(1.9)Une solution naïve estde al uler laprobabilité
P (O
|Q)
detoutes lesséquen es d'étatsQ
pos-sibles et de ne retenir que la meilleure. Ce i peut se faire en onstruisant un arbre. A haquetemps
t
une ou he den÷uds internes estajoutéeàl'arbre. Chaquen÷udinternereprésenteun état parti ulier des modèles et ontient la probabilité de se trouver dans et état à l'instantt
. Lesprobabilités desdiérenteshypothèsesde re onnaissan e sont ontenuesdansles feuilles deetarbre. Cependant une tellesolution esten pratique inappli able ar lenombred'hypothèses
est trèsgrand.
L'algorithme deViterbi,variante sto hastiquedelaprogrammationdynamique,proposede
sim-plier l'arbre au fur et à mesure de sa onstru tion. En eet, lors de son déroulement on se
trouverapidement ave desbran hesproposant lesmêmessubstitutions,maisave des
probabil-ités diérentes. Plusieurs hypothèses peuvent seretrouver dansle même état au même instant.
L'algorithmedeViterbistipulequ'iln'est pasné essairededéroulerleshypothèsesdeplusfaible
-o
1
o
2
o
3
o
4
o
5
o
6
o
7
o
8
o
9
o
10
o
11
o
12
o
13
o
14
o
15
|i| |s| |i| |s| |i| i iFig. 1.7 Illustration de la re onnaissan e de la parole par l'algorithme de Viterbi. La phrase
re onnue orrespond à l'hypothèse dere onnaissan e (ou hemin) ayant la plusforte probabilité
dans letreillisdeshypothèses.Pour etexemplela meilleurehypothèse orrespondàla su ession
de phonèmes |i||s| |i|qui est la trans ription phonétique du mot i i.
Lamiseen÷uvrede etalgorithme onsisteà onstruiredefaçon itérativelameilleureséquen e
d'états à partir d'un tableau
T
∗ N
(T : nombre d'observations, N : nombre d'états total des modèles)appelétreillisdes hypothèses où ha undesn÷uds(t, i)
ontientlavraisemblan eδ
i
(o
t
)
dumeilleur heminpassantparl'étati
àl'instantt
.La vraisemblan eδ
i
(o
T
)
dumeilleur hemin qui nità l'étati
au tempsT
est alors al uléepar ré urren e :1. Initialisation :
δ
i
(o
1
) = π
i
2. Ré ursion :pour setrouverdansl'état
i
àl'instantt
,lepro essusmarkovien setrouvait for émentdansunétatj
àl'instantt
−1
pourlequelunetransitionversl'étati
estpossible:a
ji
> 0
.D'aprèsleprin iped'optimalitédeBellman,δ
i
(o
t
) = max
j
δ
j
(o
t−1
) . a
ji
. b
i
(o
t
)
. 3. Terminaison:Lavraisemblan edesobservations orrespondant àlameilleure hypothèseest obtenue en re her hant l'état
i
quimaximise la valeurδ
i
(o
T
)
à ladernière observationo
T
:P (O
|Q
⋆
) = max
i
δ
i
(o
T
)
Unereprésentationvisuelle tivedel'algorithmede Viterbiestprésentépar lagure1.7.Cette
gure montre un treillis des hypothèses onstruit pour une séquen e de 15 observations.
Seule-ment deux modèles sont représentés i i; deux HMM gau he-droite à 3 états modélisant les
phonèmes |i|et |s|. Le meilleur hemin (en vert) orrespond à la séquen e de phonèmes :|i| |s|
|i|. Cetteséquen eest latrans ription phonétiquedu moti i.
1.1.4.3 Limitation des HMM
L'utilisationdes HMM en re onnaissan e automatique de la parole repose surplusieurs
hy-pothèses simpli atri es. Celles- i sont, ertes, né essaires,mais elles onstituent également des
pointsfaiblesdesHMM.
La modélisationde laduréedesphonèmes n'est qu'impli itement ontenue autraversdes
prob-abilités de transitions entre les états. Une modélisation expli ite de elle- i a ependant été
proposéeave su ès[Russel 85 ,Levinson 86℄.
L'hypothèse d'indépendan e onditionnelle des observations (équation 1.3) est irréaliste. Une
solutione a e etlargementrépandue onsisteàprendreen ompte lesdérivéespremières
∆
et se ondes∆∆
desparamètres.Unedeuxièmesolutionestdemodéliserexpli itementla orrélation entreles ve teursd'observations su essifs [Russell93 ,Gales 93b ℄.1.2 Robustesse au bruit
Malgrédenombreuxeorts dere her he entrepris depuisplusieurs années, larobustessedes
systèmes de re onnaissan e de la parole au bruit reste problématique, e qui explique
proba-blement en grande partie leurdiusion et utilisation très limitée. Ce paragraphe dénit les
dif-férentstypesdebruitetrésumebrièvementlesgrandesfamillesd'appro hequiont étéproposées
jusqu'alorspour résoudre e problème derobustesse.
1.2.1 Le bruit
L'obje tif d'un système de re onnaissan e est de retrans rire e qu'a pronon é un lo uteur
parti ulier. Nous onsidérons omme bruit toute distorsion du signal ou tout signal provenant
d'uneautre sour esonore quelelo uteur prin ipal.Ondistingue deuxtypesde bruits.Le bruit
onvolutif, onséquen ede ladistorsion dusignalinhérent à l'a quisition par unmi rophone de
mauvaise qualité,ou induite par les ara téristiques du anal de transmission ommeles lignes
téléphoniques etlebruit additif orrespondant àune pollution sonore issued'autressour es.
Le bruitest très pénalisant pour lare onnaissan e. Eneet les modèlesa oustiques sont appris
surdes orpusenregistrésen onditionsmaîtrisées, 'est-à-direexemptsdebruit.Ilsne
représen-tent don queles ara téristiques dusignal delaparole.Ces modèles ne sont alors plusdutout
Nous ne onsidérons par lasuite que lesbruitsadditifs.
Un bruit peutêtre ara térisé par diérentes propriétés (TAB.1.1). La onnaissan e de es
pro-priétés dubruit permet d'adopterune stratégie robuste adaptée.
Propriétés Attributs de lapropriété
stru ture temporelle ontinu / impulsif/périodique
stationnarité stationnaire/ non-stationnaire
stru turespe trale large-bande / onnéen bande
dépendan e ave laparole orrélé /dé orrélé
spatialisation ohérent / in ohérent ave la sour ede laparole
harmoni ité harmonique / inharmonique
Tab. 1.1Propriétés ara térisantes du bruit (adapté de[Glotin 01℄).
Une des situations les moins pénalisantes en re onnaissan e est de traiter un signal pollué par
un bruit ontinu,stationnaire, dé orrélédu signalde laparole etinharmonique;un bruit blan
gaussien par exemple. Une situation beau oup plus pénalisante est de re onnaître un signalde
paroleparmid'autressignauxdeparole.Unetelleinterféren eest onnuesouslenomde o ktail
party. Lagure 1.8illustrel'altération d'unspe trogramme de parolepar du bruit.
Fig. 1.8 Haut : Représentation spe trale d'un signal de la parole orrespondant à la phrase :
one three nine oh. Bas:Le même signal,mais orrompupar lebruit du métro à 5 dB.
Ilestpossibledequantierleniveaudebruitdansunephrase.Lebruitestmesuréparlerapport
signal surbruit(SNR:Signal-to-Noise Ratioen anglais).Le SNR s'exprime endé ibels(dB) :
SN R = 10 log
10
S
N
où
S
etN
sont respe tivement les énergies du signal de laparole et du bruit. Il est possible de al uler leSNR àdiérents niveaux degranularité. Onpeutdon distinguer :1. SNR global :Le rapport est al ulé en fon tion des énergies totales sur la phrase de la
parole etdubruit.La quantité de bruit estalors quantiée par une seule valeur.
2. SNRsegmental:Lerapportest al ulésurdessegmentstemporelsbiendénisdusignal.
Le bruit estalors quantié pour ha un dessegments.
3. SNR segmental temporel et fréquentiel : Le al ul de e rapport est identique que
pourle pré édent, ependant le al ulestee tuépour haque bande de fréquen e.
4. SNR lo al : Pour haque oe ient du plan temps-fréquen e (spe trogramme) un SNR
est al ulé. C'est lagranularité laplusne, maisaussilaplus déli ate àestimer.
1.2.2 Stratégies pour la re onnaissan e robuste de la parole
Plusieurs stratégiesrobustes de re onnaissan ede la parole ont été proposées.Lesprin ipes
sous-ja entssontsouventsemblables,maislepointdevuediérentadoptélorsdela on eptionde
haqueméthodeaboutitàdeshypothèsessimpli atri esdiérentesetdon desimplémentations
diérentes. Ces te hniques peuvent être lasséesen 4 atégories (FIG.1.9) :
Paramétrisation robuste du signal : extraire du signal des paramètres représentatifs de la
parole possédant une sensibilitéau bruitréduite.
Débruitage du signal :éliminerou réduirel'inuen e dubruit surlesignalà re onnaître
Adaptation des modèles a oustiques :adapter les modèles a oustiques de manière à
min-imiser l'inuen e dubruit.
Modi ation de l'algorithme de dé odage :modier l'algorithme de dé odage pour
pren-dre en ompte les diéren es entre le onditions d'apprentissage (parole seule) et de test
(parole+bruit).
Ces diérentes familles de stratégies sont dé rites dans les paragraphes suivants. Pour ha une
d'entre ellesnousproposons uneliste nonexhaustive deméthodes.
1.2.2.1 Paramétrisation robuste du signal
Une première appro he en re onnaissan e robuste de la parole onsiste à extrairedu signal
uniquement des paramètres pertinents pour le dé odage phonétique et à réduire au maximum
l'inuen e des autres sour es. Parmi les paramétrisations robustes nous avons déjà ité
(para-graphe1.1.2) lesméthodesMFCC etPLP.
Les ampagnes d'évaluation Aurora [Pear e 00 ℄ de la re onnaissan e de la parole robuste ont
permis la on eption d'un algorithme de paramétrisation standardisé par l'organisme ETSI
[ETSI ES202 050,03℄ . Cet algorithme est onnu sous le nom de paramétrisation WI008, ou
en ore ETSI AFE (ETSI Advan ed Front End). Les résultats obtenus par ette méthode de
Base d'apprentissage Base detest Paramétrisation Paramétrisation Modèles A oustiques Trans ription Moteur de re onnaissan e Débruitage Adaptation Paramétrisation Robuste Modi ation
Fig. 1.9 Stratégies pour la re onnaissan e robuste de la parole.
1.2.2.2 Débruitage du signal
Le prin ipe des méthodes de débruitage est de réduire les diéren es entre les onditions
d'apprentissage etde test.Cesméthodess'appuient surdeste hniquesde ltrageplus oumoins
omplexes quitentent de supprimer ou deréduirel'inuen e du bruitsur lesignalde laparole.
Soustra tion spe trale
La ombinaison dessignauxde parole etdebruit est linéairedans ledomaine temporel :
y(t) = x(t) + n(t)
où
y(t)
,x(t)
etn(t)
représentent respe tivement l'amplitude de la parole bruitée, de la parole seule etdubruitseulàl'instantt
.Cetterelationd'additivitéesttoujoursvalidedansledomaine spe traletpréservéelorsdupassagedanslespe tredepuissan eàuntermededéphasagecos(Φ)
près.|Y (τ)| = |X(τ)| + |N(τ)| . cos(Φ)
Cependant ilest montré, par diverses onsidérations, que e termepeutêtre supposépro he de
1 etdon :
|Y (τ)| = |X(τ)| + |N(τ)|
La soustra tionspe traleproposede al ulerune estimée dubruitsurdesportionsdusignalne
ontenant pas de parole. Sous l'hypothèse que le bruit soit stationnaire, l'estimée du bruit est
Filtre de Wiener
Un ltre de Wiener est un estimateur
X(t, f )
ˆ
du signal de parole seule, optimal au sens des moindres arrés, 'est àdire quiminimise :E
"
ˆ
x(t)
− x(t)
2
#
Le ltre de Wienerfon tionne sous l'hypothèse queles trames de parole etde bruit sont issues
depro essusgaussiensetstationnaires dedensitésspe tralesde puissan es
σ
2
X
(f )
etσ
2
N
(f )
.Cet estimateur estexprimé par :ˆ
X(t, f ) =
σ
2
Y
(t, f )
− σ
2
N
(t, f )
σ
2
Y
(f )
|
{z
}
α
. Y (t, f )
LeltredeWienerestdéniparletermemultipli atif
α
.Commepourlasoustra tionspe trale, laprin ipaledi ultérésidedansl'estimationdeσ
2
N
(t, f )
quis'apparenteau al ulduSNRetqui estdon di ileàestimer lorsquelebruitestnon stationnaire.Benoroya [Benaroya 03 ℄proposaune adaptation permettant de prendre en ompte au moins partiellement la non-stationnarité
du bruit.
Débruitage paramétrique
Ledébruitageparamétriquepermetdetransformerlestramesdeparolebruitéeentramesde
pa-roleseule.Il s'agitdetransformationsnon homogènesdansl'espa edesparamètres a oustiques.
Cha unedes lassesa oustiquesquipeuventêtre onstruitesdansl'espa ea oustiquenonbruité
estmiseen orrespondan eave une lassea oustiquedansl'espa ea oustiquebruité.Les
trans-formations peuvent être apprises pendant la phasede onstru tion du système en utilisant une
basede donnéesstéréo, 'està direpossédantle même signalbruité etnonbruité.
1.2.2.3 Adaptation des modèles a oustiques
Composition de modèles
Leprin ipedela ompositiondemodèlesestde ombinerdiérentsmodèles(modèles
a ous-tiques etmodèles de bruit) pour ne former qu'un seul même modèle. La te hnique la plus
util-isée est la ombinaison parallèle de modèles (PMC : Parallel Model Combination) [Varga90 ,
Gales 93a℄.Cettete hnique revient à onstruireun HMMéquivalent auxdeuxmodèlesinitiaux,
supposantl'additivitédesdiérentessour essonoresdanslespe tredepuissan e.Unetelle
om-binaisonest illustréepar lagure1.10.
Il existe plusieurs problèmes inhérents àla ombinaisonparallèle de modèles :
Unmodèledebruitdoitêtre onnu.Deplusilestné essaired'estimerleSNRen ondition