2.3 Re onnaissan e de la parole sur des observations partielles
2.3.3 Marginalisation des données
2.3.3.1 Dé odageenprésen ededonnéesmanquantesouin ertaines . 40
2.3.3.3 Marginalisationdes oe ientsdevitesseetd'a élération . . 46
2.3.3.4 Évaluation . . . 47
Lare onnaissan e ave donnéesmanquantes estune appro he issuedu domaine delavision
[Ahmad 93℄.Ellefuttransposéeàlare onnaissan edelaparoleàlandesannées90parMartin
Cooke etses ollègues de l'université de Sheeld [Cooke 96 ,Cooke 97,Cooke 01b℄. Le prin ipe
général de ette appro he repose sur un partitionnement des paramètres a oustiques en deux
lasses;les paramètres ables,peuou pasae téspar lebruit fournissant une des riptionassez
dèle du signal de la parole, et les paramètres manquants, trop ae tés par le bruit dé rivant
de manière erronée le signalde parole à re onnaître. Cepartitionnement est plus onnu sous la
dénomination demasquede données manquantes.
Nousprésentonsdans e hapitrelesfondementssurlesquelss'appuielathéoriedesdonnées
man-quantes appliquée à la re onnaissan e de la parole. Nous relatons en premier lieu des travaux
montrant que notre système auditif traite tout stimuli de manière séle tive. Nous sommes
a-pable de re onnaître desmots pronon és à partir d'une représentation par ellaire du signal
ex-ploitantlaredondan ed'informationdusignaldeparole:unpro essusdemasquagedesdonnées
manquantesestmisen÷uvre.Leformalismethéorique de etteappro he dere onnaissan esera
ensuitedétaillémettantenavantl'importan edesmasques.Lesdiérentspro essusde
re onnais-san esurdesobservationspartiellesserontensuiteprésentésavantde on lureparuneévaluation
du potentiel de ette appro he.
2.1 Masquage en re onnaissan e de la parole
Lathéoriedesdonnéesmanquantesenre onnaissan eautomatiquedelaparoleestfortement
inspirée du fon tionnement du système auditif humain. En eet, il a été établi que l'oreille
humaineaun omportement séle tifvis-à-visdesdiérentsstimuliqu'elletraite.Nousdé rivons
dans e paragraphe lephénomène de masquage intervenant auniveau dusystème d'auditionde
l'Homme.
2.1.1 Théorie gestaltiste : per eption et stru turation du monde
Le motallemand Gestalt est traduitpar forme (ainsiGestalttheorie signiethéoriede
laforme),maisils'agit enréalité dequelque hose debeau oupplus omplexe, qu'au un mot
ne traduit exa tement dansau une autre langue. Le verbe gestalten signiemettre en forme,
donner une stru ture signiante. Le résultat, le gestalt, est don une forme stru turée,
omplète etprenant sens pour nous. Par exemple, lorsqu'on regarde les étoiles, ha une d'elles
estun stimulus visuel,pourtant on peutfa ilement lesorganiseren onstellations, enensembles
stru turellement ohérents formés de stimuli. Ainsi l'image mentale que nous avons en tête est
une forme, etpeut être évaluée par notre esprit en tant que telle, par exemple en la nommant
laGrande Ours.
Pour omprendre un omportement ou une situation, il importe don , non seulement de les
analyser, mais surtout, d'en avoir une vue synthétique, de les per evoir dans l'ensemble plus
souvent plus signiant que letexte ( om-prendre 'est prendre ensemble). La stru turation
desformesnesefaitpasauhasard,maisselon ertainesloisditesnaturellesetquis'imposent
au sujetlorsqu'ilperçoitlemonde. Lesprin ipales loisdelaGestalt sont:
La loi de la bonne forme : loi prin ipale dont les autres dé oulent : un ensemble de parties
informes( ommedesgroupementsaléatoiresdepoints)tendàêtreperçud'abord
automa-tiquement ommeune forme.
La loi de ontinuité : des points rappro hés tendent à représenter des formes lorsqu'ils sont
perçus,nousles per evonsd'aborddansune ontinuité, ommedesprolongementsles uns
par rapportauxautres.
La loi de similitude : si la distan e ne permet pas de regrouper les points, nous nous
at-ta herons ensuiteà repérerles plussimilaires d'entre euxpour per evoirune forme.
La loi du destin ommun :despartiesenmouvementayantlamêmetraje toiresontperçues
ommefaisant partie delamême forme.
La loi de lture : une forme fermée est plus fa ilement identiée omme une gure qu'une
forme ouverte.
Ces lois déterminent la manière dont les éléments d'une s ène per eptive sont organisés entre
eux. Elles ont été proposées initialement pour l'expli ation des pro essus de per eptionvisuelle
[Köhler29 ℄ mais Bregman [Bregman90 ℄ montra qu'elles peuvent également se retrouver dans
l'organisation des s ènes auditives. Une étude plus détaillée de l'analyse de s ène auditive est
présentéedanslasuite du manus rit( hapitre 3 paragraphe 3.2).
2.1.2 Le masquage dans la per eption humaine de la parole
Lare onnaissan eautomatiquedelaparoleave données manquantes estun on eptquifut
initié par desétudesmenées dansle domaine dela per eptionhumaine de laparole.Lesannées
50ontvuémergerdeste hniquesde odage delaparolepourlesbesoinsduse teurdes
télé om-muni ation.Ces te hniques onstituent aujourd'hui les bases de lathéorie de la ommuni ation
[Sha49 ℄.
Cestravauxontmontrél'étonnante apa itédel'oreille humaineàre onnaîtreet omprendreun
signaldeparolemêmeenprésen edebruitàdesniveauxélevés.Cettefa ultéestdueaufaitque
lesignalde laparole estextrêmement redondant dansledomaine spe tral.Notre système
audi-tif périphérique traite toutstimulus sonore par une analyse fréquentielle etpeut don exploiter
pleinement etteredondan ed'informations.Ilestmontréquenouspouvonsre onnaître et
om-prendre laparole pronon ée seulement àpartir de petitesportionsdu spe tre sous la ondition
que esportionsnesoientpasoutrèspeuae téesparlebruit.Ces expérien esnemontrent pas
omment notre système auditif masque le signal mais elles montrent que re onnaître la parole
surdesobservationspartiellesestpossible.Plustard,dess hémasdemasquageontétéidentiés
Le masquage entral
Ce type de masquage provient du fait que notre système auditif et omposé de deux oreilles
pla ées de part etd'autre de la tête etvers des dire tionsopposées. Par onséquent haque
or-eille ne perçoit pasla même information. Cettediéren e de per eption estdue aux diéren es
de lo alisation et d'intensité des diérentes sour es sonores vis-à-vis de nos deux oreilles. Un
pro essus de masquage est don mis ÷uvre, basé sur es diéren es de per eption du monde
sonore. Ce pro essus est à le base des prin ipes d'identi ation et de lo alisation de sour es
sonoresexploitant un ban demi rophones.
L'eet de apture
Ce type de masquage e produit lorsqu'un son domine lo alement la réponse neuronale. Plus
pré isément, le seuil d'audibilité d'un son est a ru en présen e d'un autre son de fréquen e
adja ente lorsque es deux sons sont perçus simultanément ou ave un léger dé alage temporel
[Flet her37℄.Siladiéren edesfréquen esdessonsdevient supérieureàunseuil, ephénomène
disparaît. Ces travauxsont àl'origine delanotion de bandes ritiques ayant onduit à
l'utilisa-tion desé hellesper eptivesBarketMel( hapitre 1 paragraphe 1.1.2.2).
Le masquage temporel
Le masquage temporel intervient danslesystème d'auditionlorsque qu'un sonestpré édé d'un
autre son généralement d'intensité supérieur[Harris 79℄. Ce phénomène est probablement lié à
la apa ité d'adaptationdu systèmeauditif à unstimulusde durée roissante.
2.2 Masquage en re onnaissan e automatique de la parole
La re onnaissan e ave données manquantes [Green 95, Lippmann 97, Morris98℄ ainsi que les
modèles multibandes [Boulard96 , Hermansky 96, Morgan98, Cerisara99 ℄ ont été développés
dans le but de transposer e phénomène de masquage à la re onnaissan e automatique de la
parole. L'appro he multibandes, omme la re onnaissan e ave données manquantes, ne
trans-met au moteur de re onnaissan e qu'une partie des observations. Elle repose sur une séle tion
dynamique des bandes de fréquen es qui serviront à la re onnaissan e. Seules les bandes de
fréquen es les moinspénaliséespar le bruitseront transmises. Bienque es appro hes (modèles
multibandes et re onnaissan e ave données manquantes) soient quelque peu diérentes elles
sont toutes deux fondées sur l'identi ation des observations exploitables par le système RAP,
'est à dire,les observations les moins bruitées. Ce pro essus de lassi ation des observations
Nousdénissonsdanslesparagraphessuivants equ'estunmasquededonnéesmanquantesdans
le adre appli atifde lare onnaissan e automatiquede laparole.
2.2.1 Masque de données manquantes
2.2.1.1 Dénition d'un masque
Un masque de données manquantes est une représentation d'unsignal qui asso ie à haque
paramètre (exprimé dans un espa e
Λ
) dé rivant e signal une mesure (exprimée dans un do-maineD
) de laabilité de l'information qu'il véhi ule .Un masque est don un étiquetage des observations. Dans le ontexte de la RAP ave données manquantes et étiquetage onstitueunesour e d'informations additionnelles permettantau moteurde re onnaissan ed'adapter son
fon tionnementenfon tiondelaabilitédesobservations.Demanièregénérale,unmasquepeut
êtredéni ommeuneunefon tion
M
,quiasso ieà haqueparamètre dusignalbruité exprimé dans un espa eΛ
,une valeur de masque à valeur dansD
,en fon tion d'un ensemble d'indi es a oustiques exprimésdansun espa eΩ
:M : (Λ, Ω) → D
(2.1)La fon tion de masque
M
peut don être vue omme l'appli ation d'un ritère de dé ision sur l'ensemble des indi es a oustiques asso iés à haque paramètre du signal An de mieuxomprendre ettedénition demasque, il onvient d'en pré iserles diérents omposants.
2.2.1.2 Critères de abilité et espa e des masques
Considérons
D
qui estle domaine danslequel unmasque est exprimé, et qui ontient don l'ensemble des valeurs pouvant être attribuées aux masques. La nature des valeurs omposante domaine peut être très diverse.Cependant es valeursdoivent ara tériser des propriétés ou
indi es pouvant êtreexploités par lemoteur de re onnaissan e. Deuxformulations desmasques
ont étéproposées :
Les masques dis rets :
D = {0, 1}
:Les masques sont exprimés de manière dis rète et binaire.Chaqueparamètrea oustiqueétiquetéparunevaleurvalant0ou1signiantrespe tive-ment que e paramètre est ableoumanquant.
Lesmasques ontinus:
D = [0, 1]
:Lesvaleursde etype demasqueestunréel ompris entrezéroetun.Ceréel traduitlaprobabilitéqu'un paramètre soitmanquant, 'est àdiretroporrompupar lebruit pourêtre signiant.
Un paramètre est onsidéré omme masqué si la ontribution du signal de parole du lo uteur
d'intérêt estplus faible quela ontribution du bruit.Un tel ritère peut êtreinterprété, dans le
M
fondée surle seuillage duSN Rlocal
est laplus intuitive etla pluslargement adoptée par la ommunautés ientiquedutraitementdelaparole.Plusieursétudes[Barker00,Morris01b℄ontmontréquelesmasques ontinusfournissentdemeilleursrésultatsquelesmasquesdis retssil'on
onsidèrelemasquage ommeleseuillageduSNR.Ce is'expliquepar lefaitqu'une observation
n'est jamais omplètement manquanteouable.Deplus, leserreursdemasquessontenquelque
sorte lisséessi e dernierestexprimé de manière ontinue.
Bien que ette dénition soit très largement répandue, elle n'est pas optimale. Cette dénition
est, ertes, appropriée si l'obje tif à atteindre est de débruiter le signal puisque le débruitage
se traduitpar une maximisation du SNR. Par onséquent un masque basésurle SNR optimise
dire tement l'obje tif de débruitage. Cependant, la plupart des appli ations ont pour obje tif
d'améliorer lare onnaissan e. Dans e asune amélioration du SNRne setraduit pas
systéma-tique enune amélioration de l'intelligibilité. Dans le ontextede lare onnaissan e automatique
delaparole,ilsembleraitpréférabledefonderle ritèredeabilitésurletauxdere onnaissan e
pluttquesurleSNR, 'estàdiredéterminerun ritèretelquelemasquerésultantfourniraitun
tauxdere onnaissan eoptimal, equin'estpasle asdesmasquesbaséssurleSNR.Cependant,
il n'existe, à l'ex eption de Safayani qui propose dans[Safayani07 ℄ un algorithme de
soustra -tion spe trale optimisant la re onnaissan e plutt que le SNR, quasiment au un travail publié
exploitant un tel ritère.Nousyvoyons plusieursraisons :
L'uni itéd'unmasqueoptimisantletauxdere onnaissan en'estpasgarantie.Au ontraire
ilest fortement probable queplusieurs masques diérents soient optimaux.
Les masques basés sur leSNR sont bien plus aisésà al uler que des masques fondés sur
lamaximisation dutaux de re onnaissan e.
LesmasquesbaséssurleSNRdansle adredelaRAPave donnéesmanquantesfournissent
de trèsbonstauxde re onnaissan e.Ce i suggèreque es masquessont en faitune bonne
approximationdes masquesoptimisant le tauxde re onnaissan e.
2.2.1.3 Espa e des observations
Enthéorieunmasquepeutêtredénipour toutdomaine deparamétrisation, enpratique,le
domaine desparamètres a oustiquesdoitêtre onsistant ave le ritère deabilité.Le signalest
don paramétrédansundomaine omposéde diérentesdimensionsoù ha uned'entreellesest
asso iée àdes bandesde fréquen es distin tes. Une telleparamétrisation orrespond àl'analyse
fréquentielle du signal opérée par notre système auditif d'une part, et est onsistante ave la
notiondeabilitédesparamètres a oustiquefondéesurunseuillageduSNR.Nous onsidérerons
don uniquement dansla suite des paramétrisations basées surune représentation fréquentielle
2.2.1.4 Espa e des indi es a oustiques
Undesfondement delathéoriegestaltiste estqu'uneobservationne doitpasêtre onsidérée
de manièreisolée, maisdoit êtreévaluée danssont ontexte.Il est don né essairede re ourirà
diversindi es ara térisant uneobservationdansson ontexteand'évaluersaabilité.Outre la
ara térisationdu ontexte, esindi es doivent permettre de dis riminer lesobservations ables
des observations manquantes en a ord ave le ou les ritères de abilité retenus. Ces indi es
ne sont soumis à au une ontrainte, et par onséquent peuvent être de natures très variées.
Nous évoquons au hapitre suivant plusieurs indi es a oustiques proposés pour l'estimation de
masques. Cependant nous itons i i, en guise d'exemple, les indi es proposés par M.L. Seltzer
[Seltzer 00,Seltzer04℄.
L'harmoni ité
En raison de la nature harmonique de la parole, la majorité de l'énergie d'un signal de parole
résideauxniveauxdesesharmoniques.Lebruitadditif(àl'ex eptiondelamusiqueoudeparole
on urrente) ne partage généralement pas ette propriété. Par onséquent, lorsque qu'un bruit
additif orromptunsignaldeparole l'harmoni itédusignalrésultant estplusfaibleque ellede
laparole seule.Plus la ontribution du bruitest forteestplus l'harmoni itédé roît. Lesindi es
entrant dans ette atégorie sont le omb lter ratio et l'auto orrelation peak ratio. Le premier
al ule le rapport entre l'énergie du signal présente aux harmoniques et l'énergie lo alisée aux
fréquen es inter-harmoniques. Le se ond estbasé surla fon tion d'auto orrélation utiliséepour
al ulerlafréquen efondamentaled'unsignaldeparole.Lafon tiond'auto orrélationexhibeun
pique important au niveau de lafréquen e fondamentale delaparole.Un se ondpique apparaît
ensuitemaisdefaçon moinspronon ée.Moinslesignalétudié estpériodiqueetmoins ese ond
piqueestpronon é. Par onséquent lerapportdelahauteurde espiquesestunbonestimateur
de l'harmoni ité.
Les propriétés de l'enveloppe spe trale de parole
Outre ses ara téristiques harmoniques, la parole possède une enveloppe spe traledistin te des
autres sons.La majeure partie de l'énergiede laparole est on entrée entre300 Hz et4000 Hz.
Cette enveloppe spe trale est modiée en fon tion de l'enveloppe spe trale du bruit additif. Le
rapportentrelesénergiesde haque oe ientspe trauxetl'énergietotaled'unetrameestalors
utilisée. Seltzer propose également d'exploiter le rapport entre l'énergie omprise dans haque
bande de fréquen eetune estimée de l'énergie dubruit dans ette même bande ou une estimée
del'énergiedubruitsurlatrame omplète.Deplus,laparoleexhibeunetraje toirefréquentielle
ara téristique faitede piques(auxfréquen es harmoniques) etde vallées(auxfréquen es
inter-harmoniques). La ompression (logarithmique ou ubique) des énergies du signal usuellement
moins pronon ées à mesureque l'intensité du bruit augmente. Une mesure de laprofondeur de
es vallées, appelée atness,estdon proposée.
La distribution des énergies
Beau oup designauxsonoresdelavie ourante,in luant laparole,sont vus ommedessignaux
super-gaussiens. Leur distribution possède un kurtosis plus élevé qu'un signal gaussien (pique
pluspronon éetdesqueuesplusaplaties).Lorsquedeuxsignauxsuper-gaussienssont ombinés,
le kurtosis dusignal résultant hute. En supposant qu'un signal de parole etson homologueen
ondition bruitée ont deskurtosis diérents, l'évaluation de ette diéren e onstitue un indi e
de laprésen edu bruit ainsique de sonintensité.
2.2.2 Masque ora le
Sil'on résumelesindi esa oustiques àlaseulevaleur exa tedu SNR,quipeutêtre al ulée
à partir de deux signaux stéréos opiques d'une même phrase (un signal bruité et le se ond ne
ontenant que lesignal orrespondant àlaparole), lemasqueproduit estappelémasqueora le.
Une deuxièmepossibilité onsisteà al uler lesmasquesora lesàpartirdesdiérentsuxaudio
(un ux de parole et un ux de bruit par exemple) omposant la s ène auditive. Les masques
ora les sont des masques exempts de toute erreur. Par onséquent ils sont optimaux en a ord
ave le ritère de abilité fondé sur le seuillage du SNR. Par onstru tion, les masques ora les
sontdis rets, arpour haque oe ientspe tral,lavaleurduSNRest onnueetdon laabilité
des oe ients estdéterminée ave ertitude.