Marginalisation des données - Re onnaissan e de la parole sur des observations partielles

2.3 Re onnaissan e de la parole sur des observations partielles

2.3.3 Marginalisation des données

2.3.3.1 Dé odageenprésen ededonnéesmanquantesouin ertaines . 40

2.3.3.3 Marginalisationdes oe ientsdevitesseetd'a élération . . 46

2.3.3.4 Évaluation . . . 47

Lare onnaissan e ave donnéesmanquantes estune appro he issuedu domaine delavision

[Ahmad 93℄.Ellefuttransposéeàlare onnaissan edelaparoleàlandesannées90parMartin

Cooke etses ollègues de l'université de Sheeld [Cooke 96 ,Cooke 97,Cooke 01b℄. Le prin ipe

général de ette appro he repose sur un partitionnement des paramètres a oustiques en deux

lasses;les paramètres ables,peuou pasae téspar lebruit fournissant une des riptionassez

dèle du signal de la parole, et les paramètres manquants, trop ae tés par le bruit dé rivant

de manière erronée le signalde parole à re onnaître. Cepartitionnement est plus onnu sous la

dénomination demasquede données manquantes.

Nousprésentonsdans e hapitrelesfondementssurlesquelss'appuielathéoriedesdonnées

man-quantes appliquée à la re onnaissan e de la parole. Nous relatons en premier lieu des travaux

montrant que notre système auditif traite tout stimuli de manière séle tive. Nous sommes

a-pable de re onnaître desmots pronon és à partir d'une représentation par ellaire du signal

ex-ploitantlaredondan ed'informationdusignaldeparole:unpro essusdemasquagedesdonnées

manquantesestmisen÷uvre.Leformalismethéorique de etteappro he dere onnaissan esera

ensuitedétaillémettantenavantl'importan edesmasques.Lesdiérentspro essusde

re onnais-san esurdesobservationspartiellesserontensuiteprésentésavantde on lureparuneévaluation

du potentiel de ette appro he.

2.1 Masquage en re onnaissan e de la parole

Lathéoriedesdonnéesmanquantesenre onnaissan eautomatiquedelaparoleestfortement

inspirée du fon tionnement du système auditif humain. En eet, il a été établi que l'oreille

humaineaun omportement séle tifvis-à-visdesdiérentsstimuliqu'elletraite.Nousdé rivons

dans e paragraphe lephénomène de masquage intervenant auniveau dusystème d'auditionde

l'Homme.

2.1.1 Théorie gestaltiste : per eption et stru turation du monde

Le motallemand Gestalt est traduitpar forme (ainsiGestalttheorie signiethéoriede

laforme),maisils'agit enréalité dequelque hose debeau oupplus omplexe, qu'au un mot

ne traduit exa tement dansau une autre langue. Le verbe gestalten signiemettre en forme,

donner une stru ture signiante. Le résultat, le gestalt, est don une forme stru turée,

omplète etprenant sens pour nous. Par exemple, lorsqu'on regarde les étoiles, ha une d'elles

estun stimulus visuel,pourtant on peutfa ilement lesorganiseren onstellations, enensembles

stru turellement ohérents formés de stimuli. Ainsi l'image mentale que nous avons en tête est

une forme, etpeut être évaluée par notre esprit en tant que telle, par exemple en la nommant

laGrande Ours.

Pour omprendre un omportement ou une situation, il importe don , non seulement de les

analyser, mais surtout, d'en avoir une vue synthétique, de les per evoir dans l'ensemble plus

souvent plus signiant que letexte ( om-prendre 'est prendre ensemble). La stru turation

desformesnesefaitpasauhasard,maisselon ertainesloisditesnaturellesetquis'imposent

au sujetlorsqu'ilperçoitlemonde. Lesprin ipales loisdelaGestalt sont:

La loi de la bonne forme : loi prin ipale dont les autres dé oulent : un ensemble de parties

informes( ommedesgroupementsaléatoiresdepoints)tendàêtreperçud'abord

automa-tiquement ommeune forme.

La loi de ontinuité : des points rappro hés tendent à représenter des formes lorsqu'ils sont

perçus,nousles per evonsd'aborddansune ontinuité, ommedesprolongementsles uns

par rapportauxautres.

La loi de similitude : si la distan e ne permet pas de regrouper les points, nous nous

at-ta herons ensuiteà repérerles plussimilaires d'entre euxpour per evoirune forme.

La loi du destin ommun :despartiesenmouvementayantlamêmetraje toiresontperçues

ommefaisant partie delamême forme.

La loi de lture : une forme fermée est plus fa ilement identiée omme une gure qu'une

forme ouverte.

Ces lois déterminent la manière dont les éléments d'une s ène per eptive sont organisés entre

eux. Elles ont été proposées initialement pour l'expli ation des pro essus de per eptionvisuelle

[Köhler29 ℄ mais Bregman [Bregman90 ℄ montra qu'elles peuvent également se retrouver dans

l'organisation des s ènes auditives. Une étude plus détaillée de l'analyse de s ène auditive est

présentéedanslasuite du manus rit( hapitre 3 paragraphe 3.2).

2.1.2 Le masquage dans la per eption humaine de la parole

Lare onnaissan eautomatiquedelaparoleave données manquantes estun on eptquifut

initié par desétudesmenées dansle domaine dela per eptionhumaine de laparole.Lesannées

50ontvuémergerdeste hniquesde odage delaparolepourlesbesoinsduse teurdes

télé om-muni ation.Ces te hniques onstituent aujourd'hui les bases de lathéorie de la ommuni ation

[Sha49 ℄.

Cestravauxontmontrél'étonnante apa itédel'oreille humaineàre onnaîtreet omprendreun

signaldeparolemêmeenprésen edebruitàdesniveauxélevés.Cettefa ultéestdueaufaitque

lesignalde laparole estextrêmement redondant dansledomaine spe tral.Notre système

audi-tif périphérique traite toutstimulus sonore par une analyse fréquentielle etpeut don exploiter

pleinement etteredondan ed'informations.Ilestmontréquenouspouvonsre onnaître et

om-prendre laparole pronon ée seulement àpartir de petitesportionsdu spe tre sous la ondition

que esportionsnesoientpasoutrèspeuae téesparlebruit.Ces expérien esnemontrent pas

omment notre système auditif masque le signal mais elles montrent que re onnaître la parole

surdesobservationspartiellesestpossible.Plustard,dess hémasdemasquageontétéidentiés

Le masquage entral

Ce type de masquage provient du fait que notre système auditif et omposé de deux oreilles

pla ées de part etd'autre de la tête etvers des dire tionsopposées. Par onséquent haque

or-eille ne perçoit pasla même information. Cettediéren e de per eption estdue aux diéren es

de lo alisation et d'intensité des diérentes sour es sonores vis-à-vis de nos deux oreilles. Un

pro essus de masquage est don mis ÷uvre, basé sur es diéren es de per eption du monde

sonore. Ce pro essus est à le base des prin ipes d'identi ation et de lo alisation de sour es

sonoresexploitant un ban demi rophones.

L'eet de apture

Ce type de masquage e produit lorsqu'un son domine lo alement la réponse neuronale. Plus

pré isément, le seuil d'audibilité d'un son est a ru en présen e d'un autre son de fréquen e

adja ente lorsque es deux sons sont perçus simultanément ou ave un léger dé alage temporel

[Flet her37℄.Siladiéren edesfréquen esdessonsdevient supérieureàunseuil, ephénomène

disparaît. Ces travauxsont àl'origine delanotion de bandes ritiques ayant onduit à

l'utilisa-tion desé hellesper eptivesBarketMel( hapitre 1 paragraphe 1.1.2.2).

Le masquage temporel

Le masquage temporel intervient danslesystème d'auditionlorsque qu'un sonestpré édé d'un

autre son généralement d'intensité supérieur[Harris 79℄. Ce phénomène est probablement lié à

la apa ité d'adaptationdu systèmeauditif à unstimulusde durée roissante.

2.2 Masquage en re onnaissan e automatique de la parole

La re onnaissan e ave données manquantes [Green 95, Lippmann 97, Morris98℄ ainsi que les

modèles multibandes [Boulard96 , Hermansky 96, Morgan98, Cerisara99 ℄ ont été développés

dans le but de transposer e phénomène de masquage à la re onnaissan e automatique de la

parole. L'appro he multibandes, omme la re onnaissan e ave données manquantes, ne

trans-met au moteur de re onnaissan e qu'une partie des observations. Elle repose sur une séle tion

dynamique des bandes de fréquen es qui serviront à la re onnaissan e. Seules les bandes de

fréquen es les moinspénaliséespar le bruitseront transmises. Bienque es appro hes (modèles

multibandes et re onnaissan e ave données manquantes) soient quelque peu diérentes elles

sont toutes deux fondées sur l'identi ation des observations exploitables par le système RAP,

'est à dire,les observations les moins bruitées. Ce pro essus de lassi ation des observations

Nousdénissonsdanslesparagraphessuivants equ'estunmasquededonnéesmanquantesdans

le adre appli atifde lare onnaissan e automatiquede laparole.

2.2.1 Masque de données manquantes

2.2.1.1 Dénition d'un masque

Un masque de données manquantes est une représentation d'unsignal qui asso ie à haque

paramètre (exprimé dans un espa e

Λ

) dé rivant e signal une mesure (exprimée dans un do-maine

D

) de laabilité de l'information qu'il véhi ule .Un masque est don un étiquetage des observations. Dans le ontexte de la RAP ave données manquantes et étiquetage onstitue

unesour e d'informations additionnelles permettantau moteurde re onnaissan ed'adapter son

fon tionnementenfon tiondelaabilitédesobservations.Demanièregénérale,unmasquepeut

êtredéni ommeuneunefon tion

M

,quiasso ieà haqueparamètre dusignalbruité exprimé dans un espa e

Λ

,une valeur de masque à valeur dans

D

,en fon tion d'un ensemble d'indi es a oustiques exprimésdansun espa e

Ω

M : (Λ, Ω) → D

(2.1)

La fon tion de masque

M

peut don être vue omme l'appli ation d'un ritère de dé ision sur l'ensemble des indi es a oustiques asso iés à haque paramètre du signal An de mieux

omprendre ettedénition demasque, il onvient d'en pré iserles diérents omposants.

2.2.1.2 Critères de abilité et espa e des masques

Considérons

D

qui estle domaine danslequel unmasque est exprimé, et qui ontient don l'ensemble des valeurs pouvant être attribuées aux masques. La nature des valeurs omposant

e domaine peut être très diverse.Cependant es valeursdoivent ara tériser des propriétés ou

indi es pouvant êtreexploités par lemoteur de re onnaissan e. Deuxformulations desmasques

ont étéproposées :

Les masques dis rets :

D = {0, 1}

:Les masques sont exprimés de manière dis rète et binaire.Chaqueparamètrea oustiqueétiquetéparunevaleurvalant0ou1signiant

respe tive-ment que e paramètre est ableoumanquant.

Lesmasques ontinus:

D = [0, 1]

:Lesvaleursde etype demasqueestunréel ompris entrezéroetun.Ceréel traduitlaprobabilitéqu'un paramètre soitmanquant, 'est àdiretrop

orrompupar lebruit pourêtre signiant.

Un paramètre est onsidéré omme masqué si la ontribution du signal de parole du lo uteur

d'intérêt estplus faible quela ontribution du bruit.Un tel ritère peut êtreinterprété, dans le

M

fondée surle seuillage du

SN Rlocal

est laplus intuitive etla pluslargement adoptée par la ommunautés ientiquedutraitementdelaparole.Plusieursétudes[Barker00,Morris01b℄ont

montréquelesmasques ontinusfournissentdemeilleursrésultatsquelesmasquesdis retssil'on

onsidèrelemasquage ommeleseuillageduSNR.Ce is'expliquepar lefaitqu'une observation

n'est jamais omplètement manquanteouable.Deplus, leserreursdemasquessontenquelque

sorte lisséessi e dernierestexprimé de manière ontinue.

Bien que ette dénition soit très largement répandue, elle n'est pas optimale. Cette dénition

est, ertes, appropriée si l'obje tif à atteindre est de débruiter le signal puisque le débruitage

se traduitpar une maximisation du SNR. Par onséquent un masque basésurle SNR optimise

dire tement l'obje tif de débruitage. Cependant, la plupart des appli ations ont pour obje tif

d'améliorer lare onnaissan e. Dans e asune amélioration du SNRne setraduit pas

systéma-tique enune amélioration de l'intelligibilité. Dans le ontextede lare onnaissan e automatique

delaparole,ilsembleraitpréférabledefonderle ritèredeabilitésurletauxdere onnaissan e

pluttquesurleSNR, 'estàdiredéterminerun ritèretelquelemasquerésultantfourniraitun

tauxdere onnaissan eoptimal, equin'estpasle asdesmasquesbaséssurleSNR.Cependant,

il n'existe, à l'ex eption de Safayani qui propose dans[Safayani07 ℄ un algorithme de

soustra -tion spe trale optimisant la re onnaissan e plutt que le SNR, quasiment au un travail publié

exploitant un tel ritère.Nousyvoyons plusieursraisons :

L'uni itéd'unmasqueoptimisantletauxdere onnaissan en'estpasgarantie.Au ontraire

ilest fortement probable queplusieurs masques diérents soient optimaux.

Les masques basés sur leSNR sont bien plus aisésà al uler que des masques fondés sur

lamaximisation dutaux de re onnaissan e.

LesmasquesbaséssurleSNRdansle adredelaRAPave donnéesmanquantesfournissent

de trèsbonstauxde re onnaissan e.Ce i suggèreque es masquessont en faitune bonne

approximationdes masquesoptimisant le tauxde re onnaissan e.

2.2.1.3 Espa e des observations

Enthéorieunmasquepeutêtredénipour toutdomaine deparamétrisation, enpratique,le

domaine desparamètres a oustiquesdoitêtre onsistant ave le ritère deabilité.Le signalest

don paramétrédansundomaine omposéde diérentesdimensionsoù ha uned'entreellesest

asso iée àdes bandesde fréquen es distin tes. Une telleparamétrisation orrespond àl'analyse

fréquentielle du signal opérée par notre système auditif d'une part, et est onsistante ave la

notiondeabilitédesparamètres a oustiquefondéesurunseuillageduSNR.Nous onsidérerons

don uniquement dansla suite des paramétrisations basées surune représentation fréquentielle

2.2.1.4 Espa e des indi es a oustiques

Undesfondement delathéoriegestaltiste estqu'uneobservationne doitpasêtre onsidérée

de manièreisolée, maisdoit êtreévaluée danssont ontexte.Il est don né essairede re ourirà

diversindi es ara térisant uneobservationdansson ontexteand'évaluersaabilité.Outre la

ara térisationdu ontexte, esindi es doivent permettre de dis riminer lesobservations ables

des observations manquantes en a ord ave le ou les ritères de abilité retenus. Ces indi es

ne sont soumis à au une ontrainte, et par onséquent peuvent être de natures très variées.

Nous évoquons au hapitre suivant plusieurs indi es a oustiques proposés pour l'estimation de

masques. Cependant nous itons i i, en guise d'exemple, les indi es proposés par M.L. Seltzer

[Seltzer 00,Seltzer04℄.

L'harmoni ité

En raison de la nature harmonique de la parole, la majorité de l'énergie d'un signal de parole

résideauxniveauxdesesharmoniques.Lebruitadditif(àl'ex eptiondelamusiqueoudeparole

on urrente) ne partage généralement pas ette propriété. Par onséquent, lorsque qu'un bruit

additif orromptunsignaldeparole l'harmoni itédusignalrésultant estplusfaibleque ellede

laparole seule.Plus la ontribution du bruitest forteestplus l'harmoni itédé roît. Lesindi es

entrant dans ette atégorie sont le omb lter ratio et l'auto orrelation peak ratio. Le premier

al ule le rapport entre l'énergie du signal présente aux harmoniques et l'énergie lo alisée aux

fréquen es inter-harmoniques. Le se ond estbasé surla fon tion d'auto orrélation utiliséepour

al ulerlafréquen efondamentaled'unsignaldeparole.Lafon tiond'auto orrélationexhibeun

pique important au niveau de lafréquen e fondamentale delaparole.Un se ondpique apparaît

ensuitemaisdefaçon moinspronon ée.Moinslesignalétudié estpériodiqueetmoins ese ond

piqueestpronon é. Par onséquent lerapportdelahauteurde espiquesestunbonestimateur

de l'harmoni ité.

Les propriétés de l'enveloppe spe trale de parole

Outre ses ara téristiques harmoniques, la parole possède une enveloppe spe traledistin te des

autres sons.La majeure partie de l'énergiede laparole est on entrée entre300 Hz et4000 Hz.

Cette enveloppe spe trale est modiée en fon tion de l'enveloppe spe trale du bruit additif. Le

rapportentrelesénergiesde haque oe ientspe trauxetl'énergietotaled'unetrameestalors

utilisée. Seltzer propose également d'exploiter le rapport entre l'énergie omprise dans haque

bande de fréquen eetune estimée de l'énergie dubruit dans ette même bande ou une estimée

del'énergiedubruitsurlatrame omplète.Deplus,laparoleexhibeunetraje toirefréquentielle

ara téristique faitede piques(auxfréquen es harmoniques) etde vallées(auxfréquen es

inter-harmoniques). La ompression (logarithmique ou ubique) des énergies du signal usuellement

moins pronon ées à mesureque l'intensité du bruit augmente. Une mesure de laprofondeur de

es vallées, appelée atness,estdon proposée.

La distribution des énergies

Beau oup designauxsonoresdelavie ourante,in luant laparole,sont vus ommedessignaux

super-gaussiens. Leur distribution possède un kurtosis plus élevé qu'un signal gaussien (pique

pluspronon éetdesqueuesplusaplaties).Lorsquedeuxsignauxsuper-gaussienssont ombinés,

le kurtosis dusignal résultant hute. En supposant qu'un signal de parole etson homologueen

ondition bruitée ont deskurtosis diérents, l'évaluation de ette diéren e onstitue un indi e

de laprésen edu bruit ainsique de sonintensité.

2.2.2 Masque ora le

Sil'on résumelesindi esa oustiques àlaseulevaleur exa tedu SNR,quipeutêtre al ulée

à partir de deux signaux stéréos opiques d'une même phrase (un signal bruité et le se ond ne

ontenant que lesignal orrespondant àlaparole), lemasqueproduit estappelémasqueora le.

Une deuxièmepossibilité onsisteà al uler lesmasquesora lesàpartirdesdiérentsuxaudio

(un ux de parole et un ux de bruit par exemple) omposant la s ène auditive. Les masques

ora les sont des masques exempts de toute erreur. Par onséquent ils sont optimaux en a ord

ave le ritère de abilité fondé sur le seuillage du SNR. Par onstru tion, les masques ora les

sontdis rets, arpour haque oe ientspe tral,lavaleurduSNRest onnueetdon laabilité

des oe ients estdéterminée ave ertitude.

Dans le document Contributions à la reconnaissance automatique de la parole avec données manquantes (Page 44-70)