Perspe tives

6.1 Cadre de notre étude

Laparole estlamodalitéde ommuni ationlaplus naturelleetlaplus ri he pour l'Homme.

Lare onnaissan eautomatiquedelaparole onstituedon aujourd'huiuna teurprivilégié dans

le développement des interfa es homme-ma hine de dernière génération. Certes ette

te hnolo-gie est de plus en plus utilisée dans des systèmes d'assistan e (téléphonie mobile, assistant de

navigation, systèmes d'exploitation, et ) mais son déploiement à grande é helle reste tout de

même limité. Le manque de robustesse au bruit de es systèmes onstitue un frein important

à e déploiement. A et égard, beau oup de travaux on ernent la robustesse au bruit additif.

C'est en eet le type de perturbation le plus ourant mais qui malheureusement se révèle être

extrêmement gênant pour les systèmesautomatiques.

Les systèmes de re onnaissan e a tuels reposent, pour la plupart, sur des modèles statistiques

et plus parti ulièrement sur les modèles de Markov a hés. Ces modèles sont entraînés sur des

basesd'apprentissagedeparole,enregistrées en onditionmaîtrisée, 'est-à-direqu'au uneautre

sour esonorenevient orromprelesignaldeparole.Par onséquent,ilsnesontplusadaptéspour

dé oderunsignal a oustique omplexe résultant de l'interféren ede signauxissusde diérentes

sour es. Un autre mode d'apprentissage est possible. Il onsiste à entraîner les modèles

a ous-tiquessurdesbasesbruitées.Cependantl'immense variabilitédesbruitspossiblesnepermet pas

de onstruire a priori des modèles adaptés à tous es bruits sans augmenter ex essivement la

onfusiondesmodèles.Ilexisteungrandnombred'algorithmespermettantdetraiterleproblème

de la robustesse au bruit additif, intervenant à diérents étages du système de re onnaissan e.

Certainssont dédiés au débruitage du signal, d'autresà l'extra tion de paramètres robustes ou

en ore à l'adaptationdes modèles a oustiques aux onditions d'utilisation. Nousavons proposé

au premier hapitre une brève introdu tion à lare onnaissan e robuste delaparole.

La théorie des données manquantes onstitue une sérieuse alternative à es algorithmes. Elle

s'appuiesur destravauxmontrant que, lorsque l'environnement a oustiqueestbruité, ertaines

zones du spe tre de puissan e du signal à dé oder sont ee tivement dominées par lesignal de

parole,etnotamment lesrégionstrèsénergétiques omme lesformants,maisquedenombreuses

autres zonessontdominéespar lebruit.Un oe ient spe traldominé parlebruitest onsidéré

omme un oe ient manquant aril représente une information erronée ne traduisant pasles

ara téristiques du signalde parole. Une fois les masques al ulés, le moteur de re onnaissan e

peutalorsmettreen÷uvredesstratégiesdedé odageadaptéesàlaabilitédesobservations.Le

formalisme mathématique de la re onnaissan e dela parole ave données manquantesa été

dé-tailléause ond hapitre.Nousavonsprésentédeuxfamillesd'algorithmespermettantdeprendre

en ompte lesmasques.Leste hniquesdemarginalisationqui,lorsdu al uldelavraisemblan e

quelesignalobservéaitétégénéréparunmodèlea oustiquedonné,marginalisent ette

vraisem-blan e pour les paramètres masqués. Les te hniques d'imputation estiment la ontribution

uniquement à partir du signal a oustique et de ses ara téristiques, on parle d'imputation de

données. Lorsque l'alignement ave les modèles deparole est également onsidéré onparle alors

d'imputation onditionnée par les lasses a oustiques. Il est possible d'aner es appro hes en

limitantledomainedemarginalisationouen ontraignantlare onstru tiondusignalparles

on-tributions maximalesetminimales desparamètres de parole masqués.Lesdiérentesvariations

de es algorithmes montrent que ladénition d'un masque etson interprétation onditionnent

lastratégie dedé odage miseen ÷uvre.

Nousavonsee tuéuneévaluationdetroisalgorithmesdemarginalisation.Lesrésultatsontmis

en éviden ele rlede premierplan quejouentles masques dans e formalisme.Eneet, detrès

bonnesperforman es sont atteinteslorsque lesmasques sont onnus a priori (masquesora les),

mais elles- i se dégradent fortement si es masques sont enta hés d'erreurs. L'estimation de

masque est don un problème déli at faisant l'objetde ette thèse. Lesnombreux travaux, que

nousavonsprésentésau hapitre3, on ernent etaxedere her he.Nos ontributionssepla ent

dansle ontextedel'estimationbayésiennedesmasquesetpluspré isémentsurleurmodélisation

dans e formalisme.Celles- iont étéprésentées au hapitre 4etévaluées au hapitre 5.Nous les

résumons danslesparagraphes suivants.

6.2 Contributions

6.2.1 Dépendan es sur les masques

Après avoir montré lasimilitude entre la stru ture des masques de données manquantes et

l'enveloppe énergétiquede laparole dansledomaine spe tral,nous avons proposéde nouveaux

modèles demasques danslebutde restituer ette stru ture.Nousavons onsidéré pour elades

dépendan estemporellesetfréquentiellesentrelesvaleursdesmasquesdes oe ientsspe traux.

Lesdépendan es temporellessontmodéliséessouslaformedeprobabilitésdetransitionentreles

diérentesvaleursde masques.Lesdépendan esfréquentiellessont introduites en onsidérant le

masquagenonplusàl'é helle du oe ientmaisauniveauduve teurd'observations.Dans ette

optique, nous avons déni desmasques ve torielsélémentaires omme un ensemblerestreint de

masques ve toriels ouvrant aumieuxlesmasques ora lestoutenminimisant ladégradation du

taux de re onnaissan e induite par la rédu tion de l'espa e des masques. De ette façon nous

avons montré qu'il est possible de réduire onsidérablement l'espa e de re her he des masques

ve toriels tout en pénalisant que très légèrement les performan es. Cette rédu tion de l'espa e

de re her he estné essairepuisquelenombrede masquesve toriels éligiblesdurantl'estimation

est exponentielpar rapportà ladimension desve teursd'observations.

Nous avons proposé trois estimateurs de masques : le premier exploite les dépendan es

tem-porelles, lese ond les dépendan es fréquentielles et le troisième les dépendan es temporelles et

omparative-ment à un estimateur de référen e, identique à elui proposé par Raj Ramakrishnan etSeltzer

quiestimelemasquede haque oe ientspe tralindépendammentdesmasquesdes oe ients

de sonvoisinage. Cetteanalyse estee tuée surlabasede donnéesAurora 2.

Il ressort de ette analyse que lesdépendan es inuent fortement sur lastru ture desmasques.

Visuellement, les masques exploitant les deux types de dépendan e semblent les plus pro hes

desmasques ora les. Une analyse plus ne montre queles dépendan es temporelles permettent

de réduire letaux defaussesa eptations (proportion de oe ients faussement évalués omme

ables)etquela ombinaisondesdeuxtypesdedépendan epermetd'améliorerletauxdevraies

a eptations (proportion de oe ients orre tement identiés ommeables) omparativement

à l'estimateur de référen e. De manière générale les dépendan es permettent de réduire les

er-reurs demasque àl'ex eption ependant desdépendan es fréquentielles seules.

Du point de vue de la re onnaissan e, les meilleurs résultats sont obtenus à partir des seules

dépendan es temporelles. En moyenne, une amélioration relative de 15 %est observée par

rap-port aux taux de re onnaissan e obtenus à partir de l'estimateur de référen e sur l'ensemble

desbases de test d'Aurora2.Ce isouligne l'importan e de prendre en ompte le ontexte

tem-porel d'un masque. A et égard, le HMM onstitue un modèle de masque bien adapté de part

sa apa ité à modéliser des pro essus à évolution temporelle. Considérées individuellement, les

dépendan es fréquentielles n'ont pas permis d'améliorer les taux de re onnaissan e

ompara-tivement ausystème de référen e. Une expli ation possible de e résultat quelquepeu dé evant

est que le gain que nous espérions d'une telle modélisation de masque n'est pas susant pour

ompenser labaissedestauxdere onnaissan e induitepar larédu tiondel'espa edesmasques

ve toriels.Lesmasquesve torielsnesontpaspourautantdénuésd'intérêt.D'unepart,la

ombi-naisondesdépendan estemporellesetfréquentiellesaméliore onsidérablementlarobustesseaux

distorsionsdusignalinduitespar le analdetransmission, ommeenattestent lesbonsrésultats

obtenus sur labasede test Cdédiée à ette tâ he.D'autre part, les masques ve torielspeuvent

prendrepla e avantageusement dansun systèmedere onnaissan etelledé odeurmulti-sour es

de Barker.Nous développons e point danslesperspe tives.

6.2.2 Une nouvelle dénition de masques

Les diérentes variantes des te hniques d'imputation et de marginalisation proposées dans

la littérature ont montré que la dénition d'un masque et son interprétation onditionnent la

stratégie dedé odage miseen ÷uvre.Plusparti ulièrement, dansle adrede lamarginalisation,

es variantes se traduisent par une rédu tion du domaine de marginalisation de la

vraisem-blan e des oe ients spe traux. La te hnique de marginalisation la plus utilisée,

marginalisa-tion Uniform-Dira , marginalise lavraisemblan e d'un oe ient spe tralmasqué sur

[0, y]

,où

y

représente l'énergieobservée de e oe ient. La vraisemblan e d'un oe ient ableest al- uléedemanière lassiquesousl'hypothèsededominan epostulantqu'un oe ientspe tralest

dominé soit par l'énergie de laparole,soit par l'énergie dubruit. Morrisa montré qu'une autre

interprétation desmasques de données manquantes fondéssurle seuillagedu SNR estpossible.

Il propose late hnique de marginalisation Uniform-Uniform. Cette te hnique se diéren ie des

autres par lefait quetoutes les vraisemblan es sont marginalisées, que e soit pour les données

masquéesoulesdonnéesables.Lesintervallesdemarginalisationdièrent ependantauregard

delaabilitédes oe ients.Sil'on onsidèredesmasquesfondéssurunseuillageduSNRà0dB,

la vraisemblan e d'un oe ient masquéest marginalisée surl'intervalle

[0, y/2]

, etla vraisem-blan ed'un oe ientablel'estsur

[y/2, y]

.Dansun ertainsens ettete hniqueremeten ause l'hypothèsededominan e.Onpeut onsidérerqu'un oe ientspe tralbruitén'estnitotalement

manquant nitotalement able. L'évaluation omparative de troiste hniquesde marginalisation

(Full-marginalisation,Uniform-Dira marginalisationetUniform-Uniformmarginalisation)

mon-tre l'intérêt de réduire les domaines de marginalisation. De plus, elle souligne l'importan e de

lapriseen omptedeladénitiondumasquelorsdelamiseen÷uvredel'algorithmededé odage.

Nous avons proposé une nouvelle dénition de masques de données manquantes. Ces masques

sont fondés surla ontribution de l'énergie du signalde parole dansl'énergie dusignal observé.

Cettenouvelledénition onduitàunenouvelleinterprétationdesmasquespermettantderéduire

les intervalles de marginalisation. Les masques de ontributions sont onstruits à partir d'une

représentation temps-fréquen e dont haque valeur est la ontribution de l'énergie du signalde

parole dansl'énergiedusignalobservé uninstant

t

pourune bande defréquen es entréesur

f

. L'espa edesve teursde ontributions estensuitepartitionnéen

K

lasses

(M^k)_k∈[1,K]

.Cha une d'ellesest ara tériséeparunve teurmoyen

µk

ainsiqu'une matri ede ovarian ediagonale

Σk

. Nous onsidérons alors haque lasse omme un masque de ontribution possible. Nous avons

montréquelesintervallesdemarginalisationpeuventêtredéterminésàpartirdesparamètres

µk

Σ_k

de esmasques.

Nousavonsproposéunestimateur demasquesde ontributions. Par dénition esmasquessont

ve toriels. Nous avons alors utilisé la même ar hite ture que l'estimateur DTF exploitant les

dépendan es temporelles entre les masques ve toriels su essifs. Nous avons évalué

ompara-tivement les masques de ontribution par rapport aux masques fondés sur leseuillage du SNR

lassiquement utilisés surla basede données Hiwire. Dans e ontexte nousévaluons laqualité

des masques par la rédu tion des intervalles de marginalisation mais aussi par les erreurs de

masque. Nous entendons par erreur de masque lefait de déterminer unintervalle de

marginali-sation ne ontenant pas l'énergiedu signal de parole (valeur de référen e). Nous avons proposé

dans ette optique une nouvelle mesure :l'erreur marginale aux moindres arrés (MaMSE). Le

s ore MaMSE est d'autant plus faible que les domaines de marginalisation sont entrés sur la

valeur de référen e etde petite taille.Cette évaluation montre que les intervalles de

marginali-sation déduits des masques de ontribution sont fortement réduits. Des eets de bord peuvent

ependant apparaître, ommeparexemple depréférerunpetitintervalle dé entrépar rapportà

évaluationpar une omparaison destauxdere onnaissan e.Lesmasquesora lesde ontribution

permettentd'obteniruntauxdere onnaissan emoyen,surl'ensembledelabasedetest,de87%

alors qu'un taux de 68% est obtenu ave les masques ora les SNR-0. Ces taux onstituent les

seuilsde performan eatteignablespar esdeuxdénitionsdemasques. Ilsattestentdon lefort

potentieldesmasques de ontribution. Lorsquelesmasquessont estimés,l'é artde performan e

diminue. Lestaux de re onnaissan e observés sont de 70% pour lesmasques de ontribution et

de 57% pour les masques SNR-0ave des performan es àpeu près équivalentes pour les

ondi-tions les plus bruitées. Il ressort de ette évaluation que les erreurs de masque sont beau oup

plusfréquentespourlesmasques de ontributions equipénalisefortement lare onnaissan e. Il

apparaît don quelesmasques de ontribution permettent ee tivement d'améliorer les tauxde

re onnaissan e, ependant une estimation de masque plus robuste est né essaire pour exploiter

pleinement leurpotentiel.

Cette évaluation a été réalisée sur la base de données Hiwire. Celle- i ne omporte qu'un seul

bruit dont les ara téristiquessont pro hesde elles d'un bruitblan gaussien. Des expérien es

omplémentairessont alors né essairesan d'évaluer esnouveauxmasques dansdes onditions

plus pénalisantes qu'un bruitblan gaussien.

6.3 Perspe tives

Lesmodèles de masques quenousavons évaluésdans ette thèse sontentraînés dire tement sur

lesobservationsbruitées.Nousavonsreléguéleproblèmedelaparamétrisationdusignalpourles

modèlesdemasquesause ondplanpuisque esmodèlessontévalués omparativementàun

mod-èlederéféren e.Par onséquent,laseule ontraintequenousnoussommesimposéeestque ette

paramétrisation soit la même pour tous les modèles de façon à pouvoir omparer les résultats.

Une telleappro he est ertessimpliste maiselle permetune miseen÷uvre simpleetrapide des

expérimentations. Ilestàprésent souhaitabled'utiliserdesindi espluspertinents,telsque eux

mentionnés au hapitre 3.Nous y voyons un avantage double. D'une part les résultats obtenus

àpartirde tels indi espourrontêtre omparésauxrésultatsreportés dansdiérentstravauxdu

domaine.D'autrepart,desindi esa oustiquesbien hoisispeuventenun ertainsenspermettre

de réduire la dépendan e des modèles de masques aux environnements a oustiques ren ontrés

durant leur apprentissage. Dans ette optique les paramètres proposés par Seltzer [Seltzer00 ℄

onstituent unebase intéressante.

Une ondition forte à la mise en ÷uvre des masques ve toriels SNR-0 on erne la dimension

des ve teurs d'observations. En eet, nous avons montré que le nombre de masques ve toriels

éligiblesest exponentielpar rapportaunombrede oe ientsdesve teursa oustiques. L'usage

d'uneparamétrisationdefaible dimensionetdon né essaire.Cetterestri tion n'estpastrès

pé-nalisante dansle asde petits vo abulaires de l'ordre de quelquesdizaines de mots, ependant,

paramétri-sation plusne du signala oustique. Il semble alors intéressant de travailler au développement

de nouvelles te hniques pour prendre en ompte les dépendan es fréquentielles surdes ve teurs

d'observations deplus grandedimension.

Ledé odeurmulti-sour esdéveloppéparJon Barker[Baker05℄estunsystèmedere onnaissan e

vo ale ave données manquantes. Celui- i s'appuie sur un prétraitement du signal onsistant à

extrairedesfragments ohérentsduspe tre de puissan edusignalà re onnaître.Ces fragments

orrespondent àdes regroupements de oe ientsspe traux identiés omme étant issus d'une

même sour e sonore. L'algorithme de dé odage qu'il propose re her he alors la séquen e

d'é-tats a oustiques ayant engendré les observations au travers de tous les groupements possibles

de fragments. Le produit de ette re onnaissan e est par onséquent la trans ription du signal

vo almaisaussilemasquededonnéesmanquantesrésultantdel'hypothèsede regroupementde

fragmentsayant engendré ettetrans ription. L'utilisationdelasyn hroni ité d'attaquepermet

i i de réduire onsidérablement le nombre de fragments onsidérés à haque instant. De ette

façon, environ huit fragments sont présents en moyenne à haque instant, e qui représente 64

2⁸

) hypothèses deregroupement.

Les masques ve toriels que nousavonsproposés peuvent à notre avisprendre avantageusement

pla e dansun tel système. Il estpossible de rempla er les hypothèses deregroupement de

frag-ments à haque instant par un ensemble de masques ve toriels élémentaires. Cela permettrait

de ne plus avoir re ours à l'identi ation des fragments durant une phase de prétraitement et

par onséquent de permettre un dé odage à la volée du signal requis par la plupart des

systèmes de re onnaissan e vo ale embarqués. Un se ond avantage est que nousn'aurions plus

besoin d'apprendredesmodèles paramétriquesde esmasques.

Nous avons essayé de montrer, par nos travaux sur les masques de ontribution, qu'il est

pos-sible de dénird'autres masques de données manquantes que eux lassiquement fondéssur un

seuillage du SNR. Certes es derniers sont intuitifs,et nous pouvons fa ilement les interpréter.

Cependant e ritère de abilité reposant sur le SNR n'est interprétable que dans le domaine

spe tral. Nous pensons que e domaine de paramétrisation onstitue un frein à ette appro he

de lare onnaissan e. Les très bons résultatsreportés à partir de masques ora les soulignent le

fortpotentieldelare onnaissan eave donnéesmanquantedansledomainespe tral,néanmoins

esperforman es sedégradentfortement lorsquelesmasques sontenta hésd'erreurs.Cetteforte

sensibilité aux erreurs de masque est ertainement une onséquen e dire te du manque de

ro-bustesse de etteparamétrisation.

Destravauxtraitantdelare onnaissan eave donnéesmanquantesdansledomaine epstralont

été proposés [Cerisara 03, vanHamme 04b , Srinivasan 06℄. Cependant les masques epstraux

sont obtenus par une transformation non linéaire des masques spe traux. Il serait alors peut

Dans le document Contributions à la reconnaissance automatique de la parole avec données manquantes (Page 136-144)

[0, y]

y

[0, y/2]

[y/2, y]

t

f

K

(Mk)k∈[1,K]

µk

Σk

µk

Σk

28

(M^k)_k∈[1,K]

Σ_k

2⁸