6.1 Cadre de notre étude
Laparole estlamodalitéde ommuni ationlaplus naturelleetlaplus ri he pour l'Homme.
Lare onnaissan eautomatiquedelaparole onstituedon aujourd'huiuna teurprivilégié dans
le développement des interfa es homme-ma hine de dernière génération. Certes ette
te hnolo-gie est de plus en plus utilisée dans des systèmes d'assistan e (téléphonie mobile, assistant de
navigation, systèmes d'exploitation, et ) mais son déploiement à grande é helle reste tout de
même limité. Le manque de robustesse au bruit de es systèmes onstitue un frein important
à e déploiement. A et égard, beau oup de travaux on ernent la robustesse au bruit additif.
C'est en eet le type de perturbation le plus ourant mais qui malheureusement se révèle être
extrêmement gênant pour les systèmesautomatiques.
Les systèmes de re onnaissan e a tuels reposent, pour la plupart, sur des modèles statistiques
et plus parti ulièrement sur les modèles de Markov a hés. Ces modèles sont entraînés sur des
basesd'apprentissagedeparole,enregistrées en onditionmaîtrisée, 'est-à-direqu'au uneautre
sour esonorenevient orromprelesignaldeparole.Par onséquent,ilsnesontplusadaptéspour
dé oderunsignal a oustique omplexe résultant de l'interféren ede signauxissusde diérentes
sour es. Un autre mode d'apprentissage est possible. Il onsiste à entraîner les modèles
a ous-tiquessurdesbasesbruitées.Cependantl'immense variabilitédesbruitspossiblesnepermet pas
de onstruire a priori des modèles adaptés à tous es bruits sans augmenter ex essivement la
onfusiondesmodèles.Ilexisteungrandnombred'algorithmespermettantdetraiterleproblème
de la robustesse au bruit additif, intervenant à diérents étages du système de re onnaissan e.
Certainssont dédiés au débruitage du signal, d'autresà l'extra tion de paramètres robustes ou
en ore à l'adaptationdes modèles a oustiques aux onditions d'utilisation. Nousavons proposé
au premier hapitre une brève introdu tion à lare onnaissan e robuste delaparole.
La théorie des données manquantes onstitue une sérieuse alternative à es algorithmes. Elle
s'appuiesur destravauxmontrant que, lorsque l'environnement a oustiqueestbruité, ertaines
zones du spe tre de puissan e du signal à dé oder sont ee tivement dominées par lesignal de
parole,etnotamment lesrégionstrèsénergétiques omme lesformants,maisquedenombreuses
autres zonessontdominéespar lebruit.Un oe ient spe traldominé parlebruitest onsidéré
omme un oe ient manquant aril représente une information erronée ne traduisant pasles
ara téristiques du signalde parole. Une fois les masques al ulés, le moteur de re onnaissan e
peutalorsmettreen÷uvredesstratégiesdedé odageadaptéesàlaabilitédesobservations.Le
formalisme mathématique de la re onnaissan e dela parole ave données manquantesa été
dé-tailléause ond hapitre.Nousavonsprésentédeuxfamillesd'algorithmespermettantdeprendre
en ompte lesmasques.Leste hniquesdemarginalisationqui,lorsdu al uldelavraisemblan e
quelesignalobservéaitétégénéréparunmodèlea oustiquedonné,marginalisent ette
vraisem-blan e pour les paramètres masqués. Les te hniques d'imputation estiment la ontribution
uniquement à partir du signal a oustique et de ses ara téristiques, on parle d'imputation de
données. Lorsque l'alignement ave les modèles deparole est également onsidéré onparle alors
d'imputation onditionnée par les lasses a oustiques. Il est possible d'aner es appro hes en
limitantledomainedemarginalisationouen ontraignantlare onstru tiondusignalparles
on-tributions maximalesetminimales desparamètres de parole masqués.Lesdiérentesvariations
de es algorithmes montrent que ladénition d'un masque etson interprétation onditionnent
lastratégie dedé odage miseen ÷uvre.
Nousavonsee tuéuneévaluationdetroisalgorithmesdemarginalisation.Lesrésultatsontmis
en éviden ele rlede premierplan quejouentles masques dans e formalisme.Eneet, detrès
bonnesperforman es sont atteinteslorsque lesmasques sont onnus a priori (masquesora les),
mais elles- i se dégradent fortement si es masques sont enta hés d'erreurs. L'estimation de
masque est don un problème déli at faisant l'objetde ette thèse. Lesnombreux travaux, que
nousavonsprésentésau hapitre3, on ernent etaxedere her he.Nos ontributionssepla ent
dansle ontextedel'estimationbayésiennedesmasquesetpluspré isémentsurleurmodélisation
dans e formalisme.Celles- iont étéprésentées au hapitre 4etévaluées au hapitre 5.Nous les
résumons danslesparagraphes suivants.
6.2 Contributions
6.2.1 Dépendan es sur les masques
Après avoir montré lasimilitude entre la stru ture des masques de données manquantes et
l'enveloppe énergétiquede laparole dansledomaine spe tral,nous avons proposéde nouveaux
modèles demasques danslebutde restituer ette stru ture.Nousavons onsidéré pour elades
dépendan estemporellesetfréquentiellesentrelesvaleursdesmasquesdes oe ientsspe traux.
Lesdépendan es temporellessontmodéliséessouslaformedeprobabilitésdetransitionentreles
diérentesvaleursde masques.Lesdépendan esfréquentiellessont introduites en onsidérant le
masquagenonplusàl'é helle du oe ientmaisauniveauduve teurd'observations.Dans ette
optique, nous avons déni desmasques ve torielsélémentaires omme un ensemblerestreint de
masques ve toriels ouvrant aumieuxlesmasques ora lestoutenminimisant ladégradation du
taux de re onnaissan e induite par la rédu tion de l'espa e des masques. De ette façon nous
avons montré qu'il est possible de réduire onsidérablement l'espa e de re her he des masques
ve toriels tout en pénalisant que très légèrement les performan es. Cette rédu tion de l'espa e
de re her he estné essairepuisquelenombrede masquesve toriels éligiblesdurantl'estimation
est exponentielpar rapportà ladimension desve teursd'observations.
Nous avons proposé trois estimateurs de masques : le premier exploite les dépendan es
tem-porelles, lese ond les dépendan es fréquentielles et le troisième les dépendan es temporelles et
omparative-ment à un estimateur de référen e, identique à elui proposé par Raj Ramakrishnan etSeltzer
quiestimelemasquede haque oe ientspe tralindépendammentdesmasquesdes oe ients
de sonvoisinage. Cetteanalyse estee tuée surlabasede donnéesAurora 2.
Il ressort de ette analyse que lesdépendan es inuent fortement sur lastru ture desmasques.
Visuellement, les masques exploitant les deux types de dépendan e semblent les plus pro hes
desmasques ora les. Une analyse plus ne montre queles dépendan es temporelles permettent
de réduire letaux defaussesa eptations (proportion de oe ients faussement évalués omme
ables)etquela ombinaisondesdeuxtypesdedépendan epermetd'améliorerletauxdevraies
a eptations (proportion de oe ients orre tement identiés ommeables) omparativement
à l'estimateur de référen e. De manière générale les dépendan es permettent de réduire les
er-reurs demasque àl'ex eption ependant desdépendan es fréquentielles seules.
Du point de vue de la re onnaissan e, les meilleurs résultats sont obtenus à partir des seules
dépendan es temporelles. En moyenne, une amélioration relative de 15 %est observée par
rap-port aux taux de re onnaissan e obtenus à partir de l'estimateur de référen e sur l'ensemble
desbases de test d'Aurora2.Ce isouligne l'importan e de prendre en ompte le ontexte
tem-porel d'un masque. A et égard, le HMM onstitue un modèle de masque bien adapté de part
sa apa ité à modéliser des pro essus à évolution temporelle. Considérées individuellement, les
dépendan es fréquentielles n'ont pas permis d'améliorer les taux de re onnaissan e
ompara-tivement ausystème de référen e. Une expli ation possible de e résultat quelquepeu dé evant
est que le gain que nous espérions d'une telle modélisation de masque n'est pas susant pour
ompenser labaissedestauxdere onnaissan e induitepar larédu tiondel'espa edesmasques
ve toriels.Lesmasquesve torielsnesontpaspourautantdénuésd'intérêt.D'unepart,la
ombi-naisondesdépendan estemporellesetfréquentiellesaméliore onsidérablementlarobustesseaux
distorsionsdusignalinduitespar le analdetransmission, ommeenattestent lesbonsrésultats
obtenus sur labasede test Cdédiée à ette tâ he.D'autre part, les masques ve torielspeuvent
prendrepla e avantageusement dansun systèmedere onnaissan etelledé odeurmulti-sour es
de Barker.Nous développons e point danslesperspe tives.
6.2.2 Une nouvelle dénition de masques
Les diérentes variantes des te hniques d'imputation et de marginalisation proposées dans
la littérature ont montré que la dénition d'un masque et son interprétation onditionnent la
stratégie dedé odage miseen ÷uvre.Plusparti ulièrement, dansle adrede lamarginalisation,
es variantes se traduisent par une rédu tion du domaine de marginalisation de la
vraisem-blan e des oe ients spe traux. La te hnique de marginalisation la plus utilisée,
marginalisa-tion Uniform-Dira , marginalise lavraisemblan e d'un oe ient spe tralmasqué sur
[0, y]
,oùy
représente l'énergieobservée de e oe ient. La vraisemblan e d'un oe ient ableest al- uléedemanière lassiquesousl'hypothèsededominan epostulantqu'un oe ientspe tralestdominé soit par l'énergie de laparole,soit par l'énergie dubruit. Morrisa montré qu'une autre
interprétation desmasques de données manquantes fondéssurle seuillagedu SNR estpossible.
Il propose late hnique de marginalisation Uniform-Uniform. Cette te hnique se diéren ie des
autres par lefait quetoutes les vraisemblan es sont marginalisées, que e soit pour les données
masquéesoulesdonnéesables.Lesintervallesdemarginalisationdièrent ependantauregard
delaabilitédes oe ients.Sil'on onsidèredesmasquesfondéssurunseuillageduSNRà0dB,
la vraisemblan e d'un oe ient masquéest marginalisée surl'intervalle
[0, y/2]
, etla vraisem-blan ed'un oe ientablel'estsur[y/2, y]
.Dansun ertainsens ettete hniqueremeten ause l'hypothèsededominan e.Onpeut onsidérerqu'un oe ientspe tralbruitén'estnitotalementmanquant nitotalement able. L'évaluation omparative de troiste hniquesde marginalisation
(Full-marginalisation,Uniform-Dira marginalisationetUniform-Uniformmarginalisation)
mon-tre l'intérêt de réduire les domaines de marginalisation. De plus, elle souligne l'importan e de
lapriseen omptedeladénitiondumasquelorsdelamiseen÷uvredel'algorithmededé odage.
Nous avons proposé une nouvelle dénition de masques de données manquantes. Ces masques
sont fondés surla ontribution de l'énergie du signalde parole dansl'énergie dusignal observé.
Cettenouvelledénition onduitàunenouvelleinterprétationdesmasquespermettantderéduire
les intervalles de marginalisation. Les masques de ontributions sont onstruits à partir d'une
représentation temps-fréquen e dont haque valeur est la ontribution de l'énergie du signalde
parole dansl'énergiedusignalobservé uninstant
t
pourune bande defréquen es entréesurf
. L'espa edesve teursde ontributions estensuitepartitionnéenK
lasses(Mk)k∈[1,K]
.Cha une d'ellesest ara tériséeparunve teurmoyenµk
ainsiqu'une matri ede ovarian ediagonaleΣk
. Nous onsidérons alors haque lasse omme un masque de ontribution possible. Nous avonsmontréquelesintervallesdemarginalisationpeuventêtredéterminésàpartirdesparamètres
µk
etΣk
de esmasques.Nousavonsproposéunestimateur demasquesde ontributions. Par dénition esmasquessont
ve toriels. Nous avons alors utilisé la même ar hite ture que l'estimateur DTF exploitant les
dépendan es temporelles entre les masques ve toriels su essifs. Nous avons évalué
ompara-tivement les masques de ontribution par rapport aux masques fondés sur leseuillage du SNR
lassiquement utilisés surla basede données Hiwire. Dans e ontexte nousévaluons laqualité
des masques par la rédu tion des intervalles de marginalisation mais aussi par les erreurs de
masque. Nous entendons par erreur de masque lefait de déterminer unintervalle de
marginali-sation ne ontenant pas l'énergiedu signal de parole (valeur de référen e). Nous avons proposé
dans ette optique une nouvelle mesure :l'erreur marginale aux moindres arrés (MaMSE). Le
s ore MaMSE est d'autant plus faible que les domaines de marginalisation sont entrés sur la
valeur de référen e etde petite taille.Cette évaluation montre que les intervalles de
marginali-sation déduits des masques de ontribution sont fortement réduits. Des eets de bord peuvent
ependant apparaître, ommeparexemple depréférerunpetitintervalle dé entrépar rapportà
évaluationpar une omparaison destauxdere onnaissan e.Lesmasquesora lesde ontribution
permettentd'obteniruntauxdere onnaissan emoyen,surl'ensembledelabasedetest,de87%
alors qu'un taux de 68% est obtenu ave les masques ora les SNR-0. Ces taux onstituent les
seuilsde performan eatteignablespar esdeuxdénitionsdemasques. Ilsattestentdon lefort
potentieldesmasques de ontribution. Lorsquelesmasquessont estimés,l'é artde performan e
diminue. Lestaux de re onnaissan e observés sont de 70% pour lesmasques de ontribution et
de 57% pour les masques SNR-0ave des performan es àpeu près équivalentes pour les
ondi-tions les plus bruitées. Il ressort de ette évaluation que les erreurs de masque sont beau oup
plusfréquentespourlesmasques de ontributions equipénalisefortement lare onnaissan e. Il
apparaît don quelesmasques de ontribution permettent ee tivement d'améliorer les tauxde
re onnaissan e, ependant une estimation de masque plus robuste est né essaire pour exploiter
pleinement leurpotentiel.
Cette évaluation a été réalisée sur la base de données Hiwire. Celle- i ne omporte qu'un seul
bruit dont les ara téristiquessont pro hesde elles d'un bruitblan gaussien. Des expérien es
omplémentairessont alors né essairesan d'évaluer esnouveauxmasques dansdes onditions
plus pénalisantes qu'un bruitblan gaussien.
6.3 Perspe tives
Lesmodèles de masques quenousavons évaluésdans ette thèse sontentraînés dire tement sur
lesobservationsbruitées.Nousavonsreléguéleproblèmedelaparamétrisationdusignalpourles
modèlesdemasquesause ondplanpuisque esmodèlessontévalués omparativementàun
mod-èlederéféren e.Par onséquent,laseule ontraintequenousnoussommesimposéeestque ette
paramétrisation soit la même pour tous les modèles de façon à pouvoir omparer les résultats.
Une telleappro he est ertessimpliste maiselle permetune miseen÷uvre simpleetrapide des
expérimentations. Ilestàprésent souhaitabled'utiliserdesindi espluspertinents,telsque eux
mentionnés au hapitre 3.Nous y voyons un avantage double. D'une part les résultats obtenus
àpartirde tels indi espourrontêtre omparésauxrésultatsreportés dansdiérentstravauxdu
domaine.D'autrepart,desindi esa oustiquesbien hoisispeuventenun ertainsenspermettre
de réduire la dépendan e des modèles de masques aux environnements a oustiques ren ontrés
durant leur apprentissage. Dans ette optique les paramètres proposés par Seltzer [Seltzer00 ℄
onstituent unebase intéressante.
Une ondition forte à la mise en ÷uvre des masques ve toriels SNR-0 on erne la dimension
des ve teurs d'observations. En eet, nous avons montré que le nombre de masques ve toriels
éligiblesest exponentielpar rapportaunombrede oe ientsdesve teursa oustiques. L'usage
d'uneparamétrisationdefaible dimensionetdon né essaire.Cetterestri tion n'estpastrès
pé-nalisante dansle asde petits vo abulaires de l'ordre de quelquesdizaines de mots, ependant,
paramétri-sation plusne du signala oustique. Il semble alors intéressant de travailler au développement
de nouvelles te hniques pour prendre en ompte les dépendan es fréquentielles surdes ve teurs
d'observations deplus grandedimension.
Ledé odeurmulti-sour esdéveloppéparJon Barker[Baker05℄estunsystèmedere onnaissan e
vo ale ave données manquantes. Celui- i s'appuie sur un prétraitement du signal onsistant à
extrairedesfragments ohérentsduspe tre de puissan edusignalà re onnaître.Ces fragments
orrespondent àdes regroupements de oe ientsspe traux identiés omme étant issus d'une
même sour e sonore. L'algorithme de dé odage qu'il propose re her he alors la séquen e
d'é-tats a oustiques ayant engendré les observations au travers de tous les groupements possibles
de fragments. Le produit de ette re onnaissan e est par onséquent la trans ription du signal
vo almaisaussilemasquededonnéesmanquantesrésultantdel'hypothèsede regroupementde
fragmentsayant engendré ettetrans ription. L'utilisationdelasyn hroni ité d'attaquepermet
i i de réduire onsidérablement le nombre de fragments onsidérés à haque instant. De ette
façon, environ huit fragments sont présents en moyenne à haque instant, e qui représente 64
(=
28
) hypothèses deregroupement.Les masques ve toriels que nousavonsproposés peuvent à notre avisprendre avantageusement
pla e dansun tel système. Il estpossible de rempla er les hypothèses deregroupement de
frag-ments à haque instant par un ensemble de masques ve toriels élémentaires. Cela permettrait
de ne plus avoir re ours à l'identi ation des fragments durant une phase de prétraitement et
par onséquent de permettre un dé odage à la volée du signal requis par la plupart des
systèmes de re onnaissan e vo ale embarqués. Un se ond avantage est que nousn'aurions plus
besoin d'apprendredesmodèles paramétriquesde esmasques.
Nous avons essayé de montrer, par nos travaux sur les masques de ontribution, qu'il est
pos-sible de dénird'autres masques de données manquantes que eux lassiquement fondéssur un
seuillage du SNR. Certes es derniers sont intuitifs,et nous pouvons fa ilement les interpréter.
Cependant e ritère de abilité reposant sur le SNR n'est interprétable que dans le domaine
spe tral. Nous pensons que e domaine de paramétrisation onstitue un frein à ette appro he
de lare onnaissan e. Les très bons résultatsreportés à partir de masques ora les soulignent le
fortpotentieldelare onnaissan eave donnéesmanquantedansledomainespe tral,néanmoins
esperforman es sedégradentfortement lorsquelesmasques sontenta hésd'erreurs.Cetteforte
sensibilité aux erreurs de masque est ertainement une onséquen e dire te du manque de
ro-bustesse de etteparamétrisation.
Destravauxtraitantdelare onnaissan eave donnéesmanquantesdansledomaine epstralont
été proposés [Cerisara 03, vanHamme 04b , Srinivasan 06℄. Cependant les masques epstraux
sont obtenus par une transformation non linéaire des masques spe traux. Il serait alors peut