5.4 Rédu tion des intervalles de marginalisation
5.4.3 Résultats
5.4.3.1 S oreMaMSE . . . 110
5.4.3.2 Tauxdere onnaissan e . . . 111
5.1 Introdu tion
Ce hapitre est onsa ré à l'évaluation des propositions faites au hapitre pré édent. Nous
ommençons par dé rire le adre expérimental, puis nous étudions l'inuen e des modèles
pro-posés surl'estimationdesmasques etletaux de re onnaissan e.
5.2 Cadre expérimental
5.2.1 Les bases de données
5.2.1.1 Hiwire
LabasededonnéesHiwire ontientdesenregistrementsde ommandesaéronautiques
pronon- éesen anglais.Ces ommandessont baséessurunvo abulairede133 mots.Chaque ommande
suit un formatage bienspé ique orrespondant àdes ordres ou des ontrles. La stru ture des
ommandes estdon régie parune grammairedéterministe dont laperplexitéest14.9. 331
om-mandes issues de ette grammairesont utilisées pourles enregistrements.
Un total de 8099 enregistrements pronon és par 81 lo uteurs et lo utri es non natifs (dont la
langue maternelle n'est pas l'anglais) omposent ette base de données. Chaque lo uteur et
lo utri e a pronon é 100 ommandes. Le tableau 5.1 synthétise la répartition des 8099
enreg-istrementsenfon tiondelanationalitédeslo uteurs.Quatresousbasessontproposées.Cha une
Langue maternelle nombre delo uteurs nombred'enregistrements
Français 31 3100
Gre 20 2000
Italien 20 2000
Espagnol 10 999
Total 81 8099
Tab.5.1Nombred'enregistrementsetdelo uteursparlanguematernellepourle orpusHiwire.
d'elles est omposée des 8099 enregistrements mentionnés i-dessus orrompus par un bruit
ad-ditif.L'uniquebruitde ette baseestenregistrédansle o kpit d'unBoeing737 envol.Lessous
bases représentent respe tivement des ommandes pronon ées en milieu exempt de bruit eten
milieu bruité à10 dB(LN:lownoise),5 dB(MD:mid noise)et-5dB(HN:highnoise). Nous
avons réépournosbesoins, àpartirde ettebase,unebased'apprentissageet unebasedetest.
Cha une d'elles est onstituée de 50 enregistrements de haque lo uteur et lo utri e dans les
quatre onditionsa oustiques.Letableau5.2présentela ompositiondelabaseHiwiretelleque
Hiwire
Apprentissage Test
Français Gre Italien Espagnol Français Gre Italien Espagnol
Propre 1550 1000 1000 499 1550 1000 1000 500
LN 1550 1000 1000 499 1550 1000 1000 500
MN 1550 1000 1000 499 1550 1000 1000 500
HN 1550 1000 1000 499 1550 1000 1000 500
Tab. 5.2Composition en nombre d'enregistrement delabase Hiwire utiliséepournos
expéri-en es.
5.2.1.2 Aurora 2
La base Aurora 2 est onstruite à partir de la base de données TIDigits qui ontient des
enregistrementsde hires isolés(7 hiresaumaximumpar enregistrement)pronon és par des
lo uteurs et lo utri es adultes améri ains. Les enregistrements originellement é hantillonnés à
20kHz sontréé hantillonnésà 8kHzenutilisant unltre passe-baspourextrairelesignal
om-pris entre 0 et4 kHz.Deux ltresadditionnels sont utiliséspour simulerde manière réalisteles
ara téristiques fréquentielles deséquipements detélé ommuni ation :G.172etMIRS. Le ltre
MIRSsimulele omportement d'unsystèmedetélé ommuni ationrépondantauxnormesGSM.
Lesenregistrementsréé hantillonnésetltréssontensuite orrompuspardiérentsbruitsadditifs
à diérentsniveauxde SNR.Lesbruits onsidérés sonti i :
N1: bruitdanslemétro - subway
N2: murmures- babble
N3: bruitdansune voiture - ar
N4: bruitdansun salond'exhibition - exhibition
N5: bruitdansun restaurant - restaurant
N6: bruitdanslarue - street
N7: bruitdansun aéroport- airport
N8: bruitdansune gare- train-station
Bases d'apprentissage
Deux bases d'apprentissage sont disponibles:une basepropre etune basebruitée. Seul leltre
G.172estutilisé pour ha unedesbases.Labasepropre ontient 8440enregistrements, issusde
la base d'apprentissage de TIDigits, pronon és par 55 hommes et 55 femmes. Ces mêmes 8440
enregistrements sont utilisés pour la basebruitée. Ils sont partitionnés en 20 sous-ensembles de
422enregistrements.Chaquesous-ensemble ontientquelquesenregistrementsde haquelo uteur
etlo utri e.Les20sous-ensemblesrésultentde la ombinaisonde4typesdebruitset5 niveaux
deSNR.Les4bruitssontlemétro,lesmurmures, lavoiture etlasalled'exhibition.Lesniveaux
Bases de test
Trois bases de test diérentes, test A, test B et test C sont proposées. Les bases de test A
et B sont fondées sur l'utilisation du ltre G.172 et la base de test C sur l'utilisation du ltre
MIRS. 4004 enregistrements, issus de la base de test de TIDigits et pronon és par 52 femmes
et52,forment4sous-ensemblesde 1001enregistrements ha un.Tousleslo uteursettoutes les
lo utri es sont représentés dans haque sous-ensemble. Chaquesous-ensembleest orrompu par
un bruitadditif à7niveauxdeSNR:20dB, 15dB,10dB, 5dB,0dB,-5dBetlaparole seule.
Base de test A :Chaquesous-ensemblede1001enregistrementsdénis i-dessusest orrompu
par un des4 bruitssuivants :lemétro, les murmures, lavoiture etlasalle d'exhibition et
pour undes7 niveaux de SNRdénis pré édemment. Cesbruitssont les mêmesque eux
utiliséspourlabased'apprentissagebruitée.Cettebaseestalors onstituéede
4∗7∗1001 =
28028
enregistrements.Base de test B :Chaquesous-ensemblede1001enregistrementsdénis i-dessusest orrompu
par un des4 bruitssuivants :le restaurant, la rue, l'aéroport et lagare et pour un des7
niveaux de SNR dénis pré édemment. Ces bruits sont diérents de eux utilisés pour
la base d'apprentissage bruitée. Cette base est alors onstituée de
4∗ 7 ∗ 1001 = 28028
enregistrements.
Base de test C : Cette base ontient deux sous-ensembles de 1001 enregistrements. Cha un
d'euxestbruitéparundesdeuxbruitssuivants:métroetruepour haqueniveaudeSNR.
14014 enregistrements bruités omposent alors ette base. Cette base de test est utilisée
pourmontrer l'inuen edelamodi ationdes ara téristiquesfréquentiellesdusignalsur
lare onnaissan e.
Aurora2
Apprentisage Test
Propre Bruité TestA TestB TestC
(G.172) (G.172) ((G.172) G.172) (MIRS) - N1 N2 N3 N4 N1 N2 N3 N4 N5 N6 N7 N8 N1 N6 Propre 8440 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 20dB - 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 15dB - 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 10dB - 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 5dB - 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 0dB - - - 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 -5dB - - - 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001
Tab.5.3CompositiondelabasededonnéesAurora2.Lenombred'enregistrementsestfournit
pour haque ondition(bruit - SNR)desbases d'apprentissageet detest.
5.2.1.3 Aurora 4
Aurora 4 est basée sur la base de données WSJ0 Wall Street Journal et s'appuie sur un
Sennheiser ainsiqu'ave un se ond mi rophone en parallèle. Lesdiérents enregistrements
on-tiennent des extraits du Wall Street Journal lus. Les enregistrements ee tués ave le se ond
mi rophone sont employés pour permettre des expérien es de re onnaissan e ave des signaux
présentantdes ara téristiquesfréquentiellesdiérentesduesau analdetransmission.Pour
éval-uer larobustesse au bruit, 6 bruits sont arti iellement ajoutés auxenregistrements originaux.
Ces 6bruits sontles mêmesque euxutilisés pour Aurora 2:
N1: murmures- babble
N2: bruitdansune voiture - ar
N3: bruitdansun restaurant - restaurant
N4: bruitdanslarue- street
N5: bruitdansun aéroport- airport
N6: bruitdansune gare- train-station
Une première base d'apprentissage ontient 7138 phrasespronon ées par 83 lo uteurs et
enreg-istréesave lemi rophoneSennheiser etsansadjon tion debruit.Une se ondebase
d'apprentis-sage est également fournie.Celle- i se ompose de es mêmes 7138 phrases, ertaines exemptes
de bruitd'autres bruitéespar un des6 bruitsàde SNR omprisentre5 et15 dB.
Deux bases de tests sont disponibles. Cha une d'elles ontient 7 onditions d'enregistrement
ara térisées par l'adjon tion d'un des 6 bruits à diérents SNR ompris entre 5 et 15 dB, la
dernière ondition orrespondant à des enregistrements exempts de bruit. La première base de
test ne ontient que des enregistrements ee tués ave le mi rophone Sennheiser tandis que la
se ondebase ontientdesenregistrementsee tuésave d'autresmi rophones queleSennheiser.
Pour haque onditiondebruitunebaseréduitede166enregistrementspronon éspar8lo uteurs
diérents estproposée.
5.2.2 Système de re onnaissan e ave données manquantes ou in ertaines
Toutesles expérien es reportéesdans e hapitre ontété réaliséesà partir de laboite à
out-ils HTK 3.0 (HMM Toolkit). La pro édure de dé odage a été modiée de manière à pouvoir
marginaliser les vraisemblan es des observations. La pro édure de marginalisation implémentée
estlaUniform-Uniformmarginalisation,proposéeparMorris[Morris 01a ℄,dé riteauparagraphe
2.3.3.2 du hapitre 2. Ce hoix est motivé par les résultats présentés par la gure 2.2 page 47,
illustrant une nette amélioration des taux de re onnaissan e obtenus par ette pro édure de
marginalisation omparativement à la Uniform-Dira marginalisation et à la Full
marginalisa-tion.
Nous onsidérerons tout oe ient spe tral omme manquant si son
SN Rlocal
est inférieur à 0 dB. Certains travaux utilisent un seuil de SNR supérieur à 0 dB. Par exemple Seltzer et Rajont adopté un seuil de 2.5 dB dans le adre de la soustra tion spe trale. Augmenter e seuil
dans le adre de la soustra tion spe trale augmente la apa ité à traiter des environnements
non-stationnaires. Seuls les oe ients les plus énergétiques seront onsidérés omme ables e
quipermetdebiaiserlemasquedemanièreàlimiterlaproportiondefaussesa eptations.Nous
dénissons une fausse a eptation par le fait d'étiqueter une donnée manquante omme able.
Par opposition, un fauxrejet estle fait d'étiqueter une donnéeable ommemanquante. Cette
onséquen e prend en oreplus d'importan e dansle adre del'imputation dedonnées. Puisque
les valeursdesdonnéesmanquantessont re onstruitesà partirdesvaleursdesdonnées ables,il
est alors judi ieux de biaiser l'estimateur de masquede manière à réduire lenombre de fausses
a eptations même si ela implique une augmentation du nombre de fauxrejets. Ce i sevérie
également dans le as de la Uniform-Dira marginalisation qui estla plus largement utiliséeen
marginalisationdedonnées.Lesvraisemblan esdesdonnéesablesétant al ulées lassiquement
il onvient de réduire le nombre de fausse a eptation an de limiter l'inuen e du bruit sur le
dé odage.
Ce hoix est, a priori, moins ru ial pour nous ar nous marginalisonsles données manquantes
maisaussi lesdonnées ables etdon il n'y apas deraison de favoriser les faussesa eptations
ou les fauxrejets.
Lesvraisemblan es des oe ients statiquesmanquantset ables sont marginalisées
respe tive-ment sur les intervalles
[0, ySN R−0]
et[ySN R−0, y]
, oùy
est la valeur du oe ient observé etySN R−0
estune valeur tellequesiy = ySN R−0
alors leSN Rlocal
du oe ient vaut 0dB.Un oe ient dynamique est onsidéré omme manquant si au moins un des oe ient
sta-tiques ontribuant à son al ul est manquant. Les vraisemblan es des oe ients dynamiques
manquants sont marginalisées sur
[−∞, +∞]
, alors que les vraisemblan es des oe ients dy-namiques ables sont al ulés demanière lassique.5.2.3 Modèles a oustiques
Les modèles a oustiques sont tous entraînés sur les bases d'apprentissage de parole seule
des orpusprésentéspré édemment.Les oe ientsMel-spe trauxsont al uléspuis ompressés
ubiquement.Enn,les oe ientsstatiquessontétendusparleursdérivéespremières.La
quasi-totalité des expérien es proposées dans e hapitre repose sur l'utilisation de 12 oe ients
statiques étenduspar leurs dérivées premières e qui résulteen desve teursd'observations à24
paramètres.L'utilisationd'unnombre deparamètresplusimportantserapré iséele asé héant.
UnemodélisationdemotestadoptéepourAurora2 omptetenudelapetitetailleduvo abulaire
onsidéré (12mots). Chaquemodèlede hireestunHMM gau he-droite à16 états.Lemodèle
de silen eestunHMMgau he-droite à3étatsetpermettantun sautentrelepremieretdernier
UnemodélisationenphonèmeestutiliséepourlesmodèlesHiwire.Chaquephonèmeestreprésenté
par un HMM gau he-droite à 3 états, dont haque état est un mélange de 128 gaussiennes à
matri ede ovarian ediagonale.Le orpusHiwire nefournissantpasdevéritablebase
d'appren-tissage,desmodèlesdephonèmes initiauxsont entraînés surAurora4.Ces modèlessont ensuite
réestiméssurunepetitebased'apprentissageHiwirequenousavonsdénieauparagraphe5.2.1.1.
5.2.4 Paramétrisation pour les modèles de masques
Denombreux indi esa oustiques permettant d'estimer les masques de donnéesmanquantes
ontétéprésentés au hapitre 3.Cependant, au untravail à notre onnaissan e n'aétabli
laire-ment quelsindi es étaient les plus signi atifs, ni omment ombiner es diérents indi es. Les
propositions quenous avonsfait au hapitre pré édent portent surlamodélisation desmasques
ainsique surla topologiede leurs modèles paramétriques. Nousproposons d'évaluer es
propo-sitions dans les paragraphes suivants en omparant les diérents estimateurs de masques que
nous avons proposés à un estimateur de référen e. Nous onsidérons don ,dans e ontexte, le
hoix des indi es omme se ondaire. L'unique ontrainte que nousnous imposons est d'utiliser
les mêmesindi esa oustiques pourles diérents estimateurs demasques.
Nousavonsdon hoisid'entraînerlesestimateurs de masquessurlesseulesobservations
a ous-tiques.Ces observations sont paramétréesdansledomaine epstral. Certes,ledomaine epstral
diusel'eetdubruitsurtous es oe ientsetpar onséquentnesemblepasêtreune
paramétri-sation très adaptée pour modéliser les modèles de masques. Cependant, des tests préliminaires
ont montré quela qualité desmasques estimésest meilleure siles modèles demasques sont
en-traînésdans ledomaine epstralplutt que spe tral.
Lesobservations a oustiquespour lesmodèlesde masquessont alorsexprimées par desve teurs
omposés de 13 oe ients Mel- epstraux (dont le oe ient
C0
orrespondant à l'énergie de l'observation)et13 oe ientsdevitesse.Pour haqueenregistrement esve teurssontnormal-isés(CMN:CepstralMean Normalization)par leve teurmoyen al ulésur etenregistrement.
5.3 Dépendan es sur les valeurs de masque
Nousproposons d'évaluer l'inuen e des dépendan es surles valeursdes masques en terme
de taux d'erreurs de lassi ation ainsi qu'en terme de taux de re onnaissan e en mots. Cette
évaluation est ee tuée sur la base de données Aurora 2. Les quatre estimateurs bayésiens de
masques dé rits au hapitre pré édent ( hapitre 4 paragraphe 4.2.4) sont entraînés sur la base
d'apprentissage bruitée.Nousdésignons esestimateurs par :
1. EstimateurAD(Au uneDépendan e):Cetestimateurreprésentenotresystèmederéféren e.
autres oe ients.
2. EstimateurDT(Dépendan esTemporelles):Desdépendan estemporellessont onsidérée
entrelesvaleursdemasquesdes oe ientsd'unemêmebandedefréquen e,l'indépendan e
de valeursde masques des oe ientsrésidant endes bandesde fréquen es diérentes est
onservée.
3. Estimateur DF(Dépendan es Fréquentielles) :Desdépendan es fréquentielles sont prises
en ompte. La granularité de et estimateur est moins ne que elle des estimateurs AD
et DT puisque les masques sont estimés pour un ve teur d'observations entier et non
plus pour un seul oe ient spe tral. Les dépendan es fréquentielles sont modélisées en
réduisant l'espa e de re her he.
4. Estimateur DTF(Dépendan es Temporelles et Fréquentielles) :Commel'estimateur DF,
l'estimateur DTF estime desmasques ve toriels. Il se distingue ependant de elui- i par
l'introdu tion de probabilitéde transitionentreles diérents masquesve toriels.
Les dépendan es temporelles sont des probabilités de transition al ulées sur les masques
ora- les des enregistrements bruités de labase d'apprentissage. Lesmasques ve torielsélémentaires
orrespondant aux masques ve toriels lesplus fréquents sont également déterminés à partir des
masques ora les des enregistrements bruités de la base d'apprentissage. Nous avons retenu 31
masques ve toriels élémentaires ouvrant 80 %desmasques ora les.
5.3.1 Inuen e des dépendan es sur les masques
Nous ommençons par analyser qualitativement l'eet des dépendan es sur les masques
es-timéssurlagure5.1.Unsignaldeparole orrespondantàlaséquen ede hireonethreenine
oh (FIG.5.1(a)) estbruité à 0dB par un signalreprésentant lebruit d'un métro. Le masque
ora le (FIG.5.1(e)) est al ulé à partir dessignaux de parole seule (FIG.5.1(a))et du signalde
parole bruitée(FIG.5.1( )). La gure 5.1(g) représente e même masque ora le maisexprimé à
partirdesseuls 31masques ve toriels élémentaires.
Les masques des oe ients spe traux fournis par l'estimateur AD(FIG.5.1(b)) semblent
rela-tivementinorganisésparrapportauxautresmasques.Eneet,lastru turequisedégageprésente
des dis ontinuités temporelles et fréquentielles importantes résultant de l'indépendan e de es
masques vis-à-vis deleur voisinage.
Les dis ontinuités temporelles sont moins nombreuses pour le masque (FIG.5.1(d)) estimé par
l'estimateur DT. Les masques d'une même bande de fréquen e présentent des intervalles
tem-porels homogènes de données ables et manquantes. Toutefois les dis ontinuités fréquentielles
ho-(a) - Mel spe trogramme de la séquen e de
hires:onethreenineoh.
(b)-Pasdedépendan e.
( ) - Mel spe trogramme de la séquen e de
hires: one three nine oh orrompue par
lebruitdumétroà0dB.
(d)-Dépendan estemporelles.
(e) -Masqueora le. (f) -Dépendan esfréquentielles.
(g) - Masque ora le exprimé ave seulement
les31masquesprimitifs.
(h) - Dépendan es temporelles et
fréquen-tielles.
Fig. 5.1 Impression visuelle de l'eet des dépendan es temporelles et fréquentielles sur les
masques :(a)Mel-spetrogramme d'un signaldeparole représentantla suite de hire one three
nineoh, ( )Mel-spe trogramme de e même signalde parole orrompupar lebruit du métro à
0 dB,(e)masque ora le al ulé à partir de(a)et( ),(g) masqueora le exprimé à partir des 31
masques ve toriels élémentaires, (b) (d) (f) et (h) sont respe tivement les masques estimés par
les estimateurs AD, DT, DFet DTF.
mogènes, emasquene reète pasde manièredèlel'enveloppeénergétique dusignaldeparole.
Al'inverse,lemasque(FIG.5.1(f))estiméparl'estimateurDFprésenteune stru turetemporelle
sa adée, due à lindépendan e des masques ve toriels, alors que les dis ontinuités
fréquen-tiellesont disparu.
Enn,lemasque(FIG.5.1(h))obtenuparl'estimateurDTFdonnelameilleureimpressionvisuelle.
Les oe ients spe traux sont partionnés en blo s homogènes et les dis ontinuités temporelles
5.3.2 Évaluation des masques
5.3.2.1 Erreurs de masque
Nous proposons, dans un premier temps, d'évaluer la qualité des masques estimés. Cette
évaluation onsiste à omparer les masques estimésave les masques ora les qui onstituent les
masquesderéféren es(exemptsd'erreurs).Nousdénissonsunea eptation ommelefait
d'éti-queterun oe ientspe tral ommeable.Inversement,unrejetestl'étiquetaged'un oe ient
spe tral omme manquant.
Vraie a eptation : une vraie a eptation traduit le fait d'étiqueter un oe ient spe tral
dominé par lesignal deparole ommeable.
Fausse a eptation : une fausse a eptation est un oe ient spe tral manquant étiqueté
ommeable.
Vrai rejet :un vrai rejet traduit lefait d'étiqueter un oe ient spe tral dominé par lebruit
ommemanquant.
Faux rejet :unfaux rejetest un oe ient spe tralable étiqueté omme manquant.
5.3.2.2 Résultats
Lagure5.2présentelestauxdevraiesa eptations,faussesa eptations,vraisrejetsetfaux
rejetspour ha un desquatreestimateursde masquessurl'ensemble desbases detest d'Aurora