Résultats

5.4 Rédu tion des intervalles de marginalisation

5.4.3 Résultats

5.4.3.1 S oreMaMSE . . . 110

5.4.3.2 Tauxdere onnaissan e . . . 111

5.1 Introdu tion

Ce hapitre est onsa ré à l'évaluation des propositions faites au hapitre pré édent. Nous

ommençons par dé rire le adre expérimental, puis nous étudions l'inuen e des modèles

pro-posés surl'estimationdesmasques etletaux de re onnaissan e.

5.2 Cadre expérimental

5.2.1 Les bases de données

5.2.1.1 Hiwire

LabasededonnéesHiwire ontientdesenregistrementsde ommandesaéronautiques

pronon- éesen anglais.Ces ommandessont baséessurunvo abulairede133 mots.Chaque ommande

suit un formatage bienspé ique orrespondant àdes ordres ou des ontrles. La stru ture des

ommandes estdon régie parune grammairedéterministe dont laperplexitéest14.9. 331

om-mandes issues de ette grammairesont utilisées pourles enregistrements.

Un total de 8099 enregistrements pronon és par 81 lo uteurs et lo utri es non natifs (dont la

langue maternelle n'est pas l'anglais) omposent ette base de données. Chaque lo uteur et

lo utri e a pronon é 100 ommandes. Le tableau 5.1 synthétise la répartition des 8099

enreg-istrementsenfon tiondelanationalitédeslo uteurs.Quatresousbasessontproposées.Cha une

Langue maternelle nombre delo uteurs nombred'enregistrements

Français 31 3100

Gre 20 2000

Italien 20 2000

Espagnol 10 999

Total 81 8099

Tab.5.1Nombred'enregistrementsetdelo uteursparlanguematernellepourle orpusHiwire.

d'elles est omposée des 8099 enregistrements mentionnés i-dessus orrompus par un bruit

ad-ditif.L'uniquebruitde ette baseestenregistrédansle o kpit d'unBoeing737 envol.Lessous

bases représentent respe tivement des ommandes pronon ées en milieu exempt de bruit eten

milieu bruité à10 dB(LN:lownoise),5 dB(MD:mid noise)et-5dB(HN:highnoise). Nous

avons réépournosbesoins, àpartirde ettebase,unebased'apprentissageet unebasedetest.

Cha une d'elles est onstituée de 50 enregistrements de haque lo uteur et lo utri e dans les

quatre onditionsa oustiques.Letableau5.2présentela ompositiondelabaseHiwiretelleque

Hiwire

Apprentissage Test

Français Gre Italien Espagnol Français Gre Italien Espagnol

Propre 1550 1000 1000 499 1550 1000 1000 500

LN 1550 1000 1000 499 1550 1000 1000 500

MN 1550 1000 1000 499 1550 1000 1000 500

HN 1550 1000 1000 499 1550 1000 1000 500

Tab. 5.2Composition en nombre d'enregistrement delabase Hiwire utiliséepournos

expéri-en es.

5.2.1.2 Aurora 2

La base Aurora 2 est onstruite à partir de la base de données TIDigits qui ontient des

enregistrementsde hires isolés(7 hiresaumaximumpar enregistrement)pronon és par des

lo uteurs et lo utri es adultes améri ains. Les enregistrements originellement é hantillonnés à

20kHz sontréé hantillonnésà 8kHzenutilisant unltre passe-baspourextrairelesignal

om-pris entre 0 et4 kHz.Deux ltresadditionnels sont utiliséspour simulerde manière réalisteles

ara téristiques fréquentielles deséquipements detélé ommuni ation :G.172etMIRS. Le ltre

MIRSsimulele omportement d'unsystèmedetélé ommuni ationrépondantauxnormesGSM.

Lesenregistrementsréé hantillonnésetltréssontensuite orrompuspardiérentsbruitsadditifs

à diérentsniveauxde SNR.Lesbruits onsidérés sonti i :

N1: bruitdanslemétro - subway

N2: murmures- babble

N3: bruitdansune voiture - ar

N4: bruitdansun salond'exhibition - exhibition

N5: bruitdansun restaurant - restaurant

N6: bruitdanslarue - street

N7: bruitdansun aéroport- airport

N8: bruitdansune gare- train-station

Bases d'apprentissage

Deux bases d'apprentissage sont disponibles:une basepropre etune basebruitée. Seul leltre

G.172estutilisé pour ha unedesbases.Labasepropre ontient 8440enregistrements, issusde

la base d'apprentissage de TIDigits, pronon és par 55 hommes et 55 femmes. Ces mêmes 8440

enregistrements sont utilisés pour la basebruitée. Ils sont partitionnés en 20 sous-ensembles de

422enregistrements.Chaquesous-ensemble ontientquelquesenregistrementsde haquelo uteur

etlo utri e.Les20sous-ensemblesrésultentde la ombinaisonde4typesdebruitset5 niveaux

deSNR.Les4bruitssontlemétro,lesmurmures, lavoiture etlasalled'exhibition.Lesniveaux

Bases de test

Trois bases de test diérentes, test A, test B et test C sont proposées. Les bases de test A

et B sont fondées sur l'utilisation du ltre G.172 et la base de test C sur l'utilisation du ltre

MIRS. 4004 enregistrements, issus de la base de test de TIDigits et pronon és par 52 femmes

et52,forment4sous-ensemblesde 1001enregistrements ha un.Tousleslo uteursettoutes les

lo utri es sont représentés dans haque sous-ensemble. Chaquesous-ensembleest orrompu par

un bruitadditif à7niveauxdeSNR:20dB, 15dB,10dB, 5dB,0dB,-5dBetlaparole seule.

Base de test A :Chaquesous-ensemblede1001enregistrementsdénis i-dessusest orrompu

par un des4 bruitssuivants :lemétro, les murmures, lavoiture etlasalle d'exhibition et

pour undes7 niveaux de SNRdénis pré édemment. Cesbruitssont les mêmesque eux

utiliséspourlabased'apprentissagebruitée.Cettebaseestalors onstituéede

4∗7∗1001 =

28028

enregistrements.

Base de test B :Chaquesous-ensemblede1001enregistrementsdénis i-dessusest orrompu

par un des4 bruitssuivants :le restaurant, la rue, l'aéroport et lagare et pour un des7

niveaux de SNR dénis pré édemment. Ces bruits sont diérents de eux utilisés pour

la base d'apprentissage bruitée. Cette base est alors onstituée de

4∗ 7 ∗ 1001 = 28028

enregistrements.

Base de test C : Cette base ontient deux sous-ensembles de 1001 enregistrements. Cha un

d'euxestbruitéparundesdeuxbruitssuivants:métroetruepour haqueniveaudeSNR.

14014 enregistrements bruités omposent alors ette base. Cette base de test est utilisée

pourmontrer l'inuen edelamodi ationdes ara téristiquesfréquentiellesdusignalsur

lare onnaissan e.

Aurora2

Apprentisage Test

Propre Bruité TestA TestB TestC

(G.172) (G.172) ((G.172) G.172) (MIRS) - N1 N2 N3 N4 N1 N2 N3 N4 N5 N6 N7 N8 N1 N6 Propre 8440 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 20dB - 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 15dB - 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 10dB - 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 5dB - 422 422 422 422 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 0dB - - - 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 -5dB - - - 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001

Tab.5.3CompositiondelabasededonnéesAurora2.Lenombred'enregistrementsestfournit

pour haque ondition(bruit - SNR)desbases d'apprentissageet detest.

5.2.1.3 Aurora 4

Aurora 4 est basée sur la base de données WSJ0 Wall Street Journal et s'appuie sur un

Sennheiser ainsiqu'ave un se ond mi rophone en parallèle. Lesdiérents enregistrements

on-tiennent des extraits du Wall Street Journal lus. Les enregistrements ee tués ave le se ond

mi rophone sont employés pour permettre des expérien es de re onnaissan e ave des signaux

présentantdes ara téristiquesfréquentiellesdiérentesduesau analdetransmission.Pour

éval-uer larobustesse au bruit, 6 bruits sont arti iellement ajoutés auxenregistrements originaux.

Ces 6bruits sontles mêmesque euxutilisés pour Aurora 2:

N1: murmures- babble

N2: bruitdansune voiture - ar

N3: bruitdansun restaurant - restaurant

N4: bruitdanslarue- street

N5: bruitdansun aéroport- airport

N6: bruitdansune gare- train-station

Une première base d'apprentissage ontient 7138 phrasespronon ées par 83 lo uteurs et

enreg-istréesave lemi rophoneSennheiser etsansadjon tion debruit.Une se ondebase

d'apprentis-sage est également fournie.Celle- i se ompose de es mêmes 7138 phrases, ertaines exemptes

de bruitd'autres bruitéespar un des6 bruitsàde SNR omprisentre5 et15 dB.

Deux bases de tests sont disponibles. Cha une d'elles ontient 7 onditions d'enregistrement

ara térisées par l'adjon tion d'un des 6 bruits à diérents SNR ompris entre 5 et 15 dB, la

dernière ondition orrespondant à des enregistrements exempts de bruit. La première base de

test ne ontient que des enregistrements ee tués ave le mi rophone Sennheiser tandis que la

se ondebase ontientdesenregistrementsee tuésave d'autresmi rophones queleSennheiser.

Pour haque onditiondebruitunebaseréduitede166enregistrementspronon éspar8lo uteurs

diérents estproposée.

5.2.2 Système de re onnaissan e ave données manquantes ou in ertaines

Toutesles expérien es reportéesdans e hapitre ontété réaliséesà partir de laboite à

out-ils HTK 3.0 (HMM Toolkit). La pro édure de dé odage a été modiée de manière à pouvoir

marginaliser les vraisemblan es des observations. La pro édure de marginalisation implémentée

estlaUniform-Uniformmarginalisation,proposéeparMorris[Morris 01a ℄,dé riteauparagraphe

2.3.3.2 du hapitre 2. Ce hoix est motivé par les résultats présentés par la gure 2.2 page 47,

illustrant une nette amélioration des taux de re onnaissan e obtenus par ette pro édure de

marginalisation omparativement à la Uniform-Dira marginalisation et à la Full

marginalisa-tion.

Nous onsidérerons tout oe ient spe tral omme manquant si son

SN Rlocal

est inférieur à 0 dB. Certains travaux utilisent un seuil de SNR supérieur à 0 dB. Par exemple Seltzer et Raj

ont adopté un seuil de 2.5 dB dans le adre de la soustra tion spe trale. Augmenter e seuil

dans le adre de la soustra tion spe trale augmente la apa ité à traiter des environnements

non-stationnaires. Seuls les oe ients les plus énergétiques seront onsidérés omme ables e

quipermetdebiaiserlemasquedemanièreàlimiterlaproportiondefaussesa eptations.Nous

dénissons une fausse a eptation par le fait d'étiqueter une donnée manquante omme able.

Par opposition, un fauxrejet estle fait d'étiqueter une donnéeable ommemanquante. Cette

onséquen e prend en oreplus d'importan e dansle adre del'imputation dedonnées. Puisque

les valeursdesdonnéesmanquantessont re onstruitesà partirdesvaleursdesdonnées ables,il

est alors judi ieux de biaiser l'estimateur de masquede manière à réduire lenombre de fausses

a eptations même si ela implique une augmentation du nombre de fauxrejets. Ce i sevérie

également dans le as de la Uniform-Dira marginalisation qui estla plus largement utiliséeen

marginalisationdedonnées.Lesvraisemblan esdesdonnéesablesétant al ulées lassiquement

il onvient de réduire le nombre de fausse a eptation an de limiter l'inuen e du bruit sur le

dé odage.

Ce hoix est, a priori, moins ru ial pour nous ar nous marginalisonsles données manquantes

maisaussi lesdonnées ables etdon il n'y apas deraison de favoriser les faussesa eptations

ou les fauxrejets.

Lesvraisemblan es des oe ients statiquesmanquantset ables sont marginalisées

respe tive-ment sur les intervalles

[0, y_{SN R−0}]

[y_{SN R−0}, y]

, où

y

est la valeur du oe ient observé et

y_{SN R−0}

estune valeur tellequesi

y = y_{SN R−0}

alors le

SN R_local

du oe ient vaut 0dB.

Un oe ient dynamique est onsidéré omme manquant si au moins un des oe ient

sta-tiques ontribuant à son al ul est manquant. Les vraisemblan es des oe ients dynamiques

manquants sont marginalisées sur

[−∞, +∞]

, alors que les vraisemblan es des oe ients dy-namiques ables sont al ulés demanière lassique.

5.2.3 Modèles a oustiques

Les modèles a oustiques sont tous entraînés sur les bases d'apprentissage de parole seule

des orpusprésentéspré édemment.Les oe ientsMel-spe trauxsont al uléspuis ompressés

ubiquement.Enn,les oe ientsstatiquessontétendusparleursdérivéespremières.La

quasi-totalité des expérien es proposées dans e hapitre repose sur l'utilisation de 12 oe ients

statiques étenduspar leurs dérivées premières e qui résulteen desve teursd'observations à24

paramètres.L'utilisationd'unnombre deparamètresplusimportantserapré iséele asé héant.

UnemodélisationdemotestadoptéepourAurora2 omptetenudelapetitetailleduvo abulaire

onsidéré (12mots). Chaquemodèlede hireestunHMM gau he-droite à16 états.Lemodèle

de silen eestunHMMgau he-droite à3étatsetpermettantun sautentrelepremieretdernier

UnemodélisationenphonèmeestutiliséepourlesmodèlesHiwire.Chaquephonèmeestreprésenté

par un HMM gau he-droite à 3 états, dont haque état est un mélange de 128 gaussiennes à

matri ede ovarian ediagonale.Le orpusHiwire nefournissantpasdevéritablebase

d'appren-tissage,desmodèlesdephonèmes initiauxsont entraînés surAurora4.Ces modèlessont ensuite

réestiméssurunepetitebased'apprentissageHiwirequenousavonsdénieauparagraphe5.2.1.1.

5.2.4 Paramétrisation pour les modèles de masques

Denombreux indi esa oustiques permettant d'estimer les masques de donnéesmanquantes

ontétéprésentés au hapitre 3.Cependant, au untravail à notre onnaissan e n'aétabli

laire-ment quelsindi es étaient les plus signi atifs, ni omment ombiner es diérents indi es. Les

propositions quenous avonsfait au hapitre pré édent portent surlamodélisation desmasques

ainsique surla topologiede leurs modèles paramétriques. Nousproposons d'évaluer es

propo-sitions dans les paragraphes suivants en omparant les diérents estimateurs de masques que

nous avons proposés à un estimateur de référen e. Nous onsidérons don ,dans e ontexte, le

hoix des indi es omme se ondaire. L'unique ontrainte que nousnous imposons est d'utiliser

les mêmesindi esa oustiques pourles diérents estimateurs demasques.

Nousavonsdon hoisid'entraînerlesestimateurs de masquessurlesseulesobservations

a ous-tiques.Ces observations sont paramétréesdansledomaine epstral. Certes,ledomaine epstral

diusel'eetdubruitsurtous es oe ientsetpar onséquentnesemblepasêtreune

paramétri-sation très adaptée pour modéliser les modèles de masques. Cependant, des tests préliminaires

ont montré quela qualité desmasques estimésest meilleure siles modèles demasques sont

en-traînésdans ledomaine epstralplutt que spe tral.

Lesobservations a oustiquespour lesmodèlesde masquessont alorsexprimées par desve teurs

omposés de 13 oe ients Mel- epstraux (dont le oe ient

C₀

orrespondant à l'énergie de l'observation)et13 oe ientsdevitesse.Pour haqueenregistrement esve teurssont

normal-isés(CMN:CepstralMean Normalization)par leve teurmoyen al ulésur etenregistrement.

5.3 Dépendan es sur les valeurs de masque

Nousproposons d'évaluer l'inuen e des dépendan es surles valeursdes masques en terme

de taux d'erreurs de lassi ation ainsi qu'en terme de taux de re onnaissan e en mots. Cette

évaluation est ee tuée sur la base de données Aurora 2. Les quatre estimateurs bayésiens de

masques dé rits au hapitre pré édent ( hapitre 4 paragraphe 4.2.4) sont entraînés sur la base

d'apprentissage bruitée.Nousdésignons esestimateurs par :

1. EstimateurAD(Au uneDépendan e):Cetestimateurreprésentenotresystèmederéféren e.

autres oe ients.

2. EstimateurDT(Dépendan esTemporelles):Desdépendan estemporellessont onsidérée

entrelesvaleursdemasquesdes oe ientsd'unemêmebandedefréquen e,l'indépendan e

de valeursde masques des oe ientsrésidant endes bandesde fréquen es diérentes est

onservée.

3. Estimateur DF(Dépendan es Fréquentielles) :Desdépendan es fréquentielles sont prises

en ompte. La granularité de et estimateur est moins ne que elle des estimateurs AD

et DT puisque les masques sont estimés pour un ve teur d'observations entier et non

plus pour un seul oe ient spe tral. Les dépendan es fréquentielles sont modélisées en

réduisant l'espa e de re her he.

4. Estimateur DTF(Dépendan es Temporelles et Fréquentielles) :Commel'estimateur DF,

l'estimateur DTF estime desmasques ve toriels. Il se distingue ependant de elui- i par

l'introdu tion de probabilitéde transitionentreles diérents masquesve toriels.

Les dépendan es temporelles sont des probabilités de transition al ulées sur les masques

ora- les des enregistrements bruités de labase d'apprentissage. Lesmasques ve torielsélémentaires

orrespondant aux masques ve toriels lesplus fréquents sont également déterminés à partir des

masques ora les des enregistrements bruités de la base d'apprentissage. Nous avons retenu 31

masques ve toriels élémentaires ouvrant 80 %desmasques ora les.

5.3.1 Inuen e des dépendan es sur les masques

Nous ommençons par analyser qualitativement l'eet des dépendan es sur les masques

es-timéssurlagure5.1.Unsignaldeparole orrespondantàlaséquen ede hireonethreenine

oh (FIG.5.1(a)) estbruité à 0dB par un signalreprésentant lebruit d'un métro. Le masque

ora le (FIG.5.1(e)) est al ulé à partir dessignaux de parole seule (FIG.5.1(a))et du signalde

parole bruitée(FIG.5.1( )). La gure 5.1(g) représente e même masque ora le maisexprimé à

partirdesseuls 31masques ve toriels élémentaires.

Les masques des oe ients spe traux fournis par l'estimateur AD(FIG.5.1(b)) semblent

rela-tivementinorganisésparrapportauxautresmasques.Eneet,lastru turequisedégageprésente

des dis ontinuités temporelles et fréquentielles importantes résultant de l'indépendan e de es

masques vis-à-vis deleur voisinage.

Les dis ontinuités temporelles sont moins nombreuses pour le masque (FIG.5.1(d)) estimé par

l'estimateur DT. Les masques d'une même bande de fréquen e présentent des intervalles

tem-porels homogènes de données ables et manquantes. Toutefois les dis ontinuités fréquentielles

ho-(a) - Mel spe trogramme de la séquen e de

hires:onethreenineoh.

(b)-Pasdedépendan e.

( ) - Mel spe trogramme de la séquen e de

hires: one three nine oh orrompue par

lebruitdumétroà0dB.

(d)-Dépendan estemporelles.

(e) -Masqueora le. (f) -Dépendan esfréquentielles.

(g) - Masque ora le exprimé ave seulement

les31masquesprimitifs.

(h) - Dépendan es temporelles et

fréquen-tielles.

Fig. 5.1 Impression visuelle de l'eet des dépendan es temporelles et fréquentielles sur les

masques :(a)Mel-spetrogramme d'un signaldeparole représentantla suite de hire one three

nineoh, ( )Mel-spe trogramme de e même signalde parole orrompupar lebruit du métro à

0 dB,(e)masque ora le al ulé à partir de(a)et( ),(g) masqueora le exprimé à partir des 31

masques ve toriels élémentaires, (b) (d) (f) et (h) sont respe tivement les masques estimés par

les estimateurs AD, DT, DFet DTF.

mogènes, emasquene reète pasde manièredèlel'enveloppeénergétique dusignaldeparole.

Al'inverse,lemasque(FIG.5.1(f))estiméparl'estimateurDFprésenteune stru turetemporelle

sa adée, due à lindépendan e des masques ve toriels, alors que les dis ontinuités

fréquen-tiellesont disparu.

Enn,lemasque(FIG.5.1(h))obtenuparl'estimateurDTFdonnelameilleureimpressionvisuelle.

Les oe ients spe traux sont partionnés en blo s homogènes et les dis ontinuités temporelles

5.3.2 Évaluation des masques

5.3.2.1 Erreurs de masque

Nous proposons, dans un premier temps, d'évaluer la qualité des masques estimés. Cette

évaluation onsiste à omparer les masques estimésave les masques ora les qui onstituent les

masquesderéféren es(exemptsd'erreurs).Nousdénissonsunea eptation ommelefait

d'éti-queterun oe ientspe tral ommeable.Inversement,unrejetestl'étiquetaged'un oe ient

spe tral omme manquant.

Vraie a eptation : une vraie a eptation traduit le fait d'étiqueter un oe ient spe tral

dominé par lesignal deparole ommeable.

Fausse a eptation : une fausse a eptation est un oe ient spe tral manquant étiqueté

ommeable.

Vrai rejet :un vrai rejet traduit lefait d'étiqueter un oe ient spe tral dominé par lebruit

ommemanquant.

Faux rejet :unfaux rejetest un oe ient spe tralable étiqueté omme manquant.

5.3.2.2 Résultats

Lagure5.2présentelestauxdevraiesa eptations,faussesa eptations,vraisrejetsetfaux

rejetspour ha un desquatreestimateursde masquessurl'ensemble desbases detest d'Aurora

Dans le document Contributions à la reconnaissance automatique de la parole avec données manquantes (Page 107-136)

5.4 Rédu tion des intervalles de marginalisation

5.4.3 Résultats

4∗7∗1001 =

28028

4∗ 7 ∗ 1001 = 28028

SN Rlocal

[0, ySN R−0]

[ySN R−0, y]

y

ySN R−0

y = ySN R−0

SN Rlocal

[−∞, +∞]

C0

[0, y_{SN R−0}]

[y_{SN R−0}, y]

y_{SN R−0}

y = y_{SN R−0}

SN R_local

C₀