Contributions à la reconnaissance automatique de la parole avec données manquantes ~ Association Francophone de la Communication Parlée

(1)

D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´ UFR STMIA

Contributions ` a la reconnaissance automatique de la parole avec donn´ ees

manquantes

TH` ESE

pr´esent´ee et soutenue publiquement le 8 novembre 2007 pour l’obtention du

Doctorat de l’universit´ e Henri Poincar´ e – Nancy 1

(sp´ ecialit´ e informatique) par

S´ ebastien Demange

Composition du jury

Rapporteurs :

^Laurent ^Milet

Professeur - ENSSAT- Lanion -Frane

Dirk Van Compernolle

Professeur - Université Catholiquede Louvain - Leuven -Belgique

Examinateurs :

^Jean-Paul ^Haton

Professeur - Université HenriPoinaré -Nany - Frane

Noureddine Ellouze

Professeur - ENIT- Tunis- Tunisie

Salvatore Tabbone

MCF (HDR) -Université deNany 2 - Nany- Frane

Christophe Cerisara

Chargé dereherhe CNRS-Nany - Frane

(2)

(3)

Une thèse est une étape inportante dans la vie de toute personne attirée par le monde de

lareherhe.Cette histoire estrihe denouvellesexpérienes,d'éhanges et de renontres.A e

titre,j'aimeraisremerierdenombreusespersonnespouravoirontribué,hauneàleurmanière,

à la rédation de e mémoire. J'adresse don mes remeriements les plushaleureux et les plus

sinères :

à Violaine, qui partage ma vie depuis plus de 10 ans et qui m'a toujours enouragé et

soutenuestrois annéesdurant.

à Jean-Paul Haton et Christophe Cerisara pour m'avoir mis le pied à l'étrier, suivi et

onseilléainsique pour leur grandedisponibilité etgentillesse.

auxautresmembresdemonjurydethèse,SalvatoreTabbone,NourredineEllouze,Laurent

MiletetDirkVan Compernolle.

à tousles membres de l'équipe PAROLE.

àtoute mafamilleetplus partiulièrement mesparents, monfrère ainsique Mihel,Gene

etAmandine.

àtousmesamisaveunepenséepluspartiulièrepourCaroline,Emmanuel, Slim,Joseph,

Romain,Gilles, Loï, etbiend'autres

(4)

(5)

Desparolesde doueur

Des momentsde bonheur

Desregards éhangés

Un zestede ompliité

Des étoilesdansles yeux

Lajoied'êtredeux

Maindans lamain

Suivre lemême hemin

Justelamagie de l'amour

Unebelleviepour toujours

(6)

(7)

Table des gures ix

Liste des tableaux xi

Introdution générale xiii

Chapitre 1

La reonnaissane automatique de la parole robuste au bruit

1.1 Reonnaissaneautomatique de laparole. . . 2

1.1.1 Le signalde laparole. . . 2

1.1.2 Paramétrisationdu signal . . . 3

1.1.3 Prinipe de lareonnaissane . . . 5

1.1.4 Le modèle deMarkov ahé . . . 9

1.2 Robustesse aubruit . . . 16

1.2.1 Le bruit . . . 16

1.2.2 Stratégies pour lareonnaissanerobuste de laparole . . . 18

1.3 Conlusion. . . 23

Chapitre 2 Reonnaissane automatique de la parole ave données manquantes 2.1 Masquageen reonnaissanede laparole . . . 27

2.1.1 Théorie gestaltiste :pereption etstruturationdu monde . . . 27

2.1.2 Le masquage danslapereption humaine de laparole . . . 28

2.2 Masquageen reonnaissaneautomatique dela parole . . . 29

2.2.1 Masque de donnéesmanquantes. . . 30

2.2.2 Masque orale. . . 33

2.3 Reonnaissanede laparole surdesobservations partielles . . . 33

2.3.1 Le problèmedes donnéesmanquantes . . . 33

2.3.2 Imputation desdonnées . . . 34

(8)

2.3.3 Marginalisationdesdonnées . . . 39

Chapitre 3 Estimation des masques : état de l'art 3.1 Introdution . . . 52

3.2 Analyseomputationnelle de sèneauditive . . . 53

3.2.1 Prinipesde base . . . 53

3.2.2 Brefsurvoldessystèmes CASA . . . 54

3.3 Traitement du signaletmodèles statistiques . . . 59

3.3.1 Séparationbasée surleSNR loal. . . 60

3.3.2 Réseauxde neurones . . . 62

3.3.3 Séparationde soures . . . 62

3.3.4 Modèles statistiques . . . 64

3.3.5 Masque ommeproduitde lareonnaissane. . . 66

3.4 Disussion . . . 67

Chapitre 4 Deux nouvelles approhes de modélisation des masques 4.1 Introdution . . . 72

4.2 Dépendanes temporelles etfréquentiellessur lesvaleursde masques . . . 74

4.2.1 Introdution. . . 74

4.2.2 Dépendanes fréquentielles. . . 74

4.2.3 Dépendanes temporelles . . . 78

4.2.4 Estimateurs demasques . . . 79

4.3 Une nouvelle aratérisation desmasquesde données manquantes . . . 81

4.3.1 Introdution. . . 81

4.3.2 Masque deontribution . . . 83

4.3.3 Masque deontribution etintervalle demarginalisation . . . 83

4.3.4 Gestion desoeientsde vitesse . . . 84

Chapitre 5 Évaluations 5.1 Introdution . . . 89

5.2 Cadre expérimental . . . 89

5.2.1 Lesbases dedonnées . . . 89

(9)

5.2.4 Paramétrisationpour lesmodèles de masques . . . 94

5.3 Dépendanes surles valeursdemasque . . . 94

5.3.1 Inuenedesdépendanes surles masques . . . 95

5.3.2 Évaluationdesmasques . . . 97

5.3.3 Évaluationde lareonnaissane . . . 99

5.3.4 Conlusion . . . 106

5.4 Rédution desintervallesde marginalisation . . . 107

5.4.1 L'erreur marginale auxmoindres arrée :MaMSE. . . 107

5.4.2 Interprétationde lamesureMaMSE . . . 108

5.4.3 Résultats . . . 110

5.4.4 Conlusion . . . 115

Chapitre 6 Conlusion générale 6.1 Cadre de notreétude . . . 118

6.2 Contributions . . . 119

6.2.1 Dépendanes surles masques . . . 119

6.2.2 Une nouvelle dénition demasques . . . 120

6.3 Perspetives . . . 122

Annexes Annexe A Rappel des onepts probabilistes pour la lassiation bayésienne A.1 Aspetprobabiliste . . . 125

A.1.1 Probabilité jointe . . . 125

A.1.2 Loimarginale . . . 126

A.1.3 Loi onditionnelle. . . 126

A.1.4 Règle deBayes . . . 127

A.2 Aspetdéisionnel . . . 127

A.2.1 Déisions etrèglesde déision . . . 127

A.2.2 Fontions deoût etderisque . . . 128

A.2.3 Le lassieurdu tauxd'erreur minimum . . . 129

Annexe B

Liste des publiations

(10)

Glossaire 133

Bibliographie 135

(11)

1.1 Représentation temporelle d'un signal de parole orrespondant à la séquene de

mots onethree nineoh.. . . 2

1.2 Fenêtre de Hammingh(n). . . 4

1.3 Représentation spetraled'unsignalde laparole orrespondantà laphrase :one three nineoh. . . 5

1.4 Bande ltresà éhelle Mel. . . 6

1.5 Représentation Melspetraled'un signalde parole. . . 6

1.6 HMMgauhe-droiteà3étatsusuellement utilisépourlamodélisationdephonèmes. 13 1.7 Illustration dela reonnaissanede laparole par l'algorithmede Viterbi. . . 15

1.8 Représentation spetrale d'un signalde parole orrompu par le bruit du métro à 5 dB. . . 17

1.9 Stratégies pour lareonnaissanerobuste de laparole. . . 19

1.10 Combinaisonparallèle dedeux modèles deMarkov. . . 21

2.1 Reonstrution d'unsignalinomplet par interpolation temporelle. . . 36

2.2 Évaluationde lamarginalisation de données . . . 47

2.3 Arbredelassiationdesalgorithmesdereonnaissaneautomatiquedelaparole en présenede donnéesmanquantes ouinertaines . . . 50

3.1 Prinipe de l'analysede sènevisuelle . . . 53

3.2 Représentation de typesynhrony strands,de Cooke. . . 56

3.3 Exemple d'arhiteture d'unsystème CASAmulti-agents:Ipanema . . . 58

3.4 Arhiteture dusystème d'estimation de masquebasé sur unréseau de neurones osillant proposépar Wang etBrown[Wang 99℄ . . . 59

3.5 Utilisation d'algorithmes de séparation de soures pour l'estimation de masques de donnéesmanquantes. . . 63

3.6 Reonnaissanede parolesonurrentes àpartir d'unHMMfatoriel . . . 66

3.7 Le déodeurmulti-soures de Barker . . . 68

4.1 Struturespetraledesmasquesdedonnéesmanquantesvs.enveloppeénergétique du signaldeparole. . . 75

(12)

4.2 Évaluationdunombredemasques élémentairesenfontionduseuildeouverture

α

^des^masques ôralesêt^du ^nombre^de ôeients^spetraux^surÂurora ² ^. ^. ^. ^. ⁷⁷

4.3 Détermination du nombre de masquesvetoriels élémentaires surAurora2 . . . . 78

4.4 Représentation des 4 estimateurs de masques dans le adre de l'évaluation des dépendanessur lesmasques. . . 80

4.5 Intervalles de marginalisation pour des masques fondés sur le seuillage du SNR loalà 0dB . . . 82

5.1 Impressionvisuellede l'eet desdépendanes temporelleset fréquentielles surles masques . . . 96

5.2 Évaluationdesdépendanes surlesmasques surlabase Aurora2 . . . 98

5.3 Erreursde reonnaissane. . . 100

5.4 Évaluationdesdépendanessurlesmasquesentauxdereonnaissanesurlabase Aurora2 . . . 101

5.5 Tauxdereonnaissaneobtenusàpartirdesmasquesoralesoriginauxetrestreints surAurora 2 . . . 103

5.6 Évaluation de la rédution de l'espae des masques dans le adre du problème oktailparty . . . 105

5.7 Évaluationde lamesureMaMSE . . . 109

5.8 Intervallesde marginalisation dérivésdesmasques de ontributions . . . 112

5.9 Intervallesde marginalisation dérivésdesmasques SNR-0 . . . 113

5.10 Comparaisondestaux dereonnaissane obtenus à partir desmasques orales de ontribution etSNR-0 surlabasede test Hiwire . . . 114

5.11 Comparaison destauxde reonnaissane obtenus àpartir des masques deontri- butionetSNR-0 estiméssurlabasede test Hiwire . . . 114

A.1 Loijointe

π(x, C _k )

^et^ses ^marginales ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ¹²⁷

(13)

1.1 Propriétés aratérisantes du bruit . . . 17

5.1 Nombre d'enregistrements et de louteurs par langue maternelle pour le orpus

Hiwire. . . 89

5.2 Composition en nombre d'enregistrement de labase Hiwire utiliséepour nos ex-

périenes. . . 90

5.3 Composition de la base de données Aurora 2. Le nombre d'enregistrements est

fournit pour haque ondition(bruit - SNR)desbases d'apprentissage etde test. 91

5.4 Évaluation de la ontribution des dépendanes sur les masques par les taux de

reonnaissane obtenus surAurora 2. . . 102

5.5 Évaluation de la rédution des intervalles de marginalisation sur la base Hiwire

par lamesureMaMSE . . . 110

(14)

(15)

Ouvre la porte, HAL!

-2001 : l'odyssée de l'espae -

Parler ave les mahines est une desvisions réurrentes de notre imagination olletive de l'in-

formatique du futur. Dès 1968 Stanley Kubrik avait imaginé et mis en sène un ordinateur

intelligent, appelé HAL, apable de raisonner, de rééhir mais ausside ommuniquer verbale-

ment.Pourtant,àetteépoque,latehnologienepermettaitdereonnaîtretoutauplusquelques

entainesdemotspardessystèmessimuléssurdegrosordinateurs.Quaranteansplustard,grâe

à l'avènement de l'informatique et aux eorts déployés, les systèmes de reonnaissane voale

sont devenus des produits de onsommation destinés à un très large publique. La reonnais-

sane voale est devenue une des tehnologies prépondérantes dans le développement d'inter-

faesHomme-Mahineavanées.Toutefois,malgrélesavanéestrès importantes deesdernières

années dans e domaine, les systèmes atuels sont enore en deçà des performanes de notre

systèmed'audition.Un desprinipauxobstales audéploiement dessystèmesdereonnaissane

voale estlarobustesseau bruit.Lesdiérenes entre lesonditions d'utilisation (généralement

bruitées) etd'apprentissage (absene de bruit) des modèles aoustiques provoquent une dégra-

dation signiative des taux de reonnaissane, même si es dégradations semblent minimes à

l'oreille.

La reonnaissane de la parole ave données manquantes est une approhe qui fut développée

dans le domaine de la vision [Ahmad 93 ℄ et transposée à la reonnaissane automatique de la

parole il y a près de 10 ans [Cooke 96, Cooke 97 , Cooke 01b℄. A la diérene des méthodes de

débruitage ou d'adaptation, la reonnaissane ave données manquantes utilise un masque. Ce

masque orrespond à l'identiation dans le signal observé (plus préisément dans le domaine

spetral 1

) desparamètres troporrompuspar lebruit pour fournir uneinformation exploitable

etpertinente aumoteurde reonnaissane.Ilestmontréqu'ilestplusjudiieuxd'ignorerdetels

paramètresdurantleproessusdedéodage.Cesparamètressontommunémentappelésdonnées

manquantes ou masquées. Une foises paramètres identiés, des algorithmes dereonnaissane

en présenededonnées manquantessont mis en÷uvre. Ces algorithmes peuvent êtredivisésen

1

domainedeparamétrisationrésultantd'uneanalysefréquentielledusignal.

(16)

deux familles. Les tehniques dites d'imputation [Raj 00 ℄ estiment la ontribution énergétique

du signaldelaparole pour lesparamètres masqués. Lesdonnéesmanquantes sont reonstruites

andefourniraudéodeurunensembleompletdeparamètres dérivant lesignalàreonnaître.

Les tehniques dites de marginalisation [Vizinho 99, Barker 01b, Morris01a ℄ reposent sur une

adaptation du moteur de reonnaissane pour que e dernier puisse reonnaître un signal de

parole à partir d'une représentation inomplète de elui-i. Plus préisément, la vraisemblane

desparamètres masquésetsubstituée par sonespéranealuléesurl'ensembledesvaleurspos-

sibles de es paramètres. De nombreux travaux ont montré que de telles stratégies permettent

d'améliorer onsidérablement les taux de reonnaissane. Lorsque les masques sont onnus a

priori (masques orales), 'est-à-dire lorsque les paramètres masqués sont lairement identiés

à partir des signaux de parole seule et du bruit, les taux de reonnaissane sont prohes de

eux obtenus en absene de bruit.Cependant es performanes représentent seulement les per-

formanes potentiellement atteignables. En pratique les masques de données manquantes sont

estimésàpartirdesseulesobservationsbruitéesetonstituentparonséquentuneapproximation

erronéedesmasquesorales.Lesdiérenteserreursd'identiation ommisesparlesestimateurs

de masques setraduisent par une hute desperformanes illustrant lerle de premier plan des

masques. L'estimation des masques onstitue don un problème entral en reonnaissane au-

tomatiquedelaparoleavedonnéesmanquantesfaisant l'objetdenombreusespubliationsdans

e domaine.

Nostravauxseplaent dansleontextede l'estimationdemasques àpartir de modèlesstohas-

tiques.Cetteapprohefutinitiéeàl'universitédeCarnegieMellonparl'équipedeRihardStern.

Lespubliations[Seltzer 00,Raj 00 ,Kim05,Kim06℄dontellefaitl'objetmontrentqu'ilestpos-

sibled'apprendredesmodèlesdemasquesetlesrésultatsreportéssonttrèsenourageants.Notre

première ontribution onerne la dénitionde es modèles. L'estimateur bayésien proposé par

SeltzeretRajRamakrishnanlassie haqueoeient spetraldusignalobservéommeable

ou manquant de manière indépendante. En d'autres termes, lemasque d'unoeient spetral

partiuliernedépendpasdesmasquesdesoeientsdesonvoisinage. Pourtantnousmontrons

qu'une similitude existe entre la struture des masques et l'enveloppe énergétique du signal de

paroledansledomainespetral.Lesoeientsdefaible énergiesontplussensiblesaubruitque

les oeients de forte énergie etsont don plus souvent masqués. L'enveloppe énergétique du

signal de parole étant très struturée, noussupposons que les masques de données manquantes

lesontdelamêmemanière.Aetégardnousproposonsdenouvellesarhiteturesd'estimateurs

bayésiens dans le but de restituer ette struture. Des erreurs de masque loales peuvent ainsi

être évitéesen onsidérant un masquedanssaglobalité (lemasqued'unphrase par exemple)et

non plusommeune omposition d'entités(masques àl'éhelle du oeient)indépendantes.

La mise en ÷uvre d'un algorithme de déodage de la parole sur des observations partielles re-

(17)

aoustique est le plus souvent déterminée à partir du SNR . Tout oeient spetral dont le

SNR est inférieur à un seuil prédéterminé est onsidéré ommemanquant. Dans le adre de la

marginalisation dedonnées, laprise en ompte deette dénition de masque apermis d'aner

l'algorithme de déodage, notament en proposant des intervalles de marginalisation spéiques

auxdonnées manquantes etables.Ces intervallessont plusns queeux initialement proposés

permettant un gainsigniatif en terme de taux de reonnaissane. Nous proposons dansette

optique unenouvelle dénition demasque etmontrons omment l'exploiter danslebut demin-

imiser les intervalles de marginalisation.

Le premierhapitre onstitue une rapide introdution à la reonnaissane robuste de la parole.

Nousprésentonsdansunpremiertemps lesprinipesgénérauxdelareonnaissaneautomatique

de laparole et relatons diérentes stratégies de déodage usuellement utilisées. Nousdérivons

plus partiulièrement lemodèlede Markovahé ainsi quesamiseen ÷uvrepuisquee modèle

s'est imposé omme modèle de référene dans la ommunauté du traitement des langues nota-

ment pour sa apaité à modéliser un signal à évolution temporelle tel le signal de parole. Les

systèmes de reonnaissane de la parole atuelsexploitent pour la plupart e modèle. Dans un

seondtempsnousadressonsleproblèmedelarobustesseaubruit.Nousmettonsenévideneles

prinipalestehniquespermettant d'améliorerlarobustessedessystèmes.Celles-iinterviennent

à desétapes distintes du proessus de reonnaissane allant de laparamétrisation du signalà

l'algorithme dedéodage.

La reonnaissanede laparoleave donnéesmanquantes estprésentéeauhapitre 2.Nousrela-

tons destravaux montrant quenotre systèmeauditif seomporte de manière séletive vis-à-vis

desdiérentsstimuliqu'iltraite.L'oreillehumaineestapablededistinguerlesdiérentsateurs

d'unesèneauditiveetpeutparunproessusdemasquagesefoalisersurunesouresonorepar-

tiulière.Cesétudesnemontrentpasommentnousséletionnonslesportionsd'intérêtdusignal

maismontrentquenoussommesapablesdereonnaîtredelaparoleàpartird'unereprésentation

parellaire du signalaoustique. Nousdénissons ensuite les notions de donnéesmanquantes et

de masquededonnées manquantes dansleadredelareonnaissaneautomatiquede laparole.

Les diérents algorithmes d'imputations et de marginalisation sont dérits. Nous onluons e

hapitrepar uneévaluationomparativede3tehniquesdemarginalisationmettant enévidene

lefortpotentieldelareonnaissanedelaparole ave donnéesmanquantes maisaussilerlede

premier planquejouent les masques.

L'estimation de masques de données manquantes onstitue aujourd'hui un enjeu important et

motive de nombreux travaux. Nous proposons au troisième hapitre un état de l'art de et axe

dereherhe.Lesprinipalesapprohesproposéesdanslalittératuresontprésentéesaveomme

seulelimitationl'usaged'ununiquemirophonepourl'aquisitiondusignal.Cetravailprospetif

2

Rapportsignalsurbruit.Cettemesurepermetdequantierledegrédeorruptiondusignal.

(18)

n'est paslimitéauseul adreappliatifqueonstitue lareonnaissanede laparolemaisouvre

également des domaines onnexes omme la séparation aveugle de soures, l'analyse omputa-

tionnelle de sène auditive ou enore la détetion de parole utile. Nous avons hoisi de lasser

estravauxen deuxatégories:d'unepartlesméthodess'inspirant dufontionnement denotre

appareilauditif,etd'autre part,lesméthodesorientéestraitementdusignal. L'objetifn'est pas

d'opposer es deux approhes. Au ontraire, de réents travaux, le déodeur multi-soures de

Barker[Barker06 ℄parexemple,montrent lebénéede ombinerdesoneptsissusdeesdeux

approhes.

Nous proposons au hapitre 4 deux nouvelles modélisations des masques. La première a pour

objetif la modélisation desdépendanes existantes entre les valeurs de masque des oeients

spetraux.Nousmotivonsetteapproheenmettantenévidenelessimilitudesentrel'enveloppe

énergétiquedusignaldeparoleetlastruturedesmasquesdansledomainespetral.Nousdénis-

sons deuxtypes de dépendane : lesdépendanes temporelles etles dépendanes fréquentielles.

Nous dérivons omment es dépendanes peuvent être prise en ompte pendant le proessus

d'estimation demasque, etnousproposonsdenouveauxmodèles stohastiquesdemasquesinté-

grant individuellement ouonjointement esdépendanes.Nousproposons ensuiteune nouvelle

dénition de masque permettant, dans leadre de la marginalisation de données, d'aner l'al-

gorithme de déodage. Cette nouvelle dénition de masque permet de réduire les intervalles de

marginalisation omparativement auxintervalles dérivésdes masques fondéssur le seuillagedu

SNR lassiquement utilisés.

Ces propositions sont évaluées au hapitre 5. Une omparaison des masques générés par nos

estimateursavelesmasquesoralesestprésentéeanderendreomptedeleurqualitéenterme

d'identiation des données masquées. Nous présentons également une étude qualitative des

masques résultant denospropositions enles omparant auxmasques obtenus àpartir d'estima-

teurde référenequenousdénirons. L'objetif ahé de nostravauxestd'améliorer laqualité

des masques ainsi que leur prise en ompte par le moteur de reonnaissane. Nous présentons

dansette optique une évaluationomparative desrésultats de reonnaissaneobtenus à partir

de nos propositions sur diérentes bases de données par rapport aux taux de reonnaissane

obtenus ave lessystèmes de référene.

(19)

La reonnaissane automatique de la

parole robuste au bruit

J'entendsta voix dans tous les bruits du monde.

-Paul Eluard -

Sommaire

1.1 Reonnaissane automatique de la parole . . . 2

1.1.1 Lesignaldelaparole . . . 2

1.1.2 Paramétrisationdusignal . . . 3

1.1.2.1 Représentationsparamétriquesdusignaldelaparole . . . 3

1.1.2.2 Lespetrogramme . . . 4

1.1.3 Prinipedelareonnaissane . . . 5

1.1.3.1 Reonnaissaneàbased'exemples . . . 6

1.1.3.2 Classiationprobabiliste . . . 7

1.1.3.3 Surfaesdedéisionet fontionsdisriminantes. . . 7

1.1.3.4 Modèleshybrides . . . 9

1.1.4 LemodèledeMarkovahé . . . 9

1.1.4.1 Dénition d'unHMM . . . 10

1.1.4.2 Miseen÷uvre . . . 11

1.1.4.3 LimitationdesHMM . . . 16

1.2 Robustesse aubruit . . . 16

1.2.1 Lebruit . . . 16

1.2.2 Stratégiespourlareonnaissanerobuste delaparole . . . 18

1.2.2.1 Paramétrisationrobustedusignal . . . 18

1.2.2.2 Débruitagedusignal. . . 19

1.2.2.3 Adaptationdesmodèlesaoustiques . . . 20

1.2.2.4 Modiationdel'algorithmededéodage . . . 22

1.3 Conlusion . . . 23

(20)

Cehapitreprésenteleproblèmedelareonnaissaneautomatiquedelaparole(RAP). Nous

aratérisons dans un premier temps le signal aoustique de la parole. Nous évoquons ensuite

le prinipe général de la RAP et en partiulier l'approhe bayésienne qui est la plus répandue.

Nous détaillons un modèle bayésien partiulier :le modèle de Markov ahé (HMM : Hidden

Markov Model). Ce modèle fournit de très bons taux de reonnaissane en ondition d'utilisa-

tion maîtrisée. Cependant es performanes sont loin d'êtreaussibonnes lorsque les onditions

d'utilisation se dégradent. Cette diérene de performane due aux onditions d'expérimenta-

tion relève de la robustesseau bruit du système de reonnaissane. Nous exposons les grandes

approhesde reonnaissanerobuste de laparole.Plusieurs ouvrages traitent dee problème et

plus généralement delareonnaissane de laparole[Boite 00,Mariani 02 , Haton06 ℄.

1.1 Reonnaissane automatique de la parole

1.1.1 Le signal de la parole

Le signalde parole estune onde aoustiquemoduléepar l'appareil phonatoireen fréquene

et en amplitude. Cette onde est généralement présentée sous la forme d'une ourbe (Fig. 1.1)

représentant les variationsd'amplitude dusignal auours dutemps.

- 6

one three nine oh

Temps Amplitude

Fig. 1.1 Représentation temporelle d'un signal de parole orrespondant à la séquene de mots

one three nine oh.

Lesignaldeparoleestuneonaténationderéalisationsaoustiquesélémentaires.Cesréalisations

sont plusonnuessouslenomdephonèmes. Unphonèmeestune entité abstraite dénieomme

la plus petite unité aoustique. Chaque langue peut être alors aratérisée par un ensemble de

phonèmesquionstituentenquelquesortelesbriquesaoustiquesélémentairesàpartirdesquelles

lessyllabes,lesmotsetlesphrasessontonstruits.Toutsignaldelaparolepeutalorsêtreexprimé

ommeunesuessiondephonèmes.Cesignalvéhiuleunensembled'informationstrèsdiverses:

lemessagequeveutfairepasserlelouteur,sonhumeur,sonidentité,et.Lesignalàreonnaître

fait,dansunpremier,l'objetd'unprétraitement,appeléparamétrisation,onsistantàextrairede

(21)

1.1.2 Paramétrisation du signal

1.1.2.1 Représentations paramétriques du signal de la parole

Lerled'unmoduledeparamétrisationdusignalestdefourniretd'extrairedesinformations

aratéristiquesetpertinentesdusignal.Cesinformationssontrestituéessouslaformed'unesuite

disrète de veteurs, appelés veteurs aoustiques ou veteurs d'observations. Chaque veteur

ontient unnombre nide paramètres représentant les aratéristiquesd'un segment dusignal.

La onaténation de es veteurs fournit une représentation disrète etparamétrique du signal

à traiter [d'allessandro 92 ℄. La onversion du signal en séquene de veteurs d'observations est

régie par unmodèle paramétriquearatérisantle point devue souslequellesignalest observé.

La paramétrisation onsiste à estimer les paramètres de e modèle. Ces modèles peuvent être

lassés en quatrefamilles:

Les modèles artiulatoires

Ilspermettentd'extrairelesinformationsrégissantleméanismedephonation.Cetteparamétri-

sation s'appuiesurunformalisme issudelaméaniquedesuidespuisquel'ondeaoustiqueque

nous produisonsen parlant résulte de lairulation d'un uxd'air au travers du onduit voal

onstitué d'artiulateurs. Les paramètres extraits odent laposition desdiérents artiulateurs

(position deslèvres,ouverture de labouhe, protusion, position delalangue, et).

Les modèles de prodution

Ils permettent deréaliserune simulationde l'équivalentéletrique de l'appareilphonatoire. Ces

modèles sont une simpliation (ou approximation) desmodèles artiulatoires. On trouve dans

ette atégorie,les odagesLPC (Linear Predition Coding)etAR (AutoRegressive oding).

Les modèles phénoménologiques

Ces modèles tentent de modéliser le signal indépendamment de la façon dont il a été produit.

Les modèles basés sur l'analyse de Fourier en sont un exemple. Ils proposent des représen-

tations du signal basées sur une analyse fréquentielle de elui-i. Parmi les paramétrisations

dérivées de es modèles, nous détaillerons dans le paragraphe suivant la paramétrisation spe-

trale. Cette paramétrisation présente l'avantage de fournir une représentation temps-fréquene

(spetrogramme)dusignalpourlaquellelesénergiesdesdiérentssignauxonstituant unesène

auditive peuvent être onsidéréesommeadditives.

Les modèles d'audition

Cesmodèlestententdemettreàprotlesonnaissanesaquisessurlapereptiondessonsetsur

lefontionnementdenotresystèmeauditifand'améliorerlarobustessedesmodèlespréédents.

Par exemple l'introdution de onnaissanes issues de la psyhoaoustique dans l'estimation

(22)

des modèles AR ou spetraux a onduit respetivement aux analyses PLP (Pereptual Linear

Predition) etMFCC (Mel Frequeny CepstralCoeient).

1.1.2.2 Le spetrogramme

Le signal de la parole étant variable au ours du temps, l'extration des veteurs d'obser-

vation est généralement faite sur des fenêtres d'analyse temporelles de faible durée (de l'ordre

de quelques dizaines de milliseondes), de telle sorte que le signalpuisse être onsidéré omme

stationnairesurhauned'elles.Denombreusesfenêtresont étéétudiéesentraitement dusignal

(Hamming,Hanning, Kaiser,et).La fenêtrelaplusutiliséeenreonnaissanedelaparole estla

fenêtre de Hamming, illustréepar lagure1.2 etdéniepar l'équation :

h(n) =

( 0.54 − 0.46 cos(2π _N ⁿ ₋₁ )

^si

0 ≤ n ≤ N − 1 0

^sinon

où

N

^est ^la ^taille ^de ^la ^fenêtre ^en ^nombre d'éhantillons du signal. Par ailleurs, un ltre de préaentuationtrèssimpleestsouventappliquéausignalpourrenforerlessonsaigus,toujours

plus faiblesen énergiequelessons graves.

0 0.2 0.4 0.6 0.8 1

0 10 20 30 40

h(n)

n

Fig.1.2 Fenêtre de Hammingh(n).

Une représentation spetrale d'un signal aoustique est une onaténation de spetres à ourt

terme. Un spetre à ourt terme, appelé également spetre instantané, est le résultat de la

transforméede Fourier sur une fenêtre d'analysetelle lafenêtre de Hamming. Dans leas d'un

signal disret, ommeelui de laparole une foiséhantillonnée, lespetre àourt terme

S N (f )

peut s'érirepour une fenêtre

h(.)

^entrée^sur

m

^:

S N (f) =

n=N X

n=0

s m (n) h(n − m) e ^{−i2πf n}

La onaténation des spetres à ourt terme suessifs obtenus par glissement de la fenêtre

d'analyse forme un spetrogramme qui représente l'évolution dans le plan temps-fréquene de

(23)

de réduire les disontinuités, les fenêtres d'analyse suessives se reouvrent en partie (le plus

souvent demoitié) etsont aplaties à leurs extrémités.

Temps Fréquene

- 6

Fig.1.3Représentationspetraled'unsignaldelaparoleorrespondantàla phrase :onethree

nine oh.

Des études pereptives ont montré que notre oreille possède une meilleure résolution pour les

sons debasses fréquenesquepour lessons dehautes fréquene. Aet égard,le spetrogramme

obtenu par latransformation de Fourier à ourt termeest, en reonnaissanede laparole, sou-

ventperçuommeunensembledesignauxtemporelsontenantunepartiedel'informationsurle

signalvoaldanshaunedesbandesdefréquenes d'unbande ltres.Lesfréquenes entrales

desltressont déterminéesdemanièreàrestituerlarésolution fréquentiellede notreoreille.Les

deux prinipaleséhellespereptivessont les éhellesBark etMel.

UnBarkorrespondàlalargeurd'unebanderitique,quiroîtproportionnellementàsafréquene

entrale. Cetteéhelle orrespondau faitquel'oreille possèdeune bonnerésolution spetraleen

bassesfréquenes etmédioreen hautes fréquenes.

B ark = 13 Arctg 0.76 F Hz

100 !

+ 3.5 Arctg F Hz

7500

! 2

L'éhelle Mel est linéaire jusqu'à 100 Hz et logarithmique au-delà. Une expression analytique

possible estlasuivante[O'Shaugnessy 00℄:

M _{M el} = 2595 log ₁₀ 1 + F _Hz 700

!

La plupart des systèmes atuels de reonnaissane de la parole fondent leur analyse sur ette

éhelle. La gure1.4représente un ban deltres àéhelle Mel.

Legroupementdesénergiesdesspetresàourttermebaséesurl'éhelleMelfournitunereprésen-

tation Melspetrale dusignal, illustrée parlagure 1.5.

1.1.3 Prinipe de la reonnaissane

Considérons une séquene de veteurs d'observations

O

orrespondant à la prononiation d'une séquene de mots

W

^. ^Le ^prinipe ^même ^de ^la ^RAP ^est ^de ^parvenir ^à ^déterminer

W

^à

(24)

Fig.1.4 Ban de ltres à éhelle Mel.

Fig.1.5Représentation Mel spetrale d'unsignalparole.Chaque trameest exprimée ii par 32

oeients Mel spetraux.

partir des observations

O

^. ^T^rois ^stratégies ^de reonnaissane peuvent être envisagées plus une quatrièmerésultante de laombinaison despremières.

1. La reonnaissaneà based'exemples

2. La reonnaissaneprobabiliste

3. La reonnaissanepar surfaesde déision etfontionsdisriminantes

4. L'hybridation de modèles

Nousproposons dansleparagraphe suivant un brefsurvoldees approhes.

1.1.3.1 Reonnaissane à base d'exemples

Cetteapprohe est laplus intuitive. Elle repose surl'idée qu'une même lasse regroupe des

objetsdeformessimilaires.Deette façon,ilestpossibleàpartird'unemétriquejudiieusement

hoisie de mesurer la similitude entre deux formes. La reonnaissane d'une forme inonnue

revient à omparer ette forme ave les formes représentatives des diérentes lasses. La om-

paraison de deux formes s'appuie sur des méthodes de omparaison élastique, fondées sur la

programmation dynamiqueetfournissantune solutionoptimale aurealagetemporel néessaire

à e type de lassiation. Cette approhe fut une des premières proposées dans le adre de

(25)

Elle fut étendue par la suite an de reonnaître des séquenes ontinues de mots [Sakoe 79 ℄ et

plus réemment à de la parole ontinue [Wahter 07℄. Les résultats publiés dans [Wahter 07℄

montrent que ette approhe peut rivaliser ave les meilleurs systèmes atuels. Cependant la

reonnaissane à base d'exemples reste très oûteuse en temps et en mémoire ar la forme à

reonnaître doit êtreomparée àtousles exemplesontenus danslabase desréférenes.

1.1.3.2 Classiation probabiliste

Cette atégorie de lassiation se base sur la onnaissane des distributions des diérents

paramètres de haquelasse. Considéronsun objet

X

^devant ^être ^lassé^dans^une ^des

K

^lasses

C _k

^pour ^lesquelles ^un ^modèle paramétrique est disponible. La meilleure lasse

C ^⋆

^est ^elle ^qui

minimise lerisque bayésien

R(C i | X)

^:

C ^⋆ = arg min

C i

R(C _i | X)

R(C i | X) = X K

k=1

L(C i , C k ).P (C k | X)

L(C i , C _k )

^est^le ^risque ^de ^mauvaise lassiation, ou enore le oûtoasionné par la fait d'assigner la lasse

C k

^à

X

^sahant ^que

X

^appartient ^à ^la ^lasse

C i

^.

P(C k | X)

^est ^la probabilité a posteriori del'appartenane de

X

^à

C k

^.

Pour desdistributions de probabilités

P (X | C i )

^onnues ^(modèles paramétriquesdeslasses

C i

^),

la règle de Bayes est optimale dans le sens où auune autre règle ne donnera un risque plus

faible. Considérant le as d'un risque binaire, 'est à dire assignant un oût de 1 à toute mau-

vaise lassiation et un oût de 0 à toute lassiation juste, minimiser le risque bayésien est

équivalentàassignerà

X

^la^lasse^pour^laquelle

X

^a^la^plus^forteprobabilitéd'appartenir(ritère du Maximuma posteriori :MAP) :

Aeter à

X

^la ^lasse

C _i

^si ^:

P (C i | X) > P (C j | X) ∀ j 6 = i

P (X | C i ).P (C i ) > P (X | C j ).P (C j ) ∀ j 6 = i

^(1.1)

Une desription plus détaillée de e formalisme est présentée en annexe A.2. En général, les

probabilités a priori

P (C i )

^de ^haque ^lasse ^ne ^sont ^pasônnues êt ^doivent ^don ^être êstimées

à partird'unebased'apprentissage.Lesmodèles deMarkovahés,dérits auparagraphe 1.1.4,

s'appuient sure formalisme.

1.1.3.3 Surfaes de déision et fontions disriminantes.

Lesparamètres

o

^d'objetsappartenantàunemêmelassesont,s'ilssontbienhoisis,loalisés dansune région homogène de l'espae desparamètres. La lassiation par surfaes de déision

(26)

oufontionsdisriminantesreposesurunpartitionnement del'espae desparamètresen régions

mutuellement exlusives;haquerégion del'espae orrespondant auxréalisationspossiblesdes

paramètres d'une même lasse. Une région assoiée àla lasse

C k

êst ^don âratérisée ^par ûne

fontion disriminante

g k (o)

^tel ^que^:

g k (o) > g j (o) ∀ o ∈ C k

^et

∀ j 6 = k

Siles fontionsdisriminantes sont desfontionslinéaires desparamètres, alors les régionssont

séparées linéairement par des hyperplans. En pratique e as est rare et les surfaes de déi-

sion sont approhées en onsidérant que elles-i sont linéaires par moreaux. Cette famille de

méthodesde lassiation regroupe entreautres :

Le pereptron

Le pereptron est un réseau de neurones formels entrant dans la atégorie des modèles neu-

romimétiques. Il produit une lassiation par fontion linéaire dans le as où il est onstitué

d'une seule ouhe de neurones [Rosenblatt 62℄. Cependant la fontion disriminante peut être

omplexiée par adjontion deouhes.

Un neurone formel est une représentation mathématique d'un neurone biologique. Les ations

exitatries et inhibitries des synapses sont représentées, la plupart du temps, par des oe-

ientsnumériquesassoiéesauxentrées.Lesvaleursnumériquessont ajustéesautomatiquedans

une phase d'apprentissage. Dans saversionla plussimple, un neurone formelalule lasomme

pondérée desesentrées,puisappliqueàettevaleurunefontiond'ativation, généralementnon

linéaire.Lavaleurnaleobtenue estlasortieduneurone.Individuellement,lesneuronesformels

alulent des fontions linéaires mais leur mise en réseau permet de simuler des fontions très

omplexes.

La mahine à veteursupport (SVM)

Une mahine à veteur support (SVM en anglais pour Support Vetor Mahine) onsiste à

séparerdeux ensemblesde pointspar unhyperplan.L'idée originale desMVS aété publiée par

VladimirVapnik[Vapnik 82 ,Vapnik 98℄.Elleestbaséesurl'utilisationdefontionsditesnoyaux

quipermettent uneséparation optimale (sans problèmed'optimum loal)despointsde l'espae

en diérentes lasses. Le prinipe est de projeter l'espae desparamètres surun espae de plus

grande dimension à l'aide de la fontion noyau de manière à pouvoir séparer linéairement les

pointsexprimés dans e nouvelespae. Les SVM ont été développésinitialement dans leadre

d'unelassiation bi-lasses, maisdesextensionsmulti-lasses ont étéproposées, ommelaM-

SVM[Guermeur05 ℄.LesSVMontétéintroduites réemmentpourlareonnaissanedelaparole

et ont donné des résultats prometteurs, notament pour l'identiation du louteur [Wan05b ,

Wan 07 ℄,lareonnaissanedeformesaoustiques[Wan05a ,Bernal-Chaves 05,Sharenborg06 ℄,

la détetion de mots-lés [Aye 02 , Keshet07℄ ainsi quepour la oneption de modèles hybrides

(27)

Les arbres de déision

Les arbres de déision [Breiman84 ℄ également appelés arbres de lassiation sont également

des lassieurs non linéaires par surfaes séparatries. Le prinipe est de déterminer la lasse

d'appartenane d'une forme par une suite detests surses paramètres. Un arbre de déision est

ainsiformé d'unensemblede n÷udsinternes ontenant destestsetpardesfeuilles représentant

haquelasse.L'identiationdelalassed'uneformeestdonnéeparunhemindepuislaraine

de l'arbre jusqu'à une feuille. Plusieurs progiiels d'arbres de déision tels CART ou C4.5 sont

disponiblesetont étéutilisésen reonnaissane delaparole.

1.1.3.4 Modèles hybrides

Les modèles de lassiation probabiliste et en partiulier les HMM ompte parmi les dif-

férentesapprohesdelassiationlesplusutilisésenreonnaissanedelaparole.L'intérêtqu'ils

susitent provient non seulement du fait qu'ils donnent de bonnes performanes mais aussi du

fait qu'ils sont partiulièrement bien adaptés au traitement de données à évolution temporelle.

Cependant, ilssont peudisriminantsenraison d'unapprentissage ditaumaximum devraisem-

blane (voirparagraphe 1.1.4.2).Certesilexistedesméthodesd'apprentissagedisriminantmais

l'apprentissage au maximum de vraisemblane reste le standard. Par onséquent des systèmes

hybridesont étéproposés,ombinant desHMMave desmodèles disriminants.

Parmi es hybridations, nous pouvons iter des modèles ombinant HMM et réseaux de neu-

rones. Detels modèles utilisent un réseau de neurones omme préproesseur [Lazli02℄ ou post-

proesseur[Guo 93℄d'unHMM.Danslepremierasun pereptronestentraîné pourapprendre

les probabilités a posteriori des lasses phonétiques

P(S i | O)

^,

S i

^étant ^un ^état ^d'un^HMM ^et

O

unveteur d'observations.LaformuledeBayespermetàpartirde esprobabilités dealulerla

vraisemblane desobservations. Ces vraisemblanes sont alors utilisées enlieu et plae deelles

initialement alulées par les modèles à mélangede gaussiennesutilisés par unHMM lassique.

Dans le deuxième as, toutes les hypothèsesde reonnaissane (ou seulement les

N

meilleures) alulées par le HMM sont mises en entrée du réseau. Le réseau distinguera alors, parmi es

hypothèses, lameilleured'entreelles.

Une autre hybridation onsiste à ombiner un HMM ave une SVM [Ganapathiraju 00℄. Une

telle hybridation présente également l'avantage de ombiner la apaité des HMM à modéliser

dessériestemporellesetlepouvoirdisriminant desSVM.Cesystèmehybridepossèdelamême

arhiteture que le système de Lazli et Sellami [Lazli 02℄ mais le réseau de neurones alulant

P (S i | O)

^est^remplaé ^par ^une ^SVM.

1.1.4 Le modèle de Markov ahé

Les modèles de Markov ahés (HMM : Hidden Markov Model) ont été dérits pour la

première fois dans une série de publiations de statistique par Leonard E. Baum [Baum70,

(28)

Baum 72 ℄. Ce n'est qu'en 1975 qu'ils ont été proposés dans le adre de la reonnaissane au-

tomatique de la parole [Baker75a, Baker75b℄ et se sont imposés depuis omme modèles de

référenedanse domaine.Nousproposonsdanslesparagraphessuivantsde dénirequ'estun

HMMetdedériresamisen÷uvredansleadredelareonnaissaneautomatiquedelaparole.

1.1.4.1 Dénition d'un HMM

UnHMMestunaspartiulierdesmodèlesstohastiquesgraphiques,etpeutêtrevuomme

un automateprobabiliste. Il estgénéralement aratérisé par unquadruplet

(S, Π, A, B)

^:

S = { S ₀ , . . . , S i , . . . , S k }

^est^l'ensemble ^des^états ^del'automate.

Π = { π ₀ , . . . , π _i , . . . , π _k }

^,^ave

π _i

^étant ^laprobabilité que

S _i

^soit ^l'état ^initial.

A est l'ensemble des probabilités de transition d'un état vers un autre. A est aratérisé

parunematrie

k ∗ k

^d'éléments

a _ij

^ave

i et j ∈ [0, k]

^et

k

^le^nombre^d'états.^T^out ^élément

a ij

^de ^ette ^matrie ^est ^la probabilité d'atteindre l'état

S j

^au ^temps

t

^sahant ^que ^nous

étionsdansl'état

S i

^au ^temps

t − 1

^.

Bestun ensemble de loisdeprobabilité

b _i (o)

^donnant ^laprobabilité

P (o | S _i )

^que^l'état

S _i

aitgénérél'observation

o

^.^Cetteprobabilitéestlavraisemblanedel'observationauregard de

S i

^.

Un HMMétant un automateprobabiliste, les ontraintes suivantes doivent être respetées:

1. La sommedesprobabilités desétats initiauxdoitêtre égale à1 :

X

i

π i = 1

2. La sommedesprobabilités destransitionssortant d'unétat doitêtre égaleà 1 :

∀ i X

j

a _ij = 1

3. La sommedesprobabilités desémissions d'unétatdoit êtreégale à1 :

∀ i X

o

b i (o) = 1

^dans^le^as d'observations disrètes.

∀ i Z

o

b i (o) do = 1

^dans^le^as d'observations ontinues.

UnHMMreprésente unobjetpardeuxsuitesdevariablesaléatoires:l'unediteahée etl'autre

observable. La suite observable orrespond à lasuite d'observations

o 1 , o 2 , . . . , o T

^où ^les

o i

^sont

des veteurs d'observations du signal à reonnaître. La suite ahée orrespond à une suite

d'états

q ₁ , q ₂ , . . . , q _T

^, ^où ^les

q _i

^puisent ^leurs ^valeurs ^parmi ^l'ensemble ^des

N

^états ^du ^modèle

{ S 1 , S 2 , . . . , S N }

^. ^La ^suite ôbservable êst ^dénie ômme ûne réalisation partiulière de la suite

(29)

de laséquened'observations

O = (o ₁ , o ₂ , . . . , o T )

^.^Le ^meilleur^hemin

Q ^⋆

^est^elui ^qui^maximise

la probabilité a posteriori

P (Q | O)

^(ritère ^du ^maximum â ^posteriori ^: Êq. ^1.1). Ên êet, ên

dérivant etteprobabilité a posteriori par larègle de Bayes,il vient :

Q ^⋆ = arg max

Q P (Q | O)

= arg max

Q

P (O | Q) P(Q) P (O) P (O)

^étant ^onstant ^pour ^tout

Q

^:

Q ^⋆ = arg max

Q P (O | Q) P(Q)

^(1.2)

UnHMMprésenteplusieursavantages:ils'insritdansunformalismemathématiquebienétabli,

ilbénéiedeméthodesd'apprentissageautomatiquedessesparamètresetilestpartiulièrement

bien adaptéà lamodélisationde proessusàévolution temporelle.

1.1.4.2 Mise en ÷uvre

Lamiseen÷uvred'unsystèmedereonnaissane delaparole àpartir deHMMnéessitede

formulerquelqueshypothèsessimpliatriesdanslebutd'adapter leadrethéorique desHMM

àlaRAPmaisaussid'ensimplierleformalismemathématiqueetainsiproposerdesalgorithmes

d'apprentissageetdelassiationoptimauxsouseshypothèses.Unefoiseshypothèsesposées,

troispointsimportantssont àonsidérer pourlareonnaissane delaparole àpartir de HMM:

1. La topologie du modèle :

Comment dénir le nombre d'états du modèle? Quelles transitions entre les états sont

permises?quellesloisdeprobabilitéutiliserpourmodéliser ladistributiondesparamètres

de haqueétat?

2. L'apprentissage des paramètres :

Étant donnéunensemblede

J

^séquenes d'observations

O _j

représentant haunelamême entitéaoustiqueetdonassoiéesaumême HMM

M j

^,^omment ^hoisir^les^paramètres

Λ j

de

M _j

^an ^de^maximiser^laprobabilité que

M _j

^engendre ^la^suite d'observations

O _j

^?

3. Le déodage :

Étant donnée une séquene d'observations

O

^, êt ûn ênsemble ^de ^HMM, ^quelle êst ^la

séquene demodèles qui maximise laprobabilité de généré

O

^?

Nousdérivonsdanslesparagraphessuivantlamanièredontespointssonttraitésdansleadre

de lareonnaissane automatiquede laparole.

Hypothèses simpliatries

Soit

O = (o 1 , o 2 , . . . , o T )

^une ^suite ^de

T

observations. Soit

Q = (q 1 , q 2 , . . . , q T )

^une ^séquene

d'états alignée ave la suite d'observations; au temps

t

^le ^HMM ^est ^dans ^l'état

q t

^engendrant

(30)

l'observation

o t

^.

Hypothèse n1

La probabilité qu'une observation

o t

^soit ^émise ^au ^temps

t

^ne ^dépend ^pas ^des observations antérieures.

P (o t | q t , q _t−1 . . . , q ₁ , o _t−1 , o _t−2 , . . . , o ₁ ) = P (o t | q t , q _t−1 , . . . , q ₁ )

^(1.3)

Hypothèse n2

La probabilitéqu'une observationsoit émise autemps

t

^ne^dépend ^pas^des^états préédemment visités,maisseulement del'état ourant.

P (o t | q t , q _t−1 , . . . , q ₁ ) = P(o t | q t )

^(1.4)

Hypothèse n3

La probabilitéqueleHMM soitdansl'état

q t

^à^l'instant

t

^ne^dépend ^que^de^l'état^dans^lequel^il

setrouvait à l'instant

t − 1

^.

P (q _t | q _t−1 , q _t−2 , . . . , q ₁ ) = P(q _t | q _t−1 )

^(1.5)

UnmodèlerespetantettedernièrehypothèseestappelémodèledeMarkovdupremierordrepar

oppositionauxmodèlesd'ordre

N

^.^Un^modèle^d'ordre

N

^est^un^modèle^pour^lequel^laprobabilité de setrouverdansunétat

q t

^estonditionnée par lasuited'états

q t−1 , q t−2 , . . . , q t ₋ N

^.^Un^HMM

duseondordreaétémisaupoint[Gong 94 ℄.Lesrésultatsobtenus enreonnaissanedehires

ontmontré unelégèreamélioration par rapport auxmodèlesdu premierordre. Cependant ette

amélioration se fait au détriment d'une omplexiation arue du modèle e qui limite son

intérêt.

Topologie du modèle

Lenombred'étatsd'unHMMdépenddel'entitéaoustiquequ'ilmodélise.L'entitélaplusrépan-

dueestlephonème,maisilestpossibledeonsidérerdesentitésplusgrandes(supra-phonétique),

ommelasyllabeoulemot.Cependant onstruireunsystèmepossédantunmodèlepour haque

motd'unelanguen'estpasenvisageablepourdesraisonsdetempsetd'espaedealulmaisaussi

pour desraisonsde tailledelabased'apprentissage devant ontenir susamment d'exemplesde

haquemotpourobtenir desmodèles ables.Une tellemodélisationestalors inonevablepour

dessystèmesgrandvoabulairepermettant dereonnaître plusieursdizainesde milliers demots

diérents. Néanmoins sous ertaines ontraintes omme l'utilisation d'un voabulaire restreint

ette modélisationpeuts'avéreravantageuse notament pour lamodélisationdesphénomènesde

o-artiulation.

Un phonème est généralement déomposé en 3 parties :un début, une partie stable et une n.

Une topologie à 3 états est par onséquent utilisée. Le seond état orrespondant à la partie

(31)

les eetsde lao-artiulation, 'estàdirelestransitionsentrephonèmes.Ceux-iorrespondent

don auxpartiesinstablesduphonèmearellessont inuenéespar leontextegauhe et droit.

Danslebutderestituerl'évolutiontemporelledusignaldelaparoleunetopologiegauhe-droite

est adoptée dans la grande majorité des as. Cei veut dire qu'auun retour en arrière n'est

possible.

π ₁ = 1 a ₁₂ a ₂₃ a ₃₄

a ₁₁ a ₂₂ a ₃₃

b ₁ (o) b ₂ (o) b ₃ (o)

S ₁ S ₂ S ₃

Fig. 1.6 HMM gauhe-droite à 3 états usuellement utilisé pour la modélisation de phonèmes.

Les lois de probabilité

b i (o)

fournissant les probabiltés qu'une observation

o

^ait ^été ^générée ^par

un état

S _i

^sont^modélisées ^par ^des ^modèles ^à ^mélange ^degaussiennes (GMM).

Chaqueétat

S i

^d'un^HMM^renvoie^pour^uneobservation

o

^laprobabilitéque

o

^ait^été^générée^par

S _i

^. ^Le^alul^de ^ette probabilitéappelée également vraisemblane de l'observations'appuie sur une fontion de densité de probabilités

b i (0)

^. ^Cette ^fontion

b i (0)

^est ^un ^modèle paramétrique de l'ensemble des observations pouvant être générées par l'état

S i

^. ^La ^plupart ^des ^systèmes

s'appuient des densités de probabilités ontinues modélisée par un mélange de lois normales

(distributiongaussiennedesobservations).Lavraisemblaned'uneobservation

o

^est^don^donnée

par :

b i (o) =

N λ

X

j=1

λ j N (o; µ j , Σ j )

^(1.6)

ave

N (o; µ j , Σ j ) = 1

p (2π) ^M | Σ j | exp

− 1

2 (o − µ j ) ^′ Σ ⁻¹ _j (o − µ j )

(1.7)

N λ

^est^le^nombre ^de gaussiennes,

λ j

^est^le^poids^le^la

j

^ième gaussienne,

µ j

^et

Σ j

^sont ^respetive-

ment leveteur moyen etla matrie de ovariane de la

j

^ième ^gaussienne ^et

M

^la^dimension ^du

veteur d'observations. La gure 1.6 présente un HMM gauhe-droite à 3 états utilisé pour la

modélisation dephonèmes.

(32)

Apprentissage

Considérons un ensemble de HMM

M j

êt ûn ênsemble ^de

T

^observ^ations

O j

^. ^Apprendre ^les

paramètres des HMM revient à herher le meilleur ensemble de paramètres

Λ ^⋆ _j = (µ ^⋆ _j , Σ ^⋆ _j )

tel que la probabilité que

O j

^ait ^été ^générée ^par

M j

^soit ^maximale ^(ritère ^du ^maximum ^de

vraisemblane).

Λ ^⋆ _j = arg max

Λ j

Y T

t=1

P (O j (t) | M j , Λ j )

^(1.8)

Idéalement, 'est

P (M j | O j , Λ j )

^qui ^devrait ^être ^maximisée. L'apprentissage serait alors plus disriminant :lorsquela vraisemblane dumodèle

j

^augmente ^pour ^les ^exemplesorrespondant aumodèle

j

^,^lesvraisemblanesdesautresmodèlesdevraientdiminuerpouresmêmesexemples.

LesHMMdevraient donêtreentraînés, nonseulementpourmaximiserlaprobabilitédegénérer

les exemples de sapropre lasse, mais aussipour les disriminer par rapport aux autres lasses

(ritèredumaximumaposteriori).Parequ'iln'existepasdeméthodepermettantdemaximiser

diretement

P (O _j | M _j , Λ _j )

^,^les^paramètres^des^modèles^sont^obtenus^en^maximisant^l'équation^1.8

par laméthodeitérativedeBaum etWelh[Baum72℄, quiestunaspartiulierdel'algorithme

EM(ExpetationMaximisation) [Dempster77℄.

Déodage

LedéodagedelaparolepardesmodèlesHMMrevientàdéterminerlameilleureséquened'états

Q ^⋆ = (q ^⋆ ₁ , q ^⋆ ₂ , . . . , q _T ^⋆ )

^pouvant ^engendrer ^la^séquened'observations

O = (o ₁ , o ₂ , . . . , o _T )

^:

Q ^⋆ = arg max

Q P(O | Q)

= arg max

Q π ₀ Y T

t=1

a q t −1 q t .b q t (o t )

^(1.9)

Une solution naïve estde aluler laprobabilité

P (O | Q)

^de^toutes ^les^séquenes ^d'états

Q

^pos-

sibles et de ne retenir que la meilleure. Cei peut se faire en onstruisant un arbre. A haque

temps

t

ûneôuhe ^de^n÷uds înternes êstâjoutée^à^l'arbre. ^Chaque^n÷udînterne^représenteûn

état partiulier des modèles etontient la probabilité de se trouver dans et état à l'instant

t

^.

Lesprobabilités desdiérenteshypothèsesde reonnaissane sont ontenuesdansles feuilles de

etarbre. Cependant une tellesolution esten pratique inappliablear lenombred'hypothèses

est trèsgrand.

L'algorithme deViterbi,variante stohastiquedelaprogrammationdynamique,proposedesim-

plier l'arbre au fur et à mesure de sa onstrution. En eet, lors de son déroulement on se

trouverapidement ave desbranhesproposant lesmêmessubstitutions,maisave desprobabil-

ités diérentes. Plusieurs hypothèses peuvent seretrouver dansle même état au même instant.

L'algorithmedeViterbistipulequ'iln'est pasnéessairededéroulerleshypothèsesdeplusfaible

(33)

- o 1 o 2 o 3 o 4 o 5 o 6 o 7 o 8 o 9 o 10 o 11 o 12 o 13 o 14 o 15

|i|

|s|

|i| |s| |i|

ii

Fig. 1.7 Illustration de la reonnaissane de la parole par l'algorithme de Viterbi. La phrase

reonnue orrespond à l'hypothèse dereonnaissane (ouhemin) ayant la plusforte probabilité

dans letreillisdeshypothèses.Pouretexemplela meilleurehypothèseorrespondàla suession

de phonèmes |i||s| |i|qui est la transription phonétique du mot ii.

Lamiseen÷uvredeetalgorithmeonsisteàonstruiredefaçon itérativelameilleureséquene

d'états à partir d'un tableau

T ∗ N

^(T ^: ^nombre d'observations, N : nombre d'états total des modèles)appelétreillisdes hypothèses oùhaundesn÷uds

(t, i)

^ontient^lavraisemblane

δ _i (o _t )

dumeilleurheminpassantparl'état

i

^à^l'instant

t

^.^La vraisemblane

δ i (o T )

^du^meilleur^hemin

qui nità l'état

i

^au ^temps

T

êst âlors âlulée^par ^réurrene ^:

1. Initialisation :

δ i (o 1 ) = π i

2. Réursion :pour setrouverdansl'état

i

^à^l'instant

t

^,^le^proessus^markovien ^se^trouvait

forémentdansunétat

j

^à^l'instant

t − 1

^pour^lequel^une^transition^vers^l'état

i

^est^possible^:

a ji > 0

^.^D'après^le^priniped'optimalitédeBellman,

δ i (o t ) = max j

δ j (o _t−1 ) . a ji

. b i (o t )

^.

3. Terminaison:Lavraisemblanedesobservations orrespondant àlameilleure hypothèse

est obtenue en reherhant l'état

i

^qui^maximise ^la ^v^aleur

δ i (o T )

^à ^la^dernière observation

o T

^:

P (O | Q ^⋆ ) = max

i

δ _i (o _T )

(34)

Unereprésentationvisuelle tivedel'algorithmede Viterbiestprésentépar lagure1.7.Cette

gure montre un treillis des hypothèses onstruit pour une séquene de 15 observations. Seule-

ment deux modèles sont représentés ii; deux HMM gauhe-droite à 3 états modélisant les

phonèmes |i|et |s|. Le meilleur hemin (en vert) orrespond à la séquene de phonèmes :|i| |s|

|i|. Cetteséqueneest latransription phonétiquedu motii.

1.1.4.3 Limitation des HMM

L'utilisationdes HMM en reonnaissane automatique de la parole repose surplusieurs hy-

pothèses simpliatries. Celles-i sont,ertes, néessaires,mais ellesonstituent également des

pointsfaiblesdesHMM.

La modélisationde laduréedesphonèmes n'est qu'impliitement ontenue autraversdesprob-

abilités de transitions entre les états. Une modélisation expliite de elle-i a ependant été

proposéeave suès[Russel 85 ,Levinson 86℄.

L'hypothèse d'indépendane onditionnelle des observations (équation 1.3) est irréaliste. Une

solutioneae etlargementrépandue onsisteàprendreenompte lesdérivéespremières

∆

^et

seondes

∆∆

^desparamètres.Unedeuxièmesolutionestdemodéliserexpliitementlaorrélation entreles veteursd'observations suessifs [Russell93 ,Gales 93b ℄.

1.2 Robustesse au bruit

Malgrédenombreuxeorts dereherhe entrepris depuisplusieurs années, larobustessedes

systèmes de reonnaissane de la parole au bruit reste problématique, e qui explique proba-

blement en grande partie leurdiusion et utilisation très limitée. Ce paragraphe dénit les dif-

férentstypesdebruitetrésumebrièvementlesgrandesfamillesd'approhequiont étéproposées

jusqu'alorspour résoudree problème derobustesse.

1.2.1 Le bruit

L'objetif d'un système de reonnaissane est de retransrire e qu'a prononé un louteur

partiulier. Nous onsidérons omme bruit toute distorsion du signal ou tout signal provenant

d'uneautre souresonore quelelouteur prinipal.Ondistingue deuxtypesde bruits.Le bruit

onvolutif, onséquenede ladistorsion dusignalinhérent à l'aquisition par unmirophone de

mauvaise qualité,ou induite par les aratéristiques du anal de transmission ommeles lignes

téléphoniques etlebruit additif orrespondant àune pollution sonore issued'autressoures.

Le bruitest très pénalisant pour lareonnaissane. Eneet les modèlesaoustiques sont appris

surdesorpusenregistrésenonditionsmaîtrisées,'est-à-direexemptsdebruit.Ilsnereprésen-

tent don quelesaratéristiques dusignal delaparole.Ces modèles ne sont alors plusdutout

(35)

Nous neonsidérons par lasuite que lesbruitsadditifs.

Un bruit peutêtre aratérisé par diérentes propriétés (TAB.1.1). Laonnaissane de es pro-

priétés dubruit permet d'adopterune stratégie robuste adaptée.

Propriétés Attributs de lapropriété

struture temporelle ontinu / impulsif/périodique

stationnarité stationnaire/ non-stationnaire

struturespetrale large-bande /onnéen bande

dépendane ave laparole orrélé /déorrélé

spatialisation ohérent / inohérent ave la sourede laparole

harmoniité harmonique / inharmonique

Tab. 1.1Propriétés aratérisantes du bruit (adapté de[Glotin 01℄).

Une des situations les moins pénalisantes en reonnaissane est de traiter un signal pollué par

un bruit ontinu,stationnaire, déorrélédu signalde laparole etinharmonique;un bruit blan

gaussien par exemple. Une situation beauoup plus pénalisante est de reonnaître un signalde

paroleparmid'autressignauxdeparole.Unetelleinterféreneestonnuesouslenomdeoktail

party. Lagure 1.8illustrel'altération d'unspetrogramme de parolepar du bruit.

Fig. 1.8 Haut : Représentation spetrale d'un signal de la parole orrespondant à la phrase :

one three nine oh. Bas:Le même signal,mais orrompupar lebruit du métro à 5 dB.

Ilestpossibledequantierleniveaudebruitdansunephrase.Lebruitestmesuréparlerapport

signal surbruit(SNR:Signal-to-Noise Ratioen anglais).Le SNR s'exprime endéibels(dB) :

SN R = 10 log ₁₀ S

N

(36)

où

S

^et

N

^sont respetivement les énergies du signal de laparole et du bruit. Il est possible de aluler leSNR àdiérents niveaux degranularité. Onpeutdon distinguer :

1. SNR global :Le rapport est alulé en fontion des énergies totales sur la phrase de la

parole etdubruit.La quantité de bruit estalors quantiée par une seule valeur.

2. SNRsegmental:Lerapportestalulésurdessegmentstemporelsbiendénisdusignal.

Le bruit estalors quantié pour haun dessegments.

3. SNR segmental temporel et fréquentiel : Le alul de e rapport est identique que

pourle préédent, ependant lealulesteetuépour haque bande de fréquene.

4. SNR loal : Pour haque oeient du plan temps-fréquene (spetrogramme) un SNR

estalulé. C'est lagranularité laplusne, maisaussilaplus déliate àestimer.

1.2.2 Stratégies pour la reonnaissane robuste de la parole

Plusieurs stratégiesrobustes de reonnaissanede la parole ont été proposées.Lesprinipes

sous-jaentssontsouventsemblables,maislepointdevuediérentadoptélorsdelaoneptionde

haqueméthodeaboutitàdeshypothèsessimpliatriesdiérentesetdondesimplémentations

diérentes. Ces tehniques peuvent être lasséesen 4atégories (FIG.1.9) :

Paramétrisation robuste du signal : extraire du signal des paramètres représentatifs de la

parole possédant une sensibilitéau bruitréduite.

Débruitage du signal :éliminerou réduirel'inuene dubruit surlesignalà reonnaître

Adaptation des modèles aoustiques :adapter les modèles aoustiques de manière à min-

imiser l'inuene dubruit.

Modiation de l'algorithme de déodage :modier l'algorithme de déodage pour pren-

dre en ompte les diérenes entre le onditions d'apprentissage (parole seule) et de test

(parole+bruit).

Ces diérentes familles de stratégies sont dérites dans les paragraphes suivants. Pour haune

d'entre ellesnousproposons uneliste nonexhaustive deméthodes.

1.2.2.1 Paramétrisation robuste du signal

Une première approhe en reonnaissane robuste de la parole onsiste à extrairedu signal

uniquement des paramètres pertinents pour le déodage phonétique et à réduire au maximum

l'inuene des autres soures. Parmi les paramétrisations robustes nous avons déjà ité (para-

graphe1.1.2) lesméthodesMFCC etPLP.

Les ampagnes d'évaluation Aurora [Peare 00 ℄ de la reonnaissane de la parole robuste ont

permis la oneption d'un algorithme de paramétrisation standardisé par l'organisme ETSI

[ETSI ES202 050,03℄ . Cet algorithme est onnu sous le nom de paramétrisation WI008, ou

enore ETSI AFE (ETSI Advaned Front End). Les résultats obtenus par ette méthode de

(37)

Base

d'apprentissage

Base

detest

Paramétrisation Paramétrisation

Modèles

Aoustiques

Transription Moteur

de reonnaissane

Débruitage

Adaptation Paramétrisation

Robuste

Modiation

Fig. 1.9 Stratégies pour la reonnaissane robuste de la parole.

1.2.2.2 Débruitage du signal

Le prinipe des méthodes de débruitage est de réduire les diérenes entre les onditions

d'apprentissage etde test.Cesméthodess'appuient surdestehniquesde ltrageplus oumoins

omplexes quitentent de supprimer ou deréduirel'inuene du bruitsur lesignalde laparole.

Soustration spetrale

La ombinaison dessignauxde parole etdebruit est linéairedans ledomaine temporel :

y(t) = x(t) + n(t)

où

y(t)

^,

x(t)

^et

n(t)

représentent respetivement l'amplitude de la parole bruitée, de la parole seule etdubruitseulàl'instant

t

^.^Cette^relationd'additivitéesttoujoursvalidedansledomaine spetraletpréservéelorsdupassagedanslespetredepuissaneàuntermededéphasage

cos(Φ)

près.

| Y (τ ) | = | X(τ ) | + | N (τ ) | . cos(Φ)

Cependant ilest montré, par diversesonsidérations, quee termepeutêtre supposéprohe de

1 etdon :

| Y (τ ) | = | X(τ ) | + | N (τ ) |

La soustrationspetraleproposede alulerune estimée dubruitsurdesportionsdusignalne

ontenant pas de parole. Sous l'hypothèse que le bruit soit stationnaire, l'estimée du bruit est

soustraite duspetre depuissane du signalbruité.

Contributions à la reconnaissance automatique de la parole avec données manquantes ~ Association Francophone de la Communication Parlée

D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´ UFR STMIA

Contributions ` a la reconnaissance automatique de la parole avec donn´ ees

manquantes

TH` ESE

pr´esent´ee et soutenue publiquement le 8 novembre 2007 pour l’obtention du

Doctorat de l’universit´ e Henri Poincar´ e – Nancy 1

(sp´ ecialit´ e informatique) par

S´ ebastien Demange

Composition du jury

Rapporteurs :

Examinateurs :

α

π(x, C k )

- 6

h(n) =

( 0.54 − 0.46 cos(2π N n −1 )

0 ≤ n ≤ N − 1 0

N

0 0.2 0.4 0.6 0.8 1

0 10 20 30 40

h(n)

n

S N (f )

h(.)

m

S N (f) =

n=N X

n=0

s m (n) h(n − m) e −i2πf n

- 6

B ark = 13 Arctg 0.76 F Hz

100

!

+ 3.5 Arctg F Hz

7500

! 2

M M el = 2595 log 10 1 + F Hz 700

!

O

W

W

O

X

K

C k

C ⋆

R(C i | X)

C ⋆ = arg min

C i

R(C i | X)

R(C i | X) = X K

k=1

L(C i , C k ).P (C k | X)

L(C i , C k )

C k

X

X

C i

P(C k | X)

X

C k

P (X | C i )

C i

X

X

X

C i

P (C i | X) > P (C j | X) ∀ j 6 = i

P (X | C i ).P (C i ) > P (X | C j ).P (C j ) ∀ j 6 = i

P (C i )

o

C k

g k (o)

g k (o) > g j (o) ∀ o ∈ C k

∀ j 6 = k

P(S i | O)

S i

O

N

π(x, C _k )

( 0.54 − 0.46 cos(2π _N ⁿ ₋₁ )

s m (n) h(n − m) e ^{−i2πf n}

M _{M el} = 2595 log ₁₀ 1 + F _Hz 700

C _k

C ^⋆

C ^⋆ = arg min

R(C _i | X)

L(C i , C _k )

C _i

S = { S ₀ , . . . , S i , . . . , S k }

Π = { π ₀ , . . . , π _i , . . . , π _k }

π _i

S _i

a _ij

b _i (o)

P (o | S _i )

S _i

a _ij = 1

q ₁ , q ₂ , . . . , q _T

q _i

O = (o ₁ , o ₂ , . . . , o T )

Q ^⋆

Q ^⋆ = arg max

Q ^⋆ = arg max

O _j

M _j

M _j

O _j

P (o t | q t , q _t−1 . . . , q ₁ , o _t−1 , o _t−2 , . . . , o ₁ ) = P (o t | q t , q _t−1 , . . . , q ₁ )

P (o t | q t , q _t−1 , . . . , q ₁ ) = P(o t | q t )