Contributions à la reconnaissance automatique de la parole avec données manquantes

(1)

HAL Id: tel-01748268

https://tel.archives-ouvertes.fr/tel-01748268v3

Submitted on 5 Feb 2008

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Contributions à la reconnaissance automatique de la

parole avec données manquantes

Sébastien Demange

To cite this version:

Sébastien Demange. Contributions à la reconnaissance automatique de la parole avec données

man-quantes. Acoustique [physics.class-ph]. Université Henri Poincaré - Nancy 1, 2007. Français.

�tel-01748268v3�

(2)

D´

epartement de formation doctorale en informatique

Ecole doctorale IAEM Lorraine

´

UFR STMIA

Contributions `

a la reconnaissance

automatique de la parole avec donn´

ees

manquantes

TH`

ESE

pr´esent´ee et soutenue publiquement le 8 novembre 2007

pour l’obtention du

Doctorat de l’universit´

e Henri Poincar´

e – Nancy 1

(sp´

ecialit´

e informatique)

par

S´

ebastien Demange

Composition du jury

Rapporteurs :

Laurent Mi let

Professeur - ENSSAT- Lanion -Fran e

Dirk Van Compernolle

Professeur - Université Catholiquede Louvain - Leuven -Belgique

Examinateurs :

Jean-Paul Haton

Professeur - Université HenriPoin aré -Nan y - Fran e

Noureddine Ellouze

Professeur - ENIT- Tunis- Tunisie

Salvatore Tabbone

MCF (HDR) -Université deNan y 2 - Nan y- Fran e

Christophe Cerisara

(3)

(4)

Une thèse est une étape inportante dans la vie de toute personne attirée par le monde de

lare her he.Cette histoire estri he denouvellesexpérien es,d'é hanges et de ren ontres.A e

titre,j'aimeraisremer ierdenombreusespersonnespouravoir ontribué, ha uneàleurmanière,

à la réda tion de e mémoire. J'adresse don mes remer iements les plus haleureux et les plus

sin ères :

à Violaine, qui partage ma vie depuis plus de 10 ans et qui m'a toujours en ouragé et

soutenu estrois annéesdurant.

à Jean-Paul Haton et Christophe Cerisara pour m'avoir mis le pied à l'étrier, suivi et

onseilléainsique pour leur grandedisponibilité etgentillesse.

auxautresmembresdemonjurydethèse,SalvatoreTabbone,NourredineEllouze,Laurent

Mi letetDirkVan Compernolle.

à tousles membres de l'équipe PAROLE.

àtoute mafamilleetplus parti ulièrement mesparents, monfrère ainsique Mi hel,Gene

etAmandine.

àtousmesamisave unepenséeplusparti ulièrepourCaroline,Emmanuel, Slim,Joseph,

(5)

(6)

Desparolesde dou eur

Des momentsde bonheur

Desregards é hangés

Un zestede ompli ité

Des étoilesdansles yeux

Lajoied'êtredeux

Maindans lamain

Suivre lemême hemin

Justelamagie de l'amour

(7)

(8)

Table des gures ix

Liste des tableaux xi

Introdu tion générale xiii

Chapitre 1

La re onnaissan e automatique de la parole robuste au bruit

1.1 Re onnaissan eautomatique de laparole. . . 2

1.1.1 Le signalde laparole. . . 2

1.1.2 Paramétrisationdu signal . . . 3

1.1.3 Prin ipe de lare onnaissan e . . . 5

1.1.4 Le modèle deMarkov a hé . . . 9

1.2 Robustesse aubruit . . . 16

1.2.1 Le bruit . . . 16

1.2.2 Stratégies pour lare onnaissan erobuste de laparole . . . 18

1.3 Con lusion. . . 23

Chapitre 2 Re onnaissan e automatique de la parole ave données manquantes 2.1 Masquageen re onnaissan ede laparole . . . 27

2.1.1 Théorie gestaltiste :per eption etstru turationdu monde . . . 27

2.1.2 Le masquage danslaper eption humaine de laparole . . . 28

2.2 Masquageen re onnaissan eautomatique dela parole . . . 29

2.2.1 Masque de donnéesmanquantes. . . 30

2.2.2 Masque ora le. . . 33

2.3 Re onnaissan ede laparole surdesobservations partielles . . . 33

2.3.1 Le problèmedes donnéesmanquantes . . . 33

(9)

2.3.3 Marginalisationdesdonnées . . . 39

Chapitre 3 Estimation des masques : état de l'art 3.1 Introdu tion . . . 52

3.2 Analyse omputationnelle de s èneauditive . . . 53

3.2.1 Prin ipesde base . . . 53

3.2.2 Brefsurvoldessystèmes CASA . . . 54

3.3 Traitement du signaletmodèles statistiques . . . 59

3.3.1 Séparationbasée surleSNR lo al. . . 60

3.3.2 Réseauxde neurones . . . 62

3.3.3 Séparationde sour es . . . 62

3.3.4 Modèles statistiques . . . 64

3.3.5 Masque ommeproduitde lare onnaissan e. . . 66

3.4 Dis ussion . . . 67

Chapitre 4 Deux nouvelles appro hes de modélisation des masques 4.1 Introdu tion . . . 72

4.2 Dépendan es temporelles etfréquentiellessur lesvaleursde masques . . . 74

4.2.1 Introdu tion. . . 74

4.2.2 Dépendan es fréquentielles. . . 74

4.2.3 Dépendan es temporelles . . . 78

4.2.4 Estimateurs demasques . . . 79

4.3 Une nouvelle ara térisation desmasquesde données manquantes . . . 81

4.3.1 Introdu tion. . . 81

4.3.2 Masque de ontribution . . . 83

4.3.3 Masque de ontribution etintervalle demarginalisation . . . 83

4.3.4 Gestion des oe ientsde vitesse . . . 84

Chapitre 5 Évaluations 5.1 Introdu tion . . . 89

5.2 Cadre expérimental . . . 89

5.2.1 Lesbases dedonnées . . . 89

(10)

5.2.4 Paramétrisationpour lesmodèles de masques . . . 94

5.3 Dépendan es surles valeursdemasque . . . 94

5.3.1 Inuen edesdépendan es surles masques . . . 95

5.3.2 Évaluationdesmasques . . . 97

5.3.3 Évaluationde lare onnaissan e . . . 99

5.3.4 Con lusion . . . 106

5.4 Rédu tion desintervallesde marginalisation . . . 107

5.4.1 L'erreur marginale auxmoindres arrée :MaMSE. . . 107

5.4.2 Interprétationde lamesureMaMSE . . . 108

5.4.3 Résultats . . . 110

5.4.4 Con lusion . . . 115

Chapitre 6 Con lusion générale 6.1 Cadre de notreétude . . . 118

6.2 Contributions . . . 119

6.2.1 Dépendan es surles masques . . . 119

6.2.2 Une nouvelle dénition demasques . . . 120

6.3 Perspe tives . . . 122

Annexes Annexe A Rappel des on epts probabilistes pour la lassi ation bayésienne A.1 Aspe tprobabiliste . . . 125

A.1.1 Probabilité jointe . . . 125

A.1.2 Loimarginale . . . 126

A.1.3 Loi onditionnelle. . . 126

A.1.4 Règle deBayes . . . 127

A.2 Aspe tdé isionnel . . . 127

A.2.1 Dé isions etrèglesde dé ision . . . 127

A.2.2 Fon tions de oût etderisque . . . 128

A.2.3 Le lassieurdu tauxd'erreur minimum . . . 129

Annexe B

(11)

Glossaire 133

(12)

1.1 Représentation temporelle d'un signal de parole orrespondant à la séquen e de

mots onethree nineoh.. . . 2

1.2 Fenêtre de Hammingh(n). . . 4

1.3 Représentation spe traled'unsignalde laparole orrespondantà laphrase :one three nineoh. . . 5

1.4 Ban de ltresà é helle Mel. . . 6

1.5 Représentation Melspe traled'un signalde parole. . . 6

1.6 HMMgau he-droiteà3étatsusuellement utilisépourlamodélisationdephonèmes. 13 1.7 Illustration dela re onnaissan ede laparole par l'algorithmede Viterbi. . . 15

1.8 Représentation spe trale d'un signalde parole orrompu par le bruit du métro à 5 dB. . . 17

1.9 Stratégies pour lare onnaissan erobuste de laparole. . . 19

1.10 Combinaisonparallèle dedeux modèles deMarkov. . . 21

2.1 Re onstru tion d'unsignalin omplet par interpolation temporelle. . . 36

2.2 Évaluationde lamarginalisation de données . . . 47

2.3 Arbrede lassi ationdesalgorithmesdere onnaissan eautomatiquedelaparole en présen ede donnéesmanquantes ouin ertaines . . . 50

3.1 Prin ipe de l'analysede s ènevisuelle . . . 53

3.2 Représentation de typesyn hrony strands,de Cooke. . . 56

3.3 Exemple d'ar hite ture d'unsystème CASAmulti-agents:Ipanema . . . 58

3.4 Ar hite ture dusystème d'estimation de masquebasé sur unréseau de neurones os illant proposépar Wang etBrown[Wang 99℄ . . . 59

3.5 Utilisation d'algorithmes de séparation de sour es pour l'estimation de masques de donnéesmanquantes. . . 63

3.6 Re onnaissan ede paroles on urrentes àpartir d'unHMMfa toriel . . . 66

3.7 Le dé odeurmulti-sour es de Barker . . . 68

4.1 Stru turespe traledesmasquesdedonnéesmanquantesvs.enveloppeénergétique du signaldeparole. . . 75

(13)

4.2 Évaluationdunombredemasques élémentairesenfon tionduseuilde ouverture

α

desmasques ora lesetdu nombrede oe ientsspe trauxsurAurora 2 . . . . 77

4.3 Détermination du nombre de masquesve toriels élémentaires surAurora2 . . . . 78

4.4 Représentation des 4 estimateurs de masques dans le adre de l'évaluation des dépendan essur lesmasques. . . 80

4.5 Intervalles de marginalisation pour des masques fondés sur le seuillage du SNR lo alà 0dB . . . 82

5.1 Impressionvisuellede l'eet desdépendan es temporelleset fréquentielles surles masques . . . 96

5.2 Évaluationdesdépendan es surlesmasques surlabase Aurora2 . . . 98

5.3 Erreursde re onnaissan e. . . 100

5.4 Évaluationdesdépendan essurlesmasquesentauxdere onnaissan esurlabase Aurora2 . . . 101

5.5 Tauxdere onnaissan eobtenusàpartirdesmasquesora lesoriginauxetrestreints surAurora 2 . . . 103

5.6 Évaluation de la rédu tion de l'espa e des masques dans le adre du problème o ktailparty . . . 105

5.7 Évaluationde lamesureMaMSE . . . 109

5.8 Intervallesde marginalisation dérivésdesmasques de ontributions . . . 112

5.9 Intervallesde marginalisation dérivésdesmasques SNR-0 . . . 113

5.10 Comparaisondestaux dere onnaissan e obtenus à partir desmasques ora les de ontribution etSNR-0 surlabasede test Hiwire . . . 114

5.11 Comparaison destauxde re onnaissan e obtenus àpartir des masques de ontri-butionetSNR-0 estiméssurlabasede test Hiwire . . . 114

(14)

1.1 Propriétés ara térisantes du bruit . . . 17

5.1 Nombre d'enregistrements et de lo uteurs par langue maternelle pour le orpus

Hiwire. . . 89

5.2 Composition en nombre d'enregistrement de labase Hiwire utiliséepour nos

ex-périen es. . . 90

5.3 Composition de la base de données Aurora 2. Le nombre d'enregistrements est

fournit pour haque ondition(bruit - SNR)desbases d'apprentissage etde test. 91

5.4 Évaluation de la ontribution des dépendan es sur les masques par les taux de

re onnaissan e obtenus surAurora 2. . . 102

5.5 Évaluation de la rédu tion des intervalles de marginalisation sur la base Hiwire

(15)

(16)

Ouvre la porte, HAL!

-2001 : l'odyssée de l'espa e

-Parler ave les ma hines est une desvisions ré urrentes de notre imagination olle tive de

l'in-formatique du futur. Dès 1968 Stanley Kubri k avait imaginé et mis en s ène un ordinateur

intelligent, appelé HAL, apable de raisonner, de réé hir mais ausside ommuniquer

verbale-ment.Pourtant,à etteépoque,late hnologienepermettaitdere onnaîtretoutauplusquelques

entainesdemotspardessystèmessimuléssurdegrosordinateurs.Quaranteansplustard,grâ e

à l'avènement de l'informatique et aux eorts déployés, les systèmes de re onnaissan e vo ale

sont devenus des produits de onsommation destinés à un très large publique. La

re onnais-san e vo ale est devenue une des te hnologies prépondérantes dans le développement

d'inter-fa esHomme-Ma hineavan ées.Toutefois,malgrélesavan éestrès importantes de esdernières

années dans e domaine, les systèmes a tuels sont en ore en deçà des performan es de notre

systèmed'audition.Un desprin ipauxobsta les audéploiement dessystèmesdere onnaissan e

vo ale estlarobustesseau bruit.Lesdiéren es entre les onditions d'utilisation (généralement

bruitées) etd'apprentissage (absen e de bruit) des modèles a oustiques provoquent une

dégra-dation signi ative des taux de re onnaissan e, même si es dégradations semblent minimes à

l'oreille.

La re onnaissan e de la parole ave données manquantes est une appro he qui fut développée

dans le domaine de la vision [Ahmad 93 ℄ et transposée à la re onnaissan e automatique de la

parole il y a près de 10 ans [Cooke 96, Cooke 97 , Cooke 01b℄. A la diéren e des méthodes de

débruitage ou d'adaptation, la re onnaissan e ave données manquantes utilise un masque. Ce

masque orrespond à l'identi ation dans le signal observé (plus pré isément dans le domaine

spe tral 1

) desparamètres trop orrompuspar lebruit pour fournir uneinformation exploitable

etpertinente aumoteurde re onnaissan e.Ilestmontréqu'ilestplusjudi ieuxd'ignorerdetels

paramètresdurantlepro essusdedé odage.Cesparamètressont ommunémentappelésdonnées

manquantes ou masquées. Une fois es paramètres identiés, des algorithmes dere onnaissan e

en présen ededonnées manquantessont mis en÷uvre. Ces algorithmes peuvent êtredivisésen

1

(17)

deux familles. Les te hniques dites d'imputation [Raj 00 ℄ estiment la ontribution énergétique

du signaldelaparole pour lesparamètres masqués. Lesdonnéesmanquantes sont re onstruites

andefourniraudé odeurunensemble ompletdeparamètres dé rivant lesignalàre onnaître.

Les te hniques dites de marginalisation [Vizinho 99, Barker 01b, Morris01a ℄ reposent sur une

adaptation du moteur de re onnaissan e pour que e dernier puisse re onnaître un signal de

parole à partir d'une représentation in omplète de elui- i. Plus pré isément, la vraisemblan e

desparamètres masquésetsubstituée par sonespéran e al uléesurl'ensembledesvaleurs

pos-sibles de es paramètres. De nombreux travaux ont montré que de telles stratégies permettent

d'améliorer onsidérablement les taux de re onnaissan e. Lorsque les masques sont onnus a

priori (masques ora les), 'est-à-dire lorsque les paramètres masqués sont lairement identiés

à partir des signaux de parole seule et du bruit, les taux de re onnaissan e sont pro hes de

eux obtenus en absen e de bruit.Cependant es performan es représentent seulement les

per-forman es potentiellement atteignables. En pratique les masques de données manquantes sont

estimésàpartirdesseulesobservationsbruitéeset onstituentpar onséquentuneapproximation

erronéedesmasquesora les.Lesdiérenteserreursd'identi ation ommisesparlesestimateurs

de masques setraduisent par une hute desperforman es illustrant lerle de premier plan des

masques. L'estimation des masques onstitue don un problème entral en re onnaissan e

au-tomatiquedelaparoleave donnéesmanquantesfaisant l'objetdenombreusespubli ationsdans

e domaine.

Nostravauxsepla ent dansle ontextede l'estimationdemasques àpartir de modèles

sto has-tiques.Cetteappro hefutinitiéeàl'universitédeCarnegieMellonparl'équipedeRi hardStern.

Lespubli ations[Seltzer 00,Raj 00 ,Kim05,Kim06℄dontellefaitl'objetmontrentqu'ilest

pos-sibled'apprendredesmodèlesdemasquesetlesrésultatsreportéssonttrèsen ourageants.Notre

première ontribution on erne la dénitionde es modèles. L'estimateur bayésien proposé par

SeltzeretRajRamakrishnan lassie haque oe ient spe traldusignalobservé ommeable

ou manquant de manière indépendante. En d'autres termes, lemasque d'un oe ient spe tral

parti uliernedépendpasdesmasquesdes oe ientsdesonvoisinage. Pourtantnousmontrons

qu'une similitude existe entre la stru ture des masques et l'enveloppe énergétique du signal de

paroledansledomainespe tral.Les oe ientsdefaible énergiesontplussensiblesaubruitque

les oe ients de forte énergie etsont don plus souvent masqués. L'enveloppe énergétique du

signal de parole étant très stru turée, noussupposons que les masques de données manquantes

lesontdelamêmemanière.A etégardnousproposonsdenouvellesar hite turesd'estimateurs

bayésiens dans le but de restituer ette stru ture. Des erreurs de masque lo ales peuvent ainsi

être évitéesen onsidérant un masquedanssaglobalité (lemasqued'unphrase par exemple)et

non plus ommeune omposition d'entités(masques àl'é helle du oe ient)indépendantes.

La mise en ÷uvre d'un algorithme de dé odage de la parole sur des observations partielles

(18)

a oustique est le plus souvent déterminée à partir du SNR . Tout oe ient spe tral dont le

SNR est inférieur à un seuil prédéterminé est onsidéré ommemanquant. Dans le adre de la

marginalisation dedonnées, laprise en ompte de ette dénition de masque apermis d'aner

l'algorithme de dé odage, notament en proposant des intervalles de marginalisation spé iques

auxdonnées manquantes etables.Ces intervallessont plusns que eux initialement proposés

permettant un gainsigni atif en terme de taux de re onnaissan e. Nous proposons dans ette

optique unenouvelle dénition demasque etmontrons omment l'exploiter danslebut de

min-imiser les intervalles de marginalisation.

Le premier hapitre onstitue une rapide introdu tion à la re onnaissan e robuste de la parole.

Nousprésentonsdansunpremiertemps lesprin ipesgénérauxdelare onnaissan eautomatique

de laparole et relatons diérentes stratégies de dé odage usuellement utilisées. Nousdé rivons

plus parti ulièrement lemodèlede Markov a hé ainsi quesamiseen ÷uvrepuisque e modèle

s'est imposé omme modèle de référen e dans la ommunauté du traitement des langues

nota-ment pour sa apa ité à modéliser un signal à évolution temporelle tel le signal de parole. Les

systèmes de re onnaissan e de la parole a tuelsexploitent pour la plupart e modèle. Dans un

se ondtempsnousadressonsleproblèmedelarobustesseaubruit.Nousmettonsenéviden eles

prin ipaleste hniquespermettant d'améliorerlarobustessedessystèmes.Celles- iinterviennent

à desétapes distin tes du pro essus de re onnaissan e allant de laparamétrisation du signalà

l'algorithme dedé odage.

La re onnaissan ede laparoleave donnéesmanquantes estprésentéeau hapitre 2.Nous

rela-tons destravaux montrant quenotre systèmeauditif se omporte de manière séle tive vis-à-vis

desdiérentsstimuliqu'iltraite.L'oreillehumaineest apablededistinguerlesdiérentsa teurs

d'unes èneauditiveetpeutparunpro essusdemasquagesefo alisersurunesour esonore

par-ti ulière.Cesétudesnemontrentpas ommentnousséle tionnonslesportionsd'intérêtdusignal

maismontrentquenoussommes apablesdere onnaîtredelaparoleàpartird'unereprésentation

par ellaire du signala oustique. Nousdénissons ensuite les notions de donnéesmanquantes et

de masquededonnées manquantes dansle adredelare onnaissan eautomatiquede laparole.

Les diérents algorithmes d'imputations et de marginalisation sont dé rits. Nous on luons e

hapitrepar uneévaluation omparativede3te hniquesdemarginalisationmettant enéviden e

lefortpotentieldelare onnaissan edelaparole ave donnéesmanquantes maisaussilerlede

premier planquejouent les masques.

L'estimation de masques de données manquantes onstitue aujourd'hui un enjeu important et

motive de nombreux travaux. Nous proposons au troisième hapitre un état de l'art de et axe

dere her he.Lesprin ipalesappro hesproposéesdanslalittératuresontprésentéesave omme

seulelimitationl'usaged'ununiquemi rophonepourl'a quisitiondusignal.Cetravailprospe tif

2

(19)

n'est paslimitéauseul adreappli atifque onstitue lare onnaissan ede laparolemais ouvre

également des domaines onnexes omme la séparation aveugle de sour es, l'analyse

omputa-tionnelle de s ène auditive ou en ore la déte tion de parole utile. Nous avons hoisi de lasser

estravauxen deux atégories:d'unepartlesméthodess'inspirant dufon tionnement denotre

appareilauditif,etd'autre part,lesméthodesorientéestraitementdusignal. L'obje tifn'est pas

d'opposer es deux appro hes. Au ontraire, de ré ents travaux, le dé odeur multi-sour es de

Barker[Barker06 ℄parexemple,montrent lebéné ede ombinerdes on eptsissusde esdeux

appro hes.

Nous proposons au hapitre 4 deux nouvelles modélisations des masques. La première a pour

obje tif la modélisation desdépendan es existantes entre les valeurs de masque des oe ients

spe traux.Nousmotivons etteappro heenmettantenéviden elessimilitudesentrel'enveloppe

énergétiquedusignaldeparoleetlastru turedesmasquesdansledomainespe tral.Nous

dénis-sons deuxtypes de dépendan e : lesdépendan es temporelles etles dépendan es fréquentielles.

Nous dé rivons omment es dépendan es peuvent être prise en ompte pendant le pro essus

d'estimation demasque, etnousproposonsdenouveauxmodèles sto hastiquesdemasques

inté-grant individuellement ou onjointement esdépendan es.Nousproposons ensuiteune nouvelle

dénition de masque permettant, dans le adre de la marginalisation de données, d'aner

l'al-gorithme de dé odage. Cette nouvelle dénition de masque permet de réduire les intervalles de

marginalisation omparativement auxintervalles dérivésdes masques fondéssur le seuillagedu

SNR lassiquement utilisés.

Ces propositions sont évaluées au hapitre 5. Une omparaison des masques générés par nos

estimateursave lesmasquesora lesestprésentéeanderendre omptedeleurqualitéenterme

d'identi ation des données masquées. Nous présentons également une étude qualitative des

masques résultant denospropositions enles omparant auxmasques obtenus àpartir

d'estima-teurde référen equenousdénirons. L'obje tif a hé de nostravauxestd'améliorer laqualité

des masques ainsi que leur prise en ompte par le moteur de re onnaissan e. Nous présentons

dans ette optique une évaluation omparative desrésultats de re onnaissan eobtenus à partir

de nos propositions sur diérentes bases de données par rapport aux taux de re onnaissan e

(20)

La re onnaissan e automatique de la

parole robuste au bruit

J'entendsta voix dans tous les bruits du monde.

-Paul Eluard

-Sommaire

1.1 Re onnaissan e automatique de la parole . . . 2

1.1.1 Lesignaldelaparole . . . 2

1.1.2 Paramétrisationdusignal . . . 3

1.1.2.1 Représentationsparamétriquesdusignaldelaparole . . . 3

1.1.2.2 Lespe trogramme . . . 4

1.1.3 Prin ipedelare onnaissan e . . . 5

1.1.3.1 Re onnaissan eàbased'exemples . . . 6

1.1.3.2 Classi ationprobabiliste . . . 7

1.1.3.3 Surfa esdedé isionet fon tionsdis riminantes. . . 7

1.1.3.4 Modèleshybrides . . . 9

1.1.4 LemodèledeMarkov a hé . . . 9

1.1.4.1 Dénition d'unHMM . . . 10

1.1.4.2 Miseen÷uvre . . . 11

1.1.4.3 LimitationdesHMM . . . 16

1.2 Robustesse aubruit . . . 16

1.2.1 Lebruit . . . 16

1.2.2 Stratégiespourlare onnaissan erobuste delaparole . . . 18

1.2.2.1 Paramétrisationrobustedusignal . . . 18

1.2.2.2 Débruitagedusignal. . . 19

1.2.2.3 Adaptationdesmodèlesa oustiques . . . 20

1.2.2.4 Modi ationdel'algorithmededé odage . . . 22

(21)

Ce hapitreprésenteleproblèmedelare onnaissan eautomatiquedelaparole(RAP). Nous

ara térisons dans un premier temps le signal a oustique de la parole. Nous évoquons ensuite

le prin ipe général de la RAP et en parti ulier l'appro he bayésienne qui est la plus répandue.

Nous détaillons un modèle bayésien parti ulier :le modèle de Markov a hé (HMM : Hidden

Markov Model). Ce modèle fournit de très bons taux de re onnaissan e en ondition

d'utilisa-tion maîtrisée. Cependant es performan es sont loin d'êtreaussibonnes lorsque les onditions

d'utilisation se dégradent. Cette diéren e de performan e due aux onditions

d'expérimenta-tion relève de la robustesseau bruit du système de re onnaissan e. Nous exposons les grandes

appro hesde re onnaissan erobuste de laparole.Plusieurs ouvrages traitent de e problème et

plus généralement delare onnaissan e de laparole[Boite 00,Mariani 02 , Haton06 ℄.

1.1 Re onnaissan e automatique de la parole

1.1.1 Le signal de la parole

Le signalde parole estune onde a oustiquemoduléepar l'appareil phonatoireen fréquen e

et en amplitude. Cette onde est généralement présentée sous la forme d'une ourbe (Fig. 1.1)

représentant les variationsd'amplitude dusignal au ours dutemps.

-6

one three nine oh

Temps Amplitude

Fig. 1.1 Représentation temporelle d'un signal de parole orrespondant à la séquen e de mots

one three nine oh.

Lesignaldeparoleestune on aténationderéalisationsa oustiquesélémentaires.Cesréalisations

sont plus onnuessouslenomdephonèmes. Unphonèmeestune entité abstraite dénie omme

la plus petite unité a oustique. Chaque langue peut être alors ara térisée par un ensemble de

phonèmesqui onstituentenquelquesortelesbriquesa oustiquesélémentairesàpartirdesquelles

lessyllabes,lesmotsetlesphrasessont onstruits.Toutsignaldelaparolepeutalorsêtreexprimé

ommeunesu essiondephonèmes.Cesignalvéhi uleunensembled'informationstrèsdiverses:

lemessagequeveutfairepasserlelo uteur,sonhumeur,sonidentité,et .Lesignalàre onnaître

fait,dansunpremier,l'objetd'unprétraitement,appeléparamétrisation, onsistantàextrairede

(22)

1.1.2 Paramétrisation du signal

1.1.2.1 Représentations paramétriques du signal de la parole

Lerled'unmoduledeparamétrisationdusignalestdefourniretd'extrairedesinformations

ara téristiquesetpertinentesdusignal.Cesinformationssontrestituéessouslaformed'unesuite

dis rète de ve teurs, appelés ve teurs a oustiques ou ve teurs d'observations. Chaque ve teur

ontient unnombre nide paramètres représentant les ara téristiquesd'un segment dusignal.

La on aténation de es ve teurs fournit une représentation dis rète etparamétrique du signal

à traiter [d'allessandro 92 ℄. La onversion du signal en séquen e de ve teurs d'observations est

régie par unmodèle paramétrique ara térisantle point devue souslequellesignalest observé.

La paramétrisation onsiste à estimer les paramètres de e modèle. Ces modèles peuvent être

lassés en quatrefamilles:

Les modèles arti ulatoires

Ilspermettentd'extrairelesinformationsrégissantlemé anismedephonation.Cette

paramétri-sation s'appuiesurunformalisme issudelamé aniquedesuidespuisquel'ondea oustiqueque

nous produisonsen parlant résulte de la ir ulation d'un uxd'air au travers du onduit vo al

onstitué d'arti ulateurs. Les paramètres extraits odent laposition desdiérents arti ulateurs

(position deslèvres,ouverture de labou he, protusion, position delalangue, et ).

Les modèles de produ tion

Ils permettent deréaliserune simulationde l'équivalentéle trique de l'appareilphonatoire. Ces

modèles sont une simpli ation (ou approximation) desmodèles arti ulatoires. On trouve dans

ette atégorie,les odagesLPC (Linear Predi tion Coding)etAR (AutoRegressive oding).

Les modèles phénoménologiques

Ces modèles tentent de modéliser le signal indépendamment de la façon dont il a été produit.

Les modèles basés sur l'analyse de Fourier en sont un exemple. Ils proposent des

représen-tations du signal basées sur une analyse fréquentielle de elui- i. Parmi les paramétrisations

dérivées de es modèles, nous détaillerons dans le paragraphe suivant la paramétrisation

spe -trale. Cette paramétrisation présente l'avantage de fournir une représentation temps-fréquen e

(spe trogramme)dusignalpourlaquellelesénergiesdesdiérentssignaux onstituant unes ène

auditive peuvent être onsidérées ommeadditives.

Les modèles d'audition

Cesmodèlestententdemettreàprotles onnaissan esa quisessurlaper eptiondessonsetsur

lefon tionnementdenotresystèmeauditifand'améliorerlarobustessedesmodèlespré édents.

(23)

des modèles AR ou spe traux a onduit respe tivement aux analyses PLP (Per eptual Linear

Predi tion) etMFCC (Mel Frequen y CepstralCoe ient).

1.1.2.2 Le spe trogramme

Le signal de la parole étant variable au ours du temps, l'extra tion des ve teurs

d'obser-vation est généralement faite sur des fenêtres d'analyse temporelles de faible durée (de l'ordre

de quelques dizaines de millise ondes), de telle sorte que le signalpuisse être onsidéré omme

stationnairesur ha uned'elles.Denombreusesfenêtresont étéétudiéesentraitement dusignal

(Hamming,Hanning, Kaiser,et ).La fenêtrelaplusutiliséeenre onnaissan edelaparole estla

fenêtre de Hamming, illustréepar lagure1.2 etdéniepar l'équation :

h(n) =

(

0.54 − 0.46 cos(2π

n

N −1

)

si

0 ≤ n ≤ N − 1

0

sinon

où

N

est la taille de la fenêtre en nombre d'é hantillons du signal. Par ailleurs, un ltre de préa entuationtrèssimpleestsouventappliquéausignalpourrenfor erlessonsaigus,toujours

plus faiblesen énergiequelessons graves.

0

0.2

0.4

0.6

0.8

1

0

10

20

30

40 h(n)

n

Fig.1.2 Fenêtre de Hammingh(n).

Une représentation spe trale d'un signal a oustique est une on aténation de spe tres à ourt

terme. Un spe tre à ourt terme, appelé également spe tre instantané, est le résultat de la

transforméede Fourier sur une fenêtre d'analysetelle lafenêtre de Hamming. Dans le as d'un

signal dis ret, omme elui de laparole une foisé hantillonnée, lespe tre à ourt terme

S

N

(f )

peut s'é rirepour une fenêtre

h(.)

entréesur

m

:

S

N

(f ) =

n=N

X

n=0

s

m

(n) h(n

− m) e

−i2πf n

La on aténation des spe tres à ourt terme su essifs obtenus par glissement de la fenêtre

d'analyse forme un spe trogramme qui représente l'évolution dans le plan temps-fréquen e de

(24)

de réduire les dis ontinuités, les fenêtres d'analyse su essives se re ouvrent en partie (le plus

souvent demoitié) etsont aplaties à leurs extrémités.

Temps Fréquen e

-6

Fig.1.3Représentationspe traled'unsignaldelaparole orrespondantàla phrase :onethree

nine oh.

Des études per eptives ont montré que notre oreille possède une meilleure résolution pour les

sons debasses fréquen esquepour lessons dehautes fréquen e. A et égard,le spe trogramme

obtenu par latransformation de Fourier à ourt termeest, en re onnaissan ede laparole,

sou-ventperçu ommeunensembledesignauxtemporels ontenantunepartiedel'informationsurle

signalvo aldans ha unedesbandesdefréquen es d'unban de ltres.Lesfréquen es entrales

desltressont déterminéesdemanièreàrestituerlarésolution fréquentiellede notreoreille.Les

deux prin ipalesé hellesper eptivessont les é hellesBark etMel.

UnBark orrespondàlalargeurd'unebande ritique,qui roîtproportionnellementàsafréquen e

entrale. Cetteé helle orrespondau faitquel'oreille possèdeune bonnerésolution spe traleen

bassesfréquen es etmédio reen hautes fréquen es.

B

ark

= 13 Arctg

0.76 F

Hz

100 !

+ 3.5 Arctg

F

Hz

7500

!

2

L'é helle Mel est linéaire jusqu'à 100 Hz et logarithmique au-delà. Une expression analytique

possible estlasuivante[O'Shaugnessy 00℄:

M

M el

= 2595 log

10 1 +

F

Hz

700 !

La plupart des systèmes a tuels de re onnaissan e de la parole fondent leur analyse sur ette

é helle. La gure1.4représente un ban deltres àé helle Mel.

Legroupementdesénergiesdesspe tresà ourttermebaséesurl'é helleMelfournitune

représen-tation Melspe trale dusignal, illustrée parlagure 1.5.

1.1.3 Prin ipe de la re onnaissan e

Considérons une séquen e de ve teurs d'observations

O

orrespondant à la pronon iation d'une séquen e de mots

W

. Le prin ipe même de la RAP est de parvenir à déterminer

W

à

(25)

Fig.1.4 Ban de ltres à é helle Mel.

Fig.1.5Représentation Mel spe trale d'unsignalparole.Chaque trameest exprimée i i par 32

oe ients Mel spe traux.

partir des observations

O

. Trois stratégies de re onnaissan e peuvent être envisagées plus une quatrièmerésultante de la ombinaison despremières.

1. La re onnaissan eà based'exemples

2. La re onnaissan eprobabiliste

3. La re onnaissan epar surfa esde dé ision etfon tionsdis riminantes

4. L'hybridation de modèles

Nousproposons dansleparagraphe suivant un brefsurvolde es appro hes.

1.1.3.1 Re onnaissan e à base d'exemples

Cetteappro he est laplus intuitive. Elle repose surl'idée qu'une même lasse regroupe des

objetsdeformessimilaires.De ette façon,ilestpossibleàpartird'unemétriquejudi ieusement

hoisie de mesurer la similitude entre deux formes. La re onnaissan e d'une forme in onnue

revient à omparer ette forme ave les formes représentatives des diérentes lasses. La

om-paraison de deux formes s'appuie sur des méthodes de omparaison élastique, fondées sur la

programmation dynamiqueetfournissantune solutionoptimale aure alagetemporel né essaire

à e type de lassi ation. Cette appro he fut une des premières proposées dans le adre de

(26)

Elle fut étendue par la suite an de re onnaître des séquen es ontinues de mots [Sakoe 79 ℄ et

plus ré emment à de la parole ontinue [Wa hter 07℄. Les résultats publiés dans [Wa hter 07℄

montrent que ette appro he peut rivaliser ave les meilleurs systèmes a tuels. Cependant la

re onnaissan e à base d'exemples reste très oûteuse en temps et en mémoire ar la forme à

re onnaître doit être omparée àtousles exemples ontenus danslabase desréféren es.

1.1.3.2 Classi ation probabiliste

Cette atégorie de lassi ation se base sur la onnaissan e des distributions des diérents

paramètres de haque lasse. Considéronsun objet

X

devant être lassédansune des

K

lasses

C

k

pour lesquelles un modèle paramétrique est disponible. La meilleure lasse

C

⋆

est elle qui

minimise lerisque bayésien

R(C

i

|X)

:

C

⋆

= arg min

C

i

R(C

i

|X)

R(C

i

|X) =

K

X

k=1

L(C

i

, C

k

).P (C

k

|X)

L(C

i

, C

k

)

estle risque de mauvaise lassi ation, ou en ore le oûto asionné par la fait d'as-signer la lasse

C

k

à

X

sa hant que

X

appartient à la lasse

C

i

.

P (C

k

|X)

est la probabilité a posteriori del'appartenan e de

X

à

C

k

.

Pour desdistributions de probabilités

P (X

|C

i

)

onnues (modèles paramétriquesdes lasses

C

i

), la règle de Bayes est optimale dans le sens où au une autre règle ne donnera un risque plus

faible. Considérant le as d'un risque binaire, 'est à dire assignant un oût de 1 à toute

mau-vaise lassi ation et un oût de 0 à toute lassi ation juste, minimiser le risque bayésien est

équivalentàassignerà

X

la lassepourlaquelle

X

alaplusforteprobabilitéd'appartenir( ritère du Maximuma posteriori :MAP) :

Ae ter à

X

la lasse

C

i

si :

P (C

i

|X) > P (C

j

|X) ∀j 6= i

P (X

_|C

i

).P (C

i

) > P (X

|C

j

).P (C

j

)

∀j 6= i

(1.1) Une des ription plus détaillée de e formalisme est présentée en annexe A.2. En général, les

probabilités a priori

P (C

i

)

de haque lasse ne sont pas onnues et doivent don être estimées à partird'unebased'apprentissage.Lesmodèles deMarkov a hés,dé rits auparagraphe 1.1.4,

s'appuient sur e formalisme.

1.1.3.3 Surfa es de dé ision et fon tions dis riminantes.

Lesparamètres

o

d'objetsappartenantàunemême lassesont,s'ilssontbien hoisis,lo alisés dansune région homogène de l'espa e desparamètres. La lassi ation par surfa es de dé ision

(27)

oufon tionsdis riminantesreposesurunpartitionnement del'espa e desparamètresen régions

mutuellement ex lusives; haquerégion del'espa e orrespondant auxréalisationspossiblesdes

paramètres d'une même lasse. Une région asso iée àla lasse

C

k

est don ara térisée par une fon tion dis riminante

g

k

(o)

tel que:

g

k

(o) > g

j

(o)

∀o ∈ C

k

et

∀j 6= k

Siles fon tionsdis riminantes sont desfon tionslinéaires desparamètres, alors les régionssont

séparées linéairement par des hyperplans. En pratique e as est rare et les surfa es de

dé i-sion sont appro hées en onsidérant que elles- i sont linéaires par mor eaux. Cette famille de

méthodesde lassi ation regroupe entreautres :

Le per eptron

Le per eptron est un réseau de neurones formels entrant dans la atégorie des modèles

neu-romimétiques. Il produit une lassi ation par fon tion linéaire dans le as où il est onstitué

d'une seule ou he de neurones [Rosenblatt 62℄. Cependant la fon tion dis riminante peut être

omplexiée par adjon tion de ou hes.

Un neurone formel est une représentation mathématique d'un neurone biologique. Les a tions

ex itatri es et inhibitri es des synapses sont représentées, la plupart du temps, par des

oe- ientsnumériquesasso iéesauxentrées.Lesvaleursnumériquessont ajustéesautomatiquedans

une phase d'apprentissage. Dans saversionla plussimple, un neurone formel al ule lasomme

pondérée desesentrées,puisappliqueà ettevaleurunefon tiond'a tivation, généralementnon

linéaire.Lavaleurnaleobtenue estlasortieduneurone.Individuellement,lesneuronesformels

al ulent des fon tions linéaires mais leur mise en réseau permet de simuler des fon tions très

omplexes.

La ma hine à ve teursupport (SVM)

Une ma hine à ve teur support (SVM en anglais pour Support Ve tor Ma hine) onsiste à

séparerdeux ensemblesde pointspar unhyperplan.L'idée originale desMVS aété publiée par

VladimirVapnik[Vapnik 82 ,Vapnik 98℄.Elleestbaséesurl'utilisationdefon tionsditesnoyaux

quipermettent uneséparation optimale (sans problèmed'optimum lo al)despointsde l'espa e

en diérentes lasses. Le prin ipe est de projeter l'espa e desparamètres surun espa e de plus

grande dimension à l'aide de la fon tion noyau de manière à pouvoir séparer linéairement les

pointsexprimés dans e nouvelespa e. Les SVM ont été développésinitialement dans le adre

d'une lassi ation bi- lasses, maisdesextensionsmulti- lasses ont étéproposées, ommela

M-SVM[Guermeur05 ℄.LesSVMontétéintroduites ré emmentpourlare onnaissan edelaparole

et ont donné des résultats prometteurs, notament pour l'identi ation du lo uteur [Wan05b ,

Wan 07 ℄,lare onnaissan edeformesa oustiques[Wan05a ,Bernal-Chaves 05,S harenborg06 ℄,

la déte tion de mots- lés [Aye 02 , Keshet07℄ ainsi quepour la on eption de modèles hybrides

(28)

Les arbres de dé ision

Les arbres de dé ision [Breiman84 ℄ également appelés arbres de lassi ation sont également

des lassieurs non linéaires par surfa es séparatri es. Le prin ipe est de déterminer la lasse

d'appartenan e d'une forme par une suite detests surses paramètres. Un arbre de dé ision est

ainsiformé d'unensemblede n÷udsinternes ontenant destestsetpardesfeuilles représentant

haque lasse.L'identi ationdela lassed'uneformeestdonnéeparun hemindepuislara ine

de l'arbre jusqu'à une feuille. Plusieurs progi iels d'arbres de dé ision tels CART ou C4.5 sont

disponiblesetont étéutilisésen re onnaissan e delaparole.

1.1.3.4 Modèles hybrides

Les modèles de lassi ation probabiliste et en parti ulier les HMM ompte parmi les

dif-férentesappro hesde lassi ationlesplusutilisésenre onnaissan edelaparole.L'intérêtqu'ils

sus itent provient non seulement du fait qu'ils donnent de bonnes performan es mais aussi du

fait qu'ils sont parti ulièrement bien adaptés au traitement de données à évolution temporelle.

Cependant, ilssont peudis riminantsenraison d'unapprentissage ditaumaximum de

vraisem-blan e (voirparagraphe 1.1.4.2).Certesilexistedesméthodesd'apprentissagedis riminantmais

l'apprentissage au maximum de vraisemblan e reste le standard. Par onséquent des systèmes

hybridesont étéproposés, ombinant desHMMave desmodèles dis riminants.

Parmi es hybridations, nous pouvons iter des modèles ombinant HMM et réseaux de

neu-rones. Detels modèles utilisent un réseau de neurones omme prépro esseur [Lazli02℄ ou

post-pro esseur[Guo 93℄d'unHMM.Danslepremier asun per eptronestentraîné pourapprendre

les probabilités a posteriori des lasses phonétiques

P (S

i

|O)

,

S

i

étant un état d'unHMM et

O

unve teur d'observations.LaformuledeBayespermetàpartirde esprobabilités de al ulerla

vraisemblan e desobservations. Ces vraisemblan es sont alors utilisées enlieu et pla e de elles

initialement al ulées par les modèles à mélangede gaussiennesutilisés par unHMM lassique.

Dans le deuxième as, toutes les hypothèsesde re onnaissan e (ou seulement les

N

meilleures) al ulées par le HMM sont mises en entrée du réseau. Le réseau distinguera alors, parmi es

hypothèses, lameilleured'entreelles.

Une autre hybridation onsiste à ombiner un HMM ave une SVM [Ganapathiraju 00℄. Une

telle hybridation présente également l'avantage de ombiner la apa ité des HMM à modéliser

dessériestemporellesetlepouvoirdis riminant desSVM.Cesystèmehybridepossèdelamême

ar hite ture que le système de Lazli et Sellami [Lazli 02℄ mais le réseau de neurones al ulant

P (S

i

|O)

estrempla é par une SVM.

1.1.4 Le modèle de Markov a hé

Les modèles de Markov a hés (HMM : Hidden Markov Model) ont été dé rits pour la

(29)

Baum 72 ℄. Ce n'est qu'en 1975 qu'ils ont été proposés dans le adre de la re onnaissan e

au-tomatique de la parole [Baker75a, Baker75b℄ et se sont imposés depuis omme modèles de

référen edans e domaine.Nousproposonsdanslesparagraphessuivantsde dénir equ'estun

HMMetdedé riresamisen÷uvredansle adredelare onnaissan eautomatiquedelaparole.

1.1.4.1 Dénition d'un HMM

UnHMMestun asparti ulierdesmodèlessto hastiquesgraphiques,etpeutêtrevu omme

un automateprobabiliste. Il estgénéralement ara térisé par unquadruplet

(S, Π, A, B)

:

S =

{S

0 , . . . , S

i

, . . . , S

k

}

estl'ensemble desétats del'automate.

Π =

{π

0 , . . . , π

i

, . . . , π

k

}

,ave

π

i

étant laprobabilité que

S

i

soit l'état initial.

A est l'ensemble des probabilités de transition d'un état vers un autre. A est ara térisé

parunematri e

k

∗k

d'éléments

a

ij

ave

i et j

∈ [0, k]

et

k

lenombred'états.Tout élément

a

ij

de ette matri e est la probabilité d'atteindre l'état

S

j

au temps

t

sa hant que nous étionsdansl'état

S

i

au temps

t

− 1

.

Bestun ensemble de loisdeprobabilité

b

i

(o)

donnant laprobabilité

P (o

|S

i

)

quel'état

S

i

aitgénérél'observation

o

.Cetteprobabilitéestlavraisemblan edel'observationauregard de

S

i

.

Un HMMétant un automateprobabiliste, les ontraintes suivantes doivent être respe tées:

1. La sommedesprobabilités desétats initiauxdoitêtre égale à1 :

X

i

π

i

= 1

2. La sommedesprobabilités destransitionssortant d'unétat doitêtre égaleà 1 :

∀i

X

j

a

ij

= 1

3. La sommedesprobabilités desémissions d'unétatdoit êtreégale à1 :

∀i

X

o

b

i

(o) = 1

dansle as d'observations dis rètes.

∀i

Z

o

b

i

(o) do = 1

dansle as d'observations ontinues.

UnHMMreprésente unobjetpardeuxsuitesdevariablesaléatoires:l'unedite a hée etl'autre

observable. La suite observable orrespond à lasuite d'observations

o

1 , o

2 , . . . , o

T

où les

o

i

sont des ve teurs d'observations du signal à re onnaître. La suite a hée orrespond à une suite

d'états

q

1 , q

2 , . . . , q

T

, où les

q

i

puisent leurs valeurs parmi l'ensemble des

N

états du modèle

{S

1 , S

2 , . . . , S

N

}

. La suite observable est dénie omme une réalisation parti ulière de la suite a hée. L'obje tif est de déterminerla meilleure séquen e d'états

Q

⋆

_{= (q}

⋆

(30)

de laséquen ed'observations

O = (o

1 , o

2 , . . . , o

T

)

.Le meilleur hemin

Q

⋆

est elui quimaximise

la probabilité a posteriori

P (Q

|O)

( ritère du maximum a posteriori : Eq. 1.1). En eet, en dérivant etteprobabilité a posteriori par larègle de Bayes,il vient :

Q

⋆

= arg max

Q

P (Q

|O)

= arg max

Q

P (O

_{|Q) P (Q)}

P (O)

étant onstant pour tout

Q

:

Q

⋆

= arg max

Q

P (O

|Q) P (Q)

(1.2)

UnHMMprésenteplusieursavantages:ils'ins ritdansunformalismemathématiquebienétabli,

ilbéné iedeméthodesd'apprentissageautomatiquedessesparamètresetilestparti ulièrement

bien adaptéà lamodélisationde pro essusàévolution temporelle.

1.1.4.2 Mise en ÷uvre

Lamiseen÷uvred'unsystèmedere onnaissan e delaparole àpartir deHMMné essitede

formulerquelqueshypothèsessimpli atri esdanslebutd'adapter le adrethéorique desHMM

àlaRAPmaisaussid'ensimplierleformalismemathématiqueetainsiproposerdesalgorithmes

d'apprentissageetde lassi ationoptimauxsous eshypothèses.Unefois eshypothèsesposées,

troispointsimportantssont à onsidérer pourlare onnaissan e delaparole àpartir de HMM:

1. La topologie du modèle :

Comment dénir le nombre d'états du modèle? Quelles transitions entre les états sont

permises?quellesloisdeprobabilitéutiliserpourmodéliser ladistributiondesparamètres

de haqueétat?

2. L'apprentissage des paramètres :

Étant donnéunensemblede

J

séquen es d'observations

O

j

représentant ha unelamême entitéa oustiqueetdon asso iéesaumême HMM

M

j

, omment hoisirlesparamètres

Λ

j

de

M

j

an demaximiserlaprobabilité que

M

j

engendre lasuite d'observations

O

j

?

3. Le dé odage :

Étant donnée une séquen e d'observations

O

, et un ensemble de HMM, quelle est la séquen e demodèles qui maximise laprobabilité de généré

O

?

Nousdé rivonsdanslesparagraphessuivantlamanièredont espointssonttraitésdansle adre

de lare onnaissan e automatiquede laparole.

Hypothèses simpli atri es

Soit

O = (o

1 , o

2 , . . . , o

T

)

une suite de

T

observations. Soit

Q = (q

1 , q

2 , . . . , q

T

)

une séquen e d'états alignée ave la suite d'observations; au temps

t

le HMM est dans l'état

q

t

engendrant

(31)

l'observation

o

t

.

Hypothèse n1

La probabilité qu'une observation

o

t

soit émise au temps

t

ne dépend pas des observations antérieures.

P (o

t

|q

t

, q

t−1

. . . , q

1 , o

t−1

, o

t−2

, . . . , o

1 ) = P (o

t

|q

t

, q

t−1

, . . . , q

1 )

(1.3) Hypothèse n2

La probabilitéqu'une observationsoit émise autemps

t

nedépend pasdesétats pré édemment visités,maisseulement del'état ourant.

P (o

t

|q

t

, q

t−1

, . . . , q

1 ) = P (o

t

|q

t

)

(1.4) Hypothèse n3

La probabilitéqueleHMM soitdansl'état

q

t

àl'instant

t

nedépend quedel'étatdanslequelil setrouvait à l'instant

t

− 1

.

P (q

t

|q

t−1

, q

t−2

, . . . , q

1 ) = P (q

t

|q

t−1

)

(1.5) Unmodèlerespe tant ettedernièrehypothèseestappelémodèledeMarkovdupremierordrepar

oppositionauxmodèlesd'ordre

N

.Unmodèled'ordre

N

estunmodèlepourlequellaprobabilité de setrouverdansunétat

q

t

est onditionnée par lasuited'états

q

t−1

, q

t−2

, . . . , q

t

−

N

.UnHMM

duse ondordreaétémisaupoint[Gong 94 ℄.Lesrésultatsobtenus enre onnaissan ede hires

ontmontré unelégèreamélioration par rapport auxmodèlesdu premierordre. Cependant ette

amélioration se fait au détriment d'une omplexi ation a rue du modèle e qui limite son

intérêt.

Topologie du modèle

Lenombred'étatsd'unHMMdépenddel'entitéa oustiquequ'ilmodélise.L'entitélaplus

répan-dueestlephonème,maisilestpossiblede onsidérerdesentitésplusgrandes(supra-phonétique),

ommelasyllabeoulemot.Cependant onstruireunsystèmepossédantunmodèlepour haque

motd'unelanguen'estpasenvisageablepourdesraisonsdetempsetd'espa ede al ulmaisaussi

pour desraisonsde tailledelabased'apprentissage devant ontenir susamment d'exemplesde

haquemotpourobtenir desmodèles ables.Une tellemodélisationestalors in on evablepour

dessystèmesgrandvo abulairepermettant dere onnaître plusieursdizainesde milliers demots

diérents. Néanmoins sous ertaines ontraintes omme l'utilisation d'un vo abulaire restreint

ette modélisationpeuts'avéreravantageuse notament pour lamodélisationdesphénomènesde

o-arti ulation.

Un phonème est généralement dé omposé en 3 parties :un début, une partie stable et une n.

Une topologie à 3 états est par onséquent utilisée. Le se ond état orrespondant à la partie

(32)

les eetsde la o-arti ulation, 'estàdirelestransitionsentrephonèmes.Ceux- i orrespondent

don auxpartiesinstablesduphonème arellessont inuen éespar le ontextegau he et droit.

Danslebutderestituerl'évolutiontemporelledusignaldelaparoleunetopologiegau he-droite

est adoptée dans la grande majorité des as. Ce i veut dire qu'au un retour en arrière n'est

possible.

π

1 = 1

a

12 a

23 a

34 a

11 a

22 a

33 b

1 (o)

b

2 (o)

b

3 (o)

S

₁

S

₂

S

₃

Fig. 1.6 HMM gau he-droite à 3 états usuellement utilisé pour la modélisation de phonèmes.

Les lois de probabilité

b

i

(o)

fournissant les probabiltés qu'une observation

o

ait été générée par un état

S

i

sontmodélisées par des modèles à mélange degaussiennes (GMM).

Chaqueétat

S

i

d'unHMMrenvoiepouruneobservation

o

laprobabilitéque

o

aitétégénéréepar

S

i

. Le al ulde ette probabilitéappelée également vraisemblan e de l'observations'appuie sur une fon tion de densité de probabilités

b

i

(0)

. Cette fon tion

b

i

(0)

est un modèle paramétrique de l'ensemble des observations pouvant être générées par l'état

S

i

. La plupart des systèmes s'appuient des densités de probabilités ontinues modélisée par un mélange de lois normales

(distributiongaussiennedesobservations).Lavraisemblan ed'uneobservation

o

estdon donnée par :

b

i

(o) =

N

λ

X

j=1

λ

j

N (o; µ

j

, Σ

j

)

(1.6) ave

N (o; µ

j

, Σ

j

) =

1 p

(2π)

M

_|Σ

j

|

exp

−

1

2 (o

− µ

j

)

′

_Σ

−1

j

(o

− µ

j

)

(1.7)

N

λ

estlenombre de gaussiennes,

λ

j

estlepoidslela

j

ième

gaussienne,

µ

j

et

Σ

j

sont respe tive-ment leve teur moyen etla matri e de ovarian e de la

j

ième

gaussienne et

M

ladimension du ve teur d'observations. La gure 1.6 présente un HMM gau he-droite à 3 états utilisé pour la

(33)

Apprentissage

Considérons un ensemble de HMM

M

j

et un ensemble de

T

observations

O

j

. Apprendre les paramètres des HMM revient à her her le meilleur ensemble de paramètres

Λ

⋆

j

= (µ

⋆

j

, Σ

⋆

j

)

tel que la probabilité que

O

j

ait été générée par

M

j

soit maximale ( ritère du maximum de vraisemblan e).

Λ

⋆

_j

= arg max

Λ

j

T

Y

t=1

P (O

j

(t)

|M

j

, Λ

j

)

(1.8)

Idéalement, 'est

P (M

j

|O

j

, Λ

j

)

qui devrait être maximisée. L'apprentissage serait alors plus dis riminant :lorsquela vraisemblan e dumodèle

j

augmente pour les exemples orrespondant aumodèle

j

,lesvraisemblan esdesautresmodèlesdevraientdiminuerpour esmêmesexemples. LesHMMdevraient don êtreentraînés, nonseulementpourmaximiserlaprobabilitédegénérer

les exemples de sapropre lasse, mais aussipour les dis riminer par rapport aux autres lasses

( ritèredumaximumaposteriori).Par equ'iln'existepasdeméthodepermettantdemaximiser

dire tement

P (O

j

|M

j

, Λ

j

)

,lesparamètresdesmodèlessontobtenusenmaximisantl'équation1.8 par laméthodeitérativedeBaum etWel h[Baum72℄, quiestun asparti ulierdel'algorithme

EM(Expe tationMaximisation) [Dempster77℄.

Dé odage

Ledé odagedelaparolepardesmodèlesHMMrevientàdéterminerlameilleureséquen ed'états

Q

⋆

_{= (q}

⋆

1 , q

⋆

2 , . . . , q

T

⋆

)

pouvant engendrer laséquen ed'observations

O = (o

1 , o

2 , . . . , o

T

)

:

Q

⋆

= arg max

Q

P (O

|Q)

= arg max

Q

π

0 T

Y

t=1

a

q

t−1

q

t

.b

q

t

(o

t

)

(1.9)

Une solution naïve estde al uler laprobabilité

P (O

|Q)

detoutes lesséquen es d'états

Q

pos-sibles et de ne retenir que la meilleure. Ce i peut se faire en onstruisant un arbre. A haque

temps

t

une ou he den÷uds internes estajoutéeàl'arbre. Chaquen÷udinternereprésenteun état parti ulier des modèles et ontient la probabilité de se trouver dans et état à l'instant

t

. Lesprobabilités desdiérenteshypothèsesde re onnaissan e sont ontenuesdansles feuilles de

etarbre. Cependant une tellesolution esten pratique inappli able ar lenombred'hypothèses

est trèsgrand.

L'algorithme deViterbi,variante sto hastiquedelaprogrammationdynamique,proposede

sim-plier l'arbre au fur et à mesure de sa onstru tion. En eet, lors de son déroulement on se

trouverapidement ave desbran hesproposant lesmêmessubstitutions,maisave des

probabil-ités diérentes. Plusieurs hypothèses peuvent seretrouver dansle même état au même instant.

L'algorithmedeViterbistipulequ'iln'est pasné essairededéroulerleshypothèsesdeplusfaible

(34)

-o

1 o

2 o

3 o

4 o

5 o

6 o

7 o

8 o

9 o

10 o

11 o

12 o

13 o

14 o

15

|i| |s| |i| |s| |i| i i

Fig. 1.7 Illustration de la re onnaissan e de la parole par l'algorithme de Viterbi. La phrase

re onnue orrespond à l'hypothèse dere onnaissan e (ou hemin) ayant la plusforte probabilité

dans letreillisdeshypothèses.Pour etexemplela meilleurehypothèse orrespondàla su ession

de phonèmes |i||s| |i|qui est la trans ription phonétique du mot i i.

Lamiseen÷uvrede etalgorithme onsisteà onstruiredefaçon itérativelameilleureséquen e

d'états à partir d'un tableau

T

∗ N

(T : nombre d'observations, N : nombre d'états total des modèles)appelétreillisdes hypothèses où ha undesn÷uds

(t, i)

ontientlavraisemblan e

δ

i

(o

t

)

dumeilleur heminpassantparl'état

i

àl'instant

t

.La vraisemblan e

δ

i

(o

T

)

dumeilleur hemin qui nità l'état

i

au temps

T

est alors al uléepar ré urren e :

1. Initialisation :

δ

i

(o

1 ) = π

i

2. Ré ursion :pour setrouverdansl'état

i

àl'instant

t

,lepro essusmarkovien setrouvait for émentdansunétat

j

àl'instant

t

−1

pourlequelunetransitionversl'état

i

estpossible:

a

ji

> 0

.D'aprèsleprin iped'optimalitédeBellman,

δ

i

(o

t

) = max

j

δ

j

(o

t−1

) . a

ji

. b

i

(o

t

)

. 3. Terminaison:Lavraisemblan edesobservations orrespondant àlameilleure hypothèse

est obtenue en re her hant l'état

i

quimaximise la valeur

δ

i

(o

T

)

à ladernière observation

o

T

:

P (O

_|Q

⋆

_{) = max}

i

δ

i

(o

T

)

(35)

Unereprésentationvisuelle tivedel'algorithmede Viterbiestprésentépar lagure1.7.Cette

gure montre un treillis des hypothèses onstruit pour une séquen e de 15 observations.

Seule-ment deux modèles sont représentés i i; deux HMM gau he-droite à 3 états modélisant les

phonèmes |i|et |s|. Le meilleur hemin (en vert) orrespond à la séquen e de phonèmes :|i| |s|

|i|. Cetteséquen eest latrans ription phonétiquedu moti i.

1.1.4.3 Limitation des HMM

L'utilisationdes HMM en re onnaissan e automatique de la parole repose surplusieurs

hy-pothèses simpli atri es. Celles- i sont, ertes, né essaires,mais elles onstituent également des

pointsfaiblesdesHMM.

La modélisationde laduréedesphonèmes n'est qu'impli itement ontenue autraversdes

prob-abilités de transitions entre les états. Une modélisation expli ite de elle- i a ependant été

proposéeave su ès[Russel 85 ,Levinson 86℄.

L'hypothèse d'indépendan e onditionnelle des observations (équation 1.3) est irréaliste. Une

solutione a e etlargementrépandue onsisteàprendreen ompte lesdérivéespremières

∆

et se ondes

∆∆

desparamètres.Unedeuxièmesolutionestdemodéliserexpli itementla orrélation entreles ve teursd'observations su essifs [Russell93 ,Gales 93b ℄.

1.2 Robustesse au bruit

Malgrédenombreuxeorts dere her he entrepris depuisplusieurs années, larobustessedes

systèmes de re onnaissan e de la parole au bruit reste problématique, e qui explique

proba-blement en grande partie leurdiusion et utilisation très limitée. Ce paragraphe dénit les

dif-férentstypesdebruitetrésumebrièvementlesgrandesfamillesd'appro hequiont étéproposées

jusqu'alorspour résoudre e problème derobustesse.

1.2.1 Le bruit

L'obje tif d'un système de re onnaissan e est de retrans rire e qu'a pronon é un lo uteur

parti ulier. Nous onsidérons omme bruit toute distorsion du signal ou tout signal provenant

d'uneautre sour esonore quelelo uteur prin ipal.Ondistingue deuxtypesde bruits.Le bruit

onvolutif, onséquen ede ladistorsion dusignalinhérent à l'a quisition par unmi rophone de

mauvaise qualité,ou induite par les ara téristiques du anal de transmission ommeles lignes

téléphoniques etlebruit additif orrespondant àune pollution sonore issued'autressour es.

Le bruitest très pénalisant pour lare onnaissan e. Eneet les modèlesa oustiques sont appris

surdes orpusenregistrésen onditionsmaîtrisées, 'est-à-direexemptsdebruit.Ilsne

représen-tent don queles ara téristiques dusignal delaparole.Ces modèles ne sont alors plusdutout

(36)

Nous ne onsidérons par lasuite que lesbruitsadditifs.

Un bruit peutêtre ara térisé par diérentes propriétés (TAB.1.1). La onnaissan e de es

pro-priétés dubruit permet d'adopterune stratégie robuste adaptée.

Propriétés Attributs de lapropriété

stru ture temporelle ontinu / impulsif/périodique

stationnarité stationnaire/ non-stationnaire

stru turespe trale large-bande / onnéen bande

dépendan e ave laparole orrélé /dé orrélé

spatialisation ohérent / in ohérent ave la sour ede laparole

harmoni ité harmonique / inharmonique

Tab. 1.1Propriétés ara térisantes du bruit (adapté de[Glotin 01℄).

Une des situations les moins pénalisantes en re onnaissan e est de traiter un signal pollué par

un bruit ontinu,stationnaire, dé orrélédu signalde laparole etinharmonique;un bruit blan

gaussien par exemple. Une situation beau oup plus pénalisante est de re onnaître un signalde

paroleparmid'autressignauxdeparole.Unetelleinterféren eest onnuesouslenomde o ktail

party. Lagure 1.8illustrel'altération d'unspe trogramme de parolepar du bruit.

Fig. 1.8 Haut : Représentation spe trale d'un signal de la parole orrespondant à la phrase :

one three nine oh. Bas:Le même signal,mais orrompupar lebruit du métro à 5 dB.

Ilestpossibledequantierleniveaudebruitdansunephrase.Lebruitestmesuréparlerapport

signal surbruit(SNR:Signal-to-Noise Ratioen anglais).Le SNR s'exprime endé ibels(dB) :

SN R = 10 log

₁₀

S

N

(37)

où

S

et

N

sont respe tivement les énergies du signal de laparole et du bruit. Il est possible de al uler leSNR àdiérents niveaux degranularité. Onpeutdon distinguer :

1. SNR global :Le rapport est al ulé en fon tion des énergies totales sur la phrase de la

parole etdubruit.La quantité de bruit estalors quantiée par une seule valeur.

2. SNRsegmental:Lerapportest al ulésurdessegmentstemporelsbiendénisdusignal.

Le bruit estalors quantié pour ha un dessegments.

3. SNR segmental temporel et fréquentiel : Le al ul de e rapport est identique que

pourle pré édent, ependant le al ulestee tuépour haque bande de fréquen e.

4. SNR lo al : Pour haque oe ient du plan temps-fréquen e (spe trogramme) un SNR

est al ulé. C'est lagranularité laplusne, maisaussilaplus déli ate àestimer.

1.2.2 Stratégies pour la re onnaissan e robuste de la parole

Plusieurs stratégiesrobustes de re onnaissan ede la parole ont été proposées.Lesprin ipes

sous-ja entssontsouventsemblables,maislepointdevuediérentadoptélorsdela on eptionde

haqueméthodeaboutitàdeshypothèsessimpli atri esdiérentesetdon desimplémentations

diérentes. Ces te hniques peuvent être lasséesen 4 atégories (FIG.1.9) :

Paramétrisation robuste du signal : extraire du signal des paramètres représentatifs de la

parole possédant une sensibilitéau bruitréduite.

Débruitage du signal :éliminerou réduirel'inuen e dubruit surlesignalà re onnaître

Adaptation des modèles a oustiques :adapter les modèles a oustiques de manière à

min-imiser l'inuen e dubruit.

Modi ation de l'algorithme de dé odage :modier l'algorithme de dé odage pour

pren-dre en ompte les diéren es entre le onditions d'apprentissage (parole seule) et de test

(parole+bruit).

Ces diérentes familles de stratégies sont dé rites dans les paragraphes suivants. Pour ha une

d'entre ellesnousproposons uneliste nonexhaustive deméthodes.

1.2.2.1 Paramétrisation robuste du signal

Une première appro he en re onnaissan e robuste de la parole onsiste à extrairedu signal

uniquement des paramètres pertinents pour le dé odage phonétique et à réduire au maximum

l'inuen e des autres sour es. Parmi les paramétrisations robustes nous avons déjà ité

(para-graphe1.1.2) lesméthodesMFCC etPLP.

Les ampagnes d'évaluation Aurora [Pear e 00 ℄ de la re onnaissan e de la parole robuste ont

permis la on eption d'un algorithme de paramétrisation standardisé par l'organisme ETSI

[ETSI ES202 050,03℄ . Cet algorithme est onnu sous le nom de paramétrisation WI008, ou

en ore ETSI AFE (ETSI Advan ed Front End). Les résultats obtenus par ette méthode de

(38)

Base d'apprentissage Base detest Paramétrisation Paramétrisation Modèles A oustiques Trans ription Moteur de re onnaissan e Débruitage Adaptation Paramétrisation Robuste Modi ation

Fig. 1.9 Stratégies pour la re onnaissan e robuste de la parole.

1.2.2.2 Débruitage du signal

Le prin ipe des méthodes de débruitage est de réduire les diéren es entre les onditions

d'apprentissage etde test.Cesméthodess'appuient surdeste hniquesde ltrageplus oumoins

omplexes quitentent de supprimer ou deréduirel'inuen e du bruitsur lesignalde laparole.

Soustra tion spe trale

La ombinaison dessignauxde parole etdebruit est linéairedans ledomaine temporel :

y(t) = x(t) + n(t)

où

y(t)

,

x(t)

et

n(t)

représentent respe tivement l'amplitude de la parole bruitée, de la parole seule etdubruitseulàl'instant

t

.Cetterelationd'additivitéesttoujoursvalidedansledomaine spe traletpréservéelorsdupassagedanslespe tredepuissan eàuntermededéphasage

cos(Φ)

près.

|Y (τ)| = |X(τ)| + |N(τ)| . cos(Φ)

Cependant ilest montré, par diverses onsidérations, que e termepeutêtre supposépro he de

1 etdon :

|Y (τ)| = |X(τ)| + |N(τ)|

La soustra tionspe traleproposede al ulerune estimée dubruitsurdesportionsdusignalne

ontenant pas de parole. Sous l'hypothèse que le bruit soit stationnaire, l'estimée du bruit est

(39)

Filtre de Wiener

Un ltre de Wiener est un estimateur

X(t, f )

ˆ

du signal de parole seule, optimal au sens des moindres arrés, 'est àdire quiminimise :

E

"

ˆ

x(t)

− x(t)

2 #

Le ltre de Wienerfon tionne sous l'hypothèse queles trames de parole etde bruit sont issues

depro essusgaussiensetstationnaires dedensitésspe tralesde puissan es

σ

2 X

(f )

et

σ

2 N

(f )

.Cet estimateur estexprimé par :

ˆ

X(t, f ) =

σ

2 Y

(t, f )

− σ

2 N

(t, f )

σ

2 Y

(f )

|

{z

}

α

. Y (t, f )

LeltredeWienerestdéniparletermemultipli atif

α

.Commepourlasoustra tionspe trale, laprin ipaledi ultérésidedansl'estimationde

σ

2 N

(t, f )

quis'apparenteau al ulduSNRetqui estdon di ileàestimer lorsquelebruitestnon stationnaire.Benoroya [Benaroya 03 ℄proposa

une adaptation permettant de prendre en ompte au moins partiellement la non-stationnarité

du bruit.

Débruitage paramétrique

Ledébruitageparamétriquepermetdetransformerlestramesdeparolebruitéeentramesde

pa-roleseule.Il s'agitdetransformationsnon homogènesdansl'espa edesparamètres a oustiques.

Cha unedes lassesa oustiquesquipeuventêtre onstruitesdansl'espa ea oustiquenonbruité

estmiseen orrespondan eave une lassea oustiquedansl'espa ea oustiquebruité.Les

trans-formations peuvent être apprises pendant la phasede onstru tion du système en utilisant une

basede donnéesstéréo, 'està direpossédantle même signalbruité etnonbruité.

1.2.2.3 Adaptation des modèles a oustiques

Composition de modèles

Leprin ipedela ompositiondemodèlesestde ombinerdiérentsmodèles(modèles

a ous-tiques etmodèles de bruit) pour ne former qu'un seul même modèle. La te hnique la plus

util-isée est la ombinaison parallèle de modèles (PMC : Parallel Model Combination) [Varga90 ,

Gales 93a℄.Cettete hnique revient à onstruireun HMMéquivalent auxdeuxmodèlesinitiaux,

supposantl'additivitédesdiérentessour essonoresdanslespe tredepuissan e.Unetelle

om-binaisonest illustréepar lagure1.10.

Il existe plusieurs problèmes inhérents àla ombinaisonparallèle de modèles :

Unmodèledebruitdoitêtre onnu.Deplusilestné essaired'estimerleSNRen ondition