• Aucun résultat trouvé

Quelques contributions en reconnaissance automatique de la parole robuste

N/A
N/A
Protected

Academic year: 2021

Partager "Quelques contributions en reconnaissance automatique de la parole robuste"

Copied!
139
0
0

Texte intégral

(1)

HAL Id: tel-00579816

https://tel.archives-ouvertes.fr/tel-00579816

Submitted on 25 Mar 2011

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

de la parole robuste

Christophe Cerisara

To cite this version:

Christophe Cerisara. Quelques contributions en reconnaissance automatique de la parole robuste.

Interface homme-machine [cs.HC]. Université Henri Poincaré - Nancy I, 2010. �tel-00579816�

(2)

epartement de formation doctorale en informatique

Ecole doctorale IAEM Lorraine

´

UFR STMIA

Quelques contributions en

reconnaissance automatique de la

parole robuste

EMOIRE

pour l’obtention de l’

Habilitation de l’Universit´

e Henri Poincar´

e – Nancy I

(Sp´

ecialit´

e Informatique)

par

Christophe Cerisara

Composition du jury

Pr´

esident :

Jean-Paul Haton

Rapporteurs :

Herv´e Glotin

Laurent Besacier

R´egine Andr´e-Obrecht

Examinateurs :

Anne Boyer

Claire Gardent

Hugo Van Hamme

Yves Laprie

(3)
(4)

Jevoudraisremer ierenpremierlieuJean-PaulHaton,quiatoujoursétépourmoi(etpourbeau oup d'autres)leguideetl'exemplequej'aitentédesuivre,toutaulongde esannéespasséesàdébroussailler tantbien quemal les innombrablesarbres et autres jungles bayésiennesquej'ai dûdé ortiquerdepuis lathèseet qui nem'ontsansdoutepaslaissé indemne.SansJean-Paul, jeneserais pasi i, ela nefait au undoute.Mer imille fois!

Je m'étonne en ore aujourd'hui d'ailleurs d'avoir eu la han e d'être entouré su essivement par autantde ollèguesetamisdesigrandequalités ientiqueet humaine;lesplusimportantspourmoiet euxquim'ontleplusaidéétant ertainement, hronologiquement,YifanGong,Jean-ClaudeJunquaet YvesLaprie. Je ne pense pasavoirméritéde tels soutiensàmes tés,et je ne peuxque lesremer ier haleureusementdem'avoira ordéleleur,ainsiqueleuramitié.Mer ibeau oup!

Ungrandmer iaussiàRégineAndré-Obre ht,HervéGlotinetLaurentBesa ier,pouravoira epté de onsa rer unpeu deleur temps àrelire e mémoire; leursavis et onseils me sonttrès pré ieux,et j'espèredetout ÷urpouvoir ontinuerà ollaborerave euxbienaprès etteétapeimportantepourmoi que onstitue e travaildesynthèse.

Ungrandmer iégalementauxmembresdujury:Anne Boyer,ClaireGardentet HugoVanHamme d'avoira eptédeparti iperàmonjuryainsiquepourleursnombreux onseilstoujoursri hesen ensei-gnementspourmoi.

Jenepeuxqueremer ier haleureusementtoutela ommunautés ientiquequim'aentourépendant esquelquesannées,etenparti ulierlesmembresdel'équipeParole,maisaussidenombreux her heurs d'autreséquipesave quij'ai é hangéet ollaboré.

Un mer i tout parti ulier à Laurent Wendling, pour sa rele ture bien sûr, mais surtout pour son amitié,lesmultiplesdésintelle tuelsetlesdis ussionss ientiquesinterminablesqu'ilm'a ordait,qui ontsansau undoutegrandementinuen é mafaçond'aborderunproblème.Enn,alorsquej'é ris es lignesdelamaindroite,lagau heo upéeàtenirsurmongenouPauletsonpetitlivred'images,mer i àAgnès,Théo, Nathanet Paul pour m'avoira ordé le temps né essaire àrédiger e mémoire, temps dontjeleursuisredevable.Mer ipourtous esbonheurspartagés!

(5)
(6)

Remer iements i

Dossier : Par ours personnel 7

Curi ulum Vitæ

Curi ulumVitæ . . . 9

Résumédes a tivités de re her he 1 Introdu tion . . . 11

2 Modèlesa oustiquesmulti-bandes . . . 11

3 Adaptationdesmodèlesa oustiques . . . 12

3.1 Modèlesauto-régressifs . . . 12

3.2 Adaptationja obienne . . . 12

4 Débruitagedusignal . . . 13

5 Re onnaissan eave donnéesmanquantes. . . 13

5.1 Prin ipesdelare onnaissan eave donnéesmanquantes . . . 13

5.2 Étudesurlagénérationdemasques . . . 14

5.3 Modèlesdemasques ontextuelsetdépendantdel'environnement . . . 14

5.4 Optimisationdelamarginalisation . . . 14

5.5 Optimisationdutauxd'erreur . . . 15

6 Re onnaissan edelaparoleenIntelligen eAmbiante . . . 15

6.1 Analysedudomaine . . . 15 6.2 Intera tionsimpli ites . . . 15 A tesdedialogue . . . 16 Re onnaissan edethèmes . . . 16 En adrements Post-Do torat . . . 19 Thèses . . . 19 DAE,Master2 . . . 19

(7)

Valorisation et transfert

ProjeteuropéenOZONE . . . 21

ProjeteuropéenAmigo . . . 21

ProjeteuropéenMIAMM. . . 21

ProjeteuropéenHIWIRE. . . 22

Campagned'évaluationTe hnolangue . . . 22

ProjetRAPSODIS . . . 22 ProjetALIGNE . . . 22 Divers . . . 22 Enseignement Enseignements . . . 23 Responsabilitésetrayonnement Parti ipationàdesjurys . . . 25

Responsabilités . . . 25

Rayonnement . . . 25

Mémoire : Quelques ontributions en re onnaissan e automatique de la pa-role robuste 27 1 Introdu tion 1.1 Leshypothèses,sour esd'information . . . 29

1.2 Lesinformationsutilesàlare onnaissan e . . . 30

1.3 Positionnementduproblème . . . 33

1.4 Lesappro hesenre onnaissan erobuste . . . 34

2 Lamodi ation du signal 2.1 Paramétrisation . . . 37

2.1.1 Paramètresfréquentielsltréset ondelettes. . . 38

2.1.2 ETSIAdvan ed Front-End . . . 39

2.1.3 Brève on lusionsurlaparamétrisation. . . 40

2.2 Débruitage . . . 40

2.2.1 Deladualitéendébruitageetadaptation. . . 41

2.2.2 Débruitageparltragelinéaire. . . 41

2.2.3 Débruitageparamétriquenonhomogène . . . 43

2.2.4 SPLICE . . . 44

(8)

2.3.1 CASA suruntableaunoir . . . 48

2.3.2 DesagentsCASA . . . 49

2.3.3 CASA etréseauxdeneurones . . . 49

2.3.4 Séparationdesour eàunseul anal . . . 50

2.3.5 Con lusions . . . 52

2.4 Contributions . . . 52

3 Adaptation des modèles 3.1 Del'apprentissageàl'adaptation. . . 53

3.1.1 MAP,SMAP,MLLR,MAPLR,SMLLR . . . 53

3.1.2 Modèlesmulti-é helles . . . 55

3.2 Modèlesmulti-bandes . . . 57

3.3 Modèlesdebruit etmodèlesbruités . . . 58

3.3.1 Modèlesdebruit . . . 59

3.3.2 Modèlesbruités . . . 59

3.4 Adaptationja obienne . . . 61

3.5 Contributions . . . 62

4 Re onnaissan e ave donnéesmanquantes 4.1 Introdu tionetprin ipesfondamentaux. . . 65

4.1.1 Introdu tion . . . 65

4.1.2 Motivationset justi ations . . . 65

4.1.3 Dénition d'unmasque . . . 66

4.1.4 Utilisationdesmasques . . . 66

4.2 Estimationdesmasques. . . 67

4.3 Re onnaissan edansledomaine epstral . . . 68

4.4 Modèlesdemasquesdépendantdel'environnement . . . 69

4.5 Estimation ontextuelledesmasques . . . 70

4.6 Optimisationdel'appro hebaséesurlamarginalisation. . . 73

4.7 Optimisationdutauxdere onnaissan e . . . 74

4.8 Contributions . . . 79

5 Perspe tives: vers d'autressour es d'information 5.1 Introdu tionetmotivations. . . 81

5.2 Laparoleenintelligen eambiante . . . 82

5.2.1 Brèveprésentationdel'intelligen eambiante . . . 82

5.2.2 Intera tionsimpli ites . . . 82

(9)

5.3.1 Modélisationdelapositiondesmotsdanslaphrase . . . 84

5.3.2 Combinaisonde lassieurs. . . 85

5.3.3 Mesuresde onan epourl'apprentissagesemi-supervisé . . . 87

5.3.4 Con lusionssurlare onnaissan edesa tesdedialogue . . . 89

5.4 Re onnaissan edethèmes . . . 90

5.4.1 Prin ipeet ontributions . . . 90

5.4.2 Validation expérimentale . . . 91

Projet de re her he 97 5.5 Présentationduprojetdere her he . . . 99

5.5.1 DeLao ZiàTuring . . . 99

5.5.2 Ambition. . . 100

5.5.3 Positionnementau ÷urdesprioritésnationales . . . 101

5.5.4 Contexteinternational . . . 102

5.6 Développementd'unprojet ollaboratif . . . 102

5.6.1 Un nouveauthèmeausein del'axe TALduLORIA . . . 102

5.6.2 Collaborations . . . 103

5.6.3 Projetsnationauxetinternationaux . . . 103

5.7 Développements ientique . . . 104

5.7.1 Perspe tivesà ourtetmoyenterme . . . 104

5.7.2 A tesdedialogue . . . 105

5.7.3 Re onnaissan eautomatiqueduthème . . . 105

5.7.4 Espa es sémantiques . . . 105

Analyseparsémantiquelatente . . . 105

Indexationaléatoire . . . 106

La artesémantique. . . 107

5.7.5 Priseen omptedelasyntaxe . . . 107

S oredérivéd'uneanalysesto hastique . . . 108

Autresindi esstatistiques . . . 109

5.7.6 Perspe tivesàlongterme. . . 110

Con lusion Annexes A Des riptiondes prin ipaux orpuset onditionsexpérimentales A.1 Prin ipaux orpus . . . 115

A.1.1 BREF80 . . . 115

A.1.2 OGI . . . 115

(10)

A.1.5 Aurora4 . . . 116

A.1.6 ESTER. . . 116

A.2 Systèmesdere onnaissan e. . . 117

A.2.1 Petitvo abulaire . . . 117

A.2.2 Grandvo abulaire. . . 117

B

Liste omplètedes publi ations

(11)
(12)
(13)
(14)

État Civil ChristopheCERISARA 14A, GrandeRue 54610SIVRY 03.83.31.51.82

Christophe.Cerisaraloria.fr

Néle3juin1973àMetz,nationalitéfrançaise Marié,trois enfants.

Situation a tuelle

ChargédeRe her he1ère lasseauCNRS

Cursus professionnel

Janvier2006 PromotionCR1CNRS O tobre2002 TitularisationCR2 CNRS Juin2001 Candidatures:

CR2CNRS:admis

CR2INRIA:admisàNan y MaîtredeConféren e: Classé1eràl'UHPNan yI Classé1eràl'IUTdeGrenoble Classé1eràl'IUTduMans

2000-2001 Atta héTemporaired'Enseignementet deRe her he(ATER)audépartement infor-matiquedel'UniversitéHenri Poin arédeNan yI

Juin2000 Candidatures:

Nan yI: lassé3èmesurunposte Nan yII: lassé7èmesurdeuxpostes

Mars2000 Obtentiondelaquali ationpourles andidaturesMaîtredeConféren e

1999-2000 Post-do toratauPanasoni Spee h Te hnologyLaboratoryauxUSA(voir des riptif i-dessous)

1996-1999 Moniteuràl'ESSTIN etallo atairedere her heMESR Été1996 Stagedere her hedeDEAauCLIPS/GEOD àGrenoble

Thème de re her he : re onnaissan e automatiquede laparole par desmodèles hy-brides ombinantmodèlessto hastiquesetréseauxdeneurones

Dire teur: JeanCaelen

Été1995 Stagedere her heauCRIN/INRIALorraineàNan y

(15)

sto- hastiquesdetraje toires Dire teur:Jean-PaulHaton Cursus universitaire

1996-1999 Do torateninformatique(Mentiontrèshonorableave lesféli itationsdujury) 1995-1996 D.E.A.(Mentionbien)enInformatique,SystèmesetCommuni ationsdel'Université

JosephFourieràGrenoble

1993-1996 Diplmed'ingénieur(Mentionbien)del'ENSIMAG(InformatiqueetMathématiques Appliquées)àGrenoble

1991-1993 MathématiquesSupérieuresetSpé iales(optionM')àFabert(Metz)

Des riptif du Post-do torat

Laboratoire Spee hTe hnologyLaboratory(Panasoni In .),3888StateSt.Suite202,Santa Bar-bara,CA93105,U.S.A

Responsable Dr.Jean-ClaudeJunqua

Finan ement Post-do toratnan éparunebourseINRIA depost-do toratàl'étranger,ainsique parun omplémentdesalaireverséparlelaboratoired'a ueil

Thèmatique Re onnaissan e robuste de la parole, appli ation à la on eption d'un système de navigationembarquédansunevoiture

Des riptif du Do torat

Titre Contributiondel'appro hemulti-bandesàlare onnaissan eautomatiquedelaparole. Finan ement Allo ationdere her heduministèreMENESR et ontratd'en adrementdo toral. Dire teur Pr.Jean-PaulHaton

Soutenan e Thèsesoutenuele20septembre1999,auLaboratoireLorraindeRe her heen Infor-matiqueetsesAppli ations(LORIA) àNANCY.

(16)

1 Introdu tion

Dans e hapitre, je résume très brièvement, en quelques pages seulement, mes prin ipales ontri-butions dere her heau ours de es dernières années.Pour une présentation plusapprofondie de mes ontributions,j'invite lele teuràsereporteràlapartiedes riptions ientiquedumémoire,àpartirde lapage29.

L'obje tifde e hapitreétantdeprésentermes ontributionsprin ipales,j'aidé idéd'isoler ha une d'entre elle en la présentant indépendamment des autres. Dans la partie suivante, mes ontributions sontau ontraireintroduites,présentéesen ontexteetmotivées.Lemémoiredévelopperaégalementune analyseglobaledudomaineselonunpointdevueoriginal, eluidel'information, equipermetdemieux omprendre les similitudes et diéren es entre les nombreuses pistes de re her he explorées au ours de es dernières années et don de mettre en perspe tives les évolutions prévisibles et potentiellement intéressantespourl'avenir.

2 Modèles a oustiques multi-bandes

Les modèles multi-bandes dé omposent le signal a oustique en plusieurs bandes de fréquen es, et modélisent ha unede esbandesindépendammentlesunesdesautres.Lesunitésouséquen esd'unités re onnuesdans haquebandesontensuitere ombinéesenunrésultatunique.

Cetteidéeest issuedetravauxdepsy ho-a oustiquesquisuggèrentquel'auditionhumaine fon tion-neraitselonlemêmeprin ipe, 'est-à-diretraiterait lesinformationsa oustiquesindépendammentdans haquebandefréquentielle.

L'un des aspe ts les plus déli ats de ette appro he est la méthode de re ombinaison hoisie : de nombreuses appro hes de re ombinaison ont été proposées, et j'en ai moi-même testé quelques-unes, omme la ombinaison linéairepondérée ou l'utilisation d'un réseau de neurones, mais au une de es appro hes n'a permis d'appro her, même imparfaitement, les résultats observés dans les expérien es psy ho-a oustiques,qui ontmis en éviden e une re ombinaisonidéale dusystème auditifhumain.En eet,ilaétéobservéquelestauxd'erreurde haquebandefréquentiellesemultiplientlorsdeladé ision nale, equi onsituteunrésultatquin'ajamaispuêtrereproduitarti iellement.

Ande pallierauxlimites denosappro hes de ombinaison, j'aiproposéd'augmenter l'information enentréedusystème, en ombinantlesrésultatsde haquebandeet duspe tre omplet, equi permet de rendre au système multi-bandes l'information jointe perdue lors du dé oupage fréquentiel, tout en isolantles zonesfréquentielles éventuellementbruitées. J'aiainsi montréque la re onnaissan epouvait êtreamélioréesigni ativementmêmeen onditionsnonbruitées.

Toutefois,l'intérêtprin ipald'unsystèmemulti-bandesestsa apa itéàdésyn hroniserlesdiérentes bandesdefréquen es.En eet, unsystèmede re onnaissan etraditionnel,qui modélise haqueve teur a oustiqueparunmélangedegaussiennes,peutêtreégalement onsidéré ommeunsystèmesmulti-bandes ave unere ombinaisonbayésienne,aumoinslorsquelesmatri esde ovarian esontsupposéesdiagonales, hypothèsetrès ommune.Ladiéren eprin ipaleentrelessystèmesmulti-bandesetlesmodèles lassiques est don bien la possibilité de désyn hroniser les bandes. Pour explorer ette possibilité, j'ai testé la resyn hronisationdes bandes après haquetrame ou haquemodèlea oustique, omme ela avait déjà étéproposéparailleurs,maisj'aiégalementproposéderesyn hroniserlesbandesseulementàlandela

(17)

phrase, e quipermet d'exploiterau mieux lesavantages dumodèlemulti-bandes. Toutefois,l'avantage a quislorsde ettedésyn hronisationétaitengrandepartie ompenséeparlapertedeperforman esdue àl'augmentationdel'espa edere her he.

Uneautre ontributionimportanteaudomaineestlapropositionetl'etudedenouvellesunités a ous-tiquesmieuxadaptéesàl'informationee tivementprésentedans haquebande onsidérée individuelle-ment.

Lamodélisationmulti-bandes adepuisévoluénotammentverslesmodèlesmulti-ux quiintègrent plusieurssour esd'informationdiérente, ommelale turelabialeetl'a oustique.Denouvellessolutions ontégalementétéproposéespourrésoudreleproblèmedelare ombinaison,laplusintéressanted'entre ellesétant ertainementl'utilisationdemodèlesbayésiensquipermettentàlafoisd'intégrerla ombinai-sondansleformalismedumodèleetdemodéliserexpli itementdansleréseauledegréd'asyn hronisme souhaité. Ilest égalementraisonnablede onsidérerlare onnaissan eave donnéesmanquantes omme uneévolutionnaturelledesmodèlesmulti-bandes, arnousyretrouvonsl'idéedemasquer ertaines par-tiesduspe treetdemarginaliserles ontributions orrespondanteslorsdu al uldelavraisemblan edes observations.C'est d'ailleursdans ettevoiequemeseortssesontportésparlasuite.

3 Adaptation des modèles a oustiques

Mesprin ipales ontributionsdansledomainedel'adaptationdesmodèlesa oustiquessontd'unepart lesmodèlesauto-régressifsmulti-é helles,etd'autrepartlesappro hesbaséessurl'adaptationja obienne.

3.1 Modèles auto-régressifs

Danslesappro hes lassiquesd'adaptationtellesqueMLLRouMAP,unarbrederégressionest géné-ralement onstruitanderegrouperhiérar hiquementlesgaussiennesdesmodèlesa oustiquesen lasses de plusen plusspé ialisées.Cet arbre est très important, ar il permet demodier dynamiquement la pré ision de l'adaptation en fon tion de la quantité d'adaptation disponible. Ainsi, lorsque seulement quelques dizainesde se ondes d'adaptationsontdisponibles, les paramètresde l'adaptation seront al- uléspourla ra inede l'arbre,qui ontienttoutesles gaussiennesdes modèles.Par ontre, si plusieurs minutes designalétiquettésontdisponibles, alorslesystème des endraplusprofondément dansl'arbre derégression,et utiliseraunetransformationdiérente parexemplepourlesvoyelleset les onsonnes.

Il est don fondamental de pouvoir des endre autant que possible dans l'arbre de régression, an d'augmenterlapré isiondel'adaptation.Pour efaire,j'aiproposé,en ollaborationave KhalidDaoudi, d'utiliserdesmodèlesmulti-é hellesqui tiennent omptedesrelationsdedépendan eentredeuxniveaux del'arbre, equipermetdede sendremêmedesdansn÷udspossédantpeudedonnéesd'adaptation.Je me suisdon appuyésurlathéorie dessystèmes linéairesdynamiques qui modélisent ette dépendan e pardesdistributions onditionnelleslinéaires,etquiproposentdesalgorithmesd'inféren erapide, omme l'algorithmedeRau h-Tung-Striebel.

3.2 Adaptation ja obienne

J'aibeau ouptravaillésurl'adaptationja obienne,quiestuneapproximationlinéairedansle epstre delafon tiond'adaptationutiliséedansla ombinaisonparallèledemodèles(PMC).

Leprin ipaleavantagedel'adaptationja obienneestsont oûttrèsréduitparrapportàune adapta-tionexa te, omme elleréaliséedansPMC.Cefaible oûtpermetdedéployer etteappro hedansdes pu esde faible apa ité, omme ellesdestéléphones portables.J'aiexploré et avantagedel'appro he ja obienne en proposant une modi ationde l'algorithme d'adaptation permettant de régler ave pré- ision lemeilleur ompromis possibleentre omplexité et qualité del'approximation,en fon tion de la puissan edisponibleetdesexigen es deperforman esdel'appli ation.Cette apa itéestobtenuegrâ e à une dis rétisation plusou moins ne de l'espa e a oustique sur laquelle des transformations exa tes sont al ulées,etserventdepointsderéféren esurlesquelss'appuiel'adaptationlinéaire.Cetteappro he permetégalementdes'aran hirenpartie del'hypothèsedebase del'adaptationja obienne,qui est la proximité a oustiquedes environnementsd'apprentissageet de test. Dans e même but, j'ai également

(18)

proposéde ompenserlebiaisinduitparl'adaptationja obiennelorsque es onditionsdièrentdeplus enplus.

Une autre ontribution importante au domaine a été d'étendre le formalisme ja obien aux bruits additifset onvolutifs.

Notons pour on lure que ertaines onséquen es induites par l'approximation linéaireréalisée par l'adaptationja obiennepeuventserévélerparti ulièrementintéressante,enannulant ertainsdéfautsde l'adaptationPMC.Citons-en simplementdeuxi i.Toutd'abordlefaitquePMCnepeutqu'ajouterdu bruitauxmodèles, equiimposed'avoirdes onditionsd'apprentissageaussipeubruitéesquepossibles, onditionsqui sontdon relativementéloignéesdes onditionsréelles, alorsquel'adaptationja obienne fon tionnemieux lorsque les modèlessont enregistrés dans des environnements (relativement) bruités. Ainsi,l'adaptationja obiennepeutaussibienajouterqu'enleverdubruitauxmodèles,grâ eàlalinéarité de latransformation. Enn, toujours du fait de ette linéarité, l'adaptation ja obienne n'introduit pas deseuillage, ommeil en existe dans PMC, et qui sont àl'originedu bruit musi al de la soustra tion spe trale.

4 Débruitage du signal

Maprin ipale ontributiondansledomainedudébruitagedusignaldeparole on ernelaproposition d'uneméthodededébruitagebayésiennomméeSPACE,pourStereo-basedPi ewiseAneCompensation forEnvironments.J'aiproposé etteappro heen ollaborationave KhalidDaoudi,àl'IRITdeToulouse. Leprin ipefondamental de etteappro he onsisteàmodéliserrespe tivementlesespa esdeparole propreetbruitéepardeuxGMM(GaussianMixtureModel)dontlesgaussiennessonten orrespondan e. NousavonsensuiteproposédeuxvariantesdeSPACE:

 Danslapremière,nous onstruisonsunetransformationanededébruitageentrelesespa esdénis par esdeuxGMM.

 Dans la se onde, nous remplaçons ette transformation ane par une te hnique de débruitage exploitantla orrélation roiséeentrelesobservationsbruitéeset nonbruitées.

La prin ipale di ulté de SPACE est de préserver autant que possible la orrespondan e entre les gaussiennespropresetbruitées.Pour efaire,nousavonstestéplusieursappro hes:

 Lapremièrepréservel'alignementdesobservationsetdes gaussiennesentrelesapprentissagesdes deuxGMM;

 La deuxième s'appuie sur le ritère de minimisation de l'erreur quadratique pour onstruire une gaussiennepropreàpartird'unegaussiennebruitée;

 Latroisièmeréaliseunapprentissagejointdansl'espa epropreetbruité,puismarginaliselemodèle résultantensesdeux omposantes.

L'avantage de notre appro he par rapport aux autres méthodes lassiques de débruitage, omme SPLICE,est de s'appuyersur deux ensembles deGMM quisontmis en orrespondan e, e qui permet d'adapterl'unoul'autredesmélangesàdenouvelles onditionsquin'ontpasétévuesàl'apprentissage. Dans e adre,nousavonsproposéuneméthoded'adaptationlinéairesimplemaise a e, arellegarantit la onservationdela orrespondan eentre lesGMMpropresetbruités.

5 Re onnaissan e ave données manquantes

5.1 Prin ipes de la re onnaissan e ave données manquantes

Pluttquedebruiterlesmodèlesoudébruiterlesignal,lare onnaissan eave donnéesmanquantes supposeque lesmodèlesde parole nepeuventpasreprésenter tout lesignalperçu,mais seulement une partiede elui- i,leresterelevantdela ontributiond'uneouplusieursautressour esdebruits.

La séparationentre les observations qui orrespondent respe tivement à de laparole et à dubruit estréaliséedansledomainespe tralaumoyend'unmasquequi,dans saforme laplussimple,ae teà haque oe ientspe tralunevaleurbinaireselonqu'ellereprésenteprin ipalementlaparoleoulebruit. Ilexistedon deuxproblèmesfondamentauxenre onnaissan eave donnéesmanquantes,problèmes quipeuventêtrerésolus onjointement,maisquenousséparonspourla lartédel'exposé:

(19)

 Construire le masque, 'est-à-dire dé ider pour haque oe ient spe tral s'il est dominé par le bruit oulaparole;

 Prendreen omptelemasquependantlare onnaissan e.

Danslalittérature,deuxappro hesprin ipalesontétéproposéespourrésoudrelepremierproblème:la premières'appuiesurdeste hniquesdetraitementdesignalpourestimerlerapportsignal-sur-bruitlo al oud'autres ritères ommel'harmoni ité,etendéduireunevaleurdemasque: 'estl'é oledeSheeld. Lase ondes'appuiesurdesmodèlessto hastiquesdedonnéesrespe tivementmasquéesetnonmasquées: 'estl'é oleduCMU.Montravailprend pla edansle adrede ette deuxièmeappro he.

Demême,pourprendreen omptelesmasquespendantlare onnaissan e,deuxméthodes on urrentes peuvent être respe tivement attribuées à es deux universités : pour l'Angleterre, la méthode dite de marginalisation,qui intègrelorsdu al ul de lavraisemblan edes observationsles oe ientsmasqués sur toutes les valeurs que peut prendre la ontribution de la parole seule; et pour les Etats-Unis, la méthoded'imputation,qui tentedere onstruirela ontributiondelaparoleseule.Montravails'inspire ette foisdel'appro heanglaise.

Je résume i-dessous mesprin ipales ontributions,respe tivementpourlesdeuxproblèmes.

5.2 Étude sur la génération de masques

Mapremière ontribution on ernelaréda tiond'unarti ledesynthèseréalisantuneétudeetunétat del'artdesdiérentesméthodesquipermettentd'estimerunmasquededonnéesmanquantes. J'ypasse enrevuelesappro hesbaséessurl'analysedes ènesauditives omputationnelle,laséparationdesour es aveugleave unseul apteur, leste hniques detraitementde signalainsique lesméthodes fondéessur diérentstypesdemodèles.

5.3 Modèles de masques ontextuels et dépendant de l'environnement

Uneautre ontribution,quiaétéréaliséedansle adredutravaildethèsedeSébastienDemange, pro-posed'améliorerlaqualitédesmodèlesdemasqueenréduisantlavariabilitédusignalmodéliséaumoyen d'un nouvelle variablealéatoire dis rètereprésentantdiérentstypesd'environnementsbruités. Le sys-tèmerésultantestimedon d'abordquelleestlaprobabilitéd'êtredansun ertaintyped'environnement, puispondère les ontributionsdesmodèles orrespondantpar etteprobabilité.

De plus,toujoursdanslebutde réduirelavariabilité dusignalmodélisé, nousavonsproposé d'aug-menterlesobservationsa oustiquesmodéliséesparleur ontextetemporel etfréquentiel.Lepremierest prisen omptegrâ eauxdérivéestemporellesdesobservationsetauxtransitionsdesmodèlesdeMarkov. Lese ondl'estenmodélisantunmasqueve torielpourtousles oe ientsspe trauxauseind'unmême ve teura oustique, equinepeuttoutefoisêtreréalisédire tementà ausedel'explosion ombinatoiredu nombredemasquesdiérentsàmodéliser.Nousavonsdon réduitlenombredemodèlesendis rétisant l'espa edesmasques,aprèsavoirmontréque etespa eest reux, equiautoriseànemodéliserqueles quelquesrégionsdensesenmasques.

5.4 Optimisation de la marginalisation

En equi on ernel'utilisationdesmasquesdedonnéesmanquantespendantlare onnaissan e, éga-lement dans le adre de la thèse de Sébastien Demange, nous avons proposé d'optimiser l'intervalle de marginalisation en le réduisant autant que possible an d'améliorer la qualité de l'estimation de la vraisemblan ea oustique. Nousnous sommesappuyésd'une partsur ladénition exa te du ritèrede seuillagedu rapport signal-sur-bruitutilisé pour estimerlesmasquesande xerdespremières bornes de l'intervalle de marginalisation, puis nous avons exploité l'hypothèse selon laquelle les observations sont gaussiennes pour déduire un intervalle beau oup plus petit qui a 90 % de han e de ontenir la ontributiondelaparoleseule.

(20)

5.5 Optimisation du taux d'erreur

Depuisenvirondeux ans,parallèlementauxdiverstravauxrésumés i-dessus,jeréé his àune nou-velleformulationdes on eptsfondamentauxde lare onnaissan eave donnéesmanquantes, quiviseà optimiserdire tementletauxd'erreurenmotspluttquedepasserparl'intermédiairedurapport signal-sur-bruit.Je n'aipas publié ette appro he pendantplusieurs années, ar j'estime queje n'avaispasle re ulné essaire pour ela.De plus,laseuletentativequej'ai faiteen2007pourpublier ette idéeaété pluttmal a ueillieparlerele teur,àmonavispar equ'ellesedémarquetropdu ourantderéexion prin ipaldudomaine,etsansdouteaussipar equejen'avaispasalorsderésultatsexpérimentaux su-sants.Cesrésultats ommençantàapparaître,j'aidon publiépourlapremièrefois estravauxen2008. Lapropositiondemasquerlesobservationsenoptimisantletauxd'erreurrésouddenombreuxproblèmes persistantdudomaine dela re onnaissan eave donnéesmanquantes, dontla dépendan e parrapport àlaparamétrisation,ou en oreletraitementdes oe ientsdynamiques.Toutefois,lamodélisation de telsmasquesestbeau oupplusdi ilequedansle as lassique.Jesuisnéanmoinsnalementparvenuà inférer esmasquesàpartirdesmesuresde onan eestiméessurlerésultatdelare onnaissan e.Cette appro heprésente don unautreavantage,quiest defairelelien entre deuxdomainesdere her he:la re onnaissan eave donnéesmanquantes et l'estimation de mesuresde onan e, et par làmême pro-pose une piste originale pour résoudre un problème ré urrent du dernier domaine, qui est d'exploiter e a ementlesmesuresde onan epour orrigerleserreursdelare onnaissan e.

6 Re onnaissan e de la parole en Intelligen e Ambiante

6.1 Analyse du domaine

L'intelligen eambiante(AmI)étantundomainedere her hebeau oupplusgénéralquela re onnais-san eautomatiquedelaparole, ellen'apasapriorideliensdire ts ave ettedernière.L'AmI s'appuie sur de nombreuses te hnologies diérentes, omme les réseaux de apteurs, la gestion de l'énergie, les nouveauxterminaux,lesréseauxadho ,lagestiondu ontexte,oulesinterfa eshomme-ma hine(IHM). Toutefois,l'utilisateurétantau ÷urdel'AmI, esdernièresontunepla eprépondérantedansledomaine. L'appli ationdire teà enouveaudomainedeste hnologiesintéra tivesquiontétédéveloppéesdepuis denombreusesannéespourlesinterfa eshomme-ma hine(IHM)poseun etainnombredeproblèmes.En eet,une étudeplusapprofondiedel'informatique ubiquitairemontre quelesbesoinset les ontraintes sontprofondémentdiérentsde euxdesIHM lassiques,aupointq'unnouveautermeestapparu, eluid' intera tionsimpli ites.Ilyadon uneréexionparti ulièreàmenerpourappliquerlare onnaissan ede laparoleàl'AmI,réexiondanslaquellejemesuisengagédepuis2002,datededébutduprojeteuropéen OZONE.D'autres her heursrenommésenre onnaissan eautomatiquedelaparole,dontSadaokiFurui, ontégalementmenéstrèsré emmentuneréexionsimilaire.

J'aitravaillésur ettequestiondansle adrededeuxprojetseuropéensintégrés,OZONEpuisAmigo, ainsi que dans le adre d'un groupe de travail de l'OFTA, qui a réunit une dizaine de her heurs de diérents domainespendant 2ans pourréé hir au domaine et proposer des orientations futures. J'ai ainsi publié dans un hapitre d'un ouvrage de l'OFTA le fruit de ette analyse, du point de vue des interfa eshomme-ma hine.

6.2 Intera tions impli ites

Lessystèmesd'AmIdoiventêtredéployéspartout,fon tionnerenpermanen e,etaiderlesutilisateurs autantquepossibledansleurstâ hesquotidiennes.Ilsdoiventdon interagirave lesutilisateurs,maisen lesdérangeantlemoinspossible, 'est-à-direenrequérantunminimumd'eort ognitifetd'attentionde leurpart.Lesintera tionsimpli ites sontdestinées àréaliser e i,et sontfondéessur uneobservation onstante del'utilisateur,qui permet ausystème deprévoirquellessontlesa tionsquipeuventluiêtre utiles,sansfor émentavoirre oursàuneintera tionexpli iteave lui.Cedomaineestégalement onnu souslenomd'interfa esattentives.

Dans e adre,lesintera tionsimpli itesparlaparole onsistentàé outerenpermanen el'utilisateur et son environnement, notamment au ours de ses onversations ave d'autres personnes, médiatisées

(21)

(téléphone, vidéo- onféren e, et .) ou non. La te hnologie vo ale requise pour ela dière en plusieurs pointsimportantsdesappro hestraditionnellesenre onnaissan eautomatiquedelaparole:

 L'obje tifn'est(engénéral)pasdetrans rirelaparole,maisilestdela omprendre,oudemanière plusréaliste,d'extraireun ertainnombred'informations utilesausystèmed'AmI.

 Le domained'appli ation n'estpasrestreint ommedansla plupart desappli ations intera tives, maisilestgénéraletouvertàtout equipeutêtreditau oursd'une onversationentrepersonnes.  L'utilisateur ne parle pas volontairement au système, ou du moins le destinataire prin ipal de son dis ours n'est pas la ma hine : la parole est don spontanée, et l'utilisateur s'appuyera sur les onnaissan es générales partagées entre les hommes, et sur le ontexte intera tif présent et passé qu'il aave sesinterlo uteurs. Toutes es informations nesontpas disponiblesau système, qui ne pourra résoudre fa ilement les ellipses, allusions, et métaphores omni-présentes dans nos onversations,ensupposantqu'ilparviennedéjààtrans rirerelativementexa tementdelaparole spontanée.

 Latâ heparaîtdon insoluble,maisune ontre-partieimportanteà esdi ultésestquel'utilisateur n'attendrienapriorideparti ulierdusystème:ilestdon engénéralpréférabledenepasdéranger l'utilisateur en asde doutesur sessouhaits,et d'attendre d'avoirune onrmation impli ite, ou indire teunpeuplustard.

Notons nalement que la parole n'est qu'une modalité parti ulière pour lesintera tions impli ites, et j'ai don travaillé en ollaboration ave les équipes Langue&Dialoge, puis TALARIS, à intégrer la re onnaissan ede la paroledans des ar hite turesmulti-modales,en fon tion des ontraintes imposées par les plate-formes d'intelligen e ambiante, que j'ai prises en ompte notamment en on evant des implémentationsdefaible omplexitéalgorithmiqueetportables.Deplus,uneintera tionimpli iteétant pardénitiondis rètevis-à-visdel'utilisateur,elledoitobligatoirementpasserparunmoduledegestion du ontexte, equenousavonsréaliséenanalysantd'unepartle ontexteenvironnementalpourdé ider delamodalitéd'intera tionlaplusappropriée, eten omplétantlesinformations ontextuellesglobales parlesindi esdéduits del'é outedesutilisateurs.

Au-delà des mots, j'ai également proposé d'extraire des informations de plus haut niveau du ux deparole, informationsqui peuventainsienri hirlemodulede ontextedusystème d'AmI,et quisont dé ritesdanslesdeuxparagraphessuivants.

A tes de dialogue

Dans le adre delathèse dePavelKrál, nousavonstravaillésurlare onnaissan eautomatiquedes a tesdedialogueàpartird'unsignaldeparole.Una tededialoguedistingueparexemplelesquestions desréponses,lesarmationsdesordres,et .Nousavonsdéveloppéplusieursmodèlesd'a tesdedialogue ombinant lesinformations lexi ales et prosodiques. Nous avonségalement proposé des appro hes per-mettantdeprendreen omptedesinformationssyntaxiquesglobales,quisesontrévéléestrèsutilespour l'identi ation des a tesde dialogue. Lesappli ations dire tes de es travaux dansle adrede l'intelli-gen eambiantesontparexempledere onnaîtreunequestiondire tedel'utilisateurpourlesystème, et don dedis riminer entre intera tions expli ites et impli ites, ouen ore d'utiliser lesa tes dedialogue ommeinformationsdebasequi, ombinéesàd'autres,peuventpermettrededéduiredes onnaissan es surl'o upationdel'utilisateur,sonimpli ationdansledialogue,sonétatémotionnel,et .

Re onnaissan e de thèmes

J'aitravailléégalementsurlare onnaissan eautomatiqueduthèmedudis oursoudes onversations engagées entre plusieursutilisateurs. La re onnaissan e de thème à partirde texte est undomaine de re her he bien onnu, et mes ontributions prin ipales sont, d'une part, d'avoir développé un modèle bayésiendethèmeutilisabledire tementdansuneplate-formed'intelligen eambiante,etsurtoutd'avoir travaillésur des méthodes de lassi ationautomatique de thèmesdire tement àpartir duux audio, 'est-à-dire sans passer par un système de re onnaissan e de la parole à grand vo abulaire, mais en s'appuyantsurunere onnaissan ephonétiquesuivied'uneméthoded'a quisitionautomatiquedulexique etd'une lassi ationhiérar hiquedesmorphèmesa oustiquesextraitsen lassessémantiquesaumoyen d'unedistan ebaséesurla o-o uren e.L'intérêtprin ipalde ettere her heestsa apa itéd'adaptation

(22)

àdenouvelleslangues et àde nouvellestâ hesàmoindre oût, e qui orrespondbien aux ontraintes d'autonomieetd'adaptabilitédel'intelligen eambiante.

(23)
(24)

Post-Do torat

J'ai a ueilli un her heur en post-do torat (Dr. Sen Zhang) en 2002, dans le adre du projet eu-ropéenOzone,pendant18mois, sur l'intégrationde notresystème de re onnaissan edelaparole dans l'ar hite turemultimodaledéveloppéedans eprojet.

J'en adre depuis o tobre 2009 un post-do torant (Dr. Frédéri Tantini) sur l'apprentissage semi-superviséd'un analyseursyntaxiquedestrans riptionsautomatiquesdel'oral.

Thèses

J'ai o-en adréave ungrandplaisirdeux thésardsdel'équipeParole: SébastienDemangeet Pavel Král,etj'ai ommen éà o-en adrerdepuiso tobre2008unnouveauthésard,ChristianGillot,sur l'amé-liorationdelare onnaissan eautomatiquedelaparolepardesinformationssyntaxiquesetsémantiques.

PavelKrál a ommen é unethèse en o-tutelleen2003, sousladire tionde YvesLaprie etde moi-mêmeàl'UniversitéHenriPoin arédeNan y,etsousladire tionduPr.JanaKle kovaàl'Universitéde Bohèmede l'OuestàPlzen, enRépubliqueT hèque. Sonsujet de re her he on ernelare onnaissan e automatique des a tes de dialogue en Français et en T hèque, sujet qui intègreharmonieusement nos ompéten es en modèles sto hastiques à Nan y, et les études en analyse prosodique réalisées à Plzen. Pavelasoutenusa thèseave su èsen2007etaobtenudanslafouléeunposted'enseignant- her heur permanentdanssonUniversitét hèque.

Sébastien Demange a débuté sa thèse à l'Université Henri Poin aré de Nan y dans l'équipe Parole en2004sous ladire tion onjointe duPr. Jean-PaulHaton et demoi-même. Le sujetde re her heque j'aiproposéen2004estdire tementissudemestravauxsurlare onnaissan edelaparoleave données manquantes. Sébastien a soutenu sa thèse ave su ès en 2007, et est parti depuis en post-do torat à l'UniversitéCatholiquedeLeuvensurunnan ementeuropéen.

J'aiégalementen adré,pourun ourtséjourd'unmoisenfévrier2008,uneenseignantedel'Université d'Oran(Algérie)quiétaiten oursdepréparationdesathèse,surunsujetseraportantàla onstru tion desmasquesdedonnéesmanquantes.

DEA, Master 2

J'ai o-en adréPavelKrálégalementau oursdesonstagedeD.E.Adansl'équipeParoleen2002/2003 surunsujetpro hedelare onnaissan edesa tesdedialogue.

(25)

Li en es, maîtrises, Master 1, élèves ingénieurs

J'aien adrétroisstagiaires(LaëtitiaChipot,FawziLahmaretAlexPandourangam)enmaîtrise d'in-formatiqueàl'Université HenriPoin arésurun sujetde normalisationdelalongueurdu onduit vo al enre onnaissan eautomatiquedelaparoleen2002.

J'aiégalementen adréen2002pendant3moisunétudiant(Pierre-AlixDan er)endeuxièmeannée d'ingénieurENSTA surlaséparationdesour essonores.

J'aiégalementen adréen2005unstagiairede1èreannéedel'ENSEIHTsurla on eptiond'interfa e graphiquepourunsystemedere onnaissan edelaparole.

J'aien adréunstagiairede2èmeannéed'ESIALsurla on eptiond'undémonstrateurde re onnais-san edelaparoleen2006.

Plusré emment,j'aien adréunautrestagiairede2èmeannéed'ESIALen2008surleprojetALIGNE duCPERTALC on ernantl'alignementsemi-automatique texte/parole,àraisond'uneaprès-midi par semainependant4mois.

J'aiégalementen adréunstagiairedend'é oled'ingénieurENSI(Tunis)pendant4moissur l'amé-liorationdelare onnaissan eautomatiquedelaparoleparlapriseen ompted'informationssémantiques en2008.

J'ai en adré pendant deux mois à ompter de juin 2009 un stagiaire de Master 1 sur un sujet de re her hesurlaphonétisationautomatiquedesmotsin onnusexploitantun lassieuràbased'exemples, and'améliorerlelogi ield'alignementJTrans.

J'ai o-en adré également, ave Claire Gardent, pendant les deux mois d'été 2009, 4 stagiaires en li en e linguistique pour annoter des orpus de trans riptions orales en dépendan es syntaxiques. De même,j'aiégalement o-en adrépendantdeuxmoisunstagiaireuniversitaireindiensurla lassi ation automatiquedesverbesselonleurréalisationsyntaxique.

(26)

Projet européen OZONE

OZONEestunprojetintégré(IST-2000-30026)nan éparlaCEEportantsurl'intelligen eambiante. IlestportéparPhilipsResear hEindhoven,lesautrespartenairesétant:T-SystemsNova(Allemagne), IMEC(Belgique),PhilipsResear hFran e,EPICTOID(Pays-Bas),TUE(Pays-Bas),INRIAetThomson Multimedia.OZONEadébutéennovembre2001ets'estterminéave su èsenmai2004.Le oûttotal duprojets'élevait à12,21millionsd'euros.

Monimpli ationdansleprojet on ernaitaussibienlesaspe tss ientiquesquelagestionduprojet auseinduLORIA.J'étaisenparti ulierresponsabled'unetâ heduprojet on ernantlamultimodalité. J'assurais également la gestion duworkpa kage sur les interfa es utilisateursave YvesLaprie, qui en étaitleresponsable.Je géraiségalementlesaspe ts nan iers on ernantl'impli ation duLORIAdans leprojet,en ollaborationave lesSAFduLORIAetdel'INRIA Ro quen ourt.J'animaislegroupede travailduLORIA omposédesmembresdulaboratoireimpliquésdansle projet, etj'assuraislaliaison entreleLORIAetl'INRIA d'unepart,etlespartenairesextérieursduprojetd'autrepart.

Projet européen Amigo

Amigoestunprojetintégré(IST004182)nan éparlaCEEportantsurl'intelligen eambiante.Ilest portéparPhilips Resear hEindhoven,lesautrespartenairesétant:PhilipsDesignetPhilipsConsumer Ele troni s, Fagor (Espagne), Fran e Tele om, Fraunhofer IMS (Allemagne), Fraunhofer IPSI, Ikerlan (Espagne),INRIA, ItaldesignGiugiaro(Italie), Knowledge(Grè e),Mi rosoft(Allemagne),Telin (Pays-Bas),ICCS(Grè e),Telefoni aI+D(Espagne),UniversitédePaderborn(Allemagne)etVTT(Finlande). Amigos'est poursuivideseptembre2004àmars2008,pourun oûttotalde24,03millionsd'euros.

Dans e projet, nous ollaborons ave l'équipe Langue&Dialogue du LORIA dans la poursuite de noseorts débutés dansOZONE destinésàdévelopperles intera tionsmutimodaleset les intera tions impli itesdanslesplate-formesd'intelligen eambiante.Tout ommedansleprojetOZONE,jegèreles aspe tsnan iers on ernantleLORIAen ollaborationave lesSAFduLORIAetdel'INRIA Ro quen- ourt,ainsiquel'animationdespersonnelsduLORIAimpliquésdansleprojet,quisontdesmembresdes équipesParoleetLangue&Dialogue(aujourd'huiTALARIS).J'assumeégalementlaresponsabilitéd'une sous-tâ he du projet on ernant les interfa es multimodales, et je représente généralement le LORIA vis-à-visdesautrespartenairesduprojet.

Projet européen MIAMM

Le projet MIAMM mets en ollaboration les équipes PAROLE et LANGUE ET DIALOGUE du LORIAave entre autre l'Université deKarlsruhe etla so iété SONYan dedévelopperdesinterfa es Homme-ma hinemulti-modalesexploitantnotammentlare onnaissan edelaparoleetleretourd'eort. Monimpli ation dans e projet aété relativement modeste et a onsisté au moisd'o tobre2001 àdes a tivitésde onseilentantquespé ialisteenre onnaissan edelaparole.

(27)

Projet européen HIWIRE

Le projet HIWIRE s'est déroulé de septembre 2004 à 2007. Ma parti ipation dans e projet est uniquements ientique:jem'o upedesaspe tsdere her heetdetransfertste hnologiques on ernant la re onnaissan eave donnéesmanquantes et les réseaux bayésiens,en ollaborationave Irina Illina, DominiqueFohretSébastienDemange.

Campagne d'évaluation Te hnolangue

J'aiparti ipéàla ampagned'évaluation Te hnolangueESTER, en ollaborationave lesautres membresdenotreéquipe.Dans e adre,nousavonsdéveloppéune plate-formedere onnaissan e auto-matiquedelaparolegrandvo abulairedédiéeàlatrans riptionautomatiqued'émissionsradiophoniques. J'ainotamment mis en pla e et géréune grappede PC, indispensableaux tâ hes lourdes d'apprentis-sagerequises dansune telleappli ation.Jemesuisainsio upédel'apprentissageparallèledesmodèles a oustiques ontextuels, et je suis également àl'origine de l'utilisation du dé odeur grand vo abulaire basésurlemoteurdere onnaissan ejulius.

Je suiségalementimpliquédansladeuxième ampagned'évaluation ESTER2quiadébutéen2008. J'ainotamment onçuunenouvellear hite turemodulairepourlaplate-formeANTS,et ré-implémenté l'ensembledenoss riptsd'apprentissagesouslaformede omposantsindépendant, equi fa ilite gran-dementlamaintenan ede esoutilsetleurréutilisabilitédansd'autresprojets.Pourlamêmeraison,et pourfairefa eaudoublementdelataille du orpusd'apprentissageentrelesdeux ampagnesESTER, j'ai re-programmé un omposant JAVA qui fa ilite ledéploiement enparallèle de l'apprentissageet de l'optimisationdesparamètressurun orpusdedéveloppementsurun lusterdePC.Jemesuisnalement engagéàparti iperàla ampagned'évaluationnmars2009delasegmentationduuxaudioenphrases ave ChristianGillotetPavelKràl.Nousavons onçupour efairedesméthodesoriginalesexploitantle rythmeprosodique ombinéave desinformationssyntaxiques.

Projet RAPSODIS

Je suis a tuellement porteur duprojet RAPSODIS qui est une ARC INRIA ayantdébuté en 2008 etdevantdurerdeuxans.Cettea tionapourthèmele al uld'informationssyntaxi o-sémantiquesan d'améliorer lare onnaissan e automatiquede laparole. Il est réaliséen ollaborationentre leséquipes PAROLEet TALARIS duLORIA,leséquipesMETISSet TEXMEXde Rennes,etl'équipeLIC2Mdu CEA-LISTdeParis.

Projet ALIGNE

Je suisa tuellementporteurduprojetALIGNEduContratPlan-Etat Région(CPER) MISNTALC quiadébutéen2008etqui on ernel'alignementtexte/paroledanslebutd'aideràla réationde orpus linguistiques.Ceprojet,d'uneduréededeuxansa ommen éen2008etestréaliséen ollaborationave les équipe PAROLE et TALARIS du LORIA, et l'équipe Corpus Oraux du laboratoire ATILF. Plus globalement,jepartagela oordinationduCPERMISNTALCave ClaireGardentdepuis2008.

Divers

 J'aiétéimpliquédansun ertainnombredepropositionsdeprojetsquin'ontnalementpasabouti, omme les réseaux d'ex ellen e AIRLARGE et AIRSOFT, la proposition de projet européen Pierre et Marie Curie AmbiCom, une proposition de projet ITC-Asie, et plusieurs propositions nationalesARCetANR.

 Je suis a tuellement en train de préparer une ollaboration nationale dans le adre des ANR blan hes,a tionquidevraitêtredéposéeen2010.

(28)

Mesprin ipaux enseignementset responsabilitésasso iéessontrésumés i-dessous.

 De1996à1999,pendantmestroisannéesdethèse, j'airéalisémon monitoratàl'ESSTIN, oùj'ai pris laresponsabilité du ours de JAVAet d'UML. J'aiainsi réalisé64 heuresequivalentTD par andeCM,TDet TP, soitautotal192h.

 Aprèsmonpost-do torat,pendantl'années olaire2000-2001,j'aiobtenuunposted'ATERàl'UHP, au oursduquelj'ai enseignélesbases dedonnéesenLi en eet enMaîtrise.J'aiégalementprisla responsabilitédu oursdeJAVAetd'UMLàl'IUTdeSt-Dié.

Aprèsl'obtentiondemon postede CRCNRSen septembre2001,j'ai hoisi depoursuivreles ensei-gnementsdé rits i-dessous.

 Pendantl'années olaire2002/2003,j'ai donné32hdeTD/TPenDEUGenprogrammationobjet etJAVA.

 Ensuite, pendant l'année s olaire 2003/2004, j'ai donné 37 h de CM, TD et TP en initiation à l'informatiqueenMaîtrised'italienetd'espagnol àNan yII.

 Ensuite, pendantl'année s olaire2004/2005,j'ai donné 20h deTD d'algorithme et de JAVA en DESSChimie.

 Finalement,pendantl'années olaire2006/2007,j'aiprislaresponsabilitédu oursdere onnaissan e automatiquedelaparoleenMasterre her he,pouruntotalde15hde oursmagistraux.J'aidonné égalementuneversionplus ourtede e ours (6hdeCM)ennovembre2009.

(29)
(30)

Parti ipation à des jurys

J'aiparti ipéàdeuxjurysdethèses:

1. JurydethèsedeSébastienDemangeeno tobre2007; 2. JurydethèsedePavelKrálennovembre2007;

J'aiparti ipéàunjurydeDEA, eluidePavelKrál en2003.

Responsabilités

J'aipris un ertain nombre deresponsabilités dans le adre dela dire tion,delaproposition,dela gestionetdusuivideplusieursprojetseuropéensetplusieursprojetsnationaux: esresponsabilitéssont résuméesdansleparagrapheValorisationettransfert,etjenelesrappellepasi i.

D'autrepart,j'ai prisd'autresresponsabilitésd'administrationdelare her heplustraditionnelles, dontlessuivantes :

 J'aiétéélu au onseil delaboratoireduLORIApendant4ans.

 J'aiétééluàla ommissiondespé ialistedel'UHPen2006,maismalheureusementsanseet, ar etteéle tionaétéannuléesuiteàlaloisurl'autonomiedesuniversités.

Rayonnement

Monrayonnements ientiquereposeessentiellementsurmespubli ations,dontlaliste omplèteest donnéeen AnnexeBàlande e dossier,ainsi quesurmonimpli ationdansdesprojetsdere her he, quisontdé ritspréalablement.Deplus,nouspouvonsnoterlesquelquesélémentssuivants:

 J'aiété onféren ierinvité àla onféren einternationaleA ousti senmai2008.

 Jesuis rele teurrégulier desrevuesinternationalesIEEETrans.onSpee handAudio Pro essing, Spee hCommuni ation,ComputerSpee handLanguage,"Integration,theVLSIJournal",Pattern Re ognitionLetters,et deplusieurs onféren esdudomaine.

 J'aiétérele teurpourl'ANRen2009.

 J'aiétérele teurpourleCoun ilofResear h del'Université atholiquedeLeuvenen2009.  En2004,j'aiétéinvité ommemembredugroupedel'ObservatoireFrançaisdesTe hniques A

van- ées (OFTA http://www.ofta.net) on ernant l'intelligen e ambiante. Cette asso iation, réée parlaSo iétéAmi aledesAn iensElèvesdePolyte hnique,organisetouslesdeuxansungroupe

(31)

de travailsur undomaine s ientique émergent.Ce grouperassemble une vingtaine demembres, a adémiquesetindustriels,and'analyserl'importan eet l'évolutionfutured'undomaine te hno-logique émergent.Cetteétude aduré 2ans,àraison d'uneréunion toutesles 6semaines,àl'issu desquelles un livre de la série Arago est publié, qui résume l'état de l'art du domaine et émet des re ommandations sur le domaine étudié à destination des dé ideurs industriels, politiques et nan iers.Outre maparti ipationauxréunionsdugroupe,j'ai réalisédans e adreunséminaire surlesinterfa eshomme-ma hinesenintelligen eambianteetj'ai o-rédigéun hapitredulivrede synthèse.

(32)

re onnaissan e automatique de la

(33)
(34)

Introdu tion

1.1 Les hypothèses, sour es d'information

Enre onnaissan eautomatiquedelaparole,l'informationfondamentaleest ellequiestobservée.Elle prenddeuxformes:d'unepart,lesignaldeparole,etd'autrepart,l'utilisationdesmotsdanslalangue. Toutelare onnaissan eestbaséesur esdeuxinformationsprimaires.Maisl'informationa oustiqueest extrêmementvariable,etiln'existeau unegrammairequipuissedé rireunelanguepré isément.Iln'est don paspossibled'établirunerelationentrelaparoleetlesmotsàpartirde esdeuxseulesobservations, etd'autressour esd'informationdoiventêtre onsidérées.

Cesinformationssupplémentairessontenfaitdeshypothèsesquireètentnos onnaissan esliéesaux phénomènes observéset qui ontraignent ainsi l'espa e de re her he des relations potentielles entre la paroleet lesmots.

Mais es hypothèses peuvent aussi bien aider la re onnaissan e que l'induire en erreur. En eet, dans le meilleur des as, elles reètent des onnaissan es que nous avons de bonnes raisons de roire véridiques, ommeparexemplel'additivitédessignauxa oustiquesdansledomainetemporel.Maisnous savonsquela plupartd'entre ellesnesontqu'approximatives,maisnéanmoins utilespoursimplierles al uls, omme parexemplel'hypothèsed'additivité desspe tresdepuissan edessignauxa oustiques. Lepire as,malheureusementtrèsfréquent,est eluideshypothèsesquenoussavonsfaussesmaisquisont pourtantadoptéesandefa iliterlesdérivationsmathématiques, ommelaforme onjuguéedesdensités apriori dansles dérivationsbayésiennesoul'indépendan e des oe ientsstatiques et dynamiques (!) danslesve teursd'observationa oustiques.

Toute appro heen re onnaissan edelaparolereposedon surunempilementd'hypothèsesplusou moinsvraisemblableset dis utables.Le nombrede méthodesexistantes reètelamultipli ité des hoix d'hypothèses réalisables. Portons au rédit des arti les publiés dans la littérature du domaine le fait queles hypothèses réaliséessont en généralrelativementbien dé rites et motivées. Toutefois, fa e àla multitude de méthodes proposéesdepuis plusieurs dé ennies, il est indispensable de pouvoir omparer esméthodesentreelles.Cette omparaisonestgénéralementréaliséeselonun ritèrequantitatif,leplus souventletauxdere onnaissan esurun orpusetunetâ hedonnée.

Jepense ependantqu'ilestaumoins aussiimportantde omparerleshypothèsessous-ja entesaux méthodesqueleur tauxdere onnaissan e. En eet,auvu dunombred'hypothèsesréaliséesaussibien impli itementqu'expli itement,iln'estpasrarequedesappro hesapriorimotivéespardes onsidérations très diérentes se révèlent nalement semblables, voire identiques. Mais le plus important n'est pas là : haque hypothèse établit en réalité un ompromis entre les ontraintes imposées au système de re onnaissan eetses apa itésdegénéralisationàd'autrestâ hesetd'autres onditions.Les ontraintes sontindispensables, ar ellesguidentle hoixde lasolutiondansl'espa equasimentinni desrelations possibles.Maiselleslimitenten ontrepartielesdomainesd'appli ation(tâ he,typedebruit,lo uteurs, et .)d'uneméthode.

Comparer deuxappro hesuniquementparleur tauxde re onnaissan e n'estdon pas able, arla méthodequidonnelesmeilleurstauxdere onnaissan epeutaussiêtre ellequiestlaplus ontraignante

(35)

en terme d'hypothèses. L'appro he alternative peut d'un autre té ompenser la faiblesse de ses per-forman es par des apa ités de généralisation qui la rende plus e a e dans d'autres onditions. Cet arti eestmalheureusementtroprarementprisen omptedanslespubli ations, equiaaiblitd'autant les on lusionssouventtiréeshâtivementd'expérien estropspé iques.Laseulemanièrevéritablement onvain antedevalideruneappro heseraitdela omparerauxautresdansdemultiples onditions expé-rimentales,ouaumoins surunpanelde onditionsdiverses.Ce i estbien entendu impossibleàréaliser paruneseuleéquipede her heursdansdesdélaisraisonnables.

Comment prouveralors qu'une méthode est meilleure qu'uneautre, au-delàdes stri tes onditions expérimentalesdéniesdansunarti le?Iln'yapasderéponsevéritablementsatisfaisanteà ourtterme à ette question: il faudrait attendreque d'autres équipes de re her heanalysent ette méthode dans d'autres onditions, e qui peut prendre beau oup de temps. C'est d'ailleurs pour ela que seulesdes appro hes relativement an iennes et qui ont fait leur preuve dans de multiples onditions, omme les MFCCoulanormalisation epstrale,sontunanimementa eptéesparla ommunautédudomaine,alors que d'autresappro hesplus ré entes, même issues de ampagnesd'évaluations internationales, omme l'ETSIAFE

1

,nelesontpas(en ore).

Lorsqu'une nouvelleappro heest proposée, ilest impossiblepourquelques her heursisolés de réa-liserdes expérien es dansdes onditionsaussivariées. Ilest néanmoins possiblede mettre enéviden e leshypothèsesréaliséesdanslaméthode,etde omparer eshypothèsesave ellesdesautresappro hes deréféren eand'identierleurs apa itésdegénéralisationrespe tives.Toutevalidationexpérimentale devraitdon être omplétéeparunetelleanalyse,surtoutlorsquelarobustessedusystèmede re onnais-san eest onsidérée.Eneet,larobustesseestpré isémentla apa itédesalgorithmesdere onnaissan e automatiquedelaparoleàêtree a eslorsqueles onditionsd'utilisationdièrentdes onditionsdans lesquelles es méthodesontété onçues.Retenons néanmoinsquelavalidation expérimentale omplétée par une analyse des hypothèses formulées n'est pas une solution entièrement satisfaisante, ar elle ne rempla era jamais l'étude expérimentaleà grande é helle dans de multiples onditions. Elle permettra toutefois detempéreràjuste titre les on lusions tiréesdes expérimentations, on lusions qui, parleur forme numérique, revêtent le ara tère absolu des mathématiques, surtoutlorsqu'elles sont onrmées statistiquement par des intervalles de onan e ertains à 99 %! N'oublions don pas que toute ette ertituden'estvalidequedansle adrede onditionsexpérimentalestrèsspé iques...

1.2 Les informations utiles à la re onnaissan e

Les typesd'informationles plusfréquemmentexploités en re onnaissan eautomatiquede laparole sontrépertoriés i-dessous:

 Lesignalobservé,mêmebruité, onstitue bienentendulapremièresour ed'information.

 Lesmodèlesdeparoleetlesmodèlesn-gramentraînéssurlesbasesd'apprentissage onstituentla deuxièmesour ed'informationlaplusimportante.

 Des modèles de bruit, indépendant de la parole, peuvent également être entraînés sur des bases d'apprentissage.

 Lesmodèlesetéquationsdé rivantlemélangedessignauxdeparoleetdebruitpeuventêtre inter-prétés ommedes ontraintesdontlebutestderestreindrel'espa edere her hedudé odage,etles onnaissan esquisontàl'originede eséquationssontdon égalementdessour esde onnaissan e importantes pourledé odage.

 Les modèles paramétriques ave lesquels nous réalisons le dé odage, omme les transformations MLLR ou les GMM modélisant onjointement la parole propre et bruitée dans SPACE, et dont la forme est souvent hoisie pour des raisons pratiques de dérivabilité ou de omplexité, jouent égalementunrlede ontrainteslimitant l'espa edere her he.Ce sontalorsdes hypothèses sim-pli atri esetnonplusdes onnaissan esquisontàl'÷uvre,maisellesn'en onstituentpasmoins desinformationsquiae tentledé odage.

1

(36)

Voyonsmaintenant omment esinformationssontutiliséesenpratiqueet dansquellesappro hesde l'étatde l'art.La listesuivante instan ie les typesd'informationgénéraux dé rits i-dessuset expli ite lesdiérents as d'appli ationde es informationset lesméthodes robustesles plusreprésentativesdes atégories orrespondantes. Cette typologie des appro hes robustes de re onnaissan e est loin d'être exhaustive,et ertains hoixde lassi ationréaliséssont ertainementdis utables.Toutefois,l'obje tif prin ipalesti id'illustrerlaréexionmenéeauparagraphepré édent,et demontrer ommentl'analyse deshypothèsesréaliséespeutparfoisdonnerunnouvelé lairagesurdesméthodesquenous onnaissons tousdepuisbienlongtemps.

Lesméthodesrobustessontsimplementlistéesi i:lesplusimportantesd'entreelles,ou ellesquisont liéesàmesproprestravaux,sontdé ritesdanslerestedumémoire.Pourlesautres, j'invite lele teurà onsulterdesouvragesderéféren esurl'étatdel'artdudomaine, omme[Hatonetal.,2006℄.

Signalobservé :

Touteslesméthodesexploitent etteinformation.Sinoussupposonsquelesignalobservéreprésente ee tivement le signalde parole, alors la robustesse ne peut être améliorée qu'en fo alisant au mieux laparamétrisationsur l'informationphonétique présente danslesignal, e quefonttoutes les appro hes de paramétrisations simples, omme MFCC, Frequen y Filtered ou PLP. Si par ontre nous remplaçons ette hypothèse d'égalité du signal observé et du signal de parole par uneautre hypothèse,moinsforte,selonlaquelle laparolen'estpasobservéedire tement,alorsde nouvelles ontraintes doiventêtreappliquées,parmilesquelles :

1. Représentativitédubruitdansun orpusde parolebruitée :

Une première atégorie d'appro hesrobustes exploite un orpusde parole bruitée, et fait l'hypothèsequelesbruits présentsdans e orpussontreprésentatifsdes onditionsdetest, ou tout au moins qu'on peut appro her les se onds par lespremiers. Les méthodesde e typesont l'apprentissagebruité, multi- onditions, la séle tion/interpolation/extrapolation demodèles,lesvoix(ouenvironnements)propres,le lusteradaptivetraining.

2. Modèles bruitésparamétriques :

Unedeuxième atégoried'appro hen'utilisepasde orpusdeparolebruitée,maisin lutdans lades riptiondesmodèlesa oustiquesdesparamètreslibresquipermettentd'apprendredes modèlesdeparolebruitéesurlesignaldetest.Lesappro hesde etypesontMLLR,MAP, etleursdé linaisons.Notonsquelaformeparamétriqueadoptéeestune ontraintefortequi onstitueuneinformationnonnégligeableajoutéedanslesystème.

3. Modèled'environnement:

Uneautre atégoried'appro hesrobustesutiliseunmodèled'environnement, 'est-à-direun modèle(oudeshypothèses)quidé rit ommentplusieurssour essonoresse ombinent.Ces modèlespeuventêtrededeuxtypes:

3.1.Modèled'environnement exa t:

Dans ette atégorie,laplusfréquente,lemodèled'environnementdé ritexa tement la valeurobservée enfon tion des valeursestimées dubruit et de laparole. Ilpeut prendrelesformessuivantes :

3.1.1. Modèle d'environnement paramétrique :

Cemodèlein lutlades riptiondelaparole,provenantdesmodèlesa oustiques, etdubruit,généralementsouslaformedeparamètresdontlavaleurestestimée sur la phrase de test en maximisant la vraisemblan e des observations. Les appro hes de e type sont par exemple VTS, CDCN, POF, ... La diéren e entre este hniqueset ellesdé rites i-dessussousl'intitulémodèlesbruités paramétriquesn'estpasévidente :eneet,danslesdeux as,desparamètres sontestiméssurlesignaldetest anderendre omptedubruit,souventave lemême ritèredemaximisationdelavraisemblan e.

(37)

Toutefois, MLLR par exemple, ontraint ee tivement les modèles bruités à être dérivéslinéairement des modèles non bruités, mais elle n'impose pasde relationprédénieentrelaparoleet lebruit ommelefait VTS; ellen'estime d'ailleurspaslebruit,etMLLRestdon plusgénéraleen esensqueVTS.Ce i expliquepourquoiMLLRpeuttraiteraussibienlebruitquelavariabilitédue aulo uteur.D'unautre té,les ontraintesplusfortesprésentesdansVTSla rendent pluse a e (VTS a besoin d'un orpusd'adaptation plus petit que MLLR)pourletraitementdubruit.

3.1.2. Modèled'environnementnon paramétrique :

Lemodèled'environnementpeutêtreunesimpleéquationdé rivantlarelation entrediérentes omposantesdusignal.Unmodèledebruit,quireprésenteune omposante de l'équation,est alors généralement requis.La distin tion porte alorssurlamanièred'estimerlebruit:

3.1.2.1. Modèlede bruitparamétrique :

En plus de l'équation dé rivant l'environnement, un modèle de bruit, indépendant de la parole, peut être onstruit sur le signalde test. Un modulededéte tiondessegmentsdeparole/nonparoleestgénéralement utilisépourséle tionnerlessegmentsdesignalsurlesquelsapprendre e modèle.Les méthodesutilisantàla foisunmodèled'environnementet debruitsontparexemplelasoustra tionspe trale,lesltresdeWiener, ltresde Kalmanainsi quela paramétrisation ETSIAFE qui s'appuie surlesltresdeWiener.

3.1.2.2. Modèlede bruitnon paramétrique :

Lemodèledebruitpeutégalementêtre onstruitsurunebase d'appren-tissage.L'informationextérieure importéedanslesystèmeestdans e asbeau oupplusimportantequelorsquelemodèledebruitestentraîné surle signalde test seul, e qui justie àmon avis de bien séparer les deux as. L'appro helaplus élèbre de etypeest PMC.L'adaptation ja obienneen faitégalementpartie, même si les modèlesde bruit sont généralementdesimples entroïdesentraînéssurles orpus d'apprentis-sageet detest delaparole.

3.1.3. Modèled'environnementstatistique:

Le modèle d'environnement peut nepas avoirdeforme analytique, maisêtre pluttun modèlestatistiquequi représente la ombinaison delaparole et du bruit par une distribution deprobabilité. C'est le as des appro hesSPLICE ouSPACE.

3.2. Modèle d'environnementin omplet :

Les onnaissan essurl'environnementpeuventêtrebeau oupmoinsri hes,maisaussi moins ontraignantes, et simplement donner des indi ations utiles au pro essus de re onnaissan esansimposerdevaleurpré iseausignaldeparole.

3.2.1. Connaissan es surlenombrede sour essonores :

Cette onnaissan eestutilesurtouten onjon tionave unehypothèse d'indé-pendan edessour essonores,et l'utilisationdeplusieursmi rophones, e qui permetalorsdes'appuyersuruneanalyseen omposantesindépendantes(ICA) pourséparerla ontributionde haquesour e.Cesappro hessont onnuessous lenomdeséparationaveugledesour es(BSS).Lefaitd'utiliserplusieurs mi- rophonespermetdesepassertotalementde ontraintessurlaformedusignal. Cesappro hessontainsiégalemente a essurd'autressignauxquelaparole.

(38)

3.2.2. Domination d'une sour esonore :

Lemodèled'environnementpeutégalementsupposerqu'uneseuledessour es sonores domine le signal dans une zone limitée du spe tre : dans e as, en l'absen ed'hypothèsessupplémentaires,au une onnaissan esurlavaleurdu signaldeparoledansleszonesdominéesparlebruitn'estpossible.C'estle as notammentdesappro hesdere onnaissan eave donnéesmanquantes.

3.2.3. Observationsin ertaines:

L'eet del'environnement surles observationspeutêtre onsidéré omme in- onnu.Dans e as,lesobservationsnesontplusdess alaires,oudes observa-blesausensdeBayes,maisdesvariablesaléatoiresdontladensitéde probabi-litépeutêtreestimée: 'est equefontlesappro hesditesdedé odage in er-tain.La diéren e prin ipale parrapport auxappro hesplus traditionnelles est que l'in ertitude sur l'observation est transmise au module de dé odage, alorsqu'elleest résolue dèsl'étapedeparamétrisation pourledébruitagepar exemple.

Lapremièreremarque on ernant ettetypologie on ernesaformearbores ente: 'estlaforme na-turellequis'estimposéed'elle-mêmelorsdesa onstru tion.Ellereètelesdiérents hoixd'hypothèses quipeuventêtreréalisés,lesn÷udsfrèresapparaissantdansunmêmeniveaureprésentantleshypothèses alternativesmodélisantun ertaintyped'information.

Cettestru turearbores entepeutparfois larierleshypothèsessous-ja entesàdiérentesméthodes. Toutefois,la omparaisondes apa itésdegénéralisationdedeuxméthodesdansl'arbren'estpastoujours fa ile. Par exemple, l'apprentissage multi- onditions suppose que le orpus bruité d'apprentissage est représentatifdu bruit de test, e qui est une hypothèse a priori plus forte que la forme paramétrique utiliséedans l'adaptation MLLR, dont le rle est également de prendre en ompte la variabilité entre la parole d'apprentissage et de test, et qui est estimée sur le signalde test. Toutefois, l'hypothèse de linéaritéde ette relationpeutserévélermoinsréalistequ'un orpusd'apprentissagebruité bien onçu. Dans d'autres as, la for e des hypothèses

2

est plus fa ile à omparer. Par exemple, les appro hes de débruitagesupposent quelaforme dubruit est onnue, oupeut êtreestimée, e qui est une hypothèse plusforte que elle réaliséeen re onnaissan e ave données manquantes, qui suppose seulement quela lo alisationdu bruit dans le plan temps-fréquen e, et non sa ontribution pré ise, est estimable. Nous pouvonsdon en on lureque ettedernièreappro heestmieuxàmêmedetraiterdesbruitsnerespe tant pasles ontraintesdequasi-stationnariténé essairesàl'estimationdubruitdansunephrase.

1.3 Positionnement du problème

Commençonspardénirpluspré isémentleproblèmeprin ipalabordédans emémoire.Eneet,le thèmegénéral,quiest eluidel'étudedessystèmesdere onnaissan eautomatiquedelaparolerobustes aubruit,esttrèsvaste,etilfautluidénirdeslimitesraisonnables,enparti ulier on ernantletypede bruitetlessour esd'informationquivontjouerunrle importantdanslesdéveloppementsàvenir.

Tout d'abord, nous onsidérons prin ipalementle bruit additif,et en parti ulier,nousn'aborderons quasimentpaslebruit onvolutif,nilavariabilitédusignalprovenantdulo uteurlui-même(eet Lom-bard,voixextrêmesoupathologiques,et .),nilephénomènederéverbération,nilebruitintroduitparun analde ommuni ationarti iel (GSM, odageen mp3,et .). Demême,nous supposonsqu'ununique mi rophone est disponible, et nous n'aborderons don pas en parti ulier les te hniques de débruitage baséessurlesmatri esdemi rophones,oulesméthodesutilisantdesdonnéesvisuelles.

2

(39)

1.4 Les appro hes en re onnaissan e robuste

La très grande majorité, si e n'est la totalité, des systèmes de re onnaissan e automatique de la parole omparentlesignala oustiqueave desmodèlesa oustiques.Lebruitae telesignala oustique, et peut altérer la orrespondan e qui existe entre e signal et le modèle qui legénère. Un système de re onnaissan eautomatiquedelaparoleestrobusteaubruits'ilparvientàretrouverlabonneséquen e demodèlesmalgrélebruit.

Pour augmenter larobustesseau bruit,trois appro hessontenvisageables,et peuvent bien sûrêtre ombinées:

 Modierlesignalanderétablir la orrespondan eave lesmodèles;  Modierlesmodèles;

 Utiliserd'autressour esd'information,parexemple ontextuelle,pouraiderlepro essusde dé o-dage.

Lesdeuxpremièresappro hesontététrèslargementétudiéesau oursde esdeuxdernièresdé ennies, et la majeure partie des travaux présentés dans e mémoire prennent également pla e dans es deux atégories.

La troisième appro he n'a en ore été que très peu explorée, au moins d'un point de vue général. En eet,de nombreusesappli ations parti ulières, ommelaréservationhtelière, exploitentdes gram-mairesetvo abulairesadaptésàlatâ he,très ontraints,quipeuventêtre onsidérés ommedessour es d'information ontextuelle augmentant, parfois onsidérablement,larobustesse delare onnaissan e au bruit. Mais es sour es d'information sont généralement utilisées de manière ad ho , et pour des as parti uliers omme eluidelaréservation.Jepensequ'unemeilleurepriseen omptede esinformations ontextuelles, évoluant progressivementdes as parti uliers au as général, onstitue lemeilleur moyen derepousserleslimites,àmonavisfondamentales,surlesquellesseheurtentaujourd'huilessystèmesde re onnaissan eautomatique delaparole. Selon ette vision, demultiples sour es d'informationdoivent être utilisées onjointementpourretrans rire unmessageoral, et la ontribution respe tivede ha une d'entre ellesdépend du ontexte.Ainsi,lorsque lebruitest trèsfort, lesignala oustiquedevientmoins prépondérant,auprotd'autres onnaissan es, ommelasémantique.

Le hapitre2traitedon desméthodesquimodientlesignaldeparoleanderendrelesparamètres a oustiques plus robustes. Su essivement, les appro hes de type paramétrisation robuste, débruitage et nalement analyse de s ènes auditives y sont présentées. Cette dernière appro he est abordée ar, bienquejen'aipasvraimentproposédenouvelles ontributionsdans e domaine,j'ai néanmoinsétudié l'analyse de s ènes auditives en tant qu'étage de prétraitement aux méthodes de re onnaissan e ave donnéesmanquantes.Or,il s'agitbien d'unete hniquedeséparationdela ontribution delaparoledu bruit,etdon d'uneméthodededébruitagequiadéjàétéintégréedans dessystèmesdere onnaissan e automatiquedelaparole.Le hapitre2termineparunrésumédemes ontributionsprin ipalesdans e domaine.

Le hapitre3présentelesappro hesdemodi ationdesmodèlesa oustiques.Ils'agitdon essentiel-lementdesméthodesd'adaptation.J'yprésenteenparti uliermestravauxsurlesmodèlesmulti-é helles pour l'adaptation, les modèles multi-bandes et l'adaptation ja obienne. Comme pour le hapitre 2, le hapitre3termineparunrésumédemes ontributionsprin ipales, equipermetd'isolerplus lairement equi relèvedemestravauxet equiprovientdel'étatdel'art.

Le hapitre4présentelesappro hesdere onnaissan eave donnéesmanquantes.Aprèsunebrève des- riptiondesprin ipesfondamentauxetdesproblèmesdudomaine,jedé rispluspré isémentmestravaux passésetprésentssurlagénéralisationde esappro hesàdesdomainesdeparamétrisationquel onques, ainsiquelestravauxquej'ai menésave SébastienDemangependantsathèse. Leparagraphe4.7dé rit alorsmes travauxré ents on ernantl'intégrationde lare onnaissan eave donnéesmanquantes et les mesures de onan e. Le paragraphe4.8 termine en résumant également mes ontributions prin ipales dudomaine.

Le hapitre5sedistinguedespré édents, arilouvreledomainedelare onnaissan eautomatiquede laparolerobusteàd'autressour esd'informationque elles onsidéréesjusqu'au hapitre4.Enparti ulier, lanotiond'intera tionimpli iteyestprésentée:monintérêtpour e on eptestissudemestravauxsur l'appli ationdeste hniquesdere onnaissan edelaparoleauxplates-formesd'intelligen eambiante,qui onstituentà monavisun adre idéalpourintégrerde nouvellessour es de onnaissan eauxsystèmes

(40)

d'intera tionvo aleet multimodale.Jedéveloppeplusspé iquementdans e hapitredeux aspe tsde mesre her hesliéesàl'extra tiond'informationdehautniveau :lesa tesdedialogue,re her hemenée onjointementave PavelKral dansle adrede sathèse, et l'extra tiond'informationsémantiquedela parole.Jeneréalisepasdans e hapitred'étatdel'art, ar, danslamesureoùj'yabordedesdomaines aussidiversquel'intelligen eambiante,lastru turedudialogue,lasyntaxeetlasémantiquedeslangues naturelles,unétatdel'art,mêmeréduitàsonminimum,prendraitbeau ouptropdepla eparrapportau restedumémoire,d'autantplusque esnotionsysontabordéesessentiellemententantqueperspe tives. Le hapitre5présentantex lusivementmes ontributions,ne seterminepaspar unrappelde elles- i. Le hapitre6 on lutlemémoire.

Une dernière remarque avant d'aborder le ÷ur du sujet : quelques résultats expérimentaux sont parfoisdonnéspour ertainesdemes ontributionsand'illustrerlesnotionsthéoriques orrespondantes. Cesrésultatssontrelativementpeunombreux, etils ne onstituentbien entenduqu'unepetite fra tion des expérien es que j'ai pu menées au ours de es dernières années et qui sont détaillées dans mes publi ations. Toutefois, an d'éviter de répéter à traversle mémoire les ara téristiquesdes orpuset dessystèmes de re onnaissan eutilisés, lesdiverses onditionsexpérimentales que j'ai utiliséesdans le mémoiresonttoutesdé riteset rassembléesdansl'annexeA.

(41)

Figure

Fig. 2.1  Eet de la normalisation epstrale sur un même signal de parole, ave plus ou moins de silene.
Fig. 2.2  Shéma de prinipe de l'apprentissage de modèles aoustiques pseudo-propres.
Fig. 2.4  T aux de reonnaissane en mots moyen sur tous les environnements du test B d'Aurora2
Fig. 2.5  Taux de reonnaissane en mots moyen sur tous les environnements du test C d'Aurora2
+7

Références

Documents relatifs

Dans notre travail nous avons utilisé notre propre base de données audiovisuelle de parole arabe : cette base de données multi-locuteurs a été enregistrée dans un

En effet, si près de 97.8% de taux de reconnaissance peut être obtenu par un système de reconnaissance multilocuteurs (1011 mots) entraîné et testé dans un milieu calme, ce

Acoustic models for this labeling process were borrowed from French (source language) in which a huge amount of acoustic data was already available.

5.10 Comparaison des taux de reonnaissane obtenus à partir des masques orales de ontribution et SNR-0 sur la base de test

Le chapitre 4 sera consacré à une présentation de la langue Amazighe et précisément les lettres Tifinagh puis à l’étude de la mise en forme d’un signal de parole qui sera

Certainement, le développement d’un SRAP pour le dialecte tunisien souffre encore de nombreux problèmes reliés aux différents facteurs de variabilité qui peuvent être résumés

souriez si vous prenez la route c’ est la journée de la courtoisie au volant à l’ oc- casion du week-end pascal qui s’ annonce très chargé rouge aujourd’ hui et demain et

Dans ce chapitre nous avons présenté le système réalisé dans notre étude, il se base sur un algorithme génétique pour la manipulation d‟une base de