Approximations non-linéaires pour l'analyse de signaux sonores

(1)

HAL Id: tel-00583662

https://tel.archives-ouvertes.fr/tel-00583662

Submitted on 6 Apr 2011

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

Approximations non-linéaires pour l’analyse de signaux

sonores

Rémi Gribonval

To cite this version:

Rémi Gribonval. Approximations non-linéaires pour l’analyse de signaux sonores. Mathématiques

[math]. Université Paris Dauphine - Paris IX, 1999. Français. �tel-00583662�

(2)

U.F.R. MATHÉMATIQUES DE LA DÉCISION

Thèseprésentée pour obtenir legrade de

DOCTEURDE L'UNIVERSITÉ DE PARIS IX DAUPHINE

spécialité:Mathématiques Appliquées

par

Rémi GRIBONVAL

Approximations non-linéaires pour l'analyse des signaux

sonores

Soutenue le7Septembre 1999 devant lejurycomposéde

MM. Yali AMIT rapporteur

Jean-Pierre AUBIN président

Emmanuel BACRY examinateur

DonaldGEMAN examinateur

StéphaneMALLAT directeur dethèse

Xavier RODET examinateur

(3)

(4)

JetiensàremercierEmmanuelBacryetStéphaneMallat,quim'onttous

deuxencadré lorsde cetravail dethèse.Je leur suisredevabled'unesomme

considérablede temps etd'énergie.

Ma rencontre avec Emmanuel Bacry à l'Ecole Normale Supérieure, à

l'occasion de son cours sur les aspects mathématiques et informatiques de

lamusique, a été décisive en bien desmanières. C'est en eet à la suite de

longues discussions avec lui que j'ai orienté mon travail dans la direction

prise dans cette thèse. Lors de mon stage de DEA à l'IRCAM, et tout au

longdecetravaildethèseauCMAP,ilaprofondémenttransformémafaçon

de travailler et de concevoir l'interaction entremathématiques, musique, et

programmation informatique. Enn c'est à lui que je dois la chance

extra-ordinaire d'avoir fait la connaissance de Stéphane Mallat. Je suis donc très

heureux qu'ilait accepté departiciperau jury.

J'ai énormément appris aucontact de StéphaneMallat, et magratitude

pour lui est immense. Il a fait preuve d'une exceptionnelle disponibilité, et

j'aibénéciéauprèsdeluid'unapprentissagescientiqueexceptionnel,grâce

àlarigueur desonéthique scientiqueetàsagrande inspiration.

J'ai étégalvanisé par l'enthousiame que XavierRodet a insué à notre

travailetl'excellentaccueilqu'ilm'aréservé dansl'équipeAnalyse-Synthèse

del'IRCAM.Je doisàsonexpérienceavisée d'êtreresté prochedes

applica-tions sonores,etje leremercie d'avoir accepté de participer au jury.

J'adresse toutemon amitié à Philippe Depalle, qui m'avaitencadré lors

de monstage de DEA. Sa compagnie a toujours étéun grand plaisir et il a

toujoursprodiguéavecbeaucoupdegentillesseetde patiencelesconseils les

plusjudicieux.

C'est dansle cadre splendide du CIRMà Luminy que j'ai eu lachance

de faire la connaissance de Yali Amit, dont les idées originales et brillantes

m'étaientdéjàconnuesparsesécrits.J'aiététrèsattéqu'ils'intéresseàmon

travail,etjeleremercie vivement d'avoiracceptéd'êtrel'undesrapporteurs

de cettethèse.

J'ai euleplaisirdedécouvrirlagrandegentillesseetl'ecacitédeBruno

Torrésani lorsqu'il m'a fait l'honneur d'être lui aussi rapporteur de cette

thèse.J'espèrevivement avoirde nouveau lachance de bénécierde la

pré-cisionetde lapertinencede sescommentaires.

J'ai beaucoupappréciélesnombreusesdiscussions passionnantesquej'ai

euesavec Donald Geman, aussibienlors de sonséjour auCMAP qu'à

l'oc-casiond'unsecondpassageauCIRM.Jesuis d'autant plusheureux qu'ilait

accepté departiciperau jury.

J'ai ététrès attédel'intérêtqueJean-Pierre Aubinaportéàcetravail,

etjele remercie vivement de m'avoirfait l'honneurde présiderlejury.

J'aieulachancedepouvoirproterdusavoir-faireetdesmoyensinégalés

(5)

Synthèse, Georoy Peeters, Diemo Schwartz, Stefania Seran, Christophe

Vergez, Marcelo Wanderley, ... ettous ceux que j'ai pu croiser lors d'unde

mespassages épisodiques. Une mention spécialeest dédiée àLaurent Ghys,

administrateursystème, pour ledévouement, la patienceet l'ecacité avec

lesquelsil m'aaidéà résoudretant de questionsinformatiques.

L'atmosphère chaleureuse qui règne au CMAP, le charisme et le talent

desdirecteursquis'ysontsuccédés,Jean-ClaudeNédélec,Pierre-Arnaud

Ra-viart, etVincent Giovangigli, l'ecacité et lagentillesse de JeanneBailleul,

GeoBoleat,LilianeDoaréetNathalieLimonta, leslonguesdiscussionsentre

collègues après le café me laisseront un excellent souvenir des années que

j'y ai passées. La compétence d'Aldjia Mazari et de Pedro Ferreira pour

régler mes dicultés informatiques m'a été d'un grand secours. J'ai

beau-coupapprécié l'humour egmatiqued'Erwan Le Pennec, dont lacompagnie

a été un grand plaisir, et qui m'a rendu de ers services. Je lui souhaite

bonne chance pour les années qui viennent. Je suis très heureux d'avoir eu

pour compagnonsd'aventure MaureenClerc, ChristopheBernard etJérôme

Kalifa. Nous avons partagé beaucoup d'expériences en quelques années, et

j'espèreque celavadurer. J'adresseenparticulier tousmes voeuxà Jerome

KalifaetNadine ainsiqu'aChristophe Bernard et Rita.

Enn, que Vérène soit inniment remerciée pour la patience et

l'endu-rance avec lesquelles elle m'a soutenu et supporté. Je lui dédie cette thèse

(6)

1 Introduction 15

1.1 Réduire ladimension pour extrairede l'information . . . 15

1.2 Mesured'information :énergie, entropie etperception . . . . 16

1.3 AnalyseDiscriminante Non-linéaire . . . 19

I Approximation non-linéaire 21 2 Approximations adaptatives de signauxsonores 23 2.1 Approximationlinéaire à M termes . . . 24

2.1.1 Base deKarhunen-Loève . . . 24

2.1.2 Avantage del'adaptativité . . . 25

2.2 Approximationnon-linéaire àM termes . . . 26

2.2.1 Complexitéalgorithmique delaprojection adaptative 27 2.2.2 Choixde labase . . . 28

2.3 Algorithmede meilleurebase (BestBasis) . . . 28

2.4 Représentationsredondantesetdictionnaires . . . 30

2.4.1 Extraction de ridgesdetransformées redondantes . . . 30

2.4.2 Dictionnaire temps-fréquencemulti-échelle de Gabor . 31 2.5 Décompositionatomique dansun dictionnaire . . . 33

2.5.1 Poursuite de base(BasisPursuit) . . . 33

2.5.2 Poursuite adaptative (MatchingPursuit) . . . 33

2.5.3 MatchingPursuitOrthogonal . . . 35

2.5.4 Généralisations . . . 35

3 Matching Pursuit sur un dictionnaire de molécules 37 3.1 MatchingPursuitavec desdictionnaires de molécules . . . 37

3.1.1 Principe . . . 38

3.1.2 Convergence. . . 39

3.1.3 Vitessede convergence en dimension nie . . . 40

3.2 MatchingPursuitavec desatomesréels . . . 40

3.2.1 Moléculesdi-atomiques réelles . . . 41

(7)

3.2.4 Amélioration del'approximation àM atomes réels . . 43

3.2.5 Représentation temps-fréquence associée . . . 46

3.3 MatchingPursuitHarmonique. . . 47

3.3.1 Moléculesharmoniques. . . 47

3.3.2 Loidespartiels . . . 48

3.3.3 Domainede fréquencesfondamentales . . . 48

3.3.4 Complétudedudictionnaire demolécules harmoniques 49 3.3.5 Choixapproché delameilleure molécule harmonique . 49 3.3.6 Quasi-orthogonalitédespartiels . . . 51

3.3.7 Quasi-orthogonalitédansledictionnaire de Gabor . . 52

3.3.8 Recherche rapidede lamolécule laplus corrélée . . . . 53

3.3.9 Projection surlamolécule sélectionnée . . . 54

3.3.10 Résuméde l'algorithme . . . 55

3.3.11 Représentation temps-fréquence associée . . . 55

4 Matching Pursuit Rapide 59 4.1 ComplexitéinitialeduMatching Pursuit . . . 60

4.1.1 Calculdesproduits scalairesavec les atomescomplexes 60 4.1.2 Calculdescorrélations avec lesatomes réels . . . 61

4.1.3 Calculdescorrélations avec lesmolécules . . . 61

4.1.4 Sélectiondu meilleuratome oude lameilleure molécule 61 4.1.5 Miseà jour durésidu. . . 62

4.1.6 Formules rapidesde miseà jourdes corrélations. . . . 62

4.1.7 Complexitétotale. . . 62

4.2 Poursuite dansdessous-dictionnaire adaptés. . . 63

4.2.1 Sous-dictionnairede maxima locaux . . . 63

4.2.2 Constructionpériodique de sous-dictionnaires . . . . 64

4.2.3 Itérationsdansun sous-dictionnaire . . . 65

4.2.4 Miseà jour rapidedesproduits scalaires . . . 65

4.2.5 Détermination rapide duseuil" p . . . 65

4.2.6 Résuméde l'algorithme . . . 66

4.2.7 Convergence de l'algorithmeaccéléré . . . 66

4.2.8 ComplexitéduMatching PursuitRapide . . . 66

4.2.9 Résultatsnumériques. . . 68

5 Matching Pursuit Rapide avec un dictionnaire d'atomes modulés en fréquence 71 5.1 Dictionnairetemps-fréquence d'atomeschirpés. . . 72

5.1.1 Discrétisationdu dictionnaire . . . 73

5.1.2 Échantillonnage critique duchirp . . . 73

5.1.3 Tailledu dictionnairediscret . . . 74

5.1.4 Coûtdu calculdesproduits scalaires . . . 75

(8)

5.2.1 Ridges dudictionnaire deGabor continu . . . 79

5.2.2 Recherche localedu meilleuratome chirpé . . . 83

5.2.3 Un théorèmede ridgeà l'ordresupérieur . . . 84

5.2.4 Recherche localerapide du meilleuratome chirpé . . . 87

5.2.5 Estimationnumérique par interpolation . . . 88

5.3 MatchingPursuitChirpé RéelRapide . . . 90

5.3.1 Résumé del'algorithme etcomplexité . . . 90

5.3.2 Poursuite avec desmaxima locaux . . . 91

5.3.3 Sous-optimalité . . . 91

5.4 Résultatsnumériques . . . 93

5.4.1 Analysed'unchirp hyperbolique . . . 93

5.4.2 Analysed'uncri de chauve-souris . . . 93

5.4.3 Analysedu vibratod'une voixchantée . . . 95

6 Matching Pursuit Haute Résolution 101 6.1 Limitations de lapoursuite . . . 101

6.1.1 Résolution temporelle . . . 101

6.1.2 Pré-écho . . . 102

6.1.3 Diagnostic . . . 102

6.2 Critère hauterésolution . . . 106

6.2.1 Sous-atomes. . . 106

6.2.2 Corrélation haute-résolution . . . 107

6.2.3 MatchingPursuitHaute Résolution. . . 108

6.2.4 Convergence. . . 109

6.3 Résultats . . . 109

6.3.1 Résolution temporelle améliorée. . . 109

6.3.2 Élimination dupré-écho . . . 110

II Classication active de signaux 111 7 Sélection de caractéristiques 113 7.1 Critère de sélection decaractéristiques . . . 114

7.1.1 Énergie . . . 114

7.1.2 Insusancedu critèreénergétique . . . 115

7.1.3 Entropie, information mutuelle etentropie relative . . 116

7.2 Sélectionpassive decaractéristiques. . . 116

7.2.1 Analyseen Composantes Indépendantes . . . 116

7.2.2 Diérenceavec l'Analyseen Composantes Principales 118 7.2.3 Baseorthogonalelamoinsstatistiquement dépendante118 7.2.4 Poursuite passive d'information . . . 118

7.3 Sélectionactivede caractéristiques . . . 119

(9)

7.3.3 Arbresde décision . . . 121

7.3.4 Problèmes d'ordre statistique . . . 121

7.4 Poursuite active d'informationsurdes classesgaussiennes . . 122

7.4.1 Mélangede deuxgaussiennesde même covariance . . . 123

7.4.2 Mélangede deuxgaussiennescentrées . . . 124

8 Classication de singularités à l'aide d'arbres de décision 129 8.1 Caractérisationdesingularitésaveclatransforméeenondelettes130 8.1.1 Caractérisationde l'exposant deHölder local . . . 131

8.1.2 Extremalocaux dela transforméeenondelettes . . . . 131

8.1.3 Invariance par translation . . . 132

8.2 Dictionnairede questionsbinaires surles extrema . . . 133

8.2.1 Formegénérale d'unequestion . . . 133

8.2.2 Relationsélémentaires entrepairesd'extrema . . . 134

8.2.3 Dictionnairede questionsélémentaires . . . 135

8.2.4 Relationsmultiples dans unk-uplet d'extrema. . . 136

8.2.5 Dénitiondu dictionnairepar ranements successifs . 139 8.3 Constructiongloutonne d'arbres dedécision binaires . . . 139

8.3.1 Notationsetvocabulaire . . . 139

8.3.2 Principede laconstruction gloutonne . . . 140

8.3.3 Élagageetsélection d'arbres. . . 142

8.4 Dictionnairesadaptésde questions . . . 142

8.4.1 Éliminationde questionsinutiles . . . 143

8.4.2 Extensionadaptée dudictionnaire . . . 144

8.4.3 Discrétisationdu seuiladaptée auxdonnées . . . 146

8.4.4 Algorithmeglouton . . . 146

8.4.5 Nécessitéd'uneclassede rejet . . . 147

8.5 Classicationde singularités glissantes . . . 148

8.5.1 Signauxetclasses. . . 150

8.5.2 Arbresde décision avec des extrema . . . 152

8.5.3 Tauxdereconnaissance avantsélection dumeilleur seuil154 8.5.4 Performances en fonction duniveau debruit . . . 155

8.5.5 Comparaisonavec l'AnalyseDiscriminante Linéaire . . 155

8.5.6 Eetde l'invariance par translation. . . 156

8.5.7 Intérêt de l'adaptativité . . . 157

9 Conclusion et perspectives de recherche 159 III Annexes 161 A Calcul rapide de produitsscalaires ... 163

(10)

A.3 Formule approchée ... . . 167

B Démonstration des théorèmes de ridges 171 B.1 Démonstration desthéorèmes d'approximation 4et 5 . . . 171

B.1.1 Démonstration duthéorème 4 . . . 171

B.1.2 Démonstration duthéorème 5 . . . 173

B.2 Démonstration descorollaires 1et2 . . . 175

B.2.1 Démonstration ducorollaire 1 . . . 175

B.2.2 Démonstration ducorollaire 2 . . . 177

B.3 Démonstration de laproposition 1 . . . 179

B.3.1 Corollairede ladémonstration de laproposition 1. . 180

C Mélange de gaussiennes et information mutuelle 181 C.1 Rappels :loisconditionnellesde bruitsgaussiens . . . 181

C.2 Expressionde l'information mutuelleconditionnelle . . . 183

C.3 Variations del'information mutuelle . . . 185

C.3.1 Démonstration dulemme 6:variations à xé . . . . 186

C.3.2 Démonstration dulemme 7:variations pour=0 . . 186

C.4 Démonstration duthéorème 7 . . . 187

C.5 Classicationactivede bruitsgaussiens. . . 189

C.5.1 Démonstration dulemme 1 . . . 189

(11)

(12)

Notations générales

=(z);<(z);z Partie imaginaire, partie réelleetconjuguéd'unnombre complexe z

f =O(g) f estdominée parg :il existe uneconstanteC telle quej fjCjgj

f g f estéquivalente àg :f =O(g) et g=O(f)

= est égalpar dénition

[a;b] Intervalle ferméde nombreréels comprisentreles bornesaetb

Jn 1 ;n 2 K [n 1 ;n 2 ]\Z Probabilités

X P Lavariablealéatoire X suitlaloi P

Ef:g Espéranced'une variable aléatoire

P(A) Probabilité d'unévénement A

Approximations non-linéaires

H Espace deHilbert

h:;:i Produitscalaire

k:k Norme L

2

D Dictionnaire, et parfois plus précisément

dictionnaire deGabor

D +

Dictionnaire de Gabor chirpé

R m

x Résidud'unMatchingPursuitaprèsm

ité-rations

f(t) Signal àtemps continu

Æ(t u) Masse deDiracau temps u

f[n] Signal àtemps discret

Æ[n p] Masse deDiracau temps discret p

b

(13)

(14)

Laclassication designauxengrandedimension rendnécessairela

sélec-tiond'unpetitnombredestructurescaractéristiquespourreprésenterchaque

signal. Les approximations non-linéaires donnent lieu à des représentations

concises, parce qu'elles s'adaptent à la structure de chaque signal analysé.

Leuremploiest prometteur.

Une première partie de ce travail dénit desreprésentationsadaptatives

rapidesde signaux commecombinaison linéaire d'atomes extraits d'un

dic-tionnairedevecteurs.Apartirdel'algorithmedeMatchingPursuit,plusieurs

méthodes itératives sont proposées pour mettre en lumière les structures

caractéristiques des signaux sonores. Le Matching Pursuit Harmonique

dé-compose un signal en composantes harmoniques élémentaires. Le Matching

Pursuit Chirpé extrait les variations de fréquence instantanée en tirant

parti d'une analyse ne des ridges du dictionnaire de Gabor multi-échelle.

Les approximations fournies par le Matching Pursuit Haute-résolution

pré-servent les transitoires des signaux analysés, en imposant des contraintes

de résolution temporelle. Nous accélérons ces techniques en employant des

sous-dictionnairesde maxima locaux.

Notre travail est consacré dansun second temps à l'étude de l'Analyse

DiscriminanteNon-linéaire.Pourclassierdessignaux,lesméthodes

d'Ana-lyse Discriminante Linéaire réduisent la dimension en les projetant sur un

sous-espacepré-déterminé.Une projection adaptative, enfonction dusignal

analysé,extraitdecelui-cidescaractéristiquesqui luisontpropres.Celles-ci

le distinguent etpermettent de le classierecacement. Nous déterminons

lastratégie optimaledeprojectionadaptativepour laclassicationdebruits

gaussienscolorés.Andeclassierdestransitoires,nousexplorons ennune

méthodeutilisant les maxima dumodule dela transforméeenondelettes et

des arbres de décision. Cette approche permet de surmonter les dicultés

(15)

(16)

Introduction

1.1 Réduire la dimension pour extraire de

l'infor-mation

Le propre d'un signal, c'est de contenir de l'information. Qu'il s'agisse

de l'enregistrement d'unséisme, qui traduit son parcours dans l'écorce

ter-restre, d'un son musical, dont le contenu est à la fois symbolique et subtil,

oubiend'uneimage oùl'identitéd'unvisageestvisible,onasouventbesoin

d'extrairel'informationquinousintéresse.Lesbesoinsdecompression,de

dé-bruitage,dedéconvolution, d'estimationdeparamètres et dereconnaissance

automatiquedesignauxrassemblentainsidefaçonfécondeleTraitement du

Signal et la Théorie de l'Information, nés il y a cinquante ans, sous

l'im-pulsion notamment de Shannon et Gabor, pour modéliser la transmission

d'information et les systèmes de communication. L'étude du codage, de la

transmission et du décodage de l'information est loin d'être achevée. Mais

aujourd'hui c'est aussi la nature qui transmet de l'information, et c'est à

nousde ladécoder.

Beaucoup des problèmes posés par ces besoins ont trouvé une réponse

grâceauxapportsdel'AnalyseHarmonique, etenparticulierdestechniques

récentes d'approximation adaptative de signaux. En eet pour extraire de

l'information d'unsignal, il faut connaître sastructure, an d'en réduirela

redondance pour ne garder que la substantique moelle. Aujourd'hui

ap-paraissent en eet de nombreuses situations où on dispose de gigantesques

basesde données(ex :analyse d'IRM enmédecine, donnéesdessondes

spa-tiales,enregistrement de séismes...). Ellessont constituéesd'images ou de

signauxquiviventdansdesespacesde grandedimensionN :ainsiunsonde

qualitéCD(i.e.échantillonné à44:1kHz)d'uneduréede1:5secondeestun

signalde N 65536=2

16

échantillons,tandis qu'une image a couramment

N =512512=2

18

pixels.

L'extraction d'informationnécessitedonc deréduirefortement la

dimen-sion, ce qui peut se faire en projetant le signal x sur un sous-espace V

(17)

tion d'un codage par transformée. En reconnaissance, il s'agit d'une forme

d'AnalyseDiscriminanteLinéaire.

Approximations linéaires

Les techniques d'approximation linéaire, telles que l'Analyse en

Com-posantes Principales, xent une fois pour toutes une base orthonormale

f g m

g N

m=1

(il s'agit dans le cas de l'Analyse en Composantes Principales de

la base de Karhunen-Loève) et décomposent le signal sur les M premières

composantes P V M x= M X m=1 h x;g m ig m

c'est-à-direquelesous-espaceV

M

est indépendant de x.

Approximations non-linéaires

Au contraire, les techniques d'approximation non-linéaire choisissent le

sous-espace V

M

de manière adaptative, en fonction du signal x. Ainsi les

approximations non-linéaires dans une base orthonormale sélectionnent les

M plusgrands coecients

P V M (x) x= M X k=1 hx;g m k ig m k oùlabase (g m k

)est classéepar ordre décroissant descoecients

jhx;g m 1 ijjh x;g m 2 i j:::j hx;g m k i j:

Pour que cette projection contienne bien l'information que l'on recherche,

elle doit être adaptée au modèle de la nature dont on dispose. La force

desapproximations non-linéaires,c'estd'adapter également laprojection au

signalétudié.Nousallonsnousattacheràemployercetatoutnonseulement

pour approcher des signaux, mais également pour les classier et pour en

estimer desparamètres.

1.2 Mesured'information : énergie, entropie et

per-ception

Comment mesurer la quantité d'information que l'on a extrait d'un

si-gnal?Laréponsedépendbiensûrde cequel'oncomptefaire decette

(18)

Pour les applications de compression etde débruitage, il est naturel de

mesurer l'information à l'aune de ladégradation que le signal a subie. Les

techniques d'approximation de signaux mesurent cette dégradation à l'aide

de critères métriques (rapport signal à bruit et taux de distorsion) liés à

l'énergie.Onmesurelaqualitéd'uneapproximationavecl'erreurquadratique

" M [x]= x P V M x 2 2 =kxk 2 2 P V M x 2 2 :

Minimiser cette erreur revient àmaximiser l'énergie dela projection

ortho-gonale P V M x 2 2

Si X est un processus aléatoire en dimension nie, les approximations

li-néaires dénies avec la base de Karhunen-Loève

1

minimisent l'erreur

qua-dratique moyenne

Ef" M

[X]g

pour 1 M N. La base de Karhunen-Loève fournit donc les meilleures

approximationslinéaires(i.e.non-adaptatives)d'unprocessusX.Cependant

comme cettebase estdéterminée par lesmomentsjusqu'àl'ordre 2de laloi

P(X)du processus, elle manquetoutes lesautres structuresdecelui-ci. Dès

queXn'est pasgaussien,lesperformancesdesapproximationsnon-linéaires

sont meilleures.

Nous montrerons au chapitre 2 un exemple illustrant la supériorité des

approximations non-linéaires surles approximations linéaires. Nous

rappel-lerons les principales techniques actuelles d'approximation non-linéaire, en

insistantsurcequ'apportentlesstratégiesutilisantlaredondance, tellesque

les algorithmes de meilleure base [CW92 ] ou de poursuite [MZ93] [CD95 ],

qui utilisent respectivement des bibliothèques de bases et des dictionnaires

de vecteurs. Leur utilisation pour la compression [JN84 ] [VK95 ] [DeV98 ],

le débruitage et la déconvolution [DJ94 ] [Kal99 ], pour traiter des signaux

non-gaussiens et/ou non-stationnaires [DMvS97] [CM97 ],conduit à des

al-gorithmes trèsperformants. Nousverronsenn qu'unaspecttoutà faitnon

négligeable decestechniquesestqu'ellefournissentdesalgorithmes rapides,

leurcomplexité del'ordre deO(N) (transforméeen ondelettesorthogonale)

à O(Nlog

2

N) (transformée en cosinus locaux [CM91]) étant à mettre en

regard desO(N

2

)quecoûte unchangement de basesansalgorithme rapide

associé.

Auxchapitres3,4,5,et6,consacrés àl'analysedesignauxsonores,nous

introduirons des algorithmes de poursuite, inspirés du Matching Pursuit

1

formée descomposantes principales déniespar l'AnalyseenComposantes

(19)

dessignauxacoustiques.

Nouscommençons, au chapitre 3, par étendre ladénitiondu Matching

Pursuit,enintroduisantlanotiondeMatchingPursuitMoléculaire.Al'aide

de cet outil nous développons le Matching Pursuit Harmonique, qui utilise

commebriques élémentaires non pasdes atomestemps-fréquence, mais des

molécules associées aux structures harmoniques que l'on s'attend à

trou-verdansles signauxsonores.Nousinsistonssurl'ecacité algorithmiqueen

mettant au point un algorithmerapide. Celui-ci fournit desreprésentations

temps-fréquencestructuréesoùlaprésencedenotes(durée,hauteur)neselit

passeulement visuellement,mais estexplicitement présente dansla

décom-position.Contrairementàbeaucoupde techniquesdedétectiondefréquence

fondamentale, cetalgorithmen'a aucune diculté àdétecter laprésence

si-multanée deplusieurs fondamentales, danslecasde lapolyphonie.

Le chapitre 4 est consacré à l'accélération des techniques de poursuite.

Nous y développons une technique de poursuite sur des sous-dictionnaires

demaximalocaux,introduiteparBergeaud [Ber95 ]pour l'analysed'images.

Nousmontrons qu'elleréduit lacomplexité deO(MNlog

2

N) à O(MN).

L'algorithmedeMatchingPursuitChirpéquenousintroduisonsau

cha-pitre5estdéveloppé envuedemettreenlumière lesvariations defréquence

instantanée dessignauxsonores.Notre algorithmeutilise undictionnairede

chirps gaussiens etune version modiée du Matching Pursuit pour obtenir

une décomposition du signal en atomes chirpés avec une complexité

algo-rithmique (O(MNlog

2

N)). C'est bien plus faible que les O(MN

2 log

2

N)

normalement requis[Bul95 ] [Bul99 ] pour appliquerdirectement leMatching

Pursuitsurce dictionnaire.Ladécompositionatomique qu'ilfournitpermet

nonseulement demesurer les variations de fréquenceinstantanée dusignal,

maiségalementdemanipulerséparémentlespartiestransitoiresetlesparties

stationnaires.Onpeutégalementtransposerlahauteur(sanschangementde

durée)en respectant nement laphase dusignal.

Mesuresperceptives

Les critères purement énergétiques peuvent créer desartefacts dans des

conditionsextrêmes(forttauxdecompression,débruitagedansunbruittrès

intense,etc.):leseetsdeblocs,lesoscillationsdeGibbs,laformede

l'onde-lettequi devient visible surune image compressée, voilà quelques exemples

connus d'artefacts perceptivement gênants en traitement de l'image. Les

codeurs audio employés commercialement (MUSICAM,Dolby

TM

AC-3,...)

emploient des modèles de masquage auditif, qui permettent de dégrader le

signaldans des zones non-perceptibles, an de restituerplus dèlement les

partiescritiques.

Nous expliquons au chapitre 6 comment, en modiant un critère

(20)

avons appelé Matching Pursuit Haute Résolution [GBM +

96 ] [GDR

+ 96]. Il

ne s'agit pas à proprement parler d'un critère perceptif, mais d'un critère

non-linéairedesélectiond'atomesmenantàunesuper-résolutiontemporelle,

àlamanière du critèrel

1

utilisé dansleBasisPursuit[CD95 ].

Mesures d'entropie

Pour estimer un (ou des) paramètre(s) (ex : la fréquence instantanée,

pour eectuer une dé-modulationFM), ou déterminer une classe (ex :pour

reconnaître l'identité d'un visage sur une photo), l'énergie est une mesure

d'information mal adaptée. Des critères non-linéaires, tels que le critère

haute-résolution exposé au chapitre 6 peuvent parfoiss'avérer adaptés. Les

statistiques d'ordre supérieur [Men91 ] orent également un certain nombre

d'outilspermettantdesortirducadrerestreintdessignauxgaussiens[DT96 ].

Lathéoriedel'informationfournitdesoutilspourmesurerdirectementla

dépendancestatistiqueentrelaprojection P

V M

x dusignalenpetite

dimen-sionetlesgrandeurs àestimer. Onrappellera ainsiau chapitre 7 leprincipe

de l'Analyse en Composantes Indépendantes [Com94 ], et sasupériorité sur

l'AnalyseenComposantesPrincipales.Onferalepointsurlestechniques

ré-cemment développées par Saito [Sai94 ][SC94 ] [Sai98 ] etLiuet Ling[LL99 ]

pour tirerparti de l'Analyse Harmoniqueetde ses algorithmes rapides an

d'obtenirdes coordonnéesinformatives.

1.3 Analyse Discriminante Non-linéaire

Une projectionsurunsous-espaceV

M

(x)adaptéausignalxpeut

s'avé-rer utile en classication. Une telle Analyse Discriminante Non-linéaire

peut en eet s'adapter aux caractéristiques propres du signal qui le

dis-tinguent etpermettent de le classierecacement. Celaest illustré

simple-ment avec l'exemplesuivant,oùil n'est pasparticulièrement question de

si-gnaux,maisquiconcerneplusgénéralementunproblèmedereconnaissance.

Les20questionsquepeutposerlejoueursontl'analoguedesM coordonnées

associéesà laprojection P

V M

x d'unsignal.

Exemple : le Jeu des 20 questions

Unjoueurpeutposer20questions,qu'ilpeutchoisirlibrement,pour

iden-tier un personnage ou un objet. Il n'a manifestement aucun intérêt à

de-mander systématiquement s'il a des roues, car la réponse ne lui apportera

aucuneinformations'ils'agitd'unpersonnage.Cependant,dès quelejoueur

saitqu'ils'agitd'unobjet,cettequestiondevient intéressante àposer. Ilvaut

(21)

formationqu'il a déjà acquise.

Nous rappelons au chapitre 7 la diérence entre Analyse Discriminante

Linéaire(classicationpassive)etAnalyseDiscriminanteNon-linéaire

(classi-cationactive).LesBasesDiscriminantesLocales[SC94 ],lesbaseslesmoins

statistiquement dépendantes [Sai98], ou la technique de poursuite

d'infor-mation de Liu [LL99], sont du ressort de l'Analyse Discriminante Linéaire

[Fuk72 ]. Tout comme l'Analyseen Composantes Principales, cestechniques

dénissenteneetlaprojectionP

V M

xindépendammentdusignalxdonton

veutextrairedel'information.Elless'adaptent,certes, maisseulementàla

structure globale du processusX,et non à laréalisation particulière x qu'il

faut traiter. Nous déterminons sur deux exemples la stratégie séquentielle

optimale de projection adaptative. L'un des résultats les plus intéressants

estquepourclassierdesbruitsgaussiens colorés,ilestpayant des'adapter

à la réalisation observée. Nous verrons cependant que l'Analyse

Discrimi-nanteNon-linéaire,plusecace enprincipe,posedesproblèmesstatistiques

danssamiseen pratique.

An de classier des transitoires, nousexplorons au chapitre 8 une

mé-thodeutilisant les extrema de latransformée en ondelettes et desarbres de

décision [BFOS84 ]. Nous obtenons des performances de classication bien

(22)

(23)

(24)

Approximations adaptatives de

signaux sonores

La parole, qui transmet du sens, lamusique, porteuse d'émotions, sont

loind'être lessignaux périodiquespursdécrits parles modèles de signal

so-norelesplussimples.D'abord,parcequ'onytrouvedestransitoires,attaques

instrumentalesouconsonnesocclusives.Ensuite,parcequemême lesparties

d'un sonque l'on a coutume de qualier de stationnaires sont loin d'être

stationnaires : ainsi la fréquence instantanée, qui peut être dénie dans les

partiesentretenuesdessonsinstrumentaux(oularésonancedesnotes) subit

généralement desvariations aucours dutemps,commedanslevibrato dela

chanteuse.Ainsi, c'estenvariant aucours dutemps quelessignauxsonores

transmettent de l'information.

Un intérêt certain pour l'analyse des signaux non-stationnaires est

ap-paru cesdernières années. Avec lesdéveloppements théoriques, pratiqueset

technologiques liés à l'usage desondelettes, de nombreuses méthodes

d'ap-proximation de ces signaux signaux ont ainsi vule jour, dansle cadre très

proliquedel'AnalyseHarmonique. Sidesenjeuxpratiquesimportants,tels

quelacompression etledébruitagede signaux, ont pumotivercette

ébulli-tion, les méthodesdéveloppées s'avèrent également appréciablesdans

beau-coup d'applications oùl'on doit extrairedel'information d'un signal

1 .

Redondance, adaptativité et ecacité algorithmique

Les avancées majeures qui expliquent les succès pratiques de ces

tech-niques sont d'unepart l'emploi de représentations adaptatives, d'autre part

l'utilisationde laredondance,letoutétant généralement regroupésous

l'ap-pellation approximations non-linéaires. Redondance et adaptativité ont

permisdesaméliorationssubstantiellesdequalitéd'approximation(par

com-1

Onverraainsiauchapitre7 commentlanécessité d'approcher ecacementdes

(25)

succès tient à l'existence d'algorithmes rapides, qui les rend concrètement

utilisablespour traiter de vraisproblèmes, surde vraissignaux, c'est-à-dire

engrande dimension.

Nousrappelleronsdansce chapitre pourquoilestechniquesnon-linéaires

sont plus ecaces que les meilleures techniques linéaires, puis nous ferons

brièvement lepoint surchacuned'entre elles.

2.1 Approximation linéaire à M termes

Si(g

m )

1

m=1

estunebaseorthonormale del'espacedessignaux,onappelle

approximationlinéaire à M termesd'unsignalx laprojection orthogonale

P V M x= M X m=1 h x;g m ig m (2.1)

decesignalsurM vecteursxésdelabase,que,poursimplier, onsuppose

correspondreauxM premiers indicesm.Laqualitédel'approximationainsi

obtenue estmesurée, à M xé,par l'erreur quadratique

" M [x]= x P V M x 2 2 =kxk 2 2 P V M 2 2 = 1 X m=M+1 jhx;g m ij 2 : (2.2)

Silescoecients vérient j hx;g

m

i jAm

s

,ladécroissancede l'erreur est

" M [x]=O(M 1 2s ) (2.3) 2.1.1 Base de Karhunen-Loève

EndimensionnieN,lorsque lessignauxx àapprocher sontdes

réalisa-tions d'unprocessus X d'énergie nie, on peutdénir lameilleure

approxi-mationlinéaire à M termesà l'aide desprojecteursP

V M

,1M N,qui

minimisent l'erreur quadratique moyenne

" M

=Ef" M

[X]g (2.4)

Demanièreéquivalente,ces projecteursmaximisent l'énergie

E P V M X 2 2 : (2.5)

Lesprojecteurs optimaux sont obtenus comme en (2.1) à partir d'une base

orthogonale, dite base de Karhunen-Loève, constituée desvecteurs propres

2

del'opérateur de covariance

hu;Kvi=Efh u;XihX;vig (2.6)

2

(26)

carsymétrique etdéni positif. L'ordre desvecteurs (g m

) de la baseest tel

queles valeurspropres associéessoient décroissantes

2 1 2 2 ::: 2 N : (2.7) 2.1.2 Avantage de l'adaptativité

La basede Karhunen-Loève ne tient compte quedesmoments d'ordre 1

et2 duprocessusX pourminimiser "

M

[X]enmoyenne.Lesseulsprocessus

aléatoiresX qui soient entièrement descriptibles par leurs momentsd'ordre

1 et 2 sont les processus gaussiens.Montrons donc sur unexemple les

limi-tationsfondamentalesdelabasedeKarhunen-Loève(etdesapproximations

linéaires), et mettons en lumière les avantages apportés par l'adaptativité.

SoitX unprocessus(en dimension nieN)

X[n]=AÆ[n P]+W[n] (2.8)

constitué d'un dirac glissant Æ auquel on a ajouté un bruit W centré,

gaussienetcyclo-stationnairemaisnonblanc (i.e.d'opérateurde covariance

K W

6= 2

Id).L'amplitudeAesttiréeavecéquiprobabilitédansf

p

N;+

p

Ng,

etl'emplacement P estuniformément distribué sur J0;N 1K. On suppose

deplusquelestroisvariablesaléatoiresW,AetP sontindépendantes.Alors

X estunbruit cyclo-stationnairenon gaussien,centré, d'opérateur de cov

a-riance K X =Id+K W ; (2.9)

CommeW estcyclo-stationnaire,K

W

estunopérateurdeconvolution

circu-laire. Ilest donc diagonalisédanslabase de Fourier discrète e

k

;1k N,

sibienqu'il en estde même de K

X .

En supposant queles valeurs propres

2

k

de K

W

sont classéespar ordre

décroissant (i.e.W est unbruit bassefréquence), celles de K

X sont 1+ 2 1 1+ 2 2 :::1+ 2 N (2.10)

donclameilleureapproximationlinéaireàMtermesdanslabasede

Karhunen-Loève estune approximationbasse fréquencecaractérisée par l'erreur

" M = N X m=M+1 (1+ 2 m )=(N M)+ N X m=M+1 2 m : (2.11)

Danslecaslimiteoulebruitestpresqueblanc,

2

m

2

estpresqueconstant

et " M (N M)(1+ 2 ) (2.12)

(27)

de diracs, à condition de choisir les M termes de façon adaptative,

c'est-à-direenfonctiondusignalxàapprocher.Eneet,soitplavaleurpriseparla

variable aléatoire P dans laréalisation x du processusX :l'approximation

dex avec unvecteur Æ[n p] fournitune erreur d'approximation à 1terme

" 1 [x]= X n6=p jx[n]j 2 = X n6=p jW[n]j 2 =k Wk 2 jW[p]j 2 (2.13) etàM termes " M [x]= X n=2fpg[I M 1 (x) jW[n]j 2 X n=2fpg[I M 1 jW[n]j 2 (2.14) oùI M 1

(x)estl'ensembledeM 1indices(necontenant pasp)quipermet

de minimiser "

M

[x], et I

M 1

n'importe quel ensemble de M 1 indices

ne contenant pas p. Selon que p 2 J1;M 1K (ce qui se produit avec une

probabilité(M 1)=N) ou non, on prend I

M 1

=J1;MKfpg uo I

M 1

=

J1;M 1K, etl'on obtient les majorations

" M [x] N X m=M jW[n]j 2 jW[M]j 2 (2.15) ou " M [x] N X m=M jW[n]j 2 jW[p]j 2 : (2.16)

Comme P est indépendant de W, E

n j W[P]j 2 o = ( P m 2 m )=N 2 . En

passant à l'espéranceon a donc

Ef" M

[x]g(N M)

2

: (2.17)

Laqualitéd'approximationnon-linéaire(2.17) estbienmeilleureque(2.11).

2.2 Approximation non-linéaire à M termes

Les approximations non-linéaires de signaux, sont potentiellement bien

plus ecaces que les approximations linéaires. En outre, elles permettent

d'extraire des caractéristiques non-gaussiennes des signaux, porteuses

po-tentiellesd'information

3

,tellesqueleparamètreP dansl'exempleci-dessus.

Dansune baseorthonormale (g

m )

1

m=1

,une approximationnon-linéaireà M

termesd'unsignalx s'écrit

P V M (x) x= X m2I M (x) h x;g m ig m (2.18) 3

On verra au chapitre 7 que la base de Karhunen-Loève peut également être peu

(28)

M vaut " M [x]= X m2I= M (x) jh x;g m ij 2 =k xk 2 X m2I M (x) jhx;g m ij 2 ; (2.19) lechoix optimalde I M

(x) est obtenuen prenant les M indices associés aux

plus grands coecients, i.e. , en notant (g

m k

) la base classée dans l'ordre

décroissant descoecientsjh x;g

m k ij 2 , I M (x)=f m k ;1k Mg: (2.20)

Un signal x est d'autant mieux approché par une telle approximation

non-linéaire que ses coecients h x;g

m

i sont plus concentrés sur quelques

vecteursde labaseseulement.Onpeutmesurercette concentrationà l'aide

de l'appartenancede lasuite h x;g m k i à desespacesl p faibles jhx;g m k ij p Ck 1 (2.21)

LesinégalitésdeJacksonetdeBernsteinrelientlapluspetitevaleurdep<1

pour laquelle(2.21) est vraieetlavitessede décroissancede "

M [x] : " M [x]=O(M 1 2=p ) (2.22)

2.2.1 Complexité algorithmique de la projection adaptative

Lorsque labase orthogonale (g

m

) est quelconque, les approximations

li-néairesàM termesnécessitentlecalcul deh x;g

m

i,1mM.Leurcalcul

adonc une complexité algorithmiquede

O(MN): (2.23)

Pour obtenir la meilleure approximation non-linéaire, il faut connaître la

valeurdetouslescoecients,sibienquelecoûtalgorithmiqueestceluid'un

changement de base

O(N 2

): (2.24)

Cependantcertaines bases orthogonales sont associéesà desalgorithmes

rapides de changement de base. Ainsi la Transformée de Fourier Rapide

FFTO(NlogN),laTransforméeenOndelettesRapideFWTO(N)[Mal89]

[BCR91],latransforméeassociéeàune famille particulièrede paquets

d'on-delettes O(NlogN) ou de cosinus locaux O(Nlog

2

N) [CM91], diminuent

fortement la complexité algorithmique du changement de coordonnées. La

(29)

fait alors en trois étapes : changement de coordonnées (O(Nlog N)),

sé-lectiondes M plusgrandes etmise à zérodesautres O(N), changement de

coordonnées inverse O(Nlog

2

N)).Le coûttotal

O(Nlog

2

N); (2.25)

toujoursdominé par lechangement debase, estbienplusfaible queO(N

2 ).

Lecoût desapproximations linéairesdansces basespeut également être

ré-duit,enutilisantaussitroisétapes(ladeuxièmeétapen'estplusadaptative).

Uneapproximation linéaire calculéepar ce moyen coûte

O(Nlog

2

N); (2.26)

ce quiestplus faible queO(MN) si M estgrand devant log

2

N.

2.2.2 Choix de la base

Dans lecas desapproximations linéaires, avant d'eectuer la projection

(2.1),ilfaut calculerlabase deKarhunen-Loève. Pour celaon estime

l'opé-rateur de covariance K et on le diagonalise. Comme K est associé à une

matricedetailleNN,sadiagonalisation coûteO(N

3

).Cependantlorsque

leprocessusXestcyclo-stationnaire, sabasedeKarhunen-Loève estlabase

deFourier discrète,etl'on peutdonc éviter cecalculpréalable.

Pourlesapproximationsnon-linéaires,onemploiesouventunebase

d'on-delettes,qui constitue une baseinconditionnelle de nombreux espaces

fonc-tionnels (L

p

, espaces de Besov, ...). La théorie de l'approximation établit

les liens entre la régularité d'un signal x, sa norme dans ces espaces

fonc-tionnels,etla vitessede décroissance de ses coecients d'ondelettes (2.21).

Le lecteur intéressé par ces aspects pourra se référer à l'introduction aux

approximationsnon-linéaires de DeVore[DeV98 ].

Une base orthogonale est d'autant plus appropriée pour approcher une

classe de signaux que les coecients des signaux sont concentrés sur peu

de vecteurs. Le choix de la base orthogonale la plus appropriée dépend de

laclasse de signauxetdonc de l'application envisagée.Ainsi pour l'analyse

de signaux réguliers par morceaux, une based'ondelettes de régularité

suf-sante, telle que les ondelettes à support compact de Daubechies [Dau88 ]

est adaptée. Lorsque les signaux présentent des oscillations plutôt que des

singularitéstemporelles,despaquetsd'ondelettes,oubiendescosinuslocaux

[CM91 ],ou encore des bases orthonormales d'ondelettes chirpées [BJ93a ]

sont sansdouteplus appropriées.

2.3 Algorithme de meilleure base (Best Basis)

L'analysemathématique nepermet pastoujours dedéterminerune base

(30)

autant que possible son énergie sur peu de coecients. Les algorithmes de

meilleure base [CW92] choisissent une base dans une bibliothèque (B

) 2 de bases orthonormales B =(g m ) N m=1

, enminimisant une fonction de coût

additive C(B ;x) = N X m=1 x;g m 2 k xk 2 ! (2.27)

dénie à partir d'une fonction concave arbitraire (par exemple (x) =

xlog1=x).

Le théorème suivant,dont ontrouveraune démonstrationdans [Mal98],

montre que la relation C(B

;x) < C(B

;x) entre le coût de deux bases est

susante pour savoir que, pour tout M,B

concentre mieux l'énergiede x

sursesM composantes lesplus fortes quene lefaitB

.

Théorème 1 (Hardy-Littlewood-Pòlya) Soient(x

m ) N m=1 et(y m ) N m=1 deux

suites décroissantes de N réels de somme 1. Alors les deux propriétés

sui-vantes sontéquivalentes :

(i) Pourtout M,

M X m=1 x m M X m=1 y m

(ii) Pourtoute fonctionconcave ,

N X m=1 (x m ) N X m=1 (y m )

Lecoûtreètedonclacapacitédelabaseàapprocherxavecpeudevecteurs,

sibienque labasesélectionnée selon

C(B 0 ;x)=min C(B ;x) (2.28)

estlaplus adaptée au signalx.

Coifman etWickerhauser[CW92 ]ont montréqu'en utilisant une

biblio-thèque de bases structurée en arbre binaires (comme la bibliothèque des

paquetsd'ondelettesoucelledescosinuslocaux[CM91])ondisposed'un

al-gorithmerapidequi,aprèscalculdesdiverscoecients(

x;g m ) 1mN;2 ,

sélectionneune meilleure baseen O(N)opérations. Le coûttotal de la

pro-cédureestalorsdominépar ladécompositiondusignaldanslabibliothèque.

Danslecas despaquetsd'ondelettes, cecoût estde O(NlogN),tandis que

pour les cosinus locauxil estde O(Nlog

2 N).

(31)

Les signaux sonores (parole, musique, ...) sont non-stationnaires. Ils

contiennent des structures à diérentes échelles (transitoires de très courte

durée, parties soutenues et résonances de notes qui durent, ...) et

dié-rentesfréquences(parexemplelesdiérentspartiels,ouharmoniques d'une

même note) à des instants variés. Ces diérents structures se superposent,

dèsqueplusieurs locuteurs ou plusieurs instrumentss'expriment

simultané-ment.Ainsi,unsignalquiprésente simultanémentdesstructuresquinesont

pasorthogonales,telles qu'une sinusoïde et undirac superposés,

x(t)=Æ(t)+e

i!t

(2.29)

ne peut pas être représenté concisément comme somme de ces deux

com-posantes dansune base orthonormale. Pour de tels signaux, l'ecacité des

approximationsà M termes dansunebase orthogonaleest donc limitée.

2.4.1 Extraction de ridges de transformées redondantes

Pour représentercorrectement les signauxsonores, ilest nécessaire

d'in-troduire de la redondance, en ne se limitant plus à une famille

orthogo-nale.Ainsi,pouranalyser lesvariationsde fréquenceinstantanéede signaux

acoustiques,Delprat, Kronland-Martinet, et.al. [Del92 ][DEG

+

92][GKM96 ]

[KMG96 ]extraient les ridgesde représentations temps-fréquence ou

temps-échelle redondantes, telles quelatransforméede Fourier à courtterme

D

x;g(t u)e

i(t u) E

(2.30)

oulatransforméeen ondelettes continue de Morlet

x; 1 p s g t u s e i 0 s (t u) : (2.31)

Toutefois, étant donné la présence simultanée d'oscillations et de

transi-toires dans les signaux sonores, il est souhaitable d'analyser

indépendam-ment l'échelle setlafréquence desphénomènes mis en jeu.Celan'est pas

possible avec les outils temps-fréquence/temps-échelle classiques : la

trans-formée de Fourier à courtterme utilise une fenêtre d'analysede taille xée,

tandis quel'ondelette d'analyseutiliséedanslatransformée enondelettes a

une fréquence =

0

=sliée à son échelle. La transformée de Fourier

multi-échelle [Pea91]utiliséeparPearsonn'apascetinconvénient.Cependant elle

ne fournitpas unedécomposition du signalen structuresélémentaires :elle

lecompare à un dictionnaire de formes d'ondes élémentaires, de diérentes

(32)

Onappelle dictionnaire une familleredondante D=fg ; 2 g (2.32) de vecteurs unitaires k g

k = 1,ou atomes. L'analyse dessignaux sonores

4 ,

nécessiteundictionnairetemps-fréquencemulti-échelle,dontlesatomessont

caractérisés par unindice

=(s;u;) (2.33)

choisidansunensembled'indices R

+

R

2 .

Un tel dictionnaire s'obtient en réunissant les vecteurs des diérentes

bases de labibliothèque de paquets d'ondelettes, ou de celledes cosinus

lo-caux[CM91].Ons'intéresseiciaudictionnairemulti-échelledeGabor[QC94 ]

[MZ93] 5

,qui comprend del'ordre de O(NlogN) atomestemps-fréquence.

Il est constitué de lacollection des atomes temps-fréquence obtenus

di-latation, translationetmodulationd'une fenêtre g(t). Unefenêtre est une

fonction paire et positive, dont l'essentiel de l'énergie est localisée

tempo-rellement autour du temps 0 et, dans le domaine de Fourier, autour de la

fréquence 0.En raison de ses propriétés optimales de localisationcombinée

temps/fréquence, au sens du principe d'incertitude de Heisenberg, on

utili-serasouvent unefenêtre gaussienne

g(t)= 1 1=4 exp t 2 =2 : (2.34)

L'atometemps-fréquence d'échelle s, detemps uetde fréquence s'écrit

g (s;u;) (t) = 1 p s g t u s e i(t u) (2.35)

Lefacteur denormalisation (au sens delanormeL

2

) 1=

p

snousassureque

les atomessont tousd'énergie 1.

L'atome g

(s;u;)

est centré autour du temps u avec une dispersion

tem-porelle ud'énergie de l'ordre de s. Satransformée deFourier estlocalisée

autourdelafréquence,avec unedispersionde l'ordrede1=s.Sa

trans-formée de Wigner-Ville [Fla93 ] (la gure 2.1 représente un atome chirpé

gaussien etsatransforméede Wigner-Ville), qui dénit sarépartition

éner-gétique dans le plan temps-fréquence, se déduit de celle de la fenêtre de

départg par larelation

WV[g (s;u;) ]( t;!)=WV[g] t u s ;s(! ) (2.36) 4

Pour desapplications spéciques,il estpossible dedénirun dictionnaire adéquat

[MC97],avecl'inconvénientcependantdenepasavoird'algorithmerapide.

5

Onenutiliserauneextension,ledictionnairedeGaborchirpé,quicomprendO(N 2

)

(33)

econdes

0

0.2

0.4

0.6

0.8 -0.44

-0.24

-0.04

0.16

0.36 econdes

Hertz

0

0.2

0.4

0.6

0.8

0

100

200

300

400

500

Fig.2.1 Un atome gaussienetsatransforméede Wigner-Ville.

Dans lecas particulier d'unefenêtre gaussienne,la transforméede

Wigner-Villed'unatome estdonc une bossegaussienne endeux dimensions

WV[g (s;u;) ]( t;!)= 1 e (t u) 2 s 2 s 2 (! ) 2 (2.37)

essentiellement concentrée danslerectangle

(t;!)2[u u;u+u][ ;+]:

Lesparamètres sont échantillonnés selon

s = a

j

;j2Z (2.38)

u = nu(s);n2Z; (2.39)

= k(s);k 2Z; (2.40)

oùles pasd'échantillonnage

u(s) = su(1) (2.41) (s) = s 1 (1) (2.42)

sont invariants par changement d'échelle. Watson etGilholm [WG98 ]

(34)

1 j hg 1 ;g 2 i j 2 entretriplets(s;u;)deR 3

.Pour unsignaldeN points,ondoitdonc

consi-dérer O(logN) échelle, et O(N) couples (u;) par échelle. Le dictionnaire

de Gabor multi-échelle comprend donc O(NlogN) atomes.

2.5 Décomposition atomique dans un dictionnaire

A partir d'un dictionnaire D donné, on peut chercher à approcher le

signalx àl'aide d'unedécomposition atomique

x M = M X m=1 m g m (2.43) avec M atomes (g m ) M m=1

choisis dansD. Davis[Dav94 ]a montré que

l'ob-tention d'une telle approximation x

M

de x telle que kx

M

xk " est un

problème NP-complet. Il n'est donc pas question d'exiger la meilleure

dé-composition atomique, mais plutôt de chercher à s'en approcher : les

tech-niques de poursuite contournent la NP-complétude en empruntant des

stratégiessous-optimalespourobtenirdebonnes décompositionatomiques

dessignaux.

2.5.1 Poursuite de base (Basis Pursuit)

Le Basis Pursuit[CD95 ]fait appelaux techniques dela programmation

linéaire pour obtenir une décomposition atomique x

M = x minimisant le critère l 1 k( m )k 1 = X m j m j: (2.44)

Il aboutit à la sélection d'une base (non nécessairement orthogonale) de N

vecteurs, d'où son nom. En dépit de l'utilisation des techniques les plus

récentesde programmationlinéaires(notammentl'algorithmede point

inté-rieurdeKarmarkar[Shr98 ]),d'accélérationsaveclesalgorithmesrapidesliés

audictionnaire utilisé,lecoût algorithmiqueduBasis Pursuitestde l'ordre

deO(P

3:5

),où P estlatailledu dictionnaire.Bien qu'ilmène

expérimenta-lement àdesdécompositionscompactes dessignaux, lacomplexitédu Basis

Pursuitestdonc trop grandepour l'employer eectivement.

2.5.2 Poursuite adaptative (Matching Pursuit)

LeMatchingPursuit[MZ93](oupoursuiteadaptative)estunetechnique

(35)

termes d'un signal x. Étant donnée une approximation x m = m 1 n g n

à m atomes, spéciée par les coecients et les indices (

n ;g n ) 1nm , la

poursuitedétermine une approximationàm+1atomesdefaçon gloutonne,

enétendant laprécédente décomposition à l'aidedu choix de l'atome g

m+1

etde soncoecient

m+1

. Rappelons ici la dénitiondu Matching Pursuit

introduiteparMallatetZhang[MZ93].Oncommenceparchoisirunpremier

atome g

1

dans le dictionnaire D de façon à s'adapter au mieux au signal

analyséx,selon une mesurede corrélation

C(x;g ) =j hx;g i j 2 (2.45)

Le carré du produit scalaire de x avec l'atome g

, jh x;g ij 2 , représente

l'énergie de x le long de la direction de g

. Le premier vecteur est donc

choisiselon lecritère

1 =argmax jh x;g ij 2 (2.46)

etlepremier résidu de xest dénipar laprojectionorthogonale

R 1 x=x hx;g 1 ig 1 : (2.47)

L'énergiedu résidu estalors donnéepar la relation

R 1 x 2 =kxk 2 j hx;g 1 ij 2 (2.48)

Enitérant cette procédure, onobtient par induction

g m+1 = argmax jh R m x;g i j 2 (2.49) R m+1 x = R m x R m x;g m+1 g m+1 (2.50) R m+1 x 2 = kR m xk 2 R m x;g m+1 2 (2.51) etnalement, ennotant R 0

x=x,on obtient ladécomposition de x comme

combinaisonlinéaire x= M X m=1 R m 1 x;g m g m +R M x (2.52)

avec laconservation d'énergie

kxk 2 = M X m=1 R m 1 x;g m 2 + R M x 2 (2.53)

analogueàcequ'onobtiendraitavecunedécompositiondansunebase

ortho-normale,etcecibienquelafamilledevecteurssélectionnésnesoitengénéral

(36)

ledictionnaireDestcomplet,lerésiduR M

x=x x

M

tendverszéroet l'on

dispose delareprésentation x = 1 X m=1 R m 1 x;g m g m (2.54) kxk 2 = 1 X m=1 R m 1 x;g m 2 (2.55)

En dimension nie N, la convergence s'eectue à une vitesse

exponen-tielle R M x e (D)M

,caractéristique du dictionnaire. En dimension

in-nie, le lien entre la régularité du signal x et la vitesse de décroissance de

R M x = kx x M

k est pour l'instant beaucoup plus mal connu que pour

l'approximation à M termes dans une base orthonormale d'ondelettes. Le

lecteur intéressé pourra consulter Temlyakov [Tem98 , Tem99b, Tem99a ] ou

DeVore[DeV98 ].

2.5.3 Matching Pursuit Orthogonal

Mêmeendimensionnie,leMatchingPursuitnécessiteuneinnité

d'ité-rationspour reconstruirex. Le MatchingPursuitOrthogonal, introduitpar

Zhang [Zha93 ], Davis [Dav94 ] [DMA97] et Pati et al. [PRK93] permet de

s'assurerquela poursuitecesseaprès un nombrenid'étapes. L'algorithme

initial est modié comme suit : une fois les m vecteurs g

1 ;:::;g m sélec-tionnés, onconsidère P V m

leprojecteur orthogonalsurlesous-espace

V m =Vectfg 1 ;:::;g m g: (2.56)

LameilleureapproximationdexaveccesmvecteursestP

V m

x,Ellepermet

de dénirlerésidu comme

R m x=x P V m x: (2.57)

Onpeut alorsitérer leprocédéà l'aidede (2.49).

Cetalgorithmenécessitelecalculdel'orthonormaliséedeGram-Schmidt

de la famille (g

m )

N

m=1

et augmente assez sensiblement la complexité

algo-rithmique de lapoursuite. Pour un dictionnaire multi-échelle de Gabor elle

estde l'ordre deO(MNlog

2 N).

2.5.4 Généralisations

Le principe du Matching Pursuit est souple. Suivant le dictionnaire et

le critère de sélection d'atomes employés, il permet d'approcher

(37)

nirunMatchingPursuitmoléculaire, ensélectionnant de façon adaptative

des sous-espaces plutôt que des atomes. Ainsi pour décomposer un signal

musicalen structures harmoniques, on introduira le MatchingPursuit

Har-monique.Lechapitre4estconsacréàl'accélérationduMatchingPursuit:le

Matching Pursuit Rapide que nous avons développé réduit la complexité à

O(MN).Ondénitauchapitre5unepoursuitemodiéedansledictionnaire

deGaborchirpé,avecunecomplexitédeO(MN).Ennonintroduitau

cha-pitre 6 le Matching Pursuit Haute Résolution, qui sélectionne les atomes

avec uncritère diérent dupur critèreénergétiqueusuellementemployé. Ce

critère introduit une super-résolution temporelle, et améliore l'analyse des

(38)

Matching Pursuit sur un

dictionnaire de molécules

Nous dénissons dans ce chapitre une extension naturelle du Matching

Pursuitatomique,leMatchingPursuitmoléculaire. Au lieude projections

itératives sur les droites engendrées par des atomes g

choisis dansun

dic-tionnaire atomique, on choisi desprojectionssur des molécules, c'est-à-dire

dessous-espacesvectorielsV

deH dedimensionplusgrandeque1,choisis

dansun dictionnaire demolécules.

La première sectionest consacrée àla dénition abstraite de cet

algo-rithme, àpartir d'idéesissuesdu Projection Pursuitde Huber[Hub85 ].

On s'intéresse dans un second temps à deux dictionnaires de molécules

particuliers. Le dictionnaire de molécules di-atomiques réelles estle cadre

naturel pour dénir une poursuiteavec desatomesà valeursréelles,comme

l'ont fait remarquer Bergeaud [Ber95 ] et Goodwin [Goo97 ]. Nous

introdui-sons ensuite le dictionnaire de molécules harmoniques, an de dénir le

Matching Pursuit Harmonique, destiné à décomposer les signaux sonores

en structures harmoniques.

3.1 Matching Pursuit avec des dictionnaires de

mo-lécules

Un Matching Pursuitmoléculaire dièredu Matching Pursuit

atomi-que parlefaitqu'àchaqueitérationonadapteaurésiduunsous-espace V

de H qui n'est plus contraint à être une droite. Ce sous espace est choisi

dansundictionnaire de molécules

D mol =f V ; 2 mol g: (3.1)

(39)

Oncommence donc par sélectionnerla première molécule V

1

de la

dé-compositionde manière àmaximiser unemesurede corrélation

C(x;V ) = P V x 2 (3.2) où P V

est l'opérateur de projection orthogonale sur V

. La grandeur P V x 2

représente donc l'énergie de x dans la direction de la molécule

V

.Le choix du premierindice

1

est donc eectuéselon lecritère

1 =argmax P V x 2 (3.3)

et le premier résidu de x est calculé cette fois-ci à l'aide de la projection

orthogonale R 1 x=x P V 1 x: (3.4)

L'énergiedu résidu estalors donnéepar la relation

R 1 x 2 =k xk 2 P V 1 x 2 (3.5)

Enitérant ce procédéon obtient par induction

m+1 = argmax P V R m x 2 (3.6) R m+1 x = R m x P V m+1 R m x (3.7) R m+1 x 2 = kR m xk 2 P V m+1 R m x 2 (3.8)

eton peut nalement, en notant R

0

x =x, reconstruire x à partir des

pro-jectionssuccessivesobtenues

x= M X m=1 P V m R m 1 x+R M x (3.9)

avec laconservation d'énergie

k xk 2 = M X m=1 P V m R m 1 x 2 + R M x 2 (3.10)

(40)

Le procédéitératif utilisé convergesi lerésidu vérie

R M

x !0: (3.11)

Onpeut alorsreconstruire lesignal

x = 1 X m=1 P V m R m 1 x (3.12) k xk 2 = 1 X m=1 P V m R m 1 x 2 : (3.13)

UnthéorèmedeJones[Jon87]surlaconvergenceduProjectionPursuitde

Huber[Hub85 ]prouvelaconvergenceduMatchingPursuitatomique[MZ93]

dèsqueledictionnaireatomiqueDutiliséestcomplet,i.e.lorsquel'adhérence

del'espacevectorielW =VectfDgqu'ilengendreestégaleàl'espaceHtout

entier.Sice n'est paslecas, ilya toujours convergence,maispasvers zéro

R M x !P W ? x (3.14) où P W ?

est leprojecteur orthogonal surle complément orthogonal de W

dansH.L'approximation x M =x+R M x !P W x (3.15)

nepermetdonc pasde reconstruirelesignal.Unrésultatde RejtöetWalter

[RW92] permetd'étendre le résultat de convergence à la poursuite

molécu-laire. Il sut encore que le dictionnaire moléculaire D

mol

de sous-espaces

vectorielsutilisé engendreunsous-espacevectorieldensedeH pour être

as-suréde laconvergence (3.11). RejtöetWalter établissent deplus la

conver-gence d'une forme faible de poursuite, dénie par lechoix, à chaque étape,

nonpasde lameilleuremolécule (qui remplit lacondition(3.6))maisd'une

bonne molécule V

m

vériant laconditionplus faible

P V m R m 1 x 2 sup P V R m 1 x 2 (3.16)

où>0est unfacteur de sous-optimalité indépendant

1

de m.

L'avantagedecetteconditionassouplieestquelarecherchedela

meilleu-re molécule peuts'eectueràchaqueétapemdansunesous-familleD

m du

dictionnaire D, dont le nombre d'éléments est beaucoup plus petit, ce qui

peutaccélérercetterecherche.Onenverrauneapplicationauchapitre4.La

contrepartie estun aaiblissement de lavitessede convergence.

1

DesrésultatsrécentsdeTemlyakov[Tem99b]permettentdetraiterlecasoùcefacteur

varieavecm,àconditionque

P m p m m =1:

(41)

En dimension nie, il y a convergence à vitesse exponentielle. Pour un

dictionnaireD,on peuten eet dénir

(D) = inf x2H sup V 2D P V x 2 kxk 2 : (3.17)

Comme on est en dimension nie, la sphère unité est compacte, donc x 7!

sup P V x 2 =k xk 2

atteint son inmum qui est strictement positif carD

est complet et contient donc au moins une base. On a donc (D) > 0.

L'équation (3.8) nousdonnealors àchaqueétape

k R m xk 2 k R m 1 xk 2 =1 P V R m 1 x 2 kR m 1 xk 2 1 (D) (3.18)

Pour toutM 1 ona donc

R M x 2 kxk 2 ( 1 ( D)) M =k xk 2 e ( D)M (3.19)

où (D) = log(1 (D)) est une borne inférieure sur le taux de

conver-gence.LorsqueladimensionN estgrandeetqueDn'estpastropredondant,

1,sibienque.Lorsquelechoixdemolécule estfaitavec la

condi-tionaaiblie(3.16),onsaitquelaconvergence esttoujours garantie,maisla

bornesur lavitesseasymptotique de décroissancede l'énergie durésidu est

aaiblie d'unfacteur, i.e.= log(1 ).

Danscechapitreons'intéresseàdeuxdictionnairesdemolécules.Le

dic-tionnaire D

r

demolécules di-atomiques estle cadrenaturel pour analyser

des signaux à valeurs réelles avec une poursuite sur des atomes réels. Par

ailleurs, dans le cadre de l'analyse de signaux musicaux, le dictionnaire de

molécules harmoniques D

h

permet de décomposer un signal en structures

harmoniques.

3.2 Matching Pursuit avec des atomes réels

LeMatchingPursuitmoléculaireestleboncadrepourdénirlapoursuite

avec desatomes temps-fréquenceàvaleursréelles

g (s;u;;) =K (s;u;;) g t u s cos( (t u)+) (3.20) oùK s;u;;

estunfacteur denormalisation L

2

.Eneet,laprocédureadhoc

desélectiond'unbon atomeréelsuggéréeparMallatetZhang[MZ93]n'est

pasoptimale.Elleconsisteàchoisirlemeilleuratomecomplexe(voir(2.35))

m =(s m ;u m ; m )=argmax R m 1 x;g (3.21)

(42)

e i arg;m = R m 1 x;g m jh R m 1 x;g ij : (3.22)

Le but est de sélectionner un atome réel g

m

; m

sans balayer le paramètre

de phase , an de limiter la complexité de la poursuite. Le formalisme

du Matching Pursuit moléculaire permet d'atteindre ce but en fournissant

l'atome réel optimal.

3.2.1 Molécules di-atomiques réelles

Commel'ontfaitremarquerBergeaud[Ber95]etGoodwin[Goo97 ],chaque

atome réel g

;

est associéà unatome complexe g

et à sonconjuguég . Il vérie g ; = K ; 2 e i g +e i g ; (3.23) où K ;

est un facteur de normalisation L

2

. L'ensemble des vecteurs g

; ,

lorsque varie, engendredonc l'espace engendré par g

etg V =Vectf g ;g g (3.24) La projection orthogonaleP V R m 1 x durésidu R m 1 xsurV estun

vec-teurdont ladirection estl'atome réel g

; de phaseoptimale sup ; R m 1 x;g ; 2 =sup sup R m 1 x;g ; 2 =sup P V R m 1 x 2 : (3.25)

Lasélectiondumeilleuratometemps-fréquenceréelg

;

estdoncéquivalente

à cellede la meilleure molécule V

en fonction de l'énergie P V R m 1 x 2

de laprojection surce sous-espace

2

de dimension 2.

3.2.2 Complétudedu dictionnairede moléculesdi-atomiques

LedictionnaireD

r

demoléculesdi-atomiques deGabor(3.24) est

com-plet, car il engendre le même sous-espace vectoriel de L

2

(R) que le

dic-tionnaire des atomes de Gabor complexes D

c

. En eet D

c

est stable par

2

En lant la métaphore physique associée à la dénition d'atomes, on va appeler

ce sous-espace unemolécule di-atomique. Defaçon tout àfait analogue, dansle monde

physique,les molécules di-atomiquesd'oxygènesont faitesd`atomes d'oxygèneréunisen

paires.Ilenestdemêmedesmoléculesd'hydrogène,dechlore,...Lemêmeétatdefaitse

retrouvedans lemonde desatomes appelés àreprésenter unsignal réel :chaqueatome

complexefait partie d'une paire en étant associé à son conjugué. L'analysede signaux

à valeurs réelles fait donc plutôt intervenir des molécules di-atomiques que des atomes,

(43)

(s;u;) (s;u; ) etD c =fg ; 2 atom g=fg ; 2 atom g ,on abien W =Vectf g ; 2 atom g=Vectf V ; 2 atom g: (3.26)

En vertu de cette complétude, la poursuite sur des molécules di-atomiques

réelles estdonc convergente.

3.2.3 Projection orthogonale sur une molécule di-atomique

La projection orthogonale sur une molécule di-atomique V

se calcule

sansproblèmecaronconnaîtunebaseg

;g deV ,etsabasebi-orthogonale 3 e g , e g : e g = 1 1 j hg ;g i j 2 fg hg ;g ig g (3.27) e g = ge (3.28) sibienque P V R m 1 x= R m 1 x;g ~ g + R m 1 x;g ~ g ; (3.29) et P V R m 1 x 2 = 2< n R m 1 x;g 2 hg ;g i R m 1 x;g 2 o 1 jh g ;g ij 2 (3.30)

Cas particulier des atomes temps-fréquence symétriques

Pour des atomes temps-fréquence g

construits à partir d'une fenêtre

symétrique g(t) (ce qui est le casdes atomes gaussiens), le produit scalaire

h g

;g

i estun nombre réel. L'équation (3.30) sesimplie alors en

P V R m 1 x 2 =2 1 hg ;g icos2 arg 1 jh g ;g ij 2 R m 1 x;g 2 (3.31) où arg estl'argument de R m 1 x;g 4

.L'atomeréel optimalg

m;m vérie donc P V R m 1 x= R m 1 x;g m;m g m;m = P V R m 1 x g m;m (3.32) 3

Un traitement particulier intervient lorsque g

est déjàun atome réel, auquelcas

il est égal à son conjugué et V

est de dimension 1 au lieu de 2. Aucune notion de

phase n'intervient alors, et l'on a tout simplement P

V R m 1 x = R m 1 x;g g et P V R m 1 x 2 = R m 1 x;g 2 4

On peut cependant avoir besoin de l'équation (3.30) lorsque la fenêtre n'est pas

symétrique : c'est le cas du dictionnaire de sinusoïdes amorties employé par Goodwin

[Goo97];demêmeauchapitre5,commeonajouteunparamètredechirpdansladénition

(44)

e i m = R m 1 x;ge jhR m 1 x;ge ij (3.33) = R m 1 x;g h g ;g i R m 1 x;g jh R m 1 x;gi hg ;g ihR m 1 x;g i j (3.34)

Pour lesélectionner,ilsutdechoisir

m =(s m ;u m ; m

)quirend maximale

lacorrélation m =argmax P V R m 1 x (3.35)

calculéeàl'aide desproduits scalairesh R

m x;g

i avec lesatomescomplexes.

Pourl'indicesélectionné,etpourcelui-làseulement,ilresteàcalculerlaphase

m

d'aprèsl'équation (3.33). Cetteprocédure exacte estmanifestement

dif-férentedelaprocédureapproximativeproposéeparMallatetZhang,puisque

laphaseexacte

m

vériel'équation(3.33),alors quelaphaseadhoc

arg;m

vérie (3.22), et que l'indice

m

est choisi avec le critère (3.35) au lieu de

(3.21).

La procédure optimale de calcul de la phase n'augmente pas la

com-plexité descalculs d'unfacteur mesurable,commeonleverraau chapitre 4.

Par contreelleaugmentesensiblement lavitessededécroissancedel'énergie

du résidu R M x 2

, améliorant ainsi la qualité d'approximation lorsque le

nombre d'itérations M est xé. C'est cette amélioration que nous étudions

maintenant.

3.2.4 Amélioration de l'approximation à M atomes réels

Nouscomparons icilaprocédure adhoc de choix du meilleuratome réel

avec le choix optimal, dans le cadre du dictionnaire de Gabor. A partir

des dénitions (3.22) et (3.33), comme tan==(e

i )=<(e i ), on établit la relation tan= 1+hg ;g i 1 hg ;g i tan arg (3.36)

entrelaphaseoptimale

opt etl'argument arg duproduitscalaire R m 1 x;g .

Lesdeux phasessont donc quasiment identiques lorsquehg

;g

i 0.

Par ailleursd'après(3.22) et(3.23), ona

R m 1 x;g ; arg 2 =K 2 ;arg R m 1 x;g 2 : (3.37)

etcommelefacteur de normalisation utilisé en (3.23) vaut

K 2 ;arg = 2 1+< e 2iarg hg ;g i = 2 1+h g ;g icos2 arg ; (3.38)