HAL Id: tel-00583662
https://tel.archives-ouvertes.fr/tel-00583662
Submitted on 6 Apr 2011
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
Approximations non-linéaires pour l’analyse de signaux
sonores
Rémi Gribonval
To cite this version:
Rémi Gribonval. Approximations non-linéaires pour l’analyse de signaux sonores. Mathématiques
[math]. Université Paris Dauphine - Paris IX, 1999. Français. �tel-00583662�
U.F.R. MATHÉMATIQUES DE LA DÉCISION
Thèseprésentée pour obtenir legrade de
DOCTEURDE L'UNIVERSITÉ DE PARIS IX DAUPHINE
spécialité:Mathématiques Appliquées
par
Rémi GRIBONVAL
Approximations non-linéaires pour l'analyse des signaux
sonores
Soutenue le7Septembre 1999 devant lejurycomposéde
MM. Yali AMIT rapporteur
Jean-Pierre AUBIN président
Emmanuel BACRY examinateur
DonaldGEMAN examinateur
StéphaneMALLAT directeur dethèse
Xavier RODET examinateur
JetiensàremercierEmmanuelBacryetStéphaneMallat,quim'onttous
deuxencadré lorsde cetravail dethèse.Je leur suisredevabled'unesomme
considérablede temps etd'énergie.
Ma rencontre avec Emmanuel Bacry à l'Ecole Normale Supérieure, à
l'occasion de son cours sur les aspects mathématiques et informatiques de
lamusique, a été décisive en bien desmanières. C'est en eet à la suite de
longues discussions avec lui que j'ai orienté mon travail dans la direction
prise dans cette thèse. Lors de mon stage de DEA à l'IRCAM, et tout au
longdecetravaildethèseauCMAP,ilaprofondémenttransformémafaçon
de travailler et de concevoir l'interaction entremathématiques, musique, et
programmation informatique. Enn c'est à lui que je dois la chance
extra-ordinaire d'avoir fait la connaissance de Stéphane Mallat. Je suis donc très
heureux qu'ilait accepté departiciperau jury.
J'ai énormément appris aucontact de StéphaneMallat, et magratitude
pour lui est immense. Il a fait preuve d'une exceptionnelle disponibilité, et
j'aibénéciéauprèsdeluid'unapprentissagescientiqueexceptionnel,grâce
àlarigueur desonéthique scientiqueetàsagrande inspiration.
J'ai étégalvanisé par l'enthousiame que XavierRodet a insué à notre
travailetl'excellentaccueilqu'ilm'aréservé dansl'équipeAnalyse-Synthèse
del'IRCAM.Je doisàsonexpérienceavisée d'êtreresté prochedes
applica-tions sonores,etje leremercie d'avoir accepté de participer au jury.
J'adresse toutemon amitié à Philippe Depalle, qui m'avaitencadré lors
de monstage de DEA. Sa compagnie a toujours étéun grand plaisir et il a
toujoursprodiguéavecbeaucoupdegentillesseetde patiencelesconseils les
plusjudicieux.
C'est dansle cadre splendide du CIRMà Luminy que j'ai eu lachance
de faire la connaissance de Yali Amit, dont les idées originales et brillantes
m'étaientdéjàconnuesparsesécrits.J'aiététrèsattéqu'ils'intéresseàmon
travail,etjeleremercie vivement d'avoiracceptéd'êtrel'undesrapporteurs
de cettethèse.
J'ai euleplaisirdedécouvrirlagrandegentillesseetl'ecacitédeBruno
Torrésani lorsqu'il m'a fait l'honneur d'être lui aussi rapporteur de cette
thèse.J'espèrevivement avoirde nouveau lachance de bénécierde la
pré-cisionetde lapertinencede sescommentaires.
J'ai beaucoupappréciélesnombreusesdiscussions passionnantesquej'ai
euesavec Donald Geman, aussibienlors de sonséjour auCMAP qu'à
l'oc-casiond'unsecondpassageauCIRM.Jesuis d'autant plusheureux qu'ilait
accepté departiciperau jury.
J'ai ététrès attédel'intérêtqueJean-Pierre Aubinaportéàcetravail,
etjele remercie vivement de m'avoirfait l'honneurde présiderlejury.
J'aieulachancedepouvoirproterdusavoir-faireetdesmoyensinégalés
Synthèse, Georoy Peeters, Diemo Schwartz, Stefania Seran, Christophe
Vergez, Marcelo Wanderley, ... ettous ceux que j'ai pu croiser lors d'unde
mespassages épisodiques. Une mention spécialeest dédiée àLaurent Ghys,
administrateursystème, pour ledévouement, la patienceet l'ecacité avec
lesquelsil m'aaidéà résoudretant de questionsinformatiques.
L'atmosphère chaleureuse qui règne au CMAP, le charisme et le talent
desdirecteursquis'ysontsuccédés,Jean-ClaudeNédélec,Pierre-Arnaud
Ra-viart, etVincent Giovangigli, l'ecacité et lagentillesse de JeanneBailleul,
GeoBoleat,LilianeDoaréetNathalieLimonta, leslonguesdiscussionsentre
collègues après le café me laisseront un excellent souvenir des années que
j'y ai passées. La compétence d'Aldjia Mazari et de Pedro Ferreira pour
régler mes dicultés informatiques m'a été d'un grand secours. J'ai
beau-coupapprécié l'humour egmatiqued'Erwan Le Pennec, dont lacompagnie
a été un grand plaisir, et qui m'a rendu de ers services. Je lui souhaite
bonne chance pour les années qui viennent. Je suis très heureux d'avoir eu
pour compagnonsd'aventure MaureenClerc, ChristopheBernard etJérôme
Kalifa. Nous avons partagé beaucoup d'expériences en quelques années, et
j'espèreque celavadurer. J'adresseenparticulier tousmes voeuxà Jerome
KalifaetNadine ainsiqu'aChristophe Bernard et Rita.
Enn, que Vérène soit inniment remerciée pour la patience et
l'endu-rance avec lesquelles elle m'a soutenu et supporté. Je lui dédie cette thèse
1 Introduction 15
1.1 Réduire ladimension pour extrairede l'information . . . 15
1.2 Mesured'information :énergie, entropie etperception . . . . 16
1.3 AnalyseDiscriminante Non-linéaire . . . 19
I Approximation non-linéaire 21 2 Approximations adaptatives de signauxsonores 23 2.1 Approximationlinéaire à M termes . . . 24
2.1.1 Base deKarhunen-Loève . . . 24
2.1.2 Avantage del'adaptativité . . . 25
2.2 Approximationnon-linéaire àM termes . . . 26
2.2.1 Complexitéalgorithmique delaprojection adaptative 27 2.2.2 Choixde labase . . . 28
2.3 Algorithmede meilleurebase (BestBasis) . . . 28
2.4 Représentationsredondantesetdictionnaires . . . 30
2.4.1 Extraction de ridgesdetransformées redondantes . . . 30
2.4.2 Dictionnaire temps-fréquencemulti-échelle de Gabor . 31 2.5 Décompositionatomique dansun dictionnaire . . . 33
2.5.1 Poursuite de base(BasisPursuit) . . . 33
2.5.2 Poursuite adaptative (MatchingPursuit) . . . 33
2.5.3 MatchingPursuitOrthogonal . . . 35
2.5.4 Généralisations . . . 35
3 Matching Pursuit sur un dictionnaire de molécules 37 3.1 MatchingPursuitavec desdictionnaires de molécules . . . 37
3.1.1 Principe . . . 38
3.1.2 Convergence. . . 39
3.1.3 Vitessede convergence en dimension nie . . . 40
3.2 MatchingPursuitavec desatomesréels . . . 40
3.2.1 Moléculesdi-atomiques réelles . . . 41
3.2.4 Amélioration del'approximation àM atomes réels . . 43
3.2.5 Représentation temps-fréquence associée . . . 46
3.3 MatchingPursuitHarmonique. . . 47
3.3.1 Moléculesharmoniques. . . 47
3.3.2 Loidespartiels . . . 48
3.3.3 Domainede fréquencesfondamentales . . . 48
3.3.4 Complétudedudictionnaire demolécules harmoniques 49 3.3.5 Choixapproché delameilleure molécule harmonique . 49 3.3.6 Quasi-orthogonalitédespartiels . . . 51
3.3.7 Quasi-orthogonalitédansledictionnaire de Gabor . . 52
3.3.8 Recherche rapidede lamolécule laplus corrélée . . . . 53
3.3.9 Projection surlamolécule sélectionnée . . . 54
3.3.10 Résuméde l'algorithme . . . 55
3.3.11 Représentation temps-fréquence associée . . . 55
4 Matching Pursuit Rapide 59 4.1 ComplexitéinitialeduMatching Pursuit . . . 60
4.1.1 Calculdesproduits scalairesavec les atomescomplexes 60 4.1.2 Calculdescorrélations avec lesatomes réels . . . 61
4.1.3 Calculdescorrélations avec lesmolécules . . . 61
4.1.4 Sélectiondu meilleuratome oude lameilleure molécule 61 4.1.5 Miseà jour durésidu. . . 62
4.1.6 Formules rapidesde miseà jourdes corrélations. . . . 62
4.1.7 Complexitétotale. . . 62
4.2 Poursuite dansdessous-dictionnaire adaptés. . . 63
4.2.1 Sous-dictionnairede maxima locaux . . . 63
4.2.2 Constructionpériodique de sous-dictionnaires . . . . 64
4.2.3 Itérationsdansun sous-dictionnaire . . . 65
4.2.4 Miseà jour rapidedesproduits scalaires . . . 65
4.2.5 Détermination rapide duseuil" p . . . 65
4.2.6 Résuméde l'algorithme . . . 66
4.2.7 Convergence de l'algorithmeaccéléré . . . 66
4.2.8 ComplexitéduMatching PursuitRapide . . . 66
4.2.9 Résultatsnumériques. . . 68
5 Matching Pursuit Rapide avec un dictionnaire d'atomes modulés en fréquence 71 5.1 Dictionnairetemps-fréquence d'atomeschirpés. . . 72
5.1.1 Discrétisationdu dictionnaire . . . 73
5.1.2 Échantillonnage critique duchirp . . . 73
5.1.3 Tailledu dictionnairediscret . . . 74
5.1.4 Coûtdu calculdesproduits scalaires . . . 75
5.2.1 Ridges dudictionnaire deGabor continu . . . 79
5.2.2 Recherche localedu meilleuratome chirpé . . . 83
5.2.3 Un théorèmede ridgeà l'ordresupérieur . . . 84
5.2.4 Recherche localerapide du meilleuratome chirpé . . . 87
5.2.5 Estimationnumérique par interpolation . . . 88
5.3 MatchingPursuitChirpé RéelRapide . . . 90
5.3.1 Résumé del'algorithme etcomplexité . . . 90
5.3.2 Poursuite avec desmaxima locaux . . . 91
5.3.3 Sous-optimalité . . . 91
5.4 Résultatsnumériques . . . 93
5.4.1 Analysed'unchirp hyperbolique . . . 93
5.4.2 Analysed'uncri de chauve-souris . . . 93
5.4.3 Analysedu vibratod'une voixchantée . . . 95
6 Matching Pursuit Haute Résolution 101 6.1 Limitations de lapoursuite . . . 101
6.1.1 Résolution temporelle . . . 101
6.1.2 Pré-écho . . . 102
6.1.3 Diagnostic . . . 102
6.2 Critère hauterésolution . . . 106
6.2.1 Sous-atomes. . . 106
6.2.2 Corrélation haute-résolution . . . 107
6.2.3 MatchingPursuitHaute Résolution. . . 108
6.2.4 Convergence. . . 109
6.3 Résultats . . . 109
6.3.1 Résolution temporelle améliorée. . . 109
6.3.2 Élimination dupré-écho . . . 110
II Classication active de signaux 111 7 Sélection de caractéristiques 113 7.1 Critère de sélection decaractéristiques . . . 114
7.1.1 Énergie . . . 114
7.1.2 Insusancedu critèreénergétique . . . 115
7.1.3 Entropie, information mutuelle etentropie relative . . 116
7.2 Sélectionpassive decaractéristiques. . . 116
7.2.1 Analyseen Composantes Indépendantes . . . 116
7.2.2 Diérenceavec l'Analyseen Composantes Principales 118 7.2.3 Baseorthogonalelamoinsstatistiquement dépendante118 7.2.4 Poursuite passive d'information . . . 118
7.3 Sélectionactivede caractéristiques . . . 119
7.3.3 Arbresde décision . . . 121
7.3.4 Problèmes d'ordre statistique . . . 121
7.4 Poursuite active d'informationsurdes classesgaussiennes . . 122
7.4.1 Mélangede deuxgaussiennesde même covariance . . . 123
7.4.2 Mélangede deuxgaussiennescentrées . . . 124
8 Classication de singularités à l'aide d'arbres de décision 129 8.1 Caractérisationdesingularitésaveclatransforméeenondelettes130 8.1.1 Caractérisationde l'exposant deHölder local . . . 131
8.1.2 Extremalocaux dela transforméeenondelettes . . . . 131
8.1.3 Invariance par translation . . . 132
8.2 Dictionnairede questionsbinaires surles extrema . . . 133
8.2.1 Formegénérale d'unequestion . . . 133
8.2.2 Relationsélémentaires entrepairesd'extrema . . . 134
8.2.3 Dictionnairede questionsélémentaires . . . 135
8.2.4 Relationsmultiples dans unk-uplet d'extrema. . . 136
8.2.5 Dénitiondu dictionnairepar ranements successifs . 139 8.3 Constructiongloutonne d'arbres dedécision binaires . . . 139
8.3.1 Notationsetvocabulaire . . . 139
8.3.2 Principede laconstruction gloutonne . . . 140
8.3.3 Élagageetsélection d'arbres. . . 142
8.4 Dictionnairesadaptésde questions . . . 142
8.4.1 Éliminationde questionsinutiles . . . 143
8.4.2 Extensionadaptée dudictionnaire . . . 144
8.4.3 Discrétisationdu seuiladaptée auxdonnées . . . 146
8.4.4 Algorithmeglouton . . . 146
8.4.5 Nécessitéd'uneclassede rejet . . . 147
8.5 Classicationde singularités glissantes . . . 148
8.5.1 Signauxetclasses. . . 150
8.5.2 Arbresde décision avec des extrema . . . 152
8.5.3 Tauxdereconnaissance avantsélection dumeilleur seuil154 8.5.4 Performances en fonction duniveau debruit . . . 155
8.5.5 Comparaisonavec l'AnalyseDiscriminante Linéaire . . 155
8.5.6 Eetde l'invariance par translation. . . 156
8.5.7 Intérêt de l'adaptativité . . . 157
9 Conclusion et perspectives de recherche 159 III Annexes 161 A Calcul rapide de produitsscalaires ... 163
A.3 Formule approchée ... . . 167
B Démonstration des théorèmes de ridges 171 B.1 Démonstration desthéorèmes d'approximation 4et 5 . . . 171
B.1.1 Démonstration duthéorème 4 . . . 171
B.1.2 Démonstration duthéorème 5 . . . 173
B.2 Démonstration descorollaires 1et2 . . . 175
B.2.1 Démonstration ducorollaire 1 . . . 175
B.2.2 Démonstration ducorollaire 2 . . . 177
B.3 Démonstration de laproposition 1 . . . 179
B.3.1 Corollairede ladémonstration de laproposition 1. . 180
C Mélange de gaussiennes et information mutuelle 181 C.1 Rappels :loisconditionnellesde bruitsgaussiens . . . 181
C.2 Expressionde l'information mutuelleconditionnelle . . . 183
C.3 Variations del'information mutuelle . . . 185
C.3.1 Démonstration dulemme 6:variations à xé . . . . 186
C.3.2 Démonstration dulemme 7:variations pour=0 . . 186
C.4 Démonstration duthéorème 7 . . . 187
C.5 Classicationactivede bruitsgaussiens. . . 189
C.5.1 Démonstration dulemme 1 . . . 189
C.5.2 Démonstration dulemme 2 . . . 191
C.5.3 Démonstration dulemme 3 . . . 192
Notations générales
=(z);<(z);z Partie imaginaire, partie réelleetconjuguéd'unnombre complexe z
f =O(g) f estdominée parg :il existe uneconstanteC telle quej fjCjgj
f g f estéquivalente àg :f =O(g) et g=O(f)
= est égalpar dénition
[a;b] Intervalle ferméde nombreréels comprisentreles bornesaetb
Jn 1 ;n 2 K [n 1 ;n 2 ]\Z Probabilités
X P Lavariablealéatoire X suitlaloi P
Ef:g Espéranced'une variable aléatoire
P(A) Probabilité d'unévénement A
Approximations non-linéaires
H Espace deHilbert
h:;:i Produitscalaire
k:k Norme L
2
D Dictionnaire, et parfois plus précisément
dictionnaire deGabor
D +
Dictionnaire de Gabor chirpé
R m
x Résidud'unMatchingPursuitaprèsm
ité-rations
f(t) Signal àtemps continu
Æ(t u) Masse deDiracau temps u
f[n] Signal àtemps discret
Æ[n p] Masse deDiracau temps discret p
b
Laclassication designauxengrandedimension rendnécessairela
sélec-tiond'unpetitnombredestructurescaractéristiquespourreprésenterchaque
signal. Les approximations non-linéaires donnent lieu à des représentations
concises, parce qu'elles s'adaptent à la structure de chaque signal analysé.
Leuremploiest prometteur.
Une première partie de ce travail dénit desreprésentationsadaptatives
rapidesde signaux commecombinaison linéaire d'atomes extraits d'un
dic-tionnairedevecteurs.Apartirdel'algorithmedeMatchingPursuit,plusieurs
méthodes itératives sont proposées pour mettre en lumière les structures
caractéristiques des signaux sonores. Le Matching Pursuit Harmonique
dé-compose un signal en composantes harmoniques élémentaires. Le Matching
Pursuit Chirpé extrait les variations de fréquence instantanée en tirant
parti d'une analyse ne des ridges du dictionnaire de Gabor multi-échelle.
Les approximations fournies par le Matching Pursuit Haute-résolution
pré-servent les transitoires des signaux analysés, en imposant des contraintes
de résolution temporelle. Nous accélérons ces techniques en employant des
sous-dictionnairesde maxima locaux.
Notre travail est consacré dansun second temps à l'étude de l'Analyse
DiscriminanteNon-linéaire.Pourclassierdessignaux,lesméthodes
d'Ana-lyse Discriminante Linéaire réduisent la dimension en les projetant sur un
sous-espacepré-déterminé.Une projection adaptative, enfonction dusignal
analysé,extraitdecelui-cidescaractéristiquesqui luisontpropres.Celles-ci
le distinguent etpermettent de le classierecacement. Nous déterminons
lastratégie optimaledeprojectionadaptativepour laclassicationdebruits
gaussienscolorés.Andeclassierdestransitoires,nousexplorons ennune
méthodeutilisant les maxima dumodule dela transforméeenondelettes et
des arbres de décision. Cette approche permet de surmonter les dicultés
Introduction
1.1 Réduire la dimension pour extraire de
l'infor-mation
Le propre d'un signal, c'est de contenir de l'information. Qu'il s'agisse
de l'enregistrement d'unséisme, qui traduit son parcours dans l'écorce
ter-restre, d'un son musical, dont le contenu est à la fois symbolique et subtil,
oubiend'uneimage oùl'identitéd'unvisageestvisible,onasouventbesoin
d'extrairel'informationquinousintéresse.Lesbesoinsdecompression,de
dé-bruitage,dedéconvolution, d'estimationdeparamètres et dereconnaissance
automatiquedesignauxrassemblentainsidefaçonfécondeleTraitement du
Signal et la Théorie de l'Information, nés il y a cinquante ans, sous
l'im-pulsion notamment de Shannon et Gabor, pour modéliser la transmission
d'information et les systèmes de communication. L'étude du codage, de la
transmission et du décodage de l'information est loin d'être achevée. Mais
aujourd'hui c'est aussi la nature qui transmet de l'information, et c'est à
nousde ladécoder.
Beaucoup des problèmes posés par ces besoins ont trouvé une réponse
grâceauxapportsdel'AnalyseHarmonique, etenparticulierdestechniques
récentes d'approximation adaptative de signaux. En eet pour extraire de
l'information d'unsignal, il faut connaître sastructure, an d'en réduirela
redondance pour ne garder que la substantique moelle. Aujourd'hui
ap-paraissent en eet de nombreuses situations où on dispose de gigantesques
basesde données(ex :analyse d'IRM enmédecine, donnéesdessondes
spa-tiales,enregistrement de séismes...). Ellessont constituéesd'images ou de
signauxquiviventdansdesespacesde grandedimensionN :ainsiunsonde
qualitéCD(i.e.échantillonné à44:1kHz)d'uneduréede1:5secondeestun
signalde N 65536=2
16
échantillons,tandis qu'une image a couramment
N =512512=2
18
pixels.
L'extraction d'informationnécessitedonc deréduirefortement la
dimen-sion, ce qui peut se faire en projetant le signal x sur un sous-espace V
tion d'un codage par transformée. En reconnaissance, il s'agit d'une forme
d'AnalyseDiscriminanteLinéaire.
Approximations linéaires
Les techniques d'approximation linéaire, telles que l'Analyse en
Com-posantes Principales, xent une fois pour toutes une base orthonormale
f g m
g N
m=1
(il s'agit dans le cas de l'Analyse en Composantes Principales de
la base de Karhunen-Loève) et décomposent le signal sur les M premières
composantes P V M x= M X m=1 h x;g m ig m
c'est-à-direquelesous-espaceV
M
est indépendant de x.
Approximations non-linéaires
Au contraire, les techniques d'approximation non-linéaire choisissent le
sous-espace V
M
de manière adaptative, en fonction du signal x. Ainsi les
approximations non-linéaires dans une base orthonormale sélectionnent les
M plusgrands coecients
P V M (x) x= M X k=1 hx;g m k ig m k oùlabase (g m k
)est classéepar ordre décroissant descoecients
jhx;g m 1 ijjh x;g m 2 i j:::j hx;g m k i j:
Pour que cette projection contienne bien l'information que l'on recherche,
elle doit être adaptée au modèle de la nature dont on dispose. La force
desapproximations non-linéaires,c'estd'adapter également laprojection au
signalétudié.Nousallonsnousattacheràemployercetatoutnonseulement
pour approcher des signaux, mais également pour les classier et pour en
estimer desparamètres.
1.2 Mesured'information : énergie, entropie et
per-ception
Comment mesurer la quantité d'information que l'on a extrait d'un
si-gnal?Laréponsedépendbiensûrde cequel'oncomptefaire decette
Pour les applications de compression etde débruitage, il est naturel de
mesurer l'information à l'aune de ladégradation que le signal a subie. Les
techniques d'approximation de signaux mesurent cette dégradation à l'aide
de critères métriques (rapport signal à bruit et taux de distorsion) liés à
l'énergie.Onmesurelaqualitéd'uneapproximationavecl'erreurquadratique
" M [x]= x P V M x 2 2 =kxk 2 2 P V M x 2 2 :
Minimiser cette erreur revient àmaximiser l'énergie dela projection
ortho-gonale P V M x 2 2
Si X est un processus aléatoire en dimension nie, les approximations
li-néaires dénies avec la base de Karhunen-Loève
1
minimisent l'erreur
qua-dratique moyenne
Ef" M
[X]g
pour 1 M N. La base de Karhunen-Loève fournit donc les meilleures
approximationslinéaires(i.e.non-adaptatives)d'unprocessusX.Cependant
comme cettebase estdéterminée par lesmomentsjusqu'àl'ordre 2de laloi
P(X)du processus, elle manquetoutes lesautres structuresdecelui-ci. Dès
queXn'est pasgaussien,lesperformancesdesapproximationsnon-linéaires
sont meilleures.
Nous montrerons au chapitre 2 un exemple illustrant la supériorité des
approximations non-linéaires surles approximations linéaires. Nous
rappel-lerons les principales techniques actuelles d'approximation non-linéaire, en
insistantsurcequ'apportentlesstratégiesutilisantlaredondance, tellesque
les algorithmes de meilleure base [CW92 ] ou de poursuite [MZ93] [CD95 ],
qui utilisent respectivement des bibliothèques de bases et des dictionnaires
de vecteurs. Leur utilisation pour la compression [JN84 ] [VK95 ] [DeV98 ],
le débruitage et la déconvolution [DJ94 ] [Kal99 ], pour traiter des signaux
non-gaussiens et/ou non-stationnaires [DMvS97] [CM97 ],conduit à des
al-gorithmes trèsperformants. Nousverronsenn qu'unaspecttoutà faitnon
négligeable decestechniquesestqu'ellefournissentdesalgorithmes rapides,
leurcomplexité del'ordre deO(N) (transforméeen ondelettesorthogonale)
à O(Nlog
2
N) (transformée en cosinus locaux [CM91]) étant à mettre en
regard desO(N
2
)quecoûte unchangement de basesansalgorithme rapide
associé.
Auxchapitres3,4,5,et6,consacrés àl'analysedesignauxsonores,nous
introduirons des algorithmes de poursuite, inspirés du Matching Pursuit
1
formée descomposantes principales déniespar l'AnalyseenComposantes
dessignauxacoustiques.
Nouscommençons, au chapitre 3, par étendre ladénitiondu Matching
Pursuit,enintroduisantlanotiondeMatchingPursuitMoléculaire.Al'aide
de cet outil nous développons le Matching Pursuit Harmonique, qui utilise
commebriques élémentaires non pasdes atomestemps-fréquence, mais des
molécules associées aux structures harmoniques que l'on s'attend à
trou-verdansles signauxsonores.Nousinsistonssurl'ecacité algorithmiqueen
mettant au point un algorithmerapide. Celui-ci fournit desreprésentations
temps-fréquencestructuréesoùlaprésencedenotes(durée,hauteur)neselit
passeulement visuellement,mais estexplicitement présente dansla
décom-position.Contrairementàbeaucoupde techniquesdedétectiondefréquence
fondamentale, cetalgorithmen'a aucune diculté àdétecter laprésence
si-multanée deplusieurs fondamentales, danslecasde lapolyphonie.
Le chapitre 4 est consacré à l'accélération des techniques de poursuite.
Nous y développons une technique de poursuite sur des sous-dictionnaires
demaximalocaux,introduiteparBergeaud [Ber95 ]pour l'analysed'images.
Nousmontrons qu'elleréduit lacomplexité deO(MNlog
2
N) à O(MN).
L'algorithmedeMatchingPursuitChirpéquenousintroduisonsau
cha-pitre5estdéveloppé envuedemettreenlumière lesvariations defréquence
instantanée dessignauxsonores.Notre algorithmeutilise undictionnairede
chirps gaussiens etune version modiée du Matching Pursuit pour obtenir
une décomposition du signal en atomes chirpés avec une complexité
algo-rithmique (O(MNlog
2
N)). C'est bien plus faible que les O(MN
2 log
2
N)
normalement requis[Bul95 ] [Bul99 ] pour appliquerdirectement leMatching
Pursuitsurce dictionnaire.Ladécompositionatomique qu'ilfournitpermet
nonseulement demesurer les variations de fréquenceinstantanée dusignal,
maiségalementdemanipulerséparémentlespartiestransitoiresetlesparties
stationnaires.Onpeutégalementtransposerlahauteur(sanschangementde
durée)en respectant nement laphase dusignal.
Mesuresperceptives
Les critères purement énergétiques peuvent créer desartefacts dans des
conditionsextrêmes(forttauxdecompression,débruitagedansunbruittrès
intense,etc.):leseetsdeblocs,lesoscillationsdeGibbs,laformede
l'onde-lettequi devient visible surune image compressée, voilà quelques exemples
connus d'artefacts perceptivement gênants en traitement de l'image. Les
codeurs audio employés commercialement (MUSICAM,Dolby
TM
AC-3,...)
emploient des modèles de masquage auditif, qui permettent de dégrader le
signaldans des zones non-perceptibles, an de restituerplus dèlement les
partiescritiques.
Nous expliquons au chapitre 6 comment, en modiant un critère
avons appelé Matching Pursuit Haute Résolution [GBM +
96 ] [GDR
+ 96]. Il
ne s'agit pas à proprement parler d'un critère perceptif, mais d'un critère
non-linéairedesélectiond'atomesmenantàunesuper-résolutiontemporelle,
àlamanière du critèrel
1
utilisé dansleBasisPursuit[CD95 ].
Mesures d'entropie
Pour estimer un (ou des) paramètre(s) (ex : la fréquence instantanée,
pour eectuer une dé-modulationFM), ou déterminer une classe (ex :pour
reconnaître l'identité d'un visage sur une photo), l'énergie est une mesure
d'information mal adaptée. Des critères non-linéaires, tels que le critère
haute-résolution exposé au chapitre 6 peuvent parfoiss'avérer adaptés. Les
statistiques d'ordre supérieur [Men91 ] orent également un certain nombre
d'outilspermettantdesortirducadrerestreintdessignauxgaussiens[DT96 ].
Lathéoriedel'informationfournitdesoutilspourmesurerdirectementla
dépendancestatistiqueentrelaprojection P
V M
x dusignalenpetite
dimen-sionetlesgrandeurs àestimer. Onrappellera ainsiau chapitre 7 leprincipe
de l'Analyse en Composantes Indépendantes [Com94 ], et sasupériorité sur
l'AnalyseenComposantesPrincipales.Onferalepointsurlestechniques
ré-cemment développées par Saito [Sai94 ][SC94 ] [Sai98 ] etLiuet Ling[LL99 ]
pour tirerparti de l'Analyse Harmoniqueetde ses algorithmes rapides an
d'obtenirdes coordonnéesinformatives.
1.3 Analyse Discriminante Non-linéaire
Une projectionsurunsous-espaceV
M
(x)adaptéausignalxpeut
s'avé-rer utile en classication. Une telle Analyse Discriminante Non-linéaire
peut en eet s'adapter aux caractéristiques propres du signal qui le
dis-tinguent etpermettent de le classierecacement. Celaest illustré
simple-ment avec l'exemplesuivant,oùil n'est pasparticulièrement question de
si-gnaux,maisquiconcerneplusgénéralementunproblèmedereconnaissance.
Les20questionsquepeutposerlejoueursontl'analoguedesM coordonnées
associéesà laprojection P
V M
x d'unsignal.
Exemple : le Jeu des 20 questions
Unjoueurpeutposer20questions,qu'ilpeutchoisirlibrement,pour
iden-tier un personnage ou un objet. Il n'a manifestement aucun intérêt à
de-mander systématiquement s'il a des roues, car la réponse ne lui apportera
aucuneinformations'ils'agitd'unpersonnage.Cependant,dès quelejoueur
saitqu'ils'agitd'unobjet,cettequestiondevient intéressante àposer. Ilvaut
formationqu'il a déjà acquise.
Nous rappelons au chapitre 7 la diérence entre Analyse Discriminante
Linéaire(classicationpassive)etAnalyseDiscriminanteNon-linéaire
(classi-cationactive).LesBasesDiscriminantesLocales[SC94 ],lesbaseslesmoins
statistiquement dépendantes [Sai98], ou la technique de poursuite
d'infor-mation de Liu [LL99], sont du ressort de l'Analyse Discriminante Linéaire
[Fuk72 ]. Tout comme l'Analyseen Composantes Principales, cestechniques
dénissenteneetlaprojectionP
V M
xindépendammentdusignalxdonton
veutextrairedel'information.Elless'adaptent,certes, maisseulementàla
structure globale du processusX,et non à laréalisation particulière x qu'il
faut traiter. Nous déterminons sur deux exemples la stratégie séquentielle
optimale de projection adaptative. L'un des résultats les plus intéressants
estquepourclassierdesbruitsgaussiens colorés,ilestpayant des'adapter
à la réalisation observée. Nous verrons cependant que l'Analyse
Discrimi-nanteNon-linéaire,plusecace enprincipe,posedesproblèmesstatistiques
danssamiseen pratique.
An de classier des transitoires, nousexplorons au chapitre 8 une
mé-thodeutilisant les extrema de latransformée en ondelettes et desarbres de
décision [BFOS84 ]. Nous obtenons des performances de classication bien
Approximations adaptatives de
signaux sonores
La parole, qui transmet du sens, lamusique, porteuse d'émotions, sont
loind'être lessignaux périodiquespursdécrits parles modèles de signal
so-norelesplussimples.D'abord,parcequ'onytrouvedestransitoires,attaques
instrumentalesouconsonnesocclusives.Ensuite,parcequemême lesparties
d'un sonque l'on a coutume de qualier de stationnaires sont loin d'être
stationnaires : ainsi la fréquence instantanée, qui peut être dénie dans les
partiesentretenuesdessonsinstrumentaux(oularésonancedesnotes) subit
généralement desvariations aucours dutemps,commedanslevibrato dela
chanteuse.Ainsi, c'estenvariant aucours dutemps quelessignauxsonores
transmettent de l'information.
Un intérêt certain pour l'analyse des signaux non-stationnaires est
ap-paru cesdernières années. Avec lesdéveloppements théoriques, pratiqueset
technologiques liés à l'usage desondelettes, de nombreuses méthodes
d'ap-proximation de ces signaux signaux ont ainsi vule jour, dansle cadre très
proliquedel'AnalyseHarmonique. Sidesenjeuxpratiquesimportants,tels
quelacompression etledébruitagede signaux, ont pumotivercette
ébulli-tion, les méthodesdéveloppées s'avèrent également appréciablesdans
beau-coup d'applications oùl'on doit extrairedel'information d'un signal
1 .
Redondance, adaptativité et ecacité algorithmique
Les avancées majeures qui expliquent les succès pratiques de ces
tech-niques sont d'unepart l'emploi de représentations adaptatives, d'autre part
l'utilisationde laredondance,letoutétant généralement regroupésous
l'ap-pellation approximations non-linéaires. Redondance et adaptativité ont
permisdesaméliorationssubstantiellesdequalitéd'approximation(par
com-1
Onverraainsiauchapitre7 commentlanécessité d'approcher ecacementdes
succès tient à l'existence d'algorithmes rapides, qui les rend concrètement
utilisablespour traiter de vraisproblèmes, surde vraissignaux, c'est-à-dire
engrande dimension.
Nousrappelleronsdansce chapitre pourquoilestechniquesnon-linéaires
sont plus ecaces que les meilleures techniques linéaires, puis nous ferons
brièvement lepoint surchacuned'entre elles.
2.1 Approximation linéaire à M termes
Si(g
m )
1
m=1
estunebaseorthonormale del'espacedessignaux,onappelle
approximationlinéaire à M termesd'unsignalx laprojection orthogonale
P V M x= M X m=1 h x;g m ig m (2.1)
decesignalsurM vecteursxésdelabase,que,poursimplier, onsuppose
correspondreauxM premiers indicesm.Laqualitédel'approximationainsi
obtenue estmesurée, à M xé,par l'erreur quadratique
" M [x]= x P V M x 2 2 =kxk 2 2 P V M 2 2 = 1 X m=M+1 jhx;g m ij 2 : (2.2)
Silescoecients vérient j hx;g
m
i jAm
s
,ladécroissancede l'erreur est
" M [x]=O(M 1 2s ) (2.3) 2.1.1 Base de Karhunen-Loève
EndimensionnieN,lorsque lessignauxx àapprocher sontdes
réalisa-tions d'unprocessus X d'énergie nie, on peutdénir lameilleure
approxi-mationlinéaire à M termesà l'aide desprojecteursP
V M
,1M N,qui
minimisent l'erreur quadratique moyenne
" M
=Ef" M
[X]g (2.4)
Demanièreéquivalente,ces projecteursmaximisent l'énergie
E P V M X 2 2 : (2.5)
Lesprojecteurs optimaux sont obtenus comme en (2.1) à partir d'une base
orthogonale, dite base de Karhunen-Loève, constituée desvecteurs propres
2
del'opérateur de covariance
hu;Kvi=Efh u;XihX;vig (2.6)
2
carsymétrique etdéni positif. L'ordre desvecteurs (g m
) de la baseest tel
queles valeurspropres associéessoient décroissantes
2 1 2 2 ::: 2 N : (2.7) 2.1.2 Avantage de l'adaptativité
La basede Karhunen-Loève ne tient compte quedesmoments d'ordre 1
et2 duprocessusX pourminimiser "
M
[X]enmoyenne.Lesseulsprocessus
aléatoiresX qui soient entièrement descriptibles par leurs momentsd'ordre
1 et 2 sont les processus gaussiens.Montrons donc sur unexemple les
limi-tationsfondamentalesdelabasedeKarhunen-Loève(etdesapproximations
linéaires), et mettons en lumière les avantages apportés par l'adaptativité.
SoitX unprocessus(en dimension nieN)
X[n]=AÆ[n P]+W[n] (2.8)
constitué d'un dirac glissant Æ auquel on a ajouté un bruit W centré,
gaussienetcyclo-stationnairemaisnonblanc (i.e.d'opérateurde covariance
K W
6= 2
Id).L'amplitudeAesttiréeavecéquiprobabilitédansf
p
N;+
p
Ng,
etl'emplacement P estuniformément distribué sur J0;N 1K. On suppose
deplusquelestroisvariablesaléatoiresW,AetP sontindépendantes.Alors
X estunbruit cyclo-stationnairenon gaussien,centré, d'opérateur de cov
a-riance K X =Id+K W ; (2.9)
CommeW estcyclo-stationnaire,K
W
estunopérateurdeconvolution
circu-laire. Ilest donc diagonalisédanslabase de Fourier discrète e
k
;1k N,
sibienqu'il en estde même de K
X .
En supposant queles valeurs propres
2
k
de K
W
sont classéespar ordre
décroissant (i.e.W est unbruit bassefréquence), celles de K
X sont 1+ 2 1 1+ 2 2 :::1+ 2 N (2.10)
donclameilleureapproximationlinéaireàMtermesdanslabasede
Karhunen-Loève estune approximationbasse fréquencecaractérisée par l'erreur
" M = N X m=M+1 (1+ 2 m )=(N M)+ N X m=M+1 2 m : (2.11)
Danslecaslimiteoulebruitestpresqueblanc,
2
m
2
estpresqueconstant
et " M (N M)(1+ 2 ) (2.12)
de diracs, à condition de choisir les M termes de façon adaptative,
c'est-à-direenfonctiondusignalxàapprocher.Eneet,soitplavaleurpriseparla
variable aléatoire P dans laréalisation x du processusX :l'approximation
dex avec unvecteur Æ[n p] fournitune erreur d'approximation à 1terme
" 1 [x]= X n6=p jx[n]j 2 = X n6=p jW[n]j 2 =k Wk 2 jW[p]j 2 (2.13) etàM termes " M [x]= X n=2fpg[I M 1 (x) jW[n]j 2 X n=2fpg[I M 1 jW[n]j 2 (2.14) oùI M 1
(x)estl'ensembledeM 1indices(necontenant pasp)quipermet
de minimiser "
M
[x], et I
M 1
n'importe quel ensemble de M 1 indices
ne contenant pas p. Selon que p 2 J1;M 1K (ce qui se produit avec une
probabilité(M 1)=N) ou non, on prend I
M 1
=J1;MKfpg uo I
M 1
=
J1;M 1K, etl'on obtient les majorations
" M [x] N X m=M jW[n]j 2 jW[M]j 2 (2.15) ou " M [x] N X m=M jW[n]j 2 jW[p]j 2 : (2.16)
Comme P est indépendant de W, E
n j W[P]j 2 o = ( P m 2 m )=N 2 . En
passant à l'espéranceon a donc
Ef" M
[x]g(N M)
2
: (2.17)
Laqualitéd'approximationnon-linéaire(2.17) estbienmeilleureque(2.11).
2.2 Approximation non-linéaire à M termes
Les approximations non-linéaires de signaux, sont potentiellement bien
plus ecaces que les approximations linéaires. En outre, elles permettent
d'extraire des caractéristiques non-gaussiennes des signaux, porteuses
po-tentiellesd'information
3
,tellesqueleparamètreP dansl'exempleci-dessus.
Dansune baseorthonormale (g
m )
1
m=1
,une approximationnon-linéaireà M
termesd'unsignalx s'écrit
P V M (x) x= X m2I M (x) h x;g m ig m (2.18) 3
On verra au chapitre 7 que la base de Karhunen-Loève peut également être peu
M vaut " M [x]= X m2I= M (x) jh x;g m ij 2 =k xk 2 X m2I M (x) jhx;g m ij 2 ; (2.19) lechoix optimalde I M
(x) est obtenuen prenant les M indices associés aux
plus grands coecients, i.e. , en notant (g
m k
) la base classée dans l'ordre
décroissant descoecientsjh x;g
m k ij 2 , I M (x)=f m k ;1k Mg: (2.20)
Un signal x est d'autant mieux approché par une telle approximation
non-linéaire que ses coecients h x;g
m
i sont plus concentrés sur quelques
vecteursde labaseseulement.Onpeutmesurercette concentrationà l'aide
de l'appartenancede lasuite h x;g m k i à desespacesl p faibles jhx;g m k ij p Ck 1 (2.21)
LesinégalitésdeJacksonetdeBernsteinrelientlapluspetitevaleurdep<1
pour laquelle(2.21) est vraieetlavitessede décroissancede "
M [x] : " M [x]=O(M 1 2=p ) (2.22)
2.2.1 Complexité algorithmique de la projection adaptative
Lorsque labase orthogonale (g
m
) est quelconque, les approximations
li-néairesàM termesnécessitentlecalcul deh x;g
m
i,1mM.Leurcalcul
adonc une complexité algorithmiquede
O(MN): (2.23)
Pour obtenir la meilleure approximation non-linéaire, il faut connaître la
valeurdetouslescoecients,sibienquelecoûtalgorithmiqueestceluid'un
changement de base
O(N 2
): (2.24)
Cependantcertaines bases orthogonales sont associéesà desalgorithmes
rapides de changement de base. Ainsi la Transformée de Fourier Rapide
FFTO(NlogN),laTransforméeenOndelettesRapideFWTO(N)[Mal89]
[BCR91],latransforméeassociéeàune famille particulièrede paquets
d'on-delettes O(NlogN) ou de cosinus locaux O(Nlog
2
N) [CM91], diminuent
fortement la complexité algorithmique du changement de coordonnées. La
fait alors en trois étapes : changement de coordonnées (O(Nlog N)),
sé-lectiondes M plusgrandes etmise à zérodesautres O(N), changement de
coordonnées inverse O(Nlog
2
N)).Le coûttotal
O(Nlog
2
N); (2.25)
toujoursdominé par lechangement debase, estbienplusfaible queO(N
2 ).
Lecoût desapproximations linéairesdansces basespeut également être
ré-duit,enutilisantaussitroisétapes(ladeuxièmeétapen'estplusadaptative).
Uneapproximation linéaire calculéepar ce moyen coûte
O(Nlog
2
N); (2.26)
ce quiestplus faible queO(MN) si M estgrand devant log
2
N.
2.2.2 Choix de la base
Dans lecas desapproximations linéaires, avant d'eectuer la projection
(2.1),ilfaut calculerlabase deKarhunen-Loève. Pour celaon estime
l'opé-rateur de covariance K et on le diagonalise. Comme K est associé à une
matricedetailleNN,sadiagonalisation coûteO(N
3
).Cependantlorsque
leprocessusXestcyclo-stationnaire, sabasedeKarhunen-Loève estlabase
deFourier discrète,etl'on peutdonc éviter cecalculpréalable.
Pourlesapproximationsnon-linéaires,onemploiesouventunebase
d'on-delettes,qui constitue une baseinconditionnelle de nombreux espaces
fonc-tionnels (L
p
, espaces de Besov, ...). La théorie de l'approximation établit
les liens entre la régularité d'un signal x, sa norme dans ces espaces
fonc-tionnels,etla vitessede décroissance de ses coecients d'ondelettes (2.21).
Le lecteur intéressé par ces aspects pourra se référer à l'introduction aux
approximationsnon-linéaires de DeVore[DeV98 ].
Une base orthogonale est d'autant plus appropriée pour approcher une
classe de signaux que les coecients des signaux sont concentrés sur peu
de vecteurs. Le choix de la base orthogonale la plus appropriée dépend de
laclasse de signauxetdonc de l'application envisagée.Ainsi pour l'analyse
de signaux réguliers par morceaux, une based'ondelettes de régularité
suf-sante, telle que les ondelettes à support compact de Daubechies [Dau88 ]
est adaptée. Lorsque les signaux présentent des oscillations plutôt que des
singularitéstemporelles,despaquetsd'ondelettes,oubiendescosinuslocaux
[CM91 ],ou encore des bases orthonormales d'ondelettes chirpées [BJ93a ]
sont sansdouteplus appropriées.
2.3 Algorithme de meilleure base (Best Basis)
L'analysemathématique nepermet pastoujours dedéterminerune base
autant que possible son énergie sur peu de coecients. Les algorithmes de
meilleure base [CW92] choisissent une base dans une bibliothèque (B
) 2 de bases orthonormales B =(g m ) N m=1
, enminimisant une fonction de coût
additive C(B ;x) = N X m=1 x;g m 2 k xk 2 ! (2.27)
dénie à partir d'une fonction concave arbitraire (par exemple (x) =
xlog1=x).
Le théorème suivant,dont ontrouveraune démonstrationdans [Mal98],
montre que la relation C(B
;x) < C(B
;x) entre le coût de deux bases est
susante pour savoir que, pour tout M,B
concentre mieux l'énergiede x
sursesM composantes lesplus fortes quene lefaitB
.
Théorème 1 (Hardy-Littlewood-Pòlya) Soient(x
m ) N m=1 et(y m ) N m=1 deux
suites décroissantes de N réels de somme 1. Alors les deux propriétés
sui-vantes sontéquivalentes :
(i) Pourtout M,
M X m=1 x m M X m=1 y m
(ii) Pourtoute fonctionconcave ,
N X m=1 (x m ) N X m=1 (y m )
Lecoûtreètedonclacapacitédelabaseàapprocherxavecpeudevecteurs,
sibienque labasesélectionnée selon
C(B 0 ;x)=min C(B ;x) (2.28)
estlaplus adaptée au signalx.
Coifman etWickerhauser[CW92 ]ont montréqu'en utilisant une
biblio-thèque de bases structurée en arbre binaires (comme la bibliothèque des
paquetsd'ondelettesoucelledescosinuslocaux[CM91])ondisposed'un
al-gorithmerapidequi,aprèscalculdesdiverscoecients(
x;g m ) 1mN;2 ,
sélectionneune meilleure baseen O(N)opérations. Le coûttotal de la
pro-cédureestalorsdominépar ladécompositiondusignaldanslabibliothèque.
Danslecas despaquetsd'ondelettes, cecoût estde O(NlogN),tandis que
pour les cosinus locauxil estde O(Nlog
2 N).
Les signaux sonores (parole, musique, ...) sont non-stationnaires. Ils
contiennent des structures à diérentes échelles (transitoires de très courte
durée, parties soutenues et résonances de notes qui durent, ...) et
dié-rentesfréquences(parexemplelesdiérentspartiels,ouharmoniques d'une
même note) à des instants variés. Ces diérents structures se superposent,
dèsqueplusieurs locuteurs ou plusieurs instrumentss'expriment
simultané-ment.Ainsi,unsignalquiprésente simultanémentdesstructuresquinesont
pasorthogonales,telles qu'une sinusoïde et undirac superposés,
x(t)=Æ(t)+e
i!t
(2.29)
ne peut pas être représenté concisément comme somme de ces deux
com-posantes dansune base orthonormale. Pour de tels signaux, l'ecacité des
approximationsà M termes dansunebase orthogonaleest donc limitée.
2.4.1 Extraction de ridges de transformées redondantes
Pour représentercorrectement les signauxsonores, ilest nécessaire
d'in-troduire de la redondance, en ne se limitant plus à une famille
orthogo-nale.Ainsi,pouranalyser lesvariationsde fréquenceinstantanéede signaux
acoustiques,Delprat, Kronland-Martinet, et.al. [Del92 ][DEG
+
92][GKM96 ]
[KMG96 ]extraient les ridgesde représentations temps-fréquence ou
temps-échelle redondantes, telles quelatransforméede Fourier à courtterme
D
x;g(t u)e
i(t u) E
(2.30)
oulatransforméeen ondelettes continue de Morlet
x; 1 p s g t u s e i 0 s (t u) : (2.31)
Toutefois, étant donné la présence simultanée d'oscillations et de
transi-toires dans les signaux sonores, il est souhaitable d'analyser
indépendam-ment l'échelle setlafréquence desphénomènes mis en jeu.Celan'est pas
possible avec les outils temps-fréquence/temps-échelle classiques : la
trans-formée de Fourier à courtterme utilise une fenêtre d'analysede taille xée,
tandis quel'ondelette d'analyseutiliséedanslatransformée enondelettes a
une fréquence =
0
=sliée à son échelle. La transformée de Fourier
multi-échelle [Pea91]utiliséeparPearsonn'apascetinconvénient.Cependant elle
ne fournitpas unedécomposition du signalen structuresélémentaires :elle
lecompare à un dictionnaire de formes d'ondes élémentaires, de diérentes
Onappelle dictionnaire une familleredondante D=fg ; 2 g (2.32) de vecteurs unitaires k g
k = 1,ou atomes. L'analyse dessignaux sonores
4 ,
nécessiteundictionnairetemps-fréquencemulti-échelle,dontlesatomessont
caractérisés par unindice
=(s;u;) (2.33)
choisidansunensembled'indices R
+
R
2 .
Un tel dictionnaire s'obtient en réunissant les vecteurs des diérentes
bases de labibliothèque de paquets d'ondelettes, ou de celledes cosinus
lo-caux[CM91].Ons'intéresseiciaudictionnairemulti-échelledeGabor[QC94 ]
[MZ93] 5
,qui comprend del'ordre de O(NlogN) atomestemps-fréquence.
Il est constitué de lacollection des atomes temps-fréquence obtenus
di-latation, translationetmodulationd'une fenêtre g(t). Unefenêtre est une
fonction paire et positive, dont l'essentiel de l'énergie est localisée
tempo-rellement autour du temps 0 et, dans le domaine de Fourier, autour de la
fréquence 0.En raison de ses propriétés optimales de localisationcombinée
temps/fréquence, au sens du principe d'incertitude de Heisenberg, on
utili-serasouvent unefenêtre gaussienne
g(t)= 1 1=4 exp t 2 =2 : (2.34)
L'atometemps-fréquence d'échelle s, detemps uetde fréquence s'écrit
g (s;u;) (t) = 1 p s g t u s e i(t u) (2.35)
Lefacteur denormalisation (au sens delanormeL
2
) 1=
p
snousassureque
les atomessont tousd'énergie 1.
L'atome g
(s;u;)
est centré autour du temps u avec une dispersion
tem-porelle ud'énergie de l'ordre de s. Satransformée deFourier estlocalisée
autourdelafréquence,avec unedispersionde l'ordrede1=s.Sa
trans-formée de Wigner-Ville [Fla93 ] (la gure 2.1 représente un atome chirpé
gaussien etsatransforméede Wigner-Ville), qui dénit sarépartition
éner-gétique dans le plan temps-fréquence, se déduit de celle de la fenêtre de
départg par larelation
WV[g (s;u;) ]( t;!)=WV[g] t u s ;s(! ) (2.36) 4
Pour desapplications spéciques,il estpossible dedénirun dictionnaire adéquat
[MC97],avecl'inconvénientcependantdenepasavoird'algorithmerapide.
5
Onenutiliserauneextension,ledictionnairedeGaborchirpé,quicomprendO(N 2
)
econdes
0
0.2
0.4
0.6
0.8
-0.44
-0.24
-0.04
0.16
0.36
econdes
Hertz
0
0.2
0.4
0.6
0.8
0
100
200
300
400
500
Fig.2.1 Un atome gaussienetsatransforméede Wigner-Ville.
Dans lecas particulier d'unefenêtre gaussienne,la transforméede
Wigner-Villed'unatome estdonc une bossegaussienne endeux dimensions
WV[g (s;u;) ]( t;!)= 1 e (t u) 2 s 2 s 2 (! ) 2 (2.37)
essentiellement concentrée danslerectangle
(t;!)2[u u;u+u][ ;+]:
Lesparamètres sont échantillonnés selon
s = a
j
;j2Z (2.38)
u = nu(s);n2Z; (2.39)
= k(s);k 2Z; (2.40)
oùles pasd'échantillonnage
u(s) = su(1) (2.41) (s) = s 1 (1) (2.42)
sont invariants par changement d'échelle. Watson etGilholm [WG98 ]
1 j hg 1 ;g 2 i j 2 entretriplets(s;u;)deR 3
.Pour unsignaldeN points,ondoitdonc
consi-dérer O(logN) échelle, et O(N) couples (u;) par échelle. Le dictionnaire
de Gabor multi-échelle comprend donc O(NlogN) atomes.
2.5 Décomposition atomique dans un dictionnaire
A partir d'un dictionnaire D donné, on peut chercher à approcher le
signalx àl'aide d'unedécomposition atomique
x M = M X m=1 m g m (2.43) avec M atomes (g m ) M m=1
choisis dansD. Davis[Dav94 ]a montré que
l'ob-tention d'une telle approximation x
M
de x telle que kx
M
xk " est un
problème NP-complet. Il n'est donc pas question d'exiger la meilleure
dé-composition atomique, mais plutôt de chercher à s'en approcher : les
tech-niques de poursuite contournent la NP-complétude en empruntant des
stratégiessous-optimalespourobtenirdebonnes décompositionatomiques
dessignaux.
2.5.1 Poursuite de base (Basis Pursuit)
Le Basis Pursuit[CD95 ]fait appelaux techniques dela programmation
linéaire pour obtenir une décomposition atomique x
M = x minimisant le critère l 1 k( m )k 1 = X m j m j: (2.44)
Il aboutit à la sélection d'une base (non nécessairement orthogonale) de N
vecteurs, d'où son nom. En dépit de l'utilisation des techniques les plus
récentesde programmationlinéaires(notammentl'algorithmede point
inté-rieurdeKarmarkar[Shr98 ]),d'accélérationsaveclesalgorithmesrapidesliés
audictionnaire utilisé,lecoût algorithmiqueduBasis Pursuitestde l'ordre
deO(P
3:5
),où P estlatailledu dictionnaire.Bien qu'ilmène
expérimenta-lement àdesdécompositionscompactes dessignaux, lacomplexitédu Basis
Pursuitestdonc trop grandepour l'employer eectivement.
2.5.2 Poursuite adaptative (Matching Pursuit)
LeMatchingPursuit[MZ93](oupoursuiteadaptative)estunetechnique
termes d'un signal x. Étant donnée une approximation x m = m 1 n g n
à m atomes, spéciée par les coecients et les indices (
n ;g n ) 1nm , la
poursuitedétermine une approximationàm+1atomesdefaçon gloutonne,
enétendant laprécédente décomposition à l'aidedu choix de l'atome g
m+1
etde soncoecient
m+1
. Rappelons ici la dénitiondu Matching Pursuit
introduiteparMallatetZhang[MZ93].Oncommenceparchoisirunpremier
atome g
1
dans le dictionnaire D de façon à s'adapter au mieux au signal
analyséx,selon une mesurede corrélation
C(x;g ) =j hx;g i j 2 (2.45)
Le carré du produit scalaire de x avec l'atome g
, jh x;g ij 2 , représente
l'énergie de x le long de la direction de g
. Le premier vecteur est donc
choisiselon lecritère
1 =argmax jh x;g ij 2 (2.46)
etlepremier résidu de xest dénipar laprojectionorthogonale
R 1 x=x hx;g 1 ig 1 : (2.47)
L'énergiedu résidu estalors donnéepar la relation
R 1 x 2 =kxk 2 j hx;g 1 ij 2 (2.48)
Enitérant cette procédure, onobtient par induction
g m+1 = argmax jh R m x;g i j 2 (2.49) R m+1 x = R m x R m x;g m+1 g m+1 (2.50) R m+1 x 2 = kR m xk 2 R m x;g m+1 2 (2.51) etnalement, ennotant R 0
x=x,on obtient ladécomposition de x comme
combinaisonlinéaire x= M X m=1 R m 1 x;g m g m +R M x (2.52)
avec laconservation d'énergie
kxk 2 = M X m=1 R m 1 x;g m 2 + R M x 2 (2.53)
analogueàcequ'onobtiendraitavecunedécompositiondansunebase
ortho-normale,etcecibienquelafamilledevecteurssélectionnésnesoitengénéral
ledictionnaireDestcomplet,lerésiduR M
x=x x
M
tendverszéroet l'on
dispose delareprésentation x = 1 X m=1 R m 1 x;g m g m (2.54) kxk 2 = 1 X m=1 R m 1 x;g m 2 (2.55)
En dimension nie N, la convergence s'eectue à une vitesse
exponen-tielle R M x e (D)M
,caractéristique du dictionnaire. En dimension
in-nie, le lien entre la régularité du signal x et la vitesse de décroissance de
R M x = kx x M
k est pour l'instant beaucoup plus mal connu que pour
l'approximation à M termes dans une base orthonormale d'ondelettes. Le
lecteur intéressé pourra consulter Temlyakov [Tem98 , Tem99b, Tem99a ] ou
DeVore[DeV98 ].
2.5.3 Matching Pursuit Orthogonal
Mêmeendimensionnie,leMatchingPursuitnécessiteuneinnité
d'ité-rationspour reconstruirex. Le MatchingPursuitOrthogonal, introduitpar
Zhang [Zha93 ], Davis [Dav94 ] [DMA97] et Pati et al. [PRK93] permet de
s'assurerquela poursuitecesseaprès un nombrenid'étapes. L'algorithme
initial est modié comme suit : une fois les m vecteurs g
1 ;:::;g m sélec-tionnés, onconsidère P V m
leprojecteur orthogonalsurlesous-espace
V m =Vectfg 1 ;:::;g m g: (2.56)
LameilleureapproximationdexaveccesmvecteursestP
V m
x,Ellepermet
de dénirlerésidu comme
R m x=x P V m x: (2.57)
Onpeut alorsitérer leprocédéà l'aidede (2.49).
Cetalgorithmenécessitelecalculdel'orthonormaliséedeGram-Schmidt
de la famille (g
m )
N
m=1
et augmente assez sensiblement la complexité
algo-rithmique de lapoursuite. Pour un dictionnaire multi-échelle de Gabor elle
estde l'ordre deO(MNlog
2 N).
2.5.4 Généralisations
Le principe du Matching Pursuit est souple. Suivant le dictionnaire et
le critère de sélection d'atomes employés, il permet d'approcher
nirunMatchingPursuitmoléculaire, ensélectionnant de façon adaptative
des sous-espaces plutôt que des atomes. Ainsi pour décomposer un signal
musicalen structures harmoniques, on introduira le MatchingPursuit
Har-monique.Lechapitre4estconsacréàl'accélérationduMatchingPursuit:le
Matching Pursuit Rapide que nous avons développé réduit la complexité à
O(MN).Ondénitauchapitre5unepoursuitemodiéedansledictionnaire
deGaborchirpé,avecunecomplexitédeO(MN).Ennonintroduitau
cha-pitre 6 le Matching Pursuit Haute Résolution, qui sélectionne les atomes
avec uncritère diérent dupur critèreénergétiqueusuellementemployé. Ce
critère introduit une super-résolution temporelle, et améliore l'analyse des
Matching Pursuit sur un
dictionnaire de molécules
Nous dénissons dans ce chapitre une extension naturelle du Matching
Pursuitatomique,leMatchingPursuitmoléculaire. Au lieude projections
itératives sur les droites engendrées par des atomes g
choisis dansun
dic-tionnaire atomique, on choisi desprojectionssur des molécules, c'est-à-dire
dessous-espacesvectorielsV
deH dedimensionplusgrandeque1,choisis
dansun dictionnaire demolécules.
La première sectionest consacrée àla dénition abstraite de cet
algo-rithme, àpartir d'idéesissuesdu Projection Pursuitde Huber[Hub85 ].
On s'intéresse dans un second temps à deux dictionnaires de molécules
particuliers. Le dictionnaire de molécules di-atomiques réelles estle cadre
naturel pour dénir une poursuiteavec desatomesà valeursréelles,comme
l'ont fait remarquer Bergeaud [Ber95 ] et Goodwin [Goo97 ]. Nous
introdui-sons ensuite le dictionnaire de molécules harmoniques, an de dénir le
Matching Pursuit Harmonique, destiné à décomposer les signaux sonores
en structures harmoniques.
3.1 Matching Pursuit avec des dictionnaires de
mo-lécules
Un Matching Pursuitmoléculaire dièredu Matching Pursuit
atomi-que parlefaitqu'àchaqueitérationonadapteaurésiduunsous-espace V
de H qui n'est plus contraint à être une droite. Ce sous espace est choisi
dansundictionnaire de molécules
D mol =f V ; 2 mol g: (3.1)
Oncommence donc par sélectionnerla première molécule V
1
de la
dé-compositionde manière àmaximiser unemesurede corrélation
C(x;V ) = P V x 2 (3.2) où P V
est l'opérateur de projection orthogonale sur V
. La grandeur P V x 2
représente donc l'énergie de x dans la direction de la molécule
V
.Le choix du premierindice
1
est donc eectuéselon lecritère
1 =argmax P V x 2 (3.3)
et le premier résidu de x est calculé cette fois-ci à l'aide de la projection
orthogonale R 1 x=x P V 1 x: (3.4)
L'énergiedu résidu estalors donnéepar la relation
R 1 x 2 =k xk 2 P V 1 x 2 (3.5)
Enitérant ce procédéon obtient par induction
m+1 = argmax P V R m x 2 (3.6) R m+1 x = R m x P V m+1 R m x (3.7) R m+1 x 2 = kR m xk 2 P V m+1 R m x 2 (3.8)
eton peut nalement, en notant R
0
x =x, reconstruire x à partir des
pro-jectionssuccessivesobtenues
x= M X m=1 P V m R m 1 x+R M x (3.9)
avec laconservation d'énergie
k xk 2 = M X m=1 P V m R m 1 x 2 + R M x 2 (3.10)
Le procédéitératif utilisé convergesi lerésidu vérie
R M
x !0: (3.11)
Onpeut alorsreconstruire lesignal
x = 1 X m=1 P V m R m 1 x (3.12) k xk 2 = 1 X m=1 P V m R m 1 x 2 : (3.13)
UnthéorèmedeJones[Jon87]surlaconvergenceduProjectionPursuitde
Huber[Hub85 ]prouvelaconvergenceduMatchingPursuitatomique[MZ93]
dèsqueledictionnaireatomiqueDutiliséestcomplet,i.e.lorsquel'adhérence
del'espacevectorielW =VectfDgqu'ilengendreestégaleàl'espaceHtout
entier.Sice n'est paslecas, ilya toujours convergence,maispasvers zéro
R M x !P W ? x (3.14) où P W ?
est leprojecteur orthogonal surle complément orthogonal de W
dansH.L'approximation x M =x+R M x !P W x (3.15)
nepermetdonc pasde reconstruirelesignal.Unrésultatde RejtöetWalter
[RW92] permetd'étendre le résultat de convergence à la poursuite
molécu-laire. Il sut encore que le dictionnaire moléculaire D
mol
de sous-espaces
vectorielsutilisé engendreunsous-espacevectorieldensedeH pour être
as-suréde laconvergence (3.11). RejtöetWalter établissent deplus la
conver-gence d'une forme faible de poursuite, dénie par lechoix, à chaque étape,
nonpasde lameilleuremolécule (qui remplit lacondition(3.6))maisd'une
bonne molécule V
m
vériant laconditionplus faible
P V m R m 1 x 2 sup P V R m 1 x 2 (3.16)
où>0est unfacteur de sous-optimalité indépendant
1
de m.
L'avantagedecetteconditionassouplieestquelarecherchedela
meilleu-re molécule peuts'eectueràchaqueétapemdansunesous-familleD
m du
dictionnaire D, dont le nombre d'éléments est beaucoup plus petit, ce qui
peutaccélérercetterecherche.Onenverrauneapplicationauchapitre4.La
contrepartie estun aaiblissement de lavitessede convergence.
1
DesrésultatsrécentsdeTemlyakov[Tem99b]permettentdetraiterlecasoùcefacteur
varieavecm,àconditionque
P m p m m =1:
En dimension nie, il y a convergence à vitesse exponentielle. Pour un
dictionnaireD,on peuten eet dénir
(D) = inf x2H sup V 2D P V x 2 kxk 2 : (3.17)
Comme on est en dimension nie, la sphère unité est compacte, donc x 7!
sup P V x 2 =k xk 2
atteint son inmum qui est strictement positif carD
est complet et contient donc au moins une base. On a donc (D) > 0.
L'équation (3.8) nousdonnealors àchaqueétape
k R m xk 2 k R m 1 xk 2 =1 P V R m 1 x 2 kR m 1 xk 2 1 (D) (3.18)
Pour toutM 1 ona donc
R M x 2 kxk 2 ( 1 ( D)) M =k xk 2 e ( D)M (3.19)
où (D) = log(1 (D)) est une borne inférieure sur le taux de
conver-gence.LorsqueladimensionN estgrandeetqueDn'estpastropredondant,
1,sibienque.Lorsquelechoixdemolécule estfaitavec la
condi-tionaaiblie(3.16),onsaitquelaconvergence esttoujours garantie,maisla
bornesur lavitesseasymptotique de décroissancede l'énergie durésidu est
aaiblie d'unfacteur, i.e.= log(1 ).
Danscechapitreons'intéresseàdeuxdictionnairesdemolécules.Le
dic-tionnaire D
r
demolécules di-atomiques estle cadrenaturel pour analyser
des signaux à valeurs réelles avec une poursuite sur des atomes réels. Par
ailleurs, dans le cadre de l'analyse de signaux musicaux, le dictionnaire de
molécules harmoniques D
h
permet de décomposer un signal en structures
harmoniques.
3.2 Matching Pursuit avec des atomes réels
LeMatchingPursuitmoléculaireestleboncadrepourdénirlapoursuite
avec desatomes temps-fréquenceàvaleursréelles
g (s;u;;) =K (s;u;;) g t u s cos( (t u)+) (3.20) oùK s;u;;
estunfacteur denormalisation L
2
.Eneet,laprocédureadhoc
desélectiond'unbon atomeréelsuggéréeparMallatetZhang[MZ93]n'est
pasoptimale.Elleconsisteàchoisirlemeilleuratomecomplexe(voir(2.35))
m =(s m ;u m ; m )=argmax R m 1 x;g (3.21)
e i arg;m = R m 1 x;g m jh R m 1 x;g ij : (3.22)
Le but est de sélectionner un atome réel g
m
; m
sans balayer le paramètre
de phase , an de limiter la complexité de la poursuite. Le formalisme
du Matching Pursuit moléculaire permet d'atteindre ce but en fournissant
l'atome réel optimal.
3.2.1 Molécules di-atomiques réelles
Commel'ontfaitremarquerBergeaud[Ber95]etGoodwin[Goo97 ],chaque
atome réel g
;
est associéà unatome complexe g
et à sonconjuguég . Il vérie g ; = K ; 2 e i g +e i g ; (3.23) où K ;
est un facteur de normalisation L
2
. L'ensemble des vecteurs g
; ,
lorsque varie, engendredonc l'espace engendré par g
etg V =Vectf g ;g g (3.24) La projection orthogonaleP V R m 1 x durésidu R m 1 xsurV estun
vec-teurdont ladirection estl'atome réel g
; de phaseoptimale sup ; R m 1 x;g ; 2 =sup sup R m 1 x;g ; 2 =sup P V R m 1 x 2 : (3.25)
Lasélectiondumeilleuratometemps-fréquenceréelg
;
estdoncéquivalente
à cellede la meilleure molécule V
en fonction de l'énergie P V R m 1 x 2
de laprojection surce sous-espace
2
de dimension 2.
3.2.2 Complétudedu dictionnairede moléculesdi-atomiques
LedictionnaireD
r
demoléculesdi-atomiques deGabor(3.24) est
com-plet, car il engendre le même sous-espace vectoriel de L
2
(R) que le
dic-tionnaire des atomes de Gabor complexes D
c
. En eet D
c
est stable par
2
En lant la métaphore physique associée à la dénition d'atomes, on va appeler
ce sous-espace unemolécule di-atomique. Defaçon tout àfait analogue, dansle monde
physique,les molécules di-atomiquesd'oxygènesont faitesd`atomes d'oxygèneréunisen
paires.Ilenestdemêmedesmoléculesd'hydrogène,dechlore,...Lemêmeétatdefaitse
retrouvedans lemonde desatomes appelés àreprésenter unsignal réel :chaqueatome
complexefait partie d'une paire en étant associé à son conjugué. L'analysede signaux
à valeurs réelles fait donc plutôt intervenir des molécules di-atomiques que des atomes,
(s;u;) (s;u; ) etD c =fg ; 2 atom g=fg ; 2 atom g ,on abien W =Vectf g ; 2 atom g=Vectf V ; 2 atom g: (3.26)
En vertu de cette complétude, la poursuite sur des molécules di-atomiques
réelles estdonc convergente.
3.2.3 Projection orthogonale sur une molécule di-atomique
La projection orthogonale sur une molécule di-atomique V
se calcule
sansproblèmecaronconnaîtunebaseg
;g deV ,etsabasebi-orthogonale 3 e g , e g : e g = 1 1 j hg ;g i j 2 fg hg ;g ig g (3.27) e g = ge (3.28) sibienque P V R m 1 x= R m 1 x;g ~ g + R m 1 x;g ~ g ; (3.29) et P V R m 1 x 2 = 2< n R m 1 x;g 2 hg ;g i R m 1 x;g 2 o 1 jh g ;g ij 2 (3.30)
Cas particulier des atomes temps-fréquence symétriques
Pour des atomes temps-fréquence g
construits à partir d'une fenêtre
symétrique g(t) (ce qui est le casdes atomes gaussiens), le produit scalaire
h g
;g
i estun nombre réel. L'équation (3.30) sesimplie alors en
P V R m 1 x 2 =2 1 hg ;g icos2 arg 1 jh g ;g ij 2 R m 1 x;g 2 (3.31) où arg estl'argument de R m 1 x;g 4
.L'atomeréel optimalg
m;m vérie donc P V R m 1 x= R m 1 x;g m;m g m;m = P V R m 1 x g m;m (3.32) 3
Un traitement particulier intervient lorsque g
est déjàun atome réel, auquelcas
il est égal à son conjugué et V
est de dimension 1 au lieu de 2. Aucune notion de
phase n'intervient alors, et l'on a tout simplement P
V R m 1 x = R m 1 x;g g et P V R m 1 x 2 = R m 1 x;g 2 4
On peut cependant avoir besoin de l'équation (3.30) lorsque la fenêtre n'est pas
symétrique : c'est le cas du dictionnaire de sinusoïdes amorties employé par Goodwin
[Goo97];demêmeauchapitre5,commeonajouteunparamètredechirpdansladénition
e i m = R m 1 x;ge jhR m 1 x;ge ij (3.33) = R m 1 x;g h g ;g i R m 1 x;g jh R m 1 x;gi hg ;g ihR m 1 x;g i j (3.34)
Pour lesélectionner,ilsutdechoisir
m =(s m ;u m ; m
)quirend maximale
lacorrélation m =argmax P V R m 1 x (3.35)
calculéeàl'aide desproduits scalairesh R
m x;g
i avec lesatomescomplexes.
Pourl'indicesélectionné,etpourcelui-làseulement,ilresteàcalculerlaphase
m
d'aprèsl'équation (3.33). Cetteprocédure exacte estmanifestement
dif-férentedelaprocédureapproximativeproposéeparMallatetZhang,puisque
laphaseexacte
m
vériel'équation(3.33),alors quelaphaseadhoc
arg;m
vérie (3.22), et que l'indice
m
est choisi avec le critère (3.35) au lieu de
(3.21).
La procédure optimale de calcul de la phase n'augmente pas la
com-plexité descalculs d'unfacteur mesurable,commeonleverraau chapitre 4.
Par contreelleaugmentesensiblement lavitessededécroissancedel'énergie
du résidu R M x 2
, améliorant ainsi la qualité d'approximation lorsque le
nombre d'itérations M est xé. C'est cette amélioration que nous étudions
maintenant.
3.2.4 Amélioration de l'approximation à M atomes réels
Nouscomparons icilaprocédure adhoc de choix du meilleuratome réel
avec le choix optimal, dans le cadre du dictionnaire de Gabor. A partir
des dénitions (3.22) et (3.33), comme tan==(e
i )=<(e i ), on établit la relation tan= 1+hg ;g i 1 hg ;g i tan arg (3.36)
entrelaphaseoptimale
opt etl'argument arg duproduitscalaire R m 1 x;g .
Lesdeux phasessont donc quasiment identiques lorsquehg
;g
i 0.
Par ailleursd'après(3.22) et(3.23), ona
R m 1 x;g ; arg 2 =K 2 ;arg R m 1 x;g 2 : (3.37)
etcommelefacteur de normalisation utilisé en (3.23) vaut
K 2 ;arg = 2 1+< e 2iarg hg ;g i = 2 1+h g ;g icos2 arg ; (3.38)