• Aucun résultat trouvé

3.3 Algorithmes de décomposition parcimonieuse

3.3.2 Approche globale

DR(yk1),E

Ajout du nouvel atome au sous-dictionnaire :Ak =

h

Ak−1 ki

Calcul des coefficients :xk =A+

ky avec A+ k = ATkAk 1 ATk

Mise à jour des données : 1. de l’estimée :by(k)=Ak.xk 2. du résidu :Rk =y−by(k) Fin Tant que

3.3.2 Approche globale 3.3.2.1 Basis Pursuit

Comme la vraie parcimonie P0 n’est pas utilisable en pratique, on utilise la norme l1 pour contraindre la parcimonie. La normel1est définie de la manière suivante :

kxk1=

N

X

i=1

|xi|

Cette norme est connue pour favoriser un grand nombre de coefficients nuls. Le problème se formule alors de la manière suivante :

P1: min

x kxk1 sous y=Ax (3.3) Des travaux [DH01, Don04] ont montré que dans la majorité des cas, la minimisation de la norme l1 permet effectivement d’obtenir la représentation la plus parcimonieuse. Ses propriétés de parcimonie n’étant toutefois pas égales à celles que l’on obtiendrait avecl0. Chen, Donoho et Saunders [CDS98] ont donné le nom de Basis Pursuit (BP) au problèmeP1. C’est un problème d’optimisation convexe qui peut être reformulé [CDS98] sous la forme d’un programme linéaire [Dan63, GMW91].

3.3.2.2 Basis Pursuit Denoising

La contrainte égalité du problème (3.3) est trop forte si on veut obtenir une représentation parcimonieuse. Il est par ailleurs réaliste de supposer que les données traitées sont entachées d’un bruit perturbateur. On suppose donc que les données d’observations sont de la forme :

y=b+e

eest un bruit blanc gaussien,bles données sources inconnues etyle signal bruité observé. Voici deux critères qui ont été proposés dans la littérature pour trouver une approximation parcimonieuse

Algorithmes de décomposition parcimonieuse 57 min x 1 2kyAxk22 sous kxk1≤t (3.4) min x kxk1 sous kyAxk22≤ρ (3.5)

– Le critère (3.4) fut introduit en 1996 par Tibshirani [DET96], approche dénommée LASSO pour Least Absolute Shrinkage and Selection Operator. La contrainte porte ici sur le nombre maximal de coefficients admis pour la représentation parcimonieusex.

– Le second critère (3.5) est connu sous le nom de Basis Pursuit Denoising [Fuc97, Fuc98, CDS98]. A l’inverse du LASSO, on fixe l’erreur de reconstruction admissible et non le nombre maximal de coefficients. Il existe une autre formulation du Basis Pursuit Denoising :

PD1 : min

x

1

2kyAxk22+λkxk1 (3.6) Le paramètreλsert à ajuster le poids que l’on souhaite donner à chacun des deux éléments de la somme. Il permet d’établir un compromis entre la valeur de l’erreur de reconstruction (premier terme) et le nombre de coefficients non-nuls (deuxième terme).

Plus la valeur de λest grande, plus on privilégie la parcimonie au dépend de la qualité de la reconstruction. Inversement, siλest très petit, l’approximation obtenue sera de bonne qualité mais peu parcimonieuse.

3.3.2.3 Algorithme du LARS

L’algorithme du LARS, Least Angle Regression a été utilisé et modifié par [EHJT04] pour résoudre le critère du LASSO (3.4). Nous avons vu précédemment que ce critère est une méthode d’estimation par les moindres carrés plus un terme de pénalisation, portant sur le nombre de coefficients non-nuls au sein du vecteurx.

L’algorithme recherche l’estimée itérativement en sélectionnant les atomes les plus corrélés au signal. A l’identique du Matching Pursuit ou de l’Orthogonal Matching Pursuit, à l’itérationk, on raffine l’estimation du signal en ajoutant l’apport d’un nouvel atome fortement corrélé au résidu courant,R(yk).

En revanche, la mise à jour du signal estiméby(k) se fait par le biais d’un critèregéométrique. Supposons que deux atomes ont déjà été sélectionnés. La mise à jour deby(2) se fera le long de la bissectrice formée par les deux atomes sélectionnés. Ainsi au pask+1, sikatomes ont été retenus, l’estimée est mise à jour le long de la direction équiangulaire formée par lesk atomes retenus. Notonsd(k+1)cette direction ; l’expression récursive de l’estimée est donc la suivante :

by(k+1) =by(k)(k+1)d(k+1)

avecγ(k+1)un paramètre qui règle la contribution du nouvel atome.

A chaque itération, on choisit un nouvel atome de telle sorte que sa corrélation avec le résidu courant soit égale aux corrélations des précédents atomes sélectionnés avec le résidu courant. Pour atteindre cette contrainte, on calcule le pasγqui permet de déterminer de combien l’estimée doit se décaler dans la directiondpour que le nouvel atome soit autant corrélé avec le résidu courant que les atomes déjà sélectionnés.

58 Représentations parcimonieuses : état de l’art

3.3.2.4 Le filtre adapté global

– Origines du filtre adapté global –

Le filtre adapté global (ou GMF pour Global Matched Filter) est un algorithme initialement développé [Fuc01] pour résoudre des problèmes de détection et d’estimation, notamment pour des applications sonar. Il peut s’appliquer à partir du moment où les données d’observations y

peuvent se décomposer en une somme finie deptermes de fonctions paramétriques connuesai), à laquelle s’ajoute un bruite, supposé blanc :

y=

p

X

i=1

ai)xi+e

Pour déterminer la représentation dey, on doit estimer à la fois le nombrepde fonctions utiles, le scalaire ou vecteur θqui paramétrise les fonctions a(θ) et les coefficients de pondération xi associés. La résolution de ce problème se fait en général grâce à l’estimateur au sens du maximum de vraisemblance, approche classiquement usitée en statistique pour estimer les paramètres θ dont dépendent les données. Dans le cas d’un bruit gaussien, l’estimation du maximum de vraisemblance revient à résoudre le problème suivant :

min θi,xi ||y p X i=1 ai)xi||22 pour p fixé

Le GMF est une alternative à l’utilisation du maximum de vraisemblance pour traiter ce cas. L’idée est de discrétiser finement le paramètreθafin de linéariser le problème et d’obtenir des vecteurs tels que aj = aj). Pour un pas de discrétisation suffisamment petit, le nombre de fonctions aj devient supérieur à la dimension de l’espace formé par les données d’observations y. Le critère proposé pour estimer les données devient alors le suivant :

min

x≥0

1

2kyAxk2

2+h||xk1 , h>0 (3.7) h∈R+ajuste le degré de parcimonie de la reconstruction etAest la matrice dont les colonnes sont lesaj)précédents. Nous détaillerons par la suite la signification physique de ce paramètreh. Il a été démontré [Fuc01], que ce problème d’optimisation (3.7), est en fait équivalent au problème suivant : min x 1 2kAxk2 2 sous AT yAxh (3.8) qui permet, quant à lui, de faire une interprétation physique évidente. Le problème (3.8) stipule que l’on recherche la représentation d’énergie minimale qui, à l’optimum, conduit à un résidu dont la corrélation avec n’importe quel atome du dictionnaire est inférieure au seuil h. L’algorithme utilisé pour résoudre le critère (3.7) se base sur une approche homotopique et s’avère identique (ou presque) au LARS.

– Approche homotopique –

Dans le cadre qui nous intéresse, à savoir la recherche de la solution optimale du problème (3.7), il a été remarqué [OPT00] que la solution optimale évoluait linéairement sur des intervalles dehoù le nombre de coefficients non-nuls de la solution n’évolue pas.

L’idée directrice revient ainsi à trouver l’ensemble des intervalles dehsur lequel la solution évolue linéairement jusqu’à l’optimum. Il faut repérer des non-linéarités qui seront le signe d’une

Algorithmes de décomposition parcimonieuse 59

modification du support de la solution et donc de l’apparition d’un nouvel atome.

– Description algorithmique –

Pour trouver la solution au problème (3.7), une approche classique consiste à le transformer en un programme quadratique. Si on posex+

i = max(xi,0)etxi = max(−xi,0), on peut remplacerxi parx+

i xi et|xi| parx+

i +xi et ainsi obtenir un programme quadratique. La technique utilisée ici est différente. Elle est basée sur l’utilisation d’une approche homotopique appliquée aux conditions d’optimalités. Soit∂kxk1le sous-gradient dekxk1:

∂||x||1=

n

u|uTx=||x||1,||u||∞≤1o

={u|ui =signe(xi)sixi ,0et|ui| ≤1sinon}

où signe(xi) = ±1. Une condition nécessaire et suffisante pour quexsoit le minimum global de (3.7) est que le vecteur nul soit un sous-gradient du critère enx:

u∈∂||x||1tel queAT yAx+

hu=0 (3.9) Si on connait x, cette relation donne la valeur de uassociée. Cette relation est ensuite utilisée pour propager l’optimum (x,u) au voisinage de h pour lequel l’optimum est connu. Afin de rendre utilisable en pratique la condition (3.9), distinguons les coefficients non-nuls dexde ceux qui sont à zéro. On note x¯ le vecteur extrait de x contenant les coefficients non-nuls et x¯¯ le vecteur regroupant les composantes nulles. De même, notonsA¯, la matrice extraite deAdont les

colonnes retenues correspondent aux coefficients non-nuls de x¯ etA¯¯, celles correspondant aux

coefficients nuls. On a doncAx=A¯x¯∗. L’équation (3.9) peut ainsi être reformulée de la manière suivante :

A¯T yA¯x¯=

hsigne( ¯x) (3.10)

A¯¯T yA¯x¯=

hu¯¯ (3.11)

Ce que l’on cherche à déterminer, est comment évoluent x¯ etu¯¯ lorsqueh varie localement, car la décomposition qui vient d’être faite est valide tant qu’aucun coefficient de x¯ ne s’annule et qu’aucune composante deu¯¯ devienne égale à±1[Fuc01] . De l’équation (3.10), il en ressort une expression explicite dex¯qui met en exergue sa dépendance au termeh. Nous noterons ainsix¯(h)

l’optimum, plutôt quex¯. Cette expression substituée dans (3.11) permet d’obtenir une formulation deu¯¯ : ¯ x(h)=A¯+ yh( ¯ATA¯)1signe( ¯x) (3.12) ¯¯ u(h)= 1 hA¯¯Ty+A¯¯Td (3.13) y = IA¯A¯+T

yest le projeté de y sur l’espace orthogonal à l’espace engendré par A¯ et

d=A¯+T

signe( ¯x(h))avecA¯+

la pseudo-inverse deA¯.

Les expressions (3.12) et (3.13) sont valides pour h. Cependant, tant qu’il n’y a pas de modification du support de( ¯x(h),u¯(h))les équations restent valides. L’enjeu est donc maintenant de déterminer les bornes de ces intervalles de validité.

60 Représentations parcimonieuses : état de l’art

Les bornes de l’intervalle sont obtenues à partir des équations 3.12 et 3.13. A chaque changement de support, il faut déterminer le nouvel intervalle de validité et il sera alors possible de retracer, intervalle par intervalle, l’évolution dex(h)vers son optimum.

On construit l’optimumx(h) ou plus exactement, ses composantes non nulles x¯(h) lorsque

h décroît. On procède de proche en proche en construisant une séquence d’intervalles adjacents

h(in fk) , h(supk)

avec h(supk) = h(in fk1) pourk croissant, dans lesquels x¯(h) etu¯¯(h) sont donnés par les expressions 3.12 et 3.13 avecA¯ = A¯(k), signe( ¯x(h)) =s(k)etd(k) =A¯+Ts(k). Le critère d’arrêt est valide dès que l’on atteint l’intervalle qui contienth, valeur dehfixé dans le critère.

Nous décrivons dans la procédure ci-contre, les étapes de l’algorithme permettant de déterminer les bornes de ces intervalles. Notonsn(k)le nombre de colonnes dansA¯¯(k).

– Interprétation physique du paramètre h –

Le paramètre h (> 0) est un seuil que l’on doit fixer a priori, en fonction du degré de parcimonie souhaité. Il ajuste en effet le taux de pénalisation introduit par le terme kxk1 du problème (3.8). Lorsque h augmente, le nombre de composantes nulles de x(h) augmente. Reprenons la formulation duale (3.8) du problème :

min

x

1

2kAxk22 sous AT yAxh

A l’optimum, on a ainsi une représentation deyd’énergie minimale et dont le résidu yAx

possède une corrélation avec tout autre atome inférieure au seuil h et dont la corrélation avec les atomes sélectionnés est égale exactement à ±h. Le paramètre h représente une corrélation maximale autorisée. h agit finalement comme un seuil de détection mais, contrairement aux algorithmes de poursuite précédemment présentés, il détecte les atomes de manière globale ou simultanée.

Au lieu d’arrêter le Matching Pursuit avec||Ry||2

2 ρ, on pourrait utiliser ce critère (3.8) et arrêter d’itérer dès qu’aucun atome n’a une corrélation supérieure à h. La représentation donnée du MP est bien sûr bien moins parcimonieuse que celle obtenue avec le GMF.