• Aucun résultat trouvé

Matrices aléatoires et norme L1pour le compressed sensing

N/A
N/A
Protected

Academic year: 2022

Partager "Matrices aléatoires et norme L1pour le compressed sensing"

Copied!
53
0
0

Texte intégral

(1)

Mémoire pour le Master 2 de Statistique Mathématique

Matrices aléatoires et norme L1 pour le compressed sensing

effectué par Fabrice DURAND

Encadrant : Bernard Delyon

Année 2012-2013

(2)

Exercice 1 : qui est qui ?

Dans le désordre :

➢ Terence Tao

➢ Emmanuel J. Candès

➢ David Donoho

➢ Joel A. Tropp

➢ Justin Romberg

➢ Richard G. Baraniuk

(3)

Exercice 2 : qui est qui ?

➢ Claude Shannon

➢ Stéphane G. Mallat

➢ Yves Meyer

➢ Ingrid Daubechies

➢ Gabriel Peyré

➢ Rémi Gribonval

➢ Simon Foucart

➢ Anna C. Gilbert

(4)

Table des matières

Remerciements et contexte...5

1.Introduction...6

1.a)A l'origine : le théorème de l’échantillonnage de Shannon...6

1.b)Pourquoi aller plus loin ?...6

1.c)Nature du problème...7

1.d)Un peu d'histoire...7

2.Idées générales du compressed sensing...9

2.a)Notion de parcimonie...9

Définition...9

Recherche d'une meilleure représentation parcimonieuse...10

2.b)Notion d'échantillonnage « incohérent »...12

2.c)Un problème d'optimisation sous-contrainte...15

3.Conséquences de la propriété d'isométrie restreinte (RIP)...18

3.a)Définition de la propriété d'isométrie restreinte...18

3.b)Théorèmes de reconstruction dus à Candès dans le cas RIP...19

Reconstruction en situation non bruitée...19

Reconstruction en situation bruitée...20

3.c)Un exemple de matrices aléatoires RIP...21

Les matrices aléatoires sous-gaussiennes ...21

Autres choix possibles...22

4.Approches alternatives...23

4.a)Approche RIPless...23

4.b)Approche Bayesienne...25

5.Aperçu des algorithmes de reconstruction...26

5.a)Matching Pursuit (MP)...26

5.b)Orthogonal Matching Pursuit (OMP)...26

5.c)Stagewise Orthogonal Matching Pursuit (StOMP)...27

5.d)Gradient Pursuit...27

6.Simulations...28

6.a)Échantillonnage compressé d'un signal 1D et reconstruction par (Orthogonal) Matching Pursuit...28

6.b)Échantillonnage compressé d'une image et reconstruction...29

7.Applications...31

8.Conclusion et ouvertures...31

9.Bibliographie...32

10.Annexes...34

10.a)Démonstration du théorème sur la faible cohérence...34

10.b)Démonstration de la propriété d'isométrie restreinte pour matrices aléatoires sous- gaussienne...40

Variables aléatoires sous-gaussienne...40

Démonstration du lemme de Johnson-Lindenstrauss ...41

Preuve de la RIP pour matrices sous-gaussiennes...44

10.c)Démonstration des théorèmes de reconstruction de Candès...47

(5)

Remerciements et contexte

Je tiens premièrement à remercier Bernard Delyon pour m'avoir encadré pour ce stage et laissé libre dans le choix du sujet et des grandes orientations et donné le petit coup de pouce nécessaire quand j'en avais besoin. J'ai choisi le sujet du compressed sensing, suite à un premier travail encadré par Rémi Gribonval, dans le cadre du séminaire au premier semestre. Cela m'a ainsi apporté une culture scientifique dans ce domaine émergent, aujourd'hui devenu incoutournable dans l'univers du traitement du signal et de son enseignement.

Ce travail m'a permis de voir de nouveaux ponts entre des mondes qui se connaissent parfois peu : la théorie et les développements mathématiques pour valider l'intuition des physiciens ; et les explorations des physiciens ayant besoin d'outils mathématiques et donnant naissance à de nouvelles théories mathématiques hors des terrains balisés.

Je remercie également les étudiants du M2 Mathématiques, normaliens, magistériens et autres que j'ai pu cotoyer dans la bibliothèque de l'IRMAR, pour l'émulation apportée dans ce cadre de travail, et leur vision sur la recherche, l'apprentissage et l'enseignement des mathématiques.

Je remercie évidemment tous les mathématiciens et scientifiques dont les visages figuent en pages 2 et 3 et qui m'ont été une source d'inspiration pour ce travail. Merci en particulier à Gabriel Peyré, qui a mis en ligne ses codes Matlab pour la mise en œuvre de différents algorithmes de reconstruction parcimonieuse de signaux sous-échantillonnés. Merci également à Emmanuel Candès qui m'a donné par email un éclaircissement sur la preuve d'un théorème de reconstructon.

Merci à Patrick Perez, du service informatique, qui a bien voulu me donner une connexion filaire à l'internet depuis l'IRMAR et m'a mis en place un accès à un serveur pour utiliser Matlab à distance. Par contre, l'accès avec succès au serveur étant très aléatoire (ça tombe bien pour un stage en statistique) et suivant plutôt une loi des événements rares, j'ai dû me tourner vers une autre solution qui fonctionne avec probabilité 1.

Merci à Marie, mon sucre d'amour, qui partage ma vie.

(6)

1. Introduction

1.a) A l'origine : le théorème de l’échantillonnage de Shannon

Claude Shannon, ingénieur électricien et mathématicien américain, est considéré comme un des pères de la théorie de l'information. Son nom est associé au célèbre théorème de l'échantillonnage également connu comme critère de Shannon-Nyquist, affirmant que si un signal analogique est échantillonné avec une fréquence Fe=1/Te au mois égale à deux fois la fréquence maximale du signal 2Fmax , alors on peut reconstruire sans perte d'informations le signal analogique à partir des échantillons. En d'autre termes, un signal échantillonné à une fréquence prescrite par Shannon contient toute l'information du signal original et prend beaucoup moins de place.

Démonstration rapide : une démonstration possible repose sur la théorie des distributions.

On modélise l'échantillonnage à la période Te du signal analogique par une multiplication par un peigne d'impulsions de Dirac de période Te et de « poids » 1. Ceci se transpose dans le domaine de Fourier par une convolution du spectre du signal avec un peigne de Dirac de période Fe=1/Te et de « poids » Fe . Le spectre se trouve donc périodisé avec une période Fe . Pour éviter le recouvrement de spectre, on doit imposer

Fmax inférieur à Fe/2 (faire un dessin). On peut alors reconstruire le signal initial en appliquant un filtre passe bas idéal modélisé par une porte. Dans le domaine temporel, ce filtre se traduit par une interpolation des échantillons avec des sinus cardinaux.

1.b) Pourquoi aller plus loin ?

Ce théorème de l'échantillonnage est à la base de la conception de convertisseurs analogique-numériques (CAN) gravés sur silicium, et omniprésents dans les systèmes de télécommunications. Il offre un avantage considérable permettant de stocker et transporter des informations sous forme compressée, occupant beaucoup moins de place qu'un signal à temps continu. Cependant, aujourd'hui, avec des besoins de stocker et transmettre des volumes d'informations de plus en plus importants, cette fréquence d'échantillonnage minimale Fe≥2Fmax est une limite face à des besoins de compresser encore plus l'information et surtout plus rapidement. Donnons à titre d'exemple français, le cas de l'INA (Institut National de l'Audiovisuel) qui enregistre et stocke les émissions télévisées de toutes les chaînes et en continu.

(7)

1.c) Nature du problème

La question soulevée est donc de savoir si l'on peut échantillonner un signal à une fréquence largement inférieure à la fréquence minimale prescrite par Shannon. Dans le cas d'un signal numérisé (enregistrement sonore, image ou vidéo numérique), que l'on peut toujours représenter comme un vecteur x à n composantes, la question revient à savoir si l'on peut reconstruire parfaitement x à partir d'une observation y=Φx , où y a un nombre de composantes m très inférieur à n (au delà des limites de Shannon), et où Φ est une matrice de taille m*n modélisant un sous-échantillonnage et vérifiant certaines propriétés. Nous avons ici affaire à un système sous-déterminé ou à un problème dit extrêmement mal-posé, car on dispose de beaucoup moins d'observations que de données, ou dit autrement on a affaire à système linéaire avec beaucoup moins d'équations que d'inconnues. Généralement, un tel système possède soit zéro soit une infinité de solutions.

D'où l'étonnement que peut engendrer la tentative de résoudre un tel problème. Or il se trouve que sous certaines conditions, on peut reconstruire parfaitement le signal x à partir de l’observation y.

1.d) Un peu d'histoire

Une anecdote [3] :

Emmanuel Candès, ingénieur français de l’École Polytechnique et docteur de l'Université Stanford sous la supervision de David Donoho, est professeur de mathématiques et statistique dans cette même université au cœur de la Silicon Valley au sud de San Francisco. En 2004, alors qu'Emmanuel Candès travaillait avec une équipe de radiologues sur l'Imagerie par Résonance Magnétique (IRM), il a réussi à reconstruire une image fantôme, parfaitement à partir d'une image sous-échantillonnée (c'est à dire ne respectant pas le critère de Shannon-Nyquist). Ses partenaires ont d'abord pensé qu'il avait truqué ses résultats. Il a alors commencé par chercher des explications et a fait des avancées pour

(8)

démontrer sa découverte, mais restait bloqué à un point particulier. Il a alors décidé d'en parler à Terence Tao, mathématicien médaillé Fields en 2006 et actuellement professeur de mathématiques à l'Université de Californie à Los Angeles (UCLA). En allant chercher leurs enfants qui fréquentaient la même école, Candès a parlé à Tao de cette reconstruction trop belle pour être vraie. Tao a d'abord réagi en mathématicien en cherchant un contre exemple pour invalider la théorie de Candès, puis ne trouvant aucun contre exemple, il a écouté plus attentivement les raisonnements de Candès et a alors pensé que ce dernier pouvait avoir raison. En quelques jours, il l'a aidé à surmonter son obstacle et les deux ont commencé à dresser les fondements de la théorie générale du compressed sensing. Cette période constitue en quelque sorte un big-bang de cette théorie qui connaît depuis cette année de nombreuses évolutions et variantes et s'exprime dans de nombreux domaines d'applications explorés par les ingénieurs, médecins et scientifiques de tous bords.

Notons que certaines idées du compressed sensing étaient déjà pressenties depuis quelques décennies dans le domaine de la sismologie [3].

(9)

2. Idées générales du compressed sensing

2.a) Notion de parcimonie Définition

Une idée du compressed sensing (ou compressive sensing ou encore compressive sampling) est d'échantillonner un signal (enregistrement sonore, image numérique ou vidéo) à une fréquence significativement moins importante que celle prescrite par Shannon, de façon non régulière et en exploitant son caractère parcimonieux.

Définition 2.1 [12,13]: Un vecteur x∈ℝn est dit k-parcimonieux avec k<n s'il contient au plus k composantes non nulles, les autres composantes étant nécessairement nulles. On parlera alors de caractère parcimonieux d'un signal s'il admet une représentation parcimonieuse dans une certaine base.

En réalité, le caractère parcimonieux des signaux est déjà exploité dans les phases de compression, survenant après l'acquisition du signal échantillonné. Il s'agit de représenter le signal dans une certaine base (ou dictionnaire) dans laquelle il se résume à un nombre limité de coefficients non nuls. C'est ainsi que la base de Fourier permet d'exprimer un signal comme somme de sinusoïdes à différentes fréquences. De même, les bases à partir d'ondelettes permettent d'obtenir une représentation du signal comme somme d'ondelettes localisées à la fois dans le domaine fréquentiel et dans le domaine temporel (ou spatial).

Cette dernière décomposition est utilisée pour la représentation des images suivant le standard JPEG2000. La performance d'une base orthogonale pour traiter des signaux dépend de sa capacité à approximer ces signaux avec peu de coefficients non nuls.

Les deux étapes successives d'échantillonnage à la fréquence de Shannon puis de compression dans une base adaptée sont finalement coûteuse en temps pour ne retenir que quelques coefficients représentatifs. L'idée novatrice du compressed sensing est d'effectuer ces deux opérations simultanément, c'est-à-dire échantillonner et compresser en même temps, grâce au caractère parcimonieux.

(10)

Recherche d'une meilleure représentation parcimonieuse

Notons enfin qu'un dictionnaire est en quelque sorte une sur-famille d'une base. Elle est donc constituée de vecteur non nécessairement linéairement indépendant et la représentatifs parcimonieuse d'un signal dans une telle base n'est donc pas nécessairement unique. Un dictionnaire peut même être constitué de l'union de plusieurs bases orthonormales, et dans ce cas, chercher la meilleure représentation parcimonieuse dans un tel dictionnaire revient à chercher la meilleure base permettant d'exprimer le signal avec le moins de coefficients non-nuls possibles. Formalisons un peu le problème et annonçons les résultats de l'article [17] :

Définition 2.2 : Un dictionnaire de H:=ℝnoun est une famille de dn vecteurs unitaires (colonnes) {gk} qui engendre H . Nous utilisons la notation matricielle

D=[g1,..., gd] pour un dictionnaire.

Pour représenter un signal x∈H dans D , nous avons besoin d'un vecteur de coefficients α=( αk)∈ℝdoud tel que x=Dα . Et nous remarquons que si d>n , alors les vecteur de D ne sont pas linéairement indépendants et donc la représentation de

x n'est pas unique, c'est-à-dire le vecteur α n'est pas unique. Nous espérons que parmi toutes les représentations possibles de x se trouve une représentation très parcimonieuse, c'est-à-dire avec très peu de coefficients non-nuls. L'enjeu est de chercher toutes les représentations possible de x , d'en garder seulement les parcimonieuses, puis de déterminer s'il existe une unique représentation la plus parcimonieuse (avec le moins de coefficients non nuls). Il est possible de mesurer la parcimonie d'une représentation

x=Dα avec deux quantités : les normes l0 et l1 de α (la norme l0 compte le nombre de composantes non nulles d'un vecteur). Cela conduit aux deux problèmes de minimisation suivants :

min

α∈ℝd

∥α∥0 sachant que x=Dα ( l0 ) min

α ∈ℝd

∥α∥1 sachant que x=Dα ( l1 )

Il s'agit de problèmes sous-déterminés dont la question délicate de la résolution est discutée en section 2.c). Il se trouve aussi que le problème ( l1 ) est plus facile à résoudre

(11)

algorithmiquement que le problème ( l0 ). Voir plus de détails à ce sujet dans la section 2.c). Il devient alors important de savoir si des conditions existent pour que les deux problèmes offrent la même unique solution. Introduisons pour cela le nombre

μ (D):=max

j≠kgjgk〉∣ , la cohérence du dictionnaire (voir plus de détails sur les notions de cohérence et cohérence mutuelle dans la section 2.b). On a alors deux théorèmes suivants, démontrés dans [17] :

Théorème 2.1 : Pour tout dictionnaire D , si ∥α∥0<1

2

(

1+μ (D1 )

)

, alors α est la

solution unique aux deux problèmes de minimisation l0 et l1 .

Théorème 2.2 : Pour un dictionnaire D formé de la réunion de L≥2 bases orthonormales, si ∥α∥0<

(

2−1+2(L−1)1

)

μ (D)1 , alors α est la solution unique aux deux problèmes de minimisation l0 et l1 .

Remarque 1 : les conditions sur ∥α∥0 dans ces deux théorèmes assurent que le problème de minimisation l0 , plus difficile, a exactement la même unique solution α que le problème l1 , plus pratique à implémenter et plus performant sur un ordinateur, voir section 2.c).

Remarque 2 : Ces résultats sont une amélioration de [5] dans le sens où il se sont pas limités au cas d'un dictionnaire constitué de seulement deux bases orthonormales. Notons que le cas de beaucoup de dictionnaires redondants, comme le dictionnaire discret de Gabor, ne pouvant pas se décrire comme l'union de deux bases orthonormales, n'était pas couvert par [5] et peut maintenant être soumis aux problèmes ( l0 ) et ( l1 ) pour une recherche de meilleure représentation parcimonieuse. Voir également l'article [24].

(12)

2.b) Notion d'échantillonnage « incohérent »

Notons x∈ℝn un signal , Ψ∈ℝn×n la matrice de la base orthonormée dans laquelle x a la meilleure représentation parcimonieuse, et S∈ℝn la meilleure représentation parcimonieuse de x dans la base Ψ . On a donc x=ΨS

Notons encore Φ∈ℝm×n une matrice d'échantillonnage ou de projection permettant de sélectionner seulement m observations rangées dans un vecteur y∈ℝm avec m≪n . La matrice Φ peut être vue comme une sous-matrice obtenue en sélectionnant m lignes d'une matrice carrée orthonormale Φn×n∈ℝn×n .

On a alors y=Φx=Φ ΨS=ΘS avec Θ=Φ Ψ .

Fig. 1 : illustration de l'échantillonnage compressé.

Fig. 2 :

Illustration dans le cas particulier où x est déjà 3-parcimonieux ( Ψ=I , x=S et Θ=Φ )

La question est donc de savoir à quelles conditions on peut reconstruire le signal inconnu uniquement à partir de l’observation y est de la matrice rectangulaire de projection Φ .

(13)

On peut montrer [5,13] qu'il est nécessaire d'avoir une faible « cohérence » entre les matrices Φ et Ψ dans un sens précisé dans la définition 2.2. Précisons ce résultat à l'aide d'une définition intermédiaire et de deux théorèmes [13] :

Définition 2.3 [13, 17]: Soit une matrice orthogonale U∈ℝn×n avec UU=n I . On définit la cohérence de U comme le plus grand module de ses composantes :

μ (U)= max

1≤k , j≤nUk , j, que l'on pourra noter simplement μ .

Théorème 2.3 (sur la cohérence) :

Soit U∈ℝn×n une matrice orthogonale ( UU=n I ) avecUk , j≤μ (U) . Fixons un sous-ensemble T du domaine du signal. Choisissons un sous-ensemble Ω du domaine de mesures de taille m:=Ω , et z une suite de signes (+1 ou -1) répartis au hasard uniformément sur T (i∈T , Pr(zi=1)=Pr(zi=1)=1/2 ).

Supposons que m≥C0.∣T∣.μ2(U). log

(

nδ

)

et également que m≥C0'. log2

(

nδ

)

avec

C0 et C0' des constantes numériques fixées.

Alors, avec une probabilité supérieure à 1−δ , tout signal x de support T et dont les signes de composantes correspondent à ceux de z peut être reconstruit à partir de l'observation y=UΩ.x en résolvant le problème (P1).

Remarque 1 : ce théorème met en évidence, en posant Un×nΨ l'intérêt d'avoir une faible cohérence mutuelle entre Φn×n∈ℝn×n et Ψ∈ℝn×n . Notons qu'en sélectionnant

m lignes de U pour former UΩ=:Θ ou alors m lignes de Φn×n∈ℝn×n pour former Φ:=(Φn×n)Ω , nous retrouvons UΩ=(Φn×n)ΩΨ=Φ Ψ=:Θ . On a alors de façon triviale : μ (U)≥μ (UΩ)=μ ( Φ,Ψ) . Ceci conduit à la conséquence voulue du théorème : plus la cohérence mutuelle μ (Φ,Ψ) est faible, moins on a besoin d'observations.

Remarque 2 : Comme chaque ligne (ou chaque colonne) de U a nécessairement une

(14)

norme l2 égale à

n , μ sera compris entre 1 et

n . Quand les lignes de U sont parfaitement « plates » ( ∀k , j∈{1, ..., n},∣Uk , j=1 ), on aura μ (U)=1 . Si au contraire une ligne de U a son énergie concentrée sur une seule composante (toutes les composantes sauf une sont nulles), alors μ (U)=

n et la condition

m≥C0.∣T∣.μ2(U). log

(

nδ

)

du théorème n'offre aucune garantie de pouvoir reconstruire le signal à partir d'un nombre limité d'échantillons. La valeur μ peut donc être interprétée comme une mesure grossière de la façon dont les lignes sont concentrées, et on préférera bien sûr une faible concentration.

Cette notion de faible cohérence constitue un critère important pour le choix de Φ en tant que matrice aléatoire. Nous donnons les grandes lignes de la démonstration de ce théorème en annexe. La démonstration du théorème 1 fait appel au théorème suivant :

Théorème 2.4 : Soient U , T et Ω définis comme dans le théorème 1. Supposons que le nombre de mesures vérifie :

m≥∣T∣.μ2(U).max

(

C1log∣T∣, C2log3δ

)

avec C1 et C2 constantes positives.

Alors, Pr

[

m1 UΩT UΩTI

212

]

≤δ ∥.∥2 est la norme l2 standard pour les matrices, ici la plus grande valeur propre (en valeur absolue).

Remarque 1 : Ainsi, pour des petites valeurs de δ , les valeurs propres de UΩTUΩT sont toutes proches de m , avec forte probabilité. Pour voir le principe d'incertitude, supposons que x∈ℝn soit un signal de support T et tel que

m1UΩT UΩT−I

2

≤1 2 . Il s'en suit que : m

2∥x22≤∥UΩx∥22≤3m

2 ∥x∥22 ,

ce qui signifie qu'une faible portion de l'énergie de x sera concentrée sur l'ensemble Ω dans le domaine de U (l'énergie totale vérifie ∥Ux∥22=n∥x∥22 ). Les grandes lignes des démonstrations des théorèmes 1 et 2 sont données en annexe.

(15)

Remarque 2 : ces deux théorèmes constituent une avancée par rapport au résultat fourni dans [16] où on prend pour U la matrice usuelle de Transformée de Fourier Discrète. Le résultat principal de cet article est que si x∈ℝn est k-parcimonieux, alors il peut être reconstruit parfaitement à partir de l'ordre de klogn observations, prises dans le domaine de Fourier.

Remarque 3 : La définition 2.1 et la condition du théorème 2.3 conduisent à définir un lien entre les matrices de projection et de parcimonie Φ et Ψ . Le nombre de mesures requis pour reconstruire un signal parcimonieux est donc affecté par le nombre μ qui peut être redéfini comme suit [13]:

Définition 2.2 : Soient Φ∈ℝn×n une matrice de projection orthogonale (avec ΦΦ=n I ) et Ψ∈ℝn×n une matrice orthonormale de parcimonie ( ΨΨ=I ).

La cohérence mutuelle entre Φ et Ψ est définie par :

μ:=μ ( Φ,Ψ)= max

1≤k , j≤n〈 Φj,Ψk〉∣ .

Remarque : Elle mesure donc la plus grande corrélation entre deux éléments (vecteurs lignes) de Φ et Ψ . Une conséquence de l'inégalité de Cauchy-Schwarz est que

μ (Φ,Ψ)∈

[

1,

n

]

.

2.c) Un problème d'optimisation sous-contrainte

Pour simplifier l'exposé, on se place maintenant pour cette section dans une telle situation où x∈ℝn est k-parcimonieux. Et on va montrer plus loin que si m est légèrement supérieur (dans un sens à préciser) au nombre k de composantes non nulles dans x et si

Φ∈ℝm×n satisfait certaines propriétés, alors on peut reconstruire parfaitement x en résolvant le problème d'optimisation sous contrainte suivant :

min

̃x∈ℝn

∥̃x∥ sachant que y=Φ ̃x (P1)

(16)

Dans une situation plus réaliste où l'observation y est bruitée (bruit de quantification, bruit thermique des capteurs, etc...), le modèle de l'observation devient :

y=Φx+zz est un terme de bruit inconnu. Le problème à résoudre devient :

min

̃x∈ℝn

∥̃x∥ sachant que ∥y−Φ ̃x2≤ϵ 1(P2)

Une question cruciale arrivant à cette étape est de savoir quelle norme ∥.∥ il convient d'utiliser dans l'expression ∥̃x∥ pour résoudre les problèmes (P1) et (P2).

Une idée naturelle est de choisir la norme dite l0 qui compte le nombre de composantes non-nulles dans un vecteur. Il s'agit en fait d'une pseudo-norme que l'on peut formaliser ainsi :

x∈ℝn,∥x∥0=∣supp(x)∣ ou encore ∀x∈ℝn,∥x∥0=

i=1 n

xi0 en posant 00=0 Cette norme a l'avantage de conduire à la solution exacte pour (P1) dès que m≥k+1 (voir

[4]) mais a l'inconvénient d'être très coûteuse en complexité algorithmique. En effet, la résolution de ce problème conduit à tester les Cnk combinaisons possibles de sous-espaces de ℝn passant par k axes de coordonnées parmi les n . Cette norme n'a donc pas été retenue.

Une autre idée naïve est de choisir la norme euclidienne l2 . Malheureusement, résoudre le problème de minimisation (P1) ou (P2) par cette norme ne conduit presque jamais à une solution k-parcimonieuse. Voir schéma ci-dessous pour des considérations géométriques en dimension 3.

Finalement, la norme qui va s'avérer efficace est la norme l1 . En effet, cette norme a l'avantage d'être convexe comme la norme l2 et la boule unité dans cette norme est un polytope (au sens américain) défini comme une enveloppe convexe d'un polyèdre, et en grande dimension, il devient tellement pointu que la probabilité que le sous-espace passant

1 Notons la norme l2 avec juste l'indice 2 pour alléger l'écriture.

(17)

passant par la bonne solution x soit tangent à une arrête ou une face devient très faible.

C'est ce que Richard Baraniuk appelle le « miracle de la haute dimension » [3]. Voir figure 3.

Fig. 3 : illustration en dimension 3 des avantages et inconvénients de l'utilisation des normes (a) l0 , (b) l2 et (c) l1 .

De plus, l'utilisation de la norme l1 conduit à un problème d'optimisation convexe qui peut se réduire à un programme linéaire connu sous le nom de basis pursuit [11], dont les fondements mathématiques sont connus depuis quelques décennies. La norme l1 est également appelée relaxation convexe ou relâché convexe de l0 .

Pour conclure, il convient de s'intéresser également au cas où x:=S est seulement

« proche » d'un signal k-parcimonieux. Le cas d'un signal non exactement parcimonieux mais dont les coefficients ont une décroissance rapide donne lieu à une possibilité de compression en sélectionnant les composantes les plus importantes avec une petite perte d'information.

(18)

3. Conséquences de la propriété d'isométrie restreinte (RIP)

3.a) Définition de la propriété d'isométrie restreinte

Un premier théorème d'unicité [1]: Supposons que Φ∈ℝm×n est telle que chaque sous-matrice extraite en sélectionnant exactement 2k colonnes soit de rang 2k , alors un vecteur k-parcimonieux x∈ℝn peut être reconstruit de manière unique à partir de l'observation y=Φx .

Démonstration : Supposons par l'absurde qu'il existe au moins deux vecteurs k- parcimonieux x et x ' tels que Φxx ' . Alors Φ (x−x ')=0 . Comme x−x ' est 2k-parcimonieux, alors 2k colonnes de Φ sont linéairement dépendantes.

Contradiction. □

Ainsi, une matrice de projection Φ∈ℝm×n avec m≪n n'est clairement pas de rang plein. Mais on peut lui imposer que n’importe quelle sous-matrice extraite en choisissant un certain nombre fixé de colonnes soit de rang plein. Ceci permet alors de résoudre le problème d'optimisation sous-contrainte décrit ci-dessus. Une propriété étroitement liée à cette condition est la propriété d'isométrie restreinte décrite ci-dessous :

Définition : On dit qu'une matrice Φ∈ℝm×n satisfait la propriété d'isométrie restreinte d'ordre k∈ℕ et de constante d'isométrie δk∈]0,1[ , et on notera que

Φ est RIP(k ,δk) , si pour tout signal k-parcimonieux, soit pour tout signal x∈Σk:={u∈ℝn:∣supp(u)∣≤k} , on a : (1−δk)∥x∥22≤∥Φx∥22≤(1+ δk)∥x∥22 .

Remarques :

➢ En réécrivant cet encadrement sous la forme suivante :

1−δk≤∥Φx∥2

∥x∥2

1+δk , cela indique que la matrice Φ doit à peu près préserver les longueurs (au sens de la norme euclidienne) de ces vecteurs k-parcimonieux. Autrement dit, on souhaite que les valeurs singulières de Φ soient comprises dans un petit intervalle autour de 1.

➢ Cette définition impose à chaque matrice extraite de k colonnes, d'être de rang k .

➢ La constante d'isométrie restreinte δk∈]0,1[ est donc définie comme le plus petit nombre tel que cet encadrement reste vrai pour tout vecteur k-parcimonieux x .

(19)

Une variante du premier théorème : Si Φ∈ℝm×n est RIP(2k,δ2k) et x∈ℝn est k- parcimonieux, alors x est solution unique au problème (P1).

Démonstration : Notons x ' une autre solution possible de (P1). Alors y=Φx=Φx ' . Mais comme x−x ' est 2k-parcimonieux et Φ∈ℝm×n est RIP(2k,δ2k) , on obtient :

(1−δ2k)∥x−x '∥22≤∥Φx−Φx '∥22≤∥y−y∥22=0 . Enfin comme 1−δ2k>0 , on conclut que x=x ' .□

Remarque: les notions d'isométrie restreinte pour Φ et de faible cohérence entre Φ et Ψ s'avèrent être combinaison gagnante pour le compressed sensing.

3.b) Théorèmes de reconstruction dus à Candès dans le cas RIP

Reconstruction en situation non bruitée

Théorème 3.1 (Noiseless recovery, Candès, 2008, [2]) :

Supposons que δ2k<

2−1 . Alors la solution x au problème (P1) vérifie :

∥xx∥1≤C0∥x−xk1 et

∥x−x∥2≤C0k−1/2∥x−xk1 où :

xk désigne la meilleure représentation k-parcimonieuse de x , c'est-à-dire que xk est le vecteur x où sont conservées les k plus grandes composantes (en valeur absolue et au mêmes emplacements) de x et toutes les autres sont composantes sont fixées à zéro.

C0 est une constante explicitée dans la démonstration en annexe.

Remarque : Dans le cas particulier où x est k-parcimonieux, la reconstruction est exacte.

(20)

Reconstruction en situation bruitée

Théorème 3.2 (Noisy recovery, Candès, 2008, [2]) :

Supposons que δ2k<

2−1 et ∥z∥2≤ϵ . Alors la solution x au problème (P2) vérifie :

∥xx∥2≤C0k−1/2x−xk1+C1ϵ

avec la même constante C0 que dans le cas non bruité, et C1 explicité dans la démonstration en annexe.

Remarques :

➢Les constantes C0 et C1 sont assez petites.

➢En revenant au cas non bruité, ϵ=0 , le théorème 2 implique immédiatement le deuxième résultat du théorème 1.

➢Le terme en C1ϵ indique la stabilité de la reconstruction : une petite augmentation du niveau du bruit de l'observation n'augmente pas l'erreur de reconstruction de façon disproportionnée.

(21)

3.c) Un exemple de matrices aléatoires RIP

Il existe différents types de matrices aléatoires Φ∈ℝm×n dont on peut montrer qu'elles satisfont avec forte probabilité la propriété d'isométrie restreinte [6, 7]. En voici un premier exemple.

Les matrices aléatoires sous-gaussiennes

Définitions (voir cnx.org):

Une variable aléatoire X est dite sous-gaussienne s'il existe une constante c>0 telle que

t∈ℝ, E[exp(Xt)]exp

[

c22t2

]

. On note alors X∼Sub(c2) .

Une matrice aléatoires Φ∈ℝn×m est dite sous-gaussienne si ses composantes Φi , j sont iid et sous-gaussiennes avec Φi , j∼Sub

(

m1

)

.

On peut montrer que si Φ∈ℝm×n est sous-gaussienne, alors pour toute matrice orthonormale de parcimonie Ψ∈ℝn×n , Θ=Φ Ψ est aussi sous-gaussienne.

Elle présente également des avantages et inconvénients :

Avantages : Elle correspond à une stratégie d'échantillonnage très générale indépendante de la base de parcimonie Ψ et on peut aussi montrer [7, 10] qu'elle vérifie la propriété d'isométrie restreinte RIP(k ,δk) avec forte probabilité, dès lors que m≥Cste 1

δ²kln

(

nk

)

.

Inconvénients : En pratique, elle n'est pas réellement aléatoire, mais pseudo-aléatoire, construite à partir de quelques valeurs initiales (ce qui présente donc l'avantage de prendre très peu de place). La complexité algorithmique de sa construction est élevée, de l’ordre de m×n . Elle est

(22)

donc inadaptée dans le cas de signaux volumineux comme des images ou des vidéos, la reconstruction étant très lente.

Autres choix possibles

On peut trouver un « catalogue » [6] de matrices aléatoires vérifiant la propriété d'isométrie restreinte avec forte probabilité, et faible cohérence avec la matrice de parcimonie, dont on peut recenser pour chacune : la complexité algorithmique de leur construction , l'ordre de grandeur de m en fonction de k et à partir duquel la RIP est vérifiée avec forte probabilité, les avantages et inconvénients et leur utilité dans telle ou telle application. Certaines sont construites à partir de matrices de Fourier et exploitent le fait que Fourier diagonalise les matrices circulantes.

(23)

4. Approches alternatives

4.a) Approche RIPless

Une approche alternative de compressed sensing et reconstruction existe [8], ne nécessitant pas la propriété isométrie restreinte décrite précédemment pour la matrice de projection, mais deux autres critères : une propriété d'incohérence et une propriété d'isotropie vérifiée par la loi F des composantes de la matrice de projection. Commençons par décrire ces deux propriétés.

Ecrivons le modèle de l'observation : ∀k∈{1,..., m}, yk=〈Φk, x〉 +σzkzk est un bruit blanc avec variance unité et ΦkiidF .

Définition de la propriété d'isotropie :

On dit que F vérifie la propriété d'isotropie si EkΦk*]=In avec ΦkiidF .

En d'autres termes, la condition d'isotropie dit que les composantes de ΦkiidF ont une variance unité et sont décorrélées.

Définition de la propriété d'incohérence : On peut considérer le paramètre de cohérence μ (F) comme le plus petit nombre tel que max

1≤t≤nΦk[t]∣2≤μ(F) est vrai soit de façon déterministe soit de façon aléatoire dans le sens suivant. Si une borne déterministe n'existe pas, on peut prendre le plus petit scalaire μ vérifiant :

E

[

1n∥Φk221Ec

]

201n3/2 et Pr

[

Ac

]

≤ 1

n m A est l'événement A:=

{

1≤t≤nmaxΦk[t]2≤μ

}

Nous pouvons alors énoncer un premier théorème de reconstruction au problème (P1) rappelé ici:

(P1) : min

̃x∈ℝn

∥̃x∥ sachant que y=Φ ̃x où les lignes de Φ sont des échantillons suivant la loi F et normalisés.

(24)

Théorème 1 (Noiseless incoherent sampling) [8]:

Soient x∈ℝn un vecteur fixé et arbitrairement k-parcimonieux et un scalaire β>0 . Alors, avec probabilité au moins 1−5

n−exp(−β) , x est l'unique solution au problème (P1) avec y=Φx pourvu que m≥Cβ.μ(F)klogn . Plus précisément, Cβ peut être fixé à C0(1+β) avec C0 une constante numérique positive.

Remarque : en substance, ce théorème dit qu'un signal k-parcimonieux peut être parfaitement reconstruit à partir de l'ordre de klogn mesures.

Revenons maintenant au problème (P2) correspondant à la situation bruitée et que nous rappelons ici : nous observons y=Φxmzz est toujours un bruit blanc de variance unité et avec

σm=σ /

m et nous souhaitons résoudre le problème de minimisation suivant : min

̃x∈ℝn

∥̃x∥ sachant que ∥y−Φ ̃x2≤ϵ (P2)

que l'on peut résoudre en passant par la méthode LASSO [22] , qui revient à résoudre le problème, reformulé sans contrainte, des moindres carrés avec une pénalité de type l1 pour un certain λ >0 :

xl*1−l2=argmin

x∈ ℝ̃ n

1

2∥y−Φ ̃x22+ λ σm∥̃x12 (P2')

qui est parfois appelé problème de minimisation l1−l2 . Avec un choix approprié du paramètre λ , le problème (P2') fournira la même solution que (P2). Cependant, la valeur de λ correspondant à la valeur de ϵ dans le problème (P2) n'est pas connue en général [23].

Théorème 2 [8]:

Soient un vecteur x∈ℝn et un scalaire β>0 . Alors, avec probabilité au moins 1−6

n−6 exp(−β) , la solution x* au problème (P2') avec λ=10

logn vérifie :

∥x*x∥2min

1≤k≤kmax

C(1+α)

{

∥x−x

kk1

klogm n

}

pourvu que m≥Cβ.μ(F).kmax. logn ,

Si l'erreur est mesurée par la norme l1 , cela donne :

∥x*x∥1min

1≤k≤kmax

C(1+ α)

{

x−xk1+kσ

logmn

}

,

(25)

où :

C est une constante numérique, Cβ peut être choisi comme précédemment, α=

(1+β)kμlogmnlogmlog2k et kmax est le niveau maximum de parcimonie pour x permettant toujours une reconstruction stable et peut être fixé à kmax= m

Cβ.μ (F). logn .

4.b) Approche Bayesienne

De façon assez surprenante, le problème de minimisation (P2') ci-dessus peut être vu dans le cadre d'une approche Bayesienne comme un estimateur du maximum a posteriori (MAP) lorsque le bruit additif est un bruit blanc gaussien et qu'on impose un prior Laplacien

p(xλ)=

(

λ2

)

nexp(−λ∥x∥1)∝exp(−λ∥x∥1) au vecteur inconnu x∈ℝn , considéré ici dans une forme parcimonieuse ou compressible [23, 25]. On pourra se référer par exemple à [25, 26, 27] pour plus de détails sur les variantes et évolutions des méthodes d'esimation Bayesienne d'un signal parcimonieux.

(26)

5. Aperçu des algorithmes de reconstruction

On trouve dans la littérature de nombreuses techniques de reconstruction par résolution des problèmes (P1) et (P2), avec des spécificité différentes en termes de rapidité, précision [3]. Nous décrivons succintement les principaux d'entre eux, qualifiés d'algorithmes gloutons.

5.a) Matching Pursuit (MP)

Le MP [28, 23] d'un algorithme itératif. A la première itération, on initialise à zéro toutes les composantes du vecteur x∈ℝn recherché : x(0)=(0, ...,0)

Ensuite, à chaque itération, le vecteur est mis à jour en lui ajoutant le vecteur 1-parcimonieux qui minimise la nouvelle erreur d'observation :

x(j+1)=x(j)+v*v*=arg min

∥v∥0=1

y−Φ (x(j)+v)

2 .

Cette mise à jour est calculée par une multiplication terme à terme : v=cidi où :

c=ΦT(y−Φx(j))∈ℝn est un vecteur de corrélations, i est l'indice qui maximise la valeur absolue du vecteur de corrélation max

iciet di est l'impulsion unité (ou Dirac) à l'indice i . Après M itérations, on aura ainsi ajouté un signal M-parcimonieux.

Il est prouvé dans [28] que la suite des résidus

y−Φx(j)

2 converge vers 0 quand j augmente. On peut alors arrêter l'algorithme après un nombre d'itéaration fixée ou à l'aide d'un critère d'arrêt sur l'erreur.

5.b) Orthogonal Matching Pursuit (OMP)

L'OMP [29, 23] est une amélioration du MP en réduisant l'erreur grâce à une projection orthogonale. A une itération j donnée, on effectue une étape standard du MP : ̃x=x(j)+v et l'itération suivante est effectuée en projetant y sur le support connu de ̃x :

x(j+1)=argmin

I(x)=Ix)∥y−Φx2 , où I(x):=

{

i∈{1, ..., n}:xi≠0

}

est le support de la solution.

Cette minimisation l2 peut être résolue par la méthode des moindres carrés comme suit :

xIj+1+I yA+=(ATA)−1AT est la pseudo-inverse, I=I(x) et où on a utilisé la notation xI=(xi)i∈I et ΦI∈ℝm×∣I∣ est la sous-matrice de Φ obtenue en ne gardant que les colonnes indicées par I . On montre dans [29] que cet algorithme s'arrête après n itérations, fournissant une erreur nulle : Φx(m)=y , puisqu'à la différence du MP, il ne sélectionne jamais le même indice deux fois.

(27)

5.c) Stagewise Orthogonal Matching Pursuit (StOMP)

Le MP et l'OMP ne sélectionnent qu'une seule colonne à chaque itération. Ainsi pour un reconstruire un vecteur k-parcimonieux, ces alogorithmes nécessitent au moins k itérations.

L'idée du Stagewise OMP est d'accélérer la convergence en sélectionnant plusieurs colonnes à chaque itération, voir précisions dans [30].

5.d) Gradient Pursuit

Le coût algorithmique de l'OMP est dominé par son étape de projection orthogonale. Pour éviter ceci, l'algorithme Gradient Pursuit [31] remplace cette étape par une mise à jour du vecteur x par une instruction de type gradient ou gradient conjugué.

(28)

6. Simulations

Voici les résultats de simulations réalisées à l'aide de Toolbox et codes Matlab mis en ligne par Gabriel Peyré [32], moyennant des adaptations mineures.

6.a) Échantillonnage compressé d'un signal 1D et reconstruction par (Orthogonal) Matching Pursuit

Nous générons :

➢ une matrice de projection Φ∈ℝm×n , réalisation d'une matrice aléatoire gaussienne,

➢ un vecteur k-parcimonieux x∈ℝn , dont les composantes non nulles valent +1 ou -1.

Puis nous effectuons une observation (basée sur le compressed sensing) contaminée par un bruit gaussien : y=Φx+z

Nous appliquons alors l'algorithme du Matching Pursuit (MP) sur l'observation. Nous affichons ci dessous (figure 1.a) le vecteur de corrélations obtenu à la première itération et permettant de sélectionner le premier vecteur 1-parcimonieux contribuant à la solution finale, ainsi que la décroissance de l'erreur d'estimation au fur et à mesure des itétations (figure 1.b).

Fig. 1.a – premier vecteur de corrélations Fig. 1.b évolution de l'erreur résiduelle

(29)

Nous observons maintenant les reconstructions comparées au signal original obtenues par les algorithmes Matching Pursuit (MP, figure 2.a) et Orthogonal Matching Pursuit (OMP, figure 2.b).

Fig. 2.a – signal reconstruit par MP Fig. 2.b - signal reconstruit par OMP Nous constatons que le signal reconstruit par MP est plus bruité par rapport au signal original.

L'algorithme OMP s'avère ici plus efficace.

6.b) Échantillonnage compressé d'une image et reconstruction

Fig. 1 – Décomposition en ondelettes et reconstruction d'une image IRM

Donnons d'abord la décomposition en ondelette d'une image IRM et sa reconstruction à partir des coefficients basse fréquence de la décomposition (figure 1). La figure reconstruite a ici un RSB (rapport signal sur bruit) de 27,1 dB.

(30)

Nous mettons maintenant en œuvre un échantillonnage compressé et une reconstruction par l'agorithme de Douglas Rachford [33]. La figure 2.a présente l'évolution de la norme L1 du vecteur parcimonieux reconstruit au fur et à mesure des itérations, et la figure 2.b présente l'image reconstruite à la fin de l'algorithme.

Fig. 2.a – norme L1 de x Fig. 2.b – image reconstuite par D.R.

L'image reconstruite a ici un RSB de 33,7 dB, ce qui est meilleur que l'image reconstruite à partir de la décomposition en ondelettes.

Présentons enfin ci-dessous de nouveau l'évolution de la norme L1 et l'image reconstruite avec un algorithme utilisant la parcimonie par blocs. Nous observons une petite irrégularité dans la décroissance de la norme L1, mais l'image reconstruite au final est de meilleure qualité avec un RSB de 36,3 dB.

Fig. 3 – norme L1 et image reconstruite exploitant la parcimonie par blocs

(31)

7. Applications

Il existe une multitude d'applications de la théorie du compressed sensing, comme la célèbre

« Single pixel camera » conçue par Richard Baraniuk [3], au convertisseurs analogique- numérique (CAN) plus rapides intégrés dans les systèmes de communication grâce à la technique du Random Convolution (voir les nombreux articles de Justin Romberg), en passant par de nombreux le traitement de l'image (temps d'exposition réduit en scanner IRM), l'acoustique (séparation de sources via la parcimonie) et l'astronomie.

8. Conclusion et ouvertures

Nous avons abordé les notions de compressed sensing et de reconstruction dans le cas où la matrice de projection est RIP, ou vérifie des proprité d'isotopie et d'incohérence (cas RIPless).

Cependant des approches efficaces existent dans la littérature exploitant d'autres caractéristiques :

➢ la description du signal comme un processus stochastique [voir référence dans 6]

➢ la théorie des graphes [voir référence dans 6]

➢ la projection de polytopes [voir référence dans 6]

➢ les propriétés du noyau de la matrice de projection [voir référence dans 6]

Notons encore qu'il est serait très long en pratique de vérifier la propriété d'isométrie restreinte (RIP) d'une matrice de projection. Mais heureusement, la plupart des matrices aléatoires construites selon une certaine classes de lois (les matrices sous-gaussiennes) vérifient cette propriété avec probabilité écrasante, dans de bonnes hypothèses de travail.

La théorie du compressed sensing est très riche et connaît un essor formidable depuis le « big- bang » de 2004-2005. Elle trouve des application très variées dans tous les domaines : communications sans fil, stockage de données, traitement d'image, acoustique. Signalons enfin que le compressed sensing n'est pas la seule alternative à l'échantillonnage classique.

(32)

9. Bibliographie

[1] Conférence de Terence Tao en 2008 sur le compressed sensing en sept vidéos de neuf minutes sur https://www.youtube.com/watch?v=i2aY7tZ5S7U

[2] Emmanuel J. Candès ,The Restricted Isometry Property and Its Implications for Compressed Sensing, 2008

[3] Compressed Sensing Makes Every Pixel Count In What's happening in the mathematical sciences (May 2009) by Dana Mackenzie, Society, American Mathematical

[4] Richard G. Baraniuk, Compressive Sensing, lecture NOTES, IEEE Signal Processing Magazine, July 2007

[5] D.L. Donoho and X. Huo, Uncertainty principles and ideal atomic decomposition, IEEE Trans. Inform. Theory, vol 47 no 7 pp 2845-2862, Nov. 2001

[6] Laurant Jacques and Pierre Vandergheynst, Compressive Sensing : « When sparsity meets sampling », February 17, 2010

[7] R. Baraniuk, M. Davenport, R. DeVore aand M. Wakin (2008), A simple proof of the restricted isometry property for random matrices.

[8] Emmanuel J. Candès and Yaniv Plan, A probabilistic and RIPless Theory of Compressed Sensing, November 2010, Revised June 2011

[9] http://dsp.rice.edu/cs ou http://www.compressedsensing.com/ (liste de tuorials et dernières parutions sur le sujet mise à jour par la Rice Univerity)

[10] cnx.org : site de partage de connaissances, initié par Richard Baraniuk, Rice Univerity [11] Shaobing Chen and David Donoho, Basis Pursuit, 1994

[12] Justin Romberg, Sensing by Random Convolution, Georgia Institute of Technology, School of Electrical and Computer Engineering, Atlanta, Georgia 30332, >= 2007

[13] Emmanuel J. Candès and Justin Romber, Sparsity and Incoherence in Compressive Sampling - Applied and Computational Mathematics, Caltech, Pasadena, CA 91125 – Electrical and Computer Engineering, Georgia Tech, Atlanta, GA 90332, November 2006 [14] Stéphane Mallat, A Wavelet Tour of Signal Processing, Third Edition: The Sparse

Way, Third Edition

[15] M. Rudelson. Random vectors in the isotropic position. J. Functional Analysis, 164(1):60-72, 1999

[16] Emmanuel Candès, Justin Romberg and Terence Tao. Robust Uncertainty Principles:

Exact Signal Recovery from Highly Incomplete Frequency Information. June 2004;

Revised August 2005

[17] Rémi Gribonval and Morten Nielsen. Sparse Representation in Unions of Bases. INRIA, Rapport de recherche N°4642, November 2002

[18] Sanjoy Dasgupta, Anupam Gupta. An Elementary Proof of a Theorem of Johnson and Lindenstrauss. (TR-99-006). Technicl report Univ. of Cal. Berkeley, Comput. Science Division. Accepted 11 July 2002

[19] Sham Kalade and Greg Shakanarovich. Random Projections. CMSC 35900 (Spring 2009)

(33)

Large Scale Learning

[20] Dimitris Achliopatas. Database-friendly random projections: Johnson-Lindenstrauss with binary coins. Journal of Computer and System Sciences. Received 28 August 2001, revised 19 July 2002.

[21] Simon Foucart : Lectures on compressed sensing, Spring 2009. Graduate course “Notes on Compressed Sensing” in the Department of Mathematics at Vanderbilt, http://www.math.vanderbilt.edu/~foucart/TeachingFiles/S09/CSNotes.pdf

[22] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Royal. Statist.

Soc B., Vol. 58, No. 1, pages 267-288).

[23] Kazunori Kayashi, Masaaki Nagahara and Toshiyuki Tanaka. A User's Guide to Compressed Sensing for Communications Systems. IEICE Trans. Commun., Vol. E96-B, No. 3 March 2013

[24] Jean-Jacques Fuchs, member, IEEE. On Sparse Representation in Arbitrary Redundant Bases. IEEE Transactions on Information Theory, Vol. 50, No. 6, June 2004

[25] Shihao Ji, Ya Xue, and Lawrence Carin, Bayesian compressive sensing. (IEEE Trans. on Signal Processing, 56(6) pp. 2346 - 2356, June 2008)

[26] Lihan He and Lawrence Carin, Exploiting structure in wavelet-based bayesian compressed sensing. (Accepted for publication in IEEE Transactions on Signal Processing) [27] Ahmed A. Quadeer and Tareq Y. Al-Naffouri, Structure-Based Bayesian Sparse

Reconstruction. (accepted in IEEE Trans. on Signal Processing) 16 July 2012

[28] S. Mallat and Z. Zhang. Matching Pursuits with Time-Frequency Dictionaries. IEEE Transactions on Signal Processing, Vol. 41, No. 12, Dec. 1993

[29] Y. C. Pati, R. Rezaiifar, Y. C. Pati R. Rezaiifar, P. S. Krishnaprasad. Orthogonal Matching Pursuit: Recursive Function Approximation with Applications to Wavelet Decomposition.

(1993) Proceedings of the 27 th Annual Asilomar Conference on Signals, Systems, and Computers

[30] D.L. Donoho, Y. Tsaig, I. Drori and J.L. Starck. Sparse solution of underdetermined linear equations by stagewise orthogonal matching pursuit. 2006, preprint

[31] T. Blumensath and M.E. Davies. Gradient pursuits. IEEE Transactions on Signal Processing, Vol. 56, No. 6, pp. 2370-2382, June 2008

[32] https://www.ceremade.dauphine.fr/~peyre/numerical-tour/tours/ Voyage numérique en Matlab avec Gabriel Peyré comme prolongement du livre de Stéphane Mallat [14].

[33] Patrick L. Combettes, Fellow, IEEE, and Jean-Christophe Pesquet, Senior Member, IEEE . A Douglas-Rachford Splitting Approach to Nonsmooth Convex Variational Signal Recovery . IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 1, NO. 4, DECEMBER 2007

[34] Conférence en vidéo d'Yves Meyer sur le Compressed Sensing dans le traitement d'images.

http://www-centre-saclay.cea.fr/fr/Une-avancee-etonnante-en-imagerie-numerique-le- Compressed-Sensing-par-Yves-Meyer-Academie-des-Sciences-et-Centre-de-Mathematiques- video-du-colloque-de-l-Orme-du-18-octobre-2007

[35] Conférence d'Emmanuel Candès sur le Compressed Sensing et la reconstruction L1.

http://videolectures.net/mlss09us_candes_ocsssrl1m/

(34)

10. Annexes

10.a) Démonstration du théorème sur la faible cohérence

Stratégie générale de la démonstration

Nous allons montrer que x est la solution unique au problème (P1) si et seulement si il existe un vecteur dual π∈ℝn vérifiant les propriétés suivantes :

➢ π appartient à la co-image de UΩ ,

➢ π (t)=sgn x(t) pour t∈T

➢ ∣π(t)∣<1 pour t∈Tc

Nous considérons le vecteur candidat π=UΩUΩT(UΩTUΩT)−1z0z0 est un vecteur de taille ∣T∣ et dont les composantes sont les signes de x sur T . Sous les conditions du théorème, nous montrons alors premièrement que UΩTUΩT est inversible et donc π est bien défini, et deuxièmement que ∣π(t)∣<1 pour t∈Tc ( π (t)=sgn x(t) pour t∈T est automatique).

Nous voulons montrer qu'avec le support fixé, un vecteur dual existe avec forte probabilité en sélectionnant Ω uniformément au hasard. En suivant l'article [16], il est suffisant de montrer les propriétés désirées lorsque Ω est échantillonné en utilisant un modèle de Bernoulli.

Supposons que Ω1 de taille m est échantillonné uniformément au hasard et Ω2 est échantillonné en posant Ω2:={k:δk=1} ; où δ1,δ2,...,δn est une suite iid de variable de Bernoulli 0/1 avec Prk=1)=m

n .

Références

Documents relatifs

Dans la section 2, nous passons en revue les résultats concernant le comportement asymptotique de l’estimateur robuste de matrice de dispersion de Maronna ˆ C N dans le régime

nephrectomy ( n p 3 ) or changes in immunosuppressive regimen ( n p 12 ), we calculated viral clearance rates and generation times and estimated the loss of BKV-infected renal

If it is (a) spherical, (b) at rest and (c) sufficiently far away to count as ‘infinity’, with (d) the enclosed mass dominated by the SMBH, and finally (e) the flow is

Nombreuses) sont) les) situations) où) les) «)spécificités)») du) monde) de) l’ESS,) notamment) dans) le) cas) des) associations) régies) par) la) loi) de) 1901,) viennent)

séchée à l’étuve ou dessicateur sous vide, La recristallisation a été faite dans un mélange de CHCl 3 / EtOH, le rendement est qualitative de 50 à 70%.. 1) Nous avons mis

La Chambre du Conseil est dès lors compétente pour désigner un mandataire ad hoc si la personne morale et la personne habilitée à représenter la dite société peuvent être

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des