Matrices aléatoires et norme L1pour le compressed sensing

(1)

Séminaire pour le Master 2 de Statistique Mathématique

Matrices aléatoires et norme L1 pour le compressed sensing

présenté par Fabrice DURAND

Encadrant : Rémi GRIBONVAL, directeur de recherche INRIA

Année 2012-2013

(2)

Exercice : qui est qui ?

Dans le désordre :

➢ Terence Tao

➢ Emmanuel J. Candès

➢ David Donoho

➢ Joel A. Tropp

➢ Justin Romberg

➢ Richard G. Baraniuk

(3)

Table des matières

1.Introduction...4

1.a) A l'origine : le théorème de l’échantillonnage de Shannon...4

1.b) Pourquoi aller plus loin ?...4

1.c) Nature du problème...5

1.d)Un peu d'histoire...5

2.Idées générales du compressed sensing...7

2.a)Notion de parcimonie...7

2.b)Notion d'échantillonnage « incohérent »...8

2.c)Un problème d'optimisation sous-contrainte...9

2.d)Applications...11

3.Conséquences de la propriété d'isométrie restreinte (RIP)...12

3.a)Définition de la propriété d'isométrie restreinte...12

3.b)Reconstruction en situation non bruitée...13

3.c)Reconstruction en situation bruitée...14

4.Un exemple de matrices aléatoires RIP...15

4.a)Les matrices aléatoires sous-gaussiennes ...15

4.b)Autres choix possibles...16

5.Les algorithmes de reconstruction...17

6.Conclusion et ouvertures...17

7.Bibliographie...18

8.Annexe : démonstration des deux théorèmes de Candès...19

(4)

1. Introduction

1.a) A l'origine : le théorème de l’échantillonnage de Shannon

Claude Shannon, ingénieur électricien et mathématicien américain, est considéré comme un des pères de la théorie de l'information. Son nom est associé au célèbre théorème de l'échantillonnage également connu comme critère de Shannon-Nyquist, affirmant que si un signal analogique est échantillonné avec une fréquence F_e=1/T_e au mois égale à deux fois la fréquence maximale du signal 2F_max , alors on peut reconstruire sans perte d'informations le signal analogique à partir des échantillons. En d'autre termes, un signal échantillonné à une fréquence prescrite par Shannon contient toute l'information du signal original et prend beaucoup moins de place.

Démonstration rapide : une démonstration possible repose sur la théorie des distributions. On modélise l'échantillonnage à la période T_e du signal analogique par une multiplication par un peigne d'impulsions de Dirac de période T_e et de « poids » 1. Ceci se transpose dans le domaine de Fourier par une convolution du spectre du signal avec un peigne de Dirac de période F_e=1/T_e et de « poids » F_e . Le spectre se trouve donc périodisé avec une période F_e . Pour éviter le recouvrement de spectre, on doit imposer F_max inférieur à

F_e/2 (faire un dessin). On peut alors reconstruire le signal initial en appliquant un filtre passe bas idéal modélisé par une porte. Dans le domaine temporel, ce filtre se traduit par une interpolation des échantillons avec des sinus cardinaux.

1.b) Pourquoi aller plus loin ?

Ce théorème de l'échantillonnage est à la base de la conception de convertisseurs analogique- numériques (CAN) gravés sur silicium, et omniprésents dans les systèmes de télécommunications. Il offre un avantage considérable permettant de stocker et transporter des informations sous forme compressée, occupant beaucoup moins de place qu'un signal à temps continu. Cependant, aujourd'hui, avec des besoins de stocker et transmettre des volumes d'informations de plus en plus importants, cette fréquence d'échantillonnage minimale

F_e≥2F_max est une limite face à des besoins de compresser encore plus l'information et surtout plus rapidement.

(5)

1.c) Nature du problème

La question soulevée est donc de savoir si l'on peut échantillonner un signal à une fréquence largement inférieure à la fréquence minimale prescrite par Shannon. Dans le cas d'un signal numérisé (enregistrement sonore, image ou vidéo numérique), que l'on peut toujours représenter comme un vecteur x à n composantes, la question revient à savoir si l'on peut reconstruire parfaitement x à partir d'une observation y=Φx , où y a un nombre de composantes m très inférieur à n (au delà des limites de Shannon), et où Φ est une matrice de taille m*n modélisant un sous-échantillonnage et vérifiant certaines propriétés. Nous avons ici affaire à un système sous-déterminé ou à un problème dit mal-posé, car on dispose de beaucoup moins d'observations que de données, ou dit autrement on a affaire à système linéaire avec beaucoup moins d'équations que d'inconnues. Généralement, un tel système possède soit zéro soit une infinité de solutions. D'où l'étonnement que peut engendrer la tentative de résoudre un tel problème. Or il se trouve que sous certaines conditions, on peut reconstruire parfaitement le signal x à partir de l’observation y.

1.d) Un peu d'histoire

Une anecdote [3] :

Emmanuel Candès, ingénieur français de l'Ecole Polytechnique et docteur de l'Université Stanford sous la supervision de David Donoho, est professeur de mathématiques et statistique dans cette même université au cœur de la Silicon Valley au sud de San Francisco. En 2004, alors qu'Emmanuel Candès travaillait avec une équipe de radiologues sur l'Imagerie par Résonance Magnétique (IRM), il a réussi à reconstruire une image fantôme, parfaitement à partir d'une image sous-échantillonnée (c'est à dire ne respectant pas le critère de Shannon- Nyquist). Ses partenaires ont d'abord pensé qu'il avait truqué ses résultats. Il a alors commencé par chercher des explications et a fait des avancées pour démontrer sa découverte, mais restait bloqué à un point particulier. Il a alors décidé d'en parler à Terence Tao, mathématicien médaillé Fields en 2006 et actuellement professeur de mathématiques à l'Université de Californie à Los Angeles (UCLA). En allant chercher leurs enfants, qui fréquentaient la même école, Candès a parlé à Tao de cette reconstruction trop belle pour être vraie. Tao a d'abord réagi en mathématicien en cherchant un contre exemple pour invalider la

(6)

théorie de Candès, puis ne trouvant aucun contre exemple, il a écouté plus attentivement les raisonnements de Candès et a alors pensé que ce dernier pouvait avoir raison. En quelques jours, il l'a aidé à surmonter son obstacle et les deux ont commencé à dresser les fondements de la théorie générale du compressed sensing. Cette période constitue en quelque sorte un big- bang de la théorie du compressed sensing qui connaît depuis cette année de nombreuses évolutions et variantes et s'exprime dans de nombreux domaines d'applications explorés par les ingénieurs, médecins et scientifiques de tous bords.

Notons que certaines idées du compressed sensing étaient déjà présenties depuis quelques décennies dans le domaine de la sismologie [3].

(7)

2. Idées générales du compressed sensing

2.a) Notion de parcimonie

Une idée du compressed sensing (ou compressive sensing ou encore compressive sampling) est d'échantillonner un signal (enregistrement sonore, image numérique ou vidéo) à une fréquence significativement moins importante que celle prescrite par Shannon, de façon non régulière et en exploitant son caractère parcimonieux.

Définition : Un vecteur x∈ℝⁿ est dit k-parcimonieux avec k<n s'il contient k composantes non nulles et toutes les autres composantes sont nulles.

On parlera alors de caractère parcimonieux d'un signal s'il admet une représentation parcimonieuse dans une certaine base.

En réalité, le caractère parcimonieux des signaux est déjà exploité dans les phases de compression, survenant après l'acquisition du signal échantillonné. Il s'agit de représenter le signal dans une certaine base (ou dictionnaire) dans laquelle il se résume à un nombre limité de coefficients non nuls. C'est ainsi que la base de Fourier permet d'exprimer un signal comme somme de sinusoïdes à différentes fréquences. De même, les bases à partir d'ondelettes permettent d'obtenir une représentation du signal comme somme d'ondelettes localisées à la fois dans le domaine fréquentiel et dans le domaine temporel (ou spatial). Cette dernière décomposition est utilisée pour la représentation des images suivant le standard JPEG2000.

Les deux étapes successives d'échantillonnage à la fréquence de Shannon puis de compression dans une base adaptée sont finalement coûteuse en temps pour ne retenir que quelques coefficients représentatifs. L'idée novatrice du compressed sensing est d'effectuer ces deux opérations simultanément, c'est-à-dire échantillonner et compresser en même temps, grâce au caractère parcimonieux.

(8)

2.b) Notion d'échantillonnage « incohérent »

Notons x∈ℝⁿ un signal , Ψ∈ℝ^n×n la matrice de la base dans laquelle x a la meilleure représentation parcimonieuse, et S∈ℝⁿ la meilleure représentation parcimonieuse de x dans la base Ψ . On a donc x=ΨS

Notons encore Φ∈ℝ^m×n une matrice d'échantillonnage ou de projection permettant de sélectionner seulement m observations rangées dans un vecteur y∈ℝ^m avec m≪n . On a alors y=Φx=Φ ΨS=ΘS avec Θ=Φ Ψ .

Fig. 1 : illustration de l'échantillonnage compressé.

Fig. 2 :

Illustration dans le cas particulier où x est déjà 3-parcimonieux ( Ψ=I , x=S et Θ=Φ )

La question est donc de savoir à quelles conditions on peut reconstruire le signal inconnu uniquement à partir de l’observation y est de la matrice rectangulaire de projection Φ .

On peut montrer [5] qu'il est nécessaire d'avoir une faible « cohérence » entre les matrices Φ et Ψ dans le sens suivant :

(9)

Définition : La cohérence entre la matrice de projection Φ et la matrice de parcimonie Ψ est définie par [6]: μ (Φ,Ψ)=

√

^{n max}

1≤k , j≤n

∣

^(Φj,Ψ_k)

∣

Remarque : Elle mesure donc la plus grande corrélation entre deux éléments (vecteurs colonnes) de Φ et Ψ . Une conséquence de l'inégalité de Cauchy-Schwarts est que

μ (Φ,Ψ)∈[1,

√

ⁿ^] . Plus cette cohérence est faible, donc proche de 1, meilleure ce sera [5].

Cette notion de faible cohérence constitue un critère important pour le choix de Φ en tant que une matrice aléatoire, voir détails plus loin.

2.c) Un problème d'optimisation sous-contrainte

Pour simplifier l'exposé, on se place maintenant pour cette section dans une telle situation où x∈ℝⁿ est k-parcimonieux. Et on va montrer plus loin que si m est légèrement supérieur (dans un sens à préciser) au nombre k de composantes non nulles dans x et si Φ∈ℝ^m×n satisfait certaines propriétés, alors on peut reconstruire parfaitement x en résolvant le problème d'optimisation sous contrainte suivant :

min

̃x∈ℝⁿ

∥̃x∥ sachant que Φ ̃x=y (P1)

Dans une situation plus réaliste où l'observation y est bruitée (bruit de quantification, bruit thermique des capteurs, etc...), le modèle de l'observation devient :

y=Φx+z où z est un terme de bruit inconnu. Le problème à résoudre devient :

min

̃x∈ℝⁿ

∥̃x∥ sachant que ∥y−Φ ̃x∥≤ϵ (P2)

Une question cruciale arrivant à cette étape est de savoir quelle norme ∥.∥ il convient d'utiliser pour résoudre les problèmes (P1) et (P2).

(10)

Une idée naturelle est de choisir la norme dite l₀ qui compte le nombre de composantes non- nulles dans un vecteur. Il s'agit en fait d'une pseudo-norme que l'on peut formaliser ainsi :

∀x∈ℝⁿ,∥x∥l₀=card(supp x) ou encore ∀x∈ℝⁿ,∥x∥_l₀=

∑

i=1 n

x_i⁰ en posant 0⁰=0 Cette norme a l'avantage de conduire à la solution exacte pour (P1) dès que m≥k+1 (voir

[4]) mais a l'inconvénient d'être très coûteuse en complexité algorithmique. En effet, la résolution de ce problème conduit à tester les C_n^k combinaisons possibles de sous-espaces de ℝⁿ passant par k axes de coordonnées parmi les n . Cette norme n'a donc pas été retenue.

Une autre idée naïve est de choisir la norme euclidienne l₂ . Malheureusement, résoudre le problème de minimisation (P1) ou (P2) par cette norme ne conduit presque jamais à une solution k-parcimonieuse. Voir schéma ci-dessous pour des considérations géométriques en dimension 3.

Finalement, la norme qui va s'avérer efficace est la norme l₁ . En effet, cette norme a l'avantage d'être convexe comme la norme l₂ et la boule unité dans cette norme est un polytope (au sens américain) défini comme une enveloppe convexe d'un polyèdre, et en grande dimension, il devient tellement pointu que la probabilité que le sous-espace passant passant par la bonne solution x soit tangent à une arrête ou une face devient très faible. C'est ce que Richard Baraniuk appelle le « miracle de la haute dimension » [3]. Voir figure 3.

Fig. 3 : illustration en dimension 3 des avantages et inconvénients de l'utilisation des normes (a) l₀ , (b) l₂ et (c) l₁ .

(11)

De plus, l'utilisation de la norme l₁ conduit à un problème d'optimisation convexe qui peut se réduire à un programme linéaire connu sous le nom de basis pursuit [11], dont les fondements mathématiques sont connus depuis quelques décennies.

Pour conclure, il convient de s'intéresser également au cas où x=S est seulement « proche » d'un signal k-parcimonieux.

2.d) Applications

Il existe une multitude d'applications de la théorie du compressed sensing, comme la célèbre

« Single pixel camera » conçue par Richard Baraniuk [3], au convertisseurs analogique- numérique (CAN) plus rapides intégrés dans les systèmes de communication, en passant par de nombreux domaines du traitement de l'image (IRM, imagerie ultra-sonore, astronomie).

(12)

3. Conséquences de la propriété d'isométrie restreinte (RIP)

3.a) Définition de la propriété d'isométrie restreinte

Un premier théorème d'unicité [1]: Supposons que Φ∈ℝ^m×n est telle que chaque sous- matrice extraite en sélectionnant exactement 2k colonnes soit de rang 2k , alors un vecteur k-parcimonieux x∈ℝⁿ peut être reconstruit de manière unique à partir de l'observation y=Φx .

Démonstration : Supposons par l'absurde qu'il existe au moins deux vecteurs k-parcimonieux x et x ' tels que Φx=Φx ' . Alors Φ (x−x ')=0 . Comme x−x ' est 2k- parcimonieux, alors 2k colonnes de Φ sont linéairement dépendantes. Contradiction.

Ainsi, une matrice de projection Φ∈ℝ^m×n avec m≪n n'est clairement pas de rang plein.

Mais on peut lui imposer que n’importe quelle sous-matrice extraite en choisissant un certain nombre fixé de colonnes soit de rang plein. Ceci permet alors de résoudre le problème d'optimisation sous-contrainte décrit ci-dessus. Une propriété étroitement liée à cette condition est la propriété d'isométrie restreinte décrite ci-dessous :

Définition : On dit qu'une matrice Φ∈ℝ^m×n satisfait la propriété d'isométrie restreinte d'ordre k∈ℕ et de constante d'isométrie δ_k∈]0,1[ , et on notera que Φ est

RIP(k ,δ_k) , si pour tout signal k-parcimonieux, soit pour tout signal x∈{u∈ℝⁿ:card(supp u)=k} , on a : (1−δk)∥x∥l2₂

≤∥Φx∥l2₂

≤(1+δk)∥x∥l2₂

Remarques :

➢ Cela veut dire que la matrice Φ doit à peu près préserver les longueurs (au sens de la norme euclidienne) de ces vecteurs k-parcimonieux. Autrement dit, on souhaite que les valeurs singulières de Φ soient comprises dans un petit intervalle autour de 1.

➢ Cette définition impose bien à chaque matrice extraite en sélectionnant k colonnes, d'être de rang k .

➢ La constante d'isométrie restreinte δ_k∈]0,1[ est donc définie comme le plus petit nombre tel que cet encadrement reste vrai pour tout vecteur k-parcimonieux x .

(13)

Une variante du premier théorème : Si Φ∈ℝ^m×n est RIP(2k,δ_2k) et x∈ℝⁿ est k- parcimonieux, alors x est solution unique au problème (P1).

Démonstration : Notons x ' une autre solution possible de (P1). Alors y=Φx=Φx ' . Mais comme x−x ' est 2k-parcimonieux et Φ∈ℝ^m×n est RIP(2k,δ_2k) , on obtient :

(1−δ_2k)∥x−x '∥_l

2

2≤∥Φx−Φx '∥_l

2

2≤∥y−y∥_l

2

2=0 . Enfin comme 1−δ_2k>0 , on conclut que x=x ' .

Remarque: les notions d'isométrie restreinte pour Φ et de faible cohérence entre Φ et Ψ s'avèrent être combinaison gagnante pour le compressed sensing.

3.b) Reconstruction en situation non bruitée

Théorème 1 (Noiseless recovery, Candès, 2008, [2]) :

Supposons que δ_2k<

√

2−1 . Alors la solution x^∗ au problème (P1) vérifie :

∥x^∗−x∥_l₁≤C₀∥x−x_k∥_l₁

et

∥x^∗−x∥_l

2≤C₀k⁻¹^/²∥x−x_k∥_l

1

où :

x_k désigne la meilleure représentation k-parcimonieuse de x , c'est-à-dire que x_k est le vecteur x où sont conservées les k plus grandes composantes (en valeur absolue et au mêmes emplacements) de x et toutes les autres sont composantes sont fixées à zéro.

C₀ est une constante explicitée dans la démonstration en annexe.

Remarque : Dans le cas particulier où x est k-parcimonieux, la reconstruction est exacte.

(14)

3.c) Reconstruction en situation bruitée

Théorème 2 (Noisy recovery, Candès, 2008, [2]) :

Supposons que δ_2k<

√

²⁻¹ ^et ^∥z∥l2≤ϵ . Alors la solution x^∗ au problème (P2) vérifie :

∥x^∗−x∥l₂≤C0k^−1/²∥x−xk∥_l

1+C1ϵ

avec la même constante C₀ que dans le cas non bruité, et C₁ explicité dans la démonstration en annexe.

Remarques :

➢Les constantes C₀ et C₁ sont assez petites.

➢En revenant au cas non bruité, ϵ=0 , le théorème 2 implique immédiatement le deuxième résultat du théorème 1.

(15)

4. Un exemple de matrices aléatoires RIP

Il existe différents types de matrices aléatoires Φ∈ℝ^m×n dont on peut montrer qu'elles satisfont avec forte probabilité la propriété d'isométrie restreinte [6][7]. En voici un premier exemple.

4.a) Les matrices aléatoires sous-gaussiennes

Definitions (voir cnx.org):

Une variable aléatoire X est dite sous-gaussienne s'il existe une constante c>0 telle que

∀t∈ℝ, E(exp(Xt))≤exp(c²t²/2) . On note alors X∼Sub(c²)

Une matrice aléatoires Φ∈ℝ^n×m est dite sous-gaussienne si ses composantes Φ_{i , j} sont iid et sous-gaussiennes avec Φ_{i , j}∼Sub(1/m) .

On peut montrer que si Φ∈ℝ^m×n est sous-gaussienne, alors pour toute matrice orthonormale de parcimonie Ψ∈ℝ^n×n , Θ=Φ Ψ est aussi sous-gaussienne.

Elle présente également des avantages et inconvénients :

Avantages : Elle correspond à une stratégie d'échantillonnage très générale indépendante de la base de parcimonie Ψ et on peut aussi montrer [7,10] qu'elle vérifie la propriété d'isométrie restreinte

RIP(k ,δ_k) avec forte probabilité, dès lors que m≥C^ste 1

δ²kln(n k) .

Inconvénients : En pratique, elle n'est pas réellement aléatoire, mais pseudo-aléatoire, construite à partir de quelques valeurs initiales (ce qui présente donc l'avantage de prendre très peu de place). La complexité algorithmique de sa construction est élevée, de l’ordre de m×n . Elle est donc inadaptée dans le cas de signaux volumineux comme des images ou des vidéos, la reconstruction étant très lente.

(16)

4.b) Autres choix possibles

On peut trouver un « catalogue » [6] de matrices aléatoires vérifiant la propriété d'isométrie restreinte avec forte probabilité, et faible cohérence avec la matrice de parcimonie, dont on peut recenser pour chacune : la complexité algorithmique de leur construction , l'ordre de grandeur de m en fonction de k et à partir duquel la RIP est vérifiée avec forte probabilité, les avantages et inconvénients et leur utilité dans telle ou telle application. Certaines sont construites à partir de matrices de Fourier et exploitent le fait que Fourier diagonalise les matrices circulantes.

5. Les algorithmes de reconstruction

On trouve dans la littérature de nombreuses techniques de reconstruction par résolution des problèmes (P1) et (P2), avec des spécificité différentes en termes de rapidité, précision [3] :

➢ Basis Pursuit

➢ Orthogonal Matching Pursuit (OMP)

➢ Regularized OMP

➢ Stagewise OMP

(17)

6. Conclusion et ouvertures

Nous avons essentiellement abordé la reconstruction dans le cas où la matrice de projection est RIP.

Cependant il existe des théories récentes, s'affranchissant de cette caractéristique. D'autres approches efficaces exploitent:

➢ la description du signal comme un processus stochastique [voir référence dans 6]

➢ la théorie des graphes [voir référence dans 6]

➢ la projection de polytopes [voir référence dans 6]

➢ les propriétés du noyau de la matrice de projection [voir référence dans 6]

➢ les propriétés d'isotropie et d'incohérence [8]

La théorie du compressed sensing est très riche et connaît un essor formidable depuis le « big- bang » de 2004-2005. Elle trouve des application très variées dans tous les domaines : communications sans fil, stockage de données, traitement d'image, acoustique...

(18)

7. Bibliographie

[1] Conférence de Terence Tao en 2008 sur le compressed sensing en sept vidéos de neuf minutes sur https://www.youtube.com/watch?v=i2aY7tZ5S7U

[2] Emmanuel J. Candès ,The Restricted Isometry Property and Its Implications for Compressed Sensing, 2008

[3] Magazine « What's Happening in the Mathematical Sciences », article « Compressed Sensing makes every pixel count », (2007?)

[4] Richard G. Baraniuk, Compressive Sensing, lecture NOTES, IEEE Signal Processing Magazine, July 2007

[5] D.L. Donoho and X. Huo, Uncertainty principles and ideal atomic decomposition, IEEE Trans. Inform. Theory, vol 47 no 7 pp 2845-2862, Nov. 2001

[6] Laurant Jacques and Pierre Vandergheynst, Compressive Sensing : « When sparsity meets sampling », February 17, 2010

[7] R. Baraniuk, M. Davenport, R. DeVore aand M. Wakin (2008), A simple proof of the restricted isometry property for random matrices.

[8] Emmanuel J. Candès and Yaniv Plan, A probabilistic and RIPless Theory of Compressed Sensing, November 2010, Revised June 2011

[9] http://dsp.rice.edu/cs (liste de tuorials et dernières parutions sur le sujet mise à jour par la Rice Univerity)

[10] cnx.org : projet de partage de connaissances, initié par Richard Baraniuk, Rice Univerity [11] Shaobing Chen and David Donoho, Basis Pursuit

(19)

(20)

(21)

(22)

(23)

(24)

(25)