• Aucun résultat trouvé

Il existe aussi d’autres méthodes de décomposition et des méthodes hybrides ba- sées sur les méthodes ci-dessus que l’on ne présente pas dans ce document. Ce cha- pitre n’est qu’un aperçu global des représentations parcimonieuses. Comme discuté dans l’introduction, le dictionnaire D a une très grande influence sur la qualité de la décomposition et la parcimonie du signal. En effet, si le dictionnaire ne contient pas du tout ou très peu d’atomes adaptés aux structures présentes dans le signal, la décomposition sera mauvaise quelle que soit la méthode choisie. Réciproquement, lors de l’apprentissage d’un dictionnaire, l’efficacité de la procédure d’apprentissage pourra être impactée par la méthode de décomposition parcimonieuse choisie.

Un objectif important de cette thèse est de contribuer à répondre à la question fondamentale suivante : Comment construire un dictionnaire optimal ? Cette notion d’optimalité doit être définie par rapport à un critère. Dans cette thèse, le critère est d’obtenir la meilleure reconstruction dans les problèmes inverses notamment en traitement d’image. On évalue la pertinence des dictionnaires dans le chapitre8en étudiant leur performances de reconstruction d’images détériorées.

CHAPITRE

3

Apprentissage de Dictionnaire

Le chapitre précédent a présenté plusieurs méthodes d’estimation parcimonieuse des cœfficients de décomposition sur un dictionnaire donné. Mais au delà du critère et de l’algorithme utilisés, le choix du dictionnaire conditionne aussi la qualité et le niveau de parcimonie d’une décomposition. Dans ce chapitre, en plus de l’estimation des cœfficients de la décomposition, nous nous intéressons à la façon de construire le dictionnaire favorisant au mieux la parcimonie. Cette étape est appelée apprentissage de dictionaire, où Dictionnairy Learning (DL) en anglais.

3.1

Analyse en Composantes

Les méthodes dites d’Analyse en Composantes sont un recueil de techniques qui consiste à apprendre une base adaptée à un jeu de données selon un critère. Ces mé- thodes sont en particulier utilisées pour faire de la réduction de la dimension.

3.1.1 Analyse en Composantes Principales

L’Analyse en Composantes Principales (ACP) ou en anglais Principal Component

Analysis (PCA) [47] est un outil classique de traitement de signal qui consiste à ap- prendre une base orthonormale à partir des données. Cette méthode est généralement suivie d’une étape de réduction de la dimension de ces données. Bien que l’ACP nous donne une base orthonormale, sans lien avec la parcimonie, elle fournit une première notion de l’apprentissage de dictionnaire. Les coefficients sont obtenus par la projec- tion des données sur cette base.

Soit Y ∈ RL×N, un nuage de N points dans un espace de dimension L. L’ACP

consiste à projeter ces points sur un sous-espace à K dimensions (avec K ≤ L) choisi de façon à minimiser l’erreur de reconstruction quadratique. Soit une matrice de données centrées Y. Sa matrice de covariance empirique est Σ = 1

NYY

T∈ RL×L.

Nous voulons projeter linéairement yi ∈ RLi.e.

wi =DTyisous contrainte D

TD =I

L, (3.1)

où les vecteurs de D sont orthogonaux 2 à 2 : dTjdk = δj,k ,∀j, k. Pour reconstruire

yi on distingue deux cas :

— K = L : il s’agit d’un changement de base, et donc pas de réduction de dimen- sion, pas de perte d’information. En particulier, D est inversible et D−1 =DT. Dans ce cas Dwi =DDTyiet yi =Dwi.

— K < L, i.e. réduction de dimension, la reconstruction de yi est faite par l’approximation. ˆyi ≈ Dwi, ou encore, ˆyi ≈ DDTyi.

24 3.1. Analyse en Composantes L’ACP définit le projecteur D qui minimise l’erreur quadratique d’approximation :

D = argmin D∈RL×K 1 N Ni=1 ∥yi− DD T yi2où K < L. (3.2) Ceci revient à maximiser par rapport à D la variance DTΣD des points projetés.

On cherche ainsi à trouver les K vecteurs qui portent le maximum de variance des données. On peut montrer qu’il s’agit des K vecteurs propres associés aux K plus grandes valeurs propres de la matrice de covariance empirique Σ.

Dans l’ACP les composantes principales calculées sont estimées à partir de la ma- trice de covariance empirique. D’un point de vue probabiliste, quand la densité de distribution des données est gaussienne, l’ACP impose la contrainte d’indépendance aux statistiques d’ordre deux.

Cela est toutefois un inconvénient lorsque les données ne sont pas distribuées de façon Gaussienne. La section suivante présente une autre méthode qui relâche la contrainte d’orthogonalité et va plutôt chercher à trouver une famille de cœfficients indépendants.

3.1.2 Analyse en Composantes Indépendantes

L’ACP fournit une matrice orthogonale qui définit un ensemble de directions se- lon lesquelles les composantes sont décorrélées. Ces directions sont définies à une rotation près, et ne correspondent pas nécessairement à des composantes indépen- dantes aux ordres supérieurs à 2 lorsque les distributions sous-jacentes ne sont pas gaussiennes. L’ICA (Independent Component Analysis) [48] cherche précisément à identifier des directions indépendantes, souvent à partir d’observations non gaus- siennes qui ont au préalables été blanchies grâce à une ACP. Il s’agit alors d’identifier une matrice orthogonale (donc de rotation) telles que les composantes des don- nées projetées sur les colonnes de cette matrice soient indépendantes (et non gaus- siennes).

Une approche classique consiste à identifier des composantes minimisant leur in- formation mutuelle. Soit y une observation. On cherche une matrice orthogonale

DTtelle que les composantes de w = DTy où w = (wk)k=1,K soit indépendantes. Si

p(w) est la densité de probabilité de w, on note H(w) l’entropie différentielle d’une variable aléatoire :

H(w) =−

p(w) log p(w)dw (3.3)

On montre alors que l’information mutuelle entre ces composantes est telle que :

I(w) = Kk=1 H(wk)− H(w) = Kk=1 H(wk)− H(y) (3.4)

La quantité I(w) s’interprète comme la divergence de Kullback-Leibler entre la den- sité jointe g(w) et sa version factorisée

K

k=1

gk(wk). Il y a égalité lorsque les com-

matrice DTqui minimise I(w), c’est-à-dire qui minimise la somme des entropies in-

dividuelles des composantes wk. Cela revient à identifier les composantes les moins

gaussiennes puisque la distribution gaussienne est aussi la distribution d’entropie maximale.

Plusieurs approches ont été proposées pour résoudre ce problème [49,50], éven- tuellement en approchant l’écart à la gaussienne par la mesure de la kurtosis (mo- ments d’ordre 4). On obtient alors une factorisation de matrice impliquant une ma- trice orthogonale (donc non redondante) maximisant l’indépendance entre les co- lonnes. Ce type d’approches est particulièrement pertinent en séparation de sources.