Fonction de régularisation - Problèmes inverses

2.2 Problèmes inverses

2.2.4 Fonction de régularisation

Comme nous l’avons mentionné dans la section2.2.2, le terme de régularisation g permet de prendre en compte des caractéristiques connues des données à estimer. De manière plus générale, la fonction g peut s’écrire comme une somme de plusieurs fonctions de régularisation : (∀x ∈ RN_{) g(x) =} J X j=1 λjgj(x), (2.17)

où, pour tout j ∈ {1, . . . , J}, λj ∈ [0, +∞] est appelé paramètre de régularisation et gj: RN →]−∞, +∞]. L’utilisation de plusieurs fonctions de régularisation permet d’espérer de meilleurs résultats de reconstruction, puisque chacune d’elles permet de contraindre l’estimée à vériﬁer une caractéristique particulière.

Les paramètres de régularisation (λj)16j6J sont à ﬁxer de façon à obtenir la meilleure

qualité de reconstruction possible. Notons que ﬁxer λj = 0, pour tout j ∈ {1, . . . , J}, revient à trouver une solution xb non régularisée :

trouver xb_{∈ Argmin}

x∈RN

h(x). (2.18)

Au contraire, faire tendre λj vers +∞, pour tout j ∈ {1, . . . , J}, revient généralement à trouver une solution bx ne prenant en compte que le terme de régularisation :

trouver xb_{∈ Argmin}

x∈RN

g(x). (2.19)

Il faut donc régler les paramètres de régularisation de manière à obtenir un compromis entre le terme d’attache aux données et le terme de régularisation. En pratique, ces paramètres peuvent être réglés de manière à minimiser l’erreur entre les données originales x et leurs

estimations xb. Par exemple, on peut utiliser l’erreur quadratique moyenne (EQM) ou le

rapport signal sur bruit (RSB) déﬁnis par

EQM(bx, x) = 1 Nkbx− xk 2 _{et RSB(}_x_b_{, x}_{) = 20 log} 10 kxk kbx_{− xk} ! , (2.20)

où k · k désigne la norme euclidienne usuelle. Dans le cas où les données originales ne sont pas disponibles, on peut avoir recours à des estimateurs d’erreur [Chaux et al., 2008; Deledalle et al., 2013,2014].

Dans cette section, nous allons donner quelques exemples de fonctions de régularisation souvent rencontrés dans le domaine des problèmes inverses.

2.2.4.1 Contraintes

Le problème de minimisation variationnel (2.2) permet de prendre en compte des contraintes lorsque la fonction de régularisation g correspond à la fonction indicatrice (donnée dans la déﬁnition 2.3(viii)) d’un sous-ensemble C de RN _:

(∀x ∈ RN_{) g(x) = λ ι}

C(x) = ιC(x), (2.21) (le paramètre de régularisation λ > 0 est “absorbé” par la fonction indicatrice). Ici, C repré- sente un ensemble de contraintes, qui peut s’écrire comme une intersection de contraintes distinctes. Par exemple, on peut considérer des contraintes de type

C =nx_{∈ R}N a 6 L(x) 6 bo, (2.22)

où L: RN _{→ R}M _{et (a, b) ∈ [−∞, +∞[}M_{×] − ∞, +∞]}M1_{. Remarquons qu’en choisissant}

a= b, on peut considérer des contraintes d’égalité.

Exemple 2.1. Pour une image en niveaux de gris codée sur 8 bits, l’intensité de chaque

pixel est comprise entre 0 et 255. Ainsi, si la variable x ∈ RN _{représente une image réor-}

ganisée sous forme de vecteur, on peut utiliser la fonction de régularisation g = ι[0,255]N.

Cela correspond à la contrainte présentée ci-dessus où L est la fonction identité et, pour tout n ∈ {1, . . . , N}, (a(n)_{, b}(n)_{) = (0, 255).}

En utilisant des contraintes pour régulariser l’estimée, nous n’avons plus besoin d’optimiser le paramètre de régularisation, ce qui peut être utile dans les cas où nous n’avons pas accès aux estimateurs de type (2.20). Cependant, il faut connaître une estimation des paramètres (a, b).

1. La notation a 6 L(x) 6 b signifie que L(x) − a ∈ [0, +∞[M

et b − L(x) ∈ [0, +∞[M

2.2.4.2 Parcimonie

Un vecteur x ∈ RN _{est dit parcimonieux si la plupart de ses composantes sont (ap-} proximativement) nulles.

Certains signaux sont parcimonieux dans leur domaine d’observation, par exemple les signaux sismiques sont parcimonieux dans le domaine temporel (c.f. ﬁgure 2.2). D’autres

1 100 200 300 400 500 600 700

−0.8 −0.4 0 0.4

Figure 2.2 – Signal sismique parcimonieux.

signaux sont parcimonieux après une représentation linéaire appropriée, c’est-à-dire après avoir subi une transformation par un opérateur. Dans ce cas, on considèrera une fonction de régularisation de la forme

(∀x ∈ RN_{) g(x) =}XS s=1

gs(Fsx), (2.23)

où, pour tout s ∈ {1, . . . , S}, Fs ∈ RMs×N et gs: RMs →] − ∞, +∞]. Ici, l’objet x ∈ RN est supposé parcimonieux après application des matrices (Fs)16s6S, c’est-à-dire que, pour

tout s ∈ {1, . . . , S}, Fsx a un nombre important de coeﬃcients égaux à zéros.

Exemples de pénalisations renforçant la parcimonie : Il existe plusieurs choix de fonctions gs permettant de promouvoir la parcimonie d’un objet estimé. Nous en donne- rons ici quelques exemples. Intuitivement, la fonction permettant de favoriser au mieux la parcimonie d’un vecteur x ∈ RN _{est la “pseudo-norme” ℓ}

0 [Donoho et al.,1995] qui compte

le nombre de coeﬃcients non nuls de x : (∀x = (x(n)₎ 16n6N ∈ RN) ℓ0(x) = kxk0 = N X n=1 χ(x(n)), (2.24)

où la fonction χ: R → {0, 1} est déﬁnie par (∀x ∈ R) χ(x) =    0 si x = 0, 1 sinon. (2.25)

De façon plus générale, les fonctions ℓα [Bouman et Sauer,1996], pour 0 6 α < 1, sont des fonctions de régularisation permettant de promouvoir la parcimonie d’un objet :

(∀x = (x(n)₎ 16n6N ∈ RN) ℓα(x) = kxkα = N X n=1 |x(n)_|α !1/α , (2.26)

quand α 6= 0. Cependant, ces fonctions ne sont ni différentiables, ni convexes. Elles peuvent donc se révéler difficiles à optimiser en pratique. Une façon usuelle de réduire la difficulté du problème est d’utiliser la norme ℓ1 [Bect et al., 2004; Donoho, 2006; Figueiredo et al.,

2007] comme approximation convexe des pénalisations ci-dessus : (∀x = (x(n)₎ 16n6N ∈ RN) ℓ1(x) = kxk1 = N X n=1 |x(n)|. (2.27) La figure 2.3 représente différentes fonctions ℓα, pour 0 6 α 6 1. Nous pouvons voir que plus α tend vers 0, moins les coefficient proches de 0 seront pénalisés.

−20 −1.5 −1 −0.5 0 0.5 1 1.5 2 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x kx kα α= 1 α= 1/2 α= 1/3 α= 1/5 α= 1/10 α= 0

Figure 2.3 – Fonctions ℓα pour α ∈ {0, 1/10, 1/5, 1/3, 1/2, 1}.

Bien que l’utilisation de la norme ℓ1 permette de s’aﬀranchir de la non-convexité de la

régularisation, cette fonction est non diﬀérentiable. Dans certains cas pratiques, il peut être plus avantageux d’utiliser des approximations lisses de la fonction ℓ1, comme par exemple la

fonction de Huber [Huber,1981] déﬁnie par x = (x(n)₎

16n6N ∈ RN 7→ g(x) =PNn=1ϕδ(x(n)), où δ > 0 et (∀x ∈ R) ϕδ(x) =    x2 2δ si |x| 6 δ, |x| − δ 2 sinon. (2.28) Enfin, des fonctions de type quotient ou différence de normes peuvent aussi être utilisées pour favoriser la parcimonie de données. Ces fonction ne sont, généralement, ni convexes ni différentiables. Dans le chapitre6, nous définirons une approximation lisse mais non convexe de la pénalisation ℓ1/ℓ2, et nous l’utiliserons dans une application de déconvolution aveugle

Variation totale : Une des fonctions de régularisation les plus utilisées en traitement des images est la Variation Totale introduite dans [Rudin et al., 1992] pour des données continues. La version discrète proposée notamment dans [Chambolle,2004] est déﬁnie par : Définition 2.1. Soit x ∈ RN1×N2 une matrice modélisant une image de dimension N =

N1× N2. La variation totale (TV) de x est donnée par

g(x) = tv(x) = N1 X i=1 N2 X j=1 q ([∇vx](i,j))2+ ([∇hx](i,j))2, (2.29)

où ∇vx ∈ RN1×N2 et ∇hx ∈ RN1×N2 sont les gradients verticaux et horizontaux de x = (x(i,j)₎

16i6N1, 16j6N2 définis par

(∀(i, j) ∈ {1, . . . , N1} × {1, . . . , N2}) [∇vx](i,j) =      x(i+1,j)_{− x}(i,j) si i < N1, 0 sinon, [∇hx](i,j)=      x(i,j+1)_{− x}(i,j) si j < N2, 0 sinon.

Remarque 2.3. Dans la définition 2.1 nous avons fait l’hypothèse que les coefficients se trouvant sur les bords droit et inférieur de l’image sont égaux à 0. Cependant, d’autres choix sont possibles pour la valeur de ces coefficients (par exemple, l’hypothèse de périodicité ou de symétrie miroir).

Un exemple de gradients verticaux et horizontaux d’une image en niveaux de gris est donné dans la ﬁgure 2.4.

Notons que l’équation (2.29) peut se réécrire de la façon suivante : (∀x ∈ RN1×N2) g(x) =

n=1

gn(Fnx), (2.30) où N = N1× N2, et, pour tout n ∈ {1, . . . , N}, Fn = [∇v,∇h]⊤. Comme il l’est souligné dans [Chouzenoux et al.,2013], diverses fonctions (gn)16n6N peuvent être considérées pour

pénaliser plus ou moins la parcimonie des gradients de l’image.

La variation totale a été généralisée à l’emploi de gradients non locaux. Cette méthode a été introduite dans [Gilboa et Osher,2008], et dans ce cas, on parle de Variation Totale Non

Locale (NLTV). La principale diﬀérence entre la TV et la NLTV réside dans la déﬁnition

des voisins d’un pixel. Pour la TV, les voisins d’un pixel d’indice (i, j) ∈ {2, . . . , N1− 1} ×

{2, . . . , N2− 1} sont les pixels d’indices

(i − 1, j) (i + 1, j) (i, j − 1) (i, j + 1).

(a) (b) (c)

Figure 2.4 – (a) Image originale clock de dimension N1 = N2 = 256, (b) gradients verticaux, et (c) gradients horizontaux.

Tandis que pour la NLTV, les voisins d’un pixel sont déﬁnis selon leur degré de simila- rité. Une illustration est donnée dans la ﬁgure 2.5. Ainsi, on peut utiliser la fonction de régularisation (2.30), avec, pour tout n ∈ {1, . . . , N}, Fn = [ω1nF1n, . . . , ωnMnFMnn]⊤ où Mn détermine le nombre d’orientations considérées au n-ème pixel et les (ωm

n)16m6Mn sont des

poids à ﬁxer dans une phase de prétraitement. Il a été montré expérimentalement que cette régularisation permettait d’améliorer les résultats de reconstruction dans certains cas de ﬁgure [Chierchia et al., 2013a; Peyré, 2011;Werlberger et al.,2010].

Opérateurs de trames : On considère le cas où la fonction de régularisation s’écrit sous la forme (2.23), où pour tout s ∈ {1, . . . , S}, Fs = F est un opérateur de trame déﬁni par

F: RN _{→ R}K: x 7→ Fx = (hx, eki)16k6K, (2.31)

où (ek)16k6K est un dictionnaire de signaux de RN constituant une trame [Mallat, 2009,

Chap. 5], i.e., vériﬁant la condition suivante :

(∃(µ, µ) ∈]0, +∞[2_{) tel que (∀x ∈ R}N_{) µkxk}2 ₆XK

k=1

|hx, eki|2 6µkxk2. (2.32) Notons que dans RN_{, l’existence de la borne supérieure est toujours garantie, ce qui n’est} pas toujours le cas en dimension inﬁnie. Lorsque µ = µ, on dit que la trame est ajustée. L’adjoint de l’opérateur de trame est donné par

F∗: RK _{→ R}N: y = (y(k))16k6K 7→ F∗y=

k=1

y(k)ek. (2.33) Soit x ∈ RN _{un signal donné, on notera alors y = Fx ses coeﬃcient de trames.}

(a) (b)

Figure 2.5 – Détail de l’image clock. (a) Voisins locaux (carrés bleus) verticaux et ho-

rizontaux d’un pixel donné (carré rouge). (b) Voisins non locaux (carrés bleus) du même pixel (carré rouge). Dans le deuxième cas, les voisins sont sélectionnés de façon à ce que l’intensité des pixels bleus soit similaire à l’intensité du pixel rouge.

Des cas particuliers des opérateurs de trames sont les opérateurs d’ondelettes. Un exemple de transformée en ondelettes, utilisant une ondelette de Haar est donné dans la figure 2.6. Plus précisément, la figure2.6(b) représente une décomposition sur une base d’ondelettes de l’image clock (figure 2.6(a)) sur un niveau de résolution. Les coefficients de cette décomposition se trouvant dans la partie supérieure gauche sont appelés coeffi-

cients d’approximations de la ﬁgure 2.6(a), tandis que le reste de l’image est composée de

coefficients de détails. Ce sont les coeﬃcients de détails qui sont les plus parcimonieux. La

ﬁgure 2.6(c) représente aussi une décomposition en ondelettes de l’image mais sur deux niveaux de résolution, i.e. la décomposition est itérée une seconde fois sur les coeﬃcients d’approximations.

Notons que l’approche que nous avons décrite ici s’appelle approche à l’analyse, c’est à dire que l’on cherche à estimer directement l’image via le problème variationnel :

trouver bx_{∈ Argmin} x∈RN

h(x) + g(Fx). (2.34)

Nous verrons un exemple de cette approche dans le chapitre 4. Une autre façon d’utiliser des trames est de considérer une approche à la synthèse. Dans ce cas, on cherche à estimer les coeﬃcients de trame en résolvant le problème variationnel :

trouver by_{∈ Argmin} y∈RN

(a) (b) (c)

Figure 2.6 – (a) Image originale clock. Décomposition sur une base d’ondelettes sur 1

niveau de résolution (b) et sur 2 niveaux de résolution (c) avec une ondelette de Haar.

où by = Fbx sont les coeﬃcients de trame de l’image estimée. L’image est ensuite déduite en utilisant l’adjoint de l’opérateur de trame bx= F∗by. Un exemple de cette approche sera présenté dans le chapitre 6.

2.3 Outils d’analyse variationnelle

Dans le document Algorithmes d'optimisation en grande dimension : applications à la résolution de problèmes inverses (Page 35-42)