Mod`eles convexes et algorithmes d’optimisation en imagerie.

(1)

Mod` eles convexes et algorithmes d’optimisation en imagerie.

Pierre Weiss.

April 21, 2011

(2)

III.1/ Th´eorie de la complexit´e en optimisation convexe.

Applications ` a l’imagerie.

(3)

Plan de la partie

1. El´ ements d’analyse convexe dans

Rⁿ

.

2. Quelques r´ esultats en th´ eorie de la complexit´ e.

3. Algorithmes efficaces optimaux dans le cas diff´ erentiable et

non diff´ erentiable.

(4)

Quelques r´ ef´ erences

1. T. Rockafellar Convex Analysis 1970.

2. B. Polyak Introduction to optimization, 1987.

3. D. Bertsekas Nonlinear Programming, 1999.

4. Y. Nesterov Introductory lectures on optimization, 2003.

5. A. Juditsky, cours en ligne optimisation, (ENSIMAG).

6. Bonnans, Gilbert, Lemar´ echal, Sagastiz` abal, Numerical

optimization, 2006.

(5)

Elements d’analyse convexe

Notations :

On travaille dans

Rⁿ

, n ∈

N

avec :

•

Un produit scalaire h·, ·i. A moins que ce ne soit sp´ ecifi´ e, il correspond au produit scalaire usuel.

•

On munit l’espace d’une norme : kxk =

p

hx, xi.

(6)

Elements d’analyse convexe

Dans tout l’expos´ e, nous nous int´ eressons ` a des fonctions : f :

Rⁿ

→

R

∪ {+∞}.

D´ efinition (domaine d’une fonction) :

dom(f ) := {x ∈

Rⁿ

, f (x) < +∞}.

On suppose syst´ ematiquement que dom(f ) 6= ∅.

Int´ erˆ et (l’un d’eux) :

x∈

inf

Rⁿ

f (x) = inf

x∈dom(f)

f (x)

Les probl` emes contraints s’´ ecrivent indiff´ eremment des

probl` emes non contraints.

(7)

Elements d’analyse convexe

D´ efinition (fonction convexe) : f est dite convexe si :

1. dom(f) est convexe.

2. f est convexe sur dom(f), ∀(x

₁

, x

2

) ∈

Rⁿ

×

Rⁿ

, ∀α ∈ [0, 1], f(αx

1

+ (1 − α)x

2

) ≤ αf(x

1

) + (1 − α)f (x

2

).

Th´ eor` eme :

Toute fonction f convexe en dimension finie est continue sur

int(dom(f)).

(8)

Elements d’analyse convexe

D´ efinition (´ epigraphe) :

epi(f) = {(x, t) ∈ dom(f ) ×

R, t

≥ f (x)}.

Th´ eor` eme :

f est convexe si et seulement si son ´ epigraphe est convexe.

(Sch´ ema ?)

(9)

Elements d’analyse convexe

Un probl` eme :

Bien qu’une fonction convexe soit continue sur int(dom(f )), elle peut avoir un comportement complexe sur le bord.

Exemple :

f (x, y) =







0 si x

²

+ y

²

< 1 φ(x, y) ≥ 0 si x

²

+ y

²

= 1 +∞ si x

²

+ y

²

> 1

Minimisation : On suppose g continue sur

R²

et on veut trouver :

(x,y)∈

min

R²

f (x, y) + g(x, y)

Si g n’atteint pas son minimum sur le disque, il n’y a pas

d’autre choix que d’explorer exhaustivement l’ensemble

{(x, y) ∈

R²

, x

²

+ y

²

= 1} !

(10)

Elements d’analyse convexe

D´ efinition (fonction convexe ferm´ ee) :

Une fonction convexe est dite ferm´ ee ou semi-continue inf´ erieurement (s.c.i.) si epi(f ) est ferm´ e.

Exemples 1D :

Voir tableau...

(11)

Elements d’analyse convexe

D´ efinition (sous-diff´ erentiel) : Soit f :

Rⁿ

→

R

∪ {+∞}

convexe s.c.i. Le sous-diff´ erentiel de f en x ∈ dom(f ) est d´ efini par :

∂f(x) = {η ∈

Rⁿ

, ∀y ∈

Rⁿ

, f (y) ≥ f (x) + hη, y − xi}.

Figure: Sous-diff´erentiel.

(12)

Elements d’analyse convexe

Propri´ et´ e 1 : Si f est diff´ erentiable en x

0

, alors

∂f(x

₀

) = {∇f(x

₀

)}.

Propri´ et´ e 2 : Le sous-diff´ erentiel est non vide, convexe, ferm´ e sur int(dom(f )).

Mais il peut ˆ etre vide sur le bord du domaine.

Exemple :

f (x) = − √ x est convexe s.c.i. sur [0, +∞[.

Et on a lim

_x→0⁺

f

⁰

(x) = −∞ et −∞ ∈ /

R

!

(13)

Elements d’analyse convexe

On consid` ere le probl` eme :

Trouver x

^∗

∈ Arg min

x∈Rⁿ

f (x) o` u f est convexe s.c.i.

Th´ eor` eme (fondamental) :

x

^∗

est minimiseur de f si et seulement si 0 ∈ ∂f(x

^∗

).

Une r` egle de calcul utile :

Soit g(x) = f (Ax) o` u A est un op´ erateur lin´ eaire, alors :

∂g(x) = A

^∗

∂f(Ax)

o` u A

^∗

est l’op´ erateur adjoint de A.

(14)

Algorithme : descente de sous-gradient (Polyak ∼ 1980)

Probl` eme :

Trouver x

^∗

∈ Arg min

x∈X

f (x)

•

f : X →

R

est convexe, s.c.i.

•

X est un ensemble convexe ferm´ e.

Algorithme :

1. Choisir x

⁰

∈ X et une suite r´ eelle de pas (h

k

)

k∈N

telle que :

• hk≥0, ∀k∈N.

• limk→+∞hk = 0.

• P+∞

k=0h_k = +∞.

2. x

k+1

= Π

X

x

k

− h

k

η(x

_k

) kη(x

_k

)k

, η(x

k

) ∈ ∂f(x

k

)

(15)

Algorithme : descente de sous-gradient (Polyak ∼ 1980)

R´ esultat :

Si f est L-Lipschitz sur B = {x ∈

Rⁿ

, kx

₀

− x

^∗

k ≤ R}, alors : f

_k^∗

− f

^∗

≤ L R

²

+

Pk

i=0

h

²_k

2

P_k

i=0

h

_k

En particulier, si h

_k

=

^√^R

k+1

(optimal) : f

_k

− f

^∗

≤ LR

√ k + 1 avec : f

_k^∗

= min(f(x

₀

), f (x

₁

), ...f(x

_k

)).

Ce taux est ajust´ e.

(16)

Algorithme : descente de sous-gradient

Note importante :

En supposant L = R = 1, et si on souhaite : f

_k^∗

− f

^∗

≤ 10

⁻³

Dans un sc´ enario au pire des cas, il faut 10

⁶

it´ erations ! Conclusion :

•

Les descentes de sous-gradient avec pas d´ ecroissant ne doivent pas ˆ etre utilis´ ees en g´ en´ eral.

•

Elles peuvent pr´ esenter un int´ erˆ et pour coder rapidement des approximations grossi` eres des solutions avec des pas pr´ ecalcul´ es (10-20 it´ erations).

•

Note : les constantes L et R peuvent d´ ependre

implicitement de la dimension n !

(17)

Optimisation convexe non diff´ erentiable : complexit´ e

Soit M l’ensemble des m´ ethodes de sous-gradient de la forme : x

_k+1

∈ x

₀

+ vect(η(x

₀

), ..., η(x

_k

)), o` u η(x

_i

) ∈ ∂f(x

_i

).

Th´ eor` eme : Pour tout k ≤ n − 1, pour toute m´ ethode m ∈ M, il existe une fonction f :

Rⁿ

→

R

•

convexe ferm´ ee.

•

L-Lipschitz sur une boule de rayon R autour d’un minimiseur x

^∗

.

telle que :

f(x

_k

) − f

^∗

≥ M R 1 + √

k + 1

Corollaire : Les m´ ethodes de sous-gradient avec pas en O

√1 k

sont optimales.

(18)

Optimisation convexe non diff´ erentiable : complexit´ e

Id´ ee :

La fonction f

_k

: x 7→ max

1≤i≤k

x(k) + 1

2 kxk

²

est difficile ` a minimiser pour toutes les m´ ethodes de sous-gradient.

El´ ements de preuve :

La descente de sous-gradient avec x

₀

= 0, assure que : x

_k

∈

R^k,n

:= {x ∈

Rⁿ

, x(i) = 0, ∀i > k}

(on ajoute qu’une coordonn´ ee ` a chaque it´ eration).

On a de plus :

x∈

min

R^k,n

f (x) − f

^∗

≥ O

1 √ k

.

(19)

Optimisation convexe diff´ erentiable : complexit´ e

La classe des fonctions convexes non diff´ erentiables est trop vaste pour esp´ erer avoir des sch´ emas g´ en´ eriques efficaces.

Complexit´ e de la classe des fonctions convexes diff´ erentiables.

Soit C, la classe des fonctions f telles que :

•

f est convexe, diff´ erentiable.

•

∇f est L-Lipschitz (r´ egularit´ e indispensable).

Classe de m´ ethodes :

On consid` ere les m´ ethodes qui g´ en` erent des it´ er´ ees du type x

_k+1

∈ x

0

+ vect(∇f (x

0

), ..., ∇f(x

_k

)).

Exemples : descentes de gradient, gradient conjugu´ e.

(20)

Optimisation convexe diff´ erentiable : complexit´ e

Th´ eor` eme : Pour tout k ≤

ⁿ⁻¹₂

et x

0

∈

Rⁿ

il existe une fonction f ∈ C telle que :

f (x

_k

) − f

^∗

≥ 3Lkx

₀

− x

^∗

k

²

32(k + 1)

²

et

kx

_k

− x

^∗

k

²

≥ 1

8 kx

₀

− x

^∗

k

²

. Cons´ equence :

•

En g´ en´ eral, on ne peut rien dire sur la distance au minimiseur !

•

Les taux de convergence lin´ eaires (vus en cours)

(kx

_k

− x

^∗

k ≤ α

^k

kx

₀

− x

^∗

k, α < 1) sont hors de port´ ee en g´ en´ eral.

•

Le taux en O

_k¹2

n’est pas si d´ ecourageant.

(21)

Optimisation convexe diff´ erentiable : complexit´ e

El´ ements de preuve : on exhibe la fonction la pire au monde :

f

k

(x) = L

4 (hA

_k

x, xi − x(1)) o` u :

A

k

=







2 −1 0 0 . . . 0

n−k,1

−1 2 −1 0 . . . 0

n−k,1

0 −1 2 −1 . . . 0

n−k,1

.. . .. . .. . .. . .. . .. . 0 0 0 . . . 2 0

n−k,1

0

k,n−k

0

n−k,n−k







Probl` eme : Discr´ etisation d’un laplacien tronqu´ e en 1D : ce

n’est rien d’autre qu’une r´ egularisation H

¹

!

(22)

Optimisation convexe diff´ erentiable : complexit´ e

El´ ements de preuve : 1. On pose x

0

= 0.

2. On remarque que ∇f (x

k

) ∈

R^k,n

. 3. D’o` u x

k

∈

R^k,n

.

4. Pour x ∈

R^k,n

, on montre :

• f(x)−f^∗≥O_Lkx

0−x^∗k² k²

et

• kx−x^∗k²≥ ¹₈kx0−x^∗k².

(23)

Optimisation convexe diff´ erentiable : descente de gradient

On consid` ere :

x∈

min

Rⁿ

f (x), o` u ∇f est L − Lipschitz.

Et la descente de gradient :

x

k+1

= x

k

− τ ∇f (x

k

) Preuve de convergence :

On a ∀(x, y) ∈

Rⁿ

×

Rⁿ

(in´ egalit´ e boom boom !):

f (y) ≤ f (x) + h∇f(x), y − xi + L

2 ky − xk

²

| {z }

ψ(y,x)

(1)

= f (x) + L 2 ky −

x − ∇f (x) L

k

²

− k∇f (x)k

²

2L (2)

(24)

Optimisation convexe diff´ erentiable : descente de gradient

En posant :

x

_k+1

= arg min

x∈Rⁿ

ψ(x, x

_k

) (3)

= x

k

− ∇f (x

k

)

L , (4)

on assure que :

f (x

_k+1

) ≤ f (x

_k

) − k∇f (x

_k

)k

²

2L .

On peut ensuite sommer ces in´ egalit´ es de k = 0 ` a N : f (x

N

) − f (x

0

) ≤ −

N

X

k=0

k∇f (x

_k

)k

²

2L (5)

≤ − N 2L min

1≤k≤N

k∇f (x

_k

)k

²

(6)

(25)

Optimisation convexe diff´ erentiable : descente de gradient

On a donc :

1≤k≤N

min k∇f(x

_k

)k

²

≤ 2L

N · (f (x

₀

) − f

^∗

)

En utilisant de plus la convexit´ e de f (in´ egalit´ e boom boom 2 !):

f(x

^∗

) ≥ f (x

_k

) + h∇f (x

_k

), x

_k

− x

^∗

i et donc :

f (x

k

) − f (x

^∗

) ≤ k∇f (x

k

)k · kx

_k

− x

∗

k

(26)

Optimisation convexe diff´ erentiable : descente de gradient

R´ esultat de convergence (relaxation):

Si f a un gradient L-Lipschitz, la descente de gradient assure que :

1≤k≤N

min k∇f(x

_k

)k

²

≤ 2L

N · (f (x

₀

) − f

^∗

) si de plus f est convexe :

f(x

_k

) − f

^∗

≤ O

Lkx

₀

− x

^∗

k

²

k

Ce taux de convergence est ajust´ e.

La m´ ethode de gradient est sous-optimale !

(27)

Optimisation convexe diff´ erentiable : m´ ethodes optimales

M´ ethodes optimales : propos´ ees en 1983 par Y. Nesterov.

Id´ ee g´ en´ erale.

Les m´ ethodes d’optimisation ` a un pas ne permettent pas d’obtenir des taux de convergence optimaux ! Il faut aller au del` a des principes de relaxation.

⇒

•

Utiliser vect ({∇f (x

₀

), ∇f (x

₁

), ..., ∇f (x

_k

)}) pour calculer x

k+1

.

•

Si f est convexe, ∇f apporte une information sur la topologie globale de f !

•

Imp´ eratif informatique : ne pas stocker tous les gradients.

(28)

Optimisation convexe diff´ erentiable : m´ ethodes optimales

Figure: Sous-diff´erentiel.

(29)

Optimisation convexe diff´ erentiable : m´ ethodes optimales

Ancˆ etres : les m´ ethodes “heavy-ball” (B. Polyak).

Descente de gradient oscillantes : ajouter de l’inertie ! R´ esoudre l’´ equation diff´ erentielle :

¨

x + a x ˙ + b∇f (x) = 0

(Solide soumis ` a une force de gravit´ e et de friction) Discr´ etisation :

−x

_k+1

+ 2x

_k

− x

k−1

∆t + a (x

_k+1

− x

_k

)

∆t + b∇f (x

_k

) = 0 Soit encore :

x

_k+1

= x

_k

− a

_k

∇f(x

_k

) + b

_k

(x

_k

− x

k−1

)

(Preuve dans le cas fortement convexe ` a venir...)

(30)

Optimisation convexe diff´ erentiable : m´ ethodes optimales

Id´ ee g´ en´ erale Outils :

•

Une suite minimisante (x

k

).

•

Une suite de coefficients A

₀

= 0, A

_k+1

= A

_k

+ a

_k

, avec a

_k

> 0.

•

Une suite de fonctions (ψ

k

) approchant A

k

f de la forme : ψ

_k

(x) =

k

X

i=1

a

_i

(f (x

_i

) + h∇f (x

_i

), x − x

_i

i) + 1

2 kx − x

₀

k

²

(31)

Optimisation convexe diff´ erentiable : m´ ethodes optimales

Maintenir les in´ egalit´ es :

A

_k

f (x

_k

) ≤ min

x∈Rⁿ

ψ

_k

(x)

ψ

_k

(x) ≤ A

_k

f (x) +

¹₂

kx − x

₀

k

²

∀x ∈

Rⁿ

Ainsi, en prenant x = x

^∗

, on obtient :

f (x

k

) − f(x

^∗

) ≤ kx

^∗

− x

0

k

²

A

_k

La rapidit´ e de croissance de (A

_k

) d´ etermine la rapidit´ e de convergence du sch´ ema.

Non trivial !

(32)

Optimisation convexe diff´ erentiable : m´ ethodes

optimales

(33)

Sch´ ema multi-pas [Nesterov 83].

•

In: Nombre d’ it´ erations N , point initial x

₀

∈

Rⁿ

.

•

Out: x

_N

une estim´ ee de x

^∗

.

•

Init: Poser t

₁

= 1, y

₁

= x

₀

. Pour k allant de 0 ` a N :

•

Poser x

_k

= y

_k

−

^∇f(y_L^k⁾

.

•

Calculer t

_k+1

=

¹⁺

√

1+4t²_k

2

.

•

Poser y

_k+1

= x

_k

+

tk−1 tk+1

(x

_k

− x

k−1

).

(34)

Sch´ ema multi-pas [Nesterov 83].

R´ esultat de convergence L’algorithme assure que :

f(x

^k

) − f (x

^∗

) ≤ L||x

⁰

− x

^∗

||

²

k

²

C’est un taux de convergence optimal !

(35)

Distance au minimiseur.

Impossible d’obtenir des certificats sur la distance au minimiseur sous la seule hypoth` ese de convexit´ e.

D´ efinition (forte convexit´ e).

Une fonction f est dite fortement convexe si elle est convexe et qu’il existe µ > 0 tel que :

∀(x, y) ∈ dom(f )

²

, ∀η ∈ ∂f (x), f (y) ≥ f (x)+hη, y−xi+ µ

2 ky−xk

²

Distance au minimiseur. Une fonction fortement convexe admet un unique minimiseur x

^∗

et

f (x) ≥ f (x

^∗

) + µ

2 kx − x

^∗

k

²

Proposition. Une fonction C

²

est µ-fortement convexe ssi

λ

min

(H

_f

(x)) ≥ µ, ∀x ∈ dom(f ).

(36)

Forte convexit´ e et conditionnement.

Propri´ et´ e. Soient f et g deux fonctions fortement convexes de param` etre µ

₁

≥ 0 et µ

₂

≥ 0, alors :

∀(α, β) ∈

R²+

, x 7→ αf(x) + βg(x) est fortement convexe de module αµ

1

+ βµ

2

. G´ en´ eralisation du conditionnement.

Soit f (x) =

¹₂

kAx − bk

²

Ainsi : ∇f (x) = A

^∗

(Ax − b).

•

Constante de Lipschitz du gradient L = λ

_max

(A

^∗

A).

•

Param` etre de forte convexit´ e µ = λ

min

(A

^∗

A).

•

Le conditionnement du syst` eme lin´ eaire est : κ(A

^∗

A) = λ

_max

λ

min

= L

µ = κ(f).

(37)

Forte convexit´ e.

Quelques exemples de fonctions fortement convexes

•

f (x) =

¹₂

kx − x

₀

k

²

(µ = 1).

•

f (x) = g(x) +

¹₂

kx − x

0

k

²

o` u g est convexe (µ = 1).

•

f (x) =

¹₂

kAx − bk

²

, (µ = λ

min

(A

^∗

A)).

• Adoit ˆetre de rang plein.

Notes :

• La notion peut-être étendue à un cadre non hilbertien.

• Il peut être intéressant de changer les métriques pour faire varier ces constantes (préconditionnement).

(38)

Convergence des m´ ethodes de gradient dans le cas fortement convexe.

Soit f une fonction µ-fortement convexe, ` a gradient L-Lipschitz et κ =

^L_µ

.

Th´ eor` eme 1 : La descente de gradient x

_k+1

= x

_k

−

_µ+L²

∇f (x

_k

) assure que :

kx

_k

− x

^∗

k ≤

κ − 1 κ + 1

k

kx

₀

− x

^∗

k.

(Arguments de point fixe).

Th´ eor` eme 2 : Les sch´ emas multi-pas avec une modification mineure du calcul des coefficients a

_k

assurent que :

kx

_k

− x

^∗

k ≤ √

κ − 1

√ κ + 1

k

kx

₀

− x

^∗

k.

L’acc´ el´ eration est automatique pour les sch´ emas simples !

(39)

Preuve de convergence.

Descente de gradient (contraction).

On a :

kx − τ ∇f (x) − (y − τ ∇f (y))k

= k(I − τ ∇f )(x − y)k

≤ k

Z 1

t=0

(I − τ ∇

²

f (x + t(y − x)))(y − x)k

| {z }

f⁰(x)−f⁰(y)=Rx y f⁰⁰(t)dt

≤ sup

z∈Rⁿ

|||I − τ ∇

²

f (z)||| · kx − yk

| {z }

T h.Ch.G.N.

Or

sp(I − τ ∇

²

f (z)) = 1 − τ sp(∇

²

f (z))

⇒ sup

z∈Rⁿ

|||I − τ ∇

²

f (z)||| = max(|1 − τ µ|, |1 − τ L|)

(40)

Preuve de convergence.

Descente de gradient.

En prenant

τ = min

τ

max(|1 − τ µ|, |1 − τ L|) = 2 µ + L , on obtient :

k(I − τ ∇f )(x − y)k ≤

κ − 1 κ + 1

kx − yk

Ainsi :

kx

_k+1

− x

^∗

k

= kx

_k

− τ ∇f(x

_k

) − (x

^∗

− τ ∇f(x

^∗

))k

≤

κ − 1 κ + 1

kx

_k

− x

^∗

k

(41)

Preuve de convergence sch´ ema acc´ el´ er´ e.

Id´ ee : ´ etudier kx

_k+1

− x

^∗

k

²

+ kx

_k

− x

^∗

k

²

x

k+1

− x

^∗

x

_k

− x

^∗

=

x

_k

− α

_k

∇f(x

_k

) + β

_k

(x

_k

− x

k−1

) − x

^∗

x

_k

− x

^∗

=

(1 + β

k

)I −β

_k

I

I 0

x

k

− x

^∗

x

k−1

− x

^∗

− α

_k

∇f(x

_k

) 0

≤ sup

z∈Rⁿ

(1 + β

_k

)I − α

_k

∇

²

f (z) −β

_k

I

I 0

· x

_k

− x

^∗

x

k−1

− x

^∗

Puis on r´ esout :

α

min

k,βk

sup

z∈Rⁿ

(1 + β

k

)I − α

k

∇

²

f (z) −β

_k

I

I 0

(7)

(42)

Preuve de convergence sch´ ema acc´ el´ er´ e.

En posant :

β

_k

= max(|1 −

p

α

_k

l|, |1 −

p

α

_k

L|)

²

, et

α

_k

= 4

( √ L + √

l)

²

. On obtient :

sup

z∈Rⁿ

(1 + β

_k

)I − α

_k

∇

²

f(z) −β

_k

I

I 0

≤ √

κ − 1

√ κ + 1

.

(43)

Preuve de convergence sch´ ema acc´ el´ er´ e.

Conclusion cas fortement convexe :

•

Si κ >> 1, alors :

κ − 1 κ + 1

' 1 − 2 κ . √

κ − 1

√ κ + 1

' 1 − 2

√ κ .

•

Si κ >> 1, alors les taux polynomiaux ` a l’origine sont plus importants que les taux lin´ eaires asymptotiques.

•

Ne pas oublier de modifier les param` etres de l’algorithme !