C12, algorithmes pour l’optimisation avec contrainte

(1)

C12, algorithmes pour l’optimisation avec contrainte

f

∈

C (

Rⁿ,R

), K un sous ensemble ferm´ e non vide de

Rⁿ

. On suppose qu’il existe ¯ x

∈

K tel que f (¯ x)

≤

f (x) pour tout x

∈

K (c’est-` a-dire ¯ x

∈

argmin

_K

f ).

Objectif : calculer un tel point ¯x.

Nous allons distinguer plusieurs m´ ethodes possibles, selon la nature de l’ensemble K

1.

K convexe. GPF ou GPO avec projection sur K

2.

K d´ efini par des contraintes “´ egalit´ es”. M´ ethodes de Newton ou quasi-Newton.

3.

K d´ efini par des contraintes “in´ egalit´ es”. M´ ethodes de dualit´ e.

(2)

Projection sur un ensemble convexe ferm´ e non vide

K sous ensemble convexe ferm´ e non vide de

Rⁿ

, x

∈Rⁿ

. Pour y

∈Rⁿ

on pose h(y) =

|y−

x|

²

.

h est strictement convexe, h(y)

→

+∞ quand

|y| →

+∞.

Donc,

Il existe un et un seulx₀ ∈K tel queh(x₀)≤h(y) pour tout y∈K. On notex0=PK(x).

Caract´ erisation de x

₀

:

x

₀

est l’unique point de K tel que

∇h(x₀

)

·

(y

−

x

₀

)

≥

0 pour tout y

∈

K , c’est-` a-dire

(x

0−

x)

·

(y

−

x

0

)

≥

0 pour tout y

∈

K

.

x

x0

y

K

(3)

L’op´ erateur P

K

est contractant

K sous ensemble convexe ferm´ e non vide de

Rⁿ

, P

_K

l’op´ erateur de projection sur K .

x,y ∈Rⁿ,

|P_K(x)−P_K(y)|²= (P_K(x)−x+x−y+y−P_K(y))·(P_K(x)−P_K(y)) =

(P_K(x)−x)·(P_K(x)−P_K(y)) + (x−y)·(P_K(x)−P_K(y)) + (y−P_K(y))·(P_K(x)−P_K(y))

La caract´erisation deP_K donne

(P_K(x)−x)·(P_K(x)−P_K(y))≤0, (y−P_K(y))·(P_K(x)−P_K(y))≤0,

et donc, avec l’in´egalit´e de Cauchy-Schwarz,

|PK(x)−PK(y)|²≤(x−y)·(PK(x)−PK(y))≤ |x−y||PK(x)−PK(y)|.

Finalement,|PK(x)−PK(y)| ≤ |x−y|.

(4)

Gradient ` a Pas Fixe avec projection sur K (GPFK)

f ∈C¹(Rⁿ,R), convexe etK convexe ferm´e non vide On choisitρ >0

Initialisation x⁽⁰⁾∈K.

It´eration pour k ≥0, on choisitw^(k⁾=−∇f(x^(k)).

x^(k+1)=P_K(x^(k)+ρw^(k)) Six^(k)→x quandk →+∞, alorsx∈argminKf.

En effet,x=PK(x−ρ∇f(x))et donc, pour touty ∈K, la caract´erisation dePK donne, pour touty ∈K,

(x−(x−ρ∇f(x))))·(y−x)≥0, et donc∇f(x)(y−x)≥0.

Finalement par convexit´e def,f(y)≥f(x) +∇f(x)(y−x)≥f(x).

donc,x ∈argminKf.

Question restante, la suite (x^(k))_k≥0est-elle convergente ?

(5)

Convergence de l’algorithme GPFK

Th´ eor` eme

Soient f

∈

C

¹

(R

ⁿ,R)

et K convexe ferm´ e non vide.

On suppose qu’il existe

α >

0 et M

>

0 tels que

(mon) (∇f (x)

− ∇f

(y))

·

(x

−

y )

≥α|x−

y|

²

pour tout x

,

y

∈Rⁿ

(lip)

|∇f

(x)

− ∇f

(y )| ≤ M

|x−

y| pour tout x, y

∈Rⁿ

Alors :

1.

Il existe un unique x ¯

∈

K tel que f (¯ x)

≤

f (x) pour tout x

∈

K

2.

Si 0

< ρ < _M^2α2

, la suite donn´ ee par l’algorithme (GPFK)

converge vers x ¯

D´ emonstration du premier item : l’hypoth` ese (mon) implique que f est strictement convexe et f (x)

→

+∞ quand

|x| →

+∞ et donc, comme K est convexe ferm´ e non vide, il existe un unique

¯

x

∈

K tel que f (¯ x)

≤

f (x) pour tout x

∈

X .

(6)

D´ emonstration du deuxi` eme item, convergence de l’algorithme (GPFK)

On pose h(x) = x

−ρ∇f

(x) et h(x) = ¯ P

K

(h(x)).

L’algorithme (GPFK) est l’algorithme du point fixe pour ¯ h :

x

^(k+1)

= P

K

(x

^(k)−ρ∇f

(x

^(k)

)) = P

K

(h(x

^(k)

) = ¯ h(x

^(k)

)

On a d´ ej` a vu (Cours 10) que sous les hypoth` eses (mon)-(lip), si 0

< ρ < _M^2α2

, la fonction h est strictement contractante.

Comme P

_K

est contractante, la fonction ¯ h est strictement contractante.

La suite donn´ ee par l’algorithme (GPFK) converge donc vers l’unique point fixe de h ¯ et on d´ ej` a vu que ce point fixe est

¯

x =

argmin_K

f .

(7)

Gradient ` a Pas Optimal avec projection sur K (GPOK)

f ∈C¹(Rⁿ,R) etK convexe ferm´e non vide Initialisation x⁽⁰⁾∈K.

It´eration pour k ≥0,

1. on choisit w^(k)=−∇f(x^(k⁾),

2. on choisit (si c’est possible)ρ_k >0 tel que

f(x^(k⁾+ρkw^(k))≤f(x^(k⁾+ρw^(k))pour toutρ≥0, 3. x^(k+1)=PK(x^(k)+ρkw^(k)).

Questions :

1. Pour (GPOK).Existence deρ_k ? Calcul deρ_k ? A t’on lim_k→+∞x^(k)= ¯x ?

2. Pour (GPOK) et (GPFK),calcul dePK ? 3. Que faire siK non convexe ?

(8)

Calcul de P

K

, cas simples

Premier cas, K = C

⁺

=

{y ∈Rⁿ

; y

≥

0}.

Soit x

∈Rⁿ

. On cherche le point de C

⁺

minimisant (sur C

⁺

) la fonction h(y ) =

|x−

y|

²

, c’est-` a-dire

h(y ) =

n

X

i=1

(x

i −

y

i

)

².

La solution consiste ` a prendre y

_i

= x

_i⁺

, c’est-` a-dire P

_K

(x) = x

⁺

.

Deuxi` eme cas, K =

{y ∈Rⁿ

;

α_i ≤

y

_i ≤β_i,

i = 1, . . . , n}.

Soit x

∈Rⁿ

. On cherche le point de K minimisant (sur K ) la fonction h(y ) =

|x−

y|

²

.

La solution consiste ` a prendre y

_i

= max{min{x

_i, β_i}, α_i}.

(9)

K d´ efini par de contraintes “´ egalit´ es”

f ∈C¹(Rⁿ,R),g ∈C¹(Rⁿ,R^p).

K ={x∈Rⁿ; g(x) = 0}={x ∈Rⁿ; g_i(x) = 0, i= 1, . . . ,p}.

On cherche `a calculer x¯tel que

¯

x∈K,f(¯x)≤f(x)pour toutx∈K.

Une possibilité est de résoudre le système de(n+p)équations à(n+p) inconnues (¯x dans Rⁿetλ1, . . . , λp):

∇f(x) +

p

X

i=1

λ_i∇gi(x) = 0 (n ´equations), g(x) = 0 (p ´equations).

Ceci peut se faire avec la m´ethode de Newton ou une m´ethode de quasi-Newton

Rappel : Sirang(Jg(¯x)) =p, on sait qu’il existeλtel que (¯x, λ) est solution de ce syst`eme

(10)

K d´ efini par de contraintes “in´ egalit´ es”

K ={x∈Rⁿ; g(x)≤0}={x ∈Rⁿ; gi(x)≤0, i= 1, . . . ,p}.

On cherche `a calculer x¯tel que

Problème primal : x¯∈K,f(¯x)≤f(x)pour toutx∈K. Une possibilité est de résoudre le système suivant :

∇f(x) +

p

X

i=1

λi∇gi(x) = 0, λ·g(x) = 0,

g(x)≤0, λ≥0.

Rappel : Si{∇gi(¯x),i∈I(¯x)} est une famille libre avec

I(¯x) ={i∈ {1, . . . ,p};g_i(¯x) = 0}, on sait qu’il existeλtel que (¯x, λ) est solution de ce syst`eme

(11)

D´ efinition du Lagrangien

f ∈C¹(Rⁿ,R),g ∈C¹(Rⁿ,R^p),K ={x∈Rⁿ; g(x)≤0}.

Pourx∈Rⁿ etλ∈C⁺, on pose L(x, λ) =f(x) +λ·g(x) =f(x) +Pp

i=1λ_ig_i(x)

Et on introduit le probl`eme de minimisation sans contrainte :

M(λ) = inf

x∈Rⁿ

L(x, λ)

Lien avec le th´eor`eme de Kuhn-Tucker : SiL(xλ, λ) =M(λ) alors∇f(x) +Pp

i=1λi∇gi(x) = 0

(12)

Probl` eme dual

Pourx∈Rⁿ etλ∈C⁺,

L(x, λ) =f(x) +λ·g(x) =f(x) +Pp

i=1λigi(x) M(λ) = inf

x∈Rⁿ

L(x, λ)

La fonctionM est concave car pour toutx ∈Rⁿett ∈[0,1]

L(x,tλ+ (1−t)µ) =tL(x, λ) + (1−t)L(x, µ)≥tM(λ) + (1−t)M(µ) et donc, en prenant en passant `a la borne inf´erieure surx,

M(tλ+ (1−t)µ)≥tM(λ) + (1−t)M(µ) Ceci sugg`ere le probl`eme dit “dual”

Probl`eme dual : λ¯∈C⁺,M(¯λ)≥M(λ)pour toutλ∈C⁺.

(13)

Point selle du Lagrangien

Th´ eor` eme

Soit(¯x,λ)¯ ∈Rⁿ×C⁺, point “selle” du Lagrangien, c’est-`a-dire L(¯x, λ)≤L(¯x,¯λ)≤L(x,¯λ)pour tout (x, λ)∈Rⁿ×C⁺ Alorsx¯est solution du probl`eme primal

¯

x∈K,f(¯x)≤f(x)pour toutx∈K et¯λest solution du probl`eme dual

¯λ∈C⁺,M(¯λ)≥M(λ)pour toutλ∈C⁺

Il faut des hypothèses supplémentaires surf etg pour la réciproque Intérêt : au lieu de chercher à résoudre directement la problème primal, difficile à cause de la contrainte d’appartenir àK, on va résoudre le problème dual, facile carP_C+ est facile à calculer

(14)

D´ emonstration du th´ eor` eme

L(x, λ) =f(x) +λ·g(x). Soit(¯x,λ)¯ ∈Rⁿ×C⁺

L(¯x, λ)≤L(¯x,¯λ)≤L(x,¯λ)pour tout (x, λ)∈Rⁿ×C⁺ Etape 1: L(¯x, λ)≤L(¯x,λ)¯ pour toutλ∈C⁺ donne

(λ−λ)¯ ·g(¯x) =

p

X

i=1

(λi−λ¯i)gi(¯x)≤0, pour toutλ∈C⁺ Ceci donnegi(¯x)≤0si ¯λi = 0(en prenantλi = 1,λj = ¯λj sij6=i) etgi(¯x) = 0siλ¯i>0 (en prenantλi = 0etλi = 2¯λi,λj = ¯λj sij 6=i) Doncg(¯x)≤0(et donc x¯∈K) etλ¯·g(¯x) = 0.

Etape 2: x¯est solution du probl`eme primal car, six∈K,

f(¯x) =f(¯x) + ¯λ·g(¯x) =L(¯x,λ)¯ ≤L(x,λ) =¯ f(x) + ¯λ·g(x)≤f(x) On peut aussi remarquer queL(¯x,¯λ) =M(¯λ)

Etape 3: λ¯ est solution du probl`eme dual car, siλ∈C⁺, M(λ)≤L(¯x, λ)≤L(¯x,λ) =¯ M(¯λ)

(15)

Algorithme d’Uzawa

L’algorithme d’Uzawa est l’algorithme (GPFK) pour le prob`eme dual.

On se donneρ >0, Initialisation λ⁽⁰⁾∈C⁺. It´eration pour k ≥0,

λ^(k+1)=P_C+(λ^(k)+ρ∇M(λ^(k))) Deux questions :

1. Calcul dePC⁺. Facile (d´ej`a vu). PC⁺λ=λ⁺ 2. Calcul de∇M(λ) siλ∈C⁺

(16)

Calcul de ∇M (λ)

L(x, λ) =f(x) +λ·g(x).

On suppose qu’il existe un uniquex_λ∈Rⁿ tel que

M(λ) =L(x_λ, λ)≤L(x, λ)pour tout x ∈Rⁿ, et queΦ :λ7→x_λ est d´erivable.

On a alors

∇M(λ) =JΦ(λ)^t∇1L(xλ, λ) +∇2L(xλ, λ) =g(xλ)

car∇1L(xλ, λ) = 0(minimisation sans contrainte) et∇2L(xλ, λ) =g(xλ)

(17)

Algorithme d’Uzawa en pratique

On se donneρ >0, Initialisation λ⁽⁰⁾∈C⁺. It´eration pour k ≥0,

1. On cherchex^(k) ∈RⁿtelL(x^(k), λ^(k))≤L(x, λ^(k))pour toutx∈Rⁿ 2. On calculeg(x^(k⁾)(qui est ´egal `a∇M(λ^(k)))

3. λ^(k⁺¹⁾=PC⁺(λ^(k)+ρg(x^(k)))

(18)

Convergence de l’algorithme d’Uzawa

Th´ eor` eme

f ∈C¹(Rⁿ,R),g ∈C¹(Rⁿ,R^p),K ={x∈Rⁿ; g(x)≤0},K 6=∅.

On suppose qu’il existeα >0,C etd tels que

(mon) (∇f(x)− ∇f(y))·(x−y)≥α|x−y|²pour tout x,y∈Rⁿ (aff) g(x) =Cx−d avec C ∈ Mp,n et d∈R^p (contraintes affines) (KT) Soitx¯=argmin_Kf . Il existe λ∈C⁺tel que

∇f(¯x) +Pp

i=1λ_i∇gi(¯x) = 0,λ·g(¯x) = 0

Alors, si0< ρ < _kC^2α_k₂, la suite(x^(k), λ^(k))_k≥0 donn´ee par l’algorithme d’Uzawa v´erifie

1. limk→∞x^(k) = ¯x,x¯unique solution du probl`eme primal 2. la suite(λ^(k))_k≥0est born´ee

D´emonstration dans le td12

(19)

Remarques sur les hypoth` eses du th´ eor` eme

f ∈C¹(Rⁿ,R),g ∈C¹(Rⁿ,R^p),K ={x∈Rⁿ; g(x)≤0},K 6=∅.

(mon) (∇f(x)− ∇f(y))·(x−y)≥α|x−y|²pour tout x,y∈Rⁿ (aff) g(x) =Cx−d avec C∈ Mp,n etd∈R^p (contraintes affines) (KT) Soit ¯x=argminKf. Il existe λ∈C⁺tel que

∇f(¯x) +Pp

i=1λ_i∇gi(¯x) = 0,λ·g(¯x) = 0

1. Les hypothèses(mon)et(aff)permettent de montrer que le problème primal a une unique solution, notéex, et que¯ pour tout λ∈C⁺, il existe un et un seulxλ∈Rⁿtel que L(xλ, λ)≤L(x, λ)pour tout x∈Rⁿ

2. l’hypothèse(KT)est vérifiée si{∇gi(¯x),i∈I(¯x)} est une famille libre avecI(¯x) ={i∈ {1, . . . ,p}; gi(¯x) = 0}