1 Existence et unicité d’un minimum

(1)

Optimisation quadratique

Table des matières

1 Existence et unicité d’un minimum 1

1.1 Notations . . . 1

1.2 Problème . . . 1

1.3 Existence . . . 1

1.4 Convexité et unicité . . . 1

1.4.1 Projection sur un convexe fermé . . . 2

1.4.2 Propriété des fonctions convexes . . . 2

2 Conditions d’optimalité 3 2.1 Cas général . . . 3

2.2 Cas convexe . . . 3

2.3 Contraintes d’égalité affines . . . 4

2.4 Le lagrangien . . . 4

2.5 Fonctionnelle quadratique et contraintes d’égalité affines . . . 4

2.6 Contraintes d’inégalité affines . . . 5

3 Algorithmes pour problèmes sans contraintes, fonctionnelle quadratique 5 3.1 Taux et vitesse de convergence . . . 6

3.2 Méthode de descente . . . 6

3.2.1 Pas optimal – fonctionnelle quadratique . . . 6

3.2.2 Relaxation . . . 6

3.2.3 Gradient à pas fixe . . . 7

3.2.4 Méthode du gradient à pas optimal . . . 7

3.2.5 Gradient conjugué . . . 7

3.2.6 Méthodes itératives . . . 8

4 Algorithme pour les problèmes contraints 9 4.1 Méthode du gradient projeté . . . 9

4.2 Méthode d’UZAWA . . . 9

1 Existence et unicité d’un minimum

1.1 Notations

On considèreEl’espace vectorielRⁿ,kun sous-ensemble non vide deEetJ unefonctionnelle continuedéfinie surKà valeur dansR.

1.2 Problème

Trouveru∈K, tel queJ(u) =inf_v_∈_KJ(v).

1.3 Existence

Définition : Minimum local–global

Ð Ð Ð Ð Ð Ð Ð Ð Ð

u∈Kest unpoint de minimum localdeJ surKsi, et seulement si

∃η >0,∀v∈K, kv−uk< η⇒J(u)¶J(v) u∈Kest unminimum globaldeJ surKsi, et seulement si

(2)

Définition : Suite minimisante

Ð Ð Ð Ð Ð

On dit qu’une suite(u_k)k∈Nd’éléments deKest unesuite minimisantesi et seulement si

k→+∞lim J(u_k) =inf

v∈KJ(v)

Théorème : (rappel)

SiKestcompactetJ continuesurK, alorsJ atteint sesextrema.

Définition :

Ð Ð Ð Ð Ð

On dit qu’un fonctionnelleJ estinfine à l’infinisi, et seulement si : pour toute suite(u_n)n∈Kⁿ, lim

n→+∞

v_n

= +∞ ⇒ lim

n→+∞J(v_n) = +∞

Théorème : Existence d’un minimum global

Dans le cas oùE=Rⁿ, siKest un fermé, et siJestcontinueetinfinie à l’infinidansK, alors elle admet un minimum globalsurK. De plus, de toute suite minimisante, on peut extraire unesous-suitequi converge vers un point de minimum.

1.4 Convexité et unicité

Définition : Ensemble convexe

Ð Ð Ð Ð Ð Ð

On dit qu’un sous-ensembleKdeEest convexe si, et seulement si, pour tout couple d’éléments(u,v), le segment[u,v]est inclus dansK:

∀(u,v)∈K², ∀t∈[0, 1], t v+ (1−t)u∈K

Définition : Fonctionnelle convexe

Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð

SoitJ une fonctionnelle définie sur un sous-ensemble convexe non videKde E, à valeurs dansR. On dit queJ estconvexesi et seulement si :

∀(u,v)∈K²,u6=v,∀θ∈]0, 1[, J(θu+ (1−θv)¶θJ(u) + (1−θ)J(v) Dans le cas d’une inégalité stricte, on dit que la fonctionnelle eststrictementconvexe.

u θu+ (1−θ)v v θJ(u) + (1−θ)J(v)

J(θu+ (1−θ)v)

(3)

Propriété

SoitJ une fonctionnelle convexe définie sur un convexe non videK : Ê siuetvsont deux points de minimum locaux, alorsJ(u) =J(v); Ë si en plus,J est strictement convexe alorsu=v.

Théorème :

SoitJune fonctionnelle convexe définie sur un convexe non videKdeE: Ê tout point de minimum local est un point de minimum globale ;

Ë si de plusJ eststrictementconvexe, le point de minimum, s’il exite, estunique.

1.4.1 Projection sur un convexe fermé

Définition :

Ð Ð Ð Ð Ð

Pour toutwdeE, on définit sa projection sur un convexe ferméK P_K(w)comme l’élémentutel que : kw−uk=min

v∈Kkw−vk

Propriété

SiKest un convexe fermé, alors tout élémentwdeEadmet une projectionunique P_K(w)surK. DE lus l’applicationw7−→P_K(w)estcontractante.

1.4.2 Propriété des fonctions convexes

Théorème :

SoitJune fonctionnelle différentiable sur un sous-ensembleK convexe non vide.

Les assertions suivantes sont équivalentes : Ê J estconvexesurK.

Ë ∀(u,v)∈K², u6=v :

J(v)¾J(u) +〈∇J(u),v−u〉. Ì ∀(u,v)∈K², u6=v :

〈∇J(u)− ∇J(v),u−v〉¾0.

Pour la stricte convexité, on a des inégalité strictes.

Théorème : classe C

²

SoitJune fonctionnelle deEdansRde classeC². AlorsJ estconvexesi, et seulement si,

∀(u,d)∈E²,¬

∇²J(u)d,d¶

¾0.

2 Conditions d’optimalité

2.1 Cas général

(4)

Définition : Cône des directions admissibles

Ð Ð Ð

SoitKun sous-ensemble non vide deE, etvun point deK. On appelle cône des directions admissibles l’ensembleTK des tangentes envaux chemins inclus dansK et commençants env.

Théorème :

SoientK un sous-ensemble non vide deE,uun point deK etJ une fonctionnelle deKdansR. On suppose queJ est FRECHET-différentiableenu. Siuest un point de minimum local deJ surK, on a nécessairement :

∀w∈ TK, 〈∇J(u),w〉¾0

Propriété

SiK=Eou si le minimumuest intérieur àKalors l’inéquation ci-dessus devient :

∇J(u) =0

2.2 Cas convexe

Ici onse place dans le cas oùKest convexe.

Théorème : Inéquation d’Euler

SoientKun sous-ensemble convexe non vide deE,uun point deKetJ une fonctionnelle deKdans R. On suppose que J est différentiable en u. Siuest un point de minimum localde J sur K, on a nécessairement

∀v∈K, 〈∇J(u),v−u〉¾0

Théorème : J convexe

SoientKun sous-ensemble convexe non vide deE,uun point deKetJ une fonctionnelle deKdans R. On suppose queJ estconvexeet différentiable enu. Siuest unpoint de minimum localdeJ sur Ksi, et seulement si

∀v∈K, 〈∇J(u),v−u〉¾0

2.3 Contraintes d’égalité affines

On suppose ici que l’ensembleKest défini par :

K=v∈RⁿC v=f

oùC est une matricep×net f un élément deR^p (on supposeK6=0). On remarque queK est unconvexe non vide.

Théorème : (Karush, Kuhn et Tucker)

SoitC∈ Mp,n(R)et f ∈R^p,Kle sous-espace défini parK={v∈Rⁿ/C v= f},uun point deK etJ une fonctionnelle différentiable enu.

Siuest un point deminimum localdeJ surK, on anécessairement: ∃λ∈R^p, ∇J(u) +^tCλ=0

Cu−f =0

(5)

2.4 Le lagrangien

Définition : Le lagrangien

Ð Ð Ð Ð Ð Ð Ð Ð

On définit la fonctionnelle (appelée lelagrangiendu système) :

∀(v,µ)∈e×R^p, L(v,u) =J(v) +µC v−f Les élémentµdeR^psont appelés lesmultiplicateurs de L^AGRANGE.

Propriété

SoitC∈ Mp,n(R)et f ∈R^p,K le sous-espace défini parK ={v∈Rⁿ/C v= f},uun point deK etJ une fonctionnelle différentiable enu.

Siuest un point deminimum localdeJ surK, on anécessairement:

∃λ∈R^p, tel que

∇vL(u,λ) =0

∇µL(u,λ) =0

2.5 Fonctionnelle quadratique et contraintes d’égalité affines

La fonctionnelle est ici quadratique env∈Rⁿ:

∀v∈Rⁿ, J(v) =1

2〈Av,v〉 − 〈b,v〉+c oùAest une matricasymétriquedeRⁿ^×ⁿ,bun vecteur deRⁿetc∈R.

On considère ses variations sur l’espace affine :

K=v∈R^pC v= f oùC∈R^p^×ⁿ, et f un éléments deR^p.

D’après les théorèmes précédents, on a siuest un point de minimum deJ surK :

∃λ∈R^p, tel que Au+^tCλ=b Cu= f

Propriété

SoitJ etKdéfinis ci-dessus. Siuest un point de minimum deJ surK, alors il existeλ∈R^p tel que le couple(u,λ)deRⁿ×R^psoit solution du syste=ème linéaire :

A ^tC

C 0

u λ

= b

f

Théorème :

SiAestsymétrique positive, le vecteuruest un point de minimum deJ surKsi, et seulement si, il existe un élémetλdeR^ptel que le couple(u,λ)soit solution de :

A ^tC

C 0

u λ

= b

f

Si de plusAestdéfinie-positiveet C estsurjectivealors le système linéaire admet une solution unique.

(6)

2.6 Contraintes d’inégalité affines

Dans cette section on considère que l’ensemble descontraintesKest donné par : K=v∈EC v¶f

Théorème :

On considèreK défini ci-dessus et J une fonctionnelle différentiablesur E dansR. Siu∈K est un minimum local deJ surKalors :

∃λ∈R^p,λ¾0,







∇J(u) +^tCλ=0 λ_iCu−f

i=0 Cu¶f

De plus siJestconvexe, alors ceci est une conditionsuffisantede minimalité.

3 Algorithmes pour problèmes sans contraintes, fonctionnelle quadra- tique

On étudie ici les algorithmes qui permettent de calculernumériquementla solution du problème de minimi- sation :

Trouveru∈Rⁿtel queJ(u) =min_v_∈RⁿJ(v).

Avec ici,J le fonctionnelle qui à v associeJ(v) = ¹₂〈Av,v〉 − 〈b,v〉, avecAune matricesymétrique définie- positivedeRⁿ^×ⁿetbun vecteur quelconque deRⁿ.

Dans ce cas, la solution existe et estunique, et elle vérifie le système linéaire : Au=b

Les algorithmes suivants consistent tous à choisir une condition initialeu₀puis à construire une suite(u_k)k¾1. Ces algorithmes doivent vérifier les deux propriétés suivantes :

La convergence de la suite 5u_k)est assurée quel que soit le vecteur initiale.

La convergence doit être « suffisament rapide ».

3.1 Taux et vitesse de convergence

Définition :

Ð Ð Ð Ð Ð Ð Ð

Soitk.k une norme matricielle induite. On appelle conditionnement d’une matrice réelleinversible A∈Rⁿ^×ⁿ,relatif à cette norme, la valeur définie par :

cond(A) =kAk A⁻¹

Définition :

Ð Ð Ð Ð Ð

Soit une méthode numérique produisant une suite d’itérés (u_k). Soit C > 0 la plus petite constante telle que, pour toutk¾0 :

u_k₊₁−u ¶C

u_k−u

.Cest appelétaux de convergence. On appellera vitesse de convergenceR=−logC.

(7)

3.2 Méthode de descente

Supposons l’itéréu_kconnu, onchoisitune direction dite dedescented_k6=0, et unpas de descenteρ_k. On construit alors l’itéréu_k₊₁par la formule :

u_k₊₁=u_k+ρ_kd_k

Remarque :Le choix deρ_k etd_kse fait de manière à assurer queJ(u_k₊₁)<J(u_k). Principe

3.2.1 Pas optimal – fonctionnelle quadratique

Dans le cas où la fonctionnelle estquadratique, on obtient une formule du pas optimal : ρk=−〈∇J(u_k),d_k〉

〈Ad_k,d_k〉 3.2.2 Relaxation

Définition :

Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð

On considère une base orthonormée (e_i)1¶i¶n de Rⁿ. On choisit la suite des direction de descente d₀=e₁,. . .,d_n=e₁,. . ., etc. et ainsi de suite. On choisit lepas optimaldéfini ci dessus. L’algorithme est alors :

Soitl¾0, on choisitu_o∈Rⁿet une toléranceε.

Pourk=nl+i−1, on prend : Ê d_k=e_i

Ë ρ_k=−〈∇J(u_k),d_k〉

〈Ad_k,d_k〉 Ì u_k₊₁=u_k+ρke_i

Propriété

SiAestsymétrique définie positivealors la méthode de relaxation estconvergente.

3.2.3 Gradient à pas fixe

Définition :

Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð

Ici, on cherche la direction dans laquelle la convergence sera la plus rapide.

Soitu₀∈Rⁿune condition initiale,ρun pas fixe.

Pourk∈N+

Ê d_k=−∇J(u_k) =b−Au_k Ë u_k₊₁=u_k+ρd_k

Propriété

SiAestsymétrique définie positive, la méthode de gradient à pas fixe est convergente sous réserve que :

(8)

3.2.4 Méthode du gradient à pas optimal

Définition :

Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð

On procède ici comme avec la méthode du gradient à pas fixe, sauf que le pasρk est ici : ρk=−〈∇J(u_k),d_k〉

〈Ad_k,d_k〉 Soitu₀∈Rⁿune condition initiale.

Pourk∈N+

Ê d_k=−∇J(u_k) =b−Au_k Ë u_k₊₁=u_k+ρkd_k

Propriété

SiAestsymétrique définie positive, la méthode de gradient à pas optimal est convergente.

3.2.5 Gradient conjugué

Le principe de laméthode du gradient conjuguéest de construire une suite dedirectionde descente que l’on garde en mémoire, pour essayer d’éviter les retours.

Siu₁, . . . ,u_kont déjà été calculés, et si tous les gradientsg_l=∇J(u_l), on rechercheu_k₊₁tel que : J(u_k₊₁) = min

v∈u_k+G_kJ(v) avec G_k=Vect(g₀, . . . ,g_k) On a :

Ê g_k₊₁est orthogonale àG_k,i.e∀l∈J0,kK, 〈g_k₊₁,g_l〉=0 Ë La méthode du GC converge en au plusnétapes !

Ì (d_l)sont conjugués par rapport àA:∀k6=l,〈Ad_k,d_l〉=0.

Algorithme

Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð Ð

initialisation :k=0, on choisitu₀, on calcul g₀=Au₀−betd₀=−g₀. tant que :

g_k

> ε, itérerk – Calculerβ_k−1= 〈g_k₋₁,d_k₋₁〉

〈Ad_k₋₁,d_k₋₁〉 – Calculeru_k=u_k−1−β_k−1d_k−1

– Nouvelle direction : g_k=Au_k−bpuisα_k= g_k

2

g_k₋₁

2 et enfind_k=α_kd_k₋₁−g_k.

3.2.6 Méthodes itératives

On s’intéresse ici à des méthodes numériques de résolution du système linéaire : J⁰(u) =Au−b=0.

La solution de ce système est le minimum recherché de la fonctionnelle quadratiqueJ surRⁿ.

Principe

Ð Ð Ð

Ê On décomposeAsous la formeA=M−NavecM inversible.

Partant deu ∈ ⁿ, on construit u par :

(9)

Attention :Ces méthodes ne sont intéressante que si le choix deMrend le calcul deu_k₊₁facile.

Propriété

Si(u_k)kconverge alors c’est vers la solution du système linéaireAu=b.

Propriété

Ê La suite(u_k)k définie par la méthode iérative estconvergentesi et seulement si lerayon spectrale ρ(M⁻¹N)vérifie :ρ(M⁻¹N)<1.

Ë SiAestsymétrique définie positiveet si^tM+N est aussidéfinie positive, alors ρ(M⁻¹N)<1

On noteD=diagA,−E=tirang_inf(A)et−F=tirang_sup(A).

Définition : Méthode de Jacobi

Cette méthode consiste à choisir M = Det N = E+F. On désigne parmatrice de Jacobila matrice J =M⁻¹N=D⁻¹(E+F). L’algorithme s’écrit alors :

Ê On choisitu₀∈Rⁿetε >0.

Ë Tant que

Au_k−b

> ε, calculeru_k₊₁=Ju_k+D⁻¹b.

Définition : Méthode de Gauss-Seidel

Cette méthode consiste à choisirM=D−EetN=F. On désigne parmatrice de Gauss-Seidella matrice G =M⁻¹N= (D−E)⁻¹F. L’algorithme s’écrit alors :

Ê On choisitu₀∈Rⁿetε >0.

Ë Tant que

Au_k−b

> ε, calculeru_k₊₁=Gu_k+ (D−E)⁻¹b.

Théorème :

Ê SiAestsymétriqueetdéfinie-positive, alors la méthode de GAUSS-SEIDELconverge.

Ë SiAest à diagonalestrictement dominantealors les deux méthodes convergent.

Ì SiAesttridiagonale, alorsρ(G) =ρ(J)².

4 Algorithme pour les problèmes contraints

Là encore nous nous intéressons au problème :

Trouveru∈Ktel queJ(u) =min_v∈KJ(v).

oùJ est la fonctionnelle qui à v∈KassocieJ(v) =¹₂〈Av,v〉 − 〈b,v〉,A∈ Mn×n(R)est supposéesymétrique définie-positive,best un vecteur quelconque deRⁿetKest unconvexe fermédeRⁿ.

4.1 Méthode du gradient projeté

Rappel : Pour toutw∈Rⁿ, il existe une unique projection dewsurK, notéeP_K(w)∈K, solution de : P_K(w)−w

=min

v∈K kv−wk. De plus la projection est caractérisée par :

(10)

Propriété

Soit K un convexe fermé non vide de Rⁿ et ρ > 0. u est solution du problème contraint J(u) = min_v∈KJ(v)si et seulement si :

u=P_K(u−ρ∇J(u)).

Algorithme

Ð Ð Ð Ð Ð Ð

Ê Initialisation :u₀∈Rⁿ, un pasρ >0 et une précisionη >0.

Ë Tant que :

u_k−u_k₊₁ > η,

u_k₊₁=P_K(u_k−ρ∇J(u_k))

Propriété

Dans les conditions évoquées ci-dessus et si K estnon vide, si 0< ρ < 2

λ_max(A), alors quel que soit u₀∈Rⁿ, la suite(u_k)kdéfinie par le gradient projeté converge vers le minimumu.

Propriété

SiK=

n

Y

i=1

[a_i,b_i], et y=^t(y₁, . . . ,y_n)∈Rⁿ, laprojection x=P_K(y)a pour composantes : x_i=min max(a_i,y_i),b_i

4.2 Méthode d’U

^ZAWA

Supposons que l’ensemble

K=v∈RⁿC v=f ou

K=v∈RⁿC v¶f oùCest une matricep×net f ∈R^p.

Soitu∈K le minimum de la fonctionnelleJ surK. Alors il existeλ∈Ftel que :











∇J(u) +^tCλ=0 Cu−f ¶0

〈λCu−f〉=0

〈λ−µ,Cu−f〉¾0,∀µ∈F

Fest si il y a contraintes d’égalité égal àR^p, si il y a contraintes d’inégalité égal àR⁺^p.

Propriété

Soitλ∈R^ptel que(u,λ)verifie le système ci-dessus. Pour toutρ >0, on a : λ=P_F(λ+ρ(Cu−f))