Introduction à l optimisation, aspects théoriques et numériques

(1)

Introduction à l’optimisation, aspects théoriques et numériques

Yannick Privat

IRMA, univ. Strasbourg

Résumé n^o3

Conditions d’optimalité pour les problèmes sans contrainte

(2)

Plan

1 Conditions d’optimalité à l’ordre 1

2 Étude des fonctions quadratiques

3 La méthode des moindres carrés

(3)

Conditions d’optimalité à l’ordre 1

Sommaire

(4)

Conditions d’optimalité pour les problèmes non contraints

À quoi ça sert ? Caractériser les minima/maxima locaux Quand sont-ils globaux ? Cadre agréable : la fonction objectif est différentiable ou mieux, deux fois différentiable Exemple : en dimension un, sif :R→Rest dérivable, alors, tout pointx^∗réalisant un minimum/maximum local vérifie

f⁰(x^∗) =0

Attention à l’existence (penser à la fonction exp. . .)

(5)

Inéquation d’Euler

Soitf :K−→R, avec

! K convexe inclus dansV, un espace de Hilbert

! f différentiable enx∈K.

Soitx, un minimum local def surK. Poury ∈Kett∈]0,1]assez petit, x+t(y−x)∈K et donc f(x+t(y−x))−f(x)

t ≥0.

Faisons tendret vers 0. On a montré :

Théorème (inéquation d’Euler).

Sous les hypothèses ci-dessus, si x est un minimum local de f sur K, alors x vérifie l’inéquation d’Euler:

dfx(y−x)≥0, ∀y ∈K.

Si de plus,f est convexe, alorsx est un minimum global def surK.

(6)

Inéquation d’Euler

Soitf :K−→R, avec

! K convexe inclus dansV, un espace de Hilbert

! f différentiable enx∈K.

Soitx, un minimum local def surK. Poury ∈Kett∈]0,1]assez petit, x+t(y−x)∈K et donc f(x+t(y−x))−f(x)

t ≥0.

Faisons tendret vers 0. On a montré :

Théorème (inéquation d’Euler).

Sous les hypothèses ci-dessus, si x est un minimum local de f sur K, alors x vérifie l’inéquation d’Euler:

dfx(y−x)≥0, ∀y ∈K.

Si de plus,f est convexe, alorsx est un minimum global def surK.

(7)

Condition nécessaire (1

^er

ordre, cas non contraint)

On s’intéresse au problème inf

x∈Rⁿ

f(x)

Théorème (Condition nécessaires)

Soitx^∗, un minimum local pour le problème

1 sif est différentiable enx^∗, alors∇f(x^∗) =0. On dit quex^∗est un point stationnaireoucritique.

2 sif est deux fois différentiable enx^∗, alorsHessf(x^∗)est semi-définie positive.

Remarque

L’exemplef(x) =x⁴montre que l’on n’a pas mieux que le caractère semi-défini positif de la hessienne, même six^∗est un minimum global. L’exemplef(x) =x³ montre que ce théorème donne une condition nécessaire mais pas suffisante.

Preuve.On écrit

f(x^∗)≤f(x^∗+εh) =f(x^∗) +h∇f(x^∗), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→

ε→0 0. On divise alors parε >0 puis on fait tendreεvers 0⁺. Enfin, en choisissant dans le développement précédent±hpour touth∈Rⁿ, la conclusion s’ensuit.

(8)

Condition nécessaire (1

^er

ordre, cas non contraint)

x∈Rⁿ

f(x)

Théorème (Condition nécessaires)

Soitx^∗, un minimum local pour le problème

1 sif est différentiable enx^∗, alors∇f(x^∗) =0. On dit quex^∗est un point stationnaireoucritique.

2 sif est deux fois différentiable enx^∗, alorsHessf(x^∗)est semi-définie positive.

Remarque

L’exemplef(x) =x⁴montre que l’on n’a pas mieux que le caractère semi-défini positif de la hessienne, même six^∗est un minimum global. L’exemplef(x) =x³ montre que ce théorème donne une condition nécessaire mais pas suffisante.

Preuve.On écrit

f(x^∗)≤f(x^∗+εh) =f(x^∗) +h∇f(x^∗), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→

ε→0 0.

On divise alors parε >0 puis on fait tendreεvers 0⁺. Enfin, en choisissant dans le développement précédent±hpour touth∈Rⁿ, la conclusion s’ensuit.

(9)

Condition suffisante (1

^er

ordre, cas non contraint)

x∈Rⁿ

f(x)

Théorème (Condition suffisante) Soitf convexe et différentiable surRⁿ.

Une C.N.S. pour quex^∗soit un minimum local (donc global) def est quex^∗soit un point critique def, autrement dit, que

∇f(x^∗) =0.

Preuve.La condition nécessaire résulte immédiatement du théorème précédent. L’équivalence local-global résulte du théorème d’optimisation des fonctions convexes. Quant à la condition suffisante, elle résulte du fait que pour toutx ∈Rⁿ,

f(x)≥f(x^∗) +h∇f(x^∗),x−x^∗i=f(x^∗). On en déduit quex^∗est bien un minimum.

(10)

Condition suffisante (1

^er

ordre, cas non contraint)

x∈Rⁿ

f(x)

Théorème (Condition suffisante) Soitf convexe et différentiable surRⁿ.

Une C.N.S. pour quex^∗soit un minimum local (donc global) def est quex^∗soit un point critique def, autrement dit, que

∇f(x^∗) =0.

Preuve.La condition nécessaire résulte immédiatement du théorème précédent.

L’équivalence local-global résulte du théorème d’optimisation des fonctions convexes.

Quant à la condition suffisante, elle résulte du fait que pour toutx ∈Rⁿ, f(x)≥f(x^∗) +h∇f(x^∗),x−x^∗i=f(x^∗).

On en déduit quex^∗est bien un minimum.

(11)

Étude des fonctions quadratiques

Sommaire

(12)

Cas d’une fonction quadratique

Résolution complète du problème inf

x∈Rⁿ

f(x), avec

f(x) = 1

2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rⁿ etc ∈R.

! Rappelons que pour toutx∈Rⁿ,

∇f(x) =Ax−b et Hessf(x) =A.

! On diagonalise la matriceA(d’après le théorème spectral) :

∃P∈ On(R) | A=P^>DP avec D=







λ1 0

. ..

0 λn







avecλ1≤ · · · ≤λn. On note(e1, . . . ,en)la BON de vecteurs propres associée.

(13)

Cas d’une fonction quadratique

x∈Rⁿ

f(x), avec

f(x) = 1

Siλ1<0

Soitz∈R. On a : f(ze1) =λ1

2z²−zhb,e1i+c−−−−→

z→+∞ −∞.

Le problème d’optimisation n’a donc pas de solution dans ce cas (et n7→ne1 est unesuite minimisante).

(14)

Cas d’une fonction quadratique

x∈Rⁿ

f(x), avec

f(x) = 1

Siλ1=0, 2 cas à envisager Sib∈/(Im A), l’équation∇f(x) =0 n’a pas de solution⇒le problème n’a pas de solution (inff =−∞).

Sib∈(Im A), l’équation∇f(x) =0 a une infinité de solutions⇒on montre queminf =−¹₂hb,x0i+c, avecx0

une solution de∇f(x0) =0.

Remarque :ImA= (ker A^>)^⊥= (ker A)^⊥(Exercice)

(15)

Cas d’une fonction quadratique

x∈Rⁿ

f(x), avec

f(x) = 1

Siλ1>0 A∈ Sn⁺⁺(R).

L’équation∇f(x) =0 a une unique solutions⇒le problème a une unique solutionx^∗=A⁻¹bet

x∈minRⁿ

f(x) =−1

2hb,A⁻¹bi+c.

(16)

Exercice

Étudier en fonction du paramètre réelαl’existence de solutions pour le problème inf

(x,y)∈R²

f(x,y) avec f(x,y) =x²+y²+2αxy−x−y+1.

Lorsqu’il y a existence, déterminer les solutions. Sinon, exhiber une suite minimisante.

(17)

La méthode des moindres carrés

Sommaire

(18)

Complément : la méthode des moindres carrés

SoitA, une matrice réelle de taillem×n(en pratique,m>>n).

On suppose donc quem>n. On cherche à résoudreAx =b“au mieux”, i.e. on cherche x^∗ minimisant

f : Rⁿ −→ R

x 7−→ f(x) =¹₂kAx−bk², la notationk · kdésignant bien sûr la norme euclidienne deRⁿ.

Existence de solutions

La question se ramène à rechercher l’existence d’un projeté debsur le sous espace vectorielImA.

Puisque nous sommes en dimension finie, on sait qu’il existe un unique projetébsur le sous espace vectorielImA, car celui-ci est de dimension finie

Présentons à présent la méthode de résolution de ce problème.

(19)

Complément : la méthode des moindres carrés

Méthode de résolution

Réécriture du critère

On peut réexprimerf(x)sous une forme mieux adaptée :

∀x ∈Rⁿ, f(x) = 1

2hA^>Ax,xi − hA^>b,xi+1 2kbk².

On va utiliser les résultats sur la minimisation de fonctions quadratiques. Notons que :

! la matrice A^>Aest symétrique et semi-définie positive

En effet,(A^>A)^>=A^>Aet siX∈Rⁿ, on ahA^>AX,Xi=kAXk². . .

! la question se ramène à l’étude des solutions de l’équation A^>Ax=A^>b (équation normale).

(20)

Complément : la méthode des moindres carrés

Deux cas à envisager :

SiAest de plein rangn.Alors, d’après le théorème du rang, la matriceAest injective, puisA^>Aest également injective donc inversible. L’équation normale

A^>Ax=A^>b

possède alors uneunique solution, solution du problème de minimisation.

SirgA<n.Alors, la plus petite valeur propre deA^>Aest nulle, puisqueA^>An’est pas injective. D’après l’étude faite des fonctions quadratiques, le problème de minimisation a soit une infinité de solutions, soit pas de solution.

Or, on a vu que le problème des moindres carrés possède (au moins) une solution.

On en déduit que le problème des moindres carrés possède dans ce cas une infinité de solutions (correspondant à l’ensemble des solutions de l’équation normale A^>Ax=A^>b).

Remarque

Dans le cas oùA^>Aest inversible, la matriceA^†= (A^>A)⁻¹A^>s’appellepseudo-inverse ouinverse généralisé deA. Cette notion est très utile en analyse numérique

(21)

Exemple/Exercice : la régression linéaire

On considère un nuage dempoints deR²:Mi= (ti,xi), pouri∈ {1,· · ·,m}. Ces données sont souvent le résultat de mesures et on cherche à décrire le comportement global de ce nuage. En général, ces points ne sont pas alignés, mais si on a de bonnes raisons de penser qu’ils devraient l’être (un modèle physique, biologiste, etc. peut guider l’intuition), on peut se demander quelle est la droite approchant au mieux ces points.

Laméthode des moindres carrés consiste alors à rechercher la droite telle que lasomme des carrés des distances des points du nuage à cette droite soit minimale.

Autrement dit, on cherche à résoudre inf

(α,β)∈R²

f(α, β) où f(α, β) =

m

X

i=1

(xi−αti−β)²,

(22)

Exemple/Exercice : la régression linéaire

On considère un nuage dempoints deR²:Mi= (ti,xi), pouri∈ {1,· · ·,m}. Ces données sont souvent le résultat de mesures et on cherche à décrire le comportement global de ce nuage. En général, ces points ne sont pas alignés, mais si on a de bonnes raisons de penser qu’ils devraient l’être (un modèle physique, biologiste, etc. peut guider l’intuition), on peut se demander quelle est la droite approchant au mieux ces points.

Laméthode des moindres carrés consiste alors à rechercher la droite telle que lasomme des carrés des distances des points du nuage à cette droite soit minimale.

Autrement dit, on cherche à résoudre inf

(α,β)∈R²

f(α, β) où f(α, β) =

m

X

i=1

(xi−αti−β)²,

PosonsX = (α, β)^>. Alors, on peut écrire que

f(α, β) =kAX−bk², avecA=





 t1 1

... ... tm 1





, b=





 x1

... xm







(23)

Exemple/Exercice : la régression linéaire

On a vu que ce problème possède une solution unique siAest de rang plein, i.e. 2. On en déduit que ce problème possède une solution unique sauf sit1=· · ·=tm.

De plus,

A^>A= Pm

i=1ti²

Pm i=1ti

Pm

i=1ti m

etA^>b= Pm

i=1xiti

Pm i=1xi

.

On en déduit que l’équation normale associée est S_t2α+Stβ=Sxt

Stα+mβ=Sx

où l’on a posé

St=

m

X

i=1

ti, Sx =

m

X

i=1

xi, Sxt =

m

X

i=1

xiti et S_t2=

m

X

i=1

ti².

Sous réserve que l’on ne soit pas dans la situation “t1=· · ·=tm” (ce qui se retrouve en calculant le déterminant du système et en retrouvant un cas d’égalité de Cauchy-Schwarz), ce système a pour solution

α= SxSt−mSxt

(St)²−mSt²

et β= SxtSt−SxS_t2

(St)²−mSt²

.

(24)

Exemple/Exercice : la régression linéaire

On s’intéresse à l’évolution du chiffre d’affaire d’une entreprise sur plusieurs années. Y a-t-il une corrélation (linéaire) entre l’année et le chiffre d’affaire ?

année (xi) 1999 2000 2001 2002 2003 2004

chiffre d’affaire (yi, en Me) 15 20 32 26 33 55 ExerciceTrouverα(coefficient directeur) et β(ordonnée à l’origine) minimisant

(m,p)7→

6

X

i=1

(yi−αxi−β)²,

puis tracer le nuage de points et la droite d’ajustement correspondante.

(25)

Sommaire

(26)

Conditions nécessaires (2

^ème

ordre, cas non contraint)

x∈Rⁿ

f(x)

Théorème (Conditions nécessaires)

Soitx^∗, un minimum local pour le problème ci-dessus.

Sif est deux fois différentiable enx^∗, alorsHessf(x^∗)est semi-définie positive.

Preuve.On utilise un développement de Taylor-Young à l’ordre 2 et on utilise les mêmes notations que précédemment. On a :

f(x^∗+h) = f(x^∗) +h∇f(x^∗),hi+1

2hHessf(x^∗)h,hi+khk²ϕ(h)

= f(x^∗) +1

Comme précédemment, on remplacehparεh,hquelconque,εpetit, puis on divise parε² et on fait tendreεvers 0.

(27)

Conditions nécessaires (2

^ème

ordre, cas non contraint)

x∈Rⁿ

f(x)

Théorème (Conditions nécessaires)

Soitx^∗, un minimum local pour le problème ci-dessus.

Sif est deux fois différentiable enx^∗, alorsHessf(x^∗)est semi-définie positive.

Preuve.On utilise un développement de Taylor-Young à l’ordre 2 et on utilise les mêmes notations que précédemment. On a :

f(x^∗+h) = f(x^∗) +h∇f(x^∗),hi+1

= f(x^∗) +1

Comme précédemment, on remplacehparεh,hquelconque,εpetit, puis on divise parε² et on fait tendreεvers 0.

(28)

Conditions suffisantes (2

^ème

ordre, cas non contraint)

Théorème (Conditions suffisantes)

Soitf, deux fois différentiable enx^∗∈Rⁿ, tel que∇f(x^∗) =0 et de plus : soit Hessf(x^∗)est définie positive,

soit f est deux fois différentiable dans un voisinage dex^∗etHessf(x)est semi-définie positive dans ce voisinage.

Alors,x^∗est un minimum local pourf.

(29)

Conditions suffisantes (2

^ème

ordre, cas non contraint)

Alors,x^∗est un minimum local pourf. Remarque

Le caractère “semi-défini positif” de la hessienne enx^∗ne suffit pas pour conclure, comme en atteste l’exemplef(x) =x³. En revanche, le caractère “défini-positif” de la hessienne n’est pas nécessaire, comme en témoigne l’exemplef(x) =x⁴.

On rappelle qu’un point critique qui n’est pas un extremum local porte le nom depoint selle.

(30)

Conditions suffisantes (2

^ème

ordre, cas non contraint)

Preuve (premier point).Hessf(x^∗)est définie positive, par conséquent,

∃α >0 | hHessf(x^∗)h,hi ≥αkhk², ∀h∈Rⁿ. On écrit alors la formule de Taylor-Young à l’ordre deux enx^∗:

f(x^∗+h) = f(x^∗) +1

≥ f(x^∗) +hα

2 +ϕ(h)i

khk²>f(x^∗), pourvu quehsoit choisi assez petit, puisqueϕ(h)−−−→

h→0 0.

(31)

Conditions suffisantes (2

^ème

ordre, cas non contraint)

Pour le deuxième point, on aura besoin du résultat suivant.

Formule de Taylor Mac-Laurin

Soitf : [α, β]−→Rune fonctionN+1 fois dérivable. Alors, il existeγ∈]α, β[tel que

f(β) =f(α) +

N

X

k=1

(β−α)^k

k! f^(k)(α) +(β−α)^N+1

(N+1)! f^(N+1)(γ).

LorsqueN=1, la formule de Taylor Mac-Laurin coïncide avec la formule des accroissements finis

(32)

Conditions suffisantes (2

^ème

ordre, cas non contraint)

Preuve (deuxième point).f étant supposée deux fois différentiable au voisinage dex^∗, on applique la formule de Taylor-Mac Laurin à la fonction

ϕ:t7→f(x^∗+th).

Notons queϕ⁰(t) =h∇f(x^∗+th),hietϕ⁰⁰(t) =hHessf(x^∗+th)h,hi.

Ainsi, il existet∈[0,1]tel que

f(x^∗+h) = f(x^∗) +1

2hHessf(xt)h,hi ≥f(x^∗), oùxt =x^∗+thest proche dex^∗sihest petit.

Exemple

On peut caractériser les points critiques (min local/max local/point selle) de la fonction f : (x,y)7→x³+3xy²−15x−12y.