Introduction à l’optimisation, aspects théoriques et numériques
Yannick Privat
IRMA, univ. Strasbourg
Résumé no3
Conditions d’optimalité pour les problèmes sans contrainte
Plan
1 Conditions d’optimalité à l’ordre 1
2 Étude des fonctions quadratiques
3 La méthode des moindres carrés
4 Conditions d’optimalité à l’ordre 2
Conditions d’optimalité à l’ordre 1
Sommaire
1 Conditions d’optimalité à l’ordre 1
2 Étude des fonctions quadratiques
3 La méthode des moindres carrés
4 Conditions d’optimalité à l’ordre 2
Conditions d’optimalité à l’ordre 1
Conditions d’optimalité pour les problèmes non contraints
À quoi ça sert ? Caractériser les minima/maxima locaux Quand sont-ils globaux ? Cadre agréable : la fonction objectif est différentiable ou mieux, deux fois différentiable Exemple : en dimension un, sif :R→Rest dérivable, alors, tout pointx∗réalisant un minimum/maximum local vérifie
f0(x∗) =0
Attention à l’existence (penser à la fonction exp. . .)
Conditions d’optimalité à l’ordre 1
Inéquation d’Euler
Soitf :K−→R, avec
! K convexe inclus dansV, un espace de Hilbert
! f différentiable enx∈K.
Soitx, un minimum local def surK. Poury ∈Kett∈]0,1]assez petit, x+t(y−x)∈K et donc f(x+t(y−x))−f(x)
t ≥0.
Faisons tendret vers 0. On a montré :
Théorème (inéquation d’Euler).
Sous les hypothèses ci-dessus, si x est un minimum local de f sur K, alors x vérifie l’inéquation d’Euler:
dfx(y−x)≥0, ∀y ∈K.
Si de plus,f est convexe, alorsx est un minimum global def surK.
Conditions d’optimalité à l’ordre 1
Inéquation d’Euler
Soitf :K−→R, avec
! K convexe inclus dansV, un espace de Hilbert
! f différentiable enx∈K.
Soitx, un minimum local def surK. Poury ∈Kett∈]0,1]assez petit, x+t(y−x)∈K et donc f(x+t(y−x))−f(x)
t ≥0.
Faisons tendret vers 0. On a montré :
Théorème (inéquation d’Euler).
Sous les hypothèses ci-dessus, si x est un minimum local de f sur K, alors x vérifie l’inéquation d’Euler:
dfx(y−x)≥0, ∀y ∈K.
Si de plus,f est convexe, alorsx est un minimum global def surK.
Conditions d’optimalité à l’ordre 1
Condition nécessaire (1
erordre, cas non contraint)
On s’intéresse au problème inf
x∈Rn
f(x)
Théorème (Condition nécessaires)
Soitx∗, un minimum local pour le problème
1 sif est différentiable enx∗, alors∇f(x∗) =0. On dit quex∗est un point stationnaireoucritique.
2 sif est deux fois différentiable enx∗, alorsHessf(x∗)est semi-définie positive.
Remarque
L’exemplef(x) =x4montre que l’on n’a pas mieux que le caractère semi-défini positif de la hessienne, même six∗est un minimum global. L’exemplef(x) =x3 montre que ce théorème donne une condition nécessaire mais pas suffisante.
Preuve.On écrit
f(x∗)≤f(x∗+εh) =f(x∗) +h∇f(x∗), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→
ε→0 0. On divise alors parε >0 puis on fait tendreεvers 0+. Enfin, en choisissant dans le développement précédent±hpour touth∈Rn, la conclusion s’ensuit.
Conditions d’optimalité à l’ordre 1
Condition nécessaire (1
erordre, cas non contraint)
On s’intéresse au problème inf
x∈Rn
f(x)
Théorème (Condition nécessaires)
Soitx∗, un minimum local pour le problème
1 sif est différentiable enx∗, alors∇f(x∗) =0. On dit quex∗est un point stationnaireoucritique.
2 sif est deux fois différentiable enx∗, alorsHessf(x∗)est semi-définie positive.
Remarque
L’exemplef(x) =x4montre que l’on n’a pas mieux que le caractère semi-défini positif de la hessienne, même six∗est un minimum global. L’exemplef(x) =x3 montre que ce théorème donne une condition nécessaire mais pas suffisante.
Preuve.On écrit
f(x∗)≤f(x∗+εh) =f(x∗) +h∇f(x∗), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→
ε→0 0.
On divise alors parε >0 puis on fait tendreεvers 0+. Enfin, en choisissant dans le développement précédent±hpour touth∈Rn, la conclusion s’ensuit.
Conditions d’optimalité à l’ordre 1
Condition suffisante (1
erordre, cas non contraint)
On s’intéresse au problème inf
x∈Rn
f(x)
Théorème (Condition suffisante) Soitf convexe et différentiable surRn.
Une C.N.S. pour quex∗soit un minimum local (donc global) def est quex∗soit un point critique def, autrement dit, que
∇f(x∗) =0.
Preuve.La condition nécessaire résulte immédiatement du théorème précédent. L’équivalence local-global résulte du théorème d’optimisation des fonctions convexes. Quant à la condition suffisante, elle résulte du fait que pour toutx ∈Rn,
f(x)≥f(x∗) +h∇f(x∗),x−x∗i=f(x∗). On en déduit quex∗est bien un minimum.
Conditions d’optimalité à l’ordre 1
Condition suffisante (1
erordre, cas non contraint)
On s’intéresse au problème inf
x∈Rn
f(x)
Théorème (Condition suffisante) Soitf convexe et différentiable surRn.
Une C.N.S. pour quex∗soit un minimum local (donc global) def est quex∗soit un point critique def, autrement dit, que
∇f(x∗) =0.
Preuve.La condition nécessaire résulte immédiatement du théorème précédent.
L’équivalence local-global résulte du théorème d’optimisation des fonctions convexes.
Quant à la condition suffisante, elle résulte du fait que pour toutx ∈Rn, f(x)≥f(x∗) +h∇f(x∗),x−x∗i=f(x∗).
On en déduit quex∗est bien un minimum.
Étude des fonctions quadratiques
Sommaire
1 Conditions d’optimalité à l’ordre 1
2 Étude des fonctions quadratiques
3 La méthode des moindres carrés
4 Conditions d’optimalité à l’ordre 2
Étude des fonctions quadratiques
Cas d’une fonction quadratique
Résolution complète du problème inf
x∈Rn
f(x), avec
f(x) = 1
2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.
! Rappelons que pour toutx∈Rn,
∇f(x) =Ax−b et Hessf(x) =A.
! On diagonalise la matriceA(d’après le théorème spectral) :
∃P∈ On(R) | A=P>DP avec D=
λ1 0
. ..
0 λn
avecλ1≤ · · · ≤λn. On note(e1, . . . ,en)la BON de vecteurs propres associée.
Étude des fonctions quadratiques
Cas d’une fonction quadratique
Résolution complète du problème inf
x∈Rn
f(x), avec
f(x) = 1
2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.
Siλ1<0
Soitz∈R. On a : f(ze1) =λ1
2z2−zhb,e1i+c−−−−→
z→+∞ −∞.
Le problème d’optimisation n’a donc pas de solution dans ce cas (et n7→ne1 est unesuite minimisante).
Étude des fonctions quadratiques
Cas d’une fonction quadratique
Résolution complète du problème inf
x∈Rn
f(x), avec
f(x) = 1
2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.
Siλ1=0, 2 cas à envisager Sib∈/(Im A), l’équation∇f(x) =0 n’a pas de solution⇒le problème n’a pas de solution (inff =−∞).
Sib∈(Im A), l’équation∇f(x) =0 a une infinité de solutions⇒on montre queminf =−12hb,x0i+c, avecx0
une solution de∇f(x0) =0.
Remarque :ImA= (ker A>)⊥= (ker A)⊥(Exercice)
Étude des fonctions quadratiques
Cas d’une fonction quadratique
Résolution complète du problème inf
x∈Rn
f(x), avec
f(x) = 1
2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.
Siλ1>0 A∈ Sn++(R).
L’équation∇f(x) =0 a une unique solutions⇒le problème a une unique solutionx∗=A−1bet
x∈minRn
f(x) =−1
2hb,A−1bi+c.
Étude des fonctions quadratiques
Exercice
Étudier en fonction du paramètre réelαl’existence de solutions pour le problème inf
(x,y)∈R2
f(x,y) avec f(x,y) =x2+y2+2αxy−x−y+1.
Lorsqu’il y a existence, déterminer les solutions. Sinon, exhiber une suite minimisante.
La méthode des moindres carrés
Sommaire
1 Conditions d’optimalité à l’ordre 1
2 Étude des fonctions quadratiques
3 La méthode des moindres carrés
4 Conditions d’optimalité à l’ordre 2
La méthode des moindres carrés
Complément : la méthode des moindres carrés
SoitA, une matrice réelle de taillem×n(en pratique,m>>n).
On suppose donc quem>n. On cherche à résoudreAx =b“au mieux”, i.e. on cherche x∗ minimisant
f : Rn −→ R
x 7−→ f(x) =12kAx−bk2, la notationk · kdésignant bien sûr la norme euclidienne deRn.
Existence de solutions
La question se ramène à rechercher l’existence d’un projeté debsur le sous espace vectorielImA.
Puisque nous sommes en dimension finie, on sait qu’il existe un unique projetébsur le sous espace vectorielImA, car celui-ci est de dimension finie
Présentons à présent la méthode de résolution de ce problème.
La méthode des moindres carrés
Complément : la méthode des moindres carrés
Méthode de résolution
Réécriture du critère
On peut réexprimerf(x)sous une forme mieux adaptée :
∀x ∈Rn, f(x) = 1
2hA>Ax,xi − hA>b,xi+1 2kbk2.
On va utiliser les résultats sur la minimisation de fonctions quadratiques. Notons que :
! la matrice A>Aest symétrique et semi-définie positive
En effet,(A>A)>=A>Aet siX∈Rn, on ahA>AX,Xi=kAXk2. . .
! la question se ramène à l’étude des solutions de l’équation A>Ax=A>b (équation normale).
La méthode des moindres carrés
Complément : la méthode des moindres carrés
Deux cas à envisager :
SiAest de plein rangn.Alors, d’après le théorème du rang, la matriceAest injective, puisA>Aest également injective donc inversible. L’équation normale
A>Ax=A>b
possède alors uneunique solution, solution du problème de minimisation.
SirgA<n.Alors, la plus petite valeur propre deA>Aest nulle, puisqueA>An’est pas injective. D’après l’étude faite des fonctions quadratiques, le problème de minimisation a soit une infinité de solutions, soit pas de solution.
Or, on a vu que le problème des moindres carrés possède (au moins) une solution.
On en déduit que le problème des moindres carrés possède dans ce cas une infinité de solutions (correspondant à l’ensemble des solutions de l’équation normale A>Ax=A>b).
Remarque
Dans le cas oùA>Aest inversible, la matriceA†= (A>A)−1A>s’appellepseudo-inverse ouinverse généralisé deA. Cette notion est très utile en analyse numérique
La méthode des moindres carrés
Exemple/Exercice : la régression linéaire
On considère un nuage dempoints deR2:Mi= (ti,xi), pouri∈ {1,· · ·,m}. Ces données sont souvent le résultat de mesures et on cherche à décrire le comportement global de ce nuage. En général, ces points ne sont pas alignés, mais si on a de bonnes raisons de penser qu’ils devraient l’être (un modèle physique, biologiste, etc. peut guider l’intuition), on peut se demander quelle est la droite approchant au mieux ces points.
Laméthode des moindres carrés consiste alors à rechercher la droite telle que lasomme des carrés des distances des points du nuage à cette droite soit minimale.
Autrement dit, on cherche à résoudre inf
(α,β)∈R2
f(α, β) où f(α, β) =
m
X
i=1
(xi−αti−β)2,
La méthode des moindres carrés
Exemple/Exercice : la régression linéaire
On considère un nuage dempoints deR2:Mi= (ti,xi), pouri∈ {1,· · ·,m}. Ces données sont souvent le résultat de mesures et on cherche à décrire le comportement global de ce nuage. En général, ces points ne sont pas alignés, mais si on a de bonnes raisons de penser qu’ils devraient l’être (un modèle physique, biologiste, etc. peut guider l’intuition), on peut se demander quelle est la droite approchant au mieux ces points.
Laméthode des moindres carrés consiste alors à rechercher la droite telle que lasomme des carrés des distances des points du nuage à cette droite soit minimale.
Autrement dit, on cherche à résoudre inf
(α,β)∈R2
f(α, β) où f(α, β) =
m
X
i=1
(xi−αti−β)2,
PosonsX = (α, β)>. Alors, on peut écrire que
f(α, β) =kAX−bk2, avecA=
t1 1
... ... tm 1
, b=
x1
... xm
La méthode des moindres carrés
Exemple/Exercice : la régression linéaire
On a vu que ce problème possède une solution unique siAest de rang plein, i.e. 2. On en déduit que ce problème possède une solution unique sauf sit1=· · ·=tm.
De plus,
A>A= Pm
i=1ti2
Pm i=1ti
Pm
i=1ti m
etA>b= Pm
i=1xiti
Pm i=1xi
.
On en déduit que l’équation normale associée est St2α+Stβ=Sxt
Stα+mβ=Sx
où l’on a posé
St=
m
X
i=1
ti, Sx =
m
X
i=1
xi, Sxt =
m
X
i=1
xiti et St2=
m
X
i=1
ti2.
Sous réserve que l’on ne soit pas dans la situation “t1=· · ·=tm” (ce qui se retrouve en calculant le déterminant du système et en retrouvant un cas d’égalité de Cauchy-Schwarz), ce système a pour solution
α= SxSt−mSxt
(St)2−mSt2
et β= SxtSt−SxSt2
(St)2−mSt2
.
La méthode des moindres carrés
Exemple/Exercice : la régression linéaire
On s’intéresse à l’évolution du chiffre d’affaire d’une entreprise sur plusieurs années. Y a-t-il une corrélation (linéaire) entre l’année et le chiffre d’affaire ?
année (xi) 1999 2000 2001 2002 2003 2004
chiffre d’affaire (yi, en Me) 15 20 32 26 33 55 ExerciceTrouverα(coefficient directeur) et β(ordonnée à l’origine) minimisant
(m,p)7→
6
X
i=1
(yi−αxi−β)2,
puis tracer le nuage de points et la droite d’ajustement correspondante.
Conditions d’optimalité à l’ordre 2
Sommaire
1 Conditions d’optimalité à l’ordre 1
2 Étude des fonctions quadratiques
3 La méthode des moindres carrés
4 Conditions d’optimalité à l’ordre 2
Conditions d’optimalité à l’ordre 2
Conditions nécessaires (2
èmeordre, cas non contraint)
On s’intéresse au problème inf
x∈Rn
f(x)
Théorème (Conditions nécessaires)
Soitx∗, un minimum local pour le problème ci-dessus.
Sif est deux fois différentiable enx∗, alorsHessf(x∗)est semi-définie positive.
Preuve.On utilise un développement de Taylor-Young à l’ordre 2 et on utilise les mêmes notations que précédemment. On a :
f(x∗+h) = f(x∗) +h∇f(x∗),hi+1
2hHessf(x∗)h,hi+khk2ϕ(h)
= f(x∗) +1
2hHessf(x∗)h,hi+khk2ϕ(h)
Comme précédemment, on remplacehparεh,hquelconque,εpetit, puis on divise parε2 et on fait tendreεvers 0.
Conditions d’optimalité à l’ordre 2
Conditions nécessaires (2
èmeordre, cas non contraint)
On s’intéresse au problème inf
x∈Rn
f(x)
Théorème (Conditions nécessaires)
Soitx∗, un minimum local pour le problème ci-dessus.
Sif est deux fois différentiable enx∗, alorsHessf(x∗)est semi-définie positive.
Preuve.On utilise un développement de Taylor-Young à l’ordre 2 et on utilise les mêmes notations que précédemment. On a :
f(x∗+h) = f(x∗) +h∇f(x∗),hi+1
2hHessf(x∗)h,hi+khk2ϕ(h)
= f(x∗) +1
2hHessf(x∗)h,hi+khk2ϕ(h)
Comme précédemment, on remplacehparεh,hquelconque,εpetit, puis on divise parε2 et on fait tendreεvers 0.
Conditions d’optimalité à l’ordre 2
Conditions suffisantes (2
èmeordre, cas non contraint)
Théorème (Conditions suffisantes)
Soitf, deux fois différentiable enx∗∈Rn, tel que∇f(x∗) =0 et de plus : soit Hessf(x∗)est définie positive,
soit f est deux fois différentiable dans un voisinage dex∗etHessf(x)est semi-définie positive dans ce voisinage.
Alors,x∗est un minimum local pourf.
Conditions d’optimalité à l’ordre 2
Conditions suffisantes (2
èmeordre, cas non contraint)
Théorème (Conditions suffisantes)
Soitf, deux fois différentiable enx∗∈Rn, tel que∇f(x∗) =0 et de plus : soit Hessf(x∗)est définie positive,
soit f est deux fois différentiable dans un voisinage dex∗etHessf(x)est semi-définie positive dans ce voisinage.
Alors,x∗est un minimum local pourf. Remarque
Le caractère “semi-défini positif” de la hessienne enx∗ne suffit pas pour conclure, comme en atteste l’exemplef(x) =x3. En revanche, le caractère “défini-positif” de la hessienne n’est pas nécessaire, comme en témoigne l’exemplef(x) =x4.
On rappelle qu’un point critique qui n’est pas un extremum local porte le nom depoint selle.
Conditions d’optimalité à l’ordre 2
Conditions suffisantes (2
èmeordre, cas non contraint)
Théorème (Conditions suffisantes)
Soitf, deux fois différentiable enx∗∈Rn, tel que∇f(x∗) =0 et de plus : soit Hessf(x∗)est définie positive,
soit f est deux fois différentiable dans un voisinage dex∗etHessf(x)est semi-définie positive dans ce voisinage.
Alors,x∗est un minimum local pourf.
Preuve (premier point).Hessf(x∗)est définie positive, par conséquent,
∃α >0 | hHessf(x∗)h,hi ≥αkhk2, ∀h∈Rn. On écrit alors la formule de Taylor-Young à l’ordre deux enx∗:
f(x∗+h) = f(x∗) +1
2hHessf(x∗)h,hi+khk2ϕ(h)
≥ f(x∗) +hα
2 +ϕ(h)i
khk2>f(x∗), pourvu quehsoit choisi assez petit, puisqueϕ(h)−−−→
h→0 0.
Conditions d’optimalité à l’ordre 2
Conditions suffisantes (2
èmeordre, cas non contraint)
Théorème (Conditions suffisantes)
Soitf, deux fois différentiable enx∗∈Rn, tel que∇f(x∗) =0 et de plus : soit Hessf(x∗)est définie positive,
soit f est deux fois différentiable dans un voisinage dex∗etHessf(x)est semi-définie positive dans ce voisinage.
Alors,x∗est un minimum local pourf.
Pour le deuxième point, on aura besoin du résultat suivant.
Formule de Taylor Mac-Laurin
Soitf : [α, β]−→Rune fonctionN+1 fois dérivable. Alors, il existeγ∈]α, β[tel que
f(β) =f(α) +
N
X
k=1
(β−α)k
k! f(k)(α) +(β−α)N+1
(N+1)! f(N+1)(γ).
LorsqueN=1, la formule de Taylor Mac-Laurin coïncide avec la formule des accroissements finis
Conditions d’optimalité à l’ordre 2
Conditions suffisantes (2
èmeordre, cas non contraint)
Preuve (deuxième point).f étant supposée deux fois différentiable au voisinage dex∗, on applique la formule de Taylor-Mac Laurin à la fonction
ϕ:t7→f(x∗+th).
Notons queϕ0(t) =h∇f(x∗+th),hietϕ00(t) =hHessf(x∗+th)h,hi.
Ainsi, il existet∈[0,1]tel que
f(x∗+h) = f(x∗) +1
2hHessf(xt)h,hi ≥f(x∗), oùxt =x∗+thest proche dex∗sihest petit.
Exemple
On peut caractériser les points critiques (min local/max local/point selle) de la fonction f : (x,y)7→x3+3xy2−15x−12y.