• Aucun résultat trouvé

Introduction à l optimisation, aspects théoriques et numériques

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction à l optimisation, aspects théoriques et numériques"

Copied!
32
0
0

Texte intégral

(1)

Introduction à l’optimisation, aspects théoriques et numériques

Yannick Privat

IRMA, univ. Strasbourg

Résumé no3

Conditions d’optimalité pour les problèmes sans contrainte

(2)

Plan

1 Conditions d’optimalité à l’ordre 1

2 Étude des fonctions quadratiques

3 La méthode des moindres carrés

4 Conditions d’optimalité à l’ordre 2

(3)

Conditions d’optimalité à l’ordre 1

Sommaire

1 Conditions d’optimalité à l’ordre 1

2 Étude des fonctions quadratiques

3 La méthode des moindres carrés

4 Conditions d’optimalité à l’ordre 2

(4)

Conditions d’optimalité à l’ordre 1

Conditions d’optimalité pour les problèmes non contraints

À quoi ça sert ? Caractériser les minima/maxima locaux Quand sont-ils globaux ? Cadre agréable : la fonction objectif est différentiable ou mieux, deux fois différentiable Exemple : en dimension un, sif :R→Rest dérivable, alors, tout pointxréalisant un minimum/maximum local vérifie

f0(x) =0

Attention à l’existence (penser à la fonction exp. . .)

(5)

Conditions d’optimalité à l’ordre 1

Inéquation d’Euler

Soitf :K−→R, avec

! K convexe inclus dansV, un espace de Hilbert

! f différentiable enx∈K.

Soitx, un minimum local def surK. Poury ∈Kett∈]0,1]assez petit, x+t(y−x)∈K et donc f(x+t(y−x))−f(x)

t ≥0.

Faisons tendret vers 0. On a montré :

Théorème (inéquation d’Euler).

Sous les hypothèses ci-dessus, si x est un minimum local de f sur K, alors x vérifie l’inéquation d’Euler:

dfx(y−x)≥0, ∀y ∈K.

Si de plus,f est convexe, alorsx est un minimum global def surK.

(6)

Conditions d’optimalité à l’ordre 1

Inéquation d’Euler

Soitf :K−→R, avec

! K convexe inclus dansV, un espace de Hilbert

! f différentiable enx∈K.

Soitx, un minimum local def surK. Poury ∈Kett∈]0,1]assez petit, x+t(y−x)∈K et donc f(x+t(y−x))−f(x)

t ≥0.

Faisons tendret vers 0. On a montré :

Théorème (inéquation d’Euler).

Sous les hypothèses ci-dessus, si x est un minimum local de f sur K, alors x vérifie l’inéquation d’Euler:

dfx(y−x)≥0, ∀y ∈K.

Si de plus,f est convexe, alorsx est un minimum global def surK.

(7)

Conditions d’optimalité à l’ordre 1

Condition nécessaire (1

er

ordre, cas non contraint)

On s’intéresse au problème inf

x∈Rn

f(x)

Théorème (Condition nécessaires)

Soitx, un minimum local pour le problème

1 sif est différentiable enx, alors∇f(x) =0. On dit quexest un point stationnaireoucritique.

2 sif est deux fois différentiable enx, alorsHessf(x)est semi-définie positive.

Remarque

L’exemplef(x) =x4montre que l’on n’a pas mieux que le caractère semi-défini positif de la hessienne, même sixest un minimum global. L’exemplef(x) =x3 montre que ce théorème donne une condition nécessaire mais pas suffisante.

Preuve.On écrit

f(x)≤f(x+εh) =f(x) +h∇f(x), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→

ε→0 0. On divise alors parε >0 puis on fait tendreεvers 0+. Enfin, en choisissant dans le développement précédent±hpour touth∈Rn, la conclusion s’ensuit.

(8)

Conditions d’optimalité à l’ordre 1

Condition nécessaire (1

er

ordre, cas non contraint)

On s’intéresse au problème inf

x∈Rn

f(x)

Théorème (Condition nécessaires)

Soitx, un minimum local pour le problème

1 sif est différentiable enx, alors∇f(x) =0. On dit quexest un point stationnaireoucritique.

2 sif est deux fois différentiable enx, alorsHessf(x)est semi-définie positive.

Remarque

L’exemplef(x) =x4montre que l’on n’a pas mieux que le caractère semi-défini positif de la hessienne, même sixest un minimum global. L’exemplef(x) =x3 montre que ce théorème donne une condition nécessaire mais pas suffisante.

Preuve.On écrit

f(x)≤f(x+εh) =f(x) +h∇f(x), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→

ε→0 0.

On divise alors parε >0 puis on fait tendreεvers 0+. Enfin, en choisissant dans le développement précédent±hpour touth∈Rn, la conclusion s’ensuit.

(9)

Conditions d’optimalité à l’ordre 1

Condition suffisante (1

er

ordre, cas non contraint)

On s’intéresse au problème inf

x∈Rn

f(x)

Théorème (Condition suffisante) Soitf convexe et différentiable surRn.

Une C.N.S. pour quexsoit un minimum local (donc global) def est quexsoit un point critique def, autrement dit, que

∇f(x) =0.

Preuve.La condition nécessaire résulte immédiatement du théorème précédent. L’équivalence local-global résulte du théorème d’optimisation des fonctions convexes. Quant à la condition suffisante, elle résulte du fait que pour toutx ∈Rn,

f(x)≥f(x) +h∇f(x),x−xi=f(x). On en déduit quexest bien un minimum.

(10)

Conditions d’optimalité à l’ordre 1

Condition suffisante (1

er

ordre, cas non contraint)

On s’intéresse au problème inf

x∈Rn

f(x)

Théorème (Condition suffisante) Soitf convexe et différentiable surRn.

Une C.N.S. pour quexsoit un minimum local (donc global) def est quexsoit un point critique def, autrement dit, que

∇f(x) =0.

Preuve.La condition nécessaire résulte immédiatement du théorème précédent.

L’équivalence local-global résulte du théorème d’optimisation des fonctions convexes.

Quant à la condition suffisante, elle résulte du fait que pour toutx ∈Rn, f(x)≥f(x) +h∇f(x),x−xi=f(x).

On en déduit quexest bien un minimum.

(11)

Étude des fonctions quadratiques

Sommaire

1 Conditions d’optimalité à l’ordre 1

2 Étude des fonctions quadratiques

3 La méthode des moindres carrés

4 Conditions d’optimalité à l’ordre 2

(12)

Étude des fonctions quadratiques

Cas d’une fonction quadratique

Résolution complète du problème inf

xRn

f(x), avec

f(x) = 1

2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.

! Rappelons que pour toutx∈Rn,

∇f(x) =Ax−b et Hessf(x) =A.

! On diagonalise la matriceA(d’après le théorème spectral) :

∃P∈ On(R) | A=P>DP avec D=

λ1 0

. ..

0 λn

avecλ1≤ · · · ≤λn. On note(e1, . . . ,en)la BON de vecteurs propres associée.

(13)

Étude des fonctions quadratiques

Cas d’une fonction quadratique

Résolution complète du problème inf

xRn

f(x), avec

f(x) = 1

2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.

Siλ1<0

Soitz∈R. On a : f(ze1) =λ1

2z2−zhb,e1i+c−−−−→

z→+∞ −∞.

Le problème d’optimisation n’a donc pas de solution dans ce cas (et n7→ne1 est unesuite minimisante).

(14)

Étude des fonctions quadratiques

Cas d’une fonction quadratique

Résolution complète du problème inf

xRn

f(x), avec

f(x) = 1

2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.

Siλ1=0, 2 cas à envisager Sib∈/(Im A), l’équation∇f(x) =0 n’a pas de solution⇒le problème n’a pas de solution (inff =−∞).

Sib∈(Im A), l’équation∇f(x) =0 a une infinité de solutions⇒on montre queminf =−12hb,x0i+c, avecx0

une solution de∇f(x0) =0.

Remarque :ImA= (ker A>)= (ker A)(Exercice)

(15)

Étude des fonctions quadratiques

Cas d’une fonction quadratique

Résolution complète du problème inf

xRn

f(x), avec

f(x) = 1

2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.

Siλ1>0 A∈ Sn++(R).

L’équation∇f(x) =0 a une unique solutions⇒le problème a une unique solutionx=A−1bet

x∈minRn

f(x) =−1

2hb,A−1bi+c.

(16)

Étude des fonctions quadratiques

Exercice

Étudier en fonction du paramètre réelαl’existence de solutions pour le problème inf

(x,y)∈R2

f(x,y) avec f(x,y) =x2+y2+2αxy−x−y+1.

Lorsqu’il y a existence, déterminer les solutions. Sinon, exhiber une suite minimisante.

(17)

La méthode des moindres carrés

Sommaire

1 Conditions d’optimalité à l’ordre 1

2 Étude des fonctions quadratiques

3 La méthode des moindres carrés

4 Conditions d’optimalité à l’ordre 2

(18)

La méthode des moindres carrés

Complément : la méthode des moindres carrés

SoitA, une matrice réelle de taillem×n(en pratique,m>>n).

On suppose donc quem>n. On cherche à résoudreAx =b“au mieux”, i.e. on cherche x minimisant

f : Rn −→ R

x 7−→ f(x) =12kAx−bk2, la notationk · kdésignant bien sûr la norme euclidienne deRn.

Existence de solutions

La question se ramène à rechercher l’existence d’un projeté debsur le sous espace vectorielImA.

Puisque nous sommes en dimension finie, on sait qu’il existe un unique projetébsur le sous espace vectorielImA, car celui-ci est de dimension finie

Présentons à présent la méthode de résolution de ce problème.

(19)

La méthode des moindres carrés

Complément : la méthode des moindres carrés

Méthode de résolution

Réécriture du critère

On peut réexprimerf(x)sous une forme mieux adaptée :

∀x ∈Rn, f(x) = 1

2hA>Ax,xi − hA>b,xi+1 2kbk2.

On va utiliser les résultats sur la minimisation de fonctions quadratiques. Notons que :

! la matrice A>Aest symétrique et semi-définie positive

En effet,(A>A)>=A>Aet siXRn, on ahA>AX,Xi=kAXk2. . .

! la question se ramène à l’étude des solutions de l’équation A>Ax=A>b (équation normale).

(20)

La méthode des moindres carrés

Complément : la méthode des moindres carrés

Deux cas à envisager :

SiAest de plein rangn.Alors, d’après le théorème du rang, la matriceAest injective, puisA>Aest également injective donc inversible. L’équation normale

A>Ax=A>b

possède alors uneunique solution, solution du problème de minimisation.

SirgA<n.Alors, la plus petite valeur propre deA>Aest nulle, puisqueA>An’est pas injective. D’après l’étude faite des fonctions quadratiques, le problème de minimisation a soit une infinité de solutions, soit pas de solution.

Or, on a vu que le problème des moindres carrés possède (au moins) une solution.

On en déduit que le problème des moindres carrés possède dans ce cas une infinité de solutions (correspondant à l’ensemble des solutions de l’équation normale A>Ax=A>b).

Remarque

Dans le cas oùA>Aest inversible, la matriceA= (A>A)−1A>s’appellepseudo-inverse ouinverse généralisé deA. Cette notion est très utile en analyse numérique

(21)

La méthode des moindres carrés

Exemple/Exercice : la régression linéaire

On considère un nuage dempoints deR2:Mi= (ti,xi), pouri∈ {1,· · ·,m}. Ces données sont souvent le résultat de mesures et on cherche à décrire le comportement global de ce nuage. En général, ces points ne sont pas alignés, mais si on a de bonnes raisons de penser qu’ils devraient l’être (un modèle physique, biologiste, etc. peut guider l’intuition), on peut se demander quelle est la droite approchant au mieux ces points.

Laméthode des moindres carrés consiste alors à rechercher la droite telle que lasomme des carrés des distances des points du nuage à cette droite soit minimale.

Autrement dit, on cherche à résoudre inf

(α,β)∈R2

f(α, β) où f(α, β) =

m

X

i=1

(xi−αti−β)2,

(22)

La méthode des moindres carrés

Exemple/Exercice : la régression linéaire

On considère un nuage dempoints deR2:Mi= (ti,xi), pouri∈ {1,· · ·,m}. Ces données sont souvent le résultat de mesures et on cherche à décrire le comportement global de ce nuage. En général, ces points ne sont pas alignés, mais si on a de bonnes raisons de penser qu’ils devraient l’être (un modèle physique, biologiste, etc. peut guider l’intuition), on peut se demander quelle est la droite approchant au mieux ces points.

Laméthode des moindres carrés consiste alors à rechercher la droite telle que lasomme des carrés des distances des points du nuage à cette droite soit minimale.

Autrement dit, on cherche à résoudre inf

(α,β)∈R2

f(α, β) où f(α, β) =

m

X

i=1

(xi−αti−β)2,

PosonsX = (α, β)>. Alors, on peut écrire que

f(α, β) =kAX−bk2, avecA=

 t1 1

... ... tm 1

, b=

 x1

... xm

(23)

La méthode des moindres carrés

Exemple/Exercice : la régression linéaire

On a vu que ce problème possède une solution unique siAest de rang plein, i.e. 2. On en déduit que ce problème possède une solution unique sauf sit1=· · ·=tm.

De plus,

A>A= Pm

i=1ti2

Pm i=1ti

Pm

i=1ti m

etA>b= Pm

i=1xiti

Pm i=1xi

.

On en déduit que l’équation normale associée est St2α+Stβ=Sxt

Stα+mβ=Sx

où l’on a posé

St=

m

X

i=1

ti, Sx =

m

X

i=1

xi, Sxt =

m

X

i=1

xiti et St2=

m

X

i=1

ti2.

Sous réserve que l’on ne soit pas dans la situation “t1=· · ·=tm” (ce qui se retrouve en calculant le déterminant du système et en retrouvant un cas d’égalité de Cauchy-Schwarz), ce système a pour solution

α= SxSt−mSxt

(St)2−mSt2

et β= SxtSt−SxSt2

(St)2−mSt2

.

(24)

La méthode des moindres carrés

Exemple/Exercice : la régression linéaire

On s’intéresse à l’évolution du chiffre d’affaire d’une entreprise sur plusieurs années. Y a-t-il une corrélation (linéaire) entre l’année et le chiffre d’affaire ?

année (xi) 1999 2000 2001 2002 2003 2004

chiffre d’affaire (yi, en Me) 15 20 32 26 33 55 ExerciceTrouverα(coefficient directeur) et β(ordonnée à l’origine) minimisant

(m,p)7→

6

X

i=1

(yi−αxi−β)2,

puis tracer le nuage de points et la droite d’ajustement correspondante.

(25)

Conditions d’optimalité à l’ordre 2

Sommaire

1 Conditions d’optimalité à l’ordre 1

2 Étude des fonctions quadratiques

3 La méthode des moindres carrés

4 Conditions d’optimalité à l’ordre 2

(26)

Conditions d’optimalité à l’ordre 2

Conditions nécessaires (2

ème

ordre, cas non contraint)

On s’intéresse au problème inf

x∈Rn

f(x)

Théorème (Conditions nécessaires)

Soitx, un minimum local pour le problème ci-dessus.

Sif est deux fois différentiable enx, alorsHessf(x)est semi-définie positive.

Preuve.On utilise un développement de Taylor-Young à l’ordre 2 et on utilise les mêmes notations que précédemment. On a :

f(x+h) = f(x) +h∇f(x),hi+1

2hHessf(x)h,hi+khk2ϕ(h)

= f(x) +1

2hHessf(x)h,hi+khk2ϕ(h)

Comme précédemment, on remplacehparεh,hquelconque,εpetit, puis on divise parε2 et on fait tendreεvers 0.

(27)

Conditions d’optimalité à l’ordre 2

Conditions nécessaires (2

ème

ordre, cas non contraint)

On s’intéresse au problème inf

x∈Rn

f(x)

Théorème (Conditions nécessaires)

Soitx, un minimum local pour le problème ci-dessus.

Sif est deux fois différentiable enx, alorsHessf(x)est semi-définie positive.

Preuve.On utilise un développement de Taylor-Young à l’ordre 2 et on utilise les mêmes notations que précédemment. On a :

f(x+h) = f(x) +h∇f(x),hi+1

2hHessf(x)h,hi+khk2ϕ(h)

= f(x) +1

2hHessf(x)h,hi+khk2ϕ(h)

Comme précédemment, on remplacehparεh,hquelconque,εpetit, puis on divise parε2 et on fait tendreεvers 0.

(28)

Conditions d’optimalité à l’ordre 2

Conditions suffisantes (2

ème

ordre, cas non contraint)

Théorème (Conditions suffisantes)

Soitf, deux fois différentiable enx∈Rn, tel que∇f(x) =0 et de plus : soit Hessf(x)est définie positive,

soit f est deux fois différentiable dans un voisinage dexetHessf(x)est semi-définie positive dans ce voisinage.

Alors,xest un minimum local pourf.

(29)

Conditions d’optimalité à l’ordre 2

Conditions suffisantes (2

ème

ordre, cas non contraint)

Théorème (Conditions suffisantes)

Soitf, deux fois différentiable enx∈Rn, tel que∇f(x) =0 et de plus : soit Hessf(x)est définie positive,

soit f est deux fois différentiable dans un voisinage dexetHessf(x)est semi-définie positive dans ce voisinage.

Alors,xest un minimum local pourf. Remarque

Le caractère “semi-défini positif” de la hessienne enxne suffit pas pour conclure, comme en atteste l’exemplef(x) =x3. En revanche, le caractère “défini-positif” de la hessienne n’est pas nécessaire, comme en témoigne l’exemplef(x) =x4.

On rappelle qu’un point critique qui n’est pas un extremum local porte le nom depoint selle.

(30)

Conditions d’optimalité à l’ordre 2

Conditions suffisantes (2

ème

ordre, cas non contraint)

Théorème (Conditions suffisantes)

Soitf, deux fois différentiable enx∈Rn, tel que∇f(x) =0 et de plus : soit Hessf(x)est définie positive,

soit f est deux fois différentiable dans un voisinage dexetHessf(x)est semi-définie positive dans ce voisinage.

Alors,xest un minimum local pourf.

Preuve (premier point).Hessf(x)est définie positive, par conséquent,

∃α >0 | hHessf(x)h,hi ≥αkhk2, ∀h∈Rn. On écrit alors la formule de Taylor-Young à l’ordre deux enx:

f(x+h) = f(x) +1

2hHessf(x)h,hi+khk2ϕ(h)

≥ f(x) +hα

2 +ϕ(h)i

khk2>f(x), pourvu quehsoit choisi assez petit, puisqueϕ(h)−−−→

h→0 0.

(31)

Conditions d’optimalité à l’ordre 2

Conditions suffisantes (2

ème

ordre, cas non contraint)

Théorème (Conditions suffisantes)

Soitf, deux fois différentiable enx∈Rn, tel que∇f(x) =0 et de plus : soit Hessf(x)est définie positive,

soit f est deux fois différentiable dans un voisinage dexetHessf(x)est semi-définie positive dans ce voisinage.

Alors,xest un minimum local pourf.

Pour le deuxième point, on aura besoin du résultat suivant.

Formule de Taylor Mac-Laurin

Soitf : [α, β]−→Rune fonctionN+1 fois dérivable. Alors, il existeγ∈]α, β[tel que

f(β) =f(α) +

N

X

k=1

(β−α)k

k! f(k)(α) +(β−α)N+1

(N+1)! f(N+1)(γ).

LorsqueN=1, la formule de Taylor Mac-Laurin coïncide avec la formule des accroissements finis

(32)

Conditions d’optimalité à l’ordre 2

Conditions suffisantes (2

ème

ordre, cas non contraint)

Preuve (deuxième point).f étant supposée deux fois différentiable au voisinage dex, on applique la formule de Taylor-Mac Laurin à la fonction

ϕ:t7→f(x+th).

Notons queϕ0(t) =h∇f(x+th),hietϕ00(t) =hHessf(x+th)h,hi.

Ainsi, il existet∈[0,1]tel que

f(x+h) = f(x) +1

2hHessf(xt)h,hi ≥f(x), oùxt =x+thest proche dexsihest petit.

Exemple

On peut caractériser les points critiques (min local/max local/point selle) de la fonction f : (x,y)7→x3+3xy2−15x−12y.

Références

Documents relatifs

Nous nous sommes alors demandés pourquoi tant de garçons se sont orientés vers l’informatique à mesure que les écoles ouvraient de nouvelles filières, alors que les filles, qui

c'est ce qui était demandé à la dernière question du contrôle (Arnufle et Barnabé) : si les points sont &#34;globalement alignés&#34; l'ajustement affine est pertinent et donne

2- Ajoute deux points alignés avec les autres.. 3- Trouve des points alignés et complète

[r]

• Licence pro Sciences de la vie et de la santé biotechnologies spécialité techniques et applications en biologie cellulaire et moléculaire. • Licence pro

Les droites (AE) et (CD) sont elles parallèles?. Les droites (AD) et (CE) sont

Comme dans le cas de la régression multiple où un test permet de comparer un modèle avec un modèle réduit, le rapport de vraisemblance ou la différence de déviance est une

gnement, puisqu’il s’est opposé, en meute avec ses amis les Comores, Djibouti, la Côte d’Ivoire et le Gabon, à l’inclusion dans la mouture finale d’un paragraphe appelant