• Aucun résultat trouvé

3.1 Définitions et rappels

N/A
N/A
Protected

Academic year: 2021

Partager "3.1 Définitions et rappels"

Copied!
8
0
0

Texte intégral

(1)

Chapitre 3

Optimisation

3.1 Définitions et rappels

3.1.1 Extrema, points critiques et points selle.

L’objectif de ce chapitre est de rechercher des extrema, c’est-à-dire des minima ou des maxima d’une fonction fC(IRn,IR)avec ou sans contrainte. Notons que la recherche d’un minimum ou d’un maximum implique que l’on ait une relation d’ordre, pour pouvoir comparer les valeurs prises parf. On insiste donc bien sur le fait que la fonctionf est à valeurs dansIR (et non pasIRn, comme dans le chapitre précédent). Rappelons tout d’abord quelques définitions du cours de calcul différentiel.

Définition 3.1(Extremum d’une fonction). SoitEun espace vectoriel normé etf :E→IR.

On dit quex¯est un minimum local def s’il existe un voisinageV dex¯tel que fx)f(x),∀xV.

De même, on dit quex¯est un maximum local def s’il existe un voisinageV dex¯tel que fx)f(x),∀xV.

On dit quex¯est un extremum local def si c’est un minimum local ou un maximum local.

On dit quex¯est un minimum global def si

fx)f(x),∀xE.

De même, on dit quex¯est un maximum global defsi

fx)f(x),∀xE.

On dit quex¯est un extremum global defsi c’est un minimum global ou un maximum global.

Le problème d’optimisation sans contrainte s’écrit :

Trouverx¯∈IRntel que :

fx)f(y), ∀y∈IRn. (3.1)

Le problème d’optimisation avec contrainte s’écrit :

Trouverx¯∈Ktel que :

fx)f(y), ∀yK. (3.2)

(2)

3.1. DÉFINITIONS ET RAPPELS CHAPITRE 3. OPTIMISATION oùK ⊂ IRn etK 6= IRn L’ensembleK où l’on recherche la solution est donc l’ensemble qui représente les contraintes. Par exemple, si l’on cherche un miminum d’une fonctionfdeIRdansIRet que l’on demande que les points qui réalisent ce minimum soient positifs, on auraK= IR+.

Six¯est solution du problème (3.1), on dit quex¯ ∈ arg min

IRnf, et six¯est solution du problème (3.2), on dit que

¯

x∈arg min

K f.

Vous savez déjà que si un pointx¯réalise le minimum d’une fonctionf dérivable deIRdansIR, alorsf(x) = 0.

On dit que c’est un point critique (voir définition 3.2). La réciproque est évidemment fausse : la fonctionx7→x3 est dérivable surIR, et sa dérivée s’annule en 0 qui est donc un point critique, mais 0 n’est pas un extremum (c’est un point d’inflexion). Nous verrons plus loin que de manière générale, lorsque la fonctionnellefest différentiable, les extrema sont des points critiques def, au sens où ils annulent le gradient.

Définition 3.2(Point critique). SoitEun espace vectoriel normé etf :E→IRdifférentiable. On dit quexE est un point critique def siDf(x) = 0.

Pour illustrer un cas de point critique qui n’est pas un maximum ni un minimum, prenons un exemple en dimension 2, avec

f(x1, x2) =x21x22. On a alors

Df(x1, x2)(h1, h2) = 2(x1h1x2h2)etDf(0,0) = 0.

Le point(0,0)est donc un point critique def. Si on trace la surface x 7→ x21x22, on se rend compte que le point (0,0)est minimal dans une direction et maximal dans une direction indépendante de la première. C’est ce qu’on appelle un point selle

Définition 3.3(Point selle). SoitEun espace vectoriel normé etf :E→IR. On dit quex¯est un point selle def s’il existeF etGdes sous espaces vectoriels deEtels queE=FGet un voisinageV dex¯tel que

fx+z)fx),zF ; ¯x+zV, fx+z)fx),zG; ¯x+zV.

3.1.2 Convexité

Définition 3.4(Convexité). SoitEun espace vectoriel (surIR) etf :E→IR. On dit quef est convexe si f(tx+ (1−t)y)tf(x) + (1t)f(y)pour tout(x, y)∈E2ett∈[0,1].

On dit quefest strictement convexe si

f(tx+ (1−t)y)< tf(x) + (1−t)f(y)pour tout(x, y)∈E2t.q.x6=yett∈]0,1[.

Proposition 3.5(Première caractérisation de la convexité). Soit E un espace vectoriel normé (surIR) etfC1(E,IR)alors :

(3)

1. la fonctionf est convexe si et seulement sif(y)≥f(x) +Df(x)(yx), pour tout couple(x, y)∈E2, 2. la fonctionf est strictement convexe si et seulement si f(y) > f(x) +Df(x)(y−x)pour tout couple

(x, y)∈E2tel quex6=y.

DÉMONSTRATION– Démonstration de 1.

(⇒) Supposons quefest convexe : soit(x, y)∈E2; on veut montrer quef(y)≥f(x) +Df(x)(y−x). Soitt∈[0,1], alorsf(ty+ (1−t)x)tf(y) + (1t)f(x)grâce au fait quefest convexe. On a donc :

f(x+t(yx))f(x)t(f(y)f(x)). (3.3) Commefest différentiable,f(x+t(yx)) =f(x) +Df(x)(t(yx)) +tε(t)ε(t)tend vers 0 lorsquettend vers 0. Donc en reportant dans (3.3),

ε(t) +Df(x)(y−x)f(y)f(x), ∀t∈]0,1[.

En faisant tendretvers 0, on obtient alors :

f(y)Df(x)(y−x) +f(x).

(⇐) Montrons maintenant la réciproque : Soit(x, y)∈E2, ett∈]0,1[(pourt= 0ou= 1on n’a rien à démontrer). On veut montrer quef(tx+ (1−t)y)tf(x) + (1t)f(y).On posez=tx+ (1−t)y. On a alors par hypothèse :

f(y)f(z) +Df(z)(y−z), etf(x)f(z) +Df(z)(x−z).

En multipliant la première inégalité par1−t, la deuxième partet en les additionnant, on obtient : (1−t)f(y) +tf(x)f(z) + (1t)Df(z)(yz) +tDf(z)(x−z) (1−t)f(y) +tf(x)f(z) +Df(z)((1−t)(yz) +t(xz)).

Et comme(1−t)(yz) +t(xz) = 0, on a donc(1−t)f(y) +tf(x)≥f(z) =f(tx+ (1−t)y).

Démonstration de 2

(⇒) On suppose quefest strictement convexe, on veut montrer quef(y)> f(x) +Df(x)(y−x)siy6=x. Soit donc (x, y)∈E2,x6=y. On posez= 12(y−x), et commefest convexe, on peut appliquer la partie 1. du théorème et écrire quef(x+z)f(x) +Df(x)(z).On a doncf(x) +Df(x)(y2x)≤f(x+y2 ). Commefest strictement convexe, ceci entraîne quef(x) +Df(x)(y2x)<12(f(x) +f(y)), d’où le résultat.

(⇐) La méthode de démonstration est la même que pour le 1.

Proposition 3.6 (Seconde caractérisation de la convexité). Soit E = IRn et fC2(E,IR). Soit Hf(x) la hessienne defau pointx, i.e.(Hf(x))i,j=i,j2 f(x). Alors

1. f est convexe si et seulement siHf(x)est symétrique et positive pour toutxE(c.à.d.Hf(x)t=Hf(x) etHf(x)y·y≥0pour touty∈IRn)

2. f est strictement convexe siHf(x)est symétrique définie positive pour toutxE. (Attention la réciproque est fausse.)

DÉMONSTRATION– Démonstration de 1.

(⇒) Soitfconvexe, on veut montrer queHf(x)est symétrique positive. Il est clair queHf(x)est symétrique cari,j2 f=

j,i2 fcarfestC2. Par définition,Hf(x) =D(f(x))et∇fC1(IRn,IRn).Soit(x, y)∈E2, commefest convexe et de classeC1, on a, grâce à la proposition 3.5 :

f(y)f(x) +f(x)·(y−x). (3.4)

SoitϕC2(IR,IR)définie parϕ(t) =f(x+t(yx)).Alors : f(y)f(x) =ϕ(1)ϕ(0) =Z 1

0

ϕ(t)dt= [ϕ(t)(t−1)]10− Z 1

0

ϕ′′(t)(t−1)dt, c’est–à dire :f(y)f(x) =ϕ(0) +R1

0 ϕ′′(t)(1−t)dt.Orϕ(t) =∇f(x+t(yx))·(y−x),et ϕ′′(t) =D(f(x+t(yx))(yx)·(y−x) =Hf(x+t(yx))(yx)·(y−x).

On a donc :

f(y)f(x) =f(x)(yx) +Z 1 0

Hf(x+t(yx))(yx)·(y−x)(1t)dt. (3.5)

(4)

3.1. DÉFINITIONS ET RAPPELS CHAPITRE 3. OPTIMISATION Les inégalités (3.4) et (3.5) entraînent :R1

0 Hf(x+t(yx))(yx)·(y−x)(1t)dt≥0∀x, yE. On a donc : Z 1

0

Hf(x+tz)z·z(1t)dt≥0 ∀x,zE. (3.6)

En fixantxE, on écrit (3.6) avecz=εy,ε >0,y∈IRn. On obtient : ε2

Z 1 0

Hf(x+tεy)y·y(1t)dt≥0 ∀x, yE,ε >0, et donc : Z 1

0

Hf(x+tεy)y·y(1t)dt≥0 ∀ε >0.

Pour(x, y)∈E2fixé,Hf(x+tεy)tend versHf(x)uniformément lorsqueε→0, pourt∈[0,1]. On a donc : Z 1

0

Hf(x)y·y(1t)dt≥0,c.à.d.1

2Hf(x)y·y≥0.

Donc pour tout(x, y)∈(IRn)2,Hf(x)y·y≥0doncHf(x)est positive.

(⇐) Montrons maintenant la réciproque : On suppose queHf(x)est positive pour toutxE. On veut démontrer que f est convexe ; on va pour cela utiliser la proposition 3.5 et montrer que :f(y)f(x) +f(x)·(y−x)pour tout (x, y)∈E2. Grâce à (3.5), on a :

f(y)f(x) =f(x)·(y−x) +Z 1 0

Hf(x+t(yx))(yx)·(y−x)(1t)dt.

OrHf(x+t(yx))(yx)·(y−x) ≥0pour tout couple(x, y)∈ E2, et1−t≥0sur[0,1]. On a doncf(y)f(x) +f(x)·(y−x)pour tout couple(x, y)∈E2. La fonctionfest donc bien convexe.

Démonstration de 2.

(⇐) On suppose queHf(x)est strictement positive pour toutxE, et on veut montrer quefest strictement convexe.

On va encore utiliser la caractérisation de la proposition 3.5. Soit donc(x, y)∈E2tel quey6=x. Alors : f(y) =f(x) +f(x)·(y−x) +Z 1

0

Hf(x+t(yx))(yx)·(y−x)

| {z }

>0six6=y

(1−t)

| {z }

6=0sit∈]0,1[

dt.

Doncf(y)> f(x) +∇f(x)(yx)six6=y, ce qui prouve quefest strictement convexe.

Contre-exemple Pour montrer que la réciproque de 2. est fausse, on propose le contre-exemple suivant : Soit n = 1 etfC2(IR,IR), on a alorsHf(x) = f′′(x). Sif est la fonction définie parf(x) = x4, alorsf est strictement convexe maisf′′(0) = 0.

(5)

3.2 Optimisation sans contrainte

3.2.1 Définition et condition d’optimalité

SoitfC(E,IR)etEun espace vectoriel normé. On cherchex¯minimum global def, c.à.d. :

¯

xEtel quefx)f(y) ∀yE, (3.7)

ou un minimum local, c.à.d. :

¯

xtel que∃α >0 fx)f(y) ∀yB(¯x, α). (3.8) Proposition 3.7(Condition nécessaire d’optimalité).

SoitE un espace vectoriel normé, et soientfC(E,IR), etx¯ ∈ E tel quef est différentiable enx. Si¯ x¯ est solution de (3.8) alorsDfx) = 0.

DÉMONSTRATION– Supposons qu’il existeα > 0tel quef(¯x)f(y)pour toutyB(¯x, α). SoitzE\ {0}, alors si|t|< kzkα , on ax¯+tzB(¯x, α)(oùB(¯x, α)désigne la boule ouverte de centrex¯et de rayonα) et on a donc f(¯x)f(¯x+tz). Commefest différentiable enx, on a :¯

f(¯x+tz) =f(¯x) +Dfx)(tz) +|t|εz(t), oùεz(t)→0lorsquet→0. On a doncf(¯x) +tDfx)(z) +|t|εz(t)≥f(¯x). Et pour α

kzk > t >0, on aDfx)(z) + εz(t)≥0. En faisant tendretvers 0, on obtient que

Df(¯x)(z)≥0, ∀zE.

On a aussiDfx)(z)≥0 ∀zE, et donc :Df(¯x)(z)≥0 ∀zE.

On en conclut que

Dfx) = 0.

Remarque 3.8. Attention, la proposition précédente donne une condition nécessaire mais non suffisante. En effet, Dfx) = 0n’entraîne pas quef atteigne un minimum (ou un maximum) même local, enx. Prendre par exemple¯ E= IR,x= 0et la fonctionf définie par :f(x) =x3pour s’en convaincre.

3.2.2 Résultats d’existence et d’unicité

Théorème 3.9(Existence). SoitE= IRnetf :E→IRune application telle que (i) f est continue,

(ii) f(x)→+∞quandkxk →+∞.

Alors il existex¯∈IRntel quefx)f(y)pour touty∈IRn.

DÉMONSTRATION– La condition(ii)peut encore s’écrire

A∈IR, ∃R∈IR;kxk ≥Rf(x)A. (3.9)

On écrit (3.9) avecA=f(0). On obtient alors :

R∈IRtel quekxk ≥Rf(x)f(0).

On en déduit queinfIRnf = infBRf, oùBR ={x∈IRn;|x| ≤R}.Or,BRest un compact deIRnetfest continue donc il existex¯∈BRtel quef(¯x) = infBRfet doncf(¯x) = infIRnf.

(6)

3.2. OPTIMISATION SANS CONTRAINTE CHAPITRE 3. OPTIMISATION

Remarque 3.10.

1. Le théorème est faux siE est un espace de Banach (c’est-à-dire un espace vectoriel normé complet) de dimension infinie car, dans ce cas, la boule ferméeBRn’est pas compacte.

2. L’hypothèse(ii)du théorème peut être remplacée par

(ii)b∈IRn,R >0tel quekxk ≥Rf(x)≥f(b).

3. Sous les hypothèses du théorème il n’y a pas toujours unicité dex¯même dans le casn= 1, prendre pour s’en convaincre la fonctionf définie deIRdansIRparf(x) =x2(x−1)(x+ 1).

Théorème 3.11(Condition suffisante d’unicité). SoitE un espace vectoriel normé etf : E → IR strictement convexe alors il existe au plus unx¯∈Etel quefx)f(y),∀yE.

DÉMONSTRATION– Soitfstrictement convexe, supposons qu’il existex¯etx¯¯∈Etels quef(¯x) =f(¯¯x) = infIRnf.

Commefest strictement convexe, si¯x6= ¯¯xalors f( 12¯x+ 12¯¯x)< 1

2f(¯x) + 12f(¯¯x) = inf

IRnf, ce qui est impossible ; doncx¯= ¯¯x.

Ce théorème ne donne pas l’existence. Par exemple dans le casn= 1la fonctionf définie parf(x) =exn’atteint pas son minimumn ; en effet,inf

IRnf = 0etf(x)6= 0pour toutx∈IR, et pourtantf est strictement convexe. Par contre, si on réunit les hypothèses des théorèmes 3.9 et 3.11, on obtient le résultat d’existence et unicité suivant :

Théorème 3.12(Existence et unicité). SoitE = IRn, et soitf :E→IR. On suppose que : (i)f continue,

(ii)f(x)→+∞quandkxk →+∞, (iii)fest strictement convexe ;

alors il existe un uniquex¯∈IRntel quefx) = inf

IRnf.

L’hypothèse(i)du théorème 3.12 est en fait inutile car une fonction convexe deIRn dansIRest nécessairement continue.

Nous donnons maintenant des conditions suffisantes d’existence et d’unicité du minimum pour une fonction de classeC1.

Proposition 3.13(Conditions suffisantes d’existence et unicité). SoitfC1(IRn,IR). On suppose que :

α >0; (∇f(x)− ∇f(y))·(x−y)αkxyk2,∀(x, y)∈IRn×IRn, (3.10a)

M >0;k∇f(x)− ∇f(y)k ≤Mkxyk,∀(x, y)∈IRn×IRn. (3.10b) Alors :

1. f est strictement convexe, 2. f(x)→+∞quand|x| →+∞,

et en conséquence, il existe un unique¯x∈IRntel quefx) = inf

IRnf.

(7)

DÉMONSTRATION

1. Soitϕla fonction définie deIRdansIRnpar :ϕ(t) =f(x+t(yx)). Alors f(y)f(x) =ϕ(1)ϕ(0) =Z 1

0f(x+t(yx))·(y−x)dt, On en déduit que

f(y)f(x)− ∇f(x)·(y−x) =Z 1 0

(∇f(x+t(yx))·(y−x)− ∇f(x)·(y−x))dt, c’est–à–dire :

f(y)f(x)− ∇f(x)·(y−x) =Z 1 0

(∇f(x+t(yx))− ∇f(x))·(y−x)

| {z }

≥αt|y−x|2

dt.

Grâce à l’hypothèse (3.10a) surf, ceci entraîne : f(y)f(x)− ∇f(x)·(y−x)α

Z 1 0

t|yx|2dt=α

2|yx|2>0siy6=x. (3.11) On a donc, pour tout(x, y) ∈ E2,f(y) > f(x) +f(x)·(y−x); d’après la première caractérisation de la convexité, voir proposition 3.5, on en déduit quefest strictement convexe.

2. Montrons maintenant quef(y)→+∞quand|y| → +∞. On écrit (3.11) pourx= 0:f(y) ≥f(0) +f(0)· y+α

2|y|2. Comme∇f(0)·y≥ −|∇f(0)|(y), on a donc f(y)f(0) +|y|α

2|y| − |∇f(0)|

→+∞quand|y| →+∞.

La fonctionfvérifie donc bien les hypothèses du théorème 3.30, et on en déduit qu’il existe un uniquex¯qui minimisef.

Remarque 3.14(Généralisation à un espace de Hilbert). Le théorème 3.12 reste vrai siEest un espace de Hilbert ; on a besoin dans ce cas pour la partie existence des hypothèses(i),(ii)et de la convexité def.

Proposition 3.15(Caractérisation des points tels quefx) = inf

Ef). Soit E espace vectoriel normé etf une fonction deEdansIR. On suppose quefC1(E,IR)et quef est convexe. Soitx¯∈E. Alors :

fx) = inf

EfDfx) = 0.

En particulier siE= IRnalorsfx) = inf

x∈IRnf(x)⇔ ∇fx) = 0.

Démonstration

(⇒) Supposons quefx) = inf

Efalors on sait (voir Proposition 3.7) queDfx) = 0(la convexité est inutile).

(⇐) Sif est convexe et différentiable, d’après la proposition 3.5, on a :f(y)≥fx) +Df(¯x)(yx)pour tout yEet comme par hypothèseDfx) = 0, on en déduit quef(y)≥fx)pour toutyE. Doncfx) = infEf.

Cas d’une fonction quadratique On appelle fonction quadratique une fonction deIRndansIRdéfinie par x7→f(x) =1

2Ax·xb·x+c, (3.12)

A∈Mn(IR),b∈IRnetc∈IR. On peut vérifier facilement quefC(IRn,IR).Calculons le gradient de fet sa hessienne : on a

f(x+h) = 1

2A(x+h)·(x+h)b·(x+h) +c

= 1

2Ax·x+1

2Ax·h+1

2Ah·x+1

2Ah·hb·xb·h+c

=f(x) +1

2(Ax·h+Ah·x)b·h+1 2Ah·h

=f(x) +1

2(Ax+Atx)·hb·h+1 2Ah·h.

(8)

3.2. OPTIMISATION SANS CONTRAINTE CHAPITRE 3. OPTIMISATION

Et comme|Ah·h| ≤ kAk2|h|2,on en déduit que :

f(x) =1

2(Ax+Atx)b. (3.13)

SiAest symétrique, on a donc∇f(x) =Axb.Calculons maintenant la hessienne def.D’après (3.13), on a :

f(x+h) =1

2(A(x+h) +At(x+h))b=∇f(x) +1

2(Ah+Ath)

et doncHf(x) =D(f(x)) = 12(A+At).On en déduit que siAest symétrique,Hf(x) =A. Dans le cas oùA est symétrique définie positive,f est donc strictement convexe.

De plus on af(x)→ +∞quand|x| → +∞. (On note comme d’habitude| · |la norme euclidienne dex.) En effet,

Ax·xα|x|2αest la plus petite valeur propre deA, etα >0.

Donc

f(x)≥ α

2|x|2− |b·x| − |c|; Mais comme|b·x| ≤ |b||x|,on a

f(x)≥ |x| α|x|

2 − |b|

− |c| −→+∞quand|x| →+∞. On en déduit l’existence et l’unicité dex¯ qui minimisef. On a aussi :

fx) = 0fx) = inf

IRnf et doncx¯ est l’unique solution du systèmeAx=b.

On en déduit le théorème suivant, très important, puisqu’il va nous permettre en particulier le lien entre certains algorithmes d’optimisation et les méthodes de résolution de systèmes linéaires vues au chapitre 1.

Théorème 3.16(Minimisation d’une fonction quadratique). Soitf une fonction deIRndansIRdéfinie par(3.12) oùA ∈ Mn(IR)est une matrice symétrique définie positive etb ∈IRn. Alors il existe un uniquex¯ ∈ IRnqui minimisef, etx¯est l’unique solution du système linéaireAx=b.

Références

Documents relatifs

[r]

[r]

3. Mohamed habite dans cette ville; le graphe suivant donne le nouveau plan du quartier avec les sens de circulation dans les différentes rues et le temps de parcours entre

2).Etudier, graphiquement, les variations de chaque fonction. Etudier, graphiquement, la parité de Chaque fonction. b).Retrouver ce résultat par le calcul.. Série d’exercices

Montrer par récurrence sur n, que F (x) admet une limite finie lorsque x tend vers -∞... Montrer que la suite (U n ) est converge et trouver

3°) Donner le tableau des variations de f. 4°) Tracer la courbe (C) représentative de f dans un repère orthonormé d'unité 1cm.. On indiquera et on tracera les asymptotes

1) Déterminer graphiquement la valeur minimal de f(x) et déduire la valeur de x pour atteinte cette valeur minimal. 2) trouver le résultat par le calcul. 3) Déterminer

Etant données deux fonctions f et g définies sur un intervalle I de IR et deux