Synthèse sur les méthodes newtoniennes en optimisation numérique non linéaire: écriture d'algorithmes efficaces

(1)

HAL Id: inria-00089161

https://hal.inria.fr/inria-00089161v3

Submitted on 11 Aug 2006

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Synthèse sur les méthodes newtoniennes en optimisation

numérique non linéaire: écriture d’algorithmes eﬀicaces

Matthieu Guilbert

To cite this version:

Matthieu Guilbert. Synthèse sur les méthodes newtoniennes en optimisation numérique non linéaire:

écriture d’algorithmes eﬀicaces. [Rapport Technique] RT-0325, INRIA. 2006, pp.20. �inria-00089161v3�

(2)

inria-00089161, version 3 - 11 Aug 2006

ISSN 0249-0803

a p p o r t

t e c h n i q u e

Thème NUM

INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE

Synthèse sur les méthodes newtoniennes en

optimisation numérique non linéaire: écriture

d’algorithmes efficaces

Matthieu Guilbert

N° 0325

(3)

(4)

Unité de recherche INRIA Rhône-Alpes

non linéaire: é riture d'algorithmes e a es

Matthieu Guilbert

ThèmeNUMSystèmesnumériques ProjetsBipop

Rapport te hniquen°0325Août200612pages

Résumé:Cedo umentdé ritlesméthodesnewtoniennesenoptimisationnon-linéaireave etsans ontrainte. Aprèsunbrefrappeldes onditionsd'optimalité,nousprésentonslesprin ipesgénérauxdel'algorithmiqueen optimisationet desméthodesdeNewton. Commelesméthodes newtoniennessontlo ales, 'est àdirequ'elles sontuniquementvalables pro he dela solution,il faut utiliserdes te hniquesde globalisationdela re her he de l'optimum, es te hniques ont ertains avantages,mais ellespeuvent entraîner des problèmes numériques, surtout enoptimisationave ontraintes.Pour al uler une dire tion de des ente,lesméthodes newtoniennes ontbesoindesdérivéesse ondesde lafon tionàminimiser (oùduLagrangiendansle as d'uneminimisation ave ontraintes) equipeutêtre oûteuxetpeut auserdesproblèmesnumériquessérieux; 'estpourquoinous exposonsuneméthodealternativedequasi-Newtondansles asave etsans ontraintes.

(5)

optimization: to e ient algorithms writing

Abstra t: This do ument deals with numeri al methods in non-linear optimization with and without on-straints. After a brief re apitulation of the optimality onditions, we present the general prin iples of the algorithmi in optimization and ofnewtonian methods. Sin ethese methods are onlyvalid near the solution, wemust useglobalization te hniques,su hte hniques haveseveraladvantages but they anseverely unsettle the onvergen e whenminimizing afun tion subje tto onstraints.Moreoverto omputeades entdire tion, Newton methodsneedse ondderivativesofthefun tionto minimize(oroftheLagrangianinthe aseof min-imization with onstraints), what may be ostly and may ause serious numeri al problems; that is why we exposeanotherwayofndingasolutionusingquasi-Newtonmethods.

(6)

Table des matières

1 Introdu tion 4

2 Méthodesnumériques d'OptimisationsansContrainte 4

2.1 Conditionsd'Optimalité[HU01℄. . . 4

2.2 MéthodesNumériques deNewton . . . 4

2.3 MéthodesNumériques deQuasi-Newton . . . 5

2.4 Ce qu'ilfautretenir . . . 7

3 Méthodesnumériques d'Optimisationave Contraintes 7 3.1 Conditionsd'Optimalité . . . 7

3.2 ProgrammationQuadratiqueSu essive: ontraintesd'égalité . . . 8

3.3 MéthodesdeQuasi-Newtonave Contraintes . . . 9

3.3.1 Fon tion depénalisationnondiérentiable. . . 9

3.3.2 Re her helinéaireet orre tiondePowell . . . 10

3.3.3 Duglobalaulo al :l'eetMaratos . . . 11

(7)

1 Introdu tion

L'obje tifde edo umentestd'exposerlesméthodesNewtoniennesenoptimisationnon-linéairedemanière trèssu in temaiseninsistantsurlesproblèmesnumériquesinhérentsà egenredeméthodes.J'espéreque ette synthèsesurlesméthodesNewtoniennespermettraaule teurdeserepérerdanslesméandresdelalittérature sur e sujet, mais surtout qu'il omprendra mieux le fon tionnement et le omportement de es algorithmes très omplexes.Maisavanttout,jetiensàremer iertoutparti ulièrementClaudeLemaré halpourses onseils avisésetsesrele turesindispensables.

L'optimisationnon-linéaire her heàrésoudredesproblèmesdutype:

min

x∈R

n

F (x)

c

E

(x)

=

0

(1)

c

I

(x)

≤

0

(2) ave

F : R

n

_{→ R}

lafon tionobje tifàminimiser,

c

E

: R

n

_{→ R}

me

les ontraintesdégalitéset

c

I

: R

n

_{↔ R}

mi

les ontraintesd'inégalités.Cedo umentexposedansunepremièrepartielesméthodesNewtoniennesen optimisa-tionsans ontrainte,et e iand'exposerlastru turegénéraled'unalgorithmed'optimisationtouteninsistant sur les algorithmesde quasi-Newtonqui sont ourammentutilisés aujourd'hui.Une se onde partie expose les méthodes Newtoniennes en optimisationave ontraintes, tout en insistant sur des eetsnumériques indésir-ablesliésàl'utilisationd'unefon tiondepénalisationnondiérentiableutiliséepourglobaliserlare her hedu minimum.

2 Méthodes numériques d'Optimisation sans Contrainte

Unproblèmed'optimisationsans ontraintes'é rit:

min

x∈R

n

F (x).

Il existe diérentes méthodes pour trouver une solution à e problème [BGLS03℄, mais nous allons nous on entrersurlesméthodesdeNewtonetquasi-Newtonaprèsavoirexposébrièvementles onditionsd'optimalité (les onditionsque doit satisfaire

F

au minimum). Nous insistonssur les méthodes de Newton ar ellessont aujourd'huilespluse a espourtrouverleminimumd'unefon tionnon-linéairegénérique.

2.1 Conditions d'Optimalité [HU01℄

Premierordre:

∇

x

F (x

∗

_{) = 0}

Se ondordre:

∇

2 x

F (x

∗

) 0

ave

x

∗

le minimum,

∇

x

F (x

∗

)

le gradientde

F

auminimum, et

∇

2 x

F (x

∗

)

la hessiennede

F

auminimum et

∇

2 x

F (x

∗

_{) 0}

désignantlasemi-déniepositivitéde

∇

2 x

F (x

∗

₎

auminimum.Ilest fa iled'avoiruneexpli ation intuitive de es onditions. En eet si

x

∗

est un minimumlo al de

F

alors

dF ≥ 0

(

dF

est une diérentielle de

F

) pour toute diérentielle

dx

issue de

x

∗

(pourles notions de diérentielles, le le teur peut se référer à [BMP04℄),ilestalorsfa ilededémontrerque

∇

x

F (x

∗

₎

doitêtrenul,maisaussique

∇

2 x

F (x

∗

_{) 0}

.Connaissant les onditionsquedoitsatisfaire

F

auminimumetpartantd'unitéréinitial

x

0

,uneméthodedeNewtonpermet de al uleruneapproximationause ondordredel'optimumsionestassezpro hede

x

∗

.

2.2 Méthodes Numériques de Newton

Lebutdesméthodesnumériquesenoptimisationestdetrouverunesuite

{x

k

}

qui onvergevers

x

∗

.A haque itération on her he unpas

d

k

qui fasse dé roître la fon tionobje tif, le s héma numérique d'un algorithme d'optimisationseprésente ommesuit:

Laplusgrandedi ultédans es hémaestdetrouverl'in rément

d

k

etunbonpremieritéré

x

0

.Le hoixdu premieritéréestlaisséàl'utilisateurquipourrale hoisirenfon tiondeses onnaissan essurleproblème.En e qui on ernel'in rément

d

k

,ilest importantdesoulignerqu'ildoitfairediminuerlafon tionobje tif.En eet la ondition

F (x

k

+ d

k

) < F (x

k

)

est fondamentaleenoptimisationnumérique, toutalgorithmed'optimisation

(8)

(i) Initialiser

k ← 0

,l'itéréinitial

x

0

etlatoléran ed'arrêt

ǫ

(ii) Trouverunin rément

d

k

telleque

F (x

k

+ d

k

) < F (x

k

)

(iii)

x

k+1

← x

k

+ d

k

(iv) Si

k∇

x

F (x

k+1

)k > ǫ

alleraupas(ii)sinons'arrêter

Tab.1 S hémanumériqued'unalgorithmed'optimisation

doitfor erlades entedelafon tionobje tif.Ilexistediversesméthodespourtrouverdesdire tionsdedes ente [BGLS03,p. 2-35℄,maisnousallonsnous on entrersurlesméthodesdeNewtonquipossèdentaujourd'hui les meilleurespropriétésde onvergen eparrapportaux(trop simples)méthodesdegradient,parexemple.

Partantd'unitéré ourant

x

k

,notreobje tif estdetrouverunpas

d

k

quifassedé roître

F

voirequi trouve leminimumde

F

, 'estàdireque

∇

x

F (x

k

+ d

k

) = 0

.Pour ela,linéarisonsles ondtionsd'optimalitéenfaisant undéveloppementdeTaylor:

∇

x

F (x

k

+ d

k

) = ∇

x

F (x

k

) + ∇

2 x

F (x

k

)d

k

+ o(kd

k

k).

(3)

Négligeonsleterme

o(kd

k

k)

,onobtientalorslesystème linéaire:

∇

x

F (x

k

) + ∇

2 x

F (x

k

)d

k

= 0

(4)

àrésoudrepourtrouverl'in rément.Sionestassezpro heduminimumalors

∇

2 x

F (x

k

)

estsemi-déniepositive et peutdon êtreinversée,onobtientalorslepasdedes ente :

d

k

= − ∇

2 x

F (x

k

)

−1

∇

x

F (x

k

)

(5)

Legrosavantaged'uneméthodedeNewtonestbien onnu:elle onvergetrèsrapidement[BGLS03,p.51℄. Si

∇

2 x

F (x

k

)

est ontinueetinversibleàproximitéde

x

∗

,laméthodedeNewton onvergesuperlinéairement,si enplus

F

est de lasse

C

3

elle onvergequadratiquement.PourquelaméthodedeNewtonsoite a e,ilfaut que

x

k

soitassezpro hede

x

∗

,dansle as ontrairela onvergen enepeutpasêtreassurée,il fautadapterla méthodepourfor erla onvergen eglobale.

Pour ela

d

k

est dorénavant onsidérée omme une dire tion le longde laquelle une re her he linéaireest utiliséeandediminuerlafon tion

q(t) = F (x

k

+td

k

)

,etdans e asona

x

k+1

← x

k

+td

k

.Pourunedes ription détailléedesdiérentes re her heslinéaires,onpeutseréférerà[BGLS03,37-50℄.

Ilreste ependantunproblèmedetaille, 'est le al ul delahessienneexa te

∇

2 x

F (x

k

)

qui peutêtrelourd (en onsidérantqu'elleestsymétrique,ilya

1

2 n(n + 2)

élémentsà al uler).Undeuxièmeproblèmeestqueloin

duminimum,ellen'estpasfor émentdénie positive.Ce problèmepeutêtrerésoluenutilisantune hessienne augmentéedetermessurladiagonaleandelarendredéniepositive.Onutilisealors

(∇

2 x

F (x

k

) + νI

n

)

(où

I

n

est lamatri e identité dedimension

n × n

)aulieu delahessienne, 'estlaméthode deLevenberg-Marquardt ([Fle87, p. 48℄) pour ontrer le mauvais onditionnement de la hessienne (elle est souvent utilisée pour des problèmesdemoindre arrés).

Remarque 2.1. Lesystème linéaire(4) orrespondaux onditionsd'optimalité duproblèmequadratique suiv-ant :

(P

QT

)

min

d

k

∈

_R

n

F (x

k

) + ∇

x

F (x

k

)

T

_d

k

+

1

2 d

T

k

∇

2 x

F (x

k

)d

k

(6) qui estappelé "problèmequadratiquetangent" aril orrespondàminimiserune approximation quadratique du problème initial. C'est unpoint lé dans la dénition desProgrammes Quadratiques Su essifs (PQS ouSQP en anglais) utilisés dans l'optimisation ave ontraintes. On peut dès à présent voir les méthodes de Newton omme unesu essionde problèmes quadratiques tangentsàrésoudre.

2.3 Méthodes Numériques de Quasi-Newton

Considéronsles hémanumériquedeNewtondelase tionpré édente,maispluttquede al ulerlahessienne exa te à haque itération et de résoudre le système linéairepour l'inverser, une autre idée serait de trouver dire tementuneapproximationde

∇

2 x

F (x

k

)

−1

parunematri e

H

k

; 'est equefaitles héma2.Laquestion dans e shémarésidedanslepas(iv):trouverune matri ed'adaptation

C

k

telleque:

ellesoit plusfa ileà al ulerque

∇

2 x

F (x

k

)

(9)

(i) Initialiser

k ← 0

,

H

k

← I

n

,

l'itéré initial

x

0

,et latoléran ed'arrêt

ǫ

(ii)

d

k

← −H

k

∇

x

F (x

k

)

(iii) Faireunere her helinéairelelongde

d

k

sur

q(t

k

) = F (x

k

+ t

k

d

k

)

(iv)

x

k+1

← x

k

+ t

k

d

k

(iv)

H

k+1

← H

k

+ C

k

,

k ← k + 1

,

(v) Si

k∇

x

F (x

k+1

)k > ǫ

alleraupas(ii)sinons'arrêter

Tab.2 S hémanumériqued'unalgorithmedequasi-Newton

H

k+1

soittoujoursdéniepositive

seuleslesdérivées premièresdelafon tion

F

soientné essaires Il nous faut trouver une relation entre

H

k+1

et

∇

2 x

F (x

k

)

, pour ela faisons un développement de Taylor du gradient:

∇

x

F (x

k

+ δ

k

) = ∇

x

F (x

k

) + ∇

2 x

F (x

k

)δ

k

+ o(kδ

k

k),

(7)

enposant

γ

k

= ∇

x

F (x

k+1

) − ∇

x

F (x

k

)

et

δ

k

= x

k+1

− x

k

,onpeutalorsé rire:

γ

k

= ∇

2 x

F (x

k

)δ

k

+ o(kδ

k

k).

(8)

Anque

H

k+1

mime orre tementl'inversedelahessiennedansladire tion déniepar

γ

k

,ilfautque:

H

k+1

γ

k

= δ

k

;

(9)

etterelationestsouventappeléerelationfondamentaledequasi-Newton.Touteslesméthodesd'adaptationde

H

k

devront, quoi qu'il sepasse, respe ter ette ondition. La manière la plus simple pour mettre à jour

H

k

est del'augmenterd'unematri ederang1; onrenvoieà[Fle87,p.53℄pourdesdétailssur ette méthode.Les méthodes qui nous intéressent plusparti ulièrement sont les méthodes de mise àjour de rang 2, 'est àdire qu'on ajoutedeuxmatri esderang 1à

H

k

:

H

k+1

= H

k

+ auu

T

+ bvv

T

.

(10)

Onpeutalorsappliquerleprin ipefondamental (9)surlaformule(10),onobtient:

δ

k

= H

k

γ

k

+ auu

T

γ

k

+ bvv

T

γ

k

,

(11)

un hoixlogiqueestdon

u = δ

k

et

v = H

k

γ

k

,onpeutalorsidentier

a

et

b

enposant

au

T

_γ

k

= 1

et

bv

T

_γ

k

= −1

, onobtientalorslaformuledemiseàjourdeDavidon,Flet heret Powell(DFP):

H

DF P

k+1

= H +

δδ

T

δ

T

_γ

−

Hγγ

T

_H

γ

T

_Hγ

.

(12)

Onremarqueraqu'onaomisl'indi e

k

danslese ondmembredel'équation(12)parsou idesimpli ation.En faisantd'autres hoixlorsdel'identi ationde

a

,

b

,

u

,

v

,onpeutobtenirlamiseàjourdeBroyden,Flet her, Goldfarbet Shanno(BFGS) :

H

BF GS

k+1

= H +

1 +

γ

T

_Hγ

δ

T

_γ

δδ

T

δ

T

_γ

−

δγ

T

_{H + Hγδ}

T

δ

T

_γ

(13)

Ilestintéressantde al ulerl'inversede

H

BF GS

k+1

,notonsla

B

BF GS

k+1

:

B

BF GS

k+1

= B +

γγ

T

γ

T

_δ

−

Bδδ

T

_B

δ

T

_Bδ

.

(14)

Laressemblan eestnotableave laformuleDFP(12),ilsutd'é hanger

γ

ave

δ

et

B

ave

H

etonobtientla formuleDFP; es deuxformulessontdites omplémentairesouduales,onrenvoielele teurà[Fle87,p.49-68℄ pourplusdedétailsà e sujet.Onadon unematri equi estmise àjour au ours desitérations,quiest plus simple à al uler que la hessienne exa te, qui mime son omportement dans la dire tion de des ente et qui n'utilisequedesdérivéespremières.CependantlesformulesDFPouBFGSn'imposentpasque

H

k+1

(ou

B

k+1

) soit déniepositive,néanmoinsdans[Fle87,p. 54℄et[BGLS03,p. 56℄onpeuttrouverlethéorèmesuivant:

(10)

Théorème 2.1. Si

δ

k

γ

k

> 0

alors les formules BFGS ouDFP assurent que

H

k+1

est dénie positive si

H

k

l'est.

Remarque 2.2. Si dansle s héma numérique (1 ), on utiliseune formule d'adaptation DFP ou BFGS, alors la ondition

δ

k

γ

k

> 0

est automatiquementsatisfaite sionutilise la re her he linéairedite de Wolfe[BGLS03, se tion3.4℄.

Un algorithmedequasi-Newton utilisantlaformule BFGSet lare her helinéairedeWolfe onvergealors superlinéairementvers

x

∗

;pourladémonstrationonrenvoieà[BGLS03,p. 65℄.

2.4 Ce qu'il faut retenir

LesméthodesdeNewtonutilisentlesdérivéespremièresetse ondesdelafon tionàminimiserpour al uler un pas de des ente

d

k

à partir de la formule (5);

d

k

est aussi la solution du problème quadratique tangent (6). Cette méthode est valable si on est assezpro he du minimum de

F

. Dans le as où on est loin, il faut globaliserl'optimisationenutilisantunere her helinéairelelongde

d

k

.L'avantaged'uneméthodedeNewton est qu'elle onvergesuperlinéairement(voirequadratiquement),maisilfaut al ulerlahessiennedelafon tion à minimiser e qui peut être oûteux. Un autre problèmeest queloin del'optimum, lahessiennepeutne pas êtredéniepositiveetdon nepasêtreinversibleou

d

k

nepasêtreunedire tiondedes ente.Lesméthodesde quasiNewtonrépondentà esproblèmesenmettantàjourunematri equimimelahessiennedansladire tion indiquéeparlesgradients.Cettematri epeutêtremiseàjourà haqueitérationparlaformuledeBFGS(13), elleest plusfa ileà al ulerque lahessienneexa te et esttoujoursdénie positivesousla onditionindiquée danslethéorème2.1.Cettedernière onditionestautomatiquementvériéesionutiliselare her helinéairede Wolfe.Unalgorithmedequasi-Newton ompletpeutdon sedéroulerainsi ommedanslatable(2)enutilisant une re her helinéairedeWolfe.

3 Méthodes numériques d'Optimisation ave Contraintes

Unproblèmed'optimisationave ontraintess'é rit omme:

min

x∈R

n

F (x)

c

E

(x)

= 0

(15)

c

I

(x)

≤ 0,

(16) ave

c

E

(x) : R

n

_{→ R}

m

E

et

c

I

(x) : R

n

_{→ R}

m

I

, on notera dorénavant

m = m

E

+ m

I

. Ilexiste plusieurs méthodes pour trouverune solutionà e problème [Fle87℄. Après unexposé bref des onditionsd'optimalité d'un tel problème, nous allons exposer les méthodes de type Programmation Quadratique Su essive(PQS) basées sur les méthodes de Newton. Enn, nous nous on entrerons tout parti ulièrement sur les méthodes quasi-Newtonqui sontlargementutiliséesaujourd'hui.

3.1 Conditions d'Optimalité

Les onditionsd'optimalitédupremierordre d'unproblèmed'optimisationsous ontraintessont:

∇

x

F (x

∗

) + ∇

x

c

E

(x

∗

)

T

λ

E

∗

+ ∇

x

c

I

(x

∗

)

T

λ

∗

I

= 0

(17)

c

E

(x

∗

)

= 0

(18)

c

I

(x

∗

)

≤ 0

(19)

λ

∗

I

≥ 0

(20)

c

I

(x

∗

)

T

λ

∗

I

= 0

(21)

ave

λ

E

et

λ

I

desve teursappelésmultipli ateursdeLagrange.Enposant

λ = (λ

E

, λ

I

)

T

et

c(x) = (c

E

(x), c

I

(x))

T

et lelagrangien:

L(x, λ) = F (x) + c(x)λ

T

(22)

(11)

alorsles onditions(17)et(18)exprimentque:

∇

(x,λ

E

)

L(x, λ) = 0.

(23)

La onditionde omplémentarité(21)peutêtrevue ommeune onditiond'a tivation des ontraintes,eneet si

c

k

I

(x) < 0

alors

λ

k

I

= 0

et si

c

k

I

(x) = 0

alors

λ

k

I

≥ 0

, et e i pour tout

1 ≤ k ≤ m

. Tout omme pour

l'optimisationsans ontrainte,onpeuttrouverune expli ationintuitivede es onditions.Eneetsi

x

∗

est un minimum lo al alors

dF ≥ 0

dans toutesles dire tions autorisées parles ontraintes d'égalitéset d'inégalités a tives. La ondition d'optimalité du se ond ordre est que la hessienne du Lagrangien doit être semi-dénie positive sur le sous espa e tangent (noyau de la ja obienne des ontraintes a tives), pour plus de détails le le teur peutseréférer à[HU01℄.

Remarque 3.1. Pour éviter des problèmes d'optimisation pathologiques, il est ommode de supposer que la ja obiennedes ontraintesa tivessoitderangplein,pourplusdedétailslele teurpeutseréférerà[HU01 ℄.Ces onditionsde quali ation des ontraintessont né essairespour é rireles onditionsd'optimalité(17 )-(21).

Pour plus de détails sur les diérentes interprétations géométriques ou analytiques et sur la théorie de l'optimisationsous ontraintes,onrenvoielele teurà[HU01,p.54-58℄etau hapitre9de[Fle87℄.Maintenant qu'on onnaîtles onditionsquedoiventvérierlafon tionetles ontraintesauminimum,lesméthodesdetype Newton sontàl'heurea tuellelespluse a espourrésoudreunproblèmed'optimisationave ontraintes.

3.2 Programmation Quadratique Su essive : ontraintes d'égalité

Andemieux omprendre omments'é ritunalgorithmePQS,nousallonsnouslimiteraux ontraintes d'é-galitéet e isansvéritablepertedegénéralité.Eneet,onpeutestimerqu'enétantassezpro hedel'optimum, l'étatd'a tivationdes ontraintesd'inégaliténe hangeplusetonpeutlestraiter ommedes ontraintes d'égal-ité; de plusonverraquel'a tivationdes ontraintesest faiteau niveaudu PQ(ProgrammationQuadratique ou QPenanglais) quine serapasdéveloppédans edo ument.Demanière identiqueau assans ontrainte, onfaitundéveloppementdeTayloraupremierordredes onditionsd'optimalité(23),onobtientalors:

∇

x

L(x

k

+ dx, λ

k

+ dλ)

≈ ∇

x

L(x

k

, λ

k

) + ∇

2 xx

L(x

k

, λ

k

)dx + ∇

2 xλ

L(x

k

, λ

k

)dλ

(24)

∇

λ

L(x

k

+ dx, λ

k

+ dλ)

≈ ∇

λ

L(x

k

, λ

k

) + ∇

2 λx

L(x

k

, λ

k

)dx + ∇

2 λλ

L(x

k

, λ

k

)dλ.

(25)

En é rivantque e idoitêtrenul,onobtientalorslesystèmelinéaire:

∇

x

L(x

k

, λ

k

) + ∇

2 xx

L(x

k

, λ

k

)dx + ∇

x

c(x

k

)

T

dλ =

0

(26)

c(x

k

) + ∇

x

c(x

k

)dx

=

0

(27)

Unepetiteastu e onsisteàremarquerque

∇

x

L(x

k

, λ

k

)

estlinéaireparrapportà

λ

k

,l'équation(26)devient alors:

∇

x

F (x

k

) + ∇

2 xx

L(x

k

, λ

k

)dx + ∇

x

c(x

k

)

T

(λ

k

+ dλ) = 0

(28)

Comme

λ

k+1

= λ

k

+ dλ

, onobtientalorslenouveausystèmelinéaireàrésoudre:

∇

2 xx

L(x

k

, λ

k

) ∇

x

c(x

k

)

T

∇

x

c(x

k

)

0 dx

λ

k+1

= −

∇

x

F (x

k

)

c(x

k

)

(29)

Remarque 3.2. La matri e de e système estinversible si(i)

∇

x

c(x

k

)

est de rang plein et(ii)

∇

2 xx

L(x

k

, λ

k

)

est déniepositive surle sousespa etangent (le noyaude

∇

x

c(x

k

)

) ( f remarque3.1 ), pour plusde détails le le teur peutseréférerà[BGLS03,p.174℄.

Dansle asoùiln'yaquedes ontraintesd'égalité,lesystèmed'équations(29)n'estautrequeles onditions d'optimalitéduprogrammequadratiquesuivant:







min

d

k

∈

_R

n

∇

x

F (x

k

)

T

_dx

k

+

1

2 dx

T

k

∇

2 xx

L(x

k

, λ

k

)dx

k

c

E

(x

k

) + ∇

x

c

E

(x

k

)dx

k

= 0

(30)

Sansrentrerdanslesdétails inutilesdans edo ument,onpeutétendre e résultataux ontraintesd'inégalité et é rireleproblèmequadratiquetangentauproblèmed'optimisationave ontraintesd'égalitéet d'inégalité:

(12)

(P

QT

)











min

d

k

∈

_R

n

∇

x

F (x

k

)

T

_dx

k

+

1

2 dx

T

k

∇

2 xx

L(x

k

, λ

k

)dx

k

c

E

(x

k

) + ∇

x

c

E

(x

k

)dx

k

= 0

c

I

(x

k

) + ∇

x

c

I

(x

k

)dx

k

≤ 0

(31)

Leproblèmed'a tivationdes ontraintesd'inégalitésestdon renvoyéauniveaudelarésolutionduproblème quadratique tangent.Onpeutalorsé rireunPQSàhessienneexa te ommedansles hémanumérique3.

(i) Initialiser

k ← 0

,l'itéréinitial

(x

0 , λ

0 )

et latoléran ed'arrêt

ǫ

(ii) Cal uler

∇

x

F (x

k

)

et

∇

2 xx

L(x

k

, λ

k

)

(ii) Cal uler

dx

k

et

λ

k+1

enrésolvant

(P

QT

)

(31) (iii)

x

k+1

← x

k

+ d

k

(iv) Si

k∇

(x,λ)

L(x

k+1

, λ

k+1

)k > ǫ

alleraupas(ii)sinons'arrêter Tab.3 S hémanumériqued'unPQSàhessienneexa te

Le pas(ii) est l'étapenon triviale de et algorithme. La résolutiond'un Programme Quadratique(PQou QP en anglais) est basée sur le système linéaire(29), ependant e système ne traduit pas le problème lié à l'a tivationdes ontraintes.Larésolutiond'unPQnefaisantpasl'objet de edo ument,onrenvoielele teur au hapitre10dulivre[Fle87℄pourdeplusamplesdétails surl'a tivation des ontraintes.

Commepourles méthodesde Newton sans ontrainte,letalon d'A hille dus héma (3)est le al ul de la hessienneexa tequi peutêtrelourd,et ellepeutnepasêtredéniepositivesionest loinduminimum.

3.3 Méthodes de Quasi-Newton ave Contraintes

Ledéveloppementdesméthodesdequasi-Newton ave ontraintes estbasé surle mêmeprin ipeque elui des problèmessans ontrainte exposé dansla se tion2.3, il faut ependantrempla er lafon tion

F (x)

parle lagrangien

L(x, λ)

.Ainsi,enposant:

γ

l

k

= ∇

x

L(x

k+1

, λ

k+1

) − ∇

x

L(x

k

, λ

k+1

)

et δ

k

= x

k+1

− x

k

,

(32)

onremarqueraqu'onévaluelegradientdulagrangienen

λ

k+1

pour al uler

γ

l

k

, e isejustieparlefaitqu'on onnait e

λ

k+1

etqu'on her heàmimerlahessiennedulagrangienparrapportà

x

etpasparrapportà

λ

.De manière analogueau as sans ontrainte,on peut réé rirel'équation fondamentalede quasi-Newton(9), mais aussilaformuledeBFGSpourlahessiennedulagrangien:

B

_k+1

Lagr

= B +

γγ

T

γ

T

_δ

−

Bδδ

T

_B

δ

T

_Bδ

.

(33)

Pourglobaliserl'algorithme,onpeututiliserunere her helinéaireouunere her heparrégionde onan e. On faitle hoixi idedé rire uniquement lesméthodesave re her helinéaire.Cettere her hedoitêtre faite surunefon tionquiprenneen ompteàlafoisle ritèreàminimiseretles ontraintes,detellesfon tionssont appeléesfon tionsdepénalisation.

3.3.1 Fon tion de pénalisationnon diérentiable

Ilexisteunemultitudedefon tionsdepénalisation, ependantonpeut lasser esfon tionsendeuxfamilles: lesfon tionsdepénalisationinexa teset exa tes.Nousallonsnous on entrersurlesfon tionsdepénalisation exa te et plus pré isément sur la pénalisation

L

1

ar elle est exa te sans faire appel à uns hémaitératif. A l'inverse,d'autrespénalisations ommelesfon tionsbarrièresoulelagrangienaugmentésontaussi ouramment utilisées;pourplusdedétailsonrenvoielele teurà[Fle87,p.277-304℄.Lafon tiondepénalisation

L

1

estdénie par:

Φ(x) = F (x) +

m

E

X

i=1

σ

i

|c

i

(x)| +

m

X

i=m

E

+1

σ

i

| max(c

i

(x), 0)|

(34)

Cetteméthodedepénalisationdistingueles ontraintes d'égalitéset d'inégalités,eneetseulesles ontraintes d'inégalités a tives inuent sur la valeur de la fon tion de pénalisation et ette a tivation est faite à l'aide

(13)

de la fon tion

max

. Pour quela pénalisation (34)soit exa te, il faut que les

σ

i

soit assezgrandspourque la roissan edes

c

i

ompenseladé roissan edelafon tion oût

F

.Ainsipluttquedexerles

σ

i

trèsgrands, e quipourraitentrainerdesproblèmesnumériques(les ontraintesseraientalorsprépondérantesparrapportàla fon tion oût), il seraitplusjudi ieux de l'ajuster au ours de l'optimisationpourque savaleur soit toujours justeassezgrande.Pour ela,laproposition15.1de[BGLS03℄proposeunerelationentre

σ

et

λ

k+1

(

λ

k+1

étant al ulé en résolvant le problème quadratique tangent (31)) : si

σ

i

≥ kλ

k+1

k

∞

alors la pénalisation (34) est exa te. Onpeutalorsétablirunerègled'ajustementde

σ

k

ommedanslatable(4).

si

σ

k−1

≥ 1.1(kλ

k+1

k

∞

+ ¯

σ)

,

alors

σ

k

= (σ

k−1

+ kλ

k+1

k

∞

+ ¯

σ)/2

; sinon si

σ

k−1

≥ kλ

k+1

k

∞

+ ¯

σ

,

alors

σ

k

= σ

k−1

.

sinon

σ

k

= max(1.5σ

k−1

, kλ

k+1

k

∞

+ ¯

σ)

. Tab.4 Règled'ajustementde

σ

I i

σ > 0

¯

estune onstantexéeaupréalable,ellepermet que

σ

k+1

soittoujoursnettementplusgrandque

kλ

k+1

k

∞

, 'estunpeuunebarrièredesé uritépourque

σ

k+1

soittoujoursassezgrand.Cetterègled'ajustement aétéproposéehistoriquementparMayneetPolaketonrenvoielele teurà[BGLS03,p.239-242℄pourplusde détails sur etterègled'ajustementde

σ

.

A ausedesvaleursabsoluesetdelafon tion

max(., .)

danslapénalisation(34),ilest lairque ettedernière fon tionn'estpasdiérentiablepartout,etentreautreauminimum.Ce irisquedemettreenpérill'utilisation d'unere her helinéairedetypeArmijo,WolfeoumêmeGoldsteinetPri equiontaumoinsbesoindeladérivée dire tionnelle dela fon tiondepénalisationdans ladire tion

dx

k

. Lelemme 14.3de[BGLS03℄ indiquequesi

F (.)

,

c

E

(.)

et

c

I

(.)

admettentune dérivéedire tionnelle en

x

k

et dansladire tion

dx

k

alors

Φ(.)

admetaussi

une dérivéedire tionnelle lelongde

dx

k

et ellevaut:

Φ

′

(x

k

, dx

k

) = ∇

x

F (x

k

)dx

k

+ kS

k

P

c(x

k

)

∇

x

c(x

k

)dx

k

1

(35)

ave

S

k

= diag(σ

i,k

)

, etl'opérateur

P

v

u

identiqueàl'opérateurutilisé dans[BGLS03, p.225℄etdénipar:

(P

v

u)

i

=











u

i

si

1 ≤ i ≤ m

E

max(u

i

, 0) si

m

E

≤ i ≤ m

et v

i

= 0

0 si

m

E

≤ i ≤ m

et v

i

< 0.

u

i

si

m

E

≤ i ≤ m

et v

i

> 0.

(36)

Cet opérateur permet une é riture synthétique de la dérivée dire tionnelle (35). On peut don utiliser ette fon tiondepénalisationpourfaireunere her helinéaireetglobaliserlare her heduminimum.

3.3.2 Re her he linéaireet orre tion de Powell

Dans les méthodes de quasi-Newton sans ontrainte, on avait justiél'emploi d'une re her he linéairede Wolfe ar elle permettait d'assurer la ondition

γ

k

δ

k

> 0

qui implique que

B

k+1

est dénie positive si

B

k

l'est. Dans le as ave ontraintes,on ne fait pas la re her he linéairesur le lagrangienmais sur la fon tion de pénalisation (34), ainsi même si on utilise une re her he linéairede Wolfe on ne pourra jamais assurer la ondition

γ

l

k

δ

k

> 0

.C'estpourquoilare her helinéairedeArmijoestsouventpréféréeàlare her helinéairede

Wolfe arelleestplussimpleàimplanter,lesqualitésdelare her hedeWolfesontsurtoututilesenoptimisation sans ontrainte.Sipourunpasunitairelafon tion depénalisationnediminuepas, lepasest divisépardeux parexemple(mais en'estpasleplusjudi ieux,onpréférerautiliserlaméthodedu" ubi tting"exposéedans [BGLS03, p.40-41℄).Lare her helinéairenepermet don pasd'assurerlapositivitédelamatri edeBFGS.

Pour ompenser e problème, Powell aproposé de modier

γ

l

k

(le

γ

de l'équation (33)) jusqu'à e quele s alaire

(γ

l

k

)

T

δ

k

soitpositif.Dansunpremiertemps,ilfaut al ulerunpas

t

k

lelongdeladire tion

dx

k

al ulée parlePQandediminuerunefon tiondemérite(la fon tiondepénalisation(34),parexemple) equidonne le nouvelitéré

x

k+1

← x

k

+ t

k

dx

k

.

γ

l

k

et

δ

k

sontdénies par(32),et lebut est de al ulerun

γ

P

k

ommeune ombinaison onvexede

γ

l

k

et

B

Lagr

k

δ

k

:

γ

P

k

← θγ

k

l

+ (1 − θ)B

Lagr

k

δ

k

(37)

(14)

x

∗

δ

1 x

1 _x

2

ontouroff

x

2 _{+ y}

2 _{= 1}

Fig.1 Illustrationdel'eet Maratos

On hoisitdon

γ

P

k

= B

k

δ

k

pour

θ = 0

omme issue dese ours, on aalors

B

Lagr

k+1

= B

Lagr

k

et on est assuré que

B

Lagr

k+1

estdéniepositive.Cependantlebutestdemodierauminimum

γ

l

k

andepréserverlemaximum d'informationsfournie parlesdonnéesduproblème, ilfaut don hoisir

θ

leplusgrandpossibledans

[0, 1]

tel qu'on ait:

(γ

k

P

)

T

δ

k

≥ 0.2δ

T

k

B

Lagr

k

δ

k

Comme

B

Lagr

k

estdénie positive, etteinégalitéestsatisfaitepour

θ = 0

,Powelladon proposé:

θ =

(

1 si (γ

P

k

)

T

δ

k

≥ 0.2δ

k

T

B

Lagr

k

δ

k

,

0.8 δ

T

k

B

k

δ

k

δ

T

k

B

k

δ

k

−

(γ

k

l

)

T

δ

k

sinon.

(38)

Cettete hniqueestappeléela orre tiondePowell.Pourplusdedétailssur ette orre tion,onpeutseréférer à [BGLS03, p.269-270℄et [Fle87, p. 310℄.Cette orre tion de Powell orrige unproblème intrinsèquementlié à l'utilisation d'une fon tion de pénalisation dans des méthodes de quasi-Newton. Il existe en ore un autre problèmequi estluiliéàlanondiérentiabilitédelafon tiondepénalisation:l'eetMaratos.

3.3.3 Duglobal aulo al :l'eet Maratos

Comme on l'a vu pré édemment, une re her he linéaire permet de globaliser l'optimisation, 'est à dire qu'elle permet de onvergerversunminimum même sil'itéré initial est loin de elui- i. Plus onserappro he duminimum,plusl'algorithmeave re her helinéairedoittendreversl'algorithmelo alexposédanslase tion 3.2, 'estàdirequelerésultatdelare her helinéairedoittendrevers

t

k

= 1

.Cettepropriétépeutêtreappelée "admissibilité asymptotiquedupasunitaire".Cependantil estpossiblequemême trèspro he duminimumle pasunitairesoitrejeté ar

Φ(x

k

+ dx

k

) > Φ(x

k

)

(onrappellei ique

Φ(.)

est lafon tiondepénalisation(34)); e phénomèneest onnusouslenomd'eetMaratosetest illustréparl'exemple3.1.

Exemple 3.1. On peut illustrer e phénomène en utilisant l'exemple souvent utilisé [BGLS03,p.254-255℄ et illustréparla Figure1:

min

x,y

(2(x

2 _{+ y}

2 _{− 1) − x}

1 )

,soumisà

x

2 _{+ y}

2 _{− 1 = 0}

Lasolutionoptimalede eproblème est

s

∗

_{= (1, 0)}

T

.Lagure1illustreunpasdeSQPpartantde

s

1 = (0, 1)

T

, la résolution du problème quadratique tangent donne une dire tion

δ = (1, 0)

T

pour atteindre la position

s

2 =

(1, 1)

T

. Dans et exemple, le pas

δ

sera automatiquement rejeté (un pas

t

k

= 0

) par la re her he linéaire vu quelafon tionde pénalisationL1augmentedansladire tionfournieparlarésolutionduproblème quadratique tangent.

Cet eets'expliqueparle faitqueladé roissan e de

F (.)

ne ompenseplusla roissan ede

kc(.)k

1

et est parfaitementillustrédans[BGLS03,Exemple15.6℄.Cephénomèneestune onséquen edire tedelaséparation fran heentrele al uldeladire tionàl'aideduproblèmequadratiquetangent(31)etle al uldupasàl'aide delafon tiondepénalisation(34).Leproblèmevientdelafon tiondepénalisation,oudumoinsdelamanière dontonl'utilise.

(15)

Ilexiste une orre tiondu se ond ordre de

dx

k

qui permet de ompenser e phénomène, on al ule alors

dx

m

k

:

dx

m

k

← dx

k

− (∇

x

c

A

(x

k

))

−

c

A

(x

k

+ dx

k

),

(39) ave

c

A

(.)

les ontraintesd'égalitésetles ontraintesd'inégalitésa tives,

(∇

x

c

A

(x

k

))

−

lapseudo-inverseàdroite delaja obiennedes ontraintes orrespondantes.Onrappelleque:

(∇

x

c

A

(x

k

))

−

= (∇

x

c

A

(x

k

)∇

x

c

A

(x

k

)

T

)

−

1 ∇

x

c

A

(x

k

)

T

.

Pourplusdedétailssurlesdiérentesméthodesde ompensationdel'eetMaratos,lele teurpeutseréférer à[Fle87,p.393-395℄et[BGLS03, p.254-260℄.

3.4 Ce qu'il faut retenir

(i) Choisirunitéréinitial

(x

1 , λ

1 )

, etlatoléran ed'arrêt

ǫ

al uler

F (x

1 )

,

c(x

1 )

,

∇

x

F (x

1 )

et

∇

x

c(x

1 )

xerune onstante

ω ∈]0,

1

2 [

(modi ateurdepentedansles onditionsd'Armijo),

et

¯

σ > 0

(seuilduparamètredepénalité),

β ∈]0,

1

2 [

(paramètredesé urité danslare her helinéaired'Armijo),et

M

1 ← I

n

(ii) Cal ulsde

δ

k

et

γ

P

k

enutilisantla orre tiondePowell(37), (iii) Mise àjourde

M

k

enutilisantlaformuledeBFGS(13),

(iv) Cal ulsde

(dx

k

, λ

k+1

)

,solutionduproblèmequadratiquetangent(31), (v) Miseàjourdesparamètresdepénalité

σ

k

enutilisantlarègle4, (vi) Cal ulde

dx

m

k

enutilisantla orre tionduse ondordre(39),

(vii) Cal uldupas

t

k

,solutiondelare her helinéaired'Armijosurlafon tion depénalisation(34)dansladire tion

dx

m

k

, (iix)

x

k+1

← x

k

+ t

k

dx

k

,

λ

k+1

← λ

k

,

(ix)

k ← k + 1

,sileséquations(17)à(21)sontvériéesà

ǫ

prèsonarrête,

sinonaller aupas(ii).

Tab.5 S hémanumérique d'unPQSdequasi-Newton

On a ommen é paré rire les onditionsd'optimalité pourunproblème de minimisationave ontraintes d'égalitésetd'inégalités.Tout ommepourlesproblèmesd'optimisationsans ontrainte,ilaétépossibled'é rire uneméthodedeNewton, equinousaamenéàé rireunpremieralgorithmedeminimisationàhessienneexa te de latable 3.Tout ommepour lesproblèmessans ontrainte,le al ulde lahessienneexa te est souventun travaillourdetpeutmeneràdesproblèmesnumériqueslorsqu'onestloinduminimum, 'estpourquoionutilise ourammentdesméthodes de quasi-Newtonoù lahessiennedulagrangienest estimée au ours des itérations àl'aidedelaformuledeBFGS(33).Andeglobaliser ette optimisation,onutilise unere her helinéairesur unefon tiondepénalisationdontleminimum

x

∗

est,sous ertaines onditions,lemêmeque eluiduproblème original.Faireunere her helinéairesurunefon tionautrequelafon tion oûtimpliquequeladéniepositivité de

B

k+1

n'estplusassuréeparlare her helinéaire, e iaamenéPowellàdénirune orre tionpourassurer ette dénie positivité. Dès lors,il n'y a plusde réel avantageàutiliser une re her helinéairede Wolfe, une simple re her he linéaire basée sur les onditions d'Armijo sut. Pour que l'algorithme fon tionne bien, le résultatde ettere her helinéairedoitasymptotiquementtendreversunpasunitaire.Dans ertains asoùla dé roissan e de

F (.)

ne ompense plusla roissan ede

kc(x

k

)k

1

, e pasunitaire est rejeté même très pro he du minimum; e i est appelé l'eet Maratos et peut être ompensé par une modi ation de la dire tion de des ente.Un PQSfon tionnelressembleàl'algorithme5.

Référen es

[BGLS03℄ JosephFrédéri Bonnans,Jean-CharlesGilbert, ClaudeLemaré hal,andClaudiaSagastizabal. Nu-meri al Optimization:Theoriti al and Pra ti al Aspe ts. Springer,Colle tion,2003.

[BMP04℄ Vin entBe k,JérmeMali k,andGabrielPeyré. Obje tif Agrégation. H-K,2004.

[Fle87℄ RogerFlet her. Pra ti al Methodsof Optimization,Se ondEdition. JohnWiley andSons,1987. [HU01℄ Jean-BaptisteHiriart-Urruty. Optimisation. Quesais-je?,2001.

(16)

Unité de recherche INRIA Rhône-Alpes

655, avenue de l’Europe - 38334 Montbonnot Saint-Ismier (France)

Unité de recherche INRIA Futurs : Parc Club Orsay Université - ZAC des Vignes

4, rue Jacques Monod - 91893 ORSAY Cedex (France)

Unité de recherche INRIA Lorraine : LORIA, Technopôle de Nancy-Brabois - Campus scientifique

615, rue du Jardin Botanique - BP 101 - 54602 Villers-lès-Nancy Cedex (France)

Unité de recherche INRIA Rennes : IRISA, Campus universitaire de Beaulieu - 35042 Rennes Cedex (France)

Unité de recherche INRIA Rocquencourt : Domaine de Voluceau - Rocquencourt - BP 105 - 78153 Le Chesnay Cedex (France)

Unité de recherche INRIA Sophia Antipolis : 2004, route des Lucioles - BP 93 - 06902 Sophia Antipolis Cedex (France)

Éditeur

INRIA - Domaine de Voluceau - Rocquencourt, BP 105 - 78153 Le Chesnay Cedex (France)

http://www.inria.fr

Synthèse sur les méthodes newtoniennes en optimisation numérique non linéaire: écriture d'algorithmes efficaces

HAL Id: inria-00089161

https://hal.inria.fr/inria-00089161v3

Submitted on 11 Aug 2006

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Synthèse sur les méthodes newtoniennes en optimisation

numérique non linéaire: écriture d’algorithmes eﬀicaces

Matthieu Guilbert

To cite this version:

Matthieu Guilbert. Synthèse sur les méthodes newtoniennes en optimisation numérique non linéaire:

écriture d’algorithmes eﬀicaces. [Rapport Technique] RT-0325, INRIA. 2006, pp.20. �inria-00089161v3�

inria-00089161, version 3 - 11 Aug 2006

ISSN 0249-0803

a p p o r t

t e c h n i q u e

Thème NUM

INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE

Synthèse sur les méthodes newtoniennes en

optimisation numérique non linéaire: écriture

d’algorithmes efficaces

Matthieu Guilbert

N° 0325

Unité de recherche INRIA Rhône-Alpes

min

x∈R

n

F (x)

c

E

(x)

=

0

c

I

(x)

≤

0

F : R

n

→ R

c

E

: R

n

→ R

me

c

I

: R

n

↔ R

mi

min

x∈R

n

F (x).

F

∇

x

F (x

∗

) = 0

∇

2

x

F (x

∗

)  0

x

_{→ R}

_{→ R}

_{↔ R}

_{) = 0}

) 0

_{) 0}

₎

₎

_{) 0}