HAL Id: inria-00089161
https://hal.inria.fr/inria-00089161v3
Submitted on 11 Aug 2006
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Synthèse sur les méthodes newtoniennes en optimisation
numérique non linéaire: écriture d’algorithmes efficaces
Matthieu Guilbert
To cite this version:
Matthieu Guilbert. Synthèse sur les méthodes newtoniennes en optimisation numérique non linéaire:
écriture d’algorithmes efficaces. [Rapport Technique] RT-0325, INRIA. 2006, pp.20. �inria-00089161v3�
inria-00089161, version 3 - 11 Aug 2006
ISSN 0249-0803
a p p o r t
t e c h n i q u e
Thème NUM
INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE
Synthèse sur les méthodes newtoniennes en
optimisation numérique non linéaire: écriture
d’algorithmes efficaces
Matthieu Guilbert
N° 0325
Unité de recherche INRIA Rhône-Alpes
non linéaire: é riture d'algorithmes e a es
Matthieu Guilbert
ThèmeNUMSystèmesnumériques ProjetsBipop
Rapport te hniquen°0325Août200612pages
Résumé:Cedo umentdé ritlesméthodesnewtoniennesenoptimisationnon-linéaireave etsans ontrainte. Aprèsunbrefrappeldes onditionsd'optimalité,nousprésentonslesprin ipesgénérauxdel'algorithmiqueen optimisationet desméthodesdeNewton. Commelesméthodes newtoniennessontlo ales, 'est àdirequ'elles sontuniquementvalables pro he dela solution,il faut utiliserdes te hniquesde globalisationdela re her he de l'optimum, es te hniques ont ertains avantages,mais ellespeuvent entraîner des problèmes numériques, surtout enoptimisationave ontraintes.Pour al uler une dire tion de des ente,lesméthodes newtoniennes ontbesoindesdérivéesse ondesde lafon tionàminimiser (oùduLagrangiendansle as d'uneminimisation ave ontraintes) equipeutêtre oûteuxetpeut auserdesproblèmesnumériquessérieux; 'estpourquoinous exposonsuneméthodealternativedequasi-Newtondansles asave etsans ontraintes.
optimization: to e ient algorithms writing
Abstra t: This do ument deals with numeri al methods in non-linear optimization with and without on-straints. After a brief re apitulation of the optimality onditions, we present the general prin iples of the algorithmi in optimization and ofnewtonian methods. Sin ethese methods are onlyvalid near the solution, wemust useglobalization te hniques,su hte hniques haveseveraladvantages but they anseverely unsettle the onvergen e whenminimizing afun tion subje tto onstraints.Moreoverto omputeades entdire tion, Newton methodsneedse ondderivativesofthefun tionto minimize(oroftheLagrangianinthe aseof min-imization with onstraints), what may be ostly and may ause serious numeri al problems; that is why we exposeanotherwayofndingasolutionusingquasi-Newtonmethods.
Table des matières
1 Introdu tion 4
2 Méthodesnumériques d'OptimisationsansContrainte 4
2.1 Conditionsd'Optimalité[HU01℄. . . 4
2.2 MéthodesNumériques deNewton . . . 4
2.3 MéthodesNumériques deQuasi-Newton . . . 5
2.4 Ce qu'ilfautretenir . . . 7
3 Méthodesnumériques d'Optimisationave Contraintes 7 3.1 Conditionsd'Optimalité . . . 7
3.2 ProgrammationQuadratiqueSu essive: ontraintesd'égalité . . . 8
3.3 MéthodesdeQuasi-Newtonave Contraintes . . . 9
3.3.1 Fon tion depénalisationnondiérentiable. . . 9
3.3.2 Re her helinéaireet orre tiondePowell . . . 10
3.3.3 Duglobalaulo al :l'eetMaratos . . . 11
1 Introdu tion
L'obje tifde edo umentestd'exposerlesméthodesNewtoniennesenoptimisationnon-linéairedemanière trèssu in temaiseninsistantsurlesproblèmesnumériquesinhérentsà egenredeméthodes.J'espéreque ette synthèsesurlesméthodesNewtoniennespermettraaule teurdeserepérerdanslesméandresdelalittérature sur e sujet, mais surtout qu'il omprendra mieux le fon tionnement et le omportement de es algorithmes très omplexes.Maisavanttout,jetiensàremer iertoutparti ulièrementClaudeLemaré halpourses onseils avisésetsesrele turesindispensables.
L'optimisationnon-linéaire her heàrésoudredesproblèmesdutype:
min
x∈R
n
F (x)
c
E
(x)
=
0
(1)c
I
(x)
≤
0
(2) aveF : R
n
→ R
lafon tionobje tifàminimiser,
c
E
: R
n
→ R
me
les ontraintesdégalitéset
c
I
: R
n
↔ R
mi
les ontraintesd'inégalités.Cedo umentexposedansunepremièrepartielesméthodesNewtoniennesen optimisa-tionsans ontrainte,et e iand'exposerlastru turegénéraled'unalgorithmed'optimisationtouteninsistant sur les algorithmesde quasi-Newtonqui sont ourammentutilisés aujourd'hui.Une se onde partie expose les méthodes Newtoniennes en optimisationave ontraintes, tout en insistant sur des eetsnumériques indésir-ablesliésàl'utilisationd'unefon tiondepénalisationnondiérentiableutiliséepourglobaliserlare her hedu minimum.
2 Méthodes numériques d'Optimisation sans Contrainte
Unproblèmed'optimisationsans ontraintes'é rit:
min
x∈R
n
F (x).
Il existe diérentes méthodes pour trouver une solution à e problème [BGLS03℄, mais nous allons nous on entrersurlesméthodesdeNewtonetquasi-Newtonaprèsavoirexposébrièvementles onditionsd'optimalité (les onditionsque doit satisfaire
F
au minimum). Nous insistonssur les méthodes de Newton ar ellessont aujourd'huilespluse a espourtrouverleminimumd'unefon tionnon-linéairegénérique.2.1 Conditions d'Optimalité [HU01℄
Premierordre:
∇
x
F (x
∗
) = 0
Se ondordre:∇
2
x
F (x
∗
) 0
avex
∗
le minimum,∇
x
F (x
∗
)
le gradientdeF
auminimum, et∇
2
x
F (x
∗
)
la hessiennedeF
auminimum et∇
2
x
F (x
∗
) 0
désignantlasemi-déniepositivitéde
∇
2
x
F (x
∗
)
auminimum.Ilest fa iled'avoiruneexpli ation intuitive de es onditions. En eet si
x
∗
est un minimumlo al de
F
alorsdF ≥ 0
(dF
est une diérentielle deF
) pour toute diérentielledx
issue dex
∗
(pourles notions de diérentielles, le le teur peut se référer à [BMP04℄),ilestalorsfa ilededémontrerque
∇
x
F (x
∗
)
doitêtrenul,maisaussique
∇
2
x
F (x
∗
) 0
.Connaissant les onditionsquedoitsatisfaire
F
auminimumetpartantd'unitéréinitialx
0
,uneméthodedeNewtonpermet de al uleruneapproximationause ondordredel'optimumsionestassezpro hedex
∗
.
2.2 Méthodes Numériques de Newton
Lebutdesméthodesnumériquesenoptimisationestdetrouverunesuite
{x
k
}
qui onvergeversx
∗
.A haque itération on her he unpas
d
k
qui fasse dé roître la fon tionobje tif, le s héma numérique d'un algorithme d'optimisationseprésente ommesuit:Laplusgrandedi ultédans es hémaestdetrouverl'in rément
d
k
etunbonpremieritéréx
0
.Le hoixdu premieritéréestlaisséàl'utilisateurquipourrale hoisirenfon tiondeses onnaissan essurleproblème.En e qui on ernel'in rémentd
k
,ilest importantdesoulignerqu'ildoitfairediminuerlafon tionobje tif.En eet la onditionF (x
k
+ d
k
) < F (x
k
)
est fondamentaleenoptimisationnumérique, toutalgorithmed'optimisation(i) Initialiser
k ← 0
,l'itéréinitialx
0
etlatoléran ed'arrêtǫ
(ii) Trouverunin rémentd
k
tellequeF (x
k
+ d
k
) < F (x
k
)
(iii)x
k+1
← x
k
+ d
k
(iv) Si
k∇
x
F (x
k+1
)k > ǫ
alleraupas(ii)sinons'arrêterTab.1 S hémanumériqued'unalgorithmed'optimisation
doitfor erlades entedelafon tionobje tif.Ilexistediversesméthodespourtrouverdesdire tionsdedes ente [BGLS03,p. 2-35℄,maisnousallonsnous on entrersurlesméthodesdeNewtonquipossèdentaujourd'hui les meilleurespropriétésde onvergen eparrapportaux(trop simples)méthodesdegradient,parexemple.
Partantd'unitéré ourant
x
k
,notreobje tif estdetrouverunpasd
k
quifassedé roîtreF
voirequi trouve leminimumdeF
, 'estàdireque∇
x
F (x
k
+ d
k
) = 0
.Pour ela,linéarisonsles ondtionsd'optimalitéenfaisant undéveloppementdeTaylor:∇
x
F (x
k
+ d
k
) = ∇
x
F (x
k
) + ∇
2
x
F (x
k
)d
k
+ o(kd
k
k).
(3)Négligeonsleterme
o(kd
k
k)
,onobtientalorslesystème linéaire:∇
x
F (x
k
) + ∇
2
x
F (x
k
)d
k
= 0
(4)àrésoudrepourtrouverl'in rément.Sionestassezpro heduminimumalors
∇
2
x
F (x
k
)
estsemi-déniepositive et peutdon êtreinversée,onobtientalorslepasdedes ente :d
k
= − ∇
2
x
F (x
k
)
−1
∇
x
F (x
k
)
(5)Legrosavantaged'uneméthodedeNewtonestbien onnu:elle onvergetrèsrapidement[BGLS03,p.51℄. Si
∇
2
x
F (x
k
)
est ontinueetinversibleàproximitédex
∗
,laméthodedeNewton onvergesuperlinéairement,si enplus
F
est de lasseC
3
elle onvergequadratiquement.PourquelaméthodedeNewtonsoite a e,ilfaut que
x
k
soitassezpro hedex
∗
,dansle as ontrairela onvergen enepeutpasêtreassurée,il fautadapterla méthodepourfor erla onvergen eglobale.
Pour ela
d
k
est dorénavant onsidérée omme une dire tion le longde laquelle une re her he linéaireest utiliséeandediminuerlafon tionq(t) = F (x
k
+td
k
)
,etdans e asonax
k+1
← x
k
+td
k
.Pourunedes ription détailléedesdiérentes re her heslinéaires,onpeutseréférerà[BGLS03,37-50℄.Ilreste ependantunproblèmedetaille, 'est le al ul delahessienneexa te
∇
2
x
F (x
k
)
qui peutêtrelourd (en onsidérantqu'elleestsymétrique,ilya1
2
n(n + 2)
élémentsà al uler).Undeuxièmeproblèmeestqueloinduminimum,ellen'estpasfor émentdénie positive.Ce problèmepeutêtrerésoluenutilisantune hessienne augmentéedetermessurladiagonaleandelarendredéniepositive.Onutilisealors
(∇
2
x
F (x
k
) + νI
n
)
(oùI
n
est lamatri e identité dedimension
n × n
)aulieu delahessienne, 'estlaméthode deLevenberg-Marquardt ([Fle87, p. 48℄) pour ontrer le mauvais onditionnement de la hessienne (elle est souvent utilisée pour des problèmesdemoindre arrés).Remarque 2.1. Lesystème linéaire(4) orrespondaux onditionsd'optimalité duproblèmequadratique suiv-ant :
(P
QT
)
min
d
k
∈
R
n
F (x
k
) + ∇
x
F (x
k
)
T
d
k
+
1
2
d
T
k
∇
2
x
F (x
k
)d
k
(6) qui estappelé "problèmequadratiquetangent" aril orrespondàminimiserune approximation quadratique du problème initial. C'est unpoint lé dans la dénition desProgrammes Quadratiques Su essifs (PQS ouSQP en anglais) utilisés dans l'optimisation ave ontraintes. On peut dès à présent voir les méthodes de Newton omme unesu essionde problèmes quadratiques tangentsàrésoudre.2.3 Méthodes Numériques de Quasi-Newton
Considéronsles hémanumériquedeNewtondelase tionpré édente,maispluttquede al ulerlahessienne exa te à haque itération et de résoudre le système linéairepour l'inverser, une autre idée serait de trouver dire tementuneapproximationde
∇
2
x
F (x
k
)
−1
parunematri e
H
k
; 'est equefaitles héma2.Laquestion dans e shémarésidedanslepas(iv):trouverune matri ed'adaptationC
k
telleque:ellesoit plusfa ileà al ulerque
∇
2
x
F (x
k
)
(i) Initialiser
k ← 0
,H
k
← I
n
,
l'itéré initialx
0
,et latoléran ed'arrêtǫ
(ii)d
k
← −H
k
∇
x
F (x
k
)
(iii) Faireunere her helinéairelelongde
d
k
surq(t
k
) = F (x
k
+ t
k
d
k
)
(iv)x
k+1
← x
k
+ t
k
d
k
(iv)
H
k+1
← H
k
+ C
k
,k ← k + 1
,(v) Si
k∇
x
F (x
k+1
)k > ǫ
alleraupas(ii)sinons'arrêterTab.2 S hémanumériqued'unalgorithmedequasi-Newton
H
k+1
soittoujoursdéniepositiveseuleslesdérivées premièresdelafon tion
F
soientné essaires Il nous faut trouver une relation entreH
k+1
et∇
2
x
F (x
k
)
, pour ela faisons un développement de Taylor du gradient:∇
x
F (x
k
+ δ
k
) = ∇
x
F (x
k
) + ∇
2
x
F (x
k
)δ
k
+ o(kδ
k
k),
(7)enposant
γ
k
= ∇
x
F (x
k+1
) − ∇
x
F (x
k
)
etδ
k
= x
k+1
− x
k
,onpeutalorsé rire:γ
k
= ∇
2
x
F (x
k
)δ
k
+ o(kδ
k
k).
(8)Anque
H
k+1
mime orre tementl'inversedelahessiennedansladire tion dénieparγ
k
,ilfautque:H
k+1
γ
k
= δ
k
;
(9)etterelationestsouventappeléerelationfondamentaledequasi-Newton.Touteslesméthodesd'adaptationde
H
k
devront, quoi qu'il sepasse, respe ter ette ondition. La manière la plus simple pour mettre à jourH
k
est del'augmenterd'unematri ederang1; onrenvoieà[Fle87,p.53℄pourdesdétailssur ette méthode.Les méthodes qui nous intéressent plusparti ulièrement sont les méthodes de mise àjour de rang 2, 'est àdire qu'on ajoutedeuxmatri esderang 1àH
k
:H
k+1
= H
k
+ auu
T
+ bvv
T
.
(10)Onpeutalorsappliquerleprin ipefondamental (9)surlaformule(10),onobtient:
δ
k
= H
k
γ
k
+ auu
T
γ
k
+ bvv
T
γ
k
,
(11)un hoixlogiqueestdon
u = δ
k
etv = H
k
γ
k
,onpeutalorsidentiera
etb
enposantau
T
γ
k
= 1
etbv
T
γ
k
= −1
, onobtientalorslaformuledemiseàjourdeDavidon,Flet heret Powell(DFP):H
DF P
k+1
= H +
δδ
T
δ
T
γ
−
Hγγ
T
H
γ
T
Hγ
.
(12)Onremarqueraqu'onaomisl'indi e
k
danslese ondmembredel'équation(12)parsou idesimpli ation.En faisantd'autres hoixlorsdel'identi ationdea
,b
,u
,v
,onpeutobtenirlamiseàjourdeBroyden,Flet her, Goldfarbet Shanno(BFGS) :H
BF GS
k+1
= H +
1 +
γ
T
Hγ
δ
T
γ
δδ
T
δ
T
γ
−
δγ
T
H + Hγδ
T
δ
T
γ
(13)Ilestintéressantde al ulerl'inversede
H
BF GS
k+1
,notonslaB
BF GS
k+1
:B
BF GS
k+1
= B +
γγ
T
γ
T
δ
−
Bδδ
T
B
δ
T
Bδ
.
(14)Laressemblan eestnotableave laformuleDFP(12),ilsutd'é hanger
γ
aveδ
etB
aveH
etonobtientla formuleDFP; es deuxformulessontdites omplémentairesouduales,onrenvoielele teurà[Fle87,p.49-68℄ pourplusdedétailsà e sujet.Onadon unematri equi estmise àjour au ours desitérations,quiest plus simple à al uler que la hessienne exa te, qui mime son omportement dans la dire tion de des ente et qui n'utilisequedesdérivéespremières.CependantlesformulesDFPouBFGSn'imposentpasqueH
k+1
(ouB
k+1
) soit déniepositive,néanmoinsdans[Fle87,p. 54℄et[BGLS03,p. 56℄onpeuttrouverlethéorèmesuivant:Théorème 2.1. Si
δ
k
γ
k
> 0
alors les formules BFGS ouDFP assurent queH
k+1
est dénie positive siH
k
l'est.Remarque 2.2. Si dansle s héma numérique (1 ), on utiliseune formule d'adaptation DFP ou BFGS, alors la ondition
δ
k
γ
k
> 0
est automatiquementsatisfaite sionutilise la re her he linéairedite de Wolfe[BGLS03, se tion3.4℄.Un algorithmedequasi-Newton utilisantlaformule BFGSet lare her helinéairedeWolfe onvergealors superlinéairementvers
x
∗
;pourladémonstrationonrenvoieà[BGLS03,p. 65℄.
2.4 Ce qu'il faut retenir
LesméthodesdeNewtonutilisentlesdérivéespremièresetse ondesdelafon tionàminimiserpour al uler un pas de des ente
d
k
à partir de la formule (5);d
k
est aussi la solution du problème quadratique tangent (6). Cette méthode est valable si on est assezpro he du minimum deF
. Dans le as où on est loin, il faut globaliserl'optimisationenutilisantunere her helinéairelelongded
k
.L'avantaged'uneméthodedeNewton est qu'elle onvergesuperlinéairement(voirequadratiquement),maisilfaut al ulerlahessiennedelafon tion à minimiser e qui peut être oûteux. Un autre problèmeest queloin del'optimum, lahessiennepeutne pas êtredéniepositiveetdon nepasêtreinversibleoud
k
nepasêtreunedire tiondedes ente.Lesméthodesde quasiNewtonrépondentà esproblèmesenmettantàjourunematri equimimelahessiennedansladire tion indiquéeparlesgradients.Cettematri epeutêtremiseàjourà haqueitérationparlaformuledeBFGS(13), elleest plusfa ileà al ulerque lahessienneexa te et esttoujoursdénie positivesousla onditionindiquée danslethéorème2.1.Cettedernière onditionestautomatiquementvériéesionutiliselare her helinéairede Wolfe.Unalgorithmedequasi-Newton ompletpeutdon sedéroulerainsi ommedanslatable(2)enutilisant une re her helinéairedeWolfe.3 Méthodes numériques d'Optimisation ave Contraintes
Unproblèmed'optimisationave ontraintess'é rit omme:
min
x∈R
n
F (x)
c
E
(x)
= 0
(15)c
I
(x)
≤ 0,
(16) avec
E
(x) : R
n
→ R
m
E
etc
I
(x) : R
n
→ R
m
I
, on notera dorénavant
m = m
E
+ m
I
. Ilexiste plusieurs méthodes pour trouverune solutionà e problème [Fle87℄. Après unexposé bref des onditionsd'optimalité d'un tel problème, nous allons exposer les méthodes de type Programmation Quadratique Su essive(PQS) basées sur les méthodes de Newton. Enn, nous nous on entrerons tout parti ulièrement sur les méthodes quasi-Newtonqui sontlargementutiliséesaujourd'hui.3.1 Conditions d'Optimalité
Les onditionsd'optimalitédupremierordre d'unproblèmed'optimisationsous ontraintessont:
∇
x
F (x
∗
) + ∇
x
c
E
(x
∗
)
T
λ
E
∗
+ ∇
x
c
I
(x
∗
)
T
λ
∗
I
= 0
(17)c
E
(x
∗
)
= 0
(18)c
I
(x
∗
)
≤ 0
(19)λ
∗
I
≥ 0
(20)c
I
(x
∗
)
T
λ
∗
I
= 0
(21)ave
λ
E
etλ
I
desve teursappelésmultipli ateursdeLagrange.Enposantλ = (λ
E
, λ
I
)
T
etc(x) = (c
E
(x), c
I
(x))
T
et lelagrangien:L(x, λ) = F (x) + c(x)λ
T
(22)alorsles onditions(17)et(18)exprimentque:
∇
(x,λ
E
)
L(x, λ) = 0.
(23)La onditionde omplémentarité(21)peutêtrevue ommeune onditiond'a tivation des ontraintes,eneet si
c
k
I
(x) < 0
alorsλ
k
I
= 0
et sic
k
I
(x) = 0
alorsλ
k
I
≥ 0
, et e i pour tout1 ≤ k ≤ m
. Tout omme pourl'optimisationsans ontrainte,onpeuttrouverune expli ationintuitivede es onditions.Eneetsi
x
∗
est un minimum lo al alors
dF ≥ 0
dans toutesles dire tions autorisées parles ontraintes d'égalitéset d'inégalités a tives. La ondition d'optimalité du se ond ordre est que la hessienne du Lagrangien doit être semi-dénie positive sur le sous espa e tangent (noyau de la ja obienne des ontraintes a tives), pour plus de détails le le teur peutseréférer à[HU01℄.Remarque 3.1. Pour éviter des problèmes d'optimisation pathologiques, il est ommode de supposer que la ja obiennedes ontraintesa tivessoitderangplein,pourplusdedétailslele teurpeutseréférerà[HU01 ℄.Ces onditionsde quali ation des ontraintessont né essairespour é rireles onditionsd'optimalité(17 )-(21).
Pour plus de détails sur les diérentes interprétations géométriques ou analytiques et sur la théorie de l'optimisationsous ontraintes,onrenvoielele teurà[HU01,p.54-58℄etau hapitre9de[Fle87℄.Maintenant qu'on onnaîtles onditionsquedoiventvérierlafon tionetles ontraintesauminimum,lesméthodesdetype Newton sontàl'heurea tuellelespluse a espourrésoudreunproblèmed'optimisationave ontraintes.
3.2 Programmation Quadratique Su essive : ontraintes d'égalité
Andemieux omprendre omments'é ritunalgorithmePQS,nousallonsnouslimiteraux ontraintes d'é-galitéet e isansvéritablepertedegénéralité.Eneet,onpeutestimerqu'enétantassezpro hedel'optimum, l'étatd'a tivationdes ontraintesd'inégaliténe hangeplusetonpeutlestraiter ommedes ontraintes d'égal-ité; de plusonverraquel'a tivationdes ontraintesest faiteau niveaudu PQ(ProgrammationQuadratique ou QPenanglais) quine serapasdéveloppédans edo ument.Demanière identiqueau assans ontrainte, onfaitundéveloppementdeTayloraupremierordredes onditionsd'optimalité(23),onobtientalors:
∇
x
L(x
k
+ dx, λ
k
+ dλ)
≈ ∇
x
L(x
k
, λ
k
) + ∇
2
xx
L(x
k
, λ
k
)dx + ∇
2
xλ
L(x
k
, λ
k
)dλ
(24)∇
λ
L(x
k
+ dx, λ
k
+ dλ)
≈ ∇
λ
L(x
k
, λ
k
) + ∇
2
λx
L(x
k
, λ
k
)dx + ∇
2
λλ
L(x
k
, λ
k
)dλ.
(25)En é rivantque e idoitêtrenul,onobtientalorslesystèmelinéaire:
∇
x
L(x
k
, λ
k
) + ∇
2
xx
L(x
k
, λ
k
)dx + ∇
x
c(x
k
)
T
dλ =
0
(26)c(x
k
) + ∇
x
c(x
k
)dx
=
0
(27)Unepetiteastu e onsisteàremarquerque
∇
x
L(x
k
, λ
k
)
estlinéaireparrapportàλ
k
,l'équation(26)devient alors:∇
x
F (x
k
) + ∇
2
xx
L(x
k
, λ
k
)dx + ∇
x
c(x
k
)
T
(λ
k
+ dλ) = 0
(28)Comme
λ
k+1
= λ
k
+ dλ
, onobtientalorslenouveausystèmelinéaireàrésoudre:∇
2
xx
L(x
k
, λ
k
) ∇
x
c(x
k
)
T
∇
x
c(x
k
)
0
dx
λ
k+1
= −
∇
x
F (x
k
)
c(x
k
)
(29)Remarque 3.2. La matri e de e système estinversible si(i)
∇
x
c(x
k
)
est de rang plein et(ii)∇
2
xx
L(x
k
, λ
k
)
est déniepositive surle sousespa etangent (le noyaude
∇
x
c(x
k
)
) ( f remarque3.1 ), pour plusde détails le le teur peutseréférerà[BGLS03,p.174℄.Dansle asoùiln'yaquedes ontraintesd'égalité,lesystèmed'équations(29)n'estautrequeles onditions d'optimalitéduprogrammequadratiquesuivant:
min
d
k
∈
R
n
∇
x
F (x
k
)
T
dx
k
+
1
2
dx
T
k
∇
2
xx
L(x
k
, λ
k
)dx
k
c
E
(x
k
) + ∇
x
c
E
(x
k
)dx
k
= 0
(30)Sansrentrerdanslesdétails inutilesdans edo ument,onpeutétendre e résultataux ontraintesd'inégalité et é rireleproblèmequadratiquetangentauproblèmed'optimisationave ontraintesd'égalitéet d'inégalité:
(P
QT
)
min
d
k
∈
R
n
∇
x
F (x
k
)
T
dx
k
+
1
2
dx
T
k
∇
2
xx
L(x
k
, λ
k
)dx
k
c
E
(x
k
) + ∇
x
c
E
(x
k
)dx
k
= 0
c
I
(x
k
) + ∇
x
c
I
(x
k
)dx
k
≤ 0
(31)Leproblèmed'a tivationdes ontraintesd'inégalitésestdon renvoyéauniveaudelarésolutionduproblème quadratique tangent.Onpeutalorsé rireunPQSàhessienneexa te ommedansles hémanumérique3.
(i) Initialiser
k ← 0
,l'itéréinitial(x
0
, λ
0
)
et latoléran ed'arrêtǫ
(ii) Cal uler∇
x
F (x
k
)
et∇
2
xx
L(x
k
, λ
k
)
(ii) Cal uler
dx
k
etλ
k+1
enrésolvant(P
QT
)
(31) (iii)x
k+1
← x
k
+ d
k
(iv) Si
k∇
(x,λ)
L(x
k+1
, λ
k+1
)k > ǫ
alleraupas(ii)sinons'arrêter Tab.3 S hémanumériqued'unPQSàhessienneexa teLe pas(ii) est l'étapenon triviale de et algorithme. La résolutiond'un Programme Quadratique(PQou QP en anglais) est basée sur le système linéaire(29), ependant e système ne traduit pas le problème lié à l'a tivationdes ontraintes.Larésolutiond'unPQnefaisantpasl'objet de edo ument,onrenvoielele teur au hapitre10dulivre[Fle87℄pourdeplusamplesdétails surl'a tivation des ontraintes.
Commepourles méthodesde Newton sans ontrainte,letalon d'A hille dus héma (3)est le al ul de la hessienneexa tequi peutêtrelourd,et ellepeutnepasêtredéniepositivesionest loinduminimum.
3.3 Méthodes de Quasi-Newton ave Contraintes
Ledéveloppementdesméthodesdequasi-Newton ave ontraintes estbasé surle mêmeprin ipeque elui des problèmessans ontrainte exposé dansla se tion2.3, il faut ependantrempla er lafon tion
F (x)
parle lagrangienL(x, λ)
.Ainsi,enposant:γ
l
k
= ∇
x
L(x
k+1
, λ
k+1
) − ∇
x
L(x
k
, λ
k+1
)
et δ
k
= x
k+1
− x
k
,
(32)onremarqueraqu'onévaluelegradientdulagrangienen
λ
k+1
pour al ulerγ
l
k
, e isejustieparlefaitqu'on onnait eλ
k+1
etqu'on her heàmimerlahessiennedulagrangienparrapportàx
etpasparrapportàλ
.De manière analogueau as sans ontrainte,on peut réé rirel'équation fondamentalede quasi-Newton(9), mais aussilaformuledeBFGSpourlahessiennedulagrangien:B
k+1
Lagr
= B +
γγ
T
γ
T
δ
−
Bδδ
T
B
δ
T
Bδ
.
(33)Pourglobaliserl'algorithme,onpeututiliserunere her helinéaireouunere her heparrégionde onan e. On faitle hoixi idedé rire uniquement lesméthodesave re her helinéaire.Cettere her hedoitêtre faite surunefon tionquiprenneen ompteàlafoisle ritèreàminimiseretles ontraintes,detellesfon tionssont appeléesfon tionsdepénalisation.
3.3.1 Fon tion de pénalisationnon diérentiable
Ilexisteunemultitudedefon tionsdepénalisation, ependantonpeut lasser esfon tionsendeuxfamilles: lesfon tionsdepénalisationinexa teset exa tes.Nousallonsnous on entrersurlesfon tionsdepénalisation exa te et plus pré isément sur la pénalisation
L
1
ar elle est exa te sans faire appel à uns hémaitératif. A l'inverse,d'autrespénalisations ommelesfon tionsbarrièresoulelagrangienaugmentésontaussi ouramment utilisées;pourplusdedétailsonrenvoielele teurà[Fle87,p.277-304℄.Lafon tiondepénalisationL
1
estdénie par:Φ(x) = F (x) +
m
E
X
i=1
σ
i
|c
i
(x)| +
m
X
i=m
E
+1
σ
i
| max(c
i
(x), 0)|
(34)Cetteméthodedepénalisationdistingueles ontraintes d'égalitéset d'inégalités,eneetseulesles ontraintes d'inégalités a tives inuent sur la valeur de la fon tion de pénalisation et ette a tivation est faite à l'aide
de la fon tion
max
. Pour quela pénalisation (34)soit exa te, il faut que lesσ
i
soit assezgrandspourque la roissan edesc
i
ompenseladé roissan edelafon tion oûtF
.Ainsipluttquedexerlesσ
i
trèsgrands, e quipourraitentrainerdesproblèmesnumériques(les ontraintesseraientalorsprépondérantesparrapportàla fon tion oût), il seraitplusjudi ieux de l'ajuster au ours de l'optimisationpourque savaleur soit toujours justeassezgrande.Pour ela,laproposition15.1de[BGLS03℄proposeunerelationentreσ
etλ
k+1
(λ
k+1
étant al ulé en résolvant le problème quadratique tangent (31)) : siσ
i
≥ kλ
k+1
k
∞
alors la pénalisation (34) est exa te. Onpeutalorsétablirunerègled'ajustementdeσ
k
ommedanslatable(4).si
σ
k−1
≥ 1.1(kλ
k+1
k
∞
+ ¯
σ)
,alors
σ
k
= (σ
k−1
+ kλ
k+1
k
∞
+ ¯
σ)/2
; sinon siσ
k−1
≥ kλ
k+1
k
∞
+ ¯
σ
,alors
σ
k
= σ
k−1
.sinon
σ
k
= max(1.5σ
k−1
, kλ
k+1
k
∞
+ ¯
σ)
. Tab.4 Règled'ajustementdeσ
I i
σ > 0
¯
estune onstantexéeaupréalable,ellepermet queσ
k+1
soittoujoursnettementplusgrandquekλ
k+1
k
∞
, 'estunpeuunebarrièredesé uritépourqueσ
k+1
soittoujoursassezgrand.Cetterègled'ajustement aétéproposéehistoriquementparMayneetPolaketonrenvoielele teurà[BGLS03,p.239-242℄pourplusde détails sur etterègled'ajustementdeσ
.A ausedesvaleursabsoluesetdelafon tion
max(., .)
danslapénalisation(34),ilest lairque ettedernière fon tionn'estpasdiérentiablepartout,etentreautreauminimum.Ce irisquedemettreenpérill'utilisation d'unere her helinéairedetypeArmijo,WolfeoumêmeGoldsteinetPri equiontaumoinsbesoindeladérivée dire tionnelle dela fon tiondepénalisationdans ladire tiondx
k
. Lelemme 14.3de[BGLS03℄ indiquequesiF (.)
,c
E
(.)
etc
I
(.)
admettentune dérivéedire tionnelle enx
k
et dansladire tiondx
k
alorsΦ(.)
admetaussiune dérivéedire tionnelle lelongde
dx
k
et ellevaut:Φ
′
(x
k
, dx
k
) = ∇
x
F (x
k
)dx
k
+ kS
k
P
c(x
k
)
∇
x
c(x
k
)dx
k
k
1
(35)ave
S
k
= diag(σ
i,k
)
, etl'opérateurP
v
u
identiqueàl'opérateurutilisé dans[BGLS03, p.225℄etdénipar:(P
v
u)
i
=
u
i
si
1 ≤ i ≤ m
E
max(u
i
, 0) si
m
E
≤ i ≤ m
et v
i
= 0
0
si
m
E
≤ i ≤ m
et v
i
< 0.
u
i
si
m
E
≤ i ≤ m
et v
i
> 0.
(36)Cet opérateur permet une é riture synthétique de la dérivée dire tionnelle (35). On peut don utiliser ette fon tiondepénalisationpourfaireunere her helinéaireetglobaliserlare her heduminimum.
3.3.2 Re her he linéaireet orre tion de Powell
Dans les méthodes de quasi-Newton sans ontrainte, on avait justiél'emploi d'une re her he linéairede Wolfe ar elle permettait d'assurer la ondition
γ
k
δ
k
> 0
qui implique queB
k+1
est dénie positive siB
k
l'est. Dans le as ave ontraintes,on ne fait pas la re her he linéairesur le lagrangienmais sur la fon tion de pénalisation (34), ainsi même si on utilise une re her he linéairede Wolfe on ne pourra jamais assurer la onditionγ
l
k
δ
k
> 0
.C'estpourquoilare her helinéairedeArmijoestsouventpréféréeàlare her helinéairedeWolfe arelleestplussimpleàimplanter,lesqualitésdelare her hedeWolfesontsurtoututilesenoptimisation sans ontrainte.Sipourunpasunitairelafon tion depénalisationnediminuepas, lepasest divisépardeux parexemple(mais en'estpasleplusjudi ieux,onpréférerautiliserlaméthodedu" ubi tting"exposéedans [BGLS03, p.40-41℄).Lare her helinéairenepermet don pasd'assurerlapositivitédelamatri edeBFGS.
Pour ompenser e problème, Powell aproposé de modier
γ
l
k
(leγ
de l'équation (33)) jusqu'à e quele s alaire(γ
l
k
)
T
δ
k
soitpositif.Dansunpremiertemps,ilfaut al ulerunpast
k
lelongdeladire tiondx
k
al ulée parlePQandediminuerunefon tiondemérite(la fon tiondepénalisation(34),parexemple) equidonne le nouvelitéréx
k+1
← x
k
+ t
k
dx
k
.γ
l
k
etδ
k
sontdénies par(32),et lebut est de al ulerunγ
P
k
ommeune ombinaison onvexedeγ
l
k
etB
Lagr
k
δ
k
:γ
P
k
← θγ
k
l
+ (1 − θ)B
Lagr
k
δ
k
(37)x
∗
δ
1
x
1
x
2
ontouroffx
2
+ y
2
= 1
Fig.1 Illustrationdel'eet Maratos
On hoisitdon
γ
P
k
= B
k
δ
k
pourθ = 0
omme issue dese ours, on aalorsB
Lagr
k+1
= B
Lagr
k
et on est assuré queB
Lagr
k+1
estdéniepositive.Cependantlebutestdemodierauminimumγ
l
k
andepréserverlemaximum d'informationsfournie parlesdonnéesduproblème, ilfaut don hoisirθ
leplusgrandpossibledans[0, 1]
tel qu'on ait:(γ
k
P
)
T
δ
k
≥ 0.2δ
T
k
B
Lagr
k
δ
k
CommeB
Lagr
k
estdénie positive, etteinégalitéestsatisfaitepourθ = 0
,Powelladon proposé:θ =
(
1
si (γ
P
k
)
T
δ
k
≥ 0.2δ
k
T
B
Lagr
k
δ
k
,
0.8
δ
T
k
B
k
δ
k
δ
T
k
B
k
δ
k
−
(γ
k
l
)
T
δ
k
sinon.
(38)Cettete hniqueestappeléela orre tiondePowell.Pourplusdedétailssur ette orre tion,onpeutseréférer à [BGLS03, p.269-270℄et [Fle87, p. 310℄.Cette orre tion de Powell orrige unproblème intrinsèquementlié à l'utilisation d'une fon tion de pénalisation dans des méthodes de quasi-Newton. Il existe en ore un autre problèmequi estluiliéàlanondiérentiabilitédelafon tiondepénalisation:l'eetMaratos.
3.3.3 Duglobal aulo al :l'eet Maratos
Comme on l'a vu pré édemment, une re her he linéaire permet de globaliser l'optimisation, 'est à dire qu'elle permet de onvergerversunminimum même sil'itéré initial est loin de elui- i. Plus onserappro he duminimum,plusl'algorithmeave re her helinéairedoittendreversl'algorithmelo alexposédanslase tion 3.2, 'estàdirequelerésultatdelare her helinéairedoittendrevers
t
k
= 1
.Cettepropriétépeutêtreappelée "admissibilité asymptotiquedupasunitaire".Cependantil estpossiblequemême trèspro he duminimumle pasunitairesoitrejeté arΦ(x
k
+ dx
k
) > Φ(x
k
)
(onrappellei iqueΦ(.)
est lafon tiondepénalisation(34)); e phénomèneest onnusouslenomd'eetMaratosetest illustréparl'exemple3.1.Exemple 3.1. On peut illustrer e phénomène en utilisant l'exemple souvent utilisé [BGLS03,p.254-255℄ et illustréparla Figure1:
min
x,y
(2(x
2
+ y
2
− 1) − x
1
)
,soumisàx
2
+ y
2
− 1 = 0
Lasolutionoptimalede eproblème est
s
∗
= (1, 0)
T
.Lagure1illustreunpasdeSQPpartantde
s
1
= (0, 1)
T
, la résolution du problème quadratique tangent donne une dire tion
δ = (1, 0)
T
pour atteindre la position
s
2
=
(1, 1)
T
. Dans et exemple, le pas
δ
sera automatiquement rejeté (un past
k
= 0
) par la re her he linéaire vu quelafon tionde pénalisationL1augmentedansladire tionfournieparlarésolutionduproblème quadratique tangent.Cet eets'expliqueparle faitqueladé roissan e de
F (.)
ne ompenseplusla roissan edekc(.)k
1
et est parfaitementillustrédans[BGLS03,Exemple15.6℄.Cephénomèneestune onséquen edire tedelaséparation fran heentrele al uldeladire tionàl'aideduproblèmequadratiquetangent(31)etle al uldupasàl'aide delafon tiondepénalisation(34).Leproblèmevientdelafon tiondepénalisation,oudumoinsdelamanière dontonl'utilise.Ilexiste une orre tiondu se ond ordre de
dx
k
qui permet de ompenser e phénomène, on al ule alorsdx
m
k
:dx
m
k
← dx
k
− (∇
x
c
A
(x
k
))
−
c
A
(x
k
+ dx
k
),
(39) avec
A
(.)
les ontraintesd'égalitésetles ontraintesd'inégalitésa tives,(∇
x
c
A
(x
k
))
−
lapseudo-inverseàdroite delaja obiennedes ontraintes orrespondantes.Onrappelleque:
(∇
x
c
A
(x
k
))
−
= (∇
x
c
A
(x
k
)∇
x
c
A
(x
k
)
T
)
−
1
∇
x
c
A
(x
k
)
T
.
Pourplusdedétailssurlesdiérentesméthodesde ompensationdel'eetMaratos,lele teurpeutseréférer à[Fle87,p.393-395℄et[BGLS03, p.254-260℄.
3.4 Ce qu'il faut retenir
(i) Choisirunitéréinitial
(x
1
, λ
1
)
, etlatoléran ed'arrêtǫ
al ulerF (x
1
)
,c(x
1
)
,∇
x
F (x
1
)
et∇
x
c(x
1
)
xerune onstante
ω ∈]0,
1
2
[
(modi ateurdepentedansles onditionsd'Armijo),et
¯
σ > 0
(seuilduparamètredepénalité),β ∈]0,
1
2
[
(paramètredesé urité danslare her helinéaired'Armijo),etM
1
← I
n
(ii) Cal ulsde
δ
k
etγ
P
k
enutilisantla orre tiondePowell(37), (iii) Mise àjourdeM
k
enutilisantlaformuledeBFGS(13),(iv) Cal ulsde
(dx
k
, λ
k+1
)
,solutionduproblèmequadratiquetangent(31), (v) Miseàjourdesparamètresdepénalitéσ
k
enutilisantlarègle4, (vi) Cal uldedx
m
k
enutilisantla orre tionduse ondordre(39),(vii) Cal uldupas
t
k
,solutiondelare her helinéaired'Armijosurlafon tion depénalisation(34)dansladire tiondx
m
k
, (iix)x
k+1
← x
k
+ t
k
dx
k
,λ
k+1
← λ
k
,(ix)
k ← k + 1
,sileséquations(17)à(21)sontvériéesàǫ
prèsonarrête,sinonaller aupas(ii).
Tab.5 S hémanumérique d'unPQSdequasi-Newton
On a ommen é paré rire les onditionsd'optimalité pourunproblème de minimisationave ontraintes d'égalitésetd'inégalités.Tout ommepourlesproblèmesd'optimisationsans ontrainte,ilaétépossibled'é rire uneméthodedeNewton, equinousaamenéàé rireunpremieralgorithmedeminimisationàhessienneexa te de latable 3.Tout ommepour lesproblèmessans ontrainte,le al ulde lahessienneexa te est souventun travaillourdetpeutmeneràdesproblèmesnumériqueslorsqu'onestloinduminimum, 'estpourquoionutilise ourammentdesméthodes de quasi-Newtonoù lahessiennedulagrangienest estimée au ours des itérations àl'aidedelaformuledeBFGS(33).Andeglobaliser ette optimisation,onutilise unere her helinéairesur unefon tiondepénalisationdontleminimum
x
∗
est,sous ertaines onditions,lemêmeque eluiduproblème original.Faireunere her helinéairesurunefon tionautrequelafon tion oûtimpliquequeladéniepositivité de
B
k+1
n'estplusassuréeparlare her helinéaire, e iaamenéPowellàdénirune orre tionpourassurer ette dénie positivité. Dès lors,il n'y a plusde réel avantageàutiliser une re her helinéairede Wolfe, une simple re her he linéaire basée sur les onditions d'Armijo sut. Pour que l'algorithme fon tionne bien, le résultatde ettere her helinéairedoitasymptotiquementtendreversunpasunitaire.Dans ertains asoùla dé roissan e deF (.)
ne ompense plusla roissan edekc(x
k
)k
1
, e pasunitaire est rejeté même très pro he du minimum; e i est appelé l'eet Maratos et peut être ompensé par une modi ation de la dire tion de des ente.Un PQSfon tionnelressembleàl'algorithme5.Référen es
[BGLS03℄ JosephFrédéri Bonnans,Jean-CharlesGilbert, ClaudeLemaré hal,andClaudiaSagastizabal. Nu-meri al Optimization:Theoriti al and Pra ti al Aspe ts. Springer,Colle tion,2003.
[BMP04℄ Vin entBe k,JérmeMali k,andGabrielPeyré. Obje tif Agrégation. H-K,2004.
[Fle87℄ RogerFlet her. Pra ti al Methodsof Optimization,Se ondEdition. JohnWiley andSons,1987. [HU01℄ Jean-BaptisteHiriart-Urruty. Optimisation. Quesais-je?,2001.
Unité de recherche INRIA Rhône-Alpes
655, avenue de l’Europe - 38334 Montbonnot Saint-Ismier (France)
Unité de recherche INRIA Futurs : Parc Club Orsay Université - ZAC des Vignes
4, rue Jacques Monod - 91893 ORSAY Cedex (France)
Unité de recherche INRIA Lorraine : LORIA, Technopôle de Nancy-Brabois - Campus scientifique
615, rue du Jardin Botanique - BP 101 - 54602 Villers-lès-Nancy Cedex (France)
Unité de recherche INRIA Rennes : IRISA, Campus universitaire de Beaulieu - 35042 Rennes Cedex (France)
Unité de recherche INRIA Rocquencourt : Domaine de Voluceau - Rocquencourt - BP 105 - 78153 Le Chesnay Cedex (France)
Unité de recherche INRIA Sophia Antipolis : 2004, route des Lucioles - BP 93 - 06902 Sophia Antipolis Cedex (France)
Éditeur
INRIA - Domaine de Voluceau - Rocquencourt, BP 105 - 78153 Le Chesnay Cedex (France)
http://www.inria.fr