Cours Apprentissage - ENS Math/Info Optimisation Convexe
Francis Bach 16 Octobre 2015
Ce cours s’appuie sur le livre “Convex Optimization” de Stephen Boyd et Lieven Vandenberghe (disponible gratuitement : http://www.stanford.edu/~boyd/cvxbook/) et les livres “Non-linear programming” de Dimitri Bertsekas (Athena Scientific), et “Introductory lectures on convex opti- mization : A basic course” de Yurii Nesterov (Kluwer Academic Publishers).
Dans ce cours, on se limitera principalement aux probl`emes d’optimisation non-contraints, i.e., mi- nimiserf(x) pourx∈Rd. Les minimas locaux sont tels quef0(x) = 0, et sont globaux lorsquef est convexe.
Afin de trouver les minimiseurs dex, deux grandes strat´egies sont possibles : l’utilisation de boites
`
a outils g´en´eriques ou des algorithmes it´eratifs simples.
1 Boˆıte ` a outil g´ en´ erique
– Utile pour la programmation lin´eaire, i.e., minAx=b,x>0c>x= maxA>y6cb>y et pour ses exten- sions.
– Optimisation `a moyenne ´echelle (pas plus de dizaines de milliers de contraintes et/ou variables) avec une forte pr´ecision.
– Voirhttp://cvxr.com/cvx/
2 M´ ethode de l’ellipsoide
– Minimisation d’une fonction convexe d´erivable surRn(extensions possibles aux cas non-diff´erentiables et contraints).
– Extension de la m´ethode de bisection utilis´ee pour les fonctions `a une seule variable.
– Complexit´e th´eorique polynˆomiale (r´esultat tr`es g´en´eral), peu utilis´e en pratique (`a cause des inversions de matrices et la convergence lente)
– Algorithme:
– Initialisation : ellipsoide E0={(x−x0)>P0−1(x−x0)61} qui contientx∗ (avec typiquement P0=R2I)
– Pourt>0, contruire l’ellipsoide de volume minimum qui contient {(x−xt)>Pt−1(x−xt)61}
et le demi-plan{f0(xt)>(x−xt)60}.
1
– Ceci correspond `axt+1=xt−n+11 PtgtetPt+1=nn2−12 (Pt−n+12 Ptgtgt>Pt) avecgt= √ 1
f0(xt)>Ptf0(xt)f0(xt).
Voirhttp://www-math.mit.edu/~goemans/18433S09/ellipsoid.pdf et http://sma.epfl.ch/~eisenbra/OptInFinance/Slides/ellipsoid.pdf – Propri´et´e: le volume dePt+1est plus petit quee−1/2n fois le volume dePt.
– Cons´equence: sif estB-Lipschitz, alors la pr´ecisionεest atteinte apr`es au plus 2n2log(RG/ε).
Voirhttp://www.stanford.edu/class/ee392o/elp.pdf.
Preuve (hypoth`ese,f G-Lipschitz etB(x∗, ε/G)⊂ E0) : on cherchextel quef(x)6f(x∗) +ε= infx∈Rdf(x) +ε=f∗+ε. Si on suppose par l’absurde que ∀k6t, f(xk)> f∗+ε, alors la boule B(x∗, ε/G) est incluse dans Et, ce qui donne, en comparant les volumes (ε/G)n 6 Rne−t/2n et donct62n2logRGε .
3 Descente de gradient
– Minimisation d’une fonction convexe d´erivable sur Rn – Algorithme:
– Initialisation :x0∈Rn,
– Pourt>0,xt+1=xt−γtf0(xt).
– Valeurs de pasγt:
– Pas constant :γt= 1/Lo`uLest une borne sup´erieure uniforme de la plus grande valeur propre de la Hessienne def
– “Line search” : optimisation totale ou partielle par rapport `a γ. Voir par exemple http://
www-personal.umich.edu/~mepelman/teaching/IOE511/Handouts/511notes07-5.pdf pour la r`egle dite d’Armijo.
– Analyse th´eorique
– Hypoth`eses pour r´esultat th´eorique simple : f deux fois d´erivable convexe, LI < f00(x)<µI (forte convexit´e).
– xt+1−x∗=xt−x∗−γtf00(yt)(xt−x∗) pour unyt∈[xt, x∗]
– Pourγt= 1/L, on peut montrer quekxt+1−x∗k26(1−Lµ)kxt−x∗k26(1−µL)(t+1)kx0−x∗k2. On se limitera `a la preuve dans la cas quadratique (par simplicit´e).
– La convergence est alors dite lin´eaire.
– Si on ne suppose que la convexit´e, alors on obtient le r´esultatf(xt)−f(x∗)6 2tLkx0−x∗k2, – Cadre convexe : convergence vers un minimum global
– Cadre non convexe : convergence vers un point stationnaire – Crit`ere d’arrˆet : gradient de norme inf´erieure `a ε
4 M´ ethode de Newton
– Minimisation d’une fonction convexe deux fois d´erivable sur Rn – Principe: minimiser l’approximation quadratique autour de xt
– Algorithme:
– Initialisation :x0∈Rn,
– Pourt>0,xt+1=xt−f00(xt)−1f0(xt).
2
– Convergence quadratrique(cas convexe) :kxt+1−x∗k26C(kxt−x∗k2)2
3