Optimisation convexe

(1)

Cours Apprentissage - ENS Math/Info Optimisation Convexe

Francis Bach 16 Octobre 2015

Ce cours s’appuie sur le livre “Convex Optimization” de Stephen Boyd et Lieven Vandenberghe (disponible gratuitement : http://www.stanford.edu/~boyd/cvxbook/) et les livres “Non-linear programming” de Dimitri Bertsekas (Athena Scientific), et “Introductory lectures on convex optimization : A basic course” de Yurii Nesterov (Kluwer Academic Publishers).

Dans ce cours, on se limitera principalement aux probl`emes d’optimisation non-contraints, i.e., mi- nimiserf(x) pourx∈R^d. Les minimas locaux sont tels quef⁰(x) = 0, et sont globaux lorsquef est convexe.

Afin de trouver les minimiseurs dex, deux grandes strat´egies sont possibles : l’utilisation de boites

`

a outils génériques ou des algorithmes itératifs simples.

1 Boˆıte ` a outil g´ en´ erique

– Utile pour la programmation lin´eaire, i.e., min_Ax=b,x_>₀c^>x= max_A>y6cb^>y et pour ses extensions.

– Optimisation à moyenne échelle (pas plus de dizaines de milliers de contraintes et/ou variables) avec une forte précision.

– Voirhttp://cvxr.com/cvx/

2 M´ ethode de l’ellipsoide

– Minimisation d’une fonction convexe d´erivable surRⁿ(extensions possibles aux cas non-diff´erentiables et contraints).

– Extension de la méthode de bisection utilisée pour les fonctions à une seule variable.

– Complexité théorique polynômiale (résultat très général), peu utilisé en pratique (à cause des inversions de matrices et la convergence lente)

– Algorithme:

– Initialisation : ellipsoide E0={(x−x0)^>P₀⁻¹(x−x0)61} qui contientx_∗ (avec typiquement P0=R²I)

– Pourt>0, contruire l’ellipsoide de volume minimum qui contient {(x−xt)^>P_t⁻¹(x−xt)61}

et le demi-plan{f⁰(xt)^>(x−xt)60}.

1

(2)

– Ceci correspond `axt+1=xt−_n+1¹ PtgtetPt+1=_nⁿ2−1² (Pt−_n+1² Ptgtg_t^>Pt) avecgt= √ ¹

f⁰(xt)^>Ptf⁰(xt)f⁰(xt).

Voirhttp://www-math.mit.edu/~goemans/18433S09/ellipsoid.pdf et http://sma.epfl.ch/~eisenbra/OptInFinance/Slides/ellipsoid.pdf – Propri´et´e: le volume dePt+1est plus petit quee^−1/2n fois le volume dePt.

– Conséquence: sif estB-Lipschitz, alors la précisionεest atteinte après au plus 2n²log(RG/ε).

Voirhttp://www.stanford.edu/class/ee392o/elp.pdf.

Preuve (hypoth`ese,f G-Lipschitz etB(x_∗, ε/G)⊂ E₀) : on cherchextel quef(x)6f(x_∗) +ε= inf_x∈Rdf(x) +ε=f^∗+ε. Si on suppose par l’absurde que ∀k6t, f(x_k)> f^∗+ε, alors la boule B(x_∗, ε/G) est incluse dans Et, ce qui donne, en comparant les volumes (ε/G)ⁿ 6 Rⁿe^−t/2n et donct62n²log^RG_ε .

3 Descente de gradient

– Minimisation d’une fonction convexe d´erivable sur Rⁿ – Algorithme:

– Initialisation :x₀∈Rⁿ,

– Pourt>0,x_t+1=x_t−γ_tf⁰(x_t).

– Valeurs de pasγ_t:

– Pas constant :γ_t= 1/Lo`uLest une borne sup´erieure uniforme de la plus grande valeur propre de la Hessienne def

– “Line search” : optimisation totale ou partielle par rapport `a γ. Voir par exemple http://

www-personal.umich.edu/~mepelman/teaching/IOE511/Handouts/511notes07-5.pdf pour la r`egle dite d’Armijo.

– Analyse th´eorique

– Hypothèses pour résultat théorique simple : f deux fois dérivable convexe, LI < f⁰⁰(x)<µI (forte convexité).

– xt+1−x∗=xt−x∗−γtf⁰⁰(yt)(xt−x∗) pour unyt∈[xt, x∗]

– Pourγt= 1/L, on peut montrer quekxt+1−x∗k²6(1−_L^µ)kxt−x∗k²6(1−^µ_L)^(t+1)kx0−x∗k². On se limitera `a la preuve dans la cas quadratique (par simplicit´e).

– La convergence est alors dite lin´eaire.

– Si on ne suppose que la convexit´e, alors on obtient le r´esultatf(x_t)−f(x_∗)6 _2t^Lkx0−x_∗k², – Cadre convexe : convergence vers un minimum global

– Cadre non convexe : convergence vers un point stationnaire – Critère d’arrêt : gradient de norme inférieure à ε

4 M´ ethode de Newton

– Minimisation d’une fonction convexe deux fois d´erivable sur Rⁿ – Principe: minimiser l’approximation quadratique autour de xt

– Algorithme:

– Initialisation :x₀∈Rⁿ,

– Pourt>0,x_t+1=x_t−f⁰⁰(x_t)⁻¹f⁰(x_t).

2

(3)

– Convergence quadratrique(cas convexe) :kxt+1−x_∗k²6C(kxt−x_∗k²)²

3