Analyse convexe

(1)

Cours Apprentissage - ENS Math/Info Analyse Convexe

Francis Bach 17 octobre 2014

Ce cours s’appuie sur le livre “Convex Optimization” de Stephen Boyd et Lieven Vandenberghe (disponible gratuitement :http://www.stanford.edu/~boyd/cvxbook/).

La convexité intervient dans de nombreuses branches des mathématiques et de l’informatique. Deux aspects seront vus dans le cours d’apprentissage : l’analyse convexe (propriétés des fonctions et problèmes d’optimisation convexes) et l’optimisation convexe (algorithmes de résolution).

Exemple classique en apprentissage : minimisation du risque empirique r´egularis´e minf∈F

1 n

n

X

i=1

`(yi, f(xi)) +λΩ(f), avec

— (xi, yi)∈ X × Y,i= 1, . . . , ndonn´ees d’apprentissage

— F : ensemble convexe de pr´edicteurs f :X →R

— u7→`(y, u) perte convexe pour touty ∈ Y

— Ω p´enalit´e convexe.

1 Ensembles convexes

On ne considère dans ce cours que la convexité dans un espace Euclidien de dimension finie (le plus généralementRⁿ).

— D´efinition:K⊂Rⁿest convexe si et seulement si, pour toutx, y∈K, le segment [x, y] est inclus dansK, i.e.,∀α∈[0,1],αx+ (1−α)y∈K.

— Exemples classiques : hyperplana^>x=b (a∈Rⁿ, a6= 0, b ∈R), demi-espacea^>x>b, sous-espace affineAx=b, boules{kxk61} ⊂Rⁿ, cone{kxk6t} ⊂Rⁿ⁺¹.

— Propriétés: l’intersection d’une famille (non nécessairement dénombrables) de convexes est convexe ; la convexité est préservée par les applications affines (image et image inverse).

— Enveloppe convexe : Etant donné un ensemble A, l’enveloppe convexe est le plus petit ensemble convexe contenantA. Elle est égale à l’intersection de tous les convexes contenant A. Elle est égale à l’ensemble des barycentres à coefficients positifs ou nuls de familles finies de points deA(i.e.,Pp

i=1αixi, pour xi∈A,αi >0 etPp

i=1αi= 1).

1

(2)

— Séparation des convexes: SiC etD sont deux ensemble convexes disjoints (C∩D=∅), il existe un hyperplan séparant C et D, i.e., ∃a 6= 0 et b ∈ R tels que C ⊂ {a^>x > b} et D⊂ {a^>x6b}(forme géométrique du théorème de Hahn-Banach). SiCetDsont compacts, alors il existe une séparation stricte, i.e.,C⊂ {a^>x > b}et D⊂ {a^>x < b}.

Exercice : Montrer le théorème de séparation stricte quand C et D sont compacts (indication : on utilisera la paire (x, y) minimisantkx−yk²pour (x, y)∈C×D et la médiatrice des pointsxety).

2 Fonctions convexes

— D´efinition: Une fonctionf d´efinie surD⊂Rⁿest convexe ssi (a)Dest convexe et (b) pour toutx, y∈D, etα∈[0,1], alorsf(αx+ (1−α)y)6αf(x) + (1−α)f(y).

— Convexité stricte: même définition sauf : siα∈(0,1),f(αx+(1−α)y)< αf(x)+(1−α)f(y)

— Convexité forte: même définition sauf :f(αx+ (1−α)y)6αf(x) + (1−α)f(y)−^µ₂α(1− α)kx−yk²

— Exemples classiques en une dimension:x,x²,−logx,e^x, log(1 +e^−x),|x|^ppourp>1,

−x^p pourp <1 etx>0.

— Exemples classiques en dimension supérieure : fonctions linéairesa^>x, fonctions qua- dratiques ¹₂x^>Qx pourQsymmétrique semidéfinie positive, normes.

— Caract´erisation pour f d´erivable:∀x, y∈D, f(x)>f(y) +f⁰(y)^>(x−y).

— Caractérisation pour f deux fois dérivable:∀x∈D, f⁰⁰(x) semidéfinie positive.

— Opérations préservant la convexité : supremum d’une famille de fonctions convexes sup_i∈If_i(x), combinaison linéaires positives, minimisation partielle inf_x∈Cf(x, y) (si f est convexe surC×D).

— Propriétés:f est continue sur l’intérieur de D.

— In´egalit´e de Jensen:f(Pn

i=1αixi)6Pn

i=1αif(xi) et f(EX)6Ef(X).

— Fonctions convexes étendues (à valeurs dans R∪ {+∞}) : ˜f : Rⁿ 7→ R finie sur son domaine, infinie sur son complément. Permet de gérer simplement les fonctions à domaine D6=Rⁿ.

3 Probl` emes d’optimisation non-contraints

On supposef convexe et finie surRⁿ. Alors, les trois cas exclusifs suivants sont possibles :

— inf_x∈Rⁿf(x) =−∞: pas de minimum (exemplef lin´eaire)

— inf_x∈Rⁿf(x)>−∞non atteint (exemple log(1 +e^−x))

— infx∈Rⁿf(x)>−∞atteint (exemple le plus classique) :f est ditecoercive(lim_kxk→+∞f(x) = +∞)

Minimas locaux vs. minimas globaux: xest minimum local ssi il existe un voisinageV dex tel quexest le minimum def surV. Lorsquef est convexe, tout minimum local est global.

2

(3)

Stricte convexit´e et minimum unique : si f est strictement convexe, alors il y a au plus un minimum.

Condition nécessaire et suffisante d’optimalité (cas dérivable): Sif est convexe et dérivable, xest un minimum def surRⁿ si et seulement sif⁰(x) = 0.

4 Probl` emes d’optimisation contraints

On supposef convexe et finie surD⊂Rⁿ. On cherche `a minimiserf sur un convexeC⊂D.

L’ensemble de contraintesCpeut être spécifié par une intersection d’ensemblesh_i(x) = 0 etg_j(x)60 (voir section suivante).

Minimisation d’une fonction lin´eaire sur une enveloppe convexe : SoitA un compact de Rⁿ eta∈Rⁿ, a6= 0. Alors

minx∈Aa^>x= min

x∈Enveloppe convexe(A)a^>x

Exemple classique du problème d’affectation : on a p employés et ptâches, et à chaque paire em- ployé/tâche (i, j), on a un coûtcij, le but est de trouver une permutationσ:{1, . . . , p} 7→ {1, . . . , p}

telle quePp

i=1c_iσ(i)est minimum. On aPp

i=1c_iσ(i)=hc, MσioùMσ est la matrice de permutation associée. L’enveloppe convexe des matrices de permutations est l’ensemble des matrices double- ment stochastiques (théorème de Birkhoff), qui correspond à un problème d’optimisation comvexe contraint.

5 Dualit´ e Lagrangienne

On s’intéresse au problème d’optimisation suivant (dit problèmeprimal) :

minx∈Df(x) tel que ∀i∈ {1, . . . , m}, hi(x) = 0 et∀j ∈ {1, . . . , r}, gj(x)60.

On noteD^∗ l’ensemble desx∈D v´erifiant les contraintes.

— D´efinition du Lagrangien: on appelle Lagrangien la fonctionL:R^m×R^r+ d´efinie par L(x, λ, µ) =f(x) +λ^>h(x) +µ^>g(x).

λetµsont appel´es multiplicateurs de Lagrange (ou variables duales).

— Probl`eme primal comme supremum du Lagrangien par rapport aux variables duales: pour toutx∈D,

sup

(λ,µ)∈R^m×R^r+

L(x, λ, µ) =

f(x) six∈D^∗ +∞sinon Le problème primal est donc équivalent à

p^∗= inf

x∈D sup

(λ,µ)∈R^m×R^r+

L(x, λ, µ).

3

(4)

— Fonction duale:q:R^m×R^r+→Rdéfinie parq(λ, µ) = inf_x∈DL(x, λ, µ). Le problème dual est la minimisation deq surR^m×R^r+, équivalent à

d^∗= sup

(λ,µ)∈R^m×R^r₊

x∈Dinf L(x, λ, µ).

— Concavité du problème dual: sans aucune hypothèses surD,f, g, h, la fonction dualeq est concave.

— Dualit´e faible : sans aucune hypoth`eses sur D, f, g, h, pour tout (λ, µ) ∈ R^m×R^r+, et x∈ D^∗,

xinf⁰∈DL(x⁰, λ, µ)6L(x, λ, µ)6 sup

(λ⁰,µ⁰)∈R^m×R^r+

L(x, λ⁰, µ⁰) ce qui impliqueq(λ, µ)6f(x). Ceci impliqued^∗6p^∗.

— Probl`emes non faisables, non-born´es

Interprétation géometrique : problème à une contrainte d’inégalité

— Conditions de Slater : si f et D sont convexes, h_i affines et g_j convexes et il existe un point strictement faisable (∃¯x∈D^∗ tel que∀j,g_j(¯x)<0), alorsd^∗=p^∗ (dualit´e forte).

— Conditions de Karush-K¨uhn-Tucker (KKT) : Si il y a dualit´e forte, alors x^∗ est une variable primale optimale et (λ^∗, µ^∗) une paire duale optimale si et seulement si

— stationarit´e primale : x^∗ minimisex7→ L(x, λ^∗, µ^∗).

— faisabilit´e :x^∗ et (λ^∗, µ^∗) sont faisables

— conditions de compl´ementarit´e :∀j, µ^∗gj(x^∗) = 0

— Preuve pour les conditions de KKT : soitx^∗∈Dfaisable(i.e.,x∈D^∗) et (λ^∗, µ^∗)∈R^m×R^r+. Alors

q(λ^∗, µ^∗) = inf

x∈Df(x) + (λ^∗)^>h(x) + (µ^∗)^>g(x) 6 f(x^∗) + (λ^∗)^>h(x^∗) + (µ^∗)^>g(x^∗) 6 f(x^∗).

La paire (x^∗, λ^∗, µ^∗) est alors optimale si et seulement si il y a égalité dans les deux inégalités précédentes, ce qui aboutit aux conditions de KKT.

— Remarques : (a) le dual du dual est le dual, (b) plusieurs probl`emes duaux, dualit´e forte pas toujours vraie.

— Exemple (Programmation lin´eaire): minAx=b,x>0c^>x= max_A>y6cb^>y

— Exemple (Problème quadratique avec contrainte d’égalité): min_a^>_x=b¹₂x^>Qx−q^>x

— Exemple (Relaxation Lagrangienne de probl`eme combinatoire - Max Cut): min_x∈{−1,1}ⁿx^>W x

— Exemple (Dualit´e forte pour probl`eme non convexe): min_x>x611

2x^>Qx−q^>x

— Exemple (Fenchel) : maxAx=b−f(x) = miny−b^>y+f^∗(A^>y) avec f(x) = ¹_pPn i=1x^p_i, f(x) =Pn

i=1e^xⁱ, f(x) = log Pn i=1e^xⁱ

.

4