Cours Apprentissage - ENS Math/Info Analyse Convexe
Francis Bach 17 octobre 2014
Ce cours s’appuie sur le livre “Convex Optimization” de Stephen Boyd et Lieven Vandenberghe (disponible gratuitement :http://www.stanford.edu/~boyd/cvxbook/).
La convexit´e intervient dans de nombreuses branches des math´ematiques et de l’informatique. Deux aspects seront vus dans le cours d’apprentissage : l’analyse convexe (propri´et´es des fonctions et probl`emes d’optimisation convexes) et l’optimisation convexe (algorithmes de r´esolution).
Exemple classique en apprentissage : minimisation du risque empirique r´egularis´e minf∈F
1 n
n
X
i=1
`(yi, f(xi)) +λΩ(f), avec
— (xi, yi)∈ X × Y,i= 1, . . . , ndonn´ees d’apprentissage
— F : ensemble convexe de pr´edicteurs f :X →R
— u7→`(y, u) perte convexe pour touty ∈ Y
— Ω p´enalit´e convexe.
1 Ensembles convexes
On ne consid`ere dans ce cours que la convexit´e dans un espace Euclidien de dimension finie (le plus g´en´eralementRn).
— D´efinition:K⊂Rnest convexe si et seulement si, pour toutx, y∈K, le segment [x, y] est inclus dansK, i.e.,∀α∈[0,1],αx+ (1−α)y∈K.
— Exemples classiques : hyperplana>x=b (a∈Rn, a6= 0, b ∈R), demi-espacea>x>b, sous-espace affineAx=b, boules{kxk61} ⊂Rn, cone{kxk6t} ⊂Rn+1.
— Propri´et´es: l’intersection d’une famille (non n´ecessairement d´enombrables) de convexes est convexe ; la convexit´e est pr´eserv´ee par les applications affines (image et image inverse).
— Enveloppe convexe : Etant donn´e un ensemble A, l’enveloppe convexe est le plus petit ensemble convexe contenantA. Elle est ´egale `a l’intersection de tous les convexes contenant A. Elle est ´egale `a l’ensemble des barycentres `a coefficients positifs ou nuls de familles finies de points deA(i.e.,Pp
i=1αixi, pour xi∈A,αi >0 etPp
i=1αi= 1).
1
— S´eparation des convexes: SiC etD sont deux ensemble convexes disjoints (C∩D=∅), il existe un hyperplan s´eparant C et D, i.e., ∃a 6= 0 et b ∈ R tels que C ⊂ {a>x > b} et D⊂ {a>x6b}(forme g´eom´etrique du th´eor`eme de Hahn-Banach). SiCetDsont compacts, alors il existe une s´eparation stricte, i.e.,C⊂ {a>x > b}et D⊂ {a>x < b}.
Exercice : Montrer le th´eor`eme de s´eparation stricte quand C et D sont compacts (indication : on utilisera la paire (x, y) minimisantkx−yk2pour (x, y)∈C×D et la m´ediatrice des pointsxety).
2 Fonctions convexes
— D´efinition: Une fonctionf d´efinie surD⊂Rnest convexe ssi (a)Dest convexe et (b) pour toutx, y∈D, etα∈[0,1], alorsf(αx+ (1−α)y)6αf(x) + (1−α)f(y).
— Convexit´e stricte: mˆeme d´efinition sauf : siα∈(0,1),f(αx+(1−α)y)< αf(x)+(1−α)f(y)
— Convexit´e forte: mˆeme d´efinition sauf :f(αx+ (1−α)y)6αf(x) + (1−α)f(y)−µ2α(1− α)kx−yk2
— Exemples classiques en une dimension:x,x2,−logx,ex, log(1 +e−x),|x|ppourp>1,
−xp pourp <1 etx>0.
— Exemples classiques en dimension sup´erieure : fonctions lin´eairesa>x, fonctions qua- dratiques 12x>Qx pourQsymm´etrique semid´efinie positive, normes.
— Caract´erisation pour f d´erivable:∀x, y∈D, f(x)>f(y) +f0(y)>(x−y).
— Caract´erisation pour f deux fois d´erivable:∀x∈D, f00(x) semid´efinie positive.
— Op´erations pr´eservant la convexit´e : supremum d’une famille de fonctions convexes supi∈Ifi(x), combinaison lin´eaires positives, minimisation partielle infx∈Cf(x, y) (si f est convexe surC×D).
— Propri´et´es:f est continue sur l’int´erieur de D.
— In´egalit´e de Jensen:f(Pn
i=1αixi)6Pn
i=1αif(xi) et f(EX)6Ef(X).
— Fonctions convexes ´etendues (`a valeurs dans R∪ {+∞}) : ˜f : Rn 7→ R finie sur son domaine, infinie sur son compl´ement. Permet de g´erer simplement les fonctions `a domaine D6=Rn.
3 Probl` emes d’optimisation non-contraints
On supposef convexe et finie surRn. Alors, les trois cas exclusifs suivants sont possibles :
— infx∈Rnf(x) =−∞: pas de minimum (exemplef lin´eaire)
— infx∈Rnf(x)>−∞non atteint (exemple log(1 +e−x))
— infx∈Rnf(x)>−∞atteint (exemple le plus classique) :f est ditecoercive(limkxk→+∞f(x) = +∞)
Minimas locaux vs. minimas globaux: xest minimum local ssi il existe un voisinageV dex tel quexest le minimum def surV. Lorsquef est convexe, tout minimum local est global.
2
Stricte convexit´e et minimum unique : si f est strictement convexe, alors il y a au plus un minimum.
Condition n´ecessaire et suffisante d’optimalit´e (cas d´erivable): Sif est convexe et d´erivable, xest un minimum def surRn si et seulement sif0(x) = 0.
4 Probl` emes d’optimisation contraints
On supposef convexe et finie surD⊂Rn. On cherche `a minimiserf sur un convexeC⊂D.
L’ensemble de contraintesCpeut ˆetre sp´ecifi´e par une intersection d’ensembleshi(x) = 0 etgj(x)60 (voir section suivante).
Minimisation d’une fonction lin´eaire sur une enveloppe convexe : SoitA un compact de Rn eta∈Rn, a6= 0. Alors
minx∈Aa>x= min
x∈Enveloppe convexe(A)a>x
Exemple classique du probl`eme d’affectation : on a p employ´es et ptˆaches, et `a chaque paire em- ploy´e/tˆache (i, j), on a un coˆutcij, le but est de trouver une permutationσ:{1, . . . , p} 7→ {1, . . . , p}
telle quePp
i=1ciσ(i)est minimum. On aPp
i=1ciσ(i)=hc, Mσio`uMσ est la matrice de permutation associ´ee. L’enveloppe convexe des matrices de permutations est l’ensemble des matrices double- ment stochastiques (th´eor`eme de Birkhoff), qui correspond `a un probl`eme d’optimisation comvexe contraint.
5 Dualit´ e Lagrangienne
On s’int´eresse au probl`eme d’optimisation suivant (dit probl`emeprimal) :
minx∈Df(x) tel que ∀i∈ {1, . . . , m}, hi(x) = 0 et∀j ∈ {1, . . . , r}, gj(x)60.
On noteD∗ l’ensemble desx∈D v´erifiant les contraintes.
— D´efinition du Lagrangien: on appelle Lagrangien la fonctionL:Rm×Rr+ d´efinie par L(x, λ, µ) =f(x) +λ>h(x) +µ>g(x).
λetµsont appel´es multiplicateurs de Lagrange (ou variables duales).
— Probl`eme primal comme supremum du Lagrangien par rapport aux variables duales: pour toutx∈D,
sup
(λ,µ)∈Rm×Rr+
L(x, λ, µ) =
f(x) six∈D∗ +∞sinon Le probl`eme primal est donc ´equivalent `a
p∗= inf
x∈D sup
(λ,µ)∈Rm×Rr+
L(x, λ, µ).
3
— Fonction duale:q:Rm×Rr+→Rd´efinie parq(λ, µ) = infx∈DL(x, λ, µ). Le probl`eme dual est la minimisation deq surRm×Rr+, ´equivalent `a
d∗= sup
(λ,µ)∈Rm×Rr+
x∈Dinf L(x, λ, µ).
— Concavit´e du probl`eme dual: sans aucune hypoth`eses surD,f, g, h, la fonction dualeq est concave.
— Dualit´e faible : sans aucune hypoth`eses sur D, f, g, h, pour tout (λ, µ) ∈ Rm×Rr+, et x∈ D∗,
xinf0∈DL(x0, λ, µ)6L(x, λ, µ)6 sup
(λ0,µ0)∈Rm×Rr+
L(x, λ0, µ0) ce qui impliqueq(λ, µ)6f(x). Ceci impliqued∗6p∗.
— Probl`emes non faisables, non-born´es
Interpr´etation g´eometrique : probl`eme `a une contrainte d’in´egalit´e
— Conditions de Slater : si f et D sont convexes, hi affines et gj convexes et il existe un point strictement faisable (∃¯x∈D∗ tel que∀j,gj(¯x)<0), alorsd∗=p∗ (dualit´e forte).
— Conditions de Karush-K¨uhn-Tucker (KKT) : Si il y a dualit´e forte, alors x∗ est une variable primale optimale et (λ∗, µ∗) une paire duale optimale si et seulement si
— stationarit´e primale : x∗ minimisex7→ L(x, λ∗, µ∗).
— faisabilit´e :x∗ et (λ∗, µ∗) sont faisables
— conditions de compl´ementarit´e :∀j, µ∗gj(x∗) = 0
— Preuve pour les conditions de KKT : soitx∗∈Dfaisable(i.e.,x∈D∗) et (λ∗, µ∗)∈Rm×Rr+. Alors
q(λ∗, µ∗) = inf
x∈Df(x) + (λ∗)>h(x) + (µ∗)>g(x) 6 f(x∗) + (λ∗)>h(x∗) + (µ∗)>g(x∗) 6 f(x∗).
La paire (x∗, λ∗, µ∗) est alors optimale si et seulement si il y a ´egalit´e dans les deux in´egalit´es pr´ec´edentes, ce qui aboutit aux conditions de KKT.
— Remarques : (a) le dual du dual est le dual, (b) plusieurs probl`emes duaux, dualit´e forte pas toujours vraie.
— Exemple (Programmation lin´eaire): minAx=b,x>0c>x= maxA>y6cb>y
— Exemple (Probl`eme quadratique avec contrainte d’´egalit´e): mina>x=b12x>Qx−q>x
— Exemple (Relaxation Lagrangienne de probl`eme combinatoire - Max Cut): minx∈{−1,1}nx>W x
— Exemple (Dualit´e forte pour probl`eme non convexe): minx>x611
2x>Qx−q>x
— Exemple (Fenchel) : maxAx=b−f(x) = miny−b>y+f∗(A>y) avec f(x) = 1pPn i=1xpi, f(x) =Pn
i=1exi, f(x) = log Pn i=1exi
.
4