• Aucun résultat trouvé

Analyse convexe

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse convexe"

Copied!
5
0
0

Texte intégral

(1)

Cours Apprentissage - ENS Math/Info Analyse Convexe

Francis Bach 8 Octobre 2015

Ce cours s’appuie sur le livre “Convex Optimization” de Stephen Boyd et Lieven Vandenberghe (disponible gratuitement :http://www.stanford.edu/~boyd/cvxbook/).

La convexit´e intervient dans de nombreuses branches des math´ematiques et de l’informatique. Deux aspects seront vus dans le cours d’apprentissage : l’analyse convexe (propri´et´es des fonctions et probl`emes d’optimisation convexes) et l’optimisation convexe (algorithmes de r´esolution).

Dans le cadre de l’apprentissage statistique, la convexit´e permet d’obtenir des probl`emes d’optimi- sationbien pos´es, pour lesquels il est possible d’obtenir des solutions par des algorithmes efficaces.

Exemple classique en apprentissage : minimisation du risque empirique r´egularis´e minf∈F

1 n

n

X

i=1

`(yi, f(xi)) +λΩ(f), avec

— (xi, yi)∈ X × Y,i= 1, . . . , ndonn´ees d’apprentissage

— F : ensemble convexe de pr´edicteurs f :X →R

— u7→`(y, u) perte convexe pour touty ∈ Y

— Ω p´enalit´e convexe.

La convexit´e servira typiquement `a (a) analyser la solution et ses propri´et´es statistiques de g´en´eralisation et (b) d´eterminer des algorithmes d’estimation.

1 Ensembles convexes

On ne consid`ere dans ce cours que la convexit´e dans un espace Euclidien de dimension finie (le plus g´en´eralementRn).

— D´efinition:K⊂Rnest convexe si et seulement si, pour toutx, y∈K, le segment [x, y] est inclus dansK, i.e.,∀α∈[0,1], αx+ (1−α)y ∈K. Attention au domaine (qui doit ˆetre un ensemble convexe).

— Exemples classiques : hyperplana>x=b (a∈Rn, a6= 0, b ∈R), demi-espacea>x>b, sous-espace affine Ax = b, boules {kxk 6 1} ⊂ Rn, cone {kxk 6 t} ⊂ Rn+1. Poly´edres (intersections de demi-espaces) et polytopes (poli`edres compacts).

(2)

— Propri´et´es: l’intersection d’une famille (non n´ecessairement d´enombrables) de convexes est convexe ; la convexit´e est pr´eserv´ee par les applications affines (image et image inverse).

— Enveloppe convexe : Etant donn´e un ensemble A, l’enveloppe convexe est le plus petit ensemble convexe contenantA. Elle est ´egale `a l’intersection de tous les convexes contenant A. Elle est ´egale `a l’ensemble des barycentres `a coefficients positifs ou nuls de familles finies de points deA(i.e.,Pp

i=1αixi, pour xi∈A,αi >0 etPp

i=1αi= 1).

— S´eparation des convexes: SiC etD sont deux ensemble convexes disjoints (C∩D=∅), il existe un hyperplan s´eparant C et D, i.e., ∃a 6= 0 et b ∈ R tels que C ⊂ {a>x > b} et D⊂ {a>x6b}(forme g´eom´etrique du th´eor`eme de Hahn-Banach). SiCetDsont compacts, alors il existe une s´eparation stricte, i.e.,C⊂ {a>x > b}et D⊂ {a>x < b}.

Exercice : Montrer le th´eor`eme de s´eparation stricte quand C et D sont compacts (indication : on utilisera la paire (x, y) minimisantkx−yk2pour (x, y)∈C×D et la m´ediatrice des pointsxety).

2 Fonctions convexes

— D´efinition: Une fonctionf d´efinie surD⊂Rnest convexe ssi (a)Dest convexe et (b) pour toutx, y∈D, etα∈[0,1], alorsf(αx+ (1−α)y)6αf(x) + (1−α)f(y).

— Convexit´e stricte: mˆeme d´efinition sauf : siα∈(0,1),f(αx+(1−α)y)< αf(x)+(1−α)f(y)

— Convexit´e forte: mˆeme d´efinition sauf :f(αx+ (1−α)y)6αf(x) + (1−α)f(y)−µ2α(1− α)kx−yk2. NB :f estµ-fortement convexe ssix7→f(x)−µ2x>xest convexe.

— Exemples classiques en une dimension:x,x2,−logx,ex, log(1 +e−x),|x|ppourp>1,

−xp pourp <1 etx>0.

— Exemples classiques en dimension sup´erieure : fonctions lin´eairesa>x, fonctions qua- dratiques 12x>Qx pour Qsymm´etrique semid´efinie positive (rappel de la d´efinition : toutes les valeurs propres positives ou nulles, ou ∀x ∈Rn, x>Qx > 0), normes, max{x1, . . . , xn}, log(P

iexi).

— Caract´erisation pour f d´erivable:∀x, y∈D, f(x)>f(y) +f0(y)>(x−y).

— Caract´erisation pour f deux fois d´erivable:∀x∈D, f00(x) semid´efinie positive.

— Op´erations pr´eservant la convexit´e : supremum d’une famille de fonctions convexes supi∈Ifi(x), combinaison lin´eaires positives, minimisation partielle infx∈Cf(x, y) (si f est convexe surC×D).

— Comment v´erifier qu’une fonction est convexe ou non-convexe ? :Le plus souvent, aucun calcul n’est n´ecessaire. Une fonction est convexe ssi elle est convexe sur tout segment inclus dans son domaine.

— Propri´et´es: (a) f est continue sur l’int´erieur deD, (b)f est convexe ssi l’´epigraphe def est convexe, i.e.,{(x, t)∈Rn+1, f(x)6t} est convexe.

— In´egalit´e de Jensen:f(Pn

i=1αixi)6Pn

i=1αif(xi) etf(EX)6Ef(X). Attention au sens de l’in´egalit´e.

— Fonctions convexes ´etendues(`a valeurs dansR∪ {+∞}) : ˜f :Rn7→R∪ {+∞}finie sur son domaine, infinie sur son compl´ement. Permet de g´erer simplement les fonctions `a domaine D6=Rn.

(3)

3 Probl` emes d’optimisation non-contraints

Attention `a la diff´erence entre “min”, “inf” et la d´efinition d’un probl`eme d’optimisation.

On supposef convexe et finie surRn. Alors, les trois cas exclusifs suivants sont possibles :

— infx∈Rnf(x) =−∞: pas de minimum (exemplef lin´eaire)

— infx∈Rnf(x)>−∞non atteint (exemple log(1 +e−x))

— infx∈Rnf(x)>−∞atteint, et alors ´egale `a minx∈Rnf(x) (exemple le plus classique) :f est ditecoercive(limkxk→+∞f(x) = +∞)

Minimas locaux vs. minimas globaux:xest minimum local ssi il existe un voisinage (ouvert) V dextel quexest le minimum def surV. Lorsquef est convexe, tout minimum local est global.

Stricte convexit´e et minimum unique : si f est strictement convexe, alors il y a au plus un minimum.

Condition n´ecessaire et suffisante d’optimalit´e (cas d´erivable): Sif est convexe et d´erivable, xest un minimum def surRn si et seulement sif0(x) = 0. Attention `a la diff´erence entre minimum local et point stationnaire.

4 Probl` emes d’optimisation contraints

On supposef convexe et finie surD⊂Rn. On cherche `a minimiserf sur un convexeC⊂D.

L’ensemble de contraintesCpeut ˆetre sp´ecifi´e par une intersection d’ensembleshi(x) = 0 etgj(x)60 (voir section suivante).

Minimisation d’une fonction lin´eaire sur une enveloppe convexe : SoitA un compact de Rn eta∈Rn, a6= 0. Alors

min

x∈Aa>x= min

x∈Enveloppe convexe(A)

a>x

Exemple classique du probl`eme d’affectation : on a p employ´es et ptˆaches, et `a chaque paire em- ploy´e/tˆache (i, j), on a un coˆutcij, le but est de trouver une permutationσ:{1, . . . , p} 7→ {1, . . . , p}

telle quePp

i=1ciσ(i)est minimum. On aPp

i=1ciσ(i)=hc, Mσio`uMσ est la matrice de permutation associ´ee. L’enveloppe convexe des matrices de permutations est l’ensemble des matrices double- ment stochastiques (th´eor`eme de Birkhoff), qui correspond `a un probl`eme d’optimisation comvexe contraint.

5 Dualit´ e Lagrangienne

On s’int´eresse au probl`eme d’optimisation suivant (dit probl`emeprimal) :

minx∈Df(x) tel que ∀i∈ {1, . . . , m}, hi(x) = 0 et∀j ∈ {1, . . . , r}, gj(x)60.

On noteD l’ensemble desx∈D v´erifiant les contraintes.

(4)

On utilisera l’exemple canonique de la projection orthogonale d’un pointzsur le demi-espace{a>x6 b} ou l’hyper-espace{a>x=b}.

— D´efinition du Lagrangien: on appelle Lagrangien la fonctionL:Rm×Rr+ d´efinie par L(x, λ, µ) =f(x) +λ>h(x) +µ>g(x).

λetµsont appel´es multiplicateurs de Lagrange (ou variables duales).

— Probl`eme primal comme supremum du Lagrangien par rapport aux variables duales: pour toutx∈D,

sup

(λ,µ)∈Rm×Rr+

L(x, λ, µ) =

f(x) six∈D +∞sinon (Preuve utilisant le minimum d’une fonction lin´eaire surRouR+) Le probl`eme primal est donc ´equivalent `a

p= inf

x∈D sup

(λ,µ)∈Rm×Rr+

L(x, λ, µ).

— Fonction duale:q:Rm×Rr+→Rd´efinie parq(λ, µ) = infx∈DL(x, λ, µ). Le probl`eme dual est la minimisation deq surRm×Rr+, ´equivalent `a

d= sup

(λ,µ)∈Rm×Rr+

x∈Dinf L(x, λ, µ).

— Concavit´e du probl`eme dual: sans aucune hypoth`eses surD,f, g, h, la fonction dualeq est concave.

— Dualit´e faible : sans aucune hypoth`eses sur D, f, g, h, pour tout (λ, µ) ∈ Rm×Rr+, et x∈ D,

inf

x0∈DL(x0, λ, µ)6L(x, λ, µ)6 sup

00)∈Rm×Rr+

L(x, λ0, µ0) ce qui impliqueq(λ, µ)6f(x). Ceci impliqued6p.

NB : on peut toujours inverser sup et inf : “sup inf6inf sup”

— Probl`emes non faisables(D=∅⇔d= inf),non-born´es(p=−∞)

Interpr´etation g´eometrique : probl`eme `a une contrainte d’in´egalit´e (intuition pour l’hypoth`ese de convexit´e) Pour le probl`eme minx∈Df(x) tel que g(x)60, on consid`ere l’ensemble A ={(u, t)∈ R2, ∃x∈D, f(x)6t, g(x)6u}.

— Conditions de Slater : si f et D sont convexes, hi affines et gj convexes et il existe un point strictement faisable (∃¯x∈D tel que∀j,gj(¯x)<0), alorsd=p (dualit´e forte).

— Conditions de Karush-K¨uhn-Tucker (KKT) : Si il y a dualit´e forte, alors x est une variable primale optimale et (λ, µ) une paire duale optimale si et seulement si

— stationarit´e primale : x minimisex7→ L(x, λ, µ).

— faisabilit´e :x et (λ, µ) sont faisables

— conditions de compl´ementarit´e :∀j, µjgj(x) = 0

— Preuve pour les conditions de KKT : soitx∈Dfaisable(i.e.,x∈D) et (λ, µ)∈Rm×Rr+. Alors

q(λ, µ) = inf

x∈Df(x) + (λ)>h(x) + (µ)>g(x) 6 f(x) + (λ)>h(x) + (µ)>g(x) 6 f(x).

(5)

La paire (x, λ, µ) est alors optimale si et seulement si il y a ´egalit´e dans les deux in´egalit´es pr´ec´edentes, ce qui aboutit aux conditions de KKT.

— Remarques : (a) le dual du dual est le primal, (b) plusieurs probl`emes duaux, dualit´e forte pas toujours vraie.

— Exemple (Programmation lin´eaire): minAx=b,x>0c>x= maxA>y6cb>y

— Exemple (Probl`eme quadratique avec contrainte d’´egalit´e): mina>x=b1

2x>Qx−q>x

— Exemple (Relaxation Lagrangienne de probl`eme combinatoire - Max Cut): minx∈{−1,1}nx>W x

— Exemple (Dualit´e forte pour probl`eme non convexe): minx>x611

2x>Qx−q>x

Références

Documents relatifs

Le th´eor`eme 2.4 de ce livre s’appuie sur une fonction de Lyapunov pour donner une condition n´ecessaire et suffisante de stabilit´e dans la norme L 2 d’un syst`eme lin´eaire de

Un probl`eme de l’´etude des matrices de Toeplitz est d’´etablir la trace du produit de deux matrices de Toeplitz, ou mˆeme d’une puissance d’un produit de matrice de

L’existence de solutions du syst`eme approch´e est, quant ` a elle, obtenue en consid´erant un probl`eme lin´earis´e approch´e o` u l’on d´ecouple les ´equations de

Les m´ethodes d’´el´ements finis stochastiques (MEFS) sont des alternatives aux m´ethodes de Monte-Carlo, notamment pour le traitement des probl`emes de propagation

Dans ce m´ emoire on s’int´ eresse aussi ` a l’´ etude de l’analyse asymptotique d’un probl` eme.. stationner de Stokes dans un domaine born´ e en dimension trois en film

Dans le deuxi` eme chapitre, est consacr´ e ` a l’´ etude d’un probl` eme de contact avec frottement pour des mat´ eriaux ´ electro-visco´ elastiques dans un processus dynamique..

Les formes bilin´ eaire et lin´ eaire a et L ´ etant continues, il ne reste plus qu’` a ´ etablir la coercivit´ e de la forme bilin´ eaire a pour pouvoir appliquer le Th´ eor` eme

Plus g´ en´ eralement, il s’agit d’une premi` ere approche du probl` eme de l’´ echangeur thermique : quelle doit ˆ etre la longueur minimale de refroidissement pour bais- ser