Optimisation et conditions d’optimalité

2.3 Challenges et recherches en cours

0. Elle peut être interprétée comme une norme

−1 −0.5 0 0.5 1 1.5 2 2.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3

−1 −0.5 0 0.5 1 1.5 2 2.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3

2.3 Challenges et recherches en cours

3.1.4 Optimisation et conditions d’optimalité



X

W





= trace(W

W). (3.11)

avec W

la composante de la i

ligne et j

colonne de la matrice, est une norme ℓ

sur la

vectorisation de la matrice W.

Une autre régularisation assez commune en apprentissage statistique est la régularisation

par norme nucléaire de la matriceW :

Ω

(W) =

X

σ

(W) (3.12)

Cette régularisation peut être vue comme une relaxation convexe du rang de la matrice W

[Bach 2008b,Ji 2009], de la même manière que la régularisation ℓ

est une relaxation convexe

de la régularisation ℓ

ℓ

sur les valeurs singulières

de la matrice W. Elle a donc pour eﬀet, de rendre nulles des valeurs singulières de W et ainsi

de minimiser son rang.

La norme nucléaire est utilisée dans les travaux de Tomioka pour apprendre un classiﬁeur

sur des matrices de signaux de potentiel évoqué [Tomioka 2010a]. Ces signaux se présentent

sous la forme de matrice (un signal par colonne). Or comme ils sont fortement corrélés, il parait

judicieux de forcer les paramètres du classiﬁeur à être de faible rang. Ceci revient à déterminer un

sous-espace linéaire discriminant, une approche similaire au ﬁltrage spatial xDAWN [Rivet 2009].

De même, ce terme de régularisation a été introduit dans le cadre de l’apprentissage

multi-tâche par [Argyriou 2008]. Il permet en eﬀet, d’apprendre plusieurs classiﬁeurs (un par colonne

de la matriceW) en leur faisant partager un sous-espace linéaire.

3.1.4 Optimisation et conditions d’optimalité

Le problème d’apprentissage exprimé Équation (3.5) est un problème de minimisation du

risque structurel. La solution de ce problème ne peut, la plupart du temps, pas être exprimée

de manière analytique, c’est pourquoi des algorithmes d’optimisation numérique doivent être

utilisés [Nocedal 2000]. Ces derniers sont basés sur la mise à jour itérative d’un vecteur jusqu’à

convergence vers un point stationnaire de la fonction objectif.

Dans la suite de cette section, notre but est d’optimiser le problème suivant :

min

{J(x) =J

x) +λΩ(x)} (3.13)

Ce problème, similaire à (3.5), est un problème de minimisation du risque structurel où J

(·)

est une fonction d’attache aux données et Ω(·) un terme de régularisation. On considère dans la

suite de cette section que la fonction J(·) est propre et coercive.

Nous introduisons certaines de ces méthodes, puis nous discutons de leurs conditions

d’opti-malité, i.e. des conditions nécessaires et suﬃsantes pour qu’un vecteur soit solution du problème

d’optimisation.

Algorithmes d’optimisation

Il existe de multiples algorithmes dédiés à la résolution des problèmes de type (3.5). Les

algo-rithmes utilisés dans nos travaux sont décrits en AnnexeA.1mais nous introduisons rapidement

ici leur conditions d’utilisation.

Gradient Conjugué (GC) Soit les hypothèses suivantes :

1. L’ensemble de niveauL:={x|J(x)≤J(x

)} est borné, la fonctionJ(·) est coercive.

2. Sur un voisinage ouvert N de L, le gradient de la fonction de coût∇J(·) est lipschitzien,

c’est-à-dire qu’il existe une constante L∈R

telle que :

k∇J(x)− ∇J(x

)k

≤Lkx−x

k

∀x∈ N,∀x

∈ N (3.14)

SiJ(·) est deux fois diﬀérentiable, il est équivalent de montrer que :

∃L∈R

,k∇

J(x)k

≤L ∀x (3.15)

avec k · k

la norme matricielle induite par la normeℓ

.

x) +λΩ(x)_} (3.13)

(_·)

est une fonction d’attache aux données et Ω(_·) un terme de régularisation. On considère dans la

suite de cette section que la fonction J(_·) est propre et coercive.

1. L’ensemble de niveau_L:=_{x_|J(x)_≤J(x

)_} est borné, la fonctionJ(_·) est coercive.

2. Sur un voisinage ouvert _N de _L, le gradient de la fonction de coût_∇J(_·) est lipschitzien,

k∇J(x)_{− ∇}J(x

)_k

_≤Lk^x−^x

∀^x∈ N,∀^x

∈ N ^(3.14)

SiJ(_·) est deux fois diﬀérentiable, il est équivalent de montrer que :

J(x)_k

_≤L ∀x (3.15)

avec _{k · k}

L’algorithme converge globalement, c’est-à-dire vers un point stationnaire de J(_·).

_·) est de classe_C

(_·), une constante de LipschitzL >0 vériﬁant l’équation (3.14) ou (3.15).

2. Le terme de régularisation Ω(_·) est une fonction propre, semicontinue inférieurement et

mini-mum global de J(_·) avec une vitesse de convergence _O(

convergence en valeur objectif _O(

Les méthodes FBS sont des méthodes faisant appel à l’opérateur proximal de Ω(_·) et ont

(_·) est une fonction convexe, propre et diﬀérentiable.

2. Ω(_·) est un terme de régularisation convexe, propre et semicontinu inférieurement.