Calcul pratique des multiplicateurs de Lagrange

Notre stratégie de suivi du chemin de régularisation requiert le calcul de plusieurs solutions

du système linéaire (2.8), pour diérentes valeurs du coecient λ. Il est donc utile de disposer

d'un algorithme dédié. Dans cette section, nous commençons par reformuler l'équation (2.8) à

l'aide d'une technique standard puis nous l'utilisons pour obtenir un algorithme permettant de

résoudre ce système dans le cadre du parcours du chemin de régularisation pour un coût réduit.

2.2.3.1 Calcul de la solution pour une valeur de λ xée

Nous prenons notre inspiration de [98] qui utilise une technique habituelle des méthodes

d'en-semble actif. Dans un premier temps, remarquons que, puisqueH

E,E

est une matrice symétrique

et semi-dénie positive,H

E,E

(λ) est symétrique dénie positive et donc inversible.

L'objectif, ici, est de reformuler (2.8) an de faire apparaître H

E,E

(λ)

⁻¹

. A partir de la

seconde équation de (2.7), nous obtenons :

α

(λ) =H

E,E

(λ)

⁻¹

(1

−α

(λ)y

) . (2.9)

Par substitution dans la première équation de (2.7), nous avons :

y

^T_E

H

E,E

(λ)

⁻¹

1 =α

(λ)y

_E^T

H

E,E

(λ)

⁻¹

y

. (2.10)

Toujours en suivant la démarche de [98], an d'obtenir une expression compacte de α

₀

(λ) et

α

(λ), nous introduisons deux vecteurs de R

^m^E

,ν etρ, tels que







H

E,E

(λ)ν =y

H

E,E

(λ)ρ= 1

. (2.11)

Par substitution dans (2.9) et (2.10) nous avons







α

(λ) =ρ−α

(λ)ν

y

_E^T

ρ=α

₀

(λ)y

^T_E

ν

.

2.2. Parcours du chemin de régularisation de la`

-SVM 51

Ainsi, l'expression deα

(λ)etα

(λ) en fonction deν etρ est :







α

(λ) =

^y^TEρ yT Eν

α

(λ) =ρ−α

(λ)ν

. (2.12)

A la lumière de (2.12), la résolution de (2.8) pour une valeur donnée deλse réduit à

calcu-ler les valeurs correspondantes de ν et de ρ. Puisque la matrice H

E,E

(λ) est symétrique dénie

positive, cette résolution peut se faire par l'utilisation d'une décomposition de Cholesky. La

dé-composition de Gaxpy Cholesky (voir par exemple [54]) dont la complexité est

m

³_E

est une

possibilité. Toutefois, des améliorations signicatives peuvent être obtenues en traitant

globale-ment la résolution de l'ensemble de ces systèmes (paramétrés parλ). Nous décrivons à présent

cet algorithme qui présente un coût réduit.

2.2.3.2 Calcul d'une série de solutions

Notre méthode fait un usage central du fait que si la matrice H peut être approchée par

une matrice de rang faible (indépendant dem) alors la complexité de la résolution du système

(2.11) est linéaire enm

. Ce résultat correspond à la proposition 7. Ainsi, nous commençons par

introduire une approximation de rang faible deH et nous l'utilisons pour calculer les

multiplica-teurs de Lagrange. Pour éviter les instabilités numériques, nous dénissons une petite constante

positiveεqui est supposée susament grande pour queH(ε)soit numériquement dénie

posi-tive (c'est-à-dire que ses valeurs propres ne soient pas trop petites). Pour obtenir une solution

approchée de (2.11) pourλ

> ε tel que E(λ

) est connu, nous utilisons une approximation de

rang faible deH

_E₍_λ₀₎_,_E₍_λ₀₎

(ε), approximation qui peut être obtenue directement de celle deH(ε).

L'approximation deH(ε) (et doncH) que nous considérons est une matriceH

(ε) satisfaisant

H

(ε) =R

R

^T_r

avec R

∈ M

_m,r

(_R). Cette matrice H

(ε) est de rang r et la matrice de Gram associée est de

même rang

. Remarquons que cette factorisation peut reposer sur le fait queH(ε)est symétrique

dénie positive. Comme dans section 2.2.1, nous réordonnons les exemples d'apprentissage et

décomposons la matriceR

en fonction des ensembles E etI. Nous avons alorsR

= ^R

^E⁽^λ0)

R

_I₍_λ₀₎

!

,

avecR

_E₍_λ₀₎

∈ M

_m_E₍_λ 0),r

(_R) etR

_I₍_λ₀₎

∈ M

_m_I₍_λ 0),r

(_R), et obtenons

H

(ε) = ^H

^E⁽^λ0),E(λ0),r

(ε) H

_E₍_λ₀₎_,_I₍_λ₀₎_,r

(ε)

H

I(λ0),E(λ0),r

(ε) H

I(λ0),I(λ0),r

(ε)

!

= ^R

^E⁽^λ0)

R

^T_E₍_λ 0)

R

E(λ0)

R

^T_I₍_λ 0)

R

I(λ0)

R

^T_E₍_λ 0)

R

I(λ0)

R

^T_I₍_λ 0)

!

.

1. Pour une idée de la preuve, penser au fait querreprésente la dimension de l'espace de représentation. Dans ce cas là, la matrice de Gram et le hessien doivent être de même rang. Pour une preuve analytique, on écritHr en fonction de la factorisation de la matrice de Gram puis avec l'inégalité de Sylvester on montre l'égalité de leurs rangs.

Par construction,

H

_E₍_λ₀₎_,_E₍_λ₀₎

(λ

) =H

_E₍_λ₀₎_,_E₍_λ₀₎

(ε) + ^λ

⁰

⁻^ε

2 ^I

^mE(λ₀₎

,

et donc,H

_E₍_λ₀₎_,_E₍_λ₀₎

(λ

₀

)peut être approchée par

H

_E₍_λ₀₎_,_E₍_λ₀₎_,r

(λ

₀

, ε) =H

_E₍_λ₀₎_,_E₍_λ₀₎_,r

(ε) + ^λ

⁰

⁻^ε

2 ^I

^mE(λ₀₎

.

L'intérêt de cette approximation est que nalement, on ne travaille plus qu'avecR

_E₍_λ₀₎

, qui peut

être directement obtenue à partir de la matriceR

, c'est-à-dire pour une seule approximation de

rang faible deH(ε). Le fait queH

_E₍_λ₀₎_,_E₍_λ₀₎_,r

(ε)ne soit pas la matrice que l'on aurait obtenue en

calculant l'approximation de rang faible de H

_E₍_λ₀₎_,_E₍_λ₀₎

(ε) ne soulève aucune diculté puisque

nous n'utilisons pas les éventuelles propriétés de cette factorisation. De plus, cette matrice est

régulière.

Proposition 7. Soit le système d'équations linéaires suivant

H

_E₍_λ₀₎_,_E₍_λ₀₎_,r

(λ

₀

, ε)v =z,

avecH

_E₍_λ₀₎_,_E₍_λ₀₎_,r

(λ

, ε)∈ M

_m_E₍_λ

0),m_E₍_λ

(_R) la somme d'une matrice de rangr et de la matrice

identité multipliée par un scalaire. La complexité de résolution de ce système est linéaire en

m

_E₍_λ₀₎

, plus précisément en O m

_E₍_λ₀₎

r

+r

.

Démonstration. L'application de l'identité de Sherman-Morrison-Woodbury (voir par exemple

[54]), permet d'obtenir :

H

E(λ0),E(λ0),r

(ε) +^λ

⁰

⁻^ε

2 ^I

^mE(λ₀₎

−1

=

R

E(λ0)

R

^T_E₍_λ₀₎

+^λ

⁰

⁻^ε

2 ^I

^mE(λ₀₎

−1

= ²

λ

₀

−ε^I

^mE(λ₀₎

− ⁴

(λ

₀

−ε)

^R

^E⁽^λ⁰⁾

I

+ ²

λ

₀

−ε^R

T E(λ0)

R

_E₍_λ₀₎

−1

R

_E^T₍_λ₀₎

= ²

λ

₀

−ε^I

^mE(λ0)

− ⁴

(λ

₀

−ε)

^R

^E⁽^λ⁰⁾

^T⁽^λ

⁰

⁾

−1

R

^T_E₍_λ 0)

(2.13)

avec

T(λ

₀

) =I

+ ²

λ

₀

−ε^R

T E(λ0)

R

_E₍_λ₀₎

.

Résoudre le système d'intérêt se réduit à résoudre un système de taille r (celui correspondant

à l'inverse de T(λ

₀

)) et à eectuer une série de multiplications de matrices et de vecteurs. Une

fois queT(λ

) est obtenu enO m

E(λ0)

r

opérations, ce système est résolu par une méthode de

Cholesky en seulement

r

opérations (voir la section précédente). Puisque les multiplications de

matrices de (2.13) impliquent des matrices de tailles inférieures à m

_E₍_λ₀₎

, r

, leurs complexités

n'excèdent pas O m

E(λ0)

r

. La somme de ces deux complexités conclut la preuve.

Pour obtenir une solution approchée de (2.11) pour λ = λ

₀

, la matrice H

_E₍_λ₀₎_,_E₍_λ₀₎

(λ

₀

)

est remplacée par H

_E₍_λ₀₎_,_E₍_λ₀₎_,r

(ε) +

^λ0−ε

I

m_E₍_λ

2.2. Parcours du chemin de régularisation de la`

-SVM 53

calculées par résolution d'un système produisant T(λ

). Pour obtenir un système triangulaire

pour chacune des équations, une décomposition de Cholesky de cette matrice est eectuée an

que T(λ

₀

) = L

^T_E₍_λ

L

_E₍_λ₀₎

. Grâce à la proposition 7, la complexité du calcul de ν and ρ se

réduit de O m

³_E

à O m

r

+r

, ce qui conrme la complexité linéaire en m

annoncée

au début de la section. Cette constatation établit l'avantage de notre algorithme abordant de

manière globale la résolution approchée des systèmes (2.11) par rapport aux méthodes

trai-tant indépendamment chacun de ces systèmes. Par abus de notation, nous continuons d'utiliser

α

^a_E

(λ

) =

α

₀

(λ

₀

) α

(λ

₀

)

pour désigner la solution approchée de (2.8) (pourλ=λ

). Les

détails concernant la complexité et la conséquence de cette approximation sont donnés dans la

section 2.2.6. Puisque cette approche considère que E(λ

) est connu, nous nous intéressons à

présent à la méthode proposée pour suivre l'évolution de cet ensemble.

2.2.4 Détection des changements dans la partition de l'ensemble

d'appren-tissage

Soit λ

l∈_N∗

la séquence strictement décroissante de valeurs du coecient de régularisation

associée aux modications des ensemblesE etI. Ces événements peuvent être directement inférés

des dénitions de ces ensembles. En eet, si la séquence est connue jusqu'à son terme d'indice

l, alors trouver λ

^l⁺¹

revient à identier la plus grande valeur de λdans l'intervalle 0, λ

pour

laquelle un nouvel indice i ∈ [[ 1, m]]vérie y

h

(x

) = 1, c'est-à-dire résoudre en λ l'ensemble

des équations indexées pari:

y

h

_λ

(x

) =H

_i,_E

₍

_λl

)^α

(

λl

) (^λ^{) +}^y

α

(λ) = 1 . (2.14)

L'implantation naïve de cette méthode la rend inapplicable pour les grandes valeurs dem

,

et nous verrons dans la section 2.2.5 que le cas extrême E(λ) = [[ 1, m]]est atteint en pratique.

Heureusement, le système (2.12) nous fournit une expression analytique des variables duales qui

permet d'écrire le développement de Taylor du premier ordre deh

. Ce développement est alors

utilisée comme approximation de cette fonction. Dans ce but, nous dénissons

∀i∈[[ 1, m]], λ

^l_i⁺¹

=λ

− ¹⁻^y

ⁱ

^h

^λ^l

⁽^x

ⁱ

⁾

∂(1−yihλ(xi)) ∂λ

λ=λl

=λ

+ ¹⁻^y

ⁱ

^h

^λ^l

⁽^x

ⁱ

⁾

y

i ^∂h^λ_∂λ⁽^xⁱ⁾

λ=λl

.

L'expression de

∂hλ(xi)

∂λ

s'obtient facilement une fois que

∂α0(λ)

∂λ

et

∂αE(λ)

∂λ

sont connues. Ces

quantités sont obtenues à partir de (2.11) :











∂α0(λ) ∂λ

=−

1 2 νTρyT Eν−νTνyT Eρ

(

yT Eν

)

² ∂αE(λ) ∂λ

=−

1 2

H

E,E

(λ)

⁻¹

α

(λ)−

^∂α0(λ) ∂λ

ν

. (2.15)

Siλ

^l_i⁺¹

0 1 1/λ yihλ(xi) λl y1hλ(x1) y2hλ(x2) Vraiλl+1 1 Developpement de Taylor Approximationλl+1 2 Vraiλl+1 2 Approximationλl+1 1

Figure 2.2 Illustration du développement de Taylor utilisé pour la détection de changement

d'ensembles. Il s'agit du développement au premier ordre de y

h

(x

) pour deux exemplesx

et

x

.

serait simplement

λ

^l⁺¹

= max

{

i:λ^l_i⁺¹<λl

}^λ

l+1 i

.

Toutefois, l'utilisation d'une approximation nécessite une autre formule pour éviter à l'algorithme

d'eectuer des pas vides (c'est-à-dire sans changement d'ensemble) ou des pas trop grands. Nous

avons trouvé que la règle empirique suivante était particulièrement ecace :λ

^l⁺¹

est choisi tel que

2%des indices deE λ

satisfontλ

^l⁺¹

< λ

^l_i⁺¹

< λ

. Cette approximation peut néanmoins fournir

des solutions inappropriées lors de l'existence de plateaux. Pour éviter ces situations, lorsqueλ

^l⁺¹

devrait être choisi plus petit que

λ

, il est alors pris égal à

λ

. Nos expériences ont montré

que ce problème n'a lieu que lorsqueλest très grand. La prédiction de la partition des exemples

d'apprentissage pour λ

^l⁺¹

se base simplement sur le signe de l'approximation du premier ordre

de 1−y

h

(x

) (penser à la dénition des ensembles E et I). De part le comportement non

linéaire des multiplicateurs de Lagrange, cette prédiction doit être corrigée. La partition exacte

est alors obtenue par une méthode d'ensemble actifs. Pour une partition donnée, la valeur des

multiplicateurs de Lagrange est calculée puis la consistance du résultat est vériée. Si ce n'est

pas le cas, une nouvelle partition est calculée et ainsi de suite. Puisque la partition prédite est

proche de l'optimale, cette étape de correction est peu coûteuse. Dans les simulations, hormis

pour les très petites valeurs deλ, la convergence est atteinte en une seule mise à jour.

2.2.5 Calcul du point de départ du chemin de régularisation

De manière analogue à la section 2.1.2, an de dénir un point de départ pour le chemin de

régularisation, nous tirons prot de la particularité du problème 6 lorsque λ tend vers l'inni.

Asymptotiquement, H(λ) est équivalent à

2.2. Parcours du chemin de régularisation de la`

-SVM 55

n'interviennent plus que par leurs catégories par le biais de la contraintey

α= 0. Le problème

d'apprentissage est alors équivalent à

Problème 14 (Problème équivalent au problème 6 quandλtend vers l'inni).

max

−^λ

4^α

α+ 1

^T_m

α

s.c.







∀i∈[[ 1, m]], α

>0

y

α= 0

.

Dans [28] (Annexe C), les auteurs annoncent que la solution du problème 14 est :

∀i∈[[ 1, m]],







α

(λ) =

⁴^m− mλ

si y

= 1

α

(λ) =

⁴^m+ mλ

sinon ^(2.16)

Ces valeurs s'obtiennent facilement en substituant la contrainte égalité dans la fonction objectif

puis en cherchant le minimum de la parabole (en une seule dimension). Une fois les valeurs des

multiplicateurs connues, pour connaître le comportement asymptotique du classieur, il sut de

calculer la limiteb

∞

deb

_λ

lorsqueλtend vers l'inni. Dans ce but, nous faisons usage du fait que

puisque tous les multiplicateurs de Lagrange sont asymptotiquement positifs, alors les conditions

complémentaires de Kuhn-Tucker (2.4) imposent que pour toutidans[[ 1, m]],y

^˜h

_λ

(x

)tend vers

1. Ainsi, les équations (2.5) et (2.16) donnent

b

∞

= ^m

⁺

⁻^m

⁻

m ^.

La conséquence directe de cette équation est que sim

6=m

−

, alors le classieur limite retournera

toujours la catégorie de plus grande cardinalité. De plus, contrairement à la`

₁

-SVM, il n'existe

pas de valeur λ

∞

telle que pour toute valeur de λ supérieure les multiplicateurs de Lagrange

soient constants. Tout ce que l'on sait est le comportement asymptotique des multiplicateurs de

Lagrange, ce qui n'est pas susant pour dénir un point de départ de manière analogue à celle

de la`

₁

-SVM (voir 2.1.2). Toutefois, cette connaissance est utile pour obtenir deux critères. Le

premier permet de savoir si une valeur de λ est susamment grande pour être la valeur de λ

associée au point de départ du chemin (noté par la suiteλ

). Le second critère permet de savoir

quand commencer à calculer le critère de sélection de modèle

.

Dans le document Sélection de modèle par chemin de régularisation pour les machines à vecteurs support à coût quadratique (Page 66-71)