Notre stratégie de suivi du chemin de régularisation requiert le calcul de plusieurs solutions
du système linéaire (2.8), pour diérentes valeurs du coecient λ. Il est donc utile de disposer
d'un algorithme dédié. Dans cette section, nous commençons par reformuler l'équation (2.8) à
l'aide d'une technique standard puis nous l'utilisons pour obtenir un algorithme permettant de
résoudre ce système dans le cadre du parcours du chemin de régularisation pour un coût réduit.
2.2.3.1 Calcul de la solution pour une valeur de λ xée
Nous prenons notre inspiration de [98] qui utilise une technique habituelle des méthodes
d'en-semble actif. Dans un premier temps, remarquons que, puisqueH
E,Eest une matrice symétrique
et semi-dénie positive,H
E,E(λ) est symétrique dénie positive et donc inversible.
L'objectif, ici, est de reformuler (2.8) an de faire apparaître H
E,E(λ)
−1. A partir de la
seconde équation de (2.7), nous obtenons :
α
E(λ) =H
E,E(λ)
−1(1
mE−α
0(λ)y
E) . (2.9)
Par substitution dans la première équation de (2.7), nous avons :
y
TEH
E,E(λ)
−11
mE=α
0(λ)y
ETH
E,E(λ)
−1y
E. (2.10)
Toujours en suivant la démarche de [98], an d'obtenir une expression compacte de α
0(λ) et
α
E(λ), nous introduisons deux vecteurs de R
mE,ν etρ, tels que
H
E,E(λ)ν =y
EH
E,E(λ)ρ= 1
mE. (2.11)
Par substitution dans (2.9) et (2.10) nous avons
α
E(λ) =ρ−α
0(λ)ν
y
ETρ=α
0(λ)y
TEν
.
2.2. Parcours du chemin de régularisation de la`
2-SVM 51
Ainsi, l'expression deα
0(λ)etα
E(λ) en fonction deν etρ est :
α
0(λ) =
yTEρ yT Eνα
E(λ) =ρ−α
0(λ)ν
. (2.12)
A la lumière de (2.12), la résolution de (2.8) pour une valeur donnée deλse réduit à
calcu-ler les valeurs correspondantes de ν et de ρ. Puisque la matrice H
E,E(λ) est symétrique dénie
positive, cette résolution peut se faire par l'utilisation d'une décomposition de Cholesky. La
dé-composition de Gaxpy Cholesky (voir par exemple [54]) dont la complexité est
13
m
3Eest une
possibilité. Toutefois, des améliorations signicatives peuvent être obtenues en traitant
globale-ment la résolution de l'ensemble de ces systèmes (paramétrés parλ). Nous décrivons à présent
cet algorithme qui présente un coût réduit.
2.2.3.2 Calcul d'une série de solutions
Notre méthode fait un usage central du fait que si la matrice H peut être approchée par
une matrice de rang faible (indépendant dem) alors la complexité de la résolution du système
(2.11) est linéaire enm
E. Ce résultat correspond à la proposition 7. Ainsi, nous commençons par
introduire une approximation de rang faible deH et nous l'utilisons pour calculer les
multiplica-teurs de Lagrange. Pour éviter les instabilités numériques, nous dénissons une petite constante
positiveεqui est supposée susament grande pour queH(ε)soit numériquement dénie
posi-tive (c'est-à-dire que ses valeurs propres ne soient pas trop petites). Pour obtenir une solution
approchée de (2.11) pourλ
0> ε tel que E(λ
0) est connu, nous utilisons une approximation de
rang faible deH
E(λ0),E(λ0)(ε), approximation qui peut être obtenue directement de celle deH(ε).
L'approximation deH(ε) (et doncH) que nous considérons est une matriceH
r(ε) satisfaisant
H
r(ε) =R
rR
Travec R
r∈ M
m,r(R). Cette matrice H
r(ε) est de rang r et la matrice de Gram associée est de
même rang
1. Remarquons que cette factorisation peut reposer sur le fait queH(ε)est symétrique
dénie positive. Comme dans section 2.2.1, nous réordonnons les exemples d'apprentissage et
décomposons la matriceR
ren fonction des ensembles E etI. Nous avons alorsR
r= R
E(λ0)R
I(λ0)!
,
avecR
E(λ0)∈ M
mE(λ 0),r(R) etR
I(λ0)∈ M
mI(λ 0),r(R), et obtenons
H
r(ε) = H
E(λ0),E(λ0),r(ε) H
E(λ0),I(λ0),r(ε)
H
I(λ0),E(λ0),r(ε) H
I(λ0),I(λ0),r(ε)
!
= R
E(λ0)R
TE(λ 0)R
E(λ0)R
TI(λ 0)R
I(λ0)R
TE(λ 0)R
I(λ0)R
TI(λ 0)!
.
1. Pour une idée de la preuve, penser au fait querreprésente la dimension de l'espace de représentation. Dans ce cas là, la matrice de Gram et le hessien doivent être de même rang. Pour une preuve analytique, on écritHr en fonction de la factorisation de la matrice de Gram puis avec l'inégalité de Sylvester on montre l'égalité de leurs rangs.
Par construction,
H
E(λ0),E(λ0)(λ
0) =H
E(λ0),E(λ0)(ε) + λ
0−ε
2 I
mE(λ0),
et donc,H
E(λ0),E(λ0)(λ
0)peut être approchée par
H
E(λ0),E(λ0),r(λ
0, ε) =H
E(λ0),E(λ0),r(ε) + λ
0−ε
2 I
mE(λ0).
L'intérêt de cette approximation est que nalement, on ne travaille plus qu'avecR
E(λ0), qui peut
être directement obtenue à partir de la matriceR
r, c'est-à-dire pour une seule approximation de
rang faible deH(ε). Le fait queH
E(λ0),E(λ0),r(ε)ne soit pas la matrice que l'on aurait obtenue en
calculant l'approximation de rang faible de H
E(λ0),E(λ0)(ε) ne soulève aucune diculté puisque
nous n'utilisons pas les éventuelles propriétés de cette factorisation. De plus, cette matrice est
régulière.
Proposition 7. Soit le système d'équations linéaires suivant
H
E(λ0),E(λ0),r(λ
0, ε)v =z,
avecH
E(λ0),E(λ0),r(λ
0, ε)∈ M
mE(λ0),mE(λ
0)
(R) la somme d'une matrice de rangr et de la matrice
identité multipliée par un scalaire. La complexité de résolution de ce système est linéaire en
m
E(λ0), plus précisément en O m
E(λ0)r
2+r
3.
Démonstration. L'application de l'identité de Sherman-Morrison-Woodbury (voir par exemple
[54]), permet d'obtenir :
H
E(λ0),E(λ0),r(ε) +λ
0−ε
2 I
mE(λ0) −1=
R
E(λ0)R
TE(λ0)+λ
0−ε
2 I
mE(λ0) −1= 2
λ
0−εI
mE(λ0)− 4
(λ
0−ε)
2R
E(λ0)I
r+ 2
λ
0−εR
T E(λ0)R
E(λ0) −1R
ET(λ0)= 2
λ
0−εI
mE(λ0)− 4
(λ
0−ε)
2R
E(λ0)T(λ
0)
−1R
TE(λ 0)(2.13)
avec
T(λ
0) =I
r+ 2
λ
0−εR
T E(λ0)R
E(λ0).
Résoudre le système d'intérêt se réduit à résoudre un système de taille r (celui correspondant
à l'inverse de T(λ
0)) et à eectuer une série de multiplications de matrices et de vecteurs. Une
fois queT(λ
0) est obtenu enO m
E(λ0)r
2opérations, ce système est résolu par une méthode de
Cholesky en seulement
13
r
3opérations (voir la section précédente). Puisque les multiplications de
matrices de (2.13) impliquent des matrices de tailles inférieures à m
E(λ0), r
, leurs complexités
n'excèdent pas O m
E(λ0)r
2. La somme de ces deux complexités conclut la preuve.
Pour obtenir une solution approchée de (2.11) pour λ = λ
0, la matrice H
E(λ0),E(λ0)(λ
0)
est remplacée par H
E(λ0),E(λ0),r(ε) +
λ0−ε2
I
mE(λ2.2. Parcours du chemin de régularisation de la`
2-SVM 53
calculées par résolution d'un système produisant T(λ
0). Pour obtenir un système triangulaire
pour chacune des équations, une décomposition de Cholesky de cette matrice est eectuée an
que T(λ
0) = L
TE(λ0)
L
E(λ0). Grâce à la proposition 7, la complexité du calcul de ν and ρ se
réduit de O m
3Eà O m
Er
2+r
3, ce qui conrme la complexité linéaire en m
Eannoncée
au début de la section. Cette constatation établit l'avantage de notre algorithme abordant de
manière globale la résolution approchée des systèmes (2.11) par rapport aux méthodes
trai-tant indépendamment chacun de ces systèmes. Par abus de notation, nous continuons d'utiliser
α
aE(λ
0) =
α
0(λ
0) α
E(λ
0)
T Tpour désigner la solution approchée de (2.8) (pourλ=λ
0). Les
détails concernant la complexité et la conséquence de cette approximation sont donnés dans la
section 2.2.6. Puisque cette approche considère que E(λ
0) est connu, nous nous intéressons à
présent à la méthode proposée pour suivre l'évolution de cet ensemble.
2.2.4 Détection des changements dans la partition de l'ensemble
d'appren-tissage
Soit λ
ll∈N∗
la séquence strictement décroissante de valeurs du coecient de régularisation
associée aux modications des ensemblesE etI. Ces événements peuvent être directement inférés
des dénitions de ces ensembles. En eet, si la séquence est connue jusqu'à son terme d'indice
l, alors trouver λ
l+1revient à identier la plus grande valeur de λdans l'intervalle 0, λ
lpour
laquelle un nouvel indice i ∈ [[ 1, m]]vérie y
ih
λ(x
i) = 1, c'est-à-dire résoudre en λ l'ensemble
des équations indexées pari:
y
ih
λ(x
i) =H
i,E(
λl)α
E(
λl) (λ) +y
iα
0(λ) = 1 . (2.14)
L'implantation naïve de cette méthode la rend inapplicable pour les grandes valeurs dem
E,
et nous verrons dans la section 2.2.5 que le cas extrême E(λ) = [[ 1, m]]est atteint en pratique.
Heureusement, le système (2.12) nous fournit une expression analytique des variables duales qui
permet d'écrire le développement de Taylor du premier ordre deh
λ. Ce développement est alors
utilisée comme approximation de cette fonction. Dans ce but, nous dénissons
∀i∈[[ 1, m]], λ
li+1=λ
l− 1−y
ih
λl(x
i)
∂(1−yihλ(xi)) ∂λ λ=λl=λ
l+ 1−y
ih
λl(x
i)
y
i ∂hλ∂λ(xi) λ=λl.
L'expression de
∂hλ(xi)∂λ
s'obtient facilement une fois que
∂α0(λ)∂λ
et
∂αE(λ)∂λ
sont connues. Ces
quantités sont obtenues à partir de (2.11) :
∂α0(λ) ∂λ=−
1 2 νTρyT Eν−νTνyT Eρ(
yT Eν)
2 ∂αE(λ) ∂λ=−
1 2H
E,E(λ)
−1α
E(λ)−
∂α0(λ) ∂λν
. (2.15)
Siλ
li+10 1 1/λ yihλ(xi) λl y1hλ(x1) y2hλ(x2) Vraiλl+1 1 Developpement de Taylor Approximationλl+1 2 Vraiλl+1 2 Approximationλl+1 1
Figure 2.2 Illustration du développement de Taylor utilisé pour la détection de changement
d'ensembles. Il s'agit du développement au premier ordre de y
ih
λ(x
i) pour deux exemplesx
1et
x
2.
serait simplement
λ
l+1= max
{
i:λli+1<λl}λ
l+1 i.
Toutefois, l'utilisation d'une approximation nécessite une autre formule pour éviter à l'algorithme
d'eectuer des pas vides (c'est-à-dire sans changement d'ensemble) ou des pas trop grands. Nous
avons trouvé que la règle empirique suivante était particulièrement ecace :λ
l+1est choisi tel que
2%des indices deE λ
lsatisfontλ
l+1< λ
li+1< λ
l. Cette approximation peut néanmoins fournir
des solutions inappropriées lors de l'existence de plateaux. Pour éviter ces situations, lorsqueλ
l+1devrait être choisi plus petit que
12
λ
l, il est alors pris égal à
12
λ
l. Nos expériences ont montré
que ce problème n'a lieu que lorsqueλest très grand. La prédiction de la partition des exemples
d'apprentissage pour λ
l+1se base simplement sur le signe de l'approximation du premier ordre
de 1−y
ih
λ(x
i) (penser à la dénition des ensembles E et I). De part le comportement non
linéaire des multiplicateurs de Lagrange, cette prédiction doit être corrigée. La partition exacte
est alors obtenue par une méthode d'ensemble actifs. Pour une partition donnée, la valeur des
multiplicateurs de Lagrange est calculée puis la consistance du résultat est vériée. Si ce n'est
pas le cas, une nouvelle partition est calculée et ainsi de suite. Puisque la partition prédite est
proche de l'optimale, cette étape de correction est peu coûteuse. Dans les simulations, hormis
pour les très petites valeurs deλ, la convergence est atteinte en une seule mise à jour.
2.2.5 Calcul du point de départ du chemin de régularisation
De manière analogue à la section 2.1.2, an de dénir un point de départ pour le chemin de
régularisation, nous tirons prot de la particularité du problème 6 lorsque λ tend vers l'inni.
Asymptotiquement, H(λ) est équivalent à
λ2.2. Parcours du chemin de régularisation de la`
2-SVM 55
n'interviennent plus que par leurs catégories par le biais de la contraintey
Tα= 0. Le problème
d'apprentissage est alors équivalent à
Problème 14 (Problème équivalent au problème 6 quandλtend vers l'inni).
max
α−λ
4α
Tα+ 1
Tmα
s.c.
∀i∈[[ 1, m]], α
i>0
y
Tα= 0
.
Dans [28] (Annexe C), les auteurs annoncent que la solution du problème 14 est :
∀i∈[[ 1, m]],
α
i(λ) =
4m− mλsi y
i= 1
α
i(λ) =
4m+ mλsinon (2.16)
Ces valeurs s'obtiennent facilement en substituant la contrainte égalité dans la fonction objectif
puis en cherchant le minimum de la parabole (en une seule dimension). Une fois les valeurs des
multiplicateurs connues, pour connaître le comportement asymptotique du classieur, il sut de
calculer la limiteb
∞deb
λlorsqueλtend vers l'inni. Dans ce but, nous faisons usage du fait que
puisque tous les multiplicateurs de Lagrange sont asymptotiquement positifs, alors les conditions
complémentaires de Kuhn-Tucker (2.4) imposent que pour toutidans[[ 1, m]],y
i˜h
λ(x
i)tend vers
1. Ainsi, les équations (2.5) et (2.16) donnent
b
∞= m
+−m
−m .
La conséquence directe de cette équation est que sim
+6=m
−, alors le classieur limite retournera
toujours la catégorie de plus grande cardinalité. De plus, contrairement à la`
1-SVM, il n'existe
pas de valeur λ
∞telle que pour toute valeur de λ supérieure les multiplicateurs de Lagrange
soient constants. Tout ce que l'on sait est le comportement asymptotique des multiplicateurs de
Lagrange, ce qui n'est pas susant pour dénir un point de départ de manière analogue à celle
de la`
1-SVM (voir 2.1.2). Toutefois, cette connaissance est utile pour obtenir deux critères. Le
premier permet de savoir si une valeur de λ est susamment grande pour être la valeur de λ
associée au point de départ du chemin (noté par la suiteλ
1). Le second critère permet de savoir
quand commencer à calculer le critère de sélection de modèle
1.
Dans le document
Sélection de modèle par chemin de régularisation pour les machines à vecteurs support à coût quadratique
(Page 66-71)