Cours Apprentissage - ENS Math/Info M´ethodes ` a noyaux
Francis Bach 21 Novembre 2014
Pour approfondir ce cours, on pourra consulter les documents suivants :
– http://cbio.ensmp.fr/~jvert/svn/kernelcourse/slides/master/master.pdf – http://www.di.ens.fr/~fbach/rasma_fbach.pdf
Dans ce cours, l’accent a souvent ´et´e mis sur les m´ethodes de pr´ediction diteslin´eaires : les donn´ees d’entr´ees sont vectorielles (i.e.,x∈ Rp) et la fonction de pr´ediction est lin´eaire, i.e., f(x) = w>x pourw∈Rp. Dans ce cadre, `a partir d’observations (xi, yi),i= 1, . . . , n, le vecteurwest obtenu en minimisant
1 n
n
X
i=1
`(yi, w>xi) +λΩ(w) (exemple de la r´egression logistique et moindres carr´es).
Ces m´ethodes sont en apparence limit´ees, car – Les donn´ees ne sont pas forc´ement vectorielles.
– Les bonnes fonctions de pr´edictions ne sont pas forc´ement lin´eaires.
Le but des m´ethodes `a noyaux est d’aller au-del`a de ces limitations tout en en conservant les bons aspects. Leur principe sous-jacent est de remplacer x par n’importe quelle fonction ϕ(x) ∈ Rp, explicitement ouimplicitement, et consid´erer des pr´edicteurs lin´eaires en Φ(x), i.e.,f(x) =w>ϕ(x).
On appelleϕ(x) le “feature” (ou vecteur de caract´eristiques) associ´ee `ax.
Exemple : r´egression polynomiale homog`ene de degr´er, en consid´erantx∈Rd et ϕ(x) = xα11· · ·xαdd
Pd
i=1αi=r .
Dans ce cas,p=Cd+r−1r (nombre dek-combinaisons avec r´ep´etition d’un ensemble de cardinald), peut ˆetre tr`es/trop grand pour qu’une repr´esentation explicite soit faisable.
1 Support Vector Machine
On consid`ere n points xi dans Rp, et une ´etiquette yi ∈ {−1,1}, et le probl`eme d’optimisation suivant
w∈minRp, b∈R
1
2kwk2+C
n
X
i=1
ξi
tel que ξi>0
tel que yi(w>xi+b)>1−ξi
– Interpr´etation g´eom´etrique dans les cas s´eparables et non s´eparables.
– D´erivation du du dual par dualit´e Lagrangienne max
α∈Rn−1
2α>D(y)KD(y) +α>1 tel queα>y= 1, 06α6C, with optimal primal value equal tow=Pn
i=1αiyixi.
– Conditions de KKT (“support vectors”) : (C−αi)ξi=αi(yi(w>xi+b)−1 +ξi) = 0. Ceci implique que siyi(w>xi+b)>1, alorsαi= 0, si yi(w>xi+b)<1 alorsαi=C. Sinonαi ∈[0, C].
– Les donn´ess d’emtr´ees xi n’interviennent qu`a travers les produits scalairesx>i xj.
2 Th´ eor` eme du repr´ esentant
Th´eoreme 1 Th´eor`eme du repr´esentant (1971) :
Soitϕ:X →Rp. Soit(x1, .., xn)∈ Xn, soit Ψ :Rn+1 →R strictement croissante par rapport `a sa derni`ere variable,
alors le minimum de Ψ(w>ϕ(x1), ..., w>ϕ(xn), w>w) est atteint pour w =Pn
i=1αiΦ(xi) avec α∈ Rn.
Proof soit w∈Rp, soitFD={PαiΦ(xi)/α∈Rn}, soitwD∈ FD etw⊥∈ FD⊥ tel que w=wD+w⊥,
alors∀i,w>ϕ(xi) =wD>ϕ(xi) +w>⊥ϕ(xi) avecw>⊥ϕ(xi) = 0
D’apr`es le th´eor`eme de Pythagore, on a :w>w=w>DwD2 +w>⊥w⊥. Par cons´equent, on a : Ψ(w>ϕ(x1), ..., w>ϕ(xn), w>w) =Ψ(wD>ϕ(x1), ..., w>Dϕ(xn), wD>wD+w>⊥w⊥)
≥Ψ(wD>ϕ(x1), ..., w>Dϕ(xn), wD>wD) Donc
w∈infRp
Ψ(w>ϕ(x1), ..., w>ϕ(xn), w>w) = inf
w∈FD
Ψ(w>ϕ(x1), ..., w>ϕ(xn), w>w)
Corollaire 1 minw∈Rpn1P
`(yi, w>ϕ(xi)) +λ2w>west atteint en w=Pn
i=1αiϕ(xi).
– Il est important de remarquer qu’il n’y a aucune hypoth`esee sur`(pas de convexit´e).
– On a : ∀j ∈ {1, . . . , n}, w>ϕ(xj) =Pn
i=1αik(xi, xj) = (Kα)j o`u K est la matrice de noyau et w>w=α>Kα. On peut alors r´e´ecrire :
w∈minRp
1 n
X`(yi, w>ϕ(xi)) +λ
2w>w= min
α∈Rn
1 n
X`(yi,(Kα)i) +λ 2α>Kα L’astuce du noyau permet donc de :
– remplacerRp parRn
– s´eparer le probl`eme de repr´esentation (d´efinir un noyau sur un ensemble X) et des probl`emes d’algorithmes et d’analyse (qui n’utilisent que la matrice de noyauK).
3 Noyaux
– D´efinition: kest un noyau ssi toutes les matrices de noyau sont semi-d´efinies positives.
Th´eoreme 2 Th´eor`eme d’Aronszajn (1950) : k est un noyau d´efini positif si et seulement si il existe un espace de HilbertF, et Φ :X → F tel que ∀x, y,k(x, y) =hΦ(x),Φ(y)i.
– Noyau lin´eaire :k(x, y) =x>y – Noyau polynomial :k(x, y) = (x>y)r
k(x, y) = (
p
X
i=1
xiyi)r= X
α1+...+αp=r
r α1, ..., αp
(x1y1)α1...(xpyp)αp
| {z }
(xα11...xαpp )(yα11...yαpp )
Φ(x) ={ α r
1,...,αp
12
xα11...xαpp}
– Noyaux invariants par translation : Noyau invariant par translation :X =Rp,k(x, y) =q(x−y) avecq:Rp→R,
Th´eoreme 3 Th´eorme de B¨ochner : kest d´efini positif⇔q est la transform´ee de Fourier d’une mesure de Borel finie positive⇐q∈L1 et sa transform´ee de Fourier est positive.
Proof (partielle) Soitx1, ...xn∈Rp, soitα1, .., αn∈R, Xαsαjk(xs, xj) =X
αsαjq(xs−xj)
=X
αsαj Z
exp−iw>(xs−xj)dµ(w)
= Z
(X
αsαjexp−iw>xsexp−iw>xj)dµ(w)
= Z
|X
αsexp−iw>xs|2dµ(w)≥0
Par ailleurs, si q est dans L1, si f(x) = hϕ(x), wi, alors la norme de w est ´egale `a R |f(w)|ˆ 2 ˆ q(w) dw, where ˆf denotes the Fourier transform off.
Exemple : noyau exponentiel et noyau Gaussien
– Beaucoup d’applications de l’astuce du noyau ! – Donn´ees non vectorielles (s´equences, graphes, images)
4 M´ ethodes ` a noyaux et dualit´ e convexe
Soit Φ ∈ Rn×p, la matrice des “features” (descripteurs), dont les lignes sont les ϕ(xi) ∈ Rp, i = 1, . . . , n. On peut alors ´ecrire
1 n
n
X
i=1
`(yi, w>ϕ(xi)) +λ
2w>w=g(Φw) +λ 2w>w.
Par dualit´e convexe, on a
min
w∈Rpg(Φw) +λ 2w>w
= min
w∈Rp,u∈Rn α∈maxRn
g(u) +λ
2w>w+λα>(u−Φw)
= max
α∈Rn min
w∈Rp,u∈Rng(u) +λ
2w>w+λα>(u−Φw)
= max
α∈Rn
−g∗(−λα)−λ
2α>ΦΦ>α avecw= Φ>α.
– Les donn´ees d’entr´ee ne sont utilis´ees qu’`a travers la matrice de noyauK= ΦΦ>. – K peut ˆetre plus facile `a calculer que Φ (exemple du cas polynomial)
5 Cas des moindres carr´ es
Nous avons vu d´esormais deux probl`emes d’optimisation : – probl`eme dual (D): maxα∈Rn−g∗(−λα)−λ2α>Kα
– probl`eme primal + repr´esentant (P): minα∈Rng(α) +λ2α>Kα Proposition 1 Siαest optimal pour (D), alors αest optimal pour(P).
Cas particulier (moindres carr´es) Soitg(u) =2n1ky−uk22. On obtient :
1. probl`eme dual: maxα∈Rn−λ2α>Kα−2n1||y−nλα||22
2. probl`eme primal + repr´esentant: minα∈Rn2n1||y−Kα||22+λ2α>Kα 1. M´ethode `a noyaux (minimisation par rapport `a α:
gradient 1 /α:−λKα−nλn(nλα−y) = 0⇔(λK+nλ2)α=λy⇔α= (K+nλI)−1yunique solution
gradient 2 /α: n1K(Kα−y) +λKα= 0⇔(K2+nλK)α=Ky⇔K((K+nλI)α−y) = 0. Si K est non inversible, la solution n’est pas unique :α= (K+nλI)−1y+Ker(K). Par contre, la prdiction est unique :Kα=K(K+nλI)−1y.
2. M´ethode directe. Minimisons par rapport `a w.
1 >
En posant K = ΦΦ> et en comparant les r´esultats donn´es par les deux m´ethodes, on obtient l’´egalit´e :
noyau
z }| {
ΦΦ>(ΦΦ>
| {z }
n×n
+nλI)−1y=
directe
z }| {
Φ(Φ>Φ
| {z }
p×p
+nλI)−1Φ>y
Ce r´esultat n’est autre que le lemme suivant :
Lemma 1 : lemme d’inversion de matrices : ∀Amatrice, (AA>+I)−1A=A(A>A+I)−1 On a donc une “´equivalence” entre ce lemme et le th´eor`eme du repr´esentant.
6 Complexit´ e des op´ erations d’alg` ebre lin´ eaire
SiK∈Rn×n andL∈Rn×n sont deux matrices – calculerKLa pour complexit´eO(n3) – calculerK−1 a pour complexit´eO(n3) – calculerKya pour complexit´eO(n2) – R´esoudreK−1y a pour complexit´eO(n3)
– D´ecomposition en une base de vecteurs propresO(n3) – “Plus grand” vecteur propre :O(n2)
Approximation de rang faible
– Base de vecteurs propres (complexit´eO(n2r))
– Projection orthogonales surrpremi`eres colonnes :O(nr2)