Méthode à noyaux (II)

(1)

Cours Apprentissage - ENS Math/Info M´ethodes ` a noyaux

Francis Bach 13 et 20 Novembre 2015

Pour approfondir ce cours, on pourra consulter les documents suivants :

— http://cbio.ensmp.fr/~jvert/svn/kernelcourse/slides/master/master.pdf

— http://www.di.ens.fr/~fbach/rasma_fbach.pdf

Dans ce cours, l’accent a souvent été mis sur les méthodes de prédiction diteslinéaires : les données d’entrées sont vectorielles (i.e.,x∈ R^d) et la fonction de prédiction est linéaire, i.e., f(x) = w^>x pourw∈R^d. Dans ce cadre, à partir d’observations (xi, yi),i= 1, . . . , n, le vecteurwest obtenu en minimisant

1 n

n

X

i=1

`(y_i, w^>x_i) +λΩ(w) (exemple de la r´egression logistique et moindres carr´es).

Ces m´ethodes sont en apparence limit´ees, car

— Les donn´ees ne sont pas forc´ement vectorielles.

— Les bonnes fonctions de prédictions ne sont pas forcément linéaires.

Le but des méthodes à noyaux est d’aller au-delà de ces limitations tout en en conservant les bons aspects. Leur principe sous-jacent est de remplacer x par n’importe quelle fonction ϕ(x) ∈ R^d, explicitement ouimplicitement, et considérer des prédicteurs linéaires en Φ(x), i.e.,f(x) =w^>ϕ(x).

On appelleϕ(x) le “feature” (ou vecteur de caractéristiques) associée àx.

Exemple : régression polynomiale homogène de degrér, en considérantx∈R^d et ϕ(x) = x^α₁¹· · ·x^α_d^d

Pd

i=1αi=r .

Dans ce cas,p=C_d+r−1^r (nombre dek-combinaisons avec répétition d’un ensemble de cardinald), peut être très/trop grand pour qu’une représentation explicite soit faisable.

(2)

1 Support Vector Machine

On considère n points xi dans R^d, et une étiquette yi ∈ {−1,1}, et le problème d’optimisation suivant

min

w∈R^d, b∈R

1

2kwk²+C

n

X

i=1

ξi

tel que ξi>0

tel que yi(w^>xi+b)>1−ξi

— Interprétation géométrique dans les cas séparables et non séparables.

— D´erivation du dual par dualit´e Lagrangienne max

α∈Rⁿ−1

2α^>D(y)KD(y) +α^>1 tel queα^>y= 1, 06α6C, avec valeur optimal du paramètre primal égale àw=Pn

i=1αiyixi.

— Conditions de KKT (“support vectors”) : (C−αi)ξi =αi(yi(w^>xi+b)−1 +ξi) = 0. Ceci implique que si yi(w^>xi +b) > 1, alors αi = 0, si yi(w^>xi+b) < 1 alorsαi = C. Sinon αi ∈[0, C].

— Les données d’emtrées x_i n’interviennent quà travers les produits scalaires x^>_i x_j. C’est la première version du “kernel trick” (astuce du noyau).

2 Th´ eor` eme du repr´ esentant

Théoreme 1 Théorème du représentant (1971) :

Soitϕ:X →R^d. Soit (x₁, . . . , x_n)∈ Xⁿ, soitΨ :Rⁿ⁺¹ →R strictement croissante par rapport `a sa derni`ere variable,

alors le minimum de Ψ(w^>ϕ(x₁), ..., w^>ϕ(x_n), w^>w) est atteint pour w =Pn

i=1α_iΦ(x_i) avec α∈ Rⁿ.

Proof soit w∈R^d, soitFD={PαiΦ(xi)/α∈Rⁿ}, soitwD∈ FD etw_⊥∈ F_D^⊥ tel que w=wD+w_⊥,

alors∀i,w^>ϕ(xi) =w_D^>ϕ(xi) +w^>_⊥ϕ(xi) avecw^>_⊥ϕ(xi) = 0

D’après le théorème de Pythagore, on a :w^>w=w^>_Dw_D² +w^>_⊥w_⊥. Par conséquent, on a : Ψ(w^>ϕ(x1), ..., w^>ϕ(xn), w^>w) =Ψ(w_D^>ϕ(x1), ..., w^>_Dϕ(xn), w_D^>wD+w^>_⊥w_⊥)

≥Ψ(w_D^>ϕ(x1), ..., w^>_Dϕ(xn), w_D^>wD) Donc

inf

w∈R^d

Ψ(w^>ϕ(x1), ..., w^>ϕ(xn), w^>w) = inf

w∈FD

Ψ(w^>ϕ(x1), ..., w^>ϕ(xn), w^>w)

Corollaire 1 Pour λ >0,min_w∈Rd 1 n

P`(yi, w^>ϕ(xi)) +^λ₂w^>w est atteint enw=Pn

i=1αiϕ(xi).

(3)

— Il est important de remarquer qu’il n’y a aucune hypothèsee sur`(pas de convexité). De plus, on obtient un problème de minimisation (et pas de maximisation). Voir Sections 4 et 5.

— Le résultat est généralisable aux espaces de Hilbert (RKHS).

— On a : ∀j ∈ {1, . . . , n}, w^>ϕ(xj) =Pn

i=1αik(xi, xj) = (Kα)j où K est la matrice de noyau etw^>w=α^>Kα. On peut alors réécrire :

min

w∈R^d

1 n

X`(y_i, w^>ϕ(x_i)) +λ

2w^>w= min

α∈Rⁿ

1 n

X`(y_i,(Kα)_i) +λ 2α^>Kα L’astuce du noyau permet donc de :

— remplacer R^d parRⁿ; int´eressant surtout quanddest tr`es grand.

— séparer le problème de représentation (définir un noyau sur un ensembleX) et des problèmes d’algorithmes et d’analyse (qui n’utilisent que la matrice de noyauK).

3 Noyaux

— D´efinition:k est un noyau ssi toutes les matrices de noyau sont semi-d´efinies positives.

Théoreme 2 Théorème d’Aronszajn (1950) : k est un noyau défini positif si et seulement si il existe un espace de HilbertF, etΦ :X → F tel que∀x, y,k(x, y) =hΦ(x),Φ(y)i.

— Propri´et´es : la somme et le produit de noyaux sont des noyaux.

— Noyau lin´eaire :k(x, y) =x^>y

— Noyau polynomial : k(x, y) = (x^>y)^r k(x, y) = (

d

X

i=1

xiyi)^r= X

α₁+...+α_p=r

r α1, ..., αp

(x1y1)^α¹...(xpyp)^α^p

| {z }

(x^α₁¹...x^αp_p )(y^α₁¹...y^αp_p )

Φ(x) ={ _α ^r

1,...,α_p

¹₂

x^α₁¹...x^αp^p}

— Noyaux invariants par translation sur [0,1]. k(x, y) = q(x−y) o`u t est 1-p´eriodique.

k est un noyau ssi la s´erie de Fourier de q est positive (en passant par la repr´esentation complexe), i.e.,

k(x, y) =ν₀+X

m>1

2ν_mcos 2πmxcos 2πmy+ 2ν_msin 2πmxsin 2πmy avecν>0.

Le vecteur (dimension infinie) de “features” est compos´e deν₀^1/2, et les √

2νmcos 2πmx et

√2νmsin 2πmx, pourm>1.

Sif(x) s’´ecritf(x) = Φ(x)^>w, alors kwk²=

Z 1

0

f(x)²

+X

m>1

2 ν_m

Z 1

0

f(x) cos 2πmx² + 2

ν_m Z 1

0

f(x) sin 2πmx² .

Pourν_m= _m¹_2s,m>1, cette norme est ´egale `a kwk²=

Z 1

0

f(x)²

+ 1

(2π)^2s Z 2

0

|f^(s)(x)|²dx

et le noyau s’écrit en formule analytiquek(x, y) = ν₀+ (−1)^{s−1 (2}_(2s)!^π)^2sB_2s({x−y}), où B_2s est le polynôme de Bernoulli.

(4)

— Noyaux invariants par translation sur R^d : Noyau invariant par translation : X = R^d,k(x, y) =q(x−y) avecq:R^d→R,

Théoreme 3 Théorme de Böchner : k est défini positif ⇔ q est la transformée de Fourier d’une mesure de Borel finie positive⇐q∈L¹ et sa transformée de Fourier est positive.

Proof (partielle) Soitx1, ...xn∈R^d, soitα1, .., αn∈R, Xα_sα_jk(x_s, x_j) =X

α_sα_jq(x_s−x_j)

=X

αsαj

Z

exp^−iω^>^(x^s^−x^j⁾dµ(ω)

= Z

(X

αsαjexp^−iω^>^x^sexp^−iω^>^x^j)dµ(ω)

= Z

|X

α_sexp^−iω^>^x^s|²dµ(ω)≥0

Raisonnement intuitif (non-rigoureux) : par ailleurs, siqest dansL¹, alors ˆq(ω) existe et, avec dµ(ω) = ˆq(ω)dω, on a une representation explicite dek(x, y) =R p

ˆ

q(ω) exp^−iω^>^x,p ˆ

q(ω) exp^−iω^>^xidω= R ϕ_ω(x), ϕ_ω(y)idω=hϕ(x), ϕ(y)i.

Si on consid`eref(x) =R

ϕ_ω(x)w_ωdω, alorsw_ω= ˆf(ω)/p ˆ

q(ω), et la norme au carr´e dewest

´egale `a R |f(w)|ˆ ² ˆ

q(w) dw, where ˆf denotes the Fourier transform off.

Exemple : noyau exponentiel exp(−α|x−y|) et noyau Gaussien exp(−α|x−y|²).

— Beaucoup d’applications de l’astuce du noyau !

— Donn´ees non vectorielles (s´equences, graphes, images)

4 M´ ethodes ` a noyaux et dualit´ e convexe

Soit Φ ∈ R^n×d, la matrice des “features” (descripteurs), dont les lignes sont les ϕ(x_i) ∈ R^d, i = 1, . . . , n. On peut alors ´ecrire

1 n

n

X

i=1

`(y_i, w^>ϕ(x_i)) +λ

2w^>w=g(Φw) +λ 2w^>w.

Par dualit´e convexe, on a

min

w∈R^d

g(Φw) +λ 2w^>w

= min

w∈R^d,u∈Rⁿmax

α∈Rⁿ

g(u) +λ

2w^>w+λα^>(u−Φw)

= max

α∈Rⁿ min

w∈R^d,u∈Rⁿ

g(u) +λ

2w^>w+λα^>(u−Φw)

= max

α∈Rⁿ

−g^∗(−λα)−λ

2α^>ΦΦ^>α

avecw= Φ^>α, o`u par d´efinition,−g^∗(−λα) = minug(u) +λα^>uest concave en α.

(5)

— Les données d’entrée ne sont utilisées qu’à travers la matrice de noyauK= ΦΦ^>.

— K peut ˆetre plus facile `a calculer que Φ (exemple du cas polynomial)

5 Cas des moindres carr´ es

Nous avons vu d´esormais deux probl`emes d’optimisation :

— probl`eme dual (D): max_α∈Rⁿ−g^∗(−λα)−^λ₂α^>Kα

— probl`eme primal + repr´esentant (P): minα∈Rⁿg(α) +^λ₂α^>Kα Proposition 1 Siαest optimal pour (D), alors αest optimal pour(P).

Cas particulier (moindres carr´es) Soitg(u) =_2n¹ky−uk²₂. On obtient :

1. problème dual: max_α∈_Rn−^λ₂α^>Kα−_2n¹ ||y−nλα||²₂ 2. problème primal + représentant : min_α∈_Rn 1

2n||y−Kα||²₂+^λ₂α^>Kα 1. Méthode à noyaux (minimisation par rapport àα:

gradient 1 /α:−λKα−^nλ_n(nλα−y) = 0⇔(λK+nλ²)α=λy⇔α= (K+nλI)⁻¹yunique solution

gradient 2 /α: _n¹K(Kα−y) +λKα= 0⇔(K²+nλK)α=Ky⇔K((K+nλI)α−y) = 0. Si Kest non inversible, la solution n’est pas unique :α= (K+nλI)⁻¹y+Ker(K). Par contre, la prdiction est unique :Kα=K(K+nλI)⁻¹y.

2. M´ethode directe. Minimisons par rapport `aw.

gradient /w: _n¹Φ^>(Φw−y)

ceci donnew= (¹_nΦ^>Φ +λI)^{−1 1}_nΦ^>y⇔Φf = Φ(_n¹Φ^>Φ +λI)^{−1 1}_nΦ^>y.

En posant K = ΦΦ^> et en comparant les résultats donnés par les deux méthodes, on obtient l’égalité :

noyau

z }| {

ΦΦ^>(ΦΦ^>

| {z }

n×n

+nλI)⁻¹y=

directe

z }| {

Φ(Φ^>Φ

| {z }

p×p

+nλI)⁻¹Φ^>y

Ce r´esultat n’est autre que le lemme suivant :

Lemma 1 : lemme d’inversion de matrices : ∀Amatrice, (AA^>+I)⁻¹A=A(A^>A+I)⁻¹ On a donc une “équivalence” entre ce lemme et le théorème du représentant.

6 Complexit´ e des op´ erations d’alg` ebre lin´ eaire

SiK∈R^n×n andL∈R^n×n sont deux matrices

— calculer KLa pour complexit´eO(n³)

(6)

— calculer K⁻¹a pour complexit´eO(n³)

— calculer Kya pour complexit´eO(n²)

— R´esoudreK⁻¹y a pour complexit´eO(n³)

— D´ecomposition en une base de vecteurs propresO(n³)

— “Plus grand” vecteur propre : O(n²) Approximation de rang faible

— Base de vecteurs propres (complexit´eO(n²r))

— Projection orthogonales surrpremi`eres colonnes :O(nr²)