• Aucun résultat trouvé

Méthode à noyaux (II)

N/A
N/A
Protected

Academic year: 2022

Partager "Méthode à noyaux (II)"

Copied!
6
0
0

Texte intégral

(1)

Cours Apprentissage - ENS Math/Info M´ethodes ` a noyaux

Francis Bach 13 et 20 Novembre 2015

Pour approfondir ce cours, on pourra consulter les documents suivants :

— http://cbio.ensmp.fr/~jvert/svn/kernelcourse/slides/master/master.pdf

— http://www.di.ens.fr/~fbach/rasma_fbach.pdf

Dans ce cours, l’accent a souvent ´et´e mis sur les m´ethodes de pr´ediction diteslin´eaires : les donn´ees d’entr´ees sont vectorielles (i.e.,x∈ Rd) et la fonction de pr´ediction est lin´eaire, i.e., f(x) = w>x pourw∈Rd. Dans ce cadre, `a partir d’observations (xi, yi),i= 1, . . . , n, le vecteurwest obtenu en minimisant

1 n

n

X

i=1

`(yi, w>xi) +λΩ(w) (exemple de la r´egression logistique et moindres carr´es).

Ces m´ethodes sont en apparence limit´ees, car

— Les donn´ees ne sont pas forc´ement vectorielles.

— Les bonnes fonctions de pr´edictions ne sont pas forc´ement lin´eaires.

Le but des m´ethodes `a noyaux est d’aller au-del`a de ces limitations tout en en conservant les bons aspects. Leur principe sous-jacent est de remplacer x par n’importe quelle fonction ϕ(x) ∈ Rd, explicitement ouimplicitement, et consid´erer des pr´edicteurs lin´eaires en Φ(x), i.e.,f(x) =w>ϕ(x).

On appelleϕ(x) le “feature” (ou vecteur de caract´eristiques) associ´ee `ax.

Exemple : r´egression polynomiale homog`ene de degr´er, en consid´erantx∈Rd et ϕ(x) = xα11· · ·xαdd

Pd

i=1αi=r .

Dans ce cas,p=Cd+r−1r (nombre dek-combinaisons avec r´ep´etition d’un ensemble de cardinald), peut ˆetre tr`es/trop grand pour qu’une repr´esentation explicite soit faisable.

(2)

1 Support Vector Machine

On consid`ere n points xi dans Rd, et une ´etiquette yi ∈ {−1,1}, et le probl`eme d’optimisation suivant

min

w∈Rd, b∈R

1

2kwk2+C

n

X

i=1

ξi

tel que ξi>0

tel que yi(w>xi+b)>1−ξi

— Interpr´etation g´eom´etrique dans les cas s´eparables et non s´eparables.

— D´erivation du dual par dualit´e Lagrangienne max

α∈Rn−1

>D(y)KD(y) +α>1 tel queα>y= 1, 06α6C, avec valeur optimal du param`etre primal ´egale `aw=Pn

i=1αiyixi.

— Conditions de KKT (“support vectors”) : (C−αiii(yi(w>xi+b)−1 +ξi) = 0. Ceci implique que si yi(w>xi +b) > 1, alors αi = 0, si yi(w>xi+b) < 1 alorsαi = C. Sinon αi ∈[0, C].

— Les donn´ees d’emtr´ees xi n’interviennent qu`a travers les produits scalaires x>i xj. C’est la premi`ere version du “kernel trick” (astuce du noyau).

2 Th´ eor` eme du repr´ esentant

Th´eoreme 1 Th´eor`eme du repr´esentant (1971) :

Soitϕ:X →Rd. Soit (x1, . . . , xn)∈ Xn, soitΨ :Rn+1 →R strictement croissante par rapport `a sa derni`ere variable,

alors le minimum de Ψ(w>ϕ(x1), ..., w>ϕ(xn), w>w) est atteint pour w =Pn

i=1αiΦ(xi) avec α∈ Rn.

Proof soit w∈Rd, soitFD={PαiΦ(xi)/α∈Rn}, soitwD∈ FD etw∈ FD tel que w=wD+w,

alors∀i,w>ϕ(xi) =wD>ϕ(xi) +w>ϕ(xi) avecw>ϕ(xi) = 0

D’apr`es le th´eor`eme de Pythagore, on a :w>w=w>DwD2 +w>w. Par cons´equent, on a : Ψ(w>ϕ(x1), ..., w>ϕ(xn), w>w) =Ψ(wD>ϕ(x1), ..., w>Dϕ(xn), wD>wD+w>w)

≥Ψ(wD>ϕ(x1), ..., w>Dϕ(xn), wD>wD) Donc

inf

w∈Rd

Ψ(w>ϕ(x1), ..., w>ϕ(xn), w>w) = inf

w∈FD

Ψ(w>ϕ(x1), ..., w>ϕ(xn), w>w)

Corollaire 1 Pour λ >0,minw∈Rd 1 n

P`(yi, w>ϕ(xi)) +λ2w>w est atteint enw=Pn

i=1αiϕ(xi).

(3)

— Il est important de remarquer qu’il n’y a aucune hypoth`esee sur`(pas de convexit´e). De plus, on obtient un probl`eme de minimisation (et pas de maximisation). Voir Sections 4 et 5.

— Le r´esultat est g´en´eralisable aux espaces de Hilbert (RKHS).

— On a : ∀j ∈ {1, . . . , n}, w>ϕ(xj) =Pn

i=1αik(xi, xj) = (Kα)j o`u K est la matrice de noyau etw>w=α>Kα. On peut alors r´e´ecrire :

min

w∈Rd

1 n

X`(yi, w>ϕ(xi)) +λ

2w>w= min

α∈Rn

1 n

X`(yi,(Kα)i) +λ 2α>Kα L’astuce du noyau permet donc de :

— remplacer Rd parRn; int´eressant surtout quanddest tr`es grand.

— s´eparer le probl`eme de repr´esentation (d´efinir un noyau sur un ensembleX) et des probl`emes d’algorithmes et d’analyse (qui n’utilisent que la matrice de noyauK).

3 Noyaux

— D´efinition:k est un noyau ssi toutes les matrices de noyau sont semi-d´efinies positives.

Th´eoreme 2 Th´eor`eme d’Aronszajn (1950) : k est un noyau d´efini positif si et seulement si il existe un espace de HilbertF, etΦ :X → F tel que∀x, y,k(x, y) =hΦ(x),Φ(y)i.

— Propri´et´es : la somme et le produit de noyaux sont des noyaux.

— Noyau lin´eaire :k(x, y) =x>y

— Noyau polynomial : k(x, y) = (x>y)r k(x, y) = (

d

X

i=1

xiyi)r= X

α1+...+αp=r

r α1, ..., αp

(x1y1)α1...(xpyp)αp

| {z }

(xα11...xαpp )(yα11...yαpp )

Φ(x) ={ α r

1,...,αp

12

xα11...xαpp}

— Noyaux invariants par translation sur [0,1]. k(x, y) = q(x−y) o`u t est 1-p´eriodique.

k est un noyau ssi la s´erie de Fourier de q est positive (en passant par la repr´esentation complexe), i.e.,

k(x, y) =ν0+X

m>1

mcos 2πmxcos 2πmy+ 2νmsin 2πmxsin 2πmy avecν>0.

Le vecteur (dimension infinie) de “features” est compos´e deν01/2, et les √

mcos 2πmx et

√2νmsin 2πmx, pourm>1.

Sif(x) s’´ecritf(x) = Φ(x)>w, alors kwk2=

Z 1

0

f(x)2

+X

m>1

2 νm

Z 1

0

f(x) cos 2πmx2 + 2

νm Z 1

0

f(x) sin 2πmx2 .

Pourνm= m12s,m>1, cette norme est ´egale `a kwk2=

Z 1

0

f(x)2

+ 1

(2π)2s Z 2

0

|f(s)(x)|2dx

et le noyau s’´ecrit en formule analytiquek(x, y) = ν0+ (−1)s−1 (2(2s)!π)2sB2s({x−y}), o`u B2s est le polynˆome de Bernoulli.

(4)

— Noyaux invariants par translation sur Rd : Noyau invariant par translation : X = Rd,k(x, y) =q(x−y) avecq:Rd→R,

Th´eoreme 3 Th´eorme de B¨ochner : k est d´efini positif ⇔ q est la transform´ee de Fourier d’une mesure de Borel finie positive⇐q∈L1 et sa transform´ee de Fourier est positive.

Proof (partielle) Soitx1, ...xn∈Rd, soitα1, .., αn∈R, Xαsαjk(xs, xj) =X

αsαjq(xs−xj)

=X

αsαj

Z

exp−iω>(xs−xj)dµ(ω)

= Z

(X

αsαjexp−iω>xsexp−iω>xj)dµ(ω)

= Z

|X

αsexp−iω>xs|2dµ(ω)≥0

Raisonnement intuitif (non-rigoureux) : par ailleurs, siqest dansL1, alors ˆq(ω) existe et, avec dµ(ω) = ˆq(ω)dω, on a une representation explicite dek(x, y) =R p

ˆ

q(ω) exp−iω>x,p ˆ

q(ω) exp−iω>xidω= R ϕω(x), ϕω(y)idω=hϕ(x), ϕ(y)i.

Si on consid`eref(x) =R

ϕω(x)wωdω, alorswω= ˆf(ω)/p ˆ

q(ω), et la norme au carr´e dewest

´egale `a R |f(w)|ˆ 2 ˆ

q(w) dw, where ˆf denotes the Fourier transform off.

Exemple : noyau exponentiel exp(−α|x−y|) et noyau Gaussien exp(−α|x−y|2).

— Beaucoup d’applications de l’astuce du noyau !

— Donn´ees non vectorielles (s´equences, graphes, images)

4 M´ ethodes ` a noyaux et dualit´ e convexe

Soit Φ ∈ Rn×d, la matrice des “features” (descripteurs), dont les lignes sont les ϕ(xi) ∈ Rd, i = 1, . . . , n. On peut alors ´ecrire

1 n

n

X

i=1

`(yi, w>ϕ(xi)) +λ

2w>w=g(Φw) +λ 2w>w.

Par dualit´e convexe, on a

min

w∈Rd

g(Φw) +λ 2w>w

= min

w∈Rd,u∈Rnmax

α∈Rn

g(u) +λ

2w>w+λα>(u−Φw)

= max

α∈Rn min

w∈Rd,u∈Rn

g(u) +λ

2w>w+λα>(u−Φw)

= max

α∈Rn

−g(−λα)−λ

>ΦΦ>α

avecw= Φ>α, o`u par d´efinition,−g(−λα) = minug(u) +λα>uest concave en α.

(5)

— Les donn´ees d’entr´ee ne sont utilis´ees qu’`a travers la matrice de noyauK= ΦΦ>.

— K peut ˆetre plus facile `a calculer que Φ (exemple du cas polynomial)

5 Cas des moindres carr´ es

Nous avons vu d´esormais deux probl`emes d’optimisation :

— probl`eme dual (D): maxα∈Rn−g(−λα)−λ2α>

— probl`eme primal + repr´esentant (P): minα∈Rng(α) +λ2α>Kα Proposition 1 Siαest optimal pour (D), alors αest optimal pour(P).

Cas particulier (moindres carr´es) Soitg(u) =2n1ky−uk22. On obtient :

1. probl`eme dual: maxα∈Rnλ2α>Kα−2n1 ||y−nλα||22 2. probl`eme primal + repr´esentant : minα∈Rn 1

2n||y−Kα||22+λ2α>Kα 1. M´ethode `a noyaux (minimisation par rapport `aα:

gradient 1 /α:−λKα−n(nλα−y) = 0⇔(λK+nλ2)α=λy⇔α= (K+nλI)−1yunique solution

gradient 2 /α: n1K(Kα−y) +λKα= 0⇔(K2+nλK)α=Ky⇔K((K+nλI)α−y) = 0. Si Kest non inversible, la solution n’est pas unique :α= (K+nλI)−1y+Ker(K). Par contre, la prdiction est unique :Kα=K(K+nλI)−1y.

2. M´ethode directe. Minimisons par rapport `aw.

gradient /w: n1Φ>(Φw−y)

ceci donnew= (1nΦ>Φ +λI)−1 1nΦ>y⇔Φf = Φ(n1Φ>Φ +λI)−1 1nΦ>y.

En posant K = ΦΦ> et en comparant les r´esultats donn´es par les deux m´ethodes, on obtient l’´egalit´e :

noyau

z }| {

ΦΦ>(ΦΦ>

| {z }

n×n

+nλI)−1y=

directe

z }| {

Φ(Φ>Φ

| {z }

p×p

+nλI)−1Φ>y

Ce r´esultat n’est autre que le lemme suivant :

Lemma 1 : lemme d’inversion de matrices : ∀Amatrice, (AA>+I)−1A=A(A>A+I)−1 On a donc une “´equivalence” entre ce lemme et le th´eor`eme du repr´esentant.

6 Complexit´ e des op´ erations d’alg` ebre lin´ eaire

SiK∈Rn×n andL∈Rn×n sont deux matrices

— calculer KLa pour complexit´eO(n3)

(6)

— calculer K−1a pour complexit´eO(n3)

— calculer Kya pour complexit´eO(n2)

— R´esoudreK−1y a pour complexit´eO(n3)

— D´ecomposition en une base de vecteurs propresO(n3)

— “Plus grand” vecteur propre : O(n2) Approximation de rang faible

— Base de vecteurs propres (complexit´eO(n2r))

— Projection orthogonales surrpremi`eres colonnes :O(nr2)

Références

Documents relatifs

Donn´ ee: une machine de Turing M , qui ne revient jamais en d´ ebut de ruban, ne revient jamais dans l’´ etat initial, n’´ ecrit jamais de blancs?. Question: M ne s’arrˆ ete

En appliquant le premier principe de la thermodynamique pour un syst`eme ouvert, exprimer la vitesse d’´ejection des gaz en fonction de , C , 4 , , , et. est une barre homog`ene

Le jeu se termine soit par la ruine du joueur, d` es qu’il n’a plus de jeton (il n’y a donc aucun lancer si n = 0), soit par sa victoire, d` es qu’il a obtenu N jetons.. On notera

La principale (dont les autres d´ ecoulent) est la suivante : Pour deux arˆ etes parall` eles, la diff´ erence de cotes entre les extr´ emit´ es est la mˆ eme (pour une

Cette expression peut aussi permettre de voir la pression exerc´ee par le flux de photons ou de l’onde ´electromagn´etique sur la surface S, en effet, il suffit de diviser la force

Le plus simple pour aboutir dans cette recherche du champ magn´etique est d’utiliser un rep`ere cylindrique associ´es ` a chacun des deux fils et d’exprimer ensuite le

[r]

Donner la d´efinition de la borne sup´erieure de A ainsi qu’une condition n´ecessaire et suffisante pour son existence. En particulier, on peut faire la seconde partie en admettant