• Aucun résultat trouvé

Fondements de l’apprentissage machine

N/A
N/A
Protected

Academic year: 2022

Partager "Fondements de l’apprentissage machine"

Copied!
3
0
0

Texte intégral

(1)

Département d'informatique et de recherche opérationnelle

Laboratoire d’Informatique des Systèmes d’Apprentissage

IFT3390/6390

Fondements de l’apprentissage machine

Professeur: Pascal Vincent

l’astuce du noyau

(kernel trick)

http://www.iro.umontreal.ca/~vincentp/ift3390

Rappel

• Il existe de nombreuses méthodes pour construire un classifieur linéaire. ( Ex: l’algorithme du Perceptron, la régression logistique, la régression avec erreur quadratique.)

• Nous avons vu qu’il est possible d’obtenir des classifieurs non linéaires à partir de classifieurs linéaires, avec un simple prétraitement des données.

• Il suffit d’appliquer une transformation non-linéaire (mapping) ! aux points de données x qui les

transforme dans un espace de plus haute dimension en x ˜ = ϕ(x)

Pour obtenir un classifieur non-linéaire

• Utiliser une fonction ! explicite choisie à priori, et de calculer explicitement les

Apprendre une transformation non-linéaire ! ayant une forme particulière. On peut voir sous cet angle ce que fait la première couche cachée d’un réseau de neurones.

• Utiliser l’astuce du noyau (kernel trick)

Il est possible de:

x ˜ = ϕ(x)

ϕ : (x

[1]

, x

[2]

) !→ (1, x

[1]

, x

[2]

, x

[1]

x

[2]

, x

2[1]

, x

2[2]

, sin x

[1]

, cos x

[2]

)

Ex:

Problème avec un mapping explicite

Si est en haute dimension, un mapping polynômial mêne rapidement à calculer un dans un espace gigantesque.

• Ex: et mapping polynômial de degré k (tous les produits entre k éléments de ), on doit calculer un dans un espace de dimension de l’ordre de . Ex: d=100, k=5

donne 10 000 000 000

x

x ˜

x

x R

d

d

k

x ˜

(2)

L’astuce du noyau

• S’applique à tout algorithme qui peut s’exprimer sous forme d’une expression basée sur des produits scalaires entre des vecteurs observations d’entrée .

• L’astuce est de supposer qu’on peut calculer le produit scalaire directement sans jamais avoir à calculer explicitement un

• On choisit un noyau K tel que

ϕ(x)

K(x

i

, x

j

) = ! ϕ(x

i

), ϕ(x

j

) "

! ϕ(x

i

), ϕ(x

j

) "

Illustration

ϕ:!

x

[1]

, x

[2]"

!→ (x2[1]

,

2

x

[1]

x

[2]

, x

2[2])

K(x, w) =

$ϕ(x), ϕ(w)%

= #

(x2[1]

,

2

x

[1]

x

[2]

, x

2[2]),(w[1]2

,

2

w

[1]

w

[2]

, w

[2]2 )$

=

x

2[1]

w

[1]2 +

2x[1]

x

[2]

2w[1]

w

[2]+

x

2[2]

w

2[2]

=

x

2[1]

w

[1]2 + 2x[1]

x

[2]

w

[1]

w

[2]+

x

2[2]

w

2[2]

= (x[1]

w

[1]+

x

[2]

w

[2])2

= ($x, w%)2

Il est possible de calculer le produit scalaire des vecteurs mappés sas jamais calculer le mapping explicitement !

Terminologie

• On appellera l’espace de départ dans lequel se trouvent les , l’espace de départ ou l’espace des ou l’espace des entrées brutes (raw input space)

• L’espace dans lequel ! mappe les donnée sera appelé espace- ! ou espace des traits (feature space)

K correspond à un produit scalaire dans l’espace- !.

x x

Ex d’utilisation de l’astuce du noyau avec un algorithme simple

• Étant donné un ensemble d’entraînement contenant des exemples de 2 classes (classe +1 et classe -1)

• L’algorithme choisit au hazard un point de chaque classe:

• Pour un nouveau point de test x, la décision est basée sur lequel des deux points est le plus proche en distance Euclidienne.

• Ceci correspond à la fonction de décision:

On considère l’algorithme simple suivant

x

+

et x

f (x) = sign(d(x, x

) d(x, x

+

))

(3)

Comment exprimer la décision à l’aide de produits scalaires?

g(x) = d(x, x

) d(x, x

+

)

= !

" x x

"

2

!

" x x

+

"

2

= !

# x x

, x x

$ − !

# x x

+

, x x

+

$

= !

# x, x $ − 2 # x, x

$ + # x

, x

$

!

# x, x $ − 2 # x, x

+

$ + # x

+

, x

+

$

= !

K (x, x) 2K (x, x

) + K(x

, x

)

!

K(x, x) 2K (x, x

+

) + K(x

+

, x

+

)

On remplace les produits scalaires

par un noyau K

La fonction discriminante est:

Noyaux fréquemment utilisés

• Le produit scalaire usuel:

• Noyau polynômial de degré k:

• Noyau RBF (ou Gaussien):

K(a, b) = ! a, b "

K

k

(a, b) = (1 + ! a, b " )

k

K

σ

(a, b) = e

12!a−b!

2 σ2

Remarques:

• Il existe de nombreux autres noyaux utiles.

• Les noyaux peuvent comporter des (hyper)-paramètres. ex:

• On ne peut pas toujours exprimer explicitement la fonction ! correspondant à un noyau K donné. Ainsi le noyau RBF correspond à un espace-! de dimension infinie.

σ ou k

Propriétés d’un noyau

• Pour qu’il existe un espace- ! et une

fonction ! correspondant à un noyau K, il suffit que K soit un “noyau de

Mercer”

• Un “noyau de Mercer” K vérifie les

propriétés suivantes: K(a,b) est continu,

symmétrique et défini positif.

Références

Documents relatifs

Une autre comparaison est faite entre notre méthode de sélection et une méthode classique de sélection qui utilise un algorithme génétique simple avec une fonction de fit- ness

Pour le type d’application que nous voulons traiter, avec un grand déséquilibre entre les classes, on s’attend à ce que la plupart des exemples de la classe majoritaire soient

fait un être humain lorsqu’on lui demande de juger la qualité d’une image (avec ou sans connaissance de l’image originale), force est de constater que ce dernier ne donne

Le “benchmark” industriel proposé nous a permis, à partir d’un nombre d’essais expérimentaux statistiquement représentatif, de comparer des lois de commandes linéaires

Pour d´ eriver des bornes en g´ en´ eralisation en AD (nous ap- pelons un tel r´ esultat une borne d’AD), il est es- sentiel de faire appel ` a une mesure de divergence entre

section 5, nous y avons évalué la vérification d’un scripteur sachant qu’on dispose, en entrée, de deux documents, ou plus exactement, deux ensembles de mots écrits par le

Nous avons ici fait ressortir de meilleures perfor- mances pour la fusion d’informations haut niveau `a partir de donn´ees num´eriques et plus par- ticuli`erement dans le cadre de

La démarche que nous proposons a pour but de créer un classifieur et de fournir des explications au niveau d’abs- traction des experts du domaine d’application, c.à.d., de notre