• Aucun résultat trouvé

IFT3390/6390Fondements de l’apprentissage machine

N/A
N/A
Protected

Academic year: 2022

Partager "IFT3390/6390Fondements de l’apprentissage machine"

Copied!
16
0
0

Texte intégral

(1)

Département d'informatique et de recherche opérationnelle

Laboratoire d’Informatique des Systèmes d’Apprentissage

IFT3390/6390

Fondements de l’apprentissage machine

Professeur: Pascal Vincent

Quatrième cours:

Méthodes à base de voisinage: k-NN, Parzen

pour classificaiton, régression, estimation de densité

http://www.iro.umontreal.ca/~vincentp/ift3390

(2)

Au programme aujourd’hui

Rappel des types de problème en apprentissage Méthodes à base de voisinage: k-NN et Parzen

pour classification binaire, régression, estimation de densité.

Etapes de conception d’un algorithme

d’apprentissage.

(3)

Les types de problèmes en apprentissage

Classification Régression Estimation de densité

Signification de la

cible y indique une classe

parmi c classes. une valeur réelle à

prédire. pas de cible y !

Domaine de y y

{-1,1} ou

y

{1, ..., c}

ou

y

{0, 1, ... ,

c

-1}

pas de cible y !

Ce que f(x) vise à

prédire

la classe de x

(

la classe la plus

probablement associée à

x)

la valeur espérée de

y

(le

y

“moyen”) correspondant à

x.

E[ Y | X=x ]

la densité p( x )

(

l’observation

x

est-elle fort ou peu probable?

)

Fonction de perte (ou coût) que l’on veut habituellement minimiser.

l’erreur de

classification:

l’erreur quadratique: la log-vraisemblance négative:

y R

L((x, y ), f ) =

I { f (x) ! =y }

L((x, y ), f ) =

(f (x) y ) 2 log f (x)

L(x, f ) =

(4)

Méthodes à base de voisinage

Une idée simple: faire voter les voisins du point de test.

Ex. k-NN classification multiclasse: “parmi mes k plus proches voisins, quelle classe est majoritaire?”

Tout comme les méthodes de type

histogramme (quadrillage de l’espace) , les méthodes à base de voisinage sont des méthodes dites

“non-paramétriques”.

(5)

k-NN (k nearest neighbors)

k-PPV (k plus proches voisins)

f (x) = sign

! 1

" n

i=1 w i

# n

i=1

w i Y i

$

avec

Pour la classification binaire (avec )

la moyenne des valeurs cibles des k voisins les plus proches de x

signe de

la moyenne pondérée des valeurs cibles de tous les points d’entrainement, pondérées par un poids indiquant si le point d’entrainement est voisin de x.

signe de

f (x) = sign

 1 k

#

{ i 1...n | X

i

V (x) }

Y i

f (x) = sign

! 1 k

" n

i=1

I { X

i

V (x) } Y i

#

w i = I { X

i

V (x) }

Y i {− 1, 1 }

V(x) = ensemble des k plus

proches voisins de x dans

l’ensemble d’apprentissage

(6)

k-NN (k nearest neighbors)

k-PPV (k plus proches voisins)

la moyenne des valeurs cibles des k voisins les plus proches de x

la moyenne pondérée des valeurs cibles de tous les points d’entrainement, pondérées par un poids indiquant si le point d’entrainement est voisin de x.

Pour la régression (avec )

f (x) = sign

! 1

" n

i=1 w i

# n

i=1

w i Y i

$

avec

f (x) = sign

 1 k

#

{ i 1...n | X

i

V (x) }

Y i

f (x) = sign

! 1 k

" n

i=1

I { X

i

V (x) } Y i

#

w i = I { X

i

V (x) }

V(x) = ensemble des k plus proches voisins de x dans l’ensemble d’apprentissage

Y i R

(7)

Fenêtres de Parzen

à voisinage dur

f (x) = sign

! 1

" n

i=1 w i

# n

i=1

w i Y i

$

avec

Pour la classification binaire (avec )

la moyenne des valeurs cibles des voisins de x situés à distance ≤ h

signe de

la moyenne pondérée des valeurs cibles de tous les points d’entrainement, pondérées par un poids indiquant si le point d’entrainement est voisin de x.

signe de

V(x) = ensemble des points de

l’ensemble d’apprentissage situés à moins d’une distance h de x.

w i = I { X

i

V (x) }

w i = I { d(X

i

,x)<h } w i = I

{

d(Xi,xh )

<1 }

Y i {− 1, 1 }

(8)

Fenêtres de Parzen

à voisinage dur

avec

la moyenne des valeurs cibles des voisins de x situés à distance ≤ h

la moyenne pondérée des valeurs cibles de tous les points d’entrainement, pondérées par un poids indiquant si le point d’entrainement est voisin de x.

V(x) = ensemble des points de

l’ensemble d’apprentissage situés à moins d’une distance h de x.

w i = I { X

i

V (x) }

w i = I { d(X

i

,x)<h } w i = I

{

d(Xi,xh )

<1 }

Pour la régression (avec )

f (x) = 1

! n

i=1 w i

" n

i=1

w i Y i

Y i R

(9)

Fenêtres de Parzen

à voisinage mou (soft)

avec

la moyenne pondérée des valeurs cibles de tous les points d’entrainement, pondérées par un poids indiquant à quel “degré” le point est voisin de x.

Pour la régression (avec )

w i = K (X i , x) f (x) = 1

! n

i=1 w i

" n

i=1

w i Y i

w i = I

{

d(Xi,xh )

<1 }

notez que correspond à un K particulier

(un noyau “dur”)

K est un noyau (Kernel)

Comme noyau “mou” on choisit souvent un noyau Gaussien

(correspond à une densité Normale)

K (X

i

, x) = N

x,σ2

(X

i

) = N

Xi2

(x)

= 1

(2π)

d2

σ

d

e

12 d(Xi,xσ2 )2

Y i R

M ´ethodes `a base de voisinage

8

• L’effet de la largeur de fen ˆetre h

n

-2 -1

0 1

2 -2 -1

0 1

2 0

0.05 0.1 0.15

h = 1

δ(x)

0 0.2 0.4 0.6

h = 0.5

-2 -1 0

1

2 -2 -1

0 1

2 δ(x)

0 1 2 3 4

h = 0.2

-2 -1 0

1

2 -2 -1

0 1

2 δ(x)

0 2

4 6

8 10 0 2

4 6

8 0

0.1 0.2

p(x)

h = 1

0 0.2 0.4 0.6

0 2

4 6

8 10 0 2

4 6

8 p(x)

h = 0.5

0 1 2 3

0

2 4

6 8

10 0 2

4 6

8 p(x)

h = 0.2

noyau Gaussien 2D

(10)

Fenêtres de Parzen (en résumé)

f (x) = 1

! n

i=1 K (X i , x)

" n

i=1

K (X i , x)Y i

f (x) = sign

! 1

" n

i=1 K (X i , x)

# n

i=1

K (X i , x)Y i

$

f (x) = ˆ p(x) = 1 n

! n

i=1

K (X i ; x) Pour la régression ( ) :

Pour la classification binaire ( ) :

Pour l’estimation de densité : à condition que

soit bien une fonction de densité de probabilité.

Ex: une Gaussienne centrée en

K

Xi

(x) = K (X

i

; x)

X

i

Y i {− 1, 1 }

Y i R

(11)

Fenêtres de Parzen en 1D

N µ,σ (x) = 1 σ √

2π e

(xµ)22

Gaussienne en dimension 1:

Estimateur de densité de Parzen:

x

1

x

2

x

l

ˆ

p(x) = 1 n

! n

i=1

N X

i

(x)

(12)

Fenêtres de Parzen en 2D

Gaussienne isotropique en dimension d:

N µ,σ (x) = 1

(2π)

d2

σ d e

12 !xµ!

2 σ2

(13)

Résultats qualitatifs en 2D

P ARZEN W INDOWS M ANIFOLD P ARZEN W INDOWS

Divertit de la masse de probabilité plus loin de la variété.

Phénomène accentué de “trous et bosses”.

Un noyau plus large ne ferait que diluer davantage la densité de probabilité.

Concentre la masse de probabilité le long de la variété.

Extrapole dans la bonne direction même quand il y a peu de données d’apprentissage.

– p.19

Exemple d’estimation de densité 2D

(14)

M ´ethodes `a base de voisinage

8

• L’effet de la largeur de fen ˆetre h n

-2 -1

0 1

2 -2 -1

0 1

2 0

0.05 0.1 0.15

h = 1

δ(x)

0 0.2 0.4 0.6

h = 0.5

-2 -1 0

1

2 -2 -1

0 1

2

δ(x)

0 1 2 3 4

h = 0.2

-2 -1 0

1

2 -2 -1

0 1

2

δ(x)

0 2

4 6

8 10 0 2

4 6

8 0

0.1 0.2

p(x)

h = 1

0 0.2 0.4 0.6

0 2

4 6

8

10 0 2

4 6

8 p(x)

h = 0.5

0 1 2 3

0

2 4

6

8 10 0 2

4 6

8 p(x)

h = 0.2

(15)

M ´ethodes `a base de voisinage

10

• Exemple: p(x) ∼ triangle + uniform, ! (u) = 1

√ 2 " e u

2

/2

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

0 1 2 3 4

1

n=1

n=16

n=256

n=

h1=1 h1=0.5 h1=0.2

(16)

Etapes de conception d’un algorithme d’apprentissage

Compréhension intuitive de l’algorithme. Savoir l’expliquer en français!

Formalisation mathématique de l’algorithme.

Ecriture de l’algo sous forme de pseudo-code.

Implémentation dans un langage/environnement de programmation.

Entraînement/test de l’algo sur des problèmes simples en faible dimension, où on peut vérifier graphiquement si ça fait bien ce qu’on veut.

Evaluation de preformance sur des problèmes réels, et

comparaison avec d’autres algorithmes concurrents.

Références

Documents relatifs

Logarithme binaire : rappel sur la représentation des entiers en machine Écriture binaire d’un entier positif.. Écrire les nombres suivants en binaire et indiquer leur taille

D’après l’étude précédente, nous voyons bien que plus (respectivement moins) la capacité d’une classe de fonctions est grande, plus (respectivement moins) on a de

– Sélection dans M des deux clusters les plus proches Ci et Cj – Fusion de Ci et Cj par un cluster Cg plus général. – Mise à jour de M en calculant la ressemblance entre Cg et les

Lorsque la cible est une étiquette de classe, une variable catégorique (indiquant à quelle classe ou catégorie l’entrée appartient, parmi plusieurs) on dit qu’on a affaire à

Méthodes de type histogramme, illustrées pour classification, régression, estimation de densité.. Malédiction de

Méthodes à base de voisinage: k-NN, Parzen pour classificaiton, régression, estimation de densité http://www.iro.umontreal.ca/~vincentp/ift3390.. Au programme

• Dans le cas de classification multiclasse ( Y indique le numéro d’une classe parmi m classes), on peut effectuer une régression multiple avec une cible codée en “un

• On peut apprendre les paramètres d’une Gaussienne à partir d’un ensemble de données de manière simple:. • Pour μ on calcule la moyenne empirique des