• Aucun résultat trouvé

M ´ethodes `a base de voisinage

N/A
N/A
Protected

Academic year: 2022

Partager "M ´ethodes `a base de voisinage"

Copied!
5
0
0

Texte intégral

(1)

M ´ethodes `a base de voisinage

1

• Id ´ee

• trouver des points d’apprentissage similaires au point de test

• faire “voter” ces “voisins”

• Deux strat ´egies

• nombre de voisins fixe → k-plus proches voisins (k-PPV)

• voisinage fixe → fen ˆetres de Parzen

M ´ethodes `a base de voisinage

2

• Terminologie/notation

• donn ´ees d’entraˆ ınement: D

n

= # (x

1

, y

1

), . . . ,(x

n

, y

n

) $

• observation: x

i

∈ R

d

• ´etiquette/classe: y

i

∈ {−1, 1}

• fonction discriminante: g : R

d

%→ R , souvent g : R

d

%→ [ − 1, 1]

• fonction de classification/classifieur: f : R

d

%→ {−1,1}

• fonction discriminante → classifieur:

f (x) =

"

1, si g(x) ≥ 0

−1, si g(x) < 0

M ´ethodes `a base de voisinage

3

• Vote des voisins formellement:

g(x) = 1

n !

xi

V

(x)

y

i

k-PPV:

V (x) est l’ensemble des k points plus proches `a x dans D

n

• Parzen (avec param `etre h):

V (x) = { x

i

: d(x

i

,x) < h }

M ´ethodes `a base de voisinage

4

• Erreur d’entraˆ ınement (risque empirique) R( ! f, D

n

) = R( ! f ) = 1

n

n

!

i=1

I

{f(xi)!=yi}

fonction indicatrice:I{A}=

"

1,siAest vrai 0,sinon

• Comment choisir k ou h?

• minimiser R(f ! )?

k = 1, h → 0

(2)

M ´ethodes `a base de voisinage

5

• But: g ´en ´eralisation!

k ou h petit: les “ ´electeurs” sont proches (donc fiables) mais pas nom- breux (donc le vote est bruit ´e)

k ou h grand: les “ ´electeurs” sont nombreux (donc les fluctuations statistiques sont liss ´ees) mais loin (donc moins fiables)

• Comment mesurer la g ´en ´eralisation?

• sur un ensemble de test: D

'm

= #

(x

'1

,y

'1

), . . .,(x

'm

, y

'm

) $

• Erreur de test

!

R(f , D

'm

) = R !

'

( f ) = 1 m

m

!

i=1

I

{f(x' i)!=y'i}

M ´ethodes `a base de voisinage

6

• Courbes d’apprentissage

• erreurs d’entraˆ ınement et de test en terme du param `etre de com- plexit ´e/capacit ´e

• Fl ´eau de la dimensionnalit ´e

• les espaces de haute dimension sont presque vides: on a besoin de O(c

d

) points pour la m ˆeme densit ´e

• les voisins plus proches sont loin

• les m ´ethodes `a base de voisinage “global” s’ ´ecroulent

Fen ˆetres de Parzen

7

• Vote des voisins formellement:

g(x) = 1

n !

d(xi,x)<h

y

i

= 1 n

n

!

i=1

I

{d(xi,x)<h}

y

i

= 1 n

n i=1

!

I

%d(xi,x) h <1&

y

i

• remplacer I

{·}

par une fonction “lisse”:

g(x) = 1 n

n

!

i=1

"

' d(x

i

,x) h

( y

i

• par exemple, gaussien standard N(0, 1):

" (u) = 1

√ 2# e

u2/2

k-plus-proche-voisin

8

• Partition de Voronoi

x

1

x

2

x

1

x

3

(3)

k-plus-proche-voisin

9

• Complexit ´e computationnelle

• m ´ethode na¨ ıve: T(n, k, d) = O(nkd) = O(n

2

d)

• m ´ethode de distances partielles:

d

r

(a,b) = )

r

!

i=1

(a

i

b

i

)

2

*

1/2

, rd

• m ´ethodes d’arbre de recherche

k-plus-proche-voisin

10

• Complexit ´e computationnelle

• m ´ethode de suppression/ ´emondage (editing/pruning/condensing) E ´

MONDAGE

D

E

P

LUS

P

ROCHE

V

OISIN

(D

n

)

1 construire le diagramme de Voronoi complet de D

n

2 pour j ← 1 `a n faire

3 pour tout les voisins de Voronoi x

'

de x

i

faire 4 si y

i

! = y

'

alors

5 marquer x

i

6 pour j ← 0 `a n faire 7 si x

i

n’est pas marqu´e alors 8 supprimer x

i

T(n, d) = O(d

3

n

*d/2+

ln n)

M ´etriques

11

• Propri ´et ´es d’une m ´etrique

• positivit ´e: d(a, b) ≥ 0

• r ´eflexivit ´e: d(a,a) = 0

• sym ´etrie: d(a,b) = d(b,a)

• in ´egalit ´e de triangle: d(a,b) + d(b,c)d(a, c)

M ´etriques

12

• Exemples des m ´etriques euclidienne L

2

d(a, b) =

)

d

!

i=1

(a

i

b

i

)

2

*

1/2

Manhattan L

1

d(a, b) = !

d

i=1

| a

i

b

i

| L

$

d(a, b) = max

i

| a

i

b

i

| Minkowski L

p

d(a, b) =

)

d

!

i=1

| a

i

b

i

|

p

*

1/p

Tanimoto L

Tanimoto

d(S

1

,S

2

) = | S

1

| + | S

2

| − 2 | S

1

S

2

|

| S

1

| + | S

2

| − | S

1

S

2

|

(4)

M ´etriques

13

• La m ´etrique de Minkowski

1 4 2

0,0,0

1,0,0 0,1,0

1,1,1

M ´etriques

14

• Les limitations de la m ´etrique euclidienne

1 2 3 4 5

2.58

x8 x' x'(s=3)

d(x,x(s))

d(x',x8)

s

La distance tangente

15

• Capturer l’invariance de certaines transformations:

TV

i

= F

i

(x

'

; a

i

) − x

'

La distance tangente

16

0 281 0 694

641 660 924 1283

0 973 1535 1856

1628 1767 2122 2373

TV2

TV1 (rotation)

0 0.5 1.5

0 0.5 1.5

prototype a1

a2

(amincir)

(5)

La distance tangente

17

d

tan

(x

'

, x) = min

a

[ . (x

'

+ Ta)x . ]

x3

x' TV1

TV

2

Ta

x1

Dtan (x',x

2)

x2 x1

x2

espace tangent

Références

Documents relatifs

Un peu plus subtile, ne modifie pas b, donc on peut utiliser la même décomposition pour tout vecteur b, donne A-1 et les vecteurs propres.. Gauss Jordan (pivot

Que l’erreur de discr´etisation diminue lorsque h diminue et ` a la limite y doit tendre vers Y (x) quand h tend vers z´ero : c’est la convergence.. Pouvoir ´evaluer l’erreur

On consid`ere un volume d’eau qui contient 50 kg de sucre dissous lorsque la concentration est satur´ee.. Trois heures plus tard, il reste 25 kg de sucre

Soit A une matrice hermitienne d´efinie positive. Cet algorithme est-il appliquable `a des matrices non hermitiennes ? Expliquer comment utiliser la d´ecomposition de Choleski

a diagonale strictement dominante est inversible et la m´ ethode de Jacobi converge pour cette matrice.. Voir les exercices 5 et

But : R´ esoudre un probl` eme d’optimisation num´ erique Trouver une des meilleures solution selon le crit` ere :. =

Un formulaire manuscrit d’une feuille A4 recto-verso est autoris´ e. Les calculatrices scientifiques de base sont

Pour cela, on dispose de trois ´equations, qui sont les ´equations d’´equilibre que l’on va formuler en d´eplacements en utilisant la loi de compor- tement et le d´efinition