• Aucun résultat trouvé

k plus proches voisins

N/A
N/A
Protected

Academic year: 2022

Partager "k plus proches voisins"

Copied!
12
0
0

Texte intégral

(1)

Classification

k Nearest-Neighbors

Ana Karina Fermin

ISEFAR

(2)

1 k Nearest-Neighbors

2 Generative Modeling (Naive Bayes, LDA, QDA)

3 Logistic Modeling

4 SVM

5 Tree Based Methods (M. Zetlaoui course, Apprentissage)

(3)

Methods

1 k Nearest-Neighbors (knn)

(4)

Example: kNearest-Neighbors (withk= 3)

1 2

3 4

(5)

Example: kNearest-Neighbors (withk= 4)

(6)

kNearest-Neighbors

Neighborhood Vx ofx: k closest from x learning samples.

k-NN as local conditional density estimate

bp+1(x) = P

xi∈Vx1{yi=+1}

|Vx|

KNN Classifier:

fbKNN(x) =

(+1 ifpb+1(x)≥pb−1(x)

−1 otherwise

(7)

Example: TwoClass Dataset

Synthetic Dataset

Two features/covariates.

Two classes.

Dataset from Applied Predictive Modeling, M. Kuhn and K.

Johnson, Springer

Numerical experiments withR.

(8)

Example: KNN

(9)

Example: KNN

(10)

Example: KNN

(11)

Application : model selection using cross validation

(12)

Example: KNN (bk= 25 using cross-validation)

Références

Documents relatifs

Dans un treillis de Galois, les concepts sont ordonnés selon des critères liés au nombre des objets mobiles figurant dans l’extension de chaque concept et au nombre des

When the number n of data points increases the nearest neighbor of X gets closer to X (this.. has to be made rigorous since X is a random variable).. This result was first proved

–  Méthode K-NN (plus proche voisin) –  Arbres de décision. –  Réseaux de neurones –  Classification bayésienne

A partir du fichier initial, créer un fichier .CSV nommé NouveauFichier.csv ne conservant que les colonnes longueur pétale, largeur pétale et l’espèce.. Profitez-en pour renommer

Over-fit : High complexity models are memorizing the data they have seen and are unable to generalize to unseen examples...

La bibliothèque standard de R (MASS) pour l’analyse discriminante ne pro- pose pas de procédure automatique de choix de variable contrairement à la procédure stepdisc de SAS mais,

Les distributions correspondantes à un téta donné sont Fq et Gq.On utilise les échantillons pour estimer q par une q^ et on utilise alors les distributions Fq^ et Gq^ comme dans

En utilisant la question précédente, écrire une fonction plus_proches_voisins_naif de type point list -> point*point pre- nant en argument une liste l ayant au moins deux éléments