• Aucun résultat trouvé

k plus proches voisins

N/A
N/A
Protected

Academic year: 2022

Partager "k plus proches voisins"

Copied!
12
0
0

Texte intégral

(1)

Classification

k Nearest-Neighbors

Ana Karina Fermin

ISEFAR

(2)

1 k Nearest-Neighbors

2 Generative Modeling (Naive Bayes, LDA, QDA)

3 Logistic Modeling

4 SVM

5 Tree Based Methods (M. Zetlaoui course, Apprentissage)

(3)

Methods

1 k Nearest-Neighbors (knn)

(4)

Example: kNearest-Neighbors (withk= 3)

1 2

3 4

(5)

Example: kNearest-Neighbors (withk= 4)

(6)

kNearest-Neighbors

Neighborhood Vx ofx: k closest from x learning samples.

k-NN as local conditional density estimate

bp+1(x) = P

xi∈Vx1{yi=+1}

|Vx|

KNN Classifier:

fbKNN(x) =

(+1 ifpb+1(x)≥pb−1(x)

−1 otherwise

(7)

Example: TwoClass Dataset

Synthetic Dataset

Two features/covariates.

Two classes.

Dataset from Applied Predictive Modeling, M. Kuhn and K.

Johnson, Springer

Numerical experiments withR.

(8)

Example: KNN

(9)

Example: KNN

(10)

Example: KNN

(11)

Application : model selection using cross validation

(12)

Example: KNN (bk= 25 using cross-validation)

Références

Documents relatifs

When the number n of data points increases the nearest neighbor of X gets closer to X (this.. has to be made rigorous since X is a random variable).. This result was first proved

A partir du fichier initial, créer un fichier .CSV nommé NouveauFichier.csv ne conservant que les colonnes longueur pétale, largeur pétale et l’espèce.. Profitez-en pour renommer

Over-fit : High complexity models are memorizing the data they have seen and are unable to generalize to unseen examples...

Dans un treillis de Galois, les concepts sont ordonnés selon des critères liés au nombre des objets mobiles figurant dans l’extension de chaque concept et au nombre des

–  Méthode K-NN (plus proche voisin) –  Arbres de décision. –  Réseaux de neurones –  Classification bayésienne

En utilisant la question précédente, écrire une fonction plus_proches_voisins_naif de type point list -> point*point pre- nant en argument une liste l ayant au moins deux éléments

Les distributions correspondantes à un téta donné sont Fq et Gq.On utilise les échantillons pour estimer q par une q^ et on utilise alors les distributions Fq^ et Gq^ comme dans

La bibliothèque standard de R (MASS) pour l’analyse discriminante ne pro- pose pas de procédure automatique de choix de variable contrairement à la procédure stepdisc de SAS mais,