• Aucun résultat trouvé

Les K plus proches voisins

N/A
N/A
Protected

Academic year: 2022

Partager "Les K plus proches voisins"

Copied!
6
0
0

Texte intégral

(1)

Les K plus proches voisins

L’ARTICLE DE BASE

1) Discriminatory Analysis: NonParametric Discrimination: Consistency Properties by Evelyn Fix and J.L. Hodges

University of California, Berkeley En 1951 ...

Une variable aléatoire Z de valeur z est distribuée dans un espace soit selon une distribution F soit selon une distribution G.

Le problème est de décider, sur la base de z quelle est la distribution de Z.

Le problème peut se reformuler selon plusieurs hypothèses:

1)- F et G sont complètement connues

2)- F et G sont connues sauf quelques paramètres 3) -F et G sont complètement inconnues

(2)

Situation 1: F et G complètement connues

Il s'agit de la décision bayésienne, avec une

procédure de ratio de probabilité qui s'exprime sous la forme:

f(z)/g(z)>c --> F f(z)/g(z) < c --> G f(z)/g(z) = c --> ?

Le choix de c est logiquement 1, mais peut être également choisi de façon à ce que les

probabilités d'erreur soient égales. (procédure

minimax)

(3)

Situation 2: Distribution incomplètement connues

Il s'agit d'une estimation paramétrique pour se ramener au cas précédent:

Soient:

X1,X2,..., Xm Echantillon pour F et Y1,Y2,..., Yn Echantillon pour G

Les distributions F et G sont supposées connues dans leur forme mais certains paramètres nommés q sont

inconnus. Les distributions correspondantes à un téta

donné sont Fq et Gq.On utilise les échantillons pour

estimer q par une q^ et on utilise alors les distributions

Fq^ et Gq^ comme dans la situation 1. ( exemple de la

fonction linéaire discriminante ).

(4)

Situation 3: F et G inconnues

On estime directement la densité de probabilité en comptant les plus proches voisins de l'observation dans les échantillons disponibles

+ + + + + + +0 + + 0 + + 0 X 0 0 + 0 0 0 0 0

les 9 plus proches voisins

3 (+) et 6 (0)

f(z)=3/9 g(z)=6/9

f(z)/g(z)=1/2 -> Z de distribution de l'échantillon

(5)

Situation 3 : suite

Les auteurs utilisaient une mesure de Lebeague et la distance Euclidienne.

L’erreur de classement ou plutôt la probabilité d'erreur R est bornée de la manière suivante : R*  R  2 R* (1- R*) avec R* la probabilité

d’erreur de Bayes.

Avec une infinité de données la probabilité pourrait

seulement être réduite d'au maximum 1/2. Il faut noter aussi que la certitude R*=0 implique R=0 et que

l'ignorance complète R*=1/2 implique R = 1/2, dans les cas extrêmes les erreurs NN et Bayes sont donc

identiques.

(6)

Algorithme général

La règle des K plus proches voisins peut donc s’exprimer de la manière suivante :

Soient {(X1,q1),(X2,q2),...,(Xn,qn)} données, et {Y,?} observé

{ initialiser les k plus proches voisins avec une distance saturée;

Pour ( chaque élément Xi de l'échantillon

attention !! { Calculer la distance d(Xi,Y);

Insérer (si nécessaire) Xi dans les k plus proches voisins;

}

Déterminer la classe C la plus représentée dans les k plus proches voisins;

Si C est suffisamment représentée et si d(Y, « C ») < dmax Alors le résultat est acceptable

Sinon Y n'est pas classable.

}

Références

Documents relatifs

When the number n of data points increases the nearest neighbor of X gets closer to X (this.. has to be made rigorous since X is a random variable).. This result was first proved

Si M' est l'intersection de AI et BC et D' le point de tangence sur BC du cercle de centre I' exinscrit dans l'angle A, M est le milieu de DD' ; les points A,M',I,I' sont

Comme pour la première partie, récupérez la base, analysez les données, et effectuez un apprentissage avec knn. Là encore étudiez l’influence du

 Modifier le programme du afin de tester l'algorithme knn avec un nombre de plus proches voisins différent (en gardant un iris ayant une longueur de pétale égale à 2,5 cm et

It is the distribution of the number of successes in a sequence of n independent Bernoulli trials, with the odds of success at a trial varying geometrically with the number of

–  Méthode K-NN (plus proche voisin) –  Arbres de décision. –  Réseaux de neurones –  Classification bayésienne

For the problem of coding, we recall a source coding theorem by Campbell relating a generalized measure of length to the Rényi-Tsallis entropy and exhibit the links with

1) Heat, smoke, and even a fire may occur if the relay is used in conditions outside of the allowable ranges for the coil ratings, contact ratings, operating cycle lifetime, and