• Aucun résultat trouvé

∼ Mémo Classification ∼

N/A
N/A
Protected

Academic year: 2022

Partager "∼ Mémo Classification ∼"

Copied!
1
0
0

Texte intégral

(1)

∼ Mémo Classification ∼

Types de classification

◦ Non-supervisée : On souhaite regrouper des individus ayant des caractéristiques communes.

◦ Supervisée : Les groupes sont déjà formés ; on souhaite déter- miner à quel groupe appartient vraisemblablement un individu dont on connaît certaines caractéristiques.

Idée : "Qui se ressemble s’assemble" "L’ami de mon ami est mon ami".

Classification non-supervisée

Contexte : Pournindividusω1, . . . , ωn, on a les valeurs depcaractères quantitatifsX1, . . . , Xp. Celles associées àωisont notéesx1,i, . . . , xp,i. Elles constituent les données.

Objectif : À partir des données, on souhaite regrouper les individus qui se ressemblent quant àX1, . . . , Xp.

Matrice de données : Matrice ànlignes etpcolonnes avec pouri-ème ligne :(x1,i, . . . , xp,i).

Nuage de points : Ensemble des points {m1, . . . , mn} où mi est le point associé àωide coordonnées(x1,i, . . . , xp,i)dansRp.

Ressemblance : Des individus se ressemblent ssi les points associés sont proches les uns des autres.

Distance entreωuetωv:d(ωu, ωv) = s p

P

j=1

(xj,u−xj,v)2. Plusd(ωu, ωv)est petite, plusωuetωvse ressemblent.

Écarts entre deux élémentsAetB/Méthodes de regroupement :

◦ Écart simple/Méthode du plus proche voisin : e(A, B) = min

(ω,ω)∈A×Bd(ω, ω).

◦ Écart complet/Méthode du voisin le plus éloigné : e(A, B) = max

(ω,ω)∈A×Bd(ω, ω).

◦ Écart moyen/Méthode de la distance moyenne : e(A, B) = 1

nAnB

P

ω∈A

P

ω∈B

d(ω, ω).

◦ Écart de Ward : e(A, B) = nAnB

nA+nB

d2(gA, gB), oùnA est le nombre d’individus dans Aet gA est le centre de gravité de coordonnées(x1,A, . . . , xp,A).

Tableau des écarts : Tableau donnant les écarts de tous les éléments considérés : individu/individu, individu/groupe ou groupe/groupe.

Algorithme de classification ascendante hiérarchique (CAH) :

◦ Point de départ : On choisit un écart.

◦ Méthode : À chaque étape, on calcule le tableau des écarts, on identifie le plus petit et on regroupe les éléments associés.

Dendrogramme : Arbre qui permet la visualisation des groupes for- més. Les branches indiquent les différents niveaux de regroupement.

Une coupure au milieu d’une branche propose des regroupements.

Inerties : Itot=1 n

p

P

j=1 n

P

i=1

(xj,i−xj)2,P= (N`)`∈{1,...,h},

Iinter(P) = 1 n

p

P

j=1 h

P

`=1

P

i∈N`

(xj,`−xj)2,Iintra(P) =Itot− Iinter(P).

Sur l’écart de Ward : L’écart de Ward e(A, B) mesure la perte de Iinterlors du regroupement deAetB.

CAH avec écart de Ward : À chaque étape, on souhaite regrouper des éléments dont le regroupement provoque une perte minimale deIinter. Coefficient d’agglomération : AC= 1

n

n

P

i=1

1−e(ωi, Ai) e(Q, R)

, oùAiest le1-er élément avec lequelωia été regroupé,QetRsont les2derniers éléments.

On aAC∈]0,1[.ACproche de1⇒forte structure de groupes.

CAH avec ACP : On fait une ACP puis une CAH sur le plan principal.

Parangon : Individu le plus représentatif de son groupe ; c’est celui dont le point associé est le plus proche du centre de gravité du groupe.

Caractère dominant : Pour chaque groupeg, le caractère dominant est Xjavecj= argmax

j∈{1,...,p}

|zobs,(j,g)|,zobs,(j,g)= xj,g−xj

r

s2j ng

n−n

g n−1

.

Le degré d’importance deXjdans la caractérisation degest obtenue avec la p-valeur : p-valeur=P(|Z| ≥ |zobs,(j,g)|),Z∼ N(0,1).

Méthodes des centres mobiles (kmeans) :

◦ Point de départ : On souhaite faireqgroupes⇒on choisitq points appelés centres initiaux.

◦ Méthode : À chaque étape, on calcule les distances entre les in- dividus et les centres (initiaux ou de gravité des groupes formés) et on formeqgroupes en fonction de la proximité des individus avec les centres.

Complément ; CAH avec caractères qualitatifs et indice de Jaccard : On dresse le TDC, on calcule : du, ωv) = 1− au,v

r−du,v

, oùrest le nombre total de modalités,au,vest le nombre de(1,1)auxuetv-ème lignes du TDC etdu,vest le nombre de(0,0)auxuetv-ème lignes du TDC, puis on fait une CAH avecden guise de distance.

Classification supervisée

Contexte : On considère une population que l’on sait divisée en q groupes G1, . . . , Gq, en ignorant ce qui les caractérises. Pour n individus ω1, . . . , ωn, on a les valeurs de p caractères quantitatifs X1, . . . , Xp et d’un caractère qualitatif nominal Y égal au groupe d’appartenance. Ces valeurs constituent les données.

Objectif : À partir des données, on souhaite déterminer à quel groupe appartient vraisemblablement un nouvel individuωdont on sait qu’il vérifie(X1, . . . , Xp) = (x1, . . . , xp) =x.

Méthode deskplus proches voisins : On identifie leskindividus qui ressemblent le plus àω. On affecteωau groupe auquel la majorité de ces individus appartiennent.

Analyse discriminante : Pour tout k∈ {1, . . . , q}, on suppose que la loi de (X1, . . . , Xp)sachant{Y =Gk} estNpkk). En utilisant la règle de Bayes, on peut montrer que la probabilité queωapparti- enne au groupeGkestpGk(x) = rkφ(x, µkk)

f(x, µ,Σ, r) , oùrk=P(Y ∈Gk), f(x, µ,Σ, r) =

q

P

k=1

rkφ(x, µkk)etφ(x, µkk)est une densité as- sociée à Npkk). On estime ponctuellement les paramètres in- connus rkk etΣk. On remplace les paramètres par leurs estima- tions dans l’expression de pGk(x) pour avoir la probabilité estimée pG

k(x). Le groupe auquelωa le plus chances d’appartenir estGk

aveck= argmax

k∈{1,...,q}

pG

k(x).

Modèle de régression logistique : On a deux groupes {G1, G2}. On suppose que la probabilité que ω appartienne à G1 est p(x) =

exp(β01x1+. . .+βpxp)

1 + exp(β01x1+. . .+βpxp), oùβ01, . . . ,βpdésignent des co- efficients inconnus. On estime ponctuellement ces coefficients. On rem- place les paramètres par leurs estimations dans l’expression de p(x) pour avoir la probabilité estimée p(x). Sip(x) > 0.5, ω a plus chances d’appartenir àG1.

Christophe Chesneau Mémo Classification

Références

Documents relatifs

[r]

Les lymphocytes B (LB) portent sur la membrane plasmique des molécules appelées anticorps qui leur permettent de reconnaître les antigènes produits par les

[r]

[r]

On calcule la somme correspondant à chacun de ces triplets puis on calcule le PPCM (plus petit commun multiple) de ces sommes qu’on multipliera à chacun des entiers d’origine. On

Remarque : Dans cet exemple, nous utilisons les mêmes variables pour construire l’espace qui nous permet de caractériser les groupes (les axes factoriels) et

- Demander aux enfants de raconter à nouveau l’histoire en respectant l’ordre chronologique et en plaçant en dessous des images placées au tableau celle identique : un enfant

Un petit arbre pleure Dans l'heure du soir, Un petit arbre pleure J'ai peine à le voir!. Il est