∼ Mémo Classification ∼

(1)

∼ Mémo Classification ∼

Types de classification

◦ Non-supervisée : On souhaite regrouper des individus ayant des caractéristiques communes.

◦ Supervisée : Les groupes sont déjà formés ; on souhaite déter- miner à quel groupe appartient vraisemblablement un individu dont on connaît certaines caractéristiques.

Idée : "Qui se ressemble s’assemble" "L’ami de mon ami est mon ami".

Classification non-supervisée

Contexte : Pournindividusω1, . . . , ωn, on a les valeurs depcaractères quantitatifsX1, . . . , Xp. Celles associées àωisont notéesx1,i, . . . , xp,i. Elles constituent les données.

Objectif : À partir des données, on souhaite regrouper les individus qui se ressemblent quant àX1, . . . , Xp.

Matrice de données : Matrice ànlignes etpcolonnes avec pouri-ème ligne :(x1,i, . . . , xp,i).

Nuage de points : Ensemble des points {m₁, . . . , mn} où mi est le point associé àωide coordonnées(x1,i, . . . , xp,i)dansR^p.

Ressemblance : Des individus se ressemblent ssi les points associés sont proches les uns des autres.

Distance entreωuetωv:d(ωu, ωv) = s p

P

j=1

(xj,u−xj,v)². Plusd(ωu, ωv)est petite, plusωuetωvse ressemblent.

Écarts entre deux élémentsAetB/Méthodes de regroupement :

◦ Écart simple/Méthode du plus proche voisin : e(A, B) = min

(ω,ω∗)∈A×Bd(ω, ω∗).

◦ Écart complet/Méthode du voisin le plus éloigné : e(A, B) = max

(ω,ω∗)∈A×Bd(ω, ω∗).

◦ Écart moyen/Méthode de la distance moyenne : e(A, B) = 1

nAnB

P

ω∈A

P

ω∗∈B

d(ω, ω∗).

◦ Écart de Ward : e(A, B) = nAnB

nA+nB

d²(gA, gB), oùnA est le nombre d’individus dans Aet gA est le centre de gravité de coordonnées(x1,A, . . . , xp,A).

Tableau des écarts : Tableau donnant les écarts de tous les éléments considérés : individu/individu, individu/groupe ou groupe/groupe.

Algorithme de classification ascendante hiérarchique (CAH) :

◦ Point de départ : On choisit un écart.

◦ Méthode : À chaque étape, on calcule le tableau des écarts, on identifie le plus petit et on regroupe les éléments associés.

Dendrogramme : Arbre qui permet la visualisation des groupes for- més. Les branches indiquent les différents niveaux de regroupement.

Une coupure au milieu d’une branche propose des regroupements.

Inerties : Itot=1 n

p

P

j=1 n

P

i=1

(xj,i−xj)²,P= (N_`)`∈{1,...,h},

Iinter(P) = 1 n

p

P

j=1 h

P

`=1

P

i∈N_`

(xj,`−xj)²,Iintra(P) =Itot− Iinter(P).

Sur l’écart de Ward : L’écart de Ward e(A, B) mesure la perte de I_interlors du regroupement deAetB.

CAH avec écart de Ward : À chaque étape, on souhaite regrouper des éléments dont le regroupement provoque une perte minimale deIinter. Coefficient d’agglomération : AC= 1

n

P

i=1

1−e(ωi, Ai) e(Q, R)

, oùAiest le1-er élément avec lequelωia été regroupé,QetRsont les2derniers éléments.

On aAC∈]0,1[.ACproche de1⇒forte structure de groupes.

CAH avec ACP : On fait une ACP puis une CAH sur le plan principal.

Parangon : Individu le plus représentatif de son groupe ; c’est celui dont le point associé est le plus proche du centre de gravité du groupe.

Caractère dominant : Pour chaque groupeg, le caractère dominant est Xj_∗avecj∗= argmax

j∈{1,...,p}

|z_obs,(j,g)|,zobs,(j,g)= xj,g−xj

r

s²_j n_g

_n−n

g n−1

.

Le degré d’importance deXjdans la caractérisation degest obtenue avec la p-valeur : p-valeur=P(|Z| ≥ |z_obs,(j,g)|),Z∼ N(0,1).

Méthodes des centres mobiles (kmeans) :

◦ Point de départ : On souhaite faireqgroupes⇒on choisitq points appelés centres initiaux.

◦ Méthode : À chaque étape, on calcule les distances entre les individus et les centres (initiaux ou de gravité des groupes formés) et on formeqgroupes en fonction de la proximité des individus avec les centres.

Complément ; CAH avec caractères qualitatifs et indice de Jaccard : On dresse le TDC, on calcule : d∗(ωu, ωv) = 1− au,v

r−du,v

, oùrest le nombre total de modalités,au,vest le nombre de(1,1)auxuetv-ème lignes du TDC etdu,vest le nombre de(0,0)auxuetv-ème lignes du TDC, puis on fait une CAH avecd∗en guise de distance.

Classification supervisée

Contexte : On considère une population que l’on sait divisée en q groupes G1, . . . , Gq, en ignorant ce qui les caractérises. Pour n individus ω1, . . . , ωn, on a les valeurs de p caractères quantitatifs X1, . . . , Xp et d’un caractère qualitatif nominal Y égal au groupe d’appartenance. Ces valeurs constituent les données.

Objectif : À partir des données, on souhaite déterminer à quel groupe appartient vraisemblablement un nouvel individuω∗dont on sait qu’il vérifie(X1, . . . , Xp) = (x1, . . . , xp) =x.

Méthode deskplus proches voisins : On identifie leskindividus qui ressemblent le plus àω∗. On affecteω∗au groupe auquel la majorité de ces individus appartiennent.

Analyse discriminante : Pour tout k∈ {1, . . . , q}, on suppose que la loi de (X1, . . . , Xp)sachant{Y =Gk} estNp(µk,Σk). En utilisant la règle de Bayes, on peut montrer que la probabilité queω∗appartienne au groupeGkestpG_k(x) = rkφ(x, µk,Σk)

f(x, µ,Σ, r) , oùrk=P(Y ∈Gk), f(x, µ,Σ, r) =

q

P

k=1

rkφ(x, µk,Σk)etφ(x, µk,Σk)est une densité as- sociée à Np(µk,Σk). On estime ponctuellement les paramètres inconnus r_k,µ_k etΣ_k. On remplace les paramètres par leurs estimations dans l’expression de pG_k(x) pour avoir la probabilité estimée p^∗_G

k(x). Le groupe auquelω∗a le plus chances d’appartenir estGk∗

aveck∗= argmax

k∈{1,...,q}

p^∗_G

k(x).

Modèle de régression logistique : On a deux groupes {G1, G2}. On suppose que la probabilité que ω∗ appartienne à G1 est p(x) =

exp(β0+β1x1+. . .+βpxp)

1 + exp(β0+β1x1+. . .+βpxp), oùβ0,β1, . . . ,βpdésignent des coefficients inconnus. On estime ponctuellement ces coefficients. On remplace les paramètres par leurs estimations dans l’expression de p(x) pour avoir la probabilité estimée p^∗(x). Sip^∗(x) > 0.5, ω∗ a plus chances d’appartenir àG1.

∼ Mémo Classification ∼

∼ Mémo Classification ∼

Christophe Chesneau Mémo Classification