∼ Mémo Classification ∼
Types de classification
◦ Non-supervisée : On souhaite regrouper des individus ayant des caractéristiques communes.
◦ Supervisée : Les groupes sont déjà formés ; on souhaite déter- miner à quel groupe appartient vraisemblablement un individu dont on connaît certaines caractéristiques.
Idée : "Qui se ressemble s’assemble" "L’ami de mon ami est mon ami".
Classification non-supervisée
Contexte : Pournindividusω1, . . . , ωn, on a les valeurs depcaractères quantitatifsX1, . . . , Xp. Celles associées àωisont notéesx1,i, . . . , xp,i. Elles constituent les données.
Objectif : À partir des données, on souhaite regrouper les individus qui se ressemblent quant àX1, . . . , Xp.
Matrice de données : Matrice ànlignes etpcolonnes avec pouri-ème ligne :(x1,i, . . . , xp,i).
Nuage de points : Ensemble des points {m1, . . . , mn} où mi est le point associé àωide coordonnées(x1,i, . . . , xp,i)dansRp.
Ressemblance : Des individus se ressemblent ssi les points associés sont proches les uns des autres.
Distance entreωuetωv:d(ωu, ωv) = s p
P
j=1
(xj,u−xj,v)2. Plusd(ωu, ωv)est petite, plusωuetωvse ressemblent.
Écarts entre deux élémentsAetB/Méthodes de regroupement :
◦ Écart simple/Méthode du plus proche voisin : e(A, B) = min
(ω,ω∗)∈A×Bd(ω, ω∗).
◦ Écart complet/Méthode du voisin le plus éloigné : e(A, B) = max
(ω,ω∗)∈A×Bd(ω, ω∗).
◦ Écart moyen/Méthode de la distance moyenne : e(A, B) = 1
nAnB
P
ω∈A
P
ω∗∈B
d(ω, ω∗).
◦ Écart de Ward : e(A, B) = nAnB
nA+nB
d2(gA, gB), oùnA est le nombre d’individus dans Aet gA est le centre de gravité de coordonnées(x1,A, . . . , xp,A).
Tableau des écarts : Tableau donnant les écarts de tous les éléments considérés : individu/individu, individu/groupe ou groupe/groupe.
Algorithme de classification ascendante hiérarchique (CAH) :
◦ Point de départ : On choisit un écart.
◦ Méthode : À chaque étape, on calcule le tableau des écarts, on identifie le plus petit et on regroupe les éléments associés.
Dendrogramme : Arbre qui permet la visualisation des groupes for- més. Les branches indiquent les différents niveaux de regroupement.
Une coupure au milieu d’une branche propose des regroupements.
Inerties : Itot=1 n
p
P
j=1 n
P
i=1
(xj,i−xj)2,P= (N`)`∈{1,...,h},
Iinter(P) = 1 n
p
P
j=1 h
P
`=1
P
i∈N`
(xj,`−xj)2,Iintra(P) =Itot− Iinter(P).
Sur l’écart de Ward : L’écart de Ward e(A, B) mesure la perte de Iinterlors du regroupement deAetB.
CAH avec écart de Ward : À chaque étape, on souhaite regrouper des éléments dont le regroupement provoque une perte minimale deIinter. Coefficient d’agglomération : AC= 1
n
n
P
i=1
1−e(ωi, Ai) e(Q, R)
, oùAiest le1-er élément avec lequelωia été regroupé,QetRsont les2derniers éléments.
On aAC∈]0,1[.ACproche de1⇒forte structure de groupes.
CAH avec ACP : On fait une ACP puis une CAH sur le plan principal.
Parangon : Individu le plus représentatif de son groupe ; c’est celui dont le point associé est le plus proche du centre de gravité du groupe.
Caractère dominant : Pour chaque groupeg, le caractère dominant est Xj∗avecj∗= argmax
j∈{1,...,p}
|zobs,(j,g)|,zobs,(j,g)= xj,g−xj
r
s2j ng
n−n
g n−1
.
Le degré d’importance deXjdans la caractérisation degest obtenue avec la p-valeur : p-valeur=P(|Z| ≥ |zobs,(j,g)|),Z∼ N(0,1).
Méthodes des centres mobiles (kmeans) :
◦ Point de départ : On souhaite faireqgroupes⇒on choisitq points appelés centres initiaux.
◦ Méthode : À chaque étape, on calcule les distances entre les in- dividus et les centres (initiaux ou de gravité des groupes formés) et on formeqgroupes en fonction de la proximité des individus avec les centres.
Complément ; CAH avec caractères qualitatifs et indice de Jaccard : On dresse le TDC, on calcule : d∗(ωu, ωv) = 1− au,v
r−du,v
, oùrest le nombre total de modalités,au,vest le nombre de(1,1)auxuetv-ème lignes du TDC etdu,vest le nombre de(0,0)auxuetv-ème lignes du TDC, puis on fait une CAH avecd∗en guise de distance.
Classification supervisée
Contexte : On considère une population que l’on sait divisée en q groupes G1, . . . , Gq, en ignorant ce qui les caractérises. Pour n individus ω1, . . . , ωn, on a les valeurs de p caractères quantitatifs X1, . . . , Xp et d’un caractère qualitatif nominal Y égal au groupe d’appartenance. Ces valeurs constituent les données.
Objectif : À partir des données, on souhaite déterminer à quel groupe appartient vraisemblablement un nouvel individuω∗dont on sait qu’il vérifie(X1, . . . , Xp) = (x1, . . . , xp) =x.
Méthode deskplus proches voisins : On identifie leskindividus qui ressemblent le plus àω∗. On affecteω∗au groupe auquel la majorité de ces individus appartiennent.
Analyse discriminante : Pour tout k∈ {1, . . . , q}, on suppose que la loi de (X1, . . . , Xp)sachant{Y =Gk} estNp(µk,Σk). En utilisant la règle de Bayes, on peut montrer que la probabilité queω∗apparti- enne au groupeGkestpGk(x) = rkφ(x, µk,Σk)
f(x, µ,Σ, r) , oùrk=P(Y ∈Gk), f(x, µ,Σ, r) =
q
P
k=1
rkφ(x, µk,Σk)etφ(x, µk,Σk)est une densité as- sociée à Np(µk,Σk). On estime ponctuellement les paramètres in- connus rk,µk etΣk. On remplace les paramètres par leurs estima- tions dans l’expression de pGk(x) pour avoir la probabilité estimée p∗G
k(x). Le groupe auquelω∗a le plus chances d’appartenir estGk∗
aveck∗= argmax
k∈{1,...,q}
p∗G
k(x).
Modèle de régression logistique : On a deux groupes {G1, G2}. On suppose que la probabilité que ω∗ appartienne à G1 est p(x) =
exp(β0+β1x1+. . .+βpxp)
1 + exp(β0+β1x1+. . .+βpxp), oùβ0,β1, . . . ,βpdésignent des co- efficients inconnus. On estime ponctuellement ces coefficients. On rem- place les paramètres par leurs estimations dans l’expression de p(x) pour avoir la probabilité estimée p∗(x). Sip∗(x) > 0.5, ω∗ a plus chances d’appartenir àG1.