La classification automatique de donn´ ees quantitatives
1 Introduction
Parmi les m´ ethodes de statistique exploratoire multidimensionnelle, dont l’objectif est d’extraire d’une masse de donn´ ees des ” informations utiles ”, on distingue les m´ ethodes d’analyse factorielle des m´ ethodes de classification automatique. L’objectif des m´ ethodes d’AF est entre autre la visualisation des donn´ ees, la r´ eduction du nombre de variables.
L’objectif de la classification automatique est de former des groupes d’individus ou de variables afin de structurer un ensemble de donn´ ees. On cherche souvent des groupes homog` enes c’est ` a dire que les objets sont ressemblant ` a l’int´ erieur d’un mˆ eme groupe.
Les m´ ethodes de classification se distinguent entre autre par la structure de classification obtenue (partition, recouvrement, hi´ erarchie, pyramide).
Ces techniques peuvent ˆ etre utilis´ ees dans de nombreux domaines comme :
– le domaine m´ edicale : regrouper des patients afin de d´ efinir une th´ erapeutique adapt´ ee
`
a un type particulier de malades
– le domaine du marketing, afin de d´ efinir un groupe cible d’individus pour une cam- pagne publicitaire. On parle alors souvent de segmentation ` a ne pas confondre avec la segmentation qui est une m´ ethode de discrimination par arbre.
En anglais, le terme d´ esignant les m´ ethodes de classification automatique est Clustering.
En biologie on parle souvent de Taxonomie et en Intelligence Artificielle on parle d’Ap- prentissage non supervis´ e. Il ne faut pas confondre les m´ ethodes de classification avec les m´ ethodes explicatives de discrimination dont l’objectif est d’expliquer une partition connue ` a priori, c’est ` a dire d’expliquer une variable qualitative dont chaque modalit´ e d´ ecrit une classe de la partition, par un ensemble de variables de type quelconque (et non pas d’expliquer une variable qualitative comme en r´ egression). En anglais le terme d´ esignant les m´ ethodes de discrimination est Classification et en I.A. on parle d’Ap- prentissage supervis´ e ou encore de Reconnaissance des formes (Pattern Recognition).
Aujourd’hui le Data Mining (synonymes : Fouille de donn´ ees, extraction de connaissance, KDD) et un champs d’application ` a l’interface de la statistique et des technologies de l’information (bases de donn´ ees, I.A., apprentissage). On d´ efinie parfois le Data Mining comme l’extraction de connaissances de grandes bases de donn´ ees. Le Data Mining uti- lise donc souvent les m´ ethodes d’A.D. comme les m´ ethodes de classification, d’analyse discriminante.
Avant de pouvoir appliquer une m´ ethode d’A.D. et en particulier l’analyse factorielle ou la classification, il faut g´ en´ eralement d´ efinir :
– le tableau de donn´ ees et en particulier l’homog´ en´ eiser lorsque les variables sont de
type diff´ erent. Les m´ ethodes classiques s’appliquent en g´ en´ eral sur des donn´ ees toutes
quantitatives ou toutes qualitatives.
– une mesure de ressemblance (distance, similarit´ e, dissimilarit´ e) entre individus (lignes) ou variables (colonnes) du tableau
Dans ce cours, on pr´ esente des m´ ethodes classiques de classification automatiques d’individus (objets) d´ ecrits dans un tableau de donn´ ees quantitatives. On reprend donc les notations et le vocabulaire qui ont ´ et´ e d´ ej` a utilis´ es dans le cours sur l’ACP.
1.1 Tableau de donn´ ees quantitatives
On consid` ere un ensemble Ω = {1, ..., i, ..., n} de n individus d´ ecrits par p variables X
1, . . . , X
pdans une matrice X de n lignes et p colonnes :
1 · · · j · · · p
X = (x
ij)
n×p= 1
.. . i .. . n
· .. .
· · · x
ij∈ R · · · .. .
·
.
Un individu i ∈ Ω est donc d´ ecrit par un vecteur x
i∈ R
p(ligne i de X). Un poids w
iest associ´ e ` a chaque individu i. Pour des donn´ ees r´ esultant d’un tirage al´ eatoire avec probabilit´ e uniforme, on a g´ en´ eralement w
i= 1/n pour tout i. Mais il peut ˆ etre utile pour certaines applications de travailler avec des poids non uniformes (´ echantillons redress´ es, donn´ ees aggr´ eg´ ees).
On dispose donc, comme en ACP, d’un nuage pond´ er´ es de n points-individus de R
p. 1.2 Mesure de ressemblance
Une mesure de ressemblance entre individus peut ˆ etre une similarit´ e, une dissimilarit´ e ou une distance.
D´ efinition 1 Un indice de similarit´ e s : Ω × Ω → <
+est tel que ∀i, i
0∈ Ω on a :
s(i, i
0) ≥ 0 (1)
s(i, i
0) = s(i
0, i)
s(i, i) = s(i
0, i
0) = smax ≥ s(i, i
0) Si smax=1, alors s est une similarit´ e normalis´ ee.
D´ efinition 2 Un indice de dissimilarit´ e (une dissimilarit´ e) d : Ω × Ω → <
+est tel que
∀i, i
0∈ Ω on a :
d(i, i
0) ≥ 0 (2)
d(i, i
0) = s(i
0, i) d(i, i) = 0
D´ efinition 3 Une distance est une dissimilarit´ e qui v´ erifie en plus l’in´ egalit´ e triangu-
laire : ∀i, i
0, k ∈ Ω on a d(i, i) ≤ d(i, k) + d(k, i
0).
Remarque : Il est facile de transformer un indice de similarit´ e s en un indice de dissi- milarit´ e d. Il suffit de poser :
d(i, i
0) = smax − s(i, i
0)
La mesure de ressemblance utilis´ ee varie en fonction du type des donn´ ees c’est ` a dire du type des variables : tableau quantitative, qualitatif, ou mixte (qui doit alors ˆ etre recod´ e).
Lorsque les donn´ ees sont quantitatives les distances classiques sont :
• Les distances d´ efinies par :
d
2(x
i, x
i0) = (x
i− x
i0)
tM (x
i− x
i0) et
– si M = I, d est la distance euclidienne simple,
– si M = D
1/s2(matrice diagonale des inverses des variances empiriques des p variables) on se ram` ene ` a une distance euclidienne simple entre variables r´ eduites (ji` eme colonne divis´ ee par l’´ ecart-type empirique s
j). On parle de distance euclidienne normalis´ ee par l’inverse de la variance,
– si M = V
−1, d est la distance de Mahalanobis.
• La distance de city-block ou de Manhattan : d(i, i
0) = X
j=1,...,p
| x
ij− x
i0j|
• La distance de Chebychev, ou distance du max : d(i, i
0) = max
j=1,...,p
| x
ij− x
i0j|
En g´ en´ eral, on utilise la distance euclidienne lorsque tous les param` etres ont une va- riance ´ equivalente. En effet, si une variable a une variance bien plus forte, la distance euclidienne simple va accorder beaucoup plus d’importance ` a la diff´ erence entre les deux individus sur cette variable qu’` a la diff´ erence entre les deux individus sur les autres va- riables. Il est pr´ ef´ erable dans ce cas d’utiliser la distance euclidienne normalis´ ee par l’inverse de la variance, afin de donner la mˆ eme importance ` a toutes les variables. Cela revient ` a r´ eduire tous les variables (les diviser par leur ´ ecart-type) et ` a calculer ensuite la distance euclidienne simple.
1.3 Les espaces de classification
Les espaces de classification classique sont les partitions et les hi´ erarchies.
D´ efinition 4 Une partition P en K classes de Ω est un ensemble (C
1, . . . , C
k, . . . , C
K) de classes non vides, d’intersections vides deux ` a deux et dont le r´ eunion forme Ω : – ∀k ∈ {1, . . . K}, C
k6= ∅
– ∀k, k
0∈ {1, . . . K} C
k∩ C
k0= ∅ – ∪
k=1,...,K, C
k= Ω
Par exemple, si Ω = {1, . . . , 7} est un ensemble de 7 points du plan, P
3= (C
1, C
2, C
3)avec
C1 = {7}, C
2= {5, 4, 6} et C
3= {1, 2, 3} est une partition en trois classes de Ω.
D´ efinition 5 Une hi´ erarchie H de Ω est un ensemble de classes non vides (appell´ es paliers) qui v´ erifient :
– Ω ∈ H
– ∀i ∈ Ω, {i} ∈ H (la hi´ erarchie contient tous les singletons)
– ∀A, B ∈ H, A ∩ B ∈ {A, B, ∅} (deux classes de la hi´ erarchie sont soit disjointes soit contenues l’une dans l’autre)
Par exemple, H = {{1}, . . . , {7}, {4, 5}, {2, 3}, {4, 5, 6}, {1, 2, 3}, {4, 5, 6, 7}, Ω} est une hi´ erarchie de Ω = {1, . . . , 7}. Les classes de la hi´ erarchie une fois indic´ ee sont repr´ esent´ ees dans un arbre appell´ e arbre hi´ erarchique. Si l’on coupe un arbre hi´ erarchique par une suite de lignes horizontales, on obtient une suite de partitions emboˆıt´ ees.
2 M´ ethodes de partitionnement
Etant donn´ e un ensemble Ω d’individus, la structure classificatoire recherch´ ee est la par- tition. Si on d´ efinit un crit` ere de qualit´ e W sur une partition P = (C
1, . . . , C
k, . . . , C
K) mesurant g´ en´ eralement l’homog´ en´ eit´ e des classes, le probl` eme de classification est un probl` eme d’optimisation parfaitement d´ efinit :
Trouver, parmi l’ensemble P
K(Ω) de toutes les partitions possibles en K classes de Ω, la partition qui optimise le crit` ere W : P
K(Ω) → R
+Comme Ω est fini,P
K(Ω) est fini et le probl` eme d’optimisation est soluble par ´ enum´ eration comp` ete. En fait, d` es que le nombre d’individus n de Ω est assez grand, on a approxima- tivement card(P
K(Ω)) ∼
KK!n. L’´ enum´ eration compl` ete de toutes les solutions possibles est donc irr´ ealisable en pratique d` es que n devient grand.
En pratique, on applique souvent un algorithme it´ eratif du type : – On part d’une solution r´ ealisable c’est ` a dire d’une partition P
0– A l’´ etape m+1, on cherche une partition P
m+1= g(P
m) telle que W (P
m+1) ≤ W (P
m)
Le crit` ere W mesurant l’homog´ en´ eit´ e des classes (la qualit´ e de la partition) est sou- vent l’inertie intra-classe de la partition et l’algorithme it´ eratif utilis´ e pour minimiser (localement) ce crit` ere est l’algorithme des centres mobiles (k-means).
2.1 Inerties d’un nuage de points pond´ er´ es
On consid` ere le nuage des n points de Ω = {1, ..., i, ..., n} pond´ er´ es par w
iet d´ ecrit par un vecteur x
i∈ R
p. On note :
µ
k= X
i∈Ck
w
ipoids de C
kg
k= 1
µ
kX
i∈Ck
w
ix
icentre de gravit´ e de C
kd
M(x
i, x
i0) =
t(x
i− x
i0)M(x
i− x
i0) o` u M est une matrice sym´ etrique d´ efinie positive
D´ efinition 6 L’inertie I
adu nuage des n individus par rapport ` a un point a ∈ R
pest
I
a=
n
X
i=1
w
id
2M(x
i, a) (3)
D´ efinition 7 L’inertie totale T du nuage des n individus est T =
n
X
i=1
w
id
2M(x
i, g) (4)
et g est le centre de gravit´ e du nuage. L’inertie totale est ind´ ependante de la partition D´ efinition 8 L’inertie inter-classe B de la partition P est
B =
K
X
k=1
µ
kd
2M(g
k, g) (5)
B est donc l’inertie du nuage des centres de gravit´ e des K classes, munis des moids µ
kD´ efinition 9 L’inertie intra-classe W de la partition P est
W =
K
X
k=1
I(C
k) (6)
et
I (C
k) = X
i∈Ck
w
id
2M(x
i, g
k) (7) Remarque 1 En g´ en´ eral avec M = I, on choisit :
- w
i=
n1, on parle alors de variance intra et inter-classe
- w
i= 1,on parle alors de somme des carr´ es intra et inter-classe
Remarque 2 Lorsque w
i=
n1et M = I, l’inertie totale T est ´ egale ` a la somme des variances des p variables. Si le tableau est r´ eduit, alors T = p
Remarque 3 Les inerties calcul´ ees sur le tableau centr´ ee-r´ eduit sont ´ egales aux inerties calcul´ ees avec la distance euclidienne simple sur le tableau des p composantes factorielles de l’ACP.
D´ efinition 10 Le pourcentage d’inertie expliqu´ ee d’une partition P est : (1 − W
T ) × 100 (8)
Ce crit` ere varie entre zero et cent. Il vaut cent pour la partition en n classes des single- tons, et zero pour la partition r´ eduite ` a une classe Ω. Le pourcentage d’inertie expliqu´ ee augmentant avec le nombre de classe, il ne permet donc que de comparer deux partitions ayant le mˆ eme nombre de classes. Si le pourcentage d’inertie expliqu´ ee d’une partition est sup´ erieur au pourcentage d’inertie expliqu´ ee d’une autre partition ayant le mˆ eme nombre de classe, on consid´ erera que la premi` ere partition est meilleure que la seconde, au sens du crit` ere d’inertie.
Proposition 1 On a la relation fondamentale suivante :
T = W + B (9)
On en d´ eduit que minimiser l’inertie intra-classe c’est ` a dire l’homog´ en´ eit´ e des classes
est ´ equivalent ` a maximiser l’inertie inter-classe, c’est ` a dire la s´ eparation entre les
classes. Cette relation se d´ eduit du th´ eor` eme de Huygens (voir la d´ emonstration section
4.1)
Proposition 2 L’inertie d’une classe C
ks’´ ecrit ´ egalement ind´ ependamment du centre de gravit´ e, en ne faisant intervenir que les distances des individus deux ` a deux :
I(C
k) = X
i∈Ck
p
id
2(x
i, g
k) = X
i∈Ck
X
i0∈Ck
p
ip
i02µ
kd
2(x
i, x
i0) (10) Cette ´ egalit´ e se d´ eduit du th´ eor` eme de Koenig-Huygens et de la d´ efinition de l’inertie par rapport ` a un point (voir la d´ emonstration section 4.2 )
Proposition 3 Une relation importante est :
I(C
1∪ C
2) = I (C
1) + I (C
2) + (µ
1µ
2)
(µ
1+ µ
2) d
2(g
1, g
2) (11) (voir la d´ emonstration section 4.3 )
2.2 Algorithme des centres mobiles
L’algorithme des centres mobiles est un cas particulier de l’algorithme des Nu´ ees dyna- miques qui part d’une partition intitiale et it` ere :
- une ´ etape de repr´ esentation qui consiste ` a d´ efinir un centroide pour chaque classe, ici le centre de gravit´ e
- une ´ etape d’affectation o` u l’on affecte chaque individu ` a la classe dont le centroide est le plus proche, ici au sens de la distance euclidienne.
Plus pr´ ecis´ ement, l’algorithme des centres mobiles est le suivant : (a) Initialisation
On se donne une partition P = (C
1, . . . , C
k, . . . , C
K) et on calcul g
1, . . . , g
k(b) Etape d’affectation
test ← 0
Pour tout i de 1 ` a n faire
d´ eterminer la classe k∗ telle que
k∗ = arg min
k=1,...,K
d(i, g
k) d´ eterminer la classe l de i
si k∗ 6= l test ← 1 C
k← C
k∪ {i}
C
l← C
l\{i}
(c) Etape de repr´ esentation
Pour tout k de 1 ` a K calculer le centre de gravit´ e de la nouvelle classe C
k(d) Si test = 0 FIN, sinon aller en (b)
Proposition 4 Cette algorithme converge vers une partition r´ ealisant un minimum local de l’inertie intra-classe (voir la d´ emonstration section 4.4).
Remarque 4 Souvent, l’´ etape d’initialisation consiste ` a prendre K individus comme centres initiaux, la partition initiale ´ etant obtenue par affectation des individus au centre le plus proche. Ces K individus peuvent ˆ etre (entre autre) :
– les K premiers individus dans le tableaux,
– K individus tir´ es au hasard,
**
**
*
*
*
*
*
*
**
**
*
*
*
*
*
*
**
**
*
*
*
*
*
*
**
**
*
*
*
*
*
*
**
**
*
*
*
*
*
*
**
**
*
*
*
*
*
* Affectation aux centres les plus proches
Calcul des centres de gravité Affectation nouvelle partition
Calcul des centres de gravité Affectation et arrêt de l’algorithme Tirage au hasard des centres
Fig. 1 – Exemple de d´ eroulement de l’algorithme des centres mobiles – K individus ´ eloign´ es (en terme de distance) les uns des autres.
Bien sˆ ure, la partition finale obtenue apr` es convergence de l’algorithme (ou apr` es un nombre fini d’it´ erations) d´ epend de la partition initiale et donc des centres initiaux.
Le minimum local de W trouv´ e d´ epend en effet du ”point” de d´ epart et donc de la partition initiale. En pratique, on peut r´ ep´ eter N fois l’algorithme en tirant ` a chaque fois K individus au hasard comme centres initiaux. On retient alors la partition finale qui a la pourcentage d’inertie expliqu´ e le plus grand (qui donne la plus petite valeur de l’inertia intra-classe W ). C’est possible car la complexit´ e de l’algorithme des centres mobiles est o(KpnT) o` u T est le nombre d’it´ erations. L’algorithme va donc “fonctionner”
avec beaucoup d’individus et peut donc ˆ etre r´ ep´ et´ e sans que cela “coˆ ute trop cher”.
3 Les m´ ethodes de classification hi´ erarchiques
La structure classificatoire recherch´ ee est maintenant la hi´ erarchie. On a vu qu’une hi´ erarchie H de Ω est un ensemble de classes de Ω appell´ es paliers comprenant les singletons (classes r´ eduites ` a un ´ el´ ement), l’ensemble Ω, et des classes dont l’intersection est soit vide,soit l’une ou l’autre des classes.
D´ efinition 11 Une hi´ erarchie binaire est une hi´ erarchie dont chaque palier est la r´ eunion de deux paliers. Le nombre de paliers non singletons d’une hi´ erarchie binaire vaut n− 1.
Cette d´ efinition d’une hi´ erarchie est ensembliste. Maintenant, pour pourvoir repr´ esenter
une hi´ erarchie par un graphique, il faut pouvoir valuer ses paliers c’est ` a dire leur
attribuer une hauteur.
7 3 2 1 4 5 6 A
B C
D E F h
h(C)
Fig. 2 – Exemple de dendogramme d’une hi´ erarchie indic´ ee
1 2 3 4 5 1 2 3 4 5
Fig. 3 – Deux formats possibles d’un dendogramme
D´ efinition 12 Une hi´ erarchie indic´ ee est un couple (H, h) o` u H est une hi´ erarchie et h est une application de H dans <
+telle que :
∀A ∈ H, h(A) = 0 ⇔ A est un singleton
∀A, B ∈ H, A 6= B, A ⊂ B ⇒ h(A) ≤ h(B ) (12) Le graphique repr´ esentant une hi´ erarchie indic´ ee est appel´ e un dendogramme ou arbre hi´ erarchique.
Remarque 5 Une hi´ erarchie indic´ ee d´ efinie une suite de partitions emboˆıt´ ees de 2
`
a n classes. Elles sont obtenues en coupant l’arbre hi´ erarchique suivant une suite de lignes horizontales. De plus, la condition 12 v´ erifi´ ee par l’indice h assure qu’il n’y a pas d’inversions dans la repr´ esentation de la hi´ erarchie, c’est ` a dire que si C = A ∪ B le palier C est bien repr´ esent´ e plus haut que les paliers A et B .
Il existe plusieurs formats possibles pour repr´ esenter un dendogramme (figure 3) et surtout de nombreuses repr´ esentations ´ equivalentes d’une mˆ eme hi´ erarchie indic´ ee. En effet on peut facilement permuter l’ordre dans lequel sont repr´ esent´ es les individus (voir figure 4). Si n est le nombre d’individus de Ω, il y a 2
n−1repr´ esentations possibles
´ equivalentes d’une hi´ erarchie indic´ ee par un arbre binaire.
Remarque 6 Il existe d’autres modes de repr´ esentation d’une hi´ erarchie que le dendo-
gramme permettant, lorsque le nombre d’individu est grand, et le dendogramme diffici-
lement lisible, de trouver rapidement la classe d’un individu. Par exemple le stalactite
(icicle plot) du tableau 1 correspond ` a la hi´ erarchie des figures 3 et 4. A chaque niveau,
1 2 3 4 5 5 4 3 2 1
Fig. 4 – Deux repr´ esentations ´ equivalentes d’une hi´ erarchie indic´ ee
les objets dans une mˆ eme classe sont li´ es par le signe ´ egal. On lit ainsi que la premi` ere classe cr´ ee est la classe {1, 2} puis la classe {4, 5} etc...
1 = 2 = 3 = 4 = 5
1 = 2 = 3 4 = 5
1 = 2 4 = 5
1 = 2
Tab. 1 – Exemple de stalactite horizontal Il existe deux strat´ egies de construction d’une hi´ erarchie indic´ ee :
– on construit la hi´ erarchie en partant du bas de l’arbre (des singletons) et on agr` ege, deux par deux les classes les plus proches, et ce jusqu’` a l’obtention d’une seule classe.
On parle de classification ascendante hi´ erarchique (C.A.H.).
– on construit la hi´ erarchie ` a partir du haut de l’arbre en proc´ edant par divisions succ´ essives de l’ensemble Ω jusqu’` a obtenir des classes r´ eduites ` a un ´ el´ ement, ou des classes ne contenant que des individus indentiques. On parle de classification divisive ou classification descendante hi´ erarchique.
La premi` ere strat´ egie ´ etant la plus utilis´ ee et la plus pr´ esente dans la litt´ erature, c’est celle que nous pr´ esenterons ici.
3.1 Algorithme g´ en´ eral de C.A.H.
L’algorithme g´ en´ eral est le suivant : (a) Initialisation
On part de la partition la plus fine, c’est ` a dire la partition des singletons P = (C
1, . . . , C
n) avec C
k= {k}
(b) ´ etape agr´ egative
On a part de la partition P = (C
1, . . . , C
K) en K classes obtenue ` a l’´ etape pr´ ec´ edente et on agr` ege les deux classes C
ket C
k0qui minimisent une mesure d’agr´ egation D(C
k, C
k0).
On construit ainsi une nouvelle partition en K − 1 classes. En cas d’´ egalit´ e, on choisit la premi` ere solution rencontr´ ee. La hi´ erarchie obtenue est donc toujours binaire.
(c) On recommence l’´ etape (b) jusqu’` a obtenir la partition la plus grossi` ere c’est ` a dire la partition en une seule classe Ω
Il faut donc choisir au pr´ ealable :
– la mesure d’agr´ egation D : P (Ω)× P(Ω) → <
+qui mesure la ressemblance entre deux classes,
– l’application h qui va indicer la hi´ erarchie.
3.2 Les mesures d’agr´ egations entre classes
Trois mesures d’agr´ egation classiques (il en existe d’autres) entre deux classes A et B de Ω, sont repr´ esent´ e figure 5. Ces mesures utilisent la distance ou la dissimilarit´ e d choisie pour comparer deux individus.
*
*
*
* *
*
* +
+ D
D D 2
3 1
Fig. 5 – Trois mesures classiques d’agr´ egation
D´ efinition 13 La mesure d’agr´ egation du lien minimum entre deux classes A et B est : D
1(A, B) = min
i∈A,i0∈B
d(i, i
0) (13)
La hi´ erarchie obtenue par C.A.H. avec cette mesure est la hi´ erarchie du lien minimum.
En anglais on parle de ”single linkage algorithm”.
D´ efinition 14 La mesure d’agr´ egation du lien maximum entre deux classes A et B est :
D
2(A, B) = max
i∈A,i0∈B
d(i, i
0) (14)
La hi´ erarchie obtenue par C.A.H. avec cette mesure est la hi´ erarchie du lien maximum.
En anglais on parle de ”complete linkage algorithm”.
D´ efinition 15 La mesure d’agr´ egation d’augmentation d’inertie ou mesure de Ward entre deux classes A et B est :
D
3(A, B) = µ
Aµ
Bµ
A+ µ
Bd
2(g
A, g
B) (15) o` u
µ
A= X
i∈A
w
ig
A= 1 µ
AX
i∈A
w
ix
iLa hi´ erarchie obtenue par C.A.H. avec cette mesure est la hi´ erarchie de Ward.
Remarque 7 Le hi´ erarchie de Ward ne peut donc ˆ etre construite qu’` a partir d’un ta-
bleau de donn´ ees quantitative tandis que les hi´ erarchies du lien min et du lien max
peuvent ˆ ete obtenue ` a partir d’un tableau de ressemblances et donc pour n’importe quel
type de donn´ ees.
3.3 D´ efinition de l’indice
La relation g´ en´ eralement utilis´ ee pour d´ efinir l’indice h une hi´ erarchie H construite par C.A.H. est :
∀A, B ∈ H, h(A ∪ B) = D(A, B) (16) Cependant, certaines mesures d’agr´ egation comme la distance euclidienne entre les centres de gravit´ es des classes, ne permettent pas de construire, grˆ ace ` a cette rela- tion, une hi´ erarchie indic´ ee. En effet, l’indice h d´ efinie par h(A ∪ B) = d(g
A, g
B) ne v´ erifie par la condition 12, et le dendogramme de cette hi´ erarchie peut poss´ eder des in- versions c’est ` a dire que deux paliers agr´ eg´ es avant deux autres peuvent ˆ etre repr´ esent´ es plus bas que ces derniers (voir figure 6). Lorsque les donn´ ees sont num´ eriques, on lui pr´ ef` ere donc la mesure d’agr´ egation de Ward. Mais pour ´ eviter ces inversions, on peut
´ egalement utiliser la relation suivante :
∀A, B ∈ H, h(A ∪ B ) = max(D(A, B), h(A), h(B)) (17)
6
7 3 2 1 4 5
Fig. 6 – Exemple d’inversion dans le dendrogramme d’une hi´ erarchie
4 Annexes
4.1 D´ emonstration du th´ eor` eme de Huygens et de la proposition 1 Th´ eor` eme 1 (Huygens) Si g = 1
P
n i=1p
ix
iest le centre de gravit´ e du nuage des n individus, on a :
∀a ∈ R
p, I
a= I
g+ (
n
X
i=1
p
i)d
2M(a, g)
D´ emonstration du th´ eor` eme de Huygens :
D’apr` es la d´ efinition 6 on a : I
a=
n
X
i=1
w
i||x
i− a||
2M=
n
X
i=1
w
i||x
i− g + g − a||
2M=
n
X
i=1
w
i||x
i− g||
2M+ 2
n
X
i=1
w
it(g − a)M ((x
i− g) +
n
X
i=1
w
i||g − a||
2M(car M est sym´ etrique)
= I
g+ (
n
X
i=1
w
i)d
2M(a, g) + 2
t(g − a)M
n
X
i=1
w
i(x
i− g) Or P
ni=1
w
i(x
i− g) = 0 d’o` u le r´ esultat.
D´ emonstration de la proposition 1 :
On consid` ere g
kle centre de gravit´ e de la classe C
k. D’apr` es le th´ eor` eme de Huygens, l’inertie du nuage des points de C
kpar rapport au centre de gravit´ e g s’´ ecrit :
I
g= I
gk+
µk
z }| { X
i∈Ck
w
id
2M(g, g
k) soit
X
i∈Ck
w
id
2M(x
i, g) = X
i∈Ck
w
id
2M(x
i, g
k) + µ
kd
2M(g, g
k) En sommant cette ´ egalit´ e pour k variant de 1 ` a K, on trouve T = W + B . 4.2 D´ emonstration de la proposition 2
On consid` ere g
kle centre de gravit´ e de la classe C
k. D’apr` es le th´ eor` eme de Huygens, l’inertie du nuage des points de C
kpar rapport ` a un point x
is’´ ecrit :
I
xi= I
gk+
µk
z }| { X
i∈Ck
w
id
2M(x
i, g
k)
En multipliant cette ´ egalit´ e par p
iet en sommant pour i dans C
kont trouve :
X
i∈Ck
w
iI
xi=
µk
z }| { X
i∈Ck
w
iI
gk+ µ
kIgk
z }| { X
i∈Ck
w
id
2M(x
i, g
k) En remplacant I
xipar sa valeur dans cette ´ egalit´ e on trouve :
X
i∈Ck
w
ip
i0d
2M(x
i, x
i0) = µ
kI
gk+ µ
kI
gket comme I
gk= I(C
k) on retrouve bien l’´ egalit´ e de la proposition 2 : I (C
k) = X
i∈Ck
w
id
2(i, g
k) = X
i∈Ck
X
i0∈Ck
w
iw
i02µ
kd
2(x
i, x
i0)
4.3 D´ emonstration de la proposition 3
Si on consid` ere le nuage de points C
1∪ C
2et la partition P = (C
1, C
2) de ce nuage, on a T = I (C
1∪ C
2), W = I(C
1) + I (C
2) et B = µ
1d
2M(g
1, g) + µ
2d
2M(g
2, g). En appliquant la relation fondamentale T = B + W on trouve :
I(C
1∪ C
2) = I (C
1) + I (C
2) + µ
1d
2M(g
1, g) + µ
2d
2M(g
2, g)
Puis on applique la proposition 2 au nuage des deux centres de gravit´ es g
1et g
2munis des poids µ
1et µ
2et de centre de gravit´ e g :
µ
1d
2M(g
1, g) + µ
2d
2M(g
2, g) = µ
1µ
22(µ
1+ µ
2) d
2M(g
1, g
2) + µ
2µ
12(µ
2+ µ
1) d
2M(g
2, g
1) On retrouve donc bien :
I (C
1∪ C
2) = I (C
1) + I (C
2) + µ
1µ
2µ
1+ µ
2d
2M(g
1, g
2) 4.4 D´ emonstration de la proposition 4
A l’´ etape m on a
g
m= (g
1m, . . . , g
Km) P
m= (C
1m, . . . , C
Km)
o` u g
mest le vecteur des centres de gravit´ es des classes C
km−1et C
kmest la classes des individus plus proches de g
mkque des autres centres. L’inertie intra-classe de la partition P
mest :
W (P
m) =
K
X
k=1
X
i∈Cmk
d
2(i, g
km+1) On d´ efinit :
v
m=
K
X
k=1
X
i∈Ckm
d
2(i, g
km)
v
m+1=
K
X
k=1
X
i∈Ckm+1
d
2(i, g
km+1) et on montre que ∀m
v
m+1≤ W (P
m) ≤ v
m(18)
On montre d’abord que W (P
m) ≤ v
m. En effet, par d´ efinition, si g
km+1est le centre de gravit´ e de la classe C
km, alors
X
i∈Ckm
d
2(i, g
km+1) ≤ X
i∈Ckm
d
2(i, g
mk) Donc en sommant sur k, on a bien
W(Pm)
z }| {
K
X
k=1
X
i∈Ckm
d
2(i, g
km+1) ≤
vm
z }| {
K
X
k=1
X
i∈Ckm
d
2(i, g
km)
On montre ensuite que v
m+1≤ W (P
m). En effet, on a toujours par construction des classes C
km+1∀i ∈ C
km+1, d
2(i, g
km+1) ≤ d
2(i, g
km) Donc en sommant sur i puis sur k, on a
vm+1
z }| {
K
X
k=1
X
i∈Ckm+1
d
2(i, g
m+1k) ≤
W(Pm)
z }| {
K
X
k=1
X
i∈Ckm