La classiﬁcation automatique de donn´ees quantitatives

(1)

La classification automatique de donn´ ees quantitatives

1 Introduction

Parmi les m´ ethodes de statistique exploratoire multidimensionnelle, dont l’objectif est d’extraire d’une masse de donn´ ees des ” informations utiles ”, on distingue les m´ ethodes d’analyse factorielle des m´ ethodes de classification automatique. L’objectif des m´ ethodes d’AF est entre autre la visualisation des donn´ ees, la r´ eduction du nombre de variables.

L’objectif de la classification automatique est de former des groupes d’individus ou de variables afin de structurer un ensemble de donn´ ees. On cherche souvent des groupes homog` enes c’est ` a dire que les objets sont ressemblant ` a l’int´ erieur d’un mˆ eme groupe.

Les m´ ethodes de classification se distinguent entre autre par la structure de classification obtenue (partition, recouvrement, hi´ erarchie, pyramide).

Ces techniques peuvent ˆ etre utilis´ ees dans de nombreux domaines comme :

– le domaine m´ edicale : regrouper des patients afin de d´ efinir une th´ erapeutique adapt´ ee

`

a un type particulier de malades

– le domaine du marketing, afin de d´ efinir un groupe cible d’individus pour une cam- pagne publicitaire. On parle alors souvent de segmentation ` a ne pas confondre avec la segmentation qui est une m´ ethode de discrimination par arbre.

En anglais, le terme d´ esignant les m´ ethodes de classification automatique est Clustering.

En biologie on parle souvent de Taxonomie et en Intelligence Artificielle on parle d’Ap- prentissage non supervis´ e. Il ne faut pas confondre les m´ ethodes de classification avec les m´ ethodes explicatives de discrimination dont l’objectif est d’expliquer une partition connue ` a priori, c’est ` a dire d’expliquer une variable qualitative dont chaque modalit´ e d´ ecrit une classe de la partition, par un ensemble de variables de type quelconque (et non pas d’expliquer une variable qualitative comme en r´ egression). En anglais le terme d´ esignant les m´ ethodes de discrimination est Classification et en I.A. on parle d’Ap- prentissage supervis´ e ou encore de Reconnaissance des formes (Pattern Recognition).

Aujourd’hui le Data Mining (synonymes : Fouille de donn´ ees, extraction de connaissance, KDD) et un champs d’application ` a l’interface de la statistique et des technologies de l’information (bases de donn´ ees, I.A., apprentissage). On d´ efinie parfois le Data Mining comme l’extraction de connaissances de grandes bases de donn´ ees. Le Data Mining utilise donc souvent les m´ ethodes d’A.D. comme les m´ ethodes de classification, d’analyse discriminante.

Avant de pouvoir appliquer une m´ ethode d’A.D. et en particulier l’analyse factorielle ou la classification, il faut g´ en´ eralement d´ efinir :

– le tableau de donn´ ees et en particulier l’homog´ en´ eiser lorsque les variables sont de

type diff´ erent. Les m´ ethodes classiques s’appliquent en g´ en´ eral sur des donn´ ees toutes

quantitatives ou toutes qualitatives.

(2)

– une mesure de ressemblance (distance, similarit´ e, dissimilarit´ e) entre individus (lignes) ou variables (colonnes) du tableau

Dans ce cours, on pr´ esente des m´ ethodes classiques de classification automatiques d’individus (objets) d´ ecrits dans un tableau de donn´ ees quantitatives. On reprend donc les notations et le vocabulaire qui ont ´ et´ e d´ ej` a utilis´ es dans le cours sur l’ACP.

1.1 Tableau de donn´ ees quantitatives

On consid` ere un ensemble Ω = {1, ..., i, ..., n} de n individus d´ ecrits par p variables X

¹

, . . . , X

^p

dans une matrice X de n lignes et p colonnes :

1 · · · j · · · p

X = (x

_ij

)

n×p

= 1

.. . i .. . n







· .. .

· · · x

_ij

∈ R · · · .. .

· 



 .

Un individu i ∈ Ω est donc d´ ecrit par un vecteur x

i

∈ R

^p

(ligne i de X). Un poids w

_i

est associ´ e ` a chaque individu i. Pour des donn´ ees r´ esultant d’un tirage al´ eatoire avec probabilit´ e uniforme, on a g´ en´ eralement w

_i

= 1/n pour tout i. Mais il peut ˆ etre utile pour certaines applications de travailler avec des poids non uniformes (´ echantillons redress´ es, donn´ ees aggr´ eg´ ees).

On dispose donc, comme en ACP, d’un nuage pond´ er´ es de n points-individus de R

^p

. 1.2 Mesure de ressemblance

Une mesure de ressemblance entre individus peut ˆ etre une similarit´ e, une dissimilarit´ e ou une distance.

D´ efinition 1 Un indice de similarit´ e s : Ω × Ω → <

⁺

est tel que ∀i, i

⁰

∈ Ω on a :

s(i, i

⁰

) ≥ 0 (1)

s(i, i

⁰

) = s(i

⁰

, i)

s(i, i) = s(i

⁰

, i

⁰

) = smax ≥ s(i, i

⁰

) Si smax=1, alors s est une similarit´ e normalis´ ee.

D´ efinition 2 Un indice de dissimilarit´ e (une dissimilarit´ e) d : Ω × Ω → <

⁺

est tel que

∀i, i

⁰

∈ Ω on a :

d(i, i

⁰

) ≥ 0 (2)

d(i, i

⁰

) = s(i

⁰

, i) d(i, i) = 0

D´ efinition 3 Une distance est une dissimilarit´ e qui v´ erifie en plus l’in´ egalit´ e triangu-

laire : ∀i, i

⁰

, k ∈ Ω on a d(i, i) ≤ d(i, k) + d(k, i

⁰

).

(3)

Remarque : Il est facile de transformer un indice de similarit´ e s en un indice de dissimilarit´ e d. Il suffit de poser :

d(i, i

⁰

) = smax − s(i, i

⁰

)

La mesure de ressemblance utilis´ ee varie en fonction du type des donn´ ees c’est ` a dire du type des variables : tableau quantitative, qualitatif, ou mixte (qui doit alors ˆ etre recod´ e).

Lorsque les donn´ ees sont quantitatives les distances classiques sont :

• Les distances d´ efinies par :

d

²

(x

_i

, x

_i⁰

) = (x

_i

− x

_i⁰

)

^t

M (x

_i

− x

_i⁰

) et

– si M = I, d est la distance euclidienne simple,

– si M = D

_1/s²

(matrice diagonale des inverses des variances empiriques des p variables) on se ram` ene ` a une distance euclidienne simple entre variables r´ eduites (ji` eme colonne divis´ ee par l’´ ecart-type empirique s

^j

). On parle de distance euclidienne normalis´ ee par l’inverse de la variance,

– si M = V

⁻¹

, d est la distance de Mahalanobis.

• La distance de city-block ou de Manhattan : d(i, i

⁰

) = X

j=1,...,p

| x

ij

− x

i⁰j

|

• La distance de Chebychev, ou distance du max : d(i, i

⁰

) = max

j=1,...,p

| x

_ij

− x

_i⁰_j

|

En g´ en´ eral, on utilise la distance euclidienne lorsque tous les param` etres ont une variance ´ equivalente. En effet, si une variable a une variance bien plus forte, la distance euclidienne simple va accorder beaucoup plus d’importance ` a la diff´ erence entre les deux individus sur cette variable qu’` a la diff´ erence entre les deux individus sur les autres variables. Il est pr´ ef´ erable dans ce cas d’utiliser la distance euclidienne normalis´ ee par l’inverse de la variance, afin de donner la mˆ eme importance ` a toutes les variables. Cela revient ` a r´ eduire tous les variables (les diviser par leur ´ ecart-type) et ` a calculer ensuite la distance euclidienne simple.

1.3 Les espaces de classification

Les espaces de classification classique sont les partitions et les hi´ erarchies.

D´ efinition 4 Une partition P en K classes de Ω est un ensemble (C

₁

, . . . , C

_k

, . . . , C

_K

) de classes non vides, d’intersections vides deux ` a deux et dont le r´ eunion forme Ω : – ∀k ∈ {1, . . . K}, C

_k

6= ∅

– ∀k, k

⁰

∈ {1, . . . K} C

_k

∩ C

_k⁰

= ∅ – ∪

_k=1,...,K

, C

_k

= Ω

Par exemple, si Ω = {1, . . . , 7} est un ensemble de 7 points du plan, P

₃

= (C

₁

, C

₂

, C

₃

)avec

C1 = {7}, C

2

= {5, 4, 6} et C

3

= {1, 2, 3} est une partition en trois classes de Ω.

(4)

D´ efinition 5 Une hi´ erarchie H de Ω est un ensemble de classes non vides (appell´ es paliers) qui v´ erifient :

– Ω ∈ H

– ∀i ∈ Ω, {i} ∈ H (la hi´ erarchie contient tous les singletons)

– ∀A, B ∈ H, A ∩ B ∈ {A, B, ∅} (deux classes de la hi´ erarchie sont soit disjointes soit contenues l’une dans l’autre)

Par exemple, H = {{1}, . . . , {7}, {4, 5}, {2, 3}, {4, 5, 6}, {1, 2, 3}, {4, 5, 6, 7}, Ω} est une hi´ erarchie de Ω = {1, . . . , 7}. Les classes de la hi´ erarchie une fois indic´ ee sont repr´ esent´ ees dans un arbre appell´ e arbre hi´ erarchique. Si l’on coupe un arbre hi´ erarchique par une suite de lignes horizontales, on obtient une suite de partitions emboˆıt´ ees.

2 M´ ethodes de partitionnement

Etant donn´ e un ensemble Ω d’individus, la structure classificatoire recherch´ ee est la partition. Si on d´ efinit un crit` ere de qualit´ e W sur une partition P = (C

1

, . . . , C

k

, . . . , C

K

) mesurant g´ en´ eralement l’homog´ en´ eit´ e des classes, le probl` eme de classification est un probl` eme d’optimisation parfaitement d´ efinit :

Trouver, parmi l’ensemble P

_K

(Ω) de toutes les partitions possibles en K classes de Ω, la partition qui optimise le crit` ere W : P

_K

(Ω) → R

⁺

Comme Ω est fini,P

_K

(Ω) est fini et le probl` eme d’optimisation est soluble par ´ enum´ eration comp` ete. En fait, d` es que le nombre d’individus n de Ω est assez grand, on a approxima- tivement card(P

_K

(Ω)) ∼

^K_K!ⁿ

. L’´ enum´ eration compl` ete de toutes les solutions possibles est donc irr´ ealisable en pratique d` es que n devient grand.

En pratique, on applique souvent un algorithme it´ eratif du type : – On part d’une solution r´ ealisable c’est ` a dire d’une partition P

⁰

– A l’´ etape m+1, on cherche une partition P

^m+1

= g(P

^m

) telle que W (P

^m+1

) ≤ W (P

^m

)

Le crit` ere W mesurant l’homog´ en´ eit´ e des classes (la qualit´ e de la partition) est souvent l’inertie intra-classe de la partition et l’algorithme it´ eratif utilis´ e pour minimiser (localement) ce crit` ere est l’algorithme des centres mobiles (k-means).

2.1 Inerties d’un nuage de points pond´ er´ es

On consid` ere le nuage des n points de Ω = {1, ..., i, ..., n} pond´ er´ es par w

_i

et d´ ecrit par un vecteur x

_i

∈ R

^p

. On note :

µ

_k

= X

i∈C_k

w

_i

poids de C

_k

g

_k

= 1

µ

k

X

i∈C_k

w

_i

x

_i

centre de gravit´ e de C

_k

d

_M

(x

_i

, x

_i⁰

) =

^t

(x

_i

− x

_i⁰

)M(x

_i

− x

_i⁰

) o` u M est une matrice sym´ etrique d´ efinie positive

D´ efinition 6 L’inertie I

_a

du nuage des n individus par rapport ` a un point a ∈ R

^p

est

I

a

=

n

X

i=1

w

i

d

²_M

(x

i

, a) (3)

(5)

D´ efinition 7 L’inertie totale T du nuage des n individus est T =

n

X

i=1

w

_i

d

²_M

(x

_i

, g) (4)

et g est le centre de gravit´ e du nuage. L’inertie totale est ind´ ependante de la partition D´ efinition 8 L’inertie inter-classe B de la partition P est

B =

K

X

k=1

µ

_k

d

²_M

(g

_k

, g) (5)

B est donc l’inertie du nuage des centres de gravit´ e des K classes, munis des moids µ

_k

D´ efinition 9 L’inertie intra-classe W de la partition P est

W =

K

X

k=1

I(C

_k

) (6)

et

I (C

k

) = X

i∈C_k

w

i

d

²_M

(x

i

, g

k

) (7) Remarque 1 En g´ en´ eral avec M = I, on choisit :

- w

_i

=

_n¹

, on parle alors de variance intra et inter-classe

- w

_i

= 1,on parle alors de somme des carr´ es intra et inter-classe

Remarque 2 Lorsque w

_i

=

_n¹

et M = I, l’inertie totale T est ´ egale ` a la somme des variances des p variables. Si le tableau est r´ eduit, alors T = p

Remarque 3 Les inerties calcul´ ees sur le tableau centr´ ee-r´ eduit sont ´ egales aux inerties calcul´ ees avec la distance euclidienne simple sur le tableau des p composantes factorielles de l’ACP.

D´ efinition 10 Le pourcentage d’inertie expliqu´ ee d’une partition P est : (1 − W

T ) × 100 (8)

Ce crit` ere varie entre zero et cent. Il vaut cent pour la partition en n classes des singletons, et zero pour la partition r´ eduite ` a une classe Ω. Le pourcentage d’inertie expliqu´ ee augmentant avec le nombre de classe, il ne permet donc que de comparer deux partitions ayant le mˆ eme nombre de classes. Si le pourcentage d’inertie expliqu´ ee d’une partition est sup´ erieur au pourcentage d’inertie expliqu´ ee d’une autre partition ayant le mˆ eme nombre de classe, on consid´ erera que la premi` ere partition est meilleure que la seconde, au sens du crit` ere d’inertie.

Proposition 1 On a la relation fondamentale suivante :

T = W + B (9)

On en d´ eduit que minimiser l’inertie intra-classe c’est ` a dire l’homog´ en´ eit´ e des classes

est ´ equivalent ` a maximiser l’inertie inter-classe, c’est ` a dire la s´ eparation entre les

classes. Cette relation se d´ eduit du th´ eor` eme de Huygens (voir la d´ emonstration section

4.1)

(6)

Proposition 2 L’inertie d’une classe C

_k

s’´ ecrit ´ egalement ind´ ependamment du centre de gravit´ e, en ne faisant intervenir que les distances des individus deux ` a deux :

I(C

_k

) = X

i∈C_k

p

_i

d

²

(x

_i

, g

_k

) = X

i∈C_k

X

i⁰∈Ck

p

i

p

_i⁰

2µ

_k

d

²

(x

_i

, x

_i⁰

) (10) Cette ´ egalit´ e se d´ eduit du th´ eor` eme de Koenig-Huygens et de la d´ efinition de l’inertie par rapport ` a un point (voir la d´ emonstration section 4.2 )

Proposition 3 Une relation importante est :

I(C

1

∪ C

2

) = I (C

1

) + I (C

2

) + (µ

1

µ

2

)

(µ

₁

+ µ

₂

) d

²

(g

1

, g

2

) (11) (voir la d´ emonstration section 4.3 )

2.2 Algorithme des centres mobiles

L’algorithme des centres mobiles est un cas particulier de l’algorithme des Nu´ ees dyna- miques qui part d’une partition intitiale et it` ere :

- une ´ etape de repr´ esentation qui consiste ` a d´ efinir un centroide pour chaque classe, ici le centre de gravit´ e

- une ´ etape d’affectation o` u l’on affecte chaque individu ` a la classe dont le centroide est le plus proche, ici au sens de la distance euclidienne.

Plus pr´ ecis´ ement, l’algorithme des centres mobiles est le suivant : (a) Initialisation

On se donne une partition P = (C

1

, . . . , C

_k

, . . . , C

K

) et on calcul g

1

, . . . , g

_k

(b) Etape d’affectation

test ← 0

Pour tout i de 1 ` a n faire

d´ eterminer la classe k∗ telle que

k∗ = arg min

k=1,...,K

d(i, g

_k

) d´ eterminer la classe l de i

si k∗ 6= l test ← 1 C

k

← C

k

∪ {i}

C

_l

← C

_l

\{i}

(c) Etape de repr´ esentation

Pour tout k de 1 ` a K calculer le centre de gravit´ e de la nouvelle classe C

k

(d) Si test = 0 FIN, sinon aller en (b)

Proposition 4 Cette algorithme converge vers une partition r´ ealisant un minimum local de l’inertie intra-classe (voir la d´ emonstration section 4.4).

Remarque 4 Souvent, l’´ etape d’initialisation consiste ` a prendre K individus comme centres initiaux, la partition initiale ´ etant obtenue par affectation des individus au centre le plus proche. Ces K individus peuvent ˆ etre (entre autre) :

– les K premiers individus dans le tableaux,

– K individus tir´ es au hasard,

(7)

**

*

**

*

**

*

**

*

**

*

**

*

* Affectation aux centres les plus proches

Calcul des centres de gravité Affectation nouvelle partition

Calcul des centres de gravité Affectation et arrêt de l’algorithme Tirage au hasard des centres

Fig. 1 – Exemple de d´ eroulement de l’algorithme des centres mobiles – K individus ´ eloign´ es (en terme de distance) les uns des autres.

Bien sˆ ure, la partition finale obtenue apr` es convergence de l’algorithme (ou apr` es un nombre fini d’it´ erations) d´ epend de la partition initiale et donc des centres initiaux.

Le minimum local de W trouv´ e d´ epend en effet du ”point” de d´ epart et donc de la partition initiale. En pratique, on peut r´ ep´ eter N fois l’algorithme en tirant ` a chaque fois K individus au hasard comme centres initiaux. On retient alors la partition finale qui a la pourcentage d’inertie expliqu´ e le plus grand (qui donne la plus petite valeur de l’inertia intra-classe W ). C’est possible car la complexit´ e de l’algorithme des centres mobiles est o(KpnT) o` u T est le nombre d’it´ erations. L’algorithme va donc “fonctionner”

avec beaucoup d’individus et peut donc ˆ etre r´ ep´ et´ e sans que cela “coˆ ute trop cher”.

3 Les m´ ethodes de classification hi´ erarchiques

La structure classificatoire recherch´ ee est maintenant la hi´ erarchie. On a vu qu’une hi´ erarchie H de Ω est un ensemble de classes de Ω appell´ es paliers comprenant les singletons (classes r´ eduites ` a un ´ el´ ement), l’ensemble Ω, et des classes dont l’intersection est soit vide,soit l’une ou l’autre des classes.

D´ efinition 11 Une hi´ erarchie binaire est une hi´ erarchie dont chaque palier est la r´ eunion de deux paliers. Le nombre de paliers non singletons d’une hi´ erarchie binaire vaut n− 1.

Cette d´ efinition d’une hi´ erarchie est ensembliste. Maintenant, pour pourvoir repr´ esenter

une hi´ erarchie par un graphique, il faut pouvoir valuer ses paliers c’est ` a dire leur

attribuer une hauteur.

(8)

7 3 2 1 4 5 6 A

B C

D E F h

h(C)

Fig. 2 – Exemple de dendogramme d’une hi´ erarchie indic´ ee

1 2 3 4 5 1 2 3 4 5

Fig. 3 – Deux formats possibles d’un dendogramme

D´ efinition 12 Une hi´ erarchie indic´ ee est un couple (H, h) o` u H est une hi´ erarchie et h est une application de H dans <

⁺

telle que :

∀A ∈ H, h(A) = 0 ⇔ A est un singleton

∀A, B ∈ H, A 6= B, A ⊂ B ⇒ h(A) ≤ h(B ) (12) Le graphique repr´ esentant une hi´ erarchie indic´ ee est appel´ e un dendogramme ou arbre hi´ erarchique.

Remarque 5 Une hi´ erarchie indic´ ee d´ efinie une suite de partitions emboˆıt´ ees de 2

`

a n classes. Elles sont obtenues en coupant l’arbre hi´ erarchique suivant une suite de lignes horizontales. De plus, la condition 12 v´ erifi´ ee par l’indice h assure qu’il n’y a pas d’inversions dans la repr´ esentation de la hi´ erarchie, c’est ` a dire que si C = A ∪ B le palier C est bien repr´ esent´ e plus haut que les paliers A et B .

Il existe plusieurs formats possibles pour repr´ esenter un dendogramme (figure 3) et surtout de nombreuses repr´ esentations ´ equivalentes d’une mˆ eme hi´ erarchie indic´ ee. En effet on peut facilement permuter l’ordre dans lequel sont repr´ esent´ es les individus (voir figure 4). Si n est le nombre d’individus de Ω, il y a 2

ⁿ⁻¹

repr´ esentations possibles

´ equivalentes d’une hi´ erarchie indic´ ee par un arbre binaire.

Remarque 6 Il existe d’autres modes de repr´ esentation d’une hi´ erarchie que le dendo-

gramme permettant, lorsque le nombre d’individu est grand, et le dendogramme diffici-

lement lisible, de trouver rapidement la classe d’un individu. Par exemple le stalactite

(icicle plot) du tableau 1 correspond ` a la hi´ erarchie des figures 3 et 4. A chaque niveau,

(9)

1 2 3 4 5 5 4 3 2 1

Fig. 4 – Deux repr´ esentations ´ equivalentes d’une hi´ erarchie indic´ ee

les objets dans une mˆ eme classe sont li´ es par le signe ´ egal. On lit ainsi que la premi` ere classe cr´ ee est la classe {1, 2} puis la classe {4, 5} etc...

1 = 2 = 3 = 4 = 5

1 = 2 = 3 4 = 5

1 = 2 4 = 5

1 = 2

Tab. 1 – Exemple de stalactite horizontal Il existe deux strat´ egies de construction d’une hi´ erarchie indic´ ee :

– on construit la hi´ erarchie en partant du bas de l’arbre (des singletons) et on agr` ege, deux par deux les classes les plus proches, et ce jusqu’` a l’obtention d’une seule classe.

On parle de classification ascendante hi´ erarchique (C.A.H.).

– on construit la hi´ erarchie ` a partir du haut de l’arbre en proc´ edant par divisions succ´ essives de l’ensemble Ω jusqu’` a obtenir des classes r´ eduites ` a un ´ el´ ement, ou des classes ne contenant que des individus indentiques. On parle de classification divisive ou classification descendante hi´ erarchique.

La premi` ere strat´ egie ´ etant la plus utilis´ ee et la plus pr´ esente dans la litt´ erature, c’est celle que nous pr´ esenterons ici.

3.1 Algorithme g´ en´ eral de C.A.H.

L’algorithme g´ en´ eral est le suivant : (a) Initialisation

On part de la partition la plus fine, c’est ` a dire la partition des singletons P = (C

1

, . . . , C

n

) avec C

_k

= {k}

(b) ´ etape agr´ egative

On a part de la partition P = (C

₁

, . . . , C

_K

) en K classes obtenue ` a l’´ etape pr´ ec´ edente et on agr` ege les deux classes C

k

et C

_k⁰

qui minimisent une mesure d’agr´ egation D(C

k

, C

_k⁰

).

On construit ainsi une nouvelle partition en K − 1 classes. En cas d’´ egalit´ e, on choisit la premi` ere solution rencontr´ ee. La hi´ erarchie obtenue est donc toujours binaire.

(c) On recommence l’´ etape (b) jusqu’` a obtenir la partition la plus grossi` ere c’est ` a dire la partition en une seule classe Ω

Il faut donc choisir au pr´ ealable :

– la mesure d’agr´ egation D : P (Ω)× P(Ω) → <

⁺

qui mesure la ressemblance entre deux classes,

– l’application h qui va indicer la hi´ erarchie.

(10)

3.2 Les mesures d’agr´ egations entre classes

Trois mesures d’agr´ egation classiques (il en existe d’autres) entre deux classes A et B de Ω, sont repr´ esent´ e figure 5. Ces mesures utilisent la distance ou la dissimilarit´ e d choisie pour comparer deux individus.

*

* *

*

* +

+ D

D D 2

3 1

Fig. 5 – Trois mesures classiques d’agr´ egation

D´ efinition 13 La mesure d’agr´ egation du lien minimum entre deux classes A et B est : D

1

(A, B) = min

i∈A,i⁰∈B

d(i, i

⁰

) (13)

La hi´ erarchie obtenue par C.A.H. avec cette mesure est la hi´ erarchie du lien minimum.

En anglais on parle de ”single linkage algorithm”.

D´ efinition 14 La mesure d’agr´ egation du lien maximum entre deux classes A et B est :

D

2

(A, B) = max

i∈A,i⁰∈B

d(i, i

⁰

) (14)

La hi´ erarchie obtenue par C.A.H. avec cette mesure est la hi´ erarchie du lien maximum.

En anglais on parle de ”complete linkage algorithm”.

D´ efinition 15 La mesure d’agr´ egation d’augmentation d’inertie ou mesure de Ward entre deux classes A et B est :

D

3

(A, B) = µ

A

µ

B

µ

_A

+ µ

_B

d

²

(g

A

, g

B

) (15) o` u

µ

_A

= X

i∈A

w

_i

g

_A

= 1 µ

_A

X

i∈A

w

_i

x

_i

La hi´ erarchie obtenue par C.A.H. avec cette mesure est la hi´ erarchie de Ward.

Remarque 7 Le hi´ erarchie de Ward ne peut donc ˆ etre construite qu’` a partir d’un ta-

bleau de donn´ ees quantitative tandis que les hi´ erarchies du lien min et du lien max

peuvent ˆ ete obtenue ` a partir d’un tableau de ressemblances et donc pour n’importe quel

type de donn´ ees.

(11)

3.3 D´ efinition de l’indice

La relation g´ en´ eralement utilis´ ee pour d´ efinir l’indice h une hi´ erarchie H construite par C.A.H. est :

∀A, B ∈ H, h(A ∪ B) = D(A, B) (16) Cependant, certaines mesures d’agr´ egation comme la distance euclidienne entre les centres de gravit´ es des classes, ne permettent pas de construire, grˆ ace ` a cette relation, une hi´ erarchie indic´ ee. En effet, l’indice h d´ efinie par h(A ∪ B) = d(g

A

, g

B

) ne v´ erifie par la condition 12, et le dendogramme de cette hi´ erarchie peut poss´ eder des inversions c’est ` a dire que deux paliers agr´ eg´ es avant deux autres peuvent ˆ etre repr´ esent´ es plus bas que ces derniers (voir figure 6). Lorsque les donn´ ees sont num´ eriques, on lui pr´ ef` ere donc la mesure d’agr´ egation de Ward. Mais pour ´ eviter ces inversions, on peut

´ egalement utiliser la relation suivante :

∀A, B ∈ H, h(A ∪ B ) = max(D(A, B), h(A), h(B)) (17)

6

7 3 2 1 4 5

Fig. 6 – Exemple d’inversion dans le dendrogramme d’une hi´ erarchie

4 Annexes

4.1 D´ emonstration du th´ eor` eme de Huygens et de la proposition 1 Th´ eor` eme 1 (Huygens) Si g = 1

P

n i=1

p

i

x

i

est le centre de gravit´ e du nuage des n individus, on a :

∀a ∈ R

^p

, I

_a

= I

_g

+ (

n

X

i=1

p

_i

)d

²_M

(a, g)

D´ emonstration du th´ eor` eme de Huygens :

(12)

D’apr` es la d´ efinition 6 on a : I

_a

=

n

X

i=1

w

_i

||x

_i

− a||

²_M

=

n

X

i=1

w

i

||x

_i

− g + g − a||

²_M

=

n

X

i=1

w

_i

||x

_i

− g||

²_M

+ 2

n

X

i=1

w

_i^t

(g − a)M ((x

_i

− g) +

n

X

i=1

w

i

||g − a||

²_M

(car M est sym´ etrique)

= I

_g

+ (

n

X

i=1

w

_i

)d

²_M

(a, g) + 2

^t

(g − a)M

n

X

i=1

w

_i

(x

_i

− g) Or P

n

i=1

w

i

(x

i

− g) = 0 d’o` u le r´ esultat.

D´ emonstration de la proposition 1 :

On consid` ere g

k

le centre de gravit´ e de la classe C

k

. D’apr` es le th´ eor` eme de Huygens, l’inertie du nuage des points de C

_k

par rapport au centre de gravit´ e g s’´ ecrit :

I

g

= I

g_k

+

µk

z }| { X

i∈C_k

w

i

d

²_M

(g, g

_k

) soit

X

i∈C_k

w

_i

d

²_M

(x

_i

, g) = X

i∈C_k

w

_i

d

²_M

(x

_i

, g

_k

) + µ

_k

d

²_M

(g, g

_k

) En sommant cette ´ egalit´ e pour k variant de 1 ` a K, on trouve T = W + B . 4.2 D´ emonstration de la proposition 2

On consid` ere g

_k

le centre de gravit´ e de la classe C

_k

. D’apr` es le th´ eor` eme de Huygens, l’inertie du nuage des points de C

_k

par rapport ` a un point x

_i

s’´ ecrit :

I

_x_i

= I

_g_k

+

µk

z }| { X

i∈C_k

w

_i

d

²_M

(x

_i

, g

_k

)

En multipliant cette ´ egalit´ e par p

i

et en sommant pour i dans C

k

ont trouve :

X

i∈C_k

w

i

I

xi

=

µk

z }| { X

i∈C_k

w

i

I

g_k

+ µ

_k

I_gk

z }| { X

i∈C_k

w

i

d

²_M

(x

i

, g

_k

) En remplacant I

_x_i

par sa valeur dans cette ´ egalit´ e on trouve :

X

i∈C_k

w

_i

p

_i⁰

d

²_M

(x

_i

, x

_i⁰

) = µ

_k

I

_g_k

+ µ

_k

I

_g_k

et comme I

_g_k

= I(C

_k

) on retrouve bien l’´ egalit´ e de la proposition 2 : I (C

k

) = X

i∈C_k

w

i

d

²

(i, g

k

) = X

i∈C_k

X

i⁰∈C_k

w

i

w

i⁰

2µ

_k

d

²

(x

i

, x

i⁰

)

(13)

4.3 D´ emonstration de la proposition 3

Si on consid` ere le nuage de points C

₁

∪ C

₂

et la partition P = (C

₁

, C

₂

) de ce nuage, on a T = I (C

₁

∪ C

₂

), W = I(C

₁

) + I (C

₂

) et B = µ

₁

d

²_M

(g

₁

, g) + µ

₂

d

²_M

(g

₂

, g). En appliquant la relation fondamentale T = B + W on trouve :

I(C

₁

∪ C

₂

) = I (C

₁

) + I (C

₂

) + µ

₁

d

²_M

(g

₁

, g) + µ

₂

d

²_M

(g

₂

, g)

Puis on applique la proposition 2 au nuage des deux centres de gravit´ es g

₁

et g

₂

munis des poids µ

1

et µ

2

et de centre de gravit´ e g :

µ

₁

d

²_M

(g

₁

, g) + µ

₂

d

²_M

(g

₂

, g) = µ

₁

µ

₂

2(µ

1

+ µ

2

) d

²_M

(g

₁

, g

₂

) + µ

₂

µ

₁

2(µ

2

+ µ

1

) d

²_M

(g

₂

, g

₁

) On retrouve donc bien :

I (C

₁

∪ C

₂

) = I (C

₁

) + I (C

₂

) + µ

₁

µ

₂

µ

₁

+ µ

₂

d

²_M

(g

₁

, g

₂

) 4.4 D´ emonstration de la proposition 4

A l’´ etape m on a

g

^m

= (g

₁^m

, . . . , g

_K^m

) P

^m

= (C

₁^m

, . . . , C

_K^m

)

o` u g

^m

est le vecteur des centres de gravit´ es des classes C

_k^m−1

et C

_k^m

est la classes des individus plus proches de g

^m_k

que des autres centres. L’inertie intra-classe de la partition P

^m

est :

W (P

^m

) =

K

X

k=1

X

i∈C^m_k

d

²

(i, g

_k^m+1

) On d´ efinit :

v

m

=

K

X

k=1

X

i∈C_k^m

d

²

(i, g

_k^m

)

v

m+1

=

K

X

k=1

X

i∈C_k^m+1

d

²

(i, g

_k^m+1

) et on montre que ∀m

v

m+1

≤ W (P

^m

) ≤ v

m

(18)

On montre d’abord que W (P

^m

) ≤ v

_m

. En effet, par d´ efinition, si g

_k^m+1

est le centre de gravit´ e de la classe C

_k^m

, alors

X

i∈C_k^m

d

²

(i, g

_k^m+1

) ≤ X

i∈C_k^m

d

²

(i, g

^m_k

) Donc en sommant sur k, on a bien

W(P^m)

z }| {

K

X

k=1

X

i∈C_k^m

d

²

(i, g

_k^m+1

) ≤

vm

z }| {

K

X

k=1

X

i∈C_k^m

d

²

(i, g

_k^m

)

(14)

On montre ensuite que v

_m+1

≤ W (P

^m

). En effet, on a toujours par construction des classes C

_k^m+1

∀i ∈ C

_k^m+1

, d

²

(i, g

_k^m+1

) ≤ d

²

(i, g

_k^m

) Donc en sommant sur i puis sur k, on a

vm+1

z }| {

K

X

k=1

X

i∈C_k^m+1

d

²

(i, g

^m+1_k

) ≤

W(P^m)

z }| {

K

X

k=1

X

i∈C_k^m

d

²

(i, g

^m+1_k

)

D’apr` es 18, on aura bien

W (P

^m+1

) ≤ v

_m+1

≤ W (P

^m

) et donc la d´ ecroissante du crit` ere d’inertie intra-classe.

5 Ref´ erences

LEBART L., MORINEAU A., PIRON M., Statistique exploratoire multidimentionnelle.

Dunod

GORDON A.D., Classification, (2de ´ edition) Chapman.

NAKACHE J.P., CONFAIS J. (2000), M´ ethodes de classification, CISIA-CERESTA.