1
Cours 6
CLASSIFICATION
Master 1 – 2007/2008
2
Les données
Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur ____________________ _________ _________ ________ ________ ________ ________
Honda Civic 1396 90 174 850 369 166 Renault 19 1721 92 180 965 415 169 Fiat Tipo 1580 83 170 970 395 170 Peugeot 405 1769 90 180 1080 440 169 Renault 21 2068 88 180 1135 446 170 Citroën BX 1769 90 182 1060 424 168 BMW 530i 2986 188 226 1510 472 175 Rover 827i 2675 177 222 1365 469 175 Renault 25 2548 182 226 1350 471 180 Opel Omega 1998 122 190 1255 473 177 Peugeot 405 Break 1905 125 194 1120 439 171 Ford Sierra 1993 115 185 1190 451 172 BMW 325ix 2494 171 208 1300 432 164 Audi 90 Quattro 1994 160 214 1220 439 169 Ford Scorpio 2933 150 200 1345 466 176 Renault Espace 1995 120 177 1265 436 177 Nissan Vanette 1952 87 144 1430 436 169 VW Caravelle 2109 112 149 1320 457 184 Ford Fiesta 1117 50 135 810 371 162 Fiat Uno 1116 58 145 780 364 155 Peugeot 205 1580 80 159 880 370 156 Peugeot 205 Rallye 1294 103 189 805 370 157 Seat Ibiza SXI 1461 100 181 925 363 161 Citroën AX Sport 1294 95 184 730 350 160
3
Exemple Auto88
Le premier plan principal
4
Exemple Auto88
Le cercle des corrélations
5
La classification :
« Qui se ressemble
s’assemble »
6
Dendrogramme
x x x
19 groups 18 groups 17 groups 16 groups 15 groups 14 groups8 groups9 groups7 groups6 groups5 groups4 groups3 groups2 groups1 group
Choosing the
“cutting” level
Definition of the clusters
7
Classification ascendante hiérarchique (Méthode de Ward)
X1*
X2* Xp*
*
*
* *
*
* g2
* *
* *
*
* g1
* *
* *
*
* g3
** *
*
*
Distance de Ward : D(Gi, Gj) = ( , ) )
(
2
j i
j i
j
i d g g
n n
n n
* **
*
*
* *
*
*
*
8
Calculer la distance de Ward entre la BX et la 405 ?
D o n n é e s c e n t r é e s - r é d u it e s
Ho nda C i v i c - .- .- .963616600
- 1- 1- ...123377320
R e na ult 1 9 - .- .- .- .- .351.610552352192392
F i a t Ti po - .- .- .- .- .675.661191145819232
P e uge o t 4 0 5 - .- .- .- .26.1.140612342002452
R e na ult 2 1 . 3 0 7
- .- ..6.1.1516209522512
C i t r o ë n B X - .- .- .- .- .26.0201614250003189
B M W 5 3 0 i 21111...0.9.7.728410320672306
R o v e r 8 2 7 i 11111...4.6.5.118534040633476
R e na ult 2 5 111111...2.7.7.014160395622959
O pe l O me ga ...1.22671724546
11..204647
P e uge o t 4 0 5 B r e a k - ...0.2.4.042093428223013
F o r d S i e r r a ...1.0.0.374637411546424
B M W 3 2 5 i x 11..- ..1.4.9826178253488121
Audi 9 0 qua t t r o . 1 6 6
11...1.2.4409272256412
F o r d S c o r pi o 111...9.9.6.009437173571746
R e na ult E s pa c e ..116683
- .1..2.63046461997
Ni s s a n Va ne t t e . 0 8 7
- . 6 8 8
- 11...5.33058420692
VW C a r a v e lle . 3 8 4
- . 0 4 3
- 11...3.98950582872
F o r d F i e s t a - 1- 1- 1- 1- 1..- ..4.6.9328940029527643
F i a t Uno - 1- 1- 1- 1- 1- 1...4.4.5.438931390750737
P e uge o t 2 0 5 - .- .- .689165885
- 1- 1- 1...026047287
P e uge o t 2 0 5 r a lly e - 1- 1- 1- 1- ...1.2.2.325673244055886
S e a t I bi za s xi - .- .- .- .830845803237
- 1- 1..401273
C i t r o ë n AX s po r t - 1- 1- 1- 1- ...1.4.0.671683535016424
...0.0.0.000000000000000 111111...0.0.0.000000000000000
1 2 3 4 5 6 7 8 9
1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4
M e a n
S t d. D e v . M o dè le
C y li ndr é e *
PLuiVLoPisatngueeosr geasi dssnceur **ur *e* *
9
Tableau des distances entre les voitures
P r o x im it y M a t r ix
2 .1 .4 .6 .3 .1 .0 7 91 1 9.6 5 79 5 42 7 07 1 33 0 9. . . 2 .1 .2 .5 ...0 7 9.5 3 46 2 65 6 72 5 29 9 25 8 2
1 .1 .3 .1 .2 .4 ..1 1 95 3 47 4 80 6 41 0 04 5 36 7 6 4 .1 .5 .9 ...6 5 7.6 2 67 4 84 1 91 8 14 2 32 8 3 6 .1 2 .1 .3 .7 ..9 5 4.5 6 70 6 44 1 97 8 76 6 54 0 0 3 .1 ....2 7 02 5 21 0 01 8 17 8 7
. . . . 7 1 3
2 .2 .5 .7 .3 .9 9 24 5 34 2 3.6 6 57 6 69 6 4 1 .5 .4 .9 .3 0 95 8 26 7 62 8 3
1 2 .7 ..4 0 01 8 39 6 4
C as e
1 : H on d a C iv ic 2 : R en au lt 1 9
3 : F iat T ip o
4 : P eu g eot 4 0 5 5 : R en au lt 2 1
6 : C it r oë n B X
2 3 : S eat Ib iz a s xi
2 4 : C it r oë n A X s p or t 1 :2 :H3 :RoF ien d an aat u lT iCtp oi1 9v ic
4 : P eu g eot 4 0 5
5 :6 :RCeitn ar oë n u lt B2 1X 2 3 : S eat
Ib iz a s xi
2 4 : C it r oë n A X s p or t
S q u ar ed E u c lid ean D is t an c e
T h is is a d is s im ilar it y m at r ix
D(Citroën BX, Peugeot 405) = 1 1
.181 .0905 (1 1)
10
Classification Ascendante Hiérarchique
Etape initiale
Chaque individu forme une classe. On
regroupe les deux individus les plus proches.
Etape courante
A chaque étape, on regroupe les deux
classes G
iet G
jminimisant le critère de Ward
D(G
i, G
j).
11
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---+---+---+---+---+ Peugeot 405 4
Citroën BX 6
Renault 19 2
Renault 21 5
Fiat Tipo 3
Peugeot 405 Break 11
Ford Sierra 12
Opel Omega 10
Renault Espace 16
Nissan Vanette 17
VW Caravelle 18
BMW 325ix 13
Audi 90 quattro 14
Rover 827i 8
Renault 25 9
BMW 530i 7
Ford Scorpio 15
Peugeot 205 rallye 22
Citroën AX sport 24
Honda Civic 1
Seat Ibiza sxi 23
Ford Fiesta 19
Fiat Uno 20
Peugeot 205 21
12
Qualité de la typologie en K classes
La somme des carrés expliquée par la
typologie en K classes est égale à la somme des carrés inter-classes de la typologie en K classes.
La qualité de la typologie est mesurée par la
part de la somme des carrés totale expliquée
par la typologie.
13
Décomposition de l’inertie totale
*
*
*
*
K 1 i
K 1 i
i i i
i
i 2 I(G ,g )
n n
) g , g ( n d
n ) g , N ( I
X1*
X2* Xp*
* * *
* g2
* *
* *
*
* g1
* *
* *
*
* g3
* *
*
* g
Inertie totale = p = Inertie inter-classes + Inertie intra-classes
14
A g g l o m e r a t i o n S c h e d u l e
46
. 0 9 0 3 5003 1112
. 2 9 8 014002 24
. 5 6 0 5 4019 89
. 8 2 7 015000 2224
1 . 1 1 4 816003 1
2 3
1 . 4 7 1 116003 1106
2 . 0 0 6 816002 1290
2 . 5 4 7 813005 25
3 . 1 5 2 815304 78
3 . 8 8 9 610046 1134
4 . 6 9 4 722000 1101
5 . 5 3 7 118728 1
2 2
6 . 4 5 9 418659 23
7 . 5 5 7 125901 1291
8 . 9 1 3 516809 7
1 5
1 0 . 3 2 8 5129000 1178
1 2 . 7 6 3 717008 1107
1 7 . 3 5 4 71121271 1
1 9
2 2 . 5 3 2 31120353 7
1 3
2 7 . 7 4 0 31125612 2
1 0
3 4 . 4 7 2 31123482 27
6 7 . 3 4 3 82221103 12
1 3 8 . 0 0 0 0120920
S t a g e 1
2 3 4 5 6 7 8 9
1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3
CCl ul usst et er 1r 2
C l u s t e r C o mb i n e d C CoCel ul uf f i csst et ei er 1r 2n t s
S t a g e C l u s t e r F i r s t Ap p e a r s
N e xt S t a g e
Résultats SPSS :
Somme des carrés intra-classes
Somme des carrés totale = p*(n-1) Somme des carrés intra-classes pour
la typologie en K=2 classes Part de somme des carrés totale expliquée par la typologie en 2 classes : (138 - 67.344)/138 = 0.512
Distance de Ward(4,6)
Coefficient : Somme des carrés
intra-classes de la typologie en K classes
Part de somme des carrés totale expliquée par la typologie en K classes : (138 - Coeff[n-K])/138
15
Premier plan principal et typologie
Facteur 1
2.0 1.5
1.0 .5
0.0 -.5
-1.0 -1.5
-2.0
Facteur 2
2
1
0
-1
-2
-3
Ward Method
3 2 1
Citroën AX sport
Seat Ibiza sxi Peugeot 205 rallye
Peugeot 205
Fiat Uno
Ford Fiesta
VW Caravelle Nissan Vanette
Renault Espace
Ford Scorpio Audi 90 quattro
BMW 325ix
Ford Sierra Peugeot 405 Break
Opel Omega
Renault 25 Rover 827i
BMW 530i
Citroën BX
Renault 21 Peugeot 405 Fiat Tipo
Renault 19 Honda Civic
16
17
Interprétation des classes
R e p o r t
M e a n
1121386929002656....52017702 8 2 . 2 9
111 071 213 ...136 837 112167186563....75001508 8 2 5 . 7 1
111 131 641 280 ...738 333 344463525781....24159578 111157769238....53187673
C y l i n d r é e
P u i s s a n c e V i t e s s e
P o i d s
L o n g u e u r L a r g e u r
123
T o t a l
W a r d M e t h o d
18
Interprétation des classes
6 11
7 11 6 7 11 6 7 11 6 7 11 6 7 11 6 7
N =
Ward Method
3 2
1 3
2
1
0
-1
-2
-3
CYLINDREE*
PUISSANCE*
VITESSE*
POIDS*
LONGUEUR*
LARGEUR*
VW Caravelle
Fiat Tipo
Citroën AX sport
BMW 530i
VW Caravelle Nissan Vanette