R EVUE DE STATISTIQUE APPLIQUÉE
R. T OMASSONE
Analyse multidimensionnelle et classification
Revue de statistique appliquée, tome 18, n
o4 (1970), p. 29-34
<
http://www.numdam.org/item?id=RSA_1970__18_4_29_0>
© Société française de statistique, 1970, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
29
ANALYSE MULTIDIMENSIONNELLE ET CLASSIFICATION
R. TOMASSONE
INRA, Laboratoire de
Biométrie duCNRZ, 78-Jouy en Josas
Les domaines les
plus
variés fontappel
à des méthodes de classifica- tion :l’archéologie, l’agronomie,
la recherche médicale et les sciences éco-nomiques
pour n’en citer quequelques
uns. On classe desobjets
trouvés lors de campagnes defouilles,
on classe des traitementsappliqués
à des culturesvégétales
ou à desespèces animales,
on classe lessymptomes
d’une mala-die,
et onsegmente
des processuséconomiques (le
terme desegmentation
estplus employé
par les économistes que celui de classification ou de taxino-mie).
Cette diversité des domainesd’application
est à la foispassionnante
-par les relationsinterdisciplinaires qu’elle
suscite- etdangereuse,
chacun croit découvrir destechniques originales et, naturellement,
met aupoint
de "nou- veaux" programmes pour ordinateur. ’Il est donc
capital
d’étudier cequi
unit les différentestechniques ;
c’est-à-dire
qu’il
fautanalyser
lesconcepts
lesplus importants
que nous devrons utiliser au cours desétapes
d’une étude de classification.1 - LES ETAPES D’UNE ETUDE DE CLASSIFICATION.
Une étude
classique
nous conduira d’une matrice des données de base(un
tableau des éléments àclasser,
surlesquels
nous avons relevé ou me-suré un certain nombre de
variables), jusqu’à
une classification en groupes des éléments. Généralement les éléments nepourront appartenir qu’à
ungroupe à la
fois,
et nousreprésenterons
la classification par un dendro- gramme.Ces
étapes,
ainsi que les noms des différentestechniques d’analyse
àplusieurs variables,
sont schématisés sur lafigure ci-après.
2 - DEFINITIONS DES STRUCTURES DANS L’UNIVERS MULTIDIMENSION - NEL.
2.1. La destruction de la structure de référence :
Si nous admettons que la matrice des données de base définit une struc- ture de
référence,
les transformations que nous lui faisonssubir,
au cours des différentesétapes
del’analyse,
détruisent cette structure. La structure de travail àlaquelle
on aboutit ne contient pas toute l’information de celleRevue de Statistique Appliquée. 1970 - vol. XVIII ? 4
Figure 1 - Les étapes d’une étude de classification (Extrait de MILLIER C. et TOMASSONE R. op. cit. )
31
de
référence ;
elle estdéformée,
et cette déformation n’est pastoujours
faitede
façon unique.
Parexemple,
il est bien connuqu’une analyse
en compo- santesprincipales
ne fournit pas les mêmes résultats selon que l’on tra- vaille sur des covariances ou sur des corrélations.On passe d’une structure à l’autre par le choix d’un
modèle ;
les dif-férents modèles
appartiennent
à deuxgrandes
classes :a)
les modèlesmétriques :
ce sont ceuxqui
fontappel
aux covariances entre caractères et aux distancesstatistiques
ou non entre les éléments.b)
les modèlesnon-métriques : qui
sontgénéralement
bienadaptés
auxméthodes non
paramétriques.
Les mesuresqui
en découlent ont un sens soit dupoint
de vue de la théorie desprobabilités
soit dupoint
de vue de la théorie de l’information.2.2. Structure dans un espace
métrique :
Deux
aspects
sontparticulièrement
intéressants :2. 2.1. Dualité des solutions : que l’on
analyse
d’abord les liens entre variables pour mieux regrouper leséléments,
ou que lesvoisinages
entreéléments nous aident à mieux
comprendre
les "facteurs"sous-jacents
auxcaractères les résultats sont
complémentaires
comme l’a montré GOWERJ. C.
(1966).
Cette dualité n’est d’ailleurs pascaractéristique
del’espace métrique puisqu’elle
estmagnifiquement
illustrée parl’analyse
des corres-pondances
où variables et élémentsjouent
des rôlesidentiques (on peut
d’ail- leurs les retrouver sur un mêmegraphique).
2.2.2. Fonctions de distances : nous ne voulons
parler
ici que de deuxtypes
de fonctions :a)
celle de Mahalanobisqui
nousparait
trèscaractéristique
del’apport
très
original
del’analyse
multidimensionnelle. Enplus
de sespropriétés statistiques, quelquefois intéressantes,
elleintègre
deuxcaractéristiques
pourmesurer une distance :
1/
les différences entre toutes les valeurs moyennes des carac- tèrespris
encompte.
2/
les liaisons entre ces caractères.On
peut
voir facilementqu’une
variableapparemment
sansintérêt,
sielle est étudiée
seule, peut
se révéler extrêmement discriminante en associa- tion avec d’autres.b)
celle de Gowerqui permet
de mesurer une distance avecplusieurs
variables
quelle
que soit la nature de ces variables(continues,
discrètesordonnées ou
non).
3 - ORDINATION ET CLASSIFICATION :
Nous voulons
parler
ici des différentesstratégies possibles
dans l’ana-lyse
d’un tableau de données en vue d’une classification.Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
3.1. Les méthodes d’ordination :
Elles
appartiennent
àl’analyse
multivariableclassique,
même si dé-pouillée
de son sensstatistique,
elle n’est utilisée que dans un butdescrip-
tif. Ellesimpliquent
unesimplification
del’espace Ep
à p dimensions -l’es- pace de référence- en un espace Ek à k dimensions(k p) - l’espace
de tra- vail. Ce dernier contient presque toute l’information dupremier,
il estgéné-
ralement de dimension
plus réduite,
ils’analyse toujours plus simplement.
On
peut distinguer
deuxgrands
groupes de méthodes :a)
celui relatif aux différentesanalyses
factorielles :-
l’analyse
encomposantes principales
où l’accent est mis sur la variabilité entre les éléments.-
l’analyse
factorielleclassique
surtoutemployée
enpsychologie ;
on essaie ici de retrouver les corrélations entre les variables à l’aide de facteurs inconnus mais
qu’il
estpossible
d’estimer à l’aide des observationssur les variables.
-
l’analyse
factorielle descorrespondances,
que nous avonsdéjà citée, qui
s’attache à retrouver des"profils"
de variables voisins entre les éléments.-
l’analyse
dedispersion (ou analyse
des variablescanoniques)
où sont simultanément étudiés deux niveaux de variations : celui propre auxvariations entre groupes d’éléments connus a
priori
et celui propre aux va- riations à l’intérieur de ces groupes.L’analyse
dedispersion peut
aussis’envisager
comme l’étude de la liaison entre deux structures de variables : lapremière
est celle des variables effectivementmesurées,
la seconde celle des variables définissantl’appartenance
des éléments à des groupes.b) l’analyse
desproximités :
connaissant les distances entre troispoints,
il est
possible
de reconstruire exactement untriangle
dont leslongueurs
des côtés sont ces distances. Connaissant toutes les distances entre les élé- ments soumis à
l’analyse,
onpeut
retrouver un espace danslequel
lesposi-
tions relatives des éléments déforment le moins
possible
ces distances. Plus faible sera la dimension de cet espace ;plus grande
sera lasimplification apportée.
3.2. Les méthodes de classification divisives :
Elles classent d’abord les éléments en deux groupes aussi distincts que
possible ; puis
elles recommencentl’opération
sur les groupesdéjà
créés.Employées
sansprécaution,
elles sontdangereuses :
si le résultat de la pre- mièreopération
nepeut
pas êtremodifié,
un élément sera classé une foispour toutes
(dans
le cas del’analyse
d’association de Williams et Lambert parexemple).
Il est donc souhaitable decompléter
ces méthodes par desalgorithmes d’échanges qui peuvent
faire passer les éléments d’un groupe àun autre afin d’affiner la classification.
3.3. Les méthodes de classification
agglomératives :
Elles commencent par regrouper les éléments les
plus voisins ; puis
les autres sont rattachés à des niveauxplus
ou moinséloignés.
SNEATHP. H. A.
(1968)
voit dans lesprincipes qui régissent
la formation des grou- pes troisconcepts :
33
a)
celui de masse oùchaque
nouvel élémentqui s’intègre
à un groupeen accroit la
dimension,
la variabilité et lepouvoir
d’attraction.b)
celui de densité où les centres des groupes doiventcomporter
davan-tage
d’éléments que les frontières.c)
celui de réseau où les distances ne sont pasimportantes
par leur valeur absolue mais par l’ordrequ’elles
définissent entre elles. Plus indé-pendantes
de la définitionanalytique
de la fonction dedistance,
les méthodesqui
utilisent ceconcept
sont souvent sensibles aux effets dechaîne ;
il est doncindispensable
d’en limiter lesconséquences, WISHART,
D.(1968).
Les deuxpremiers concepts
donnent naissance à des méthodesqui
attachent unegrande importance
àl’ homogé inité intragroupe.
A ces
concepts qui
caractérisent les groupesformés, s’ajoutent
desprocessus distincts dans leur
formation ;
nous pouvons endistinguer quatre : a)
comment créer lespremiers groupes ?
b)
comment fusionner des éléments nouveaux à des groupesdéjà
créés ?c)
comment interdire une nouvelle fusion ?d)
commentéchanger
des éléments entre desgroupes ?
4 - CONCLUSION
Souvent mal formalisées les méthodes de la taxinomie
numérique
fontquelquefois figure
de "recettes". Vues d’un très mauvais oeil par nombre dethéoriciens,
ellesrépondent
à un besoin concret clairement formulé par de nombreux utilisateurs. Il estparticulièrement important
d’aborder une étude de classification à la fois par des méthodes d’ordination et par des méthodes declassification,
les deux s’éclairant mutuellement. Ilest, enfin, important
de noter que la
majorité
des méthodes actuelles nepermettent
de classerque
quelques
centaines d’éléments(d’une
centaine à un millier selon la taille de l’ordinateur dont ondispose).
5 - BIBLIOGRAPHIE SOMMAIRE.
(se reporter
à(4)
et.(6)
pour une biblio-graphie plus abondante)
[1] GOWER
J.C. - "Some distanceproperties
of latent root and vector me-thod used in multivariate
analysis",
Biometrika(1966) 53,
325-338[2] GOWER
J.C. - "Ageneral
coefficient ofsimilarity
and some of its proper-ties",
Roneo RothamstedExp.
Stat.(1968),
16 p.[3]
LERMAN I.C. - Les bases de la classificationautomatique
Gauthier-Villars, Paris,
1970, 117 p.[4]
MILLIER C. et TOMASSONE R. - "Méthodes d’ordination et de classifi- cation : leur efficacité et leur limite". dans Coll. Intern. CNRS surl’emploi
des calculateurs enarchéologie,
Marseille(1969),
207-228.[5]
SNEATH P.H.A. - "Evaluation ofclustering
methods" dans Coll. Numeri- calTaxonomy,
St. Andrews(1968),
216-225.Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
[6]
SOKAL R. R. et SNEATHP.H.A. - Principles
of numericaltaxonomy" , Freeman,
San Francisco(1963),
359 p.[7]
WISHART D. - "ModeAnalysis :
ageneralisation
of nearestneighbour
which reduces
chaining
effects" dans Coll. NumericalTaxonomy,
St.Andrews