R EVUE DE STATISTIQUE APPLIQUÉE
P. D AGNELIE
À propos des différentes méthodes de classification numérique
Revue de statistique appliquée, tome 14, n
o3 (1966), p. 55-75
<
http://www.numdam.org/item?id=RSA_1966__14_3_55_0>
© Société française de statistique, 1966, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
55
A PROPOS DES DIFFÉRENTES MÉTHODES
DE CLASSIFICATION NUMÉRIQUE
P. DAGNELIE
Faculté des
SciencesAgronomiques de Gembloux (Belgique)
I - INTRODUCTION ET RESUME
On confond
volontiers,
enparlant
declassification,
deuxtypes
dif-férents de
problèmes,
liés à deuxtypes
différents de données. D’unepart,
onpeut
considérer un échantillon(ou
unepopulation)
de nindividus ,
pour chacun
desquels
ondispose
des valeurs de pvariables,
et on sou-haite subdiviser l’ensemble des n individus en un nombre
limité,
maissouvent mal
défini,
de groupes d’individus semblables. D’autrepart,
onpeut
considérer k + 1 échantillonscomprenant respectivement
ni’ n2’ ... ,~k+1 individus,
pour chacundesquels
ondispose également
des valeurs de pvariables ;
on sait que les kpremiers
échantillonsproviennent
de k popu- lationsdifférentes,
et on souhaite déterminer enconséquence
celle de cespopulations
dontprovient
le dernier échantillon. Lepremier problème
est réellement un
problème
declassification,
en ce sens que l’on souhaite dans ce cas définir ou"faire"
desclasses ;
le secondproblème
est unproblème
derangement
ou declassement,
en ce sens que l’on désire àce stade ranger un ou
plusieurs
individus dans des classespréalablement
définies.De tout
temps,
les statisticiens se sont intéressés surtout au secondproblème,
dont la résolution faitappel
notamment à la notion de fonction discriminante. Le cas leplus simple
est celui de troiséchantillons,
d’effectifsni’ n2
et1,
que l’on étudie dans le but d’attribuerl’unique
individu constituant le troisième échantillon à l’une des deux
populations
dont
proviennent
les deuxpremiers
échantillons(Fisher, 1936).
Onremarquera d’ailleurs que, très
souvent,
enfrançais
comme enanglais,
ce
problème
est considéré comme le seulproblème
de classification(clas-
sification
problem),
alorsqu’il
nous sembleplus
correct deparler
ici declassement ou de discrimination
(discrimination,
allocation ouassign-
ment
problem).
Le désintéressement des statisticiens pour le
premier problème
estd’autant
plus surprenant
que celui-ci se pose trèsfréquemment
dans denombreux domaines : en
psychologie (classification
de tests ou d’indivi-dus),
en taxonomie(classification
desorganismes végétaux
etanimaux),
en
phytosociologie (définition
et classification des communautésvégétales),
en
pédologie (classification
dessols),
enmétéorologie (définition
detypes
de
temps),
etc. Ce désintéressements’explique
vraisemblablement par le faitqu’il s’agit
àpremière
vue d’unproblème
maldéfini,
le nombre de classes n’étantgénéralement
pas connu apriori,
et aussi par le fait que leshypothèses habituelles,
de normaliténotamment,
sont souvent difficilement admissibles ici.Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
56
Ce désintéressement des statisticiens pour un
problème qui
estfondamentalement de nature
statistique
etqui
se posequotidiennement
à de nombreux hommes de
science,
aprovoqué
indirectement l’éclosion de nombreuses méthodes de classificationplus
ou moinsacceptables,
maisen tout cas élaborées en ordre
dispersé.
L’utilisation deplus
enplus
courante des moyens modernes de calcul et de traitement de l’informa- tion
(machines mécanographiques
et calculatricesélectroniques)
n’a faitqu’accentuer
ce mouvement au cours des dernières années. Onpeut
d’ail- leursciter,
comme preuves de cettetendance,
lapublication
d’un ouvrage entièrement consacré auxquestions
de taxonomienumérique (Sokal
etSneath, 1963),
la naissance d’un bulletin d’informationspécial
intituléTaxometrics et édité par L. R.
Hill(1),
et la fondation enAngleterre
d’uneClassification Society,
dont le secrétariat est assuré par J. S. L.Gilmour(2
etqui publie depuis
peu The ClassificationSociety
Bulletin .Nous nous proposons
d’exposer
tout d’abord lesprincipes
dequel-
ques méthodes de classification
numérique,
utilisées notamment en socio-logie végétale
et en taxonomie(paragraphe 2).
Nousreprendrons
ensuitele
problème
sous sa formegénérale (paragraphe 3),
et nous définironsles deux
lignes
de recherchequi
nousparaissent
actuellement lesplus
intéressantes à suivre
(paragraphe 4). Enfin,
nous illustreronsl’exposé théorique
par unexemple (paragraphe 5),
et nous terminerons parquel-
ques conclusions
(paragraphe 6).
II -
QUELQUES
METHODES DE CLASSIFICATIONNUMERIQUE
2.1 - Méthodes utilisées ensociologie végétale
En matière
phytosociologique,
les individus considérés sontgéné-
ralement des
stations,
en chacunedesquelles
a été effectué un relevé devégétation,
et les variables sont descaractéristiques floristiques,
parexemple
l’abondance ou le recouvrement, ou toutsimplement
laprésence
ou l’absence des différentes
espèces végétales.
Le butpoursuivi
est d’éta-blir une classification des différents relevés considérés en un
petit
nom-bre de
types
devégétation
aussihomogènes
quepossible,
ou encore, d’établir une classification des différentesespèces
considérées en unpetit
nombre de groupesd’espèces
decomportement
semblable.Sørensen (1948)
aborde ceproblème
enprocédant
à desregroupe-
mentssuccessifs,
basés sur lesdegrés
de similitude entre relevés ou, d’une manièreplus générale,
entre individus. Dans cebut,
il calculepour
chaque couple
de relevés la valeur d’un coefficient desimilitude , égal
auquotient
du nombred’espèces
communes aux deux relevés par le nombre moyend’espèces présentes
dans chacun d’eux. Il regroupeensuite,
à unpremier échelon,
les différents relevésqui
sont liés par des coefficients de similitudesupérieurs
à une valeur minimum donnée(par exemple 0, 7
ou 70%) ; puis
ilprocède
de même pour les différents groupes ainsidéfinis,
en délimitant des unités deplus
enplus
vastes,correspondant
à des coefficients de similitude deplus
enplus
bas.Les résultats obtenus de la sorte
peuvent
êtresynthétisés graphi- quement
sous la forme dedendrogrammes.
Nous en donnons unexemple
-
(1) Central Public Health Laboratory, Colindale Avenue, London N. W. 9 (Grande-
Bretagne).
(2) University Botanic Garden, Cambridge
(Grande-Bretagne).
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
57
(figure 1),
relatif à unepartie
des données considérées parSørensen(1).
Les relevés 1 et 2 sont les
premiers
à êtreregroupés,
car leur simi- litude est de 78%. Ensuite,
à un niveausupérieur
à 60%,
on réunitd’une
part
les relevés 3 et 4(62 %),
et d’autrepart
les relevés 5 et 6(61 %).
Demême,
le relevé 7 vient sejoindre
au groupedéjà
formépar les numéros 1 et
2,
la similitude moyenne entre ceux-ci étant de 58% ;
et le processus estpoursuivi jusqu’à
son terme, le dernier regrou -pement
étant effectué à un niveau de similitude de 25%.
Figure 1 -
Exemple
de dendrogramme, relatif à des données deSørensen
(1948).Goodall
(1953) envisage
le mêmeproblème
en effectuant des subdi- visionssuccessives,
et cela àpartir
des liaisons entreespèces
ou, d’une manièreplus générale,
entre variables.Quatre
méthodes distinctes sont en réalitéproposées
par Goodall : toutesnécessitent,
pourchaque couple d’espèces,
le calculpréalable
d’un coefficient deliaison, qui peut
être parexemple
un coefficient de corrélation. Si certaines des valeurs ainsi obtenues sontsignificatives,
à un niveau deprobabilité préalablement
fixé en fonction notamment du volume des
données,
on considèreplus particulièrement
les deuxespèces correspondant
au coefficient leplus élevé,
et on effectue unpremier partage
en tenantcompte
d’une manièreou d’une autre de la
présence
de cesespèces.
Lapremière
méthodeproposée
par Goodall consiste à réunir en unpremier
groupe les relevés contenant celle de ces deuxespèces qui
est laplus fréquente.
Les coef-ficients de liaison
interspécifique
sont alors recalculés pour cepremier
sous-ensemble de relevés et traités de la même manière
jusqu’à
l’ob-tention d’un sous-ensemble
homogène,
c’est-à-dire d’un groupe de relevésne
présentant plus
de liaisonsignificative
entre lesespèces.
Tous lesrelevés
qui
ont été écartés sont ensuiterepris
etanalysés progressive-
---
(1) Il s’agit en réalité des sept derniers relevés de végétation analysés par S9Srensen :
nos numéros 1 à 7 correspondent aux numéros 18, 19, 45, 46, 47, 48 et 50 du travail original
(Sørensen,
1948).Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
58
ment de la même
façon. Enfin,
certainsregroupements
ultérieurspeuvent
éventuellement être effectués.Les autres méthodes
proposées
par Goodall ont pourprincipe
deréunir
chaque fois,
au lieu des relevés contenant une des deuxespèces
les
plus
fortementcorrélées,
soit des relevés ne contenantpas
cetteespèce,
soit les relevés contenant simultanément ces deuxespèces,
soitceux
qui
ne contiennent aucune de ces deuxespèces.
Il semble d’ailleurs que, dans certaineslimites,
ces différentes méthodes conduisent à des résultats très semblables.Tout comme
Goodall,
Williams et ses collaborateursproposent
de classer les relevés devégétation
enpartant
des coefficients de liaisoninterspécifique (Williams
etLance, 1958 ;
Williams etLambert,
1959 et1960). Après
avoir réalisé différentsessais,
ces auteurssuggèrent
d’ad-ditionner pour
chaque espèce
les valeurs absolues de tous les coefficientscorrespondants,
et d’effectuer unepremière
subdivision en tenantcompte
de laprésence
et de l’absence del’espèce
pourlaquelle
la somme ainsiobtenue est la
plus
élevée. Chacun des deux groupes de relevés ainsi définis est ensuite subdivisé de la mêmemanière,
en tenantcompte
des valeurs des coefficients de liaison observés à l’intérieur de ces groupes ; et ce processus estappliqué jusqu’à
ce que toutes ou presque toutes les liaisonssignificatives
aientdisparu.
Dans une
publication plus récente,
les mêmes auteurssuggèrent également
d’utiliser cette méthode pourdéfinir,
au lieu de groupes derelevés,
des groupesd’espèces
decomportement
semblable(Williams
et
Lambert, 1961).
Il faut alorspartir
des coefficients de similitude oude corrélation entre les
relevés,
considérés comme lescaractéristiques
ou les
variables,
les différentesespèces
étant considérées comme les individus à classer.D’autres
méthodes, analogues
à celles deSørensen,
de Goodall et de Williams et Lambert ont étéproposées,
notamment parFager (1957)
et par
Hopkins (1957).
Ces dernières méthodes ontplus particulièrement
pour but
d’établir,
àpartir
des liaisonsinterspécifiques,
des groupesd’espèces
étroitement corrélées. La valeur de ces diverses méthodesa été discutée notamment par Harberd
(1960).
2. 2 - Méthodes utilisées en taxonomie
Comme nous l’avons
déjà signalé,
les méthodes de taxonomie numé-rique ont
faitl’objet
d’un ouvrageparticulier,
dû à Sokal et Sneath. D’une manièregénérale,
les méthodes enquestion
ont pour but d’évaluer les similitudes existant entre différentes unitéstaxonomiques (des espèces
animales ou
végétales
parexemple),
et de classer ces unités en fonc- tion des similitudes observées(Sneath
etSokal, 1962 ;
Sokal etSneath, 1963).
Les méthodesproposées
et décrites par Sneath et Sokal sont par ailleurs très semblables à celles utilisées ensociologie végétale.
S’intéressant
particulièrement
à la classification demicroorga- nismes,
Sneath(1957)
détermine tout d’abord lespourcentages
de carac-tères communs aux différents
types
demicrobes,
considérés deux à deux. Apartir
des coefficients de similitude ainsiobtenus,
ilprocède
ensuite à des
regroupements successifs,
selon un processusanalogue
àcelui
adopté
parSørensen
ensociologie végétale. Toutefois,
alors queSørensen
n’introduit dans un groupe que les individus ou lestypes qui
sont suffisamment voisins de tous les membres de ce groupe, Sneath
procède
à un telregroupement
dèsqu’un
individu ou untype
est très sem-Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
59
blable à un membre
quelconque
du groupe considéré. La classification ainsi réaliséepeut également
êtreprésentée
sous la forme d’un dendro- grammemais,
pour un mêmedegré
desimilitude,
on doit s’attendre à définir de cette manière des groupesplus hétérogènes
que ceux de Sørensen.Les diverses méthodes
proposées
par Sokal et ses collaborateursprocèdent également
parregroupements successifs,
la base dedépart
habituelle étant ici la matrice des coefficients de corrélation entre carac-
tères
(Sokal
etMichener, 1958).
D’autrepart,
lesrègles adoptées
parces auteurs sont assez semblables à celles de
Sørensen,
en ce sens que l’introduction d’un individu dans un groupedépend
essentiellement dudegré
de similitudemoyen
de cet individu avec tous les membres du groupe.Enfin,
d’autres méthodes de taxonomienumérique
ontégalement
étéproposées,
notamment parRogers
et ses collaborateurs(Rogers
etTanimoto, 1960 ; Rogers
etFleming, 1964).
Certaines de ces méthodes ont d’ailleurs été utilisées dans d’autres domaines que la classification des êtresvivants,
telle que parexemple
la classification des sols(Bidwell
et
Hole,
1964a et1964b).
2.3 -
Quelques
méthodes utilisées dans d’autres domainesDes
problèmes
de classificationnumérique
seposent également
en
psychologie expérimentale,
notamment en cequi
concerne le choixdes
tests.Souvent,
ilimporte
en effet d’introduire dans une mêmeexpé- rience,
pour chacune desaptitudes
humaines que l’on veutétudier,
un groupe deplusieurs
testspsychologiques
donnant chacun une mesure de cetteaptitude (Holzinger
etHarman, 1941 ; Harman, 1960).
La consti-tution de ces groupes
peut
être réalisée à l’aide d’un coefficientd’ap- partenance (coefficient
ofbelonging, B-coefficient), qui
est défini en fonc -tion du
rapport
de la moyenne de tous les coefficients de corrélation des variablesappartenant
au groupeconsidéré,
à la moyenne des coefficients de corrélation de ces variables avec les autres variables. En considé- rant commepoint
dedépart
dupremier
groupe lecouple
de variables de corrélationmaximum,
onpeut
calculer unepremière
valeur du coef- ficientd’appartenance,
et on doit s’attendre engénéral
à ce que l’intro- duction de toute nouvelle variable dans ce groupe provoque une réduction de cette valeur. Onprocède
alors à de telles introductions de variablessupplémentaires
tant que la diminution du coefficientd’appartenance
n’estpas
trop importante ;
et on constitue ensuite d’autres groupes de la mêmemanière,
enpartant
des variables restantesqui
sont lesplus
étroitement corrélées.Cette méthode a été utilisée
également
enanthropologie,
par Clements(1954).
Toujours
dans le domainepsychologique,
Thorndike(1953) envisage
les
questions
de classification d’un certain nombre d’individus en un nom-bre restreint de groupes, à
partir
des différences ou des distances exis- tant entre ces individus. Il propose deprendre
commepoints
dedépart
des différents groupes les individus les
plus dissemblables,
et d’attribuer à tour de rôle à chacun des groupes l’individuqui
est leplus proche
deceux
dejà
contenus dans le groupe considéré. On obtientainsi,
à une unitéprès,
des groupes de mêmeeffectif ;
et onpeut procéder
ensuiteà des transferts d’un groupe à
l’autre,
de manière à réduire autant quepossible
la variabilité existant à l’intérieur des groupes.Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
60
La diversité des méthodes de classification
numérique
ressort net- tement desparagraphes précédents, qui
n’en donnentcependant qu’une
idée fort
incomplète.
Nous aurions en effet pu citerégalement
certainstravaux
récents,
tels ceux de Bonner(1964),
d’Edwards et Cavalli-Sforza(1965),
de Fortier et Solomon(1965),
deGyllenberg (1963),
de Hillet
al.
(1965),
deMacnaughton-Smith
et al.(1964),
de Schnell(1964)
et de Van Den Driessche(1965),
ou d’autres travauxplus anciens,
antérieurs même à la notion de taxonomienumérique,
tels ceux de Cattell(1944)
etde
Tryon (1939).
Nous aurions puparler
aussi des nombreuses méthodesprorosées
par McQuitty,
et de leurs différentes versions :agreement analysis, elementary linkage analysis, hierarchical linkage analysis,
hie-rarchical
syndrome analysis, comprehensive
hierarchicalanalysis, typal analysis,
rank ordertypal analysis, linkage analysis,
etc ; nous ne cite-rons à ce propos
qu’une
seuleréférence,
à savoir McQuitty (1964).
Cette
énumération,
même trèsincomplète,
des méthodes de classi- ficationnumérique,
met en évidence l’intérêt considérableporté
auxproblèmes
de classification par de très nombreuxchercheurs, appartenant
à des
disciplines
elles-mêmes très variées. Enfait,
il s’avère souventindispensable,
dans de nombreuxdomaines,
d’établir une classification des individusétudiés,
même si cette classification est arbitraire et, dece
fait,
éminemment contestable. Tel est le cas parexemple
en matièred’étude de la
végétation
ou dessols, lorsque
le butpoursuivi
est l’éta-blissement d’une carte de la
végétation
ou d’une carte des sols.Que
lesdifférences existant d’un
type
devégétation
à l’autre ou d’untype
de solà l’autre soient très
importantes
ou trèsréduites,
que l’on se trouve ou non enprésence
de nombreux individus intermédiaires entre lestypes principaux,
il estindispensable,
avant toutecartographie,
deprocéder
à la définition des
types
àcartographier.
III - DISCUSSION GENERALE DU PROBLEME 3.1 -
Exposé
duproblème
La diversité des méthodes de classification résulte évidemment du fait que des chercheurs
appartenant
à desdisciplines
différentes ont oeuvréindépendamment
les uns des autres ; mais cette diversitéprovient
aussi de ce que lesproblèmes
considérés ne sont pasidentiquement
lesmêmes dans tous les cas. Aussi nous
parait-il
intéressant depréciser
ces
problèmes,
et leurs différentesvariantes,
avant de comparer les méthodes.D’une manière
générale,
on considère un ensemble de nindividus,
pour chacundesquels
on a observé p variables. Dans certains cas, les individusconstituent,
ou sont considérés comme constituant un échantillonprélevé
au hasard dans unepopulation plus
étendue : c’estgénéralement
le cas pour des relevés de
végétation,
desorganismes végétaux
ou ani-maux, ou des individus soumis à des tests
psychologiques.
Mais les in- dividus étudiéspeuvent également
êtreparfaitement spécifiés,
et constituerl’ensemble de la
population qui
estprise
en considération : c’est le cas pour destypes
devégétation préalablement définis,
pour des variétésou des
espèces végétales
ou animales connues, pour des groupes socio-logiques donnés,
etc.Cette
distinction, qui s’apparente
à celle intervenant dans la défini -- tion des modèles fixes et aléatoires del’analyse
de lavariance,
est fon - damentale.Lorsque
les individus sontaléatoires,
la définition desclasses,
ou groupes
d’individus,
se confondsimplement
avec la subdivision d’unRevue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
61
espace à p
dimensions,
danslequel
onpeut représenter
les nindividus ,
en autant de
régions qu’il
y a de classes. Parcontre, lorsque
les in-dividus sont
fixes,
c’est-à-direlorsque
l’on a affaire à destypes préa-
lablement
définis,
leproblème
secomplique généralement
par le fait que l’on ne recherche pas seulement une classification destypes,
maisaussi des informations relatives aux relations existant entre ces
types,
et
impliquant généralement
une certainehiérarchisation,
ou une certaineinterprétation
des critères de classification. Lesproblèmes
de classifi-cation de
types
ou de groupes d’individus viennent donclogiquement après
ceux de classification des individus
eux-mêmes,
en groupes ou entypes :
en taxonomie par
exemple,
la classification desespèces
ou des genresen
familles,
enordres, etc,
nepeut
se fairequ’après
la classification desespèces
ou des genres.D’autre
part,
nous avons vuégalement
que le butpoursuivi pouvait
être d’établir une classification des
caractères,
et non pas desindividus,
ainsi que cela seprésente
notamment ensociologie végétale (classification
des
espèces)
et enpsychologie (classification
destests).
3. 2 -
Comparaison théorique
dequelques
méthodesEn ce
qui
concerneplus particulièrement
lesméthodes,
les diffé- rentsproblèmes peuvent
être abordés soit enpartant
des liaisons entrevariables,
soit enpartant
des similitudes entre relevés. Danschaque
cas,on est amené aussi à choisir un des nombreux coefficients de liaison et de similitude
proposés :
ce choixdépend
notamment du caractère qua- litatif ouquantitatif
des données considérées(Dagnelie, 1960 ;
Goodmanet Kruskal, 1959 ;
Sokal etSneath, 1963). Enfin,
on doitdistinguer
lesméthodes
procédant
parregroupements progressifs,
àpartir
de noyaux peuimportants,
de cellesprocédant
par subdivisionssuccessives,
condui-sant à la formation de groupes de
plus
enplus
restreints et deplus
enplus
nombreux.En tenant
compte
de ces diverses alternatives(classification
desindividus ou des
caractères,
individus fixes oualéatoires, etc. ),
nousavons condensé en un tableau les
caractéristiques
essentielles dequelques méthodes,
choisiesparmi
lesplus importantes (tableau 1).
Ces infor- mations doiventcependant
êtreinterprétées
avecprudence,
comme nousallons le
souligner
enpassant
en revue une nouvelle fois les différentescaractéristiques.
Déjà
ausujet
de lapremière alternative, qui
concerne la classi- fication des individus(I)
ou des caractères(C),
des doutespeuvent
seprésenter.
La distinction entre individus et caractères est en effet assezconventionnelle. En
sociologie végétale
parexemple,
onpeut
admettre que laprésence
de telleespèce
dans telle stationpermet
aussi bien de caractériser lesqualités
de cettestation, l’espèce
étant alors lecaractère,
que lesexigences
del’espèce considérée,
la station étant alors le caractère. Nous avons en réalitéadopté chaque
fois lepoint
de vuequi
nousparaissait
leplus logique
ou leplus important.
En ce
qui
concerne le caractère fixe(F)
ou aléatoire(A)
des indi-vidus,
nous avons noté autant quepossible
lepoint
de vueadopté
par les auteurs au cours de leurspremiers
travaux, bien que de nombreuses méthodespuissent
être utilisées indifféremment dans les deux cas. D’une manièregénérale,
on remarqueraqu’en
taxonomie(paragraphe 2.2),
lesindividus sont
pratiquement toujours
considérés commefixes,
leproblème
étant essentiellement d’établir une classification ou une hiérarchisation de races, de variétés ou
d’espèces préalablement
définies.Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
62 Tableau 1
Principales caractéristiques
dequelques
méthodes de classificationnumérique.
Quant
à la nature desdonnées,
nous avons tenucompte
danschaque
cas des données
qui
interviennent réellement dansl’analyse, après
une éventuelle codification. Il est en effetfréquent
que des variables de nature fondamentalementquantitative
soient transformées en variables alterna-tives,
nepouvant prendre
que les valeurs conventionnelles 0 et 1. De telles variables ont étégroupées
avec les donnéesqualitatives proprement
dites et, commeelles, désignées
par lesymbole "0/1".
Par contre, lesvariables de nature
quantitative,
intervenant comme telles dansl’analyse,
ont été
marquées
d’un X. Ils’agit évidemment,
iciaussi,
des données considérées par les auteurs au cours de leurspremiers travaux,
laplu- part
des méthodespouvant
êtreadaptées
aux différentstypes
de données .Au
sujet
des différentsparamètres qui peuvent
être calculés pourmesurer soit les liaisons ou les corrélations entre caractères
(C),
soit lessimilitudes,
les distances ou les corrélations entre individus(I),
nous avons
désigné
par R le coefficient de corrélation et ses dérivés immédiats(coefficient
de corrélation depoint
et variableX2,
pour des donnéesqualitatives),
par D les différentes notions de distance(diffé-
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
63
rences moyennes, distances
généralisées
au sens deMahalanobis, etc. ) ,
et par A les autres
paramètres
utilisés.Enfin,
nous avonsdésigné respectivement
par R et par S les mé- thodesprocédant respectivement
parregroupements
et par subdivisions.Il faut noter
cependant
que certaines méthodes basées essentiellementsur le
principe
des subdivisions successivespeuvent
se terminer parquelques regroupements
de classes voisines.Bien
qu’il
ne fasse intervenir que sixcaractéristiques,
le tableau ainsi dressé montre que les méthodesenvisagées
sont dans l’ensembletrès différentes les unes des autres. Seules
quelques
méthodes sont iden-tiques
aux sixpoints
de vue considérés : tel est le cas parexemple
pour les méthodes de Goodall et de Williams et al. d’unepart,
de Thorndike et de Van Den Driessche d’autrepart.
IV - LES PRINCIPALES POSSIBILITES DE RECHERCHE 4.1 - Deux
lignes
derecherche
En
présence
de ces nombreuses méthodes de classification numé-rique,
il nous sembleindispensable,
pour progresser réellement dansce
domaine,
de commencer par en débrouiller l’écheveau. Deuxlignes
de recherche différentes
peuvent
être suivies dans ce but : l’une consiste à comparer les méthodesexistantes,
l’autre à rechercher immédiatementune méthode
optimale.
De toute
façon,
il s’avère nécessaire de se fixerpréalablement
un ouplusieurs
critèresd’optimalité,
sansqu’il
soitcependant possible
dechoisir un critère
unique,
valable dans toutes les situations rencontrées . Le butpoursuivi
leplus
souvent étant de définir des classes d’individus(ou
decaractères)
aussihomogènes
quepossible,
il nous semblejustifié
d’utiliser surtout des critères
d’homogénéité,
basés parexemple
sur lesnotions de distance
généralisée
ou de variancegénéralisée (Anderson, 1958 ; Kendall, 1957).
Une classificationoptimale
serait cellequi
assure,pour un nombre donné de
classes,
soit une valeur moyenne minimum des distancesgénéralisées
entre individus à l’intérieur desclasses,
soitune valeur moyenne maximum des distances
généralisées
entreclasses ,
soit une valeur minimum de la variancegénéralisée
dans lesclasses ,
soit une valeur maximum de la variancegénéralisée
entreclasses,
cesquatre
critères étant étroitement liés les uns aux autres.En relation avec une
analyse
de la variance àplusieurs
variables(analyse
de ladispersion),
le critèred’optimalité pourrait
êtreégalement
un
rapport
de deux variancesgénéralisées :
soit lerapport
de la variance factorielle(entre classes)
à la variance résiduelle(dans
lesclasses),
soit le
rapport
de la variance factorielle ou de la variance résiduelle à la variance totale.Certains auteurs, dont Edwards et Cavalli-Sforza
(1965),
ontdéjà
utilisé certains de ces critères.
D’autres,
notamment Sneath(1957),
ontproposé
des critèresdifférents,
basés parexemple
surl’emploi
de l’unou l’autre coefficient de
similitude,
mais de tels critères ont l’inconvénient de ne pas tenircompte
des liaisonspouvant
exister entre les caractères étudiés.Il
peut
être utileégalement,
notamment si l’on utilise la notion de distancegénéralisée,
d’effectuer avant touteanalyse
une standardisation des variables. Les résultatsobtenus,
et notamment les distances calcu-Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
64
lées, dépendent
en effet des unités utilisées pour les différentes varia-bles,
et cet inconvénientpeut
être éliminé notamment enpartant
des variables réduites. Au lieu d’effectuer cette réduction variable par varia-ble,
onpeut également opérer
une transformationglobale
desvariables ,
en soumettant la matrice de corrélation à
l’analyse
descomposantes .
Cettefaçon
de faire a, en outre, le doubleavantage
de conduire d’unepart
à l’utilisation de variables noncorrélées,
et depermettre
d’autrepart
une réduction souventimportante
du nombre de variablesprises
en considération.
4.2 - La
comparaison
des méthodes existantesQuelques publications
ont étéconsacrées,
totalement oupartielle- ment,
à lacomparaison
de diverses méthodes de classification numé-rique.
Il en est ainsi parexemple
des travaux de Bonner(1964)
et de Goodall(1953), qui présentent,
en lescomparant, plusieurs
méthodesde classification. De
même,
Beers et al.(1962),
ainsi que Hill et al.(1965),
ontcomparé
diverses méthodes de classification.D’autre
part,
Sokal et Rohlf(1962)
ontproposé
une méthode decomparaison
de différentsdendrogrammes provenant
des mêmes données .Toutefois,
si cette méthodepermet
d’évaluer la similitude existant entre deux ouplusieurs dendrogrammes,
elle ne fournit aucune informationquant
au fait que certains desdendrogrammes
considérés sont"meilleurs"
que les autres.
Enfin,
Sokal et Sneath(1963) signalent plusieurs publications
rela-tives à la
comparaison
desparamètres,
et discutent eux-mêmes les mé- rites deplusieurs
méthodes de classification. Rohlf et Sokal(1965)
ontd’ailleurs consacré un travail récent au même
sujet.
Toutes ces recherches sont
cependant
deportée
relativement res-treinte,
en ce sens que lescomparaisons
réaliséesportent
seulement surun
petit
nombred’exemples,
souvent unseul,
et ne font intervenirqu’un petit
nombre de méthodes. Il serait utile en réalité de comparer entreelles,
autant quepossible,
toutes les méthodesqui poursuivent
un mêmebut,
en traitant par ces différentes méthodes un nombre aussi élevé quepossible
d’ensembles dedonnées,
réelles ouhypothétiques.
La compa-raison devrait
porter
non seulement sur l’un ou l’autre critèred’opti- malité,
tel que ceuxqui
ont été citésci-dessus,
mais aussi sur d’autresconsidérations,
commel’importance
des calculs nécessités par les diverses méthodes. Eneffet,
les moyens modernes de calculpermettent l’emploi
de méthodeschaque jour plus complexes,
mais le coût d’utili - sation de ces moyens de calcul nepeut
en aucunefaçon
êtrenégligé.
Une étude
comparative
telle que celle que nouspréconisons
de réa-liser
représenterait
évidemment un travailconsidérable, qu’il
serait utile derépartir
entre différents chercheurs ou différents groupes de cher- cheurs : dans cedomaine,
une collaborationorganisée
serait certaine - mentpréférable
à l’élaboration désordonnée de méthodes deplus
enplus
nombreuses.4. 3. - La recherche d’une solution
optimale
Diverses tentatives de recherche d’une solution
optimale,
au sensdéfini
ci-dessus,
ont été réalisées. Edwards et Cavalli-Sforza(1965),
par
exemple, proposent
d’effectuer lapremière
subdivision de l’ensemble des individus considérés de manière à assurer une variance maximum entre classes : d’unefaçon générale, l’application
de ceprincipe
nécessiteRevue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
65
cependant,
pour nindividus,
lacomparaison
des variancescorrespondant
aux
2-1 -
1 solutionspossibles.
Ces auteurssuggèrent également
de pour- suivre de la sorte, par subdivisionssuccessives,
tout en reconnaissantqu’il
ne faut pas s’attendre à obtenir ainsi une classificationoptimale,
même si chacune des
subdivisions,
considéréeindividuellement,
est op- timale.Le
principe adopté
par Edwards et Cavalli-Sforza dans le cas d’une dichotomiesimple, pourrait théoriquement
être étendu à une subdivisionplus complexe,
en un nombrequelconque
de classes.Toutefois,
le nom- bre de solutions à compareraugmente
trèsrapidement
en fonction du nombre d’individus n et du nombre de classes m, de telle sorte que,pratiquement,
leproblème
devientrapidement
insoluble. Le tableau 2 donne les nombres desolutions,
ou leur ordre degrandeur,
pourquelques
valeurs de n et de m. Ces résultats ont été obtenus à l’aide de
règles simples d’analyse combinatoire,
et contrôlés en utilisant notamment lespropriétés
donnéesindépendamment
par Edwards et Cavalli-Sforza(1965)
et par Fortier et Solomon
(1965).
Tableau 2
Nombre de solutions
théoriquement possibles (ou
ordre degrandeur
dece nombre de
solutions),
pour différents nombres d’individus(n)
etdifférents nombres de classes
(m).
Selon Edwards et
Cavalli-Sforza,
le nombre de solutionsSn..
estégal
à ni/m!
fois le coefficient de x° dans ledéveloppement
en sériede
(e" - 1)*,
c’ est-à -dire d’une manièregénérale :
et en
particulier,
pour m = 3 :pour m = 4 :
et pour m = 5 :
Pour n suffisamment
grand
parrapport
à m, l’ordre degrandeur
du nom-bre de solutions est, d’une manière
générale :
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
66
Fortier et Solomon donnent d’autre
part
une formulegénérale plus
com-plexe,
conduisant aux mêmesrésultats,
ainsi que la formule de récur-rence suivante :
S’il s’avère donc vite
impossible,
oupratiquement impossible
decomparer toutes les
solutions,
onpeut cependant envisager
lapossibilité
de comparer celles de ces solutions
qui
sont réellementadmissibles, compte
tenu de ladisposition
despoints
dansl’espace
à p dimensions . Dans le cas d’une seule variable(p = 1),
les différentes solutions admis- siblespeuvent
être obtenues enchoisissant,
sur l’axecorrespondant,
autant de
points
que l’on désire former declasses,
moins un. Cespoints peuvent
être choisisindifféremment,
mais à raison d’un seul par inter-valle,
dans les n - 1 intervalles existant entre les individus : le nombre de solutions admissibles est doncégal
àn 1
. Toute autre solutionest
inadmissible,
car ellesupposerait qu’au
moins un individuappartenant
à une classe donnée estcompris
entre deux individusappartenant
à une même autre classe. Parcomparaison
avec le tableau2,
le tableau 3 montre que la réduction ainsiopérée
est considérable.Tableau 3
Nombre de solutions
admissibles,
pour différents nombres d’individus(n)
et différents nombres de classes
(m),
dans le cas d’une variable(p
=1).
Comme nous le verrons
plus
loin par unexemple (paragraphe 5. 4),
ce
principe peut
être étendu facilement aux cas lesplus simples
à deuxvariables
(p = 2).
Dans un espace à deuxdimensions,
onpeut
en effet écarter apriori
toutes les solutions tellesqu’un
individu d’une classe se trouve situé dans untriangle
dont les trois sommetscorrespondent
àdes individus d’une même autre classe. Pour
cinq
individus(n = 5)
etdeux classes
(m = 2),
parexemple,
que lespoints
formant le contour extérieur de l’ensemble soient les sommets d’untriangle,
d’unquadrila-
tère ou d’un
pentagone,
onpeut toujours
montrer que seules 10 des 15 solutions àenvisager
sont réellement admissibles. Parextension,
il pour- rait êtrepossible
de limiter d’une manièregénérale
le nombre de solu- tions àprendre
en considération et,peut-être,
d’aboutir à unalgorithme
utilisable. Tout comme la méthode dusimplexe
enprogrammation linéaire,
cet
algorithme pourrait
être basé essentiellement sur l’étude d’ensemblesconvexes : d’une manière
générale,
on doit en effet écarter apriori
toute solution telle
qu’un
individu d’une classe se trouve à l’intérieur d’unRevue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
67
polyèdre
convexe dont les sommetscorrespondent
à des individus d’une même autre classe.En l’absence de solution
optimale,
ilpourrait
être utile de recher- cher des solutionssuboptimale-s,
en utilisant l’une ou l’autre des méthodes citées ci-dessus. Onpeut
penser parexemple
que la méthode de Thorndike(paragraphe 2.3)
doit donner des résultats assez voisins del’optimum,
mais cette méthode devrait
pouvoir
être encore améliorée enprocédant
comme suit.
Après
avoirchoisi,
pour définir mclasses,
les mpoints
lesplus éloignés
les uns desautres,
c’est-à-dire les m individus asso-ciés par
exemple
à laplus grande variance,
onpourrait
s’efforcer d’in- troduire chacun des n - m individus restants dans chacun des membryons
de groupes ainsi
formés,
et onadopterait
la solution la meilleure. Onprocéderait
ensuite de même avec les n - m - 1 individus nonclassés, puis
avec les n - m - 2 individus
toujours disponibles,
etc. Une telleprocédure nécessiterait,
audépart,
lacomparaison
de(m )
solutions et, au coursdes
étapes successives,
dem(n - m), m(n - m - 1), m(n - m - 2),
... so- lutions. Le nombre total de solutions à comparer est donc :et le tableau 4 montre que les nombres de solutions ainsi obtenus devien- nent
rapidement
très inférieurs aux nombres de solutions existant apriori (tableau 2).
Tableau 4
Nombre de solutions à comparer pour établir une classification
"suboptimale",
pour différents nombres d’individus(n)
et diffé- rents nombres de classes(m).
Dans le même ordre
d’idée,
il fautsignaler
l’essai réalisé par Solomon et Fortier(1965).
Utilisant le coefficientd’appartenance
dont ila été
question
au cours duparagraphe 2.3,
ces auteurs ont tenté de déterminer une solutionsuboptimale
enprocédant
à unéchantillonnage
de l’ensemble des solutions
possibles.
Mais ceprocédé s’est
avéré assezdécevant,
en raison du fait que les solutionsoptimales
etsuboptimales
sont nécessairement
excentriques.
La recherche d’une solution
optimale
ousuboptimale
soulèveéga-
lement le
problème
de la détermination du nombre declasses
à établir .En
réalité,
il faut s’attendre à ce que ce nombre de classesdépende
souvent de considérations
pratiques, plus
ou moins arbitraires. Onpeut envisager
néanmoins lapossibilité
de fixer d’une manière relativementRevue de Statistique Appliquée 1966 - Vol. XIV - N’ 3