Article
Reference
L'analyse des clusters en anthropologie physique, une nouvelle méthode : les dendrogrammes tridimensionnels
MENK, Roland
Abstract
Dans cet article on passe en revue les principales méthodes de classification numérique: les sériations et les dendrogrammes. En comparant leurs avantages et inconvénients on remarque leur complémentarité. La sériation ne permet de tenir compte que d'une partie (souvent faible) de l'information disponible. Les dendrogrammes - bien qu'intégrant la totalité d'information - sont de nature exclusivement descriptive et - contrairement aux sériations - ne comportent aucun élément permettant une interprétation causale immédiate des associations relevés. En plus, ils souffrent d'un défaut majeur quant à l'ordonnancement des objets. Tirant profit de leur complémentarité, nous avons développé une procédure qui est une combinaison des deux méthodes de base: les stéréodendrogrammes. Ce procédé permet de réunir les avantages respectifs des deux méthodes de base, tout en évitant leurs inconvénients. La matérialisation de la structure tridmensionnelle, ainsi que la détermination de la meilleure représentation (choix des angles de vue) sont réalisées par un ordinateur graphique interactif.
MENK, Roland. L'analyse des clusters en anthropologie physique, une nouvelle méthode : les dendrogrammes tridimensionnels. Archives suisses d'anthropologie générale , 1980, vol.
44, no. 1, p. 51-59
Available at:
http://archive-ouverte.unige.ch/unige:97020
Disclaimer: layout of this document may differ from the published version.
1 / 1
L'analyse des clusters en anthropologie physique une nouvelle méthode:
les dendrogrammes tridimensionnels
par
Roland MENK
Introduction
La taxonomie, démarche classificatoire scientifique (se voulant donc objective et rigoureuse), a connu un essor très remarquable pendant la dernière quinzaine d'années, et cela à la suite de l'évolution vertigineuse des moyens de traitement d'information. C'est ainsi qu'une nouvelle branche, la taxonomie numérique, a pu se développer et s'affirmer dans une vaste gamme de disciplines, dont l'anthropologie physique.
Très innovatrice de par sa créativité méthodologique ainsi que par les ouvertures réalisées sur le plan pratique, elle s'est avérée être enrichissante et fructueuse dans d'innombrables applications. L'essor de la taxonomie numérique s'est donc fait selon deux axes: d'une part en largeur-diffusion dans différents domaines d'application, et en profondeur d'autre part - développement et perfectionnement méthodologique et technique. On se limitera ici à ce dernier aspect.
Le développement en «profondeur» a connu une ampleur presque inquiétante, à tel point que le chercheur-praticien - trop souvent sans bagage théorique suffisant en la matière- se trouve désemparé devant l'embarras du choix des méthodes proposées dans une littérature devenue abondante 1. Cette abondance déconcertante est assez largement justifiée; sa raison d'être réside dans la diversité de la nature des données à traiter, ainsi que de celle des problématiques soulevées. Mais il n'en reste pas moins qu'un certain malaise subsiste, reflétant des défauts et des insuffisances souvent non négligeables dont souffrent les méthodes courantes.
Méthodes disponibles
Il existe, en taxonomie numérique, essentiellement deux catégories de méthodes:
- la sériation ou ordonnancement (en anglais: ordination);
- l'analyse des dendrogrammes.
La sériation consiste à ranger les objets à classer sur un axe (éventuellement deux ou trois), et cela en fonction de variables pouvant être
- soit des données brutes (qui sont le plus souvent trop peu efficaces pour permettre d'aboutir à une classification utilisable);
- soit des variables issues de transformations, telles les analyses multivariées (fonctions linéaires de composantes principales ou discriminantes, etc.), qui sont en général beaucoup plus efficientes.
l Dans la pratique, cependant. ce choix est souvent sérieusement réduit; il est dicté, en fait, par ce qu'offrent, sous forme de programmes préétablis, les centres de calcul à leurs utilisateurs.
52 ROLAND MENK
FONCTION 1 FONCTION 2
buriat-- -28
19
bushman-- Cl) 27 703"C
c»
=-
C... en
.a,
Cl) C
"C
c»
dogon..._.E =-
oerg...__ Cl)C egypt
-;;:;:,
=:;
en
buriat�li M
arikara-- C C norse
eskimo--
E
andamans--zalavar-teita--=.z
n:I .. .:. :-lf!
zulu-- c.,:·
...
berg----
fjf
;;:: -:-:.mokapu- �:�: �:.:
·C �� it
ti
·;>.;peru--
norse---- "C
=
Cl)zalavar--
==
Cl) peru-- Cl)n:I y
=
�� :-"C..2 =
.::,. C
en
lî =
egypt- arikara __ C
eskimo-
E
Cl).
andamans-- Q);;
tasmania_ ::C)
�,
�;tolai- !
teita--
-
� Cl)s. australia---- u,;.."":!
=,':
"' u, mokapu-- "C ..c»:
bushman--
ce:m
"C=-
s.australia--�tt
il
zulu-- C a..
tasmania--
.a,
en
dogon-
=
-38 81 tolai--22 629
FIG. 1.- Sériations univariées de 17 populations humaines récentes (mâles) selon les fonctions discriminantes l et 2; d"après Howells (1973). Aucune des deux sériations ne fournit, à elle seule, une ségrégation totalement satisfaisante (voir le cas des groupes
mélanodermes: australoïdes et négroïdes).
Pour illustrer la suite de ces propos, nous nous sommes basé sur l'étude craniométrique, présentée par Howells (1973), portant sur 17 populations récentes provenant du monde entier. Les figures 1 et 2 montrent deux types de sériations basées sur deux variables2 prises isolément d'abord, et conjointement ensuite. Les possibilités pratiques de la sériation s'arrêtent en général à deux dimensions prises en considération simultanément. Dans le cas où le nombre d'objets est faible, il est possible, toutefois, de construire un dessin de perspective permettant la représentation simultanée de trois axes (voir Howells 1973, p. 65).
Ces exemples montrent l'utilité de la procédure de sériation: en recourant à des paramètres puissants, on aboutit, dans le cas présent, à un découpage taxonomique parfaitement clair et significatif à plusieurs points de vue. Toutefois, il faut noter que la sériation ne permet de rendre compte que d'une partie limitée de l'information disponible.
Dans des circonstances moins favorables - et il convient de rappeler qu'on se trouve ici dans un contexte optimal: les 17 populations embrassent pratiquement la totalité de la gamme de variabilité humaine-c'est souvent insuffisant. Notons par contre un avantage certain de cette procédure, à savoir l'«interprétabilité» causale des constellations obtenues. En effet, les facteurs responsables des regroupements (rèssemblance des objets à l'intérieur des groupes; dissemblance entre les groupes) peuvent être identifiés de manière assez immédiate3•
27.70---�
négro;-t1,
N z 0
t;
z0 u..
*
bushman esaustraloïdes
*
s. austral�asman tolai*
caucasoïdes
norse
*
*
zalavararikara eskimo
•*
mokapu
*
buriat*
22.63+---;
38.81 FONCTION 1 28.19
Fm. 2.-Sériation bivariée des mêmes populations selon les deux mêmes fonctions discriminantes; d'après Howel!s (1973). Ajustement des échelles selon l'importance des fonctions discriminantes (25.2% et 16.5% de la variance totale, soit 41.7%). Cette double sériation
donne une image satisfaisante de la situation générale, mais le schéma est encore grossier.
2 Il s'agit ici des deux premières fonctions discriminantes, établies sur les centroides des 17 groupes.
La première fonction (résumant 25.2% de la variance totale) permet de mettre en évidence les sous-ensembles suivants:
Mongoloïdes, Caucasoïdes et «Mélanodermes» (sans différenciation entre Négroïdes et Australoïdes).
La seconde fonction (16.5% de la variance totale) produit une nette séparation entre Négroïdes et Australoïdes, tout en maintenant la différenciation entre Caucasoïdes.
La combinaison des deux fonctions (41.7o/o de la variance totale) fournit une image très claire de la situation typologique.
géographique et phylogénique.
3 En ce qui concerne les variables brutes·cela va de soi. Quant aux fonctions linéaires, issues de diverses procédures multivariées.
l'identification des principaux «agents taxonomiques» est toujours possible (interprétation du contenu des vecteurs propres associés aux fonctions en question).
54 ROLAND MENK
La seconde catégorie de méthodes classificatoires - les analyses de clusters - se caractérise tout d'abord par le fait qu'elle permet une prise en considération exhaustive de l'information disponible. En effet, les matrices de distances (ou de similitudes), qui constituent les bases des dendrogrammes, sont en général calculées sur l'information totale.
Les dendrogrammes, en tant que schématismes de synthèse, jouissent d'une
«popularité» remarquable, en anthropologie comme ailleurs. Ce succès de diffusion est bien mérité, car ils constituent un moyen efficace de venir à bout - par un graphisme aisément assimilable - de structures relationnelles compliquées. Cependant, il convient d'énoncer un certain nombre de réserves à leur endroit.
Premier défaut: l'arrangement des objets sur l'ordonnée (voir fig. 3) est en grande partie arbitraire et, le plus souvent, dépourvu de toute signification. En effet, chaque
«fourchette», marquant la réunion de deux objets (ou de sous-clusters), est a priori non définie quant à son orientation: toute fourchette peut être librement réorientée (par rotation de 180°, pour rester dans le plan du dessin). A cause de cet inconvénient grave, l'ordonnée est quasiment ininterprétable; elle peut être lue, tout au plus, par petits segments. Donc, l'arrangement des objets sur l'ordonnée ne possède pas les qualités d'une sériation: en effet, on aboutit inéluctablement à des rapprochements qui sont d'un non
sens éclatant (voir fig. 3) et que l'on devrait pouvoir s'attendre à ne pas trouver dans une représentation prétendant être globale. Le défaut dont nous venons de parler plus haut
zulu dogon teita andamans
• 1:olai bushman tasmania
• s. aus1:ralia norse
zalavar berg
* egyp1: arikara
perumokapu eskimo buriat
F1G. 3.- Dendrogramme des relations phénotypiques entre les 17 populations; d'après Howells (1973). Ce graphique est basé sur la totalité de l'information (distances généralisées de Mahalanobis). On remarque, comme principal inconvénient, des voisinages
dépourvus de toute signification (flèches).
entraîne un inconvénient supplémentaire, à savoir la nécessité de devoir disposer les objets, sur l'ordonnée, de manière équidistante4, ce qui, non plus, ne traduit aucune réalité biologique.
Second défaut: un dendrogramme constitue, en quelque sorte, la «quintessence descriptive» d'une structure relationnelle complexe. Mais, en tant que tel, il ne fournit aucun élément explicatif quant aux causes des associations établies entre objets. Ainsi, au vu du seul dendrogramme, il est impossible de dégager les critères responsables des différents regroupements -ou séparations - mis en évidence par celui-ci. La recherche de ces critères sous-jacents constitue, dans la pratique, un travail souvent fastidieux et ardu. Il s'agit là d'un désavantage évident par rapport aux méthodes de sériation.
En dehors de ces deux défauts majeurs, il faut encore faire état de la multiplicité de variantes méthodologiques. En effet, si l'on considère le nombre de recombinaisons possibles entre les éléments énumérés ci-après - dont la plupart peuvent se combiner indépendamment de tous les autres - il y a lieu de s'inquiéter:
1. du choix parmi les coefficients de distance (appliqués surtout aux variables quantitatives) ou de similitude (variables qualitatives);
2. du choix de la métrique;
3. du choix du critère de clustering:
- «moindres carrés»
- intravariance minimum/intervariance maximum - minimum «spanning tree»;
4. clustering pondéré ou bien non pondéré;
5. clustering par agglomération successive ou par subdivision successive;
6. échelonnage équidistant ou bien non-équidistant des objets sur l'ordonnée;
7. présence/absence d'«overlapping» des clusters;
8. «hard clustering» ou bien «fuzzy clustering» (Corluy 1979).
La prolifération actuelle de méthodes-aussi déconcertante soit-elle pour l'utilisateur - est le résultat et le témoignage de toute une phase de recherche méthodologique très riche et très créative où l'on a tenté d'exprimer- à travers le concept attrayant qu'est la représentation dendrographique - toute une série d'éléments intervenant dans l'appré
ciation quantitative globale des liaisons existant entre un certain nombre d'objets à classer. Cela comporte, en fait, autant de décisions à prendre face au problème ardu de l'établissement du rapport ressemblance/dissemblance (ressemblance entre les deux objets en passe d'être classés, ainsi que de leur dissemblance face au reste des objets-qui, à leur tour, seront soumis à cette procédure).
Aussi attrayante que la méthode des dendrogrammes puisse paraître, la compression d'une réalité complexe dans un schéma à deux dimensions aboutit inéluctablement à des conflits, au point même que l'une des deux dimensions - l'ordonnée - perd sa consistance. Afin de tenter de sortir de cette impasse, nous présentons ci-après une nouvelle méthode qui, tout en introduisant une dimension supplémentaire, permet du même coup de revaloriser la précédente.
4 Certaines techniques (MacCammon and Wenninger 1974) ne sont pas soumises à cette contrainte; elles permettent, de ce fait, une lecture plus enrichissante, étant donné que la nature de l'intra- et intervariance de sous-clusters peut être exprimée dans une certaine mesure. Toutefois. le problème de l'orientation des fourchettes n'est pas résolu de manière satisfaisante.
56 ROLAND MENK
Les stéréodendrogrammes
La méthode des stéréodendrogrammes consiste à combiner la technique de la sériation avec ceile des dendrogrammes. Quant à son concept de base, elle est très simple: il s'agit d'ériger un dendrogramme sur un plan, sur lequel se trouvent - définis par une double sériation - les objets à classer. Dendrogramme et plan de base sont calculés au préalable selon des méthodes courantes, choisies en fonction de critères inhérents à la probléma
tique particulière de l'application. La «greffe» du dendrogramme sur le plan (x, y) se fait selon les règles suivantes: a) les ramifications terminales - «porteuses» des objets - touchent le plan à l'endroit qui leur est assigné par les deux coordonnées x, y de l'objet en cause; b) leur hauteur reste inchangée (à un facteur d'échelle près). On obtient ainsi une configuration stérique définie sans équivoque, respectant parfaitement les deux structures de départ (fig. 4).
Il convient de relever la complémentarité des deux représentations initiales. Le plan de la double sériation (par exemple les deux premières composantes principales ou fonctions discriminantes) n'exprimant qu'une partie de l'information totale, est enrichi par le dendrogramme qui exprime la totalité de l'information. Le dendrogramme pour sa part
étant initialement non défini ni quant à la rotation des fourchettes, ni quant à l'écartement de ses ramifications - prend maintenant une forme définie qui lui est imposée par le plan de base. On parvient ainsi à pallier tous ses inconvénients majeurs: 1) le problème des voisinages «non-sens»; 2) le problème des distances intra- et inter-cluster; 3) le problème de l'interprétabilité.
L'objet stérique étant ainsi défini, il reste un problème crucial à résoudre: celui de sa matérialisation. Plutôt que d'envisager une construction tridimensionnelle réelle (maquette, prohibitive dans la pratique), nous nous sommes orienté vers une représenta
tion graphique, sous forme d'un dessin en perspective. On se heurte alors au problème de
fonction 1 (25,2%) FIG. 4.- Stéréodendro�amme, combinant la sériation bivariée (fig. 2) et le dendrogramme (fig. 3).
On remarque que le problème des voisinages aberrants, tels que ceux rencontrés dans la figure 3, est résolu (traits pointillés). Grâce à la partie dendrographique du schéma, la représentation des affinités entre groupes est plus différenciée que dans la figure 2. Grâce au plan discriminant de base, il est immédiatement possible - connaissant la signification morphologique des deux fonctions - d'en dégager les principaux agents de différenciation entre deux groupes (orientation de la fourchette de liaison par rapport au plan de base).
l'orientation: sous quel angle de vue faut-il représenter le stéréodendrogramme pour en assurer le meilleur rendement visuel? Il y a une infinité de possibilités ...
La solution de choix nous est offerte par un ordinateur graphique interactif5 permettant non seulement d'afficher la configuration - en perspective- sur un écran de visualisation, mais encore de la manier, à volonté, dans tous les sens: translations,
FIG. 5.-Photographies successives du stéréodendrogramme sur écran de visualisation. Rotations et translations peuvent être réalisées dans tous les sens. En plus. on peut effectuer des rapprochements. des agrandissements locaux. ainsi que de l'effet de profondeur.
S Système VecroR GENERAL 3404, comportant un écran à rayon cathodique de précision et un ordinateur POP 11/60, ainsi qu'un logiciel graphique hautement performant, programmable en FORTRAN-IV.
58 ROLAND MENK
rotations, changements de perspective, rapprochements («zooming»; on peut même se déplacer, fictivement, à l'intérieur de l'objet ... ), sans que la forme de l'objet soit modifiée (fig. 5). Une fois l'orientation convenable choisie, il suffit de photographier l'écran.
Nous tenons à remercier M. Georges Puissant, programmeur-analyste, qui a pris en charge toute la programmation de cette application graphique.
RÉSUMÉ
Dans cet article on passe en revue les principales méthodes de classification numérique: les sériations et les dendrogrammes. En comparant leurs avantages et inconvénients on remarque leur complémentarité. La sériation ne permet de tenir compte que d'une partie (souvent faible) de l'information disponible. Les dendrogrammes-bien qu'intégrant la totalité d'information - sont de nature exclusivement descriptive et - contrairement aux sériations - ne comportent aucun élément permettant une interpréta
tion causale immédiate des associations relevés. En plus, ils souffrent d'un défaut majeur quant à l'ordonnancement des objets.
Tirant profit de leur complémentarité, nous avons développé une procédure qui est une combinaison des deux méthodes de base: les stéréodendrogrammes. Ce procédé permet de réunir les avantages respectifs des deux méthodes de base, tout en évitant leurs inconvénients. La matérialisation de la structure tridmensionnelle, ainsi que la détermination de la meilleure représentation ( choix des angles de vue) sont réalisées par un ordinateur graphique interactif.
ZUSAMMENFASSUNG
In dieser Arbeit werden die in der physischen Anthropologie gângigen Methoden der numerischen Taxonomie kritisch betrachtet: Seriation und Dendrogramm. Bei der Gegenüberstellung ihrer spezifischen Vor- und Nachteile fâllt eine weitgehende Kom
plementaritât auf. Die Seriation ermôglicht zwar nur eine begrenzte Ausschôpfung der verfügbaren Information, zeigt jedoch eine unmittelbar interpretierbare Struktur auf. Das Dendrogramm gestattet wohl eine vôllige Integration der vorliegenden Information, doch ist die daraus hervorgehende Darstellung der Beziehungsstrukturen ausschliesslich deskriptiver Natur und lâsst keine direkte kausale Interpretation zu.
Von dieser Komplementaritat ausgehend wurde eine neue Methode - das Stereodendrogramm - entwickelt. Es wird dadurch môglich, die Vorteile der beiden oben genannten Methoden zu vereinen, und zwar unter Ausschaltung ihrer spezifischen Nachteile. Die riiumliche Darstellung des Stereodendrogramms wird mit einem inter
aktiven graphischen Computer bewerkstelligt, bei gleichzeitiger Optimierung der Überschaubarkeit (Festlegung des Betrachtungswinkels).
SUMMARY
A short critical review is given of the two most frequently used methods in numerical taxonomy - seriation and cluster analysis. A compilation of their respective advantages and inconveniences shows their almost perfect complementarity. The procedure of seriation permits to take into account only a limited part of the information available, but its configurations have the advantage to be immediately interpretable. The dendrogram
although permitting to integrate the totality of information - leads to exclusively descriptive structures which do not provide any element suitable for causal explanation.
Taking profit of their complementarity, a new method was developed: the stereodendrogram. lt combines the advantage of the two basic methods, while eliminating their specific inconveniences. The bidimensional representation of the stereodendro
gramm is realized with the aid of an interactive graphie computer system which permits also to optimize the orientation of the object in order to reach maximal readability.
BIBLIOGRAPHIE
CoRLUY, R. 1979. Cluster Analysis in Anthropology. Manuscrit d'une conférence donnée dans le cadre du 14• colloque des Anthropologistes de langue française, Genève, octobre 1979.
EVERITT, B. 1974. Cluster Analysis. London, Heinemann Educational Books Ltd.
HOWELLS, W.W. 1973. Cranial Variation in Man. A Study by Multivariate Analysis of Patterns of Difference Among Recent Human Populations. Cambridge, Mass., Papers of th Peabody Museum of Archaeology and Ethnology, Harvard University, vol. 67.
MACCAMMON, R.B. and G. WENNINGER. 1970. The dendrograph. Computer Contributions, 48.
SNEATH, P.H.A. and R.R. SOKAL. 1973. Numerical Taxonomy. The Principle and Practice of Numerical Classification. San Francisco, W.H. Freeman and Co.
W1SHART, D. 1978. CLUSTAN. User Manual. (3rd ed). Inter. Univ. Res. Council Series, Report 47.
Edinburgh, Edinburgh University.
Département d'Anthropologie de l'Université de Genève