R EVUE DE STATISTIQUE APPLIQUÉE
G EORGES R OUX M AURICE R OUX
À propos de quelques méthodes de classification en phytosociologie
Revue de statistique appliquée, tome 15, n
o2 (1967), p. 59-72
<
http://www.numdam.org/item?id=RSA_1967__15_2_59_0>
© Société française de statistique, 1967, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
59
A PROPOS DE QUELQUES MÉTHODES
DE CLASSIFICATION EN PHYTOSOCIOLOGIE
Georges ROUX Biologie végétale, Orsay
Maurice ROUX
Laboratoire de Calcul, ISUP,
ParisINTRODUCTION
L’étude des
groupements végétaux (ou phytosociologie)
d’unerégion
commence par l’établissement de
"relevés"
faits en despoints
lesplus
nombreux
possibles
de cetterégion.
Ces relevésportent
chacun sur une surface de l’ordre dequelques
mètres carrés(Cf. Guinochet, 1955 ,
pour la délimitation des surfaces de
relevés)
et consistent ànoter,
soituniquement
les noms desespèces présentes
dans la surfaceconsidérée ,
soit les
espèces présentes accompagnées
d’un coefficient dit d’abondance- dominance(Cf. Braun-Blanquet) représentant
laproportion
de cette es-pèce
dans la surface étudiée. Ces relevés sont alors rassemblés en untableau à double
entrée,
que nousappellerons
matrice desdonnées,
oùl’usage
veut que l’on réserve une colonne par relevé et uneligne
parespèce.
Désignons
partij
la valeurportée
à l’intersection de laligne
i etde la
colonne j
de ce tableau. Si l’on asimplement
noté lesprésences , tij
= 1 ou 0 suivant quel’espèce
i estprésente
ou absente dans lerelevé j .
Si l’on a noté les
abondances, tij représente
alors l’abondance del’espèce
i dans le relevéj. (Cf. Braun-Blanquet, 1932).
Le travail de classification
porte
sur les colonnes de cette ma- trice desdonnées,
c’est-à-dire sur les relevés. Pour faire ce travail de nombreux auteurs ontproposé
divers"indices
desimilarité",
oucoefficients de
ressemblance,
entre colonnes. Notre but était de calculerces différents indices pour un même ensemble de 55
relevés,
compor- tant 174espèces,
faits en 1965 au Plateaud’Emparis (Hautes-Alpes)
àl’instigation
de M. Guinochet(Biologie Végétale, SPCN, Orsay).
Puispour
chaque
indice nous voulions essayer de construire unefigure plane représentant
au mieux cet ensemble derelevés, compte-tenu
desproxi-
mités ainsi
calculées, espérant
ainsi faireapparaître
visuellement les divers groupes de la classification à établir.Enfin,
comparer les ré- sultats entre eux d’unepart,
avec la réalité"botanique"
d’autrepart.
Dans une
première partie
nousprésenterons
les résultats affé- rents aux indices calculés àpartir
desprésences. Puis,
nousparlerons
d’un indice calculé à l’aide des coefficients d’abondance. Enfin nous ré-
serverons une
place
àpart
àl’analyse
factorielle.Avant
d’exposer
cesrésultats,
disons un mot de nos méthodes .Nous avons établi des
programmes-machine permettant
de calculer les divers indices dont nous avionsbesoin ;
pour que lesrésultats,
fort volumineux(55 54 2 =
1 485proximités),
soientutilisables,
nous avonsRevue de Statistique Appliquée, 1967 - vol. XV - N· 2
60
fait en sorte
qu’outre
la matrice dessimilarités,
tableau danslequel
onlit la
proximité
entre les relevés iet j
à l’intersection de laligne
i etde la colonne
j,
la machine inscrive aussi les coefficients calculés par ordre degrandeur croissante,
enrappelant
au-dessous dechaque
valeur les deux relevés dont cette valeur
représente
laproximité.
C’estainsi que nous obtenons
"l’ordonnance"
de l’ensemble desrelevés,
c’est-à-dire la relation d’ordre sur les
paires
de relevés(Cf. Benzécri, 1966).
Rappelons
qued’après
les travaux deShepard (1962)
onpeut
recons- truire(à
une similitudeprès)
lafigure
formée par un ensemble depoints
dont on connaît
l’ordonnance,
pourvu que ceux-ci soient assez nombreux.D’autre
part,
B. Cordier s’est trèsobligeamment chargée
del’analyse
factorielle de 53 de nosrelevés,
deux autres relevésayant
étéadjoints
par la suite pour former les 55 relevés dont nousparlions
ci- dessus.1 - INDICES UTILISANT LES COEFFICIENTS DE PRESENCE-ABSENCE On
peut
ranger en deuxcatégories
les indices utilisant des ma- trices de données necomportant
que des zéros ou des 1 :1/
Les indices dans le calculdesquels
on considèreuniquement
comme coïncidences entre deux relevés K et L les
lignes
où il y a un1 dans chacune des deux colonnes K et L ; nous
appellerons nKL
le nombrede ces coïncidences
(c’est-à-dire
le nombred’espèces
communes auxdeux
relevés) ;
2/
Les indices pourlesquels
les côincidences entre K et L sont à la fois leslignes
où il y a un 1 dans les colonnes K etL,
et leslignes
où il y a un zéro dans chacune de ces deux colonnes(c’est-à-
dire
qu’une
absence commune aux 2 relevés considérés estcomptée
aumême titre
qu’une présence commune),
nous noteronsnkl
le nombre d’absences communes aux deux relevés K et L(Cf. Benzécri, 1966,
pour cette
notation).
Nous poserons aussi :
mk1 - nk1
+nKL (m
="matched")
et
Ukl =
le nombre delignes
pourlesquelles
les colonnes K et L sont différentes(u
="unmatched").
1. 1 - Indice s utilis ant nKL.
Ce sont les
plus
nombreux. Parmiceux-ci,
on trouve :Jaccard
(1908)
Dice
(1945),
Sorens en
(1948)
Kulczinsky (1927) (1)
Kulczinsky (1927) (2)
Revue de Statistique Appliquée, 1967 - vol. XV - N’ 2
61 Ochiai
(1957)
Sokal et Sneath
Nous notons
nK
le nombre totald’espèces présentes
dans le relevé K.Nous allons montrer d’abord que les indices a,
b,
c et f donnentexactement la même ordonnance.
Supposons
que l’on aitaij
akl(1),
c’est-à-dire que les relevés iet j
sontplus proches
entre eux, au sens deJaccard,
que les relevés k et 1.c’est-à-dire que les relevés i
et j
sontplus proches
entre eux, au sens deDice,
que les relevés k et 1.De même
(2)
même conclusion que
précédemment
mais au sens deKulczinsky (1)
enfin
(2)
Revue de Statistique Appliquée, 1967 - vol. XV - N- 2
62
Q) 0
Revue de Statistique Appliquée, 1967 - vol. XV - N· 2
63
même conclusion que
ci-dessus,
mais au sens de Sokal et Sneath. Pour cette raison nous n’avons calculéqu’un
seul de cesquatre
indices : celui de Dice(1945),
noté b ici. Ce calcul nous apermis
de construire lafigure
1ci-contre,
danslaquelle
les groupesII,
VII et IX se dessi- naient dès lepremier
abord. Les groupesI,
II et VIII ont été établispar l’examen direct des relevés
correspondants
et desespèces
y conte-nues. Enfin les
séparations
entre les groupesIV,
V et VI n’ont puêtre obtenues que par le
procédé qui
consiste à"visualiser"
la matrice de corrélation endéplaçant
leslignes (et
corrélativement lescolonnes)
de
façon
à obtenir sur ladiagonale principale
lesplus
fortes similari- tés(figure 2).
Les 9 groupes ainsi obtenuscorrespondent
bien à des associationsvégétales classiques.
Restent les relevés45,
12 et 17qui
n’ont pu être
placés
dans aucun groupe :manquent-ils d’"homogénéité"
Figure
8Analyse
différentielle de CzekanowskiRevue de Statistique Appliquée, 1967 - vol. XV - N’ 2
64
(la
surfacequi
les délimite serait alorsmauvaise)
ousont-ils,
aucontraire,
les témoins de l’existence d’associations intermédiaires stables ? Leur rareté ne nous semble paspermettre
de conclure.Nous avons
fait,
en outre lesquelques
remarques suivantes :2nKL + uk1,
dénominateur des indicesb,
s’écrit aussinK + nL.
Doncbkl
se calcule en divisant
nKL’
le nombred’espèces
communes à K etL,
par la moyennearithmétique
de nK et nL , nombred’espèces présentes
dansK et L, respectivement.
D’autrepart
ekl, indiced’Ochiai,
se cal- cule en divisant nKL par la moyennegéométrique
de nK et nL, tandis qued ,
indice(2)
deKulczinsky,
est obtenu en divisant n par la moyenneharmonique
de nK et nL. La moyenneharmonique
étanttoujours
inférieure à la moyennegéométrique,
elle-mêmetoujours
inférieure à la moyennearithmétique,
les indicescorrespondants
seront dans l’ordre inverse :Comme ces 3 moyennes sont peu différentes entre
elles,
pour des nombres assez peudifférents,
comme c’est notre cas(min
nJ =9,
max nJ =
35)
les indicesb,
e et d doivent donner des résultats à peuprès
concordants. C’est bien ce que nous avons constaté,puisque
nousavons calculé ces trois indices. Les
plus grandes
discordances ont lieu pour despaires
de relevés où lesprésences
de l’un sont debeaucoup
inférieures auxprésences
del’autre,
comme onpouvait s’y
attendrecar c’est dans un tel cas que les moyennes
géométriqueset harmonique
sont sensiblement inférieures à la moyenne
arithmétique.
Examinons,
parexemple,
la similarité entre les relevés 44 et 49 . Au sens de Dice on ab44.49
=0, 4138
cequi place
cettepaire
au 242e rang au sens deKulczinsky (2) d44.49 = 0,4833
cequi place
cettepaire
au 149e rang
(nous comptons
les rangs de l’ordonnance"à l’envers"
endonnant le rang 1 à la
paire
formée des deux relevés lesplus proches).
Il y a donc un
décalage
deprès
d’une centaine de rangs entre les deux manières de calculer pour cecouple particulier
de relevés. Cela neserait pas grave s’il
s’agissait
d’uncouple
de relevés peuressemblants ,
car leur considération n’entrerait pas en
ligne
decompte
pour l’élabo- ration de lafigure représentative
de cesproximités.
Mais ce n’est pas le cas ! La construction de cettefigure
nécessite l’examen de l’ordon-na ce
depuis
la finjusqu’au
200e rang environ. Il y aplus ! Regardons
les relevés 31 et 49.
Nous avons
b31.49 = 0,4255
cequi place
cettepaire
au 21ge rang, etdll.49= 0,4352
cequi place
cettepaire
au 216e rang.Quand
on passe d’une méthode de calcul à l’autre il y a donc interver- sion descouples
44.49 et 31.49 : c’est-à-dire que pour Dice 31.49 est uncouple plus "grand" (relevés plus similaires)
que 44.49 alors que pourKulczinsky (2)
c’est 44.49qui
estplus grand
que 31.49.Or sur la
figure 1, qui
serre deprès
laréalité,
avons-nousdit,
31 et 49appartiennent
tous deux au groupe II alors que 44 est un rele- vé du groupeI,
dans ce casparticulier
Dice semblerait donc donner de meilleurs résultats queKulczinsky (2).
Mais nous avons découvert un autre
exemple
danslequel
deuxpaires
se trouvent interverties
lorsque
l’on passe d’un indice à l’autre : On a :Revue de Statistique Appliquée, 1967 - vol. XV - N· 2
65 tandis que
On voit
que 7.10
est unepaire plus grande que 7. 51
au sens deDice alors
qu’au
sens deKulczinsky (2)
c’est 7.51 que estplus grand
que 7.10. Et dans ce cas c’est
Kulczinsky (2) qui
seraitplus
dans. levrai
puisque 7
et 51appartiennent
au même groupeVIII,
tandis que 10 est un relevé du groupe V.Il est donc difficile de dire
lequel
est le meilleur(pour
le butpoursuivi)
de ces deuxindices,
àplus
forte raisonlorsque
l’onenvisage
l’indice d’Ochiai
qui
est intermédiaire entre les deuxprécédents.
Tou- tefois nouspenchons
pourDice, qui,
s’il est peu net pour le groupeVIII,
nous apermis
de le découvrirquand même,
alors queKulczinsky (2)
"mélange"
les groupes 1 et II comme le montre lafigure
3 élaborée àpartir
de cet indice.1.2 - Indices utilisant mkl.
Parmi ceux-ci se
rangent,
entre autres,Sokal et Michener :
Sokal et Sneath :
(n
est le nombre totald’espèces répertoriées
dans le tableau des don-nées).
L’indice deRogers
et Tanimoto(1960)
dont la formule estm kl
estidentique
à celui de Sokal et Michener(SM,
enabrégé)
mkl + Ukl
puisque
mkl + Ukl = n. Deplus
SM et Sokal et Sneath donnent la même ordonnance. Sigij g
celà veut dire que l’on a :Or :
donc
(3)~hij hkl.
Parmi ces trois indices nous n’avons donc calculé que SM. Ces calculs ont révélé au
premier
coup d’oeil des faits assezsurprenants ,
par
comparaison
avec ceux donnés parDice,
ou par Jaccardqui
sont lesmêmes, rappelons-le,
dupoint
de vue de l’ordonnance.On avait par
exemple :
pour S. M.
g18.52 = 0,8851
cequi place
cettepaire
au68ème
rang de l’ordonnanceet pour
Diceb18.52
=0, 0
cequi place
cettepaire
au dernier rang(1485ème)
del’ordonnance, (nous comptons toujours
les rangs àpartir
de lafin,
c’est-à-dire queb18.52
se trouve aupremier
rang oùRevue de Statistique Appliquée, 1967 - vol. XV - N 2
66
Figure
3 - Indices deKulczinsky
(2).Revue de Statistique Appliquée, 1967 - vol. XV - N 2
67
sont donc les
proximités
nullesqui signifient
distances lesplus grandes ,
entre
relevés).
De même pour S. M.g41.44
=0,8736
cequi place
cettepaire
au115ème
rang et pour Diceb41.44 = 0,0833
cequi place
cettepaire
au1316ème rang !
Cela
s’explique
facilement :(Zij désigne
le nombred’espèces
absentes simultanément dans i etj).
Supposons
que les relevés iet j comportent
peud’espèces
et aientpeu
d’espèces
communes, alors le nombre2nIJ+uij , égal
ànI
+ uJ sommedes
présences
des deuxrelevés,
sera faiblepuisque
nI et n J sontfaibles,
doncUli -sera
voisin de 1 etb ij
voisin de zéro cequi
estnormal
puisque
nous avonssupposé
que iet j
ont peud’espèces
com-munes. Par contre
uij
étant faiblegij
sera voisin de 1. Cela est dû aufait que pour SM nos deux relevés se ressemblent
par leurs
nombreusesabsences communes ; mais cela contredit
l’expérience.
M.Guinochet, consulté,
a bien voulu nous le confirmer.2 - INDICE UTILISANT LES COEFFICIENTS D’ABONDANCE-DOMINANCE Le seul indice de cette
catégorie
que nous ayons calculé est en- coredû,
selonDagnelie,
àKulczinsky.
Nous le noteronsKulczinsky (3).
La formule
qui
le donne est la suivante :où
tij
est l’abondance del’espèce
i dans lerelevé j etF =min(t til).
Ce calcul nous a donné des résultats que l’on
peut
considérer commebons
quoiqu’il
semble dessiner desséparations plus
floues entre cer-tains groupes, en
particulier
les groupesI,
II et III(figure 4).
Nous ferons remarquer, avec
Dagnelie,
que cet indice donne les mêmes résultats"en
sensinverse"
que leparamètre
introduit par Odum(1950)
sous le nom de"percentage difference",
dont la formule est la suivante :(Le
numérateur est la somme des valeurs absolues des différences des abondances des relevés k et1).
Revue de Statistique Appliquée, 1967 - vol. XV - N· 2
68
Figure
4 - Indices deKulczinsky
(3).On a, en
effet, 1 t lk - ti1| = tik
+t il - 2Fikl
donc :
et
Le
paramètre
d’Odum est donc un coefficient de dissemblance alors que celui deKulczinsky (3)
est un coefficient de ressemblance.Mais, d’après
cette dernière formule leurs résultats seront exactement
inversés,
dupoint
de vue de l’ordonnance.Revue de Statistique Appliquée, 1967 - vol. XV - N· 2
69 3 - L’ANALYSE FACTORIELLE
Nous avons fait deux
analyses
factorielles de nosdonnées,
l’une àpartir
des coefficientsprésence-absence,
l’autre àpartir
des coeffi- cientsd’abondance,
suivant la thèse de B. Cordier :"Sur l’analyse
fac-torielle des
correspondances".
Cette méthode est très voisine de"l’ana- lyse
en composantesprincipales" ("The principal
axesmethod"
dans la littérature delangue anglaise) qui
consiste essentiellement en une ex-traction des valeurs propres les
plus grandes,
en valeurabsolue,
et desvecteurs propres
correspondants,
de la matrice de corrélation.Dans cette théorie on
considère,
eneffet,
les colonnes(respec-
tivement : les
lignes)
de la matrice n x p, des données comme un en-semble de réalisations d’une variable aléatoire multivariate à n dimen- sions
(resp. :
à pdimensions).
On cherche à rendrecompte "au mieux"
du
phénomène
àétudier,
à l’aide duplus petit
nombrepossible
de va-riables aléatoires
(univariates)
noncorrélées,
par une rotation des axesde référence. Ce
qui distingue
cette méthode des travaux antérieurs c’est l’utilisation d’une nouvelle formequadratique
pour le calcul des corrélationsqui permet
d’établir une identification entre les deux en-sembles entrant dans la
composition
desdonnées,
ensembles formés pour nous desespèces,
d’unepart,
et des relevés de l’autre.Les
résultats,
contrairement à ce que nousattendions,
sont meil-leurs avec les coefficients de
présence-absence
comme onpeut
le voirsur les
figures
5 et 6. Cela semble confirmerl’hypothèse
de M.Guinochet suivant
laquelle
laprésence
d’uneespèce
dans un relevé cons-titue un caractère
"génétique"
pour ce relevé tandis que l’abondance est d’ordre"morphologique".
Le gros
avantage
que nous voyons dans la méthoded’analyse
facto-rielle est
qu’elle
donne directement lafigure représentative
de l’ensembleà classer et ce avec une totale
objectivité
évidemment. L’un des défautscommuns aux modes de constructions par tatonnement à
partir
de l’ordon-nance est en effet que l’intervention humaine est
toujours plus
ou moins influencée par ce que l’on croit savoir par ailleurs des relevés à classer.CONCLUSION
En ce
qui
concerne le traitement des données enprésence-absence ,
nos
préférences
vont vers la famille formée des indices deJaccard, Dice, Kulczinsky (1),
etc. Lespetites
démonstrations que nous avonsfaites à ce propos nous montrent d’ailleurs que c’est finalement le rap-
port nJK 03BCjk,
c’est-à-dire concordances"divisées"
par discordancesqui
donne l’ordonnance.
(C’est,
deplus,
cequi
est leplus
facile àcalculer
En ce
qui
concerne le traitement des données en abondance-dominance, quoique
les résultats obtenus soient satisfaisants avec l’indice deKulczinsky (3),
nous faisons une réservequant
àl’objectivité
dansl’établissement de la matrice des
données,
l’évaluation de l’abondance d’uneespèce
étant tout de même fonction du"coup d’0153il"
del’expéri-
mentateur.
Et,
à proposd’objectivité,
nous ne saurionstrop
louer la méthoded’analyse
factoriellequi présente
à cepoint
de vue toutes lesgaranties
que l’on est en droitd’exiger !
Revue de Statistique Appliquée, 1967 - vol. XV - N’ 2
70
Figure
5 - Résultats del’analyse
factorielle à partir des coefficients de présence- absence.Revue de Statistique Appliquée, 1967 - vol. XV - N’ 2
71
Figure
6 - Résultats del’analyse
factorielle à partir des coefficients d’abondance .Revue de Statistique Appliquée, 1967 - vol. XV - N· 2
72
BIBLIOGRAPHIE SOMMAIRE
J. P. BENZECRI - Sur
l’analyse
factorielle desproximités.
ISUP. Paris.1964.
J. P. BENZECRI -
Leçons
surl’analyse
factorielle et la reconnaissance des formes. Cours de3ème cycle
ISUP. Paris. 1966.J.
BRAUN-BLANQUET,
G. D.FULLER,
H. S. CONRAD - Plantsociology -
The
study
ofplant
communities(Authorized English
Translation ofPlanzensoziologie)
New-York and London. 1932.B. CORDIER - Sur
l’analyse
factorielle descorrespondances.
Thèse.Rennes. 1965.
P. DAGNELIE - Contribution à l’étude des communautés
végétales
parl’analyse
factorielle. Bull. Serv. CartePhytogéog. (B)
T5 pp.7-71, 93-195 ;
1960.M. GUINOCHET -
Logique
etdynamique
dupeuplement végétal
pp. 61- 72. Masson. Paris. 1955.A. OCHIAI -
Zoogéographic
studies on the soleoid fishes found inJapan
and itsneighbouring regions.
Bull.Jap.
Soc. Sci. Fish.T22,
pp. 526-530. 1957.E. P. ODUM - Bird
populations
of theHighlands (North Carolina).
Pla-teau in relation to
plant
succession and avian invasion.Ecology
31pp. 587-605. 1950.
R. N. SHEPARD - The
analysis
ofproximities : scaling
with an unknowndistance function. I and
II ; Psychometrika.
1962.R.R. SOKAL et P. M. A. SNEATH -
Principles
of numericaltaxonomy. -
W. H. Freeman and Co : San Francisco and London. 1963.Revue de Statistique Appliquée, 1967 - vol. XV - N· 2