R EVUE DE STATISTIQUE APPLIQUÉE
J. P. B ENZÉCRI
Problèmes et méthodes de la taxinomie
Revue de statistique appliquée, tome 18, n
o4 (1970), p. 73-98
<http://www.numdam.org/item?id=RSA_1970__18_4_73_0>
© Société française de statistique, 1970, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
73
PROBLÈMES ET MÉTHODES DE LA TAXINOMIE
J. P. BENZÉCRI
Professeur
deStatistique
àla Faculté de
Sciencesde
ParisLa
systématique
durègne
animal et durègne végétal
est sans doutela
plus
vaste calssification que l’homme ait édifiée.Depuis
le siècle deLinné,
cegrand
arbre n’a cessé de se ramifier et si laprudence
ne per- met pas souvent d’en rotailler ou d’enpormuter
lesbranches,
bien des na-turalistes se
gardent
deprendre
les nécessaires conventions de leur science pour l’ordre même de la nature. A la théoriegénérale
desclassifications,
ces savants
peuvent apporter
desprincipes
et desexemples.
Dans un remar-quable
ouvrage, R. Sokal et P. Sneath(cités
dans la suite : S &S) exposent
les"principles
of numericaltaxonomy"
c’est-à-dire l’introduction des mé- thodesquantitatives
dans "the theoriticalstudy
ofclassification, including
itsbases, principles, procedures
and rules(Simpson 1961,
citéd’après
S & S page3).
Nous ne ferons
guère plus
ici que deprésenter rapidement
celivre,
en le commentant
mathématiquement.
I - LES PRINCIPES DE LA TAXINOMIE
Dans les sciences de la
nature,
les classifications servent à des fins si diverses que la taxinomie doit satisfaire à desexigences quasi-contra-
dictoires. C’est dans ce contexte que nous essaierons de situer l’oeuvre de S & S.D’une
part
la taxinomie est la science dusystème
des vivantsdispo-
sant les individus en une hiérarchie de classes elle cherche à décrire
l’équi-
libre des
espèces,
leurs ressemblances et aussi leursparentées.
Sonobjet
le
plus
élevé est(quoique
disent S & Squi
en sont à lalogique d’Aristote)
de connaître l’essence de la
vie, c’est-à-dire,
en toutegénéralité,
et pardelà les différences d’être à
être,
"ce que c’est que d’être "vivant ; et parquels
choix successifs sespécifient (se définissent)
les formes individuellesqui
s’offrent d’abord seules à l’étude. Pour atteindre cepoint
de vueglobal
la science doit s’élever du
particulier
augénéral, procéder
pargroupements
successifs pour découvrir les
grandes lignes
derrière les détails.D’autre
part
la taxinomievise,
dans lapratique quotidienne
à détermi-ner les
individus,
c’est-à-dire à en reconnaitre le nom,(la place, "l’adresse" ,
dans la
classification).
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
74
Ceci
peut
avoir un intérêt immédiat : retrouverl’information,
savoirqu’une plante qu’on
vient de ramasserappartient
à telleespèce
bienétudiée,
soit
comestible,
soit vénéneuse.Et aussi un intérêt
général
par la connaissance dusystème
des vivants : il est utile de faire l’inventaire de la faune et de la flore de zones enéqui- libre,
et c’estl’objet
del’écologie
que de classer(nouveau problème
detaxinomie)
lesgroupements d’espèces
en biocénose. Dans la détermination le mouvement est dugénéral
auparticulier :
on considère d’abord unpoisson puis
on le reconnait aurata-aurata.Sokal et Sneath ont pour
premier
intérêt laconception
desclassifications,
non leur
emploi quotidien.
Là oùl’intuition,
leshabitudes,
lesconjectures
mises au rang de
principe,
forment avec les faitspositifs
un toutinanalysa- ble,
ils veulent introduire des méthodes sicomplètement formalisées, qu’on
lespuisse
traduire en programmes pour les machinesélectroniques (cf.
S & S page
270).
D’où la vivacité de leurscritiques
que nousprésenterons
d’abord avant leurs méthodes.
Quoiqu’il
ne nousappartienne
pas d’arbitrer entrepartisans
et adver-saires de la taxinomie
numérique,
remarquons que celle-ci s’est montrée féconde dans les domaines nouvellementexplorés
tels quel’écologie ;
là où letemps
manque pour familiariser l’homme avec sonobjet,
etdévelopper
l’in-tuition,
unesynthèse automatique peut
êtreprécieuse.
1.1
Groupements monothétiques
etgroupements polythétiques.
Pour diviser un
règne
en groupes deplus
enplus
restreints(appelés embranchement, classe, ordre, famille, tribu,
genre,espèce...)
onprocède
souvent par dichotomies successives : un
groupement
est divisé en les indi-vidus
qui possèdent
tellepropriété,
et ceuxqui
ne lapossède
pas. Pour dé-signer
cette distribution suivant un seulcritère,
S & S(loc.
cit p.13) ont
introduit
l’adjectif monothétique. Cependant Vicq d’Azyr (cité
parS &S ; (1992)) remarquait déjà qu’il
seraitpossible qu’une
classe fût très-naturelle etqu’il n’y
eût pas un seul caractère commun à toutes lesespèces qui
lecomposent
ce que Beckner
précise
ainsi(1959),
p.22, d’après
S &S) :
"A class is ordi-narily
definedby
reference to a set ofproperties
which are both necessary and sufficient(by stipulation)
formembership
in the class. It ispossible, however,
to define a group K in term of a set G ofproperties fi, f 2, ... fn
in a different manner.
Suppose
we have anaggregation
of individuals(we
shall not as
yet
call them aclass)
such that :1/
Each one possesses alarge (but unspecified)
number of the pro-perties
in G.2/
Each f in G ispossessed by large
numbers of these individuals and3/
No f ispossessed by
every individual in theaggregate...
"les trois conditions définissent une classe
proprement polythétique (cf
aussien
botanique
la notionclassique
de famille parenchainement,
e. g. les rosa-cées.)
1.2 Classification ascendante et classification descendante
A la méthode
monothétique
des dichotomies successivesqui
descend durègne
entierjusqu’aux espèces,
S & Sopposent
la démarchepolythétique
Revue de Statistique Appliquée. 1970 - vol. XVIII No 4
75
et ascendante d’Adanson
(1757, p xi, d’après
S& S) :
"Je me contenterai derapprocher
lesobjets
suivant leplus grand
nombre desdegrés
de leurs rap-ports
et de leurs ressemblances... Lesobjets
ainsi réunis formerontplu-
sieurs
petites
familles queje
réunirai encoreensemble,
afin d’en faire untout dont les
parties
soient unies et liéesintimement").
En fait une tellesynthèse
est lepréliminaire indispensable
de toute classification : mais lasynthèse
une foisfaite,
onpeut
être assez heureux pour découvrirqu’un petit
nombre de caractères suffisent à définirmonothétiquement
les classes que la considération d’un vaste ensemble de caractères à seulepermis
de découvrir(S
& S p. 17 et p.275).
La reconnaissance d’un individu est tout autre chose que la découverte d’une classificationpuis
d’une méthode de re-connaissance. Il est
regrettable
que l’étude de machinescapables d’appren- tissage
aitquelque
peu faitperdre
de vue cette distinction entrealgorithmes qui
discriminent lesformes,
etalgorithmes qui préparent
les recherches de telsalgorithmes.
1.3 Hiérarchie des caractères
Soit un ensemble fini C de caractères
C 1, ... , ,C~,..., C~ ,
et un en-semble E
d’espèce
animale el, ... , e J, ... , en.Supposons
que les carac-tères de C suffisent à
distinguer
lesespèces
deE,
on pourra reconnaitrel’espèce
d’un individu en cherchant successivement s’ilpossède
chacun desCi.
Mais si toutes les combinaisonspossibles
de caractères de C ne sont pasreprésentées
dans E(e.g.
iln’y
a pas d’animalqui
ait à la fois unecarapace et des
plumes...),
il existe un ordrehiérarchique optimum
danslequel
chercher les caractères pour déterminer auplus
vitel’espèce (e. g .
chercher
~3,
et si l’individupossède C 3
chercherC6 ,
sinon chercherC12 etc... ).
Onpeut,
si l’on connait lesfréquences
relatives des diverses es-pèces
deE,
établir unestratégie
de recherchequi
minimisel’espérance
ma-thématique
du nombre dequestions
à poser pour déterminerl’espèce
d’unindividu
(voir
infra442).
Ainsi certains caractèresapparaissent
comme hié-rarchiquement
élevés : il fauttoujours
les rechercher d’abord pour situer l’individu dans ungrand
grouped’espèces (disons
dans uneclasse).
D’autrescaractères au contraire ne doivent être ’recherchés
qu’à
l’intérieur de cer-tains genres pour achever la détermination de
l’espèce (ce
d’autantplus qu’en
dehors du groupe la déterminationpeut
en êtreimpossible,
cf infra212)
en-fin l’on doit se baser autant que
possible
sur des caractères faciles à dé- terminer... Les anciens naturalistes deCandolle,
de Jumieu(cf
S & S p.34)
avaient un sens inné des
principes
de théorie de l’informationqui régissent
la subordination des caractères. Mais S & S leur
répondent
d’avoirérigé
enrègles
àpriori,
cequi
étaitplutôt
le fruit d’une vasteexpérience
de la syn- thèse.1.4
Phylogénie
ouphénotypie
S & S notent non sans ironie
(p. 18) :
"The advent of thetheory
of evo-lution
changes
thepractice
ofsystematics
verylittle, although
theprofessed philosophical
basis ofsystematics
wasradically
altered. Natural classifica- tions were considered to be those established on the basis ofmonophyletic
taxa". Seulement il est bien
plus
facile de voir que deuxsous-espèces
de che-vaux se
ressemblent,
que de démontrerqu’elles
descendent toutes deux deeohippus (ce qui
est une causeacceptable
de leurressemblance) ;
bienplus,
leseul moyen d’établir que equus descend de
eohippus
et non, comme on l’avaitRevue de Statistique Appliquée. 1970 - vol. XV) H ? 4
76
dit, d’hipparion
c’est de comparer avec autant de soinsqu’il
sepeut
les ap- parences, les caractèresphénotypiques,
des animaux vivants et desfossiles,
avant d’en inférer des filiations
qui
soient cause des ressemblances(cf.
S & S pp.55, 94, 216).
Ilpeut
même arriverqu’une
classificationlégitimement
reçue contredise ce que l’on
présume
de laparenté
desespèces.
On croit les crocodilesplus proches parents
des oiseaux que des lézards ou des tortues(i, e.
que crocodiles et oiseaux ont des ancètres communs dont ni lézards ni tortues n’endescendent)
etcependant,
on range les crocodiles avec les autresreptiles (cf.
S & S p.226). Rappelons
ici queréagissant
contre l’étude exclu- sive de lalinguistique historique,
F de Saussure amarqué
que les divers éléments d’unelangue, quelle qu’en
soitl’origine
constituent à un moment donné unsystème unique
enéquilibre dynamique.
Dans le même sens, S & Ssoulignent
que l’unité du groupe des mammifères doit être concilliée avec sonorigine apparemment multiple, polyphyletique
"It isgenerally agreed
amongpaleontologists
that a minimum of two groups ofreptiles (and possibly
fouror
five) independently
crossed thearbitrary
lines eparating reptiles
from man- nuals. "(p. 104).
Ils vontbeaucoup plus
loinquand
ilsconjecturent (p. 75) :
"it is ... not
beyond
the bounds ofpossibility
that some unusual features ofhigher organisms
are derivedby
gene transfer from very dissimilar forms of life". On ne saurait attribuer unplus grand
rôle auxrapports synchro- niques
que de faire des caractères des êtresvivants,
des sortes de mala-dies non seulement héréditaires mais
contagieuses
11. 5 Taxinomie
quantitative
Puisque
les critères nes’imposent
pas d’euxmêmes,
que leur hiérar- chie est inconnue apriori,
que l’histoire desespèces
se déchiffre dans leursressemblances,
l’étudepositive
deseffets,
desressemblances,
doitprécéder
celles des
principes.
Pour S & S le recours à desalgorithmes rigoureux s’impose.
II - CHOIX ET DESCRIPTION DES
UNITÉS
Un
algorithme numérique
de classification nepeut s’appliquer qu’à
unensemble
d’unités,
chacune décrite suivant un codenumérique.
Ces unités nepeuvent guères
être les animaux ou lesplantes
individuelles mais des groupes définis aupréalable
sans le secoursd’algorithme.
S & Sremarquent, (p. 121),
que de toutes les
catégories
en usage(embranchements, classe, ordre,
fa-mille, tribu,
genre,espèce...
pour ne rien dire dessous-ordres,
sous-genre,
sous-espèces etc...)
les unités inférieures que l’on aappelées espèces
dont les mieux
définies,
àl’exception, peut-être
des trèsgrandes
classes.C’est donc en
général
un ensembled’espèces qu’on
se propose de décrirepuis
derépartir
en groupes. Mais lespropriétés
desespèces
ne nous sontconnues que par l’examen des individus et c’est encore à reconnaitre les in- dividus que les naturalistes utilisent les classifications. D’où difficultés.
11.1. Les
descriptions
sontprésentées
sous forme d’unematrice,
oùl’usage
attribue aux
espèces
les colonnes et aux caractères leslignes :
l’élé-ment
ai j’
situé à l’intersection de laligne
i et de la colonnej,
décrit l’es-pèce j
dupoint
de vue du caractère i. Comme les caractères sont de natures trèsdiverses,
il est difficile que les informations aij soient codées de fa- çonhomogène,
cequi
estpourtant
à peuprès exigé
par lesalgorithmes
de classification. Examinons lesprincipaux
cas.Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
77
II 1.1 Le caractère i est une attribution
("avoir
desailes")
ou unepri-
vation("n’en
pasavoir").
L’élément de matrice aij est un élémentlogique.
On notera :
aij=oui=+=l
s’il y a attribution de i
à j,
etau = non = -
= 0,
s’il y a
privation.
Les naturalistespréfèrent
les + etles - ;
mais les cal- culateurs veulent 1 et0,
cequi permet
au besoin de traiter un élément lo-gique
comme si c’était unegrandeur continue,
un nombre réel.II 1. 2 Le caractère i est bivalent = e.g.
gastéroptérygien signifie :
dontles
nageoires
ventrales sont situées derrière lespectorales.
Il est clairqu’ici
"être derrière" n’est niplus
ni moins uneprivation
que l’alternative"être devant". Il
n’y
a donc aucune raison de poser aij = 1plutôt
que 0 sij
estgastéroptérigien :
c’est une pure convention. Nous verrons dans la suite(cf.
S & S p.127) qu’il peut
êtreimportant
de s’en souvenir. Deplus
le caractère considéréexprime
une relation entre des éléments ditsnageoires
que
l’espèce
est senséeposséder :
en l’absence de ces éléments on nepeut
rien dire : S & S mettent alors un "N. C.",
noncomparable,
dans la case a .Nous croyons commode d’introduire dans le tableau deux
lignes j
etj,
cor-respondant
aux deux valeurs("être
devant et êtrederrière").
Un individusur
lequel
le caractère est déterminé aura un 1 et un 0(l’un
dansl’une,
l’un dans l’autre
ligne) ;
aux N. C.correspondent
deux zéros. D’où la ma-trice des trois
possibilités :
II 1. 3 Le caractère est multivalent
(peut prendre plus
de deuxvaleurs).
On
peut
scinder le caractère enplusieurs
caractères binaires.Supposons qu’il
y ait trois valeurs : sodium(Na), potassium (K),
et calcium(C a) .
Onfera trois
(ou six,
cfci-dessus)
caractères avec trois colonnes deréponses possibles
Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
78
Mais la
plupart
des caractères multivalentscorrespondent
à des dénom- brements : nombre depétales,
depaires
depattes.
Comme les programmes desalgorithmes
de classification sont insensibles à l’ordre danslequel
sontrangées
leslignes,
si l’on codechaque
valeur entière comme un caractèreindépendant (comme Na-K-Ca),
la colonne d’un élément à sixpattes
ne res- semble pasplus
à celle d’unquadrupède qu’à
celle d’unbipède.
Si l’on veutéviter
cela,
sans donner à aij la forme d’un entierquelconque
mais en luigardant
son caractère d’élémentlogique, (0
ou1)
il estpréférable
de pren- dre pour caractères élémentaires desinégalités.
Voici deux solutionspré-
sentées avec leur matrice des caspossibles :
lapremière
matrice est unscalogramme
deGuttmann,
la seconde n’a de 1qu’au voisinage
de ladiago-
nale :
n 1.4 Le caractère est continu : c’est une mesure ou un
rapport
demesures. Il semble naturel de noter aij comme un nombre
réel,
continu.Se pose alors le
problème
de l’échelle. Si les variations sont trèsgrandes ,
on doit choisir une échelle
logarithmique.
Il est souvent utile de normaliser les mesures, c’est-à-dire de faire sur les aij d’une mêmeligne
de la ma-trice une transformation linéaire afin que la moyenne en soit zéro et l’écart-
type
1. Mais la normalisationpeut
être faite lors del’analyse
de la ma-trice,
le naturalistepeut
l’abandonner au statisticien...Si l’on désire que la matrice ne contienne que des éléments
logiques
onpeut
diviser endegrés
l’échelle continue de variation du caractère et le me-Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
79
surer par un
entier ;
cet entier est ensuite traduit enpropriétés élémentaires
comme on vient de le voir
(cf 213).
II 1.5 Le caractère est aléatoire :
rappelons
que les caractères desespèces
s’étudient sur des individusqui
ne sont pasidentiques
entre eux.Supposons qu’un
caractère i ne soit attribuéqu’à
unepartie
des individusde
l’espèce j.
On devra donner àai j
non la valeurlogique
1 ou0,
mais unevaleur
probabiliste comprise
entre 0 et1,
i(estimée
par lafréquence
depré-
sence du
caractère).
S’ils’agit
d’un caractère continu et codé comme tel(aij
est un nombre1)
on pourra donner à lagrandeur
i la valeur d’une moyenne faite surplusieurs
individus del’espèce).
Ici mieux vaut choisir pour caractères desrapports
delongueur
que deslongueurs,
pour éviterqu’une trop grande dépression intraspécifique
n’ôte tout intéret à la mesure.II 1.6 Relevés
écologiques : l’objet
del’écologie est,
nous l’avonsdit,
l’étude des communautés
d’espèces occupant
un terrain(prairie,
lac...). Ici,
les terrains
jouent
le rôle des individus(ou
desespèces)
àclasser ;
les ca- ractères sont lesespèces (animales
ouvégétales) présentes
à desdegrés
va-riables,
ainsi que diversparamètres climatiques, chimiques...
Eventuelle-ment,
onpeut adopter
lepoint
de vuetransposé
duprécédent : l’objet
de-meure la classification des
espèces,
mais on considère leur "sociabilité"non leur
morphologie.
Si l’on élimineparamètres climatiques
ouchimiques,
la matrice de
description
revêt la formehomogène
d’un tableau de relevé : les colonnescorrespondent
aux divers échantillons de terrainsétudiés,
leslignes
auxespèces ;
a upeut
être soit le nombre d’individus del’espèce
itrouvés dans le terrain
j,
soit la mesure de l’airede j
recouverte par l’es-pèce i,
soit un caractèrelogique (1
sil’espèce
i estprésente
dansj, 0
sielle est
absente).
Pour une étude trèscomplète
nous renvoyons àDagnélie (1960).
En
résumé,
les matrices dedescription
seprésentent
sous les formesprincipales (pour
ne rien dire deshybrides
que l’ons’efforce,
comme onvient de le voir d’éliminer par des
artifices) :
- matrices
logiques :
les éléments sont des 1 et des0, qui signi-
fient "oui" et
"non",
- matrices
logiques
aléatoires : les éléments sont des nombres continuscompris
entre 0 et1, qui signifient : "probabilité
de oui".- matrices de scalaires
quelconques :
les éléments en sont desrésultats de mesure traduits dans une échelle convenable et éventuellement normalisés.
- matrices de relevés
écologiques.
Sans
présumer
ici del’analyse
de ces tableaux denombres,
remarquonsdès maintenant que matrices
logiques,
matriceslogiques
aléatoireset,
par-ticulièrement,
matrices de relevésécologiques,
sont des matrices de cor-respondance.
II 2 La construction de matrices à peu
près homogènes
n’est pas le seul pro- blème d’intéretstatistique
que ladescription
desespèces
pose au natura- liste.Il 2.1 Choix des caractères. Une
description
exhaustive desespèces
est
impossible, particulièrement
s’ils’agit
de fossiles. Mais Musset dit queRevue de Statistique Appliquée. 1970 - vol. XVIII N° 4
80
"quand
on voit lepied
lajambe
sedevine",
et lespaléontologues, qui
sontquelque
peupoètes,
ne se font pas faute de disserterpéremptoirement
sur unemachoire comme sur un être entier.
Qu’un échantillonage
assez arbitrairedes caractères
permette
d’avoir une connaissance sûre desespèces
repose selon S & S(p.
84sqq. )
sur deuxhypothèses qui
semblent confirmées :-l’hypothèse
du nexus, selonlaquelle
tout caractère est affecté parplusieurs
facteursgénétiques et, réciproquement,
laplupart
desgènes
in-fluencent
plusieurs
caractères.,
-
l’hypothèse
de lanon-spécificité,
selonlaquelle
il n’existe pas de groupe degènes
dont l’influence se limiterait exclusivement à une seulepartie,
ou une seule fonction del’organisme.
Selon ces
hypothèses,
la connaissance d’unepartie
des caractères d’unepartie
de l’être vivant(par exemple
la connaissance des caractères exté-rieurs, plus
faciles àdéterminer), peut
nousrenseigner
sur l’ensemble des facteursgénétiques qui
en contrôlent toute la structure.Effectivement,
àpartir
desystèmes
très différents de caractères(musculature
d’unepartie
du corps,
squelette
d’uneautre)
on a pu calculer des coefficients deproxi-
mité entreespèces (cf. infra)
fortement mèlés entre eux, et conduisent à des classifications voisines. Chez les insectes(48 espèces
demoustiques)
des études basées l’une sur les caractères des
larves,
l’autre sur ceux desadultes ont donné des résultats similaires mais
divergents
sur des détails.Mais il n’en arrive pas moins
parfois
que lesmétamorphoses
défient la taxo- nomie. Ainsi(cf
Bohn(1934)
p.64)
"axolote etamblystone
sont deux formes différentes de la mêmeespèce,
et lareproduction peut
avoir lieu sous l’uneou l’autre de ces formes : sous la forme
infantile, l’axolote,
et sous la formeadulte, l’amblystone.
Avantqu’on
s’en soit renducompte,
le même animal avait étéplacé
dans deux sous-ordres différents : Perennibranchesaxolote)
et Salamandrines
(amblystone)". (cf
aussi la difficulté de la classification deséphémères,
où ressemblances entre larves et entreimage
nes’impli- quent
pasmutuellement).
II 2.2
Correspondances
entreespèces.
Déterminer les mêmes carac-tères pour des
espèces
différentesprésuppose qu’une
mêmeterminologie puisse
leur êtreappliquée :
e. g. que l’onpuisse parler
des deux côtés ducoeur ou du
foie,
de l’aorte ou de l’aciditégastrique.
Faute d’une corres-pondance
assez étendue entre les membres et les fonctions de deux individusd’espèces différentes,
le tableau des caractèrescomporterait
surtout des"N. C. "
(cf.
supra 212et, aussi, 13).
Dans les cas des mesures de lon-gueurs, cette
correspondance
doit souvent être une véritable carte d’un in-dividu sur
l’autre,
carte faisant secorrespondre
entre eux les diverspoints
derepère (apophyses, sutures... )
La
figure
donnée ciaprès
estinspirée
de celles queproposent
S & S(pp. 82, 83).
D’unpoint
de vuemathématique
il serait intéressant derapporter
l’un des deux individus à unsystème
de coordonnées cartésiennes(le quadril- lage régulier
àgauche)
et de déterminer une carte différentiablesimple (e. g.
despolynomes) qui
envoie au mieux lepremier
individu sur le second(le quadrillage régulier
degauche,
sur le réseaucurviligne
dedroite).
Les coefficients de ces fonctions seraient desparamètres
naturels pour mesurer les déviations des formes àpartir
d’uneespèce
choisie pour référence. Dans ce sens S & Ssignalent
un travail de Smirnov(1927)
où sont calculés lespremiers
coefficients de Fourrier du contour des élitres de coccinelles.Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
81 III - INDICES DE SIMILARITE
La forme matricielle de la
description
suffit à elle seule àsuggérer l’emploi
del’analyse
factorielle. Mais la taxinomiequantitative
a été fondée par despraticiens qui
savaient peud’algèbre
et nedisposaient
pas encore d’ordinateurs. Nousprésenterons
leurstechniques
lespremières
avant detraiter de
l’analyse
factorielle.Quoique l’analyse
desproximitées,
due àR. N.
Shepard,
ne semble pas encore avoirpénétré
dans lataxinomie,
c’estsur la définition d’indices
numériques
de similarité quereposent
laplupart
des
techniques
de classifications citées par S & S.(Un
indice de similaritésur un ensemble K est une fonction
Skk’ = Sk’k , à
valeurréelle,
définie surles
paires, k, k’,
d’éléments deK ;
s n’est pasassujettie
aux axiomes d’unedistance,
on demandesimplement
que s ait une valeurmaxima,
v, atteinte seulement pour toutepaire
formée de deux élémentsidentiques : Vk~K,Skk==v.
Mais il est
possible
de définir sur K une vraie distancequi
ne soit fonction que des. )
La classification des caractères(appelée R-technique
par S &S)
étant encore peu étudiée sauf toutefois en
écologie (cf. 216),
c’estprincipale-
ment la similitude des individus
représentés
chacun par une colonne de la matrice dedescription) qu’on
s’attache à chiffrer(Q-technique).
Dansce §
nous suivons le
chapitre
VI de S & S.nI. 1 Coefficients d’association
Ces coefficients se calculent sur les colonnes d’une matrice
logique ;
les formules
peuvent
êtregénéralisées
aux matriceslogiques
aléatoires. No- tons 1 l’ensemble des caractèresi,
et k et 1(ou parfois K, L)
deux indivi-dus de l’ensemble J à
classer ;
on pose :n = nombre total des éléments de 1
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
82
Les notations sont claires : un indice
capital,
e. g. ,K,
se réfère aux caractères quepossède
l’individuk,
aux 1 de sacolonne ;
un indice minus- cule se réfère aux zéros. Ainsi nkl est le nombre total des caractères que kpossède
et que 1 nepossède
pas.Dans le cas d’une matrice
aléatoire,
notre formule donne à n la valeur del’espérance mathématique
du nombre des caractères trouvés sur un k maisnon sur un 1
(le
k et le1,
étant choisis au hasard dans leurespèce).
Si lescolonnes k et 1 de la matrice de
description comporte
des "N. C. "(cf. 212),
on ne considère que les caractères déterminés à la fois sur 1 et k. Les deux
sommes :
qui représentent respectivement
le total des concordances(m
=matched)
etdes discordances
(u
=unmatched)
entre les colonnes k et1,
ont sans douteplus
de sens que les bilanspartiels,
tels que nKL ou nn,qui dépendent
dece que l’on a décidé
d’appeler
"caractèrespositifs"
et "caractèresnégatifs" ;
nous avons discuté
plus
haut(212)
ducodage
des caractères bivalents dans la matrice dedescription.
Si l’on admet que les aijégaux
à 1correspondent
pour la
plupart
à des attributionsvraies,
les zéros à desprivations (c’est
bien le cas pour une matrice
logique d’origine écologique,
cf216),
on pour-ra définir des indices
dépendant
non seulement de m et u, mais aussi de nKL, nKl etc... S & Sprésentent
un tableau de nombreuses formulesqui
ont été utilisées ou seulementproposées.
Avecchaque
indice ils donnent son"espérance mathématique" exprimée
en fonction de nK, nL, n, les nK carac- tères quepossède
k et les n de 1 étant tirés au sortindépendamment
dansI : or leurs formules
sont,
pour laplupart,
fausses et semblent avoir été calculées comme si la moyenne duquotient
était lequotient
des moyennes(x/y
=x/y I).
Nous avons cru devoirsignaler
cette erreur,quoiqu’à
nosyeux elle ne soit
qu’un point
noir sur un très beau travail desynthèse.
Cecidit, voici, désignés
par les noms desauteurs,
divers indices avec leurs in- tervalles de variation(la proximité
maximacorrespond
à la valeur 1 ouco).
Ochiai
(1957)
Revue de Statistique Appliqué~. 1970 - vol. XVI II ? 4
83
Notons que de nombreux
auteurs, (Kulczynsli, S~rensen etc... )
ont en vueles
applications écologiques (cf 216).
III.2 Coefficients de corrélation
Ces coefficients se calculent sur les colonnes d’une matrice de sca-
laires
quelconques.
On traite ces colonnes comme des fonctionsnumériques
de la variable
i I,
et on a :Où
8k (resp. al )
est la moyennearithmétique
des aik(resp. an).
Certainsauteurs travaillent sur des matrices dont les
lignes
ont été normalisées(amenées
à avoir pour moyenne 0 et pour écarttype 1,
cf214). L’interpré-
tation
géométrique
estclassique.
Achaque
individukEJ, correspond
dansIf le
vecteurak
decomposantes
les ai~ ; le vecteur1~,
decomposantes
lesiik
= aik -âk,
et laprojection orthogonale
deak
surl’hyperplan perpendi-
culaire à la
diagonale principale, hyperplan
lieu des vecteurs deRD
dont lasomme des
composantes
est nulle. On a(les angles
sont définis pour la norme euclidienne usuelle deR°,
racinecarrée de la somme des carrés des
coordonnées).
Le coefficient de corré- lation vaut 1 siak
etâ i
sontparallèles
et de même sens ; dans le cas par- ticulier où la matrice de corrélation est unematrice logique (des
1 etdes
zéros)
celaimplique
que les vecteurs colonnes ak et al sontidentiques.
En
général
on admet que la ressemblance est d’autantplus grande
que le coefficient de corrélation estplus
voisin de 1. SelonS & S,
les valeurs forte- mentnégatives
sont rares(si
leslignes
n’ont pas éténormalisées) :
poureux cela
s’explique
parce que la notiond’antiespèce
est inconcevable(cf
p.
141).
Considérons le casparticulier
d’une matricelogique,
et reprenons les notations du n° 31. On aura r kl = - 1 si et seulement si :nK = nKI = n 1 nk = nkL = n 1 ,
c’est-à-dire si les deux
espèces
k et 1s’opposent
sous tous lesrapports :
or en
prenant
l’antithèse d’un être vivantk,
on a peu de chances de définirun être viable 1 ! Cette remarque intéresse la
logique,
lasémantique
et lareconnaissance des formes. En
logique
formelle(e.g.
calcul desprédicats)
une
propriété
et sanégation
sont sur le mêmeplan,
comme le sont un en-semble et son
complémentaire (ou,
cf212,
les deux états d’un caractère bi-valent).
Mais une notion définie comme une limite idéale(être vivant,
êtrebon)
n’a rien de même naturequi s’oppose
àelle ; disons,
pour user d’uneimage mathématique,
que, si unepartie
admet uncomplémentaire,
un filtren’a pas
d’opposé (soit
~CCj3(E)
un filtre surE ;
lecomplémentaire
de Si dansd3(E)
n’est pas unfiltre ; {go 1 CgEâi~,
ensemble descomplémentaires
desparties
deE,
éléments de5,
n’est pas un filtre nonplus).
Un modèle ma-Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
84
thématique
de ces limites idéalespourrait
seprésenter
ainsi : soit E un en-semble infini de
qualités
surlequel
est défini une mesurepositive Il (e. g .
par une densité de
masse... ),
supposons donnée pour tout nombre x de l’inter- valle(0,1)
unepartie
mesurableQXCE (on peut postuler
que lesQx
formentune famille décroissante : x y
Qy C Qx,
et queQ~ est vide) ;
un indi-vidu i sera défini comme une fonction f sur E
prenant
ses valeurs dans(0,1),
si q est une
qualité, qEE, f(q)
est laprobabilité
que i manifeste q. Main-tenant,
on dira que ipossède
laqualité
idéaleQ,
définie parpQ ,
si :autrement dit si i
possède
une fractionsupérieure
à x desqualités
de cha-que
Q x.
Avec un telmodèle,
laqualité
idéaleQ
et sanégation
seprésen-
tent si
différemment, qu’on peut
dire queQ
n’a de contrairequi
soit sur le mêmeplan qu’elle.
De même uneforme ;
"être unA",
n’a pas de contraire : l’ensemble des dessinsqui
sont des A n’est défini que parrapport
à unestructure
idéale,
àlaquelle
aucune structureopposée
necorrespond, qui puis-
sent définir les "non-A". Dans un message
télégraphique,
le "non-A"peut
se définir par "B ou C... ou Z... ou
9",
mais engénéral
l’ensemble desobjets
informes est le contexte inévitable de toutproblème
de reconnaissance des formes(or
ce contexte est méconnu par ceuxqui parlent
d’unepartition
de tous les
objets
entre lesformes).
De toutes les combinaisons conceva-bles de
caractères,
bien peu sont assez conformes à l’idéal de la vie pour définir un être viable d’une forme ou d’une autre. C’estjustement
cette dis-tribution
sporadique
des vivantsqui
rendpossible
et utile leurséparation
enclasses.
A titre d’exercice de
géométrie,
examinonscomment,
si leslignes
sontnormalisées, peuvent apparaître
des coefficients de corrélation voisins de- 1. Si les
lignes
ont éténormalisées,
les vecteurs-akP
et donc aussi lesa’k,
ont pour somme zéro :ils sont
répartis
à peuprès symétriquement
autour del’origine.
Il ne doitpas être rare que deux d’entre eux
ai,
etai
aientapproximativement
desdirections
opposées ;
on a alors :Pareille situation
peut
serencontrer,
e. g., si la matriceaij
est ob-tenue
par
normalisation d’une matricelogique.
Voici unexemple
artificieloù ak - - a 1,
cependant
que k et 1 s’accordent surplus
de 70%
des carac-tères,
situation vraisemblableet,
en tout cas, fortéloignée
de celle desanti-espèces. Remarquons
d’abordquelle
est laforme, après normalisation,
d’une
ligne
de matricelogique :
s’il y a mi 1 et mzéros,
les 1 sont rem- placés par ai. les zéros par a i avec :Supposons
que les caractères serépartissent
en trois classes d’effec-tifs nKL, nkL, nKL
(cf
notations31),
pourlesquelles
les valeurs de deux in-Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
85
dividus k et 1 se
placent après
normalisation commeindiqué
sur lesgraphi-
ques ci-dessous
(où
lagraduation
vaut1/VY2
afin que les al x availlent 1)
nKL caract. :
n KL caract. :
n KL caract. :
,
On
voit
que si les valeurs moyennesak
eti-, sont
bien à laplace
fi-gurée,
on aa ~
1 +-a*ll =
0.Pour cela il faut et il suffit que :
n KL+ 5nKl-
3nkL
=0,
ce
qui
estréalisé,
e. g. si :nKL=
110 ; nKl = 2 ;
nkL= 40.III. 3 Distances
S &
S,
s’adressant à unpublic
peu versé dans lesmathématiques
com-mentent
soigneusement
des formulesclassiques.
Ils
signalent
aussi le coefficient dedivergence
de Clark(1952) qui présente
l’intérêt de varier entre 0 et
1,
si leaik
sont touspositifs :
Et
rappellent
le coefficient de similitude entre races défini par K. Pearson(1926) :
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
86
où aik est une valeur
expérimentale
du caractère i calculée comme moyennesur un échantillon de n~ individus de
l’espèce k ;
et s ik estl’écart-type
ducaractère i sur
l’espèce
k.L’analyse
factorielle descorrespondances utilise,
on lesait,
une dis-tance définie par une forme
quadratique particulière.
Nous retrouverons donc lesproblèmes
de distances au § 6.in. 4 Ind ices réduits
Au
paragraphe suivant,
nousprésentons quelques algorithmes indépen-
dants de
l’analyse
factorielle. Lesalgorithmes
utilisent pour données des indices de similarité calculés àpartir
de la matrice dedescription
suivantl’une des
techniques exposées
ci-dessus. Il estgénéralement
commode desupposer que l’indice de similarité varie de 0
(similarité
minimale à 1(iden- tité).
D’où la necessité de réduire les indicesqui
ne satisfont pas à cette condition. Si on a calculé d’abord une distance d on la convertira en indices par une formule telle que :
ski=
[10- d~J/10 ,
(où [x] désigne
x si x estpositif
et oautrement),
deux unitésséparées
parune distance ~ à un seuil arbitrairement fixé à 10 ont une similarité nulle.
De
même,
àpartir
d’un coefficient de corrélation onpeut
poser :Ski = (1 + rki)/2 .
Parfois S & S écrivent : "k et 1 sont similaires à x
%".
Cela n’a pas de sensprécis indépendamment
de la conventionqui régit
le calcul d’un in- dice s, etsignifie
seulement : Ski=x/100.
Uneterminologie plus précise
est :k et 1 sont
similaires,
pour s, à x(resp.
àx %,
resp. àplus
de x, cequi équivaut
à la formule : SkI = x(resp.
=x/100,
resp >x).
Onpeut cependant
tenter de donner de l’indice réduit une définition à peu
près indépendante
dupoint
de vueadopté (association corrélation,
distance pour élaborer la matrice dedescription.
Les recherches de R. N.Shepard
ont montré l’intérêt de con-sidérer,
non les distances d’(ou
les similaritéss’),
mais lesinégalités qu’elles
vérifient et il est vraisemblable que cesinégalités
ne sont pastrop
sensibles aux divers modes de calcul de d ou de s. D’où une nouvelle défi- nition de l’indice réduit s : sll est laprobabilité
que deux individuspris
auhasard dans J soient moins semblables
(moins corrélés, plus éloignés)
quek et 1.
(Pratiquement,
onpourrait
se borner à ne considérer dans les cal- culsqu’une
dizaine dedegrés
de similarité distinctségalement espacés).
Ilimporte
de remarquer que si s est l’indice réduit(1-s)
n’est pas néces- sairement une distance satisfaisant àl’inégalité
dutriangle.
IV - UN
PROBLÈME
D’OPTIMISATIONAfin de
préciser
le terme idéal verslequel
nousparaissent
tendrebeaucoup
de recherches(cf
S & S chVII),
nous donnerons une définition.Nous proposerons ensuite
quelques
remarques etgénéralisations.
IV.1. Soit J un ensemble fini
(l’ensemble
desunités,
cfsupra).
On dit quel’ensemble H de
parties
de J(HC (j3 (J»
est une hiérarchie departies
de Jsi sont satisfaites les conditions suivantes :
Revue de Statistique Appliquée, 1970 - vol. XV) H ? 4