R EVUE DE STATISTIQUE APPLIQUÉE
M ICHEL F ORTIN
Sur un algorithme pour l’analyse des données et la reconnaissance des formes
Revue de statistique appliquée, tome 23, n
o2 (1975), p. 37-46
<http://www.numdam.org/item?id=RSA_1975__23_2_37_0>
© Société française de statistique, 1975, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
37
SUR UN ALGORITHME POUR L’ANALYSE DES DONNÉES
ET LA RECONNAISSANCE DES FORMES(1) Michel FORTIN*
"Les facultés de
l’esprit qu’on
définit par leterme, analytiques,
sont en elles-mêmes fort peususceptibles d’analyse.
Nous ne les connaissons que par leurs résultats".(Edgar
AllenPoe).
§
1 :Nous allons décrire ici un
algorithme capable,
dans un sens évidemmentrestreint,
deprocéder
à unepremière analyse
sur certainstypes
de données etde fournir ainsi à son utilisateur un
point
dedépart
valable pour uneanalyse plus poussée.
De
façon précise,
nous considérons un ensembled’objets
ou d’individus décrits par un certain nombre decaractéristiques
sinonnumériques,
du moinscodifiables. La seule
propriété
essentielle sera depouvoir
mesurer la similitude(ou
inversement la"distance")
de deuxquelconques
de cesobjets.
Le choix d’une telle mesure est unproblème difficile,
surtout pour des données nonnumériques,
et nous ne l’aborderons pas ici. Nous nouscontenterons,
cettemesure étant
donnée,
d’en tirer un maximum d’information et de fournir àl’analyste
uneimage
aussidégrossie
quepossible
de ses données brutes. Notre démarche sera essentiellementheuristique
et nous n’auronsjamais
besoin despropriétés
strictes d’unemétrique
en cequi regarde
le choix d’une distanceentre les
objets.
Parcontre,
pour fixer les idées etjustifier
intuitivement la méthodeproposée,
nousparlerons
leplus
souvent de nosobjets
comme depoints
duplan
ou del’espace
euclidien R".§
2 : LES POSSIBILITES DE LA METHODE.Considérons donc un cas très
simple :
un ensemble depoints
duplan
que nous voulons décrire à une tierce personne de
façon
aussisimple
et(1) Article remis le 28/11/73, révisé le 22/5/74.
(*) Département de Mathématiques, Faculté des Sciences, Université Laval, Québec, Canada, G1K 7P4.
Revue de Statistique Appliquée, 1975 vol. XXIII N° 2
38
complète
quepossible.
Parexemple
on donnera une information consi- dérable si l’on dit que dans lafigure
2.1 lespoints
dessinent la lettre A. SiFigure
2.1nous voulons construire un
algorithme capable,
même trèsimparfaitement,
de nous décrire un ensemble
d’objets,
nous voyons donc que nous sommesconduits à simuler un
phénomène
deperception.
Or le sens commun nousapprend
que même dans des cas trèssimples,
un observateur pourra donner d’un même ensemble depoints
desdescriptions différentes,
basées sur despoints
de vue différents maiségalement valables,
et fournissant des infor- mationscomplémentaires
etparfois,
àpremière
vue, contradictoires.Par
conséquent,
on ne saurait attendre d’unalgorithme qu’il
nous four-nisse une
image unique
etobjective.
Aucontraire,
il est souhaitable depouvoir,
selon notre
désir,
lui faireadopter
unpoint
de vue donné.Voyons
maintenantquelles
sont lesdescriptions
que nous pouvonsespérer obtenir,
sachant que la seule information dedépart
est fournie par les distances entre lespoints.
Nous devons tout d’abord éliminer les conditions desymétrie
et d’orientation. Enfait,
nous ne pourrons conserver que des notions"topologiques",
enparticulier
la connexité.En
fait,
notrealgorithme
pourra décrire deuxtypes
de structures :i)
uneclassification,
desobjets :
c’est-à-dire unepartition
de notreensemble en sous-ensembles naturels
(ou groupes)
ii)
une ordination : ladescription
d’un chemin "continu" décrivant le passage d’uncomportement
extrême à un autre par une suite decomporte-
ments intermédiaires.
Les deux
types
de structurespourront
êtreprésents
dans un cas donné.Par
exemple,
certains groupes d’une classificationpourront
êtreinterprétés
comme des associations naturelles
d’objets
semblables alors que d’autres contiendront des cas extrêmes et leur voie de liaison. Ilappartiendra
à l’uti-lisateur de
distinguer
le genre de la structurequi
lui estproposée.
D’autre
part,
l’utilisateur pourra modifier lepoint
de vue del’algorithme,
de la considération des structures
locales, jusqu’à
la situationglobale
de l’ensemble tout entier. Mais pour décrire exactement cettepossibilité
nousdevons faire intervenir une définition
plus précise
de la notion de structure.§
3 : STRUCTURE VERSUS UNIFORMITERevenons à notre cas
simple
despoints
dans leplan.
Le seul cas où nous n’aurons rien à décrire est celui d’unerépartition uniforme
de cespoints :
Revue de Statistique Appliquée, 1975 vol. XXIII N° 2
39
il
n’y
a alors aucune classification naturelle ni de cheminprivilégié
pour passer d’uncomportement
à un autre. De même si lespoints,
sans être distribuésuniformément,
sont un échantillon d’une variable aléatoire uniforme nouspourrons certes y
distinguer
des structures à un niveau très local mais nousperdrons
touteimage précise
dès que nous nousplacerons
à un niveauplus global.
Au contraire un ensemble depoints présentant
des zones à forte concen-tration
séparées
par desvides,
sera aisémentséparé
en groupes etprésentera
des structures fortes. Nous avons donc retenu pour la construction de notre
algorithme
de mesurer cette concentration despoints
et nous avons crudevoir
exiger
de cette mesure lespropriétés
suivantes :i)
la mesure de concentration(ou
inversement dedispersion)
doitêtre contrôlable afin de
distinguer
les variations locales à un extrême et à l’autre de ne conserver que les variations trèsglobales,
en lissant les compor- tements aléatoires locaux.ii)
elle doit être uniforme sur un ensemble uniforme depoints,
elle doitdevenir uniforme au niveau
global lorsque
lespoints
sont échantillonnés sur une variable uniforme.Ces
exigences
sont loin d’assurer l’unicité d’une telle mesure. Nous avonsretenu celle décrite ci-dessous
qui
nous apermis
d’obtenir de bons résultats mais des travaux sont en cours pour étudier d’autrepossibilités.
Soit donc un
point
x(un objet
de notreensemble).
Nous savons mesurerles distances
d(x, y) (resp.
les similitudess(x, y)) lorsque
yparcourt
notre ensembled’objets.
Conservons donc les mobjets
ou individus lesplus proches (les plus semblables)
à x. Nous les noteronsvi(i
=1, m)
et nous lesappellerons
les
points
voisins de x, l’indice i variant selon l’ordre deproximité.
Ainsi v1sera le
plus proche
voisin dupoint
x. Nous calculons maintenant dans le cas d’une distancedans le cas d’une similitude.
Nous dirons que
d(x)
est ladispersion
aupoint
x et quec(x)
est la concen- tration aupoint
x.Ces deux mesures vérifient bien les
propriétés i)
etii),
le passage du niveau local en niveauglobal
se faisant enaugmentant
m.§
4 : LE PRINCIPE DE L’ALGORITHME.Supposons
donc ladispersion (ou
laconcentration)
calculée en tous lespoints
de l’ensemble. Dans notreproblème
modèle duplan
nouspourrions
en donner uneimage
trèssimple :
il suffirait de rendreplus
ou moins foncées lesrégions
selon ledegré
de concentration. De même onpourrait
penser à unemaquette topographique
tridimensionnelle où la cote(l’altitude)
varierait enfonction de la concentration. Il
s’agit
maintenant de décrire ce que nous voyons.Revue de Statistique Appliquée, 1975 vol. XXIII N° 2
40
Comme nous avons
rejeté
aupoint
dedépart
toute notion d’orientation ou desymétrie,
l’idée laplus
naturelle serait deprocéder
par ordre de concentration :placer
d’abord la tache laplus
noire ou lamontagne
laplus
haute etprocéder
ensuite à
partir
de cepoint,
par ordredécroissant,
en rattachant successivement lespoints
aux structures existantes ou en leurpermettant
de créer une nouvellestructure. Le rattachement d’un
point
se fera au moyen de sespoints
voisins.Un
point qui
se rattacherait à deux ouplusieurs
structures seraappelé
un lienou un
pont
et nouspermet
de connaître un chemin entre deux structures. Parmi tous les lienspossibles
entre deux groupes nous ne conserverons que celuiayant
laplus
forte concentration. Dans notre modèletopographique,
ils’agirait
d’uncol,
dans la valléeséparant
deux sommets.§ 5 :
DESCRIPTION COMPLETE DE L’ALGORITHME.Soit N le nombre total
d’objets.
Etape 1)
Considérons un desobjets (points)
que nous noteronsOi. On
calculerad’abord les N-1 distances
(ou
resp.similitudes)
entre cepoint Oi
et tous lesautres
points
de l’ensemble. On retiendra alors les mplus petites
distances afin de calculer ladispersion
ou la concentration par la formule(3.1)
ou(3.2). Rap- pelons
que m est unparamètre
arbitraire : pour m"petit" (par exemple 1, 2, 3,
4dans le cas de 100
objets)
on considère des variations locales de concentration alors que pour m croissant on lisse deplus
enplus
ces variations locales pourse tenir
compte
que des structuresglobales.
Ladispersion
ainsi calculée aupoint Oi
sera conservée dans le tableaudi (i
=1, N).
Par ailleurs on conserveradans un tableau V =
(vij)
où i =1,
Net j
=1,
p les indices des pplus proches
voisins du
point
i. On a ici un secondparamètre
arbitraire p(qui
doit êtrem)
et
qui
déterminera comme nous le verronsplus
loin les niveauxd’exigence
pour le rattachement d’un
point
à une structure existante.Notons que dans la suite de
l’algorithme
les distances ne serontplus
utilisées et que par
conséquent
on n’aura pas à les conserver en mémoire.En résumé à la fin de
l’étape 1 )
nous avons en mémoire pourchaque point Oi
une mesure de concentration ou dedispersion di
et la liste de ses p voisinsvij (j
=1, p).
Nous dirons que le tableau V =(vij)
est le tableau despoints
voisins.
Etape 2)
Nous ordonnons maintenant lespoints
par ordre croissant de dis-persion (décroissant
deconcentration)
et nous créons un dictionnairepermettant
de connaître pourchaque point Oi
son numéro d’ordre parrapport
auxdisper-
sions et
réciproquement
de connaître lepoint correspondant
à un numéro d’ordre donné.Etape 3)
Nousbalayons
maintenant lespoints
dans l’ordre décroissant des concentrations.Le
premier point
formeautomatiquement
lepremier
groupe et y entraîneses p voisins. Nous voyons donc ici que le
paramètre
p nouspermet
d’étendreplus
ou moins loin levoisinage
d’unpoint.
Nous considérons maintenant unRevue de Statistique Appliquée, 1975 vol. XXIII N° 2
41
point Q quelconque.
Deux caspeuvent
sepréciser :
A)
lepoint
estdéjà
classé dans un groupe(il
y a été attiré par un despoints précédents)
B)
lepoint
n’est pasdéjà
classé.Dans le
premier
cas, lepoint Q
attire dans son groupe tous ceuxparmi
ses voisins
qui
ne sont pas encore classés. On dit alors queQ
est l’attracteur de cespoints
et on conserve cette information dans un tableauqui
àchaque point
faitcorrespondre
son attracteur(ou
0 si lepoint
est le centre d’un nouveaugroupe).
Si un desvoisins, P,
estdéjà
classé dans un autre groupe que celui dupoint Q,
on est enprésence
d’un lien entre deux groupes. Nous convenonsalors de dire que celui de
Q
et de Pqui
a laplus
faible concentration est lepoint qui
crée le lien. Nous vérifions alors si un lien avaitdéjà
été créé entre les groupesen
question.
Sioui,
nous ne conservons que le lien créé par lepoint ayant
laplus
forteconcentration, (recherche
dupoint col).
Dans le second cas nous devons choisir entre la création d’un nouveau
groupe ou le rattachement du
point Q
à un groupe existant. Le critère sera le suivant : si leplus proche
voisin deQ
estplus
dense(possède
une concentra-tion
plus
forte ou unedispersion plus faible)
nous savons que cepoint
estnécessairement
déjà
classé et nous rattachonsQ
à son groupe. Dans le cascontraire,
nous créons un nouveau groupe et le traitement des voisins deQ
est celui décrit pour le
premier
cas.Par
conséquent, lorsque l’algorithme
est terminé nous avons à notredisposition
les informations suivantes.1)
Pourchaque point
un numéro de groupe et son attracteur dans le groupe. Cela nouspermet
de construire une liste des groupes et d’en tracer ungraphe (arbre)
àpartir
du tableau des attracteurs. Cegraphe peut
fournir uneimage
des liens entre les éléments du groupe. Il pourra servir à décider si nous somme enprésence
d’un groupe "naturel" ou d’un chemin continu.2)
Nous avons aussi une liste des liensinter-groupes, qui
définit à sontour un
graphe, duquel
onpeut
tirer un arbre en ne conservant entre deux groupes que le chemin de densité maximum. Cet arbrepeut
ensuite servir à construire une hiérarchieparmi
nos groupes.Nous travaillons en ce moment sur la
partie graphique
de laprésentation
de ces résultats. Mais voyons
plutôt
sur desexemples
lesrenseignements
que l’onpeut
en tirer.6 : RESULTATS.
Exemple 1)
Lafigure
6.1présente,
dans leplan,
un ensemble depoints qui
sera fourni à
l’algorithme
de classification. L’oeil humain reconnait facilement laprésence
de deux groupes liées par un col(un sablier ? ).
Lespoints
sontdisposés
uniformément sur unegrille
et toute méthode de classification baséeuniquement
sur la distance conduira à des résultats fantaisistes.Cependant
pour un nombre de
points
voisins m assezgrand
onpeut
s’attendre à observerun minimum de concentration dans le col. En
effet,
lespoints
du col doiventRevue de Statistique Appliquée, 1975 vol. XXIII N° 2
42
chercher
plus
loin que les autres leurs voisins(de
même que lespoints péri- phériques).
Les numéros de lafigure
6.1représentant
la classification obtenueavec 8
points
voisins m = p = 8. On voit donc que notrealgorithme
sedébrouille très bien dans une situation reconnue comme étant des
plus
difficilesen classification
automatique.
Figure 6.1 - Sablier (points
équidistants)
Exemple 2)
Les données de Fisher sur les Iris sontclassiques
enanalyse
discri-minante et en classification
automatique. Rappelons qu’il s’agit
de 150 indi-vidus de trois
espèces
d’Iris à savoirSetosa,
Versicolor etVirginica
surlesquels
on a
pris
4 mesures :longueur
etlargeur
despétales
ainsi que dessépales.
Nous avons donc à classifier un ensemble de 150
individus,
chacun des indi- vidus étant caractérisé par un vecteur deR4. Après
avoir normalisé les variables i.e. soustrait la moyenne et divisé parl’écart-type,
nous avons utilisé notrealgo-
rithme en nous servant de la distance euclidienne. Nous avons
rapidement
cons-taté que Iris Setosa formait un groupe aisément reconnaissable et nous sommes
restreints à traiter Iris Versicolor et Iris
Virginica (50
individusrespectivement).
Ces deux
espèces
serecoupent
et il n’est pas aisé dedistinguer
une frontièrevalable.
Nous avons utilisé ici m =
8,
p = 5. Ces valeurs ont été choisies auhasard,
mais les résultats pour d’autres valeurs montrentqu.elles
sontrepré-
sentatives. Les résultats bruts nous donnent l’existence de 9 groupes ou
structures distinctes. Ces groupes sont formés
respectivement
comme suit :Groupe
1 : 19Versicolor,
1Virginica
Groupe
2 : 19Versicolor,
1Virginica Groupe
3 : 16Virginica
Groupe
4 : 10Virginica,
1 VersicolorGroupe
5 : 10Virginica,
7 VersicolorGroupe
6 : 5Virginica,
Groupe 7
6Virginica, Groupe
8 : 4Versicolor, Groupe
9 : 1Virginica.
Cette
décomposition
entre Versicolor etVirginica
résulte évidemment d’une connaissance apriori,
à savoir que nos individusappartiennent
à deuxespèces
distinctes. Considérons maintenant legraphe
des liens entre les groupes.Revue de Statistique Appliquée, 1975 vol. XXIII N° 2
43
Dans le
graphe présenté
les liens sontpondérés
par le numéro dans l’ordre des densités dupoint
formant le lien. Il convient aussi depréciser
parrapport
au mêmeordre,
le numéro dupoint ayant
créé le groupe. Un groupeapparaissant
tôt sera
d’après
nos conventionsplus
cohérentqu’un
groupeapparaissant
enqueue de liste où on retrouve des
points périphériques plus
ou moins isolés.Afin de
simplifier
la lecture dugraphe
nous n’avons retenuqu’un
arbregéné-
rateur
minimal, (le
chemin pour passer d’un noeud à un autre est minimal pour les numéros d’ordre dedensité).
Sous nos conventions voici donc le
graphe.
Figure 6.2
Nous pouvons maintenant tirer de cet arbre une hiérarchie selon un pro- cédé
classique (cf [4])
enreportant
les liens par ordred’apparition.
L’axe dela hiérarchie est ici défini par l’ordre des
dispersions
et concentrations et nonpar les distances comme dans une hiérarchie normale. Le résultat est le suivant
Figure 6.3
Revue de Statistique Appliquée, 1975 vol. XXIII N° 2
44
Tentons momentanément d’oublier toute connaissance a
priori
sur l’exis-tence de deux
espèces
et tentonsd’interpréter
lesfigures
6.2 et 6.3.Tout d’abord on constate que les groupes
6, 7, 8,
9 se rattachent dès leur formation à un groupedéjà
existant : ainsi le groupe 7 est créé par lepoint
76qui
crée aussi le lien de groupe avec le groupe 4. Parconséquent,
sauf si l’on s’intéresse aux structures locales on pourra regrouper 7 et 9 avec4,
6 avec 5et 8 avec 1. Considérons maintenant les
cinq premiers
groupesqui
sontséparés
de leurs voisins par de véritables vallées.
On
distingue
enpremier
lieu deuxregroupements principaux :
les groupes 1 et2.
d’unepart
et les groupes 3 et 4auxquels
se rattachent ensuite 5 et 6 d’autrepart.
Par ailleurs lafigure
6.2 nousindique
que le groupe 5 est unesorte d’intermédiaire entre les groupes 2 et 4.
Nous pouvons donc en déduire la
description
suivante : Les groupes 1 et 2 d’unepart,
3 et 4 d’autrepart correspondent
à deux structures bien définies.Le groupe 5 se rattache d’abord à 3 et 4 mais il est aussi un intermédiaire entre 2 et 4. Les groupes
6, 7, 8,
9 sont peu différenciées et se rattachent à5, 4, 1,
4respectivement.
Les groupes7, 8,
9 sont des structures locales etpériphé- riques (faible concentration,
peu dedifférenciation).
Si on compare avec la
description
àpriori
ons’aperçoit
effectivement que 1 et 2correspondent
àVersicolor,
3 et 4 àVirginica
et que 5 est effec- tivementcomposé
dereprésentants
de ces deuxespèces.
Si on
place
sur lafigure
6.2 la coupure entre 2 et 5 on obtient en tout 10 individus mal classés cequi
est très correct étant donné la difficulté duproblème.
Exemple 3)
Lafigure
6.4représente
les données deRuspini (cf [3]) l’algorithme sépare
sans difficulté les 4 groupesprincipaux.
La variation desparamètres permet
de discerner avecplus
ou moins de netteté les structures locales. Les résultatsprésentés
ont été obtenus avec m = p = 5.Figure 6.4.- Données de Ruspini.
Revue de Statistique Appliquée, 1975 vol. XXIII N° 2
45
§
7 : CONCLUSIONLes
approches
auproblème
de la reconnaissance des formes et de la classificationautomatiques
sontmultiples
et il ne nous estguère possible
ici de comparer de
façon complète l’algorithme
que nous proposons aux méthodesdéjà
existantes. Nous renverrons aux ouvrages de Benzecri[1]
et de Sokal
[6]
pour une vuegénérale
de laquestion
et à[2], [3], [4] et [7]
pour
quelques
considérationsprécises ayant inspiré
notre travail. Disonssimplement
que la notion de classification est floue etqu’il
serait duplus
haut intérêt d’en faire l’étude
théorique.
Pour ce
qui
est de notrealgorithme,
nous croyons que sesprincipales qualités
sont les suivantes : il n’est ni aléatoire ni itératif maisparfaitement
"déterministe" et de
plus
trèsrapide
parrapport
à d’autres méthodespossédant
ces mêmes
qualités
comme lesalgorithmes
de classificationhiérarchique.
(Par exemple
sur IBM370-155,
il nous faut moins de 2 secondes pour effectuer la classification de 100points
deR4).
Deplus
onpeut
en tirerplus
d’infor-mation sur les liens entre les
objets
que d’une classificationhiérarchique
normale.
Une autre
qualité
estl’adaptabilité.
Celle-ci supposecependant
une inte-raction homme-machine constante : l’utilisateur doit être en mesure
d’apprécier rapidement
laqualité
del’image qui
lui est fournie afin de choisir cellequi
luiparait
la mieuxadaptée
à ses besoins. Nousespérons adjoindre
d’ici peu à notre programme des moyensgraphiques permettant
une visualisation immédiate desrésultats,
enparticulier
des différentsgraphes
fournis par le programme.Disons pour terminer que nous nous proposons d’étudier aussi de
façon plus précise
la notion de niveau d’une classification que nous avons introduite ici defaçon
intuitive.(On peut
obtenir le programme FORTRAN utilisé en écrivant à l’auteur auDépartement
deMathématiques
de l’Université Laval. Pour obtenir unecopie
sur ruban
magnétique
il conviendrait de fournir le ruban. L’ordinateur de l’Université Laval est un IBM370-158,
et pour les usagers de calculateurs autres que ceux deIBM,
il sera souhaitable de vérifier aupréalable
lacompatibilité
dessystèmes).
BIBLIOGRAPHIE
[1] BENZECRI
J.P. -L’analyse
des données. Tomes I - IIDunod,
Paris 1973.[2] DIDAY
E. - Une nouvelle méthode en classificationautomatique
et recon-naissance des formes : la méthode des nuées
dynamiques.
Revue de Sta-tistique Appliquée
volXIX,
no.2,
1970.[3]
DIDAY E. - TheDynamic
Clusters Method in Non-HierarchicalClustering.
Rapport
IRIA-72004Informatique Numérique.
Domaine de Voluceau 78Rocquencourt
France.[4]
GOWERJ.C.,
ROSS G.J. S. - MinimumSpanning
Trees andSingle Linkage
Cluster
Analysis. Appl.
Stat.18,
p.54-64,
1969.Revue de Statistique Appliquée, 1975 vol. XXIII N° 2
46
[5] RUBIN
J. -Optimal
Classification intoGroups :
anApproach
forSolving
the
Taxonomy
Problem. J. Theoret. Biol.15,
p.103-144,
1967.[6]
SOKAL R.R. - NumericalTaxonomy (nouvelle
édition àparaître).
[7]
ZAHN C.T. -Graph
Theoretical Methods forDetecting
andDescribing
Gestalt Clusters. IEEE Transactions on
Computers,
volC-20,
no1,
pp. 68-86,
1971.Revue de Statistique Appliquée, 1975 vol. XXIII N° 2