R EVUE DE STATISTIQUE APPLIQUÉE
M. C HAVENT
F. DE A. T. D E C ARVALHO Y. L ECHEVALLIER
R. V ERDE
Trois nouvelles méthodes de classification automatique de données symboliques de type intervalle
Revue de statistique appliquée, tome 51, n
o4 (2003), p. 5-29
<http://www.numdam.org/item?id=RSA_2003__51_4_5_0>
© Société française de statistique, 2003, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
5
TROIS NOUVELLES MÉTHODES DE CLASSIFICATION
AUTOMATIQUE DE DONNÉES SYMBOLIQUES DE TYPE
INTERVALLE
M.
CHAVENT(1),
F. DE A. T.CARVALHO(2), Y. LECHEVALLIER(3),
R.
VERDE(4)
Rev.
Statistique Appliquée,
2003, LI(1) MAB-Mathématiques Appliquées
de Bordeaux (UMR 5466), Université Bordeauxl, 351 cours de la libération, 33405 Talence cedex.[email protected]
(2) Cln - Centro deInformdtica
UFPE - Universidade Federal de Pernambuco, Av.Prof.
LuizFreire sln - Cidade Universitaria - CEP 50740-540
Recife-PE
Brasil.[email protected]
(3) INRIA - Institut National de Recherche enInformatique
et enAutomatique,
Domaine deVoluceau - Rocquencourt B. P. 105 - 78153 Le
Chesnay
Cedex, Franceyves. lechevallier@ inriafr
(4)Dip. Strategie
Aziendali eMetodologie
Quantitative - SUN - Seconda Università diNapoli,
Piazza Umberto 1, 81043Capua,
Italie. rosanna. verde @ unina2. itRÉSUMÉ
Trois méthodes de classification
automatique
basées surl’algorithme
des NuéesDyna- miques
sontprésentées
etcomparées.
Ellesgénèrent
unepartition
d’un ensemble de données de type intervalle et utilisent des prototypes, des distances et des critèresd’homogénéité
différents.Une évaluation de ces trois
approches
sera faite àpartir
de deuxjeux
de données.Mots-clés : Partitionnement,
Objets Symboliques,
Variables Intervalles, Distances entre Intervalles.ABSTRACT
In this paper we present three
partitioning
methods based on adynamical algorithm
(like NuéesDynamiques).
Thesealgorithms perform
apartition
of a set of interval datausing
different dissimilaries criterions as well as different kind of clusters
representation (prototypes).
The three
approaches,
hereproposed,
arecompared
on the basis of two data sets..Keywords :
Partitioning,Symbolic Objects,
Interval variables, Dissimilarities.1. Introduction
Dans ce
papier
nous proposons troisapproches
classificatoires d’un tableau de donnéessymboliques [DID 88], [BOC 00]
où les valeurs sont des intervalles. Dans le tableau 1chaque
colonne est une variable detype
intervalle etchaque ligne
estune
description
sous forme d’intervalles des relevés detempérature
d’une stationmétéorologique.
TABLEAU 1
Moyennes
mensuelles destempératures
minimales et maximalesjournalières
relevéesdans les 60 stations
météorologiques
chinoisesNos trois
approches
utilisent unalgorithme
detype
NuéesDynamiques ([DID 71 ], [DIS 76], [DID 80]
et[CEL 89])
avec des distances et des prototypes(noyaux, centroides) différents,
leprototype
d’une classe étant une modélisation de cette classe.Dans la
première approche,
lesprototypes
sont des éléments del’espace
dereprésentation
desobjets
àclasser,
c’est-à-dire un vecteur dont les coordonnées sont des intervalles. La distance entre un noyau et un individu ouplus généralement
entredeux vecteurs d’intervalles est basée sur la distance de
Hausdorff [CHA 97].
Dans la seconde et la troisième
approche,
lesprototypes
ne sontplus
desvecteurs d’intervalles mais des vecteurs de distributions calculés à
partir
desystèmes
de
pondérations
associés aux intervalles. Dans ce cas onparlera
de prototypesgénéralisés.
Dans la secondeapproche,
la distance utilisée est une distanceclassique
entre distribution de
type
distanceL2.
Dans la troisièmeapproche,
leprototype généralisé
et les individus ne sont pasreprésentables
dans le même espace dedescription.
La mesure decomparaison
utilisée n’est donc pas une dissimilarité mais une fonction decomparaison (« matching »).
Cette fonction est constituée de deuxcomposantes
car elleintègre
non seulement l’écart entre deux intervalles maiségalement
lesystème
depondération
de ces deux intervalles.Une
comparaison numérique
entre les deuxapproches
a été réalisée surdeux
jeux
de données : lestempératures
mensuelles de 60 stations chinoises(Long-Term
Instrumental Climatic Data Baseof
thePeople’s Republic of
Chinahttp : //dss.ucaredu/datasets/ds578.5/data/)
et les «formes d’ondes»[BRE 84].
TROIS NOUVELLES MÉTHODES DE CLASSIFICATION AUTOMATIQUE 7 2. Notations et définitions
Une variable intervalle Y est une
correspondance [AUB94]
de l’ensemble E desobjets
dans Mqui
vérifie lapropriété
suivante sur songraphe :
pour tout individus E E le sous-ensemble
[a, b]
=Y(s)
est un intervalle fermé de M. Onnotera 3
l’ensemble des intervalles fermés de 9t
Soit E un ensemble d’individus décrits par p variables intervalle
Vi,..., Yj,
...,Yp.
Chaque
individupeut
être modélisé par unobjet symbolique [BOC 00]
dont la des-cription
est le vecteur x., d’intervalles dey qui
estl’espace
dereprésentation
desindividus de E.
Finalement,
notre tableau de données(x-1 ,,)n>p
est constitué de nlignes représentant
les n individus à classer et de p colonnesreprésentant
les pvariables, chaque
case de ce tableau contenant un intervallexjs
=[ajs, bjs]
fermé de 9t.Un prototype
Ci,
associé à chacune des classesCi,
est un élément del’espace
de
représentation
A des classesqui peut
êtrel’espace
dereprésentation
de E.Une mesure de
proximité
D est une fonctionpositive
ou nulle définie surchaque couple
d’éléments deil (espace
dereprésentation
deE)
et de A dont la valeur est d’autantplus petite
que ces deux éléments sont« proches ».
3. Schéma de
l’algorithme
de classificationLe schéma de
l’algorithme
departitionnement
est detype
NuéesDynamiques ([DID 71], [CEL 89]).
Cetalgorithme
recherche unepartition
P* de E en k classesnon vides et un vecteur L* de k
prototypes (Gi,..., 1 Gil ... 1 Gk) qui représente,
aumieux par
rapport
à un critèreA,
les k classes(Ci,..., Ci,
...,Ck)
de lapartition
P* :avec
Pk
l’ensemble despartitions
de E en k classes non vides etA l’espace
dereprésentation
des prototypes.Ce critère 0394
exprime l’adéquation
entre lapartition
P et le vecteur L des kprototypes.
Il est défini comme la somme sur toutes les classesCi
et sur tous lesobjets
s de
Ci
des mesures deproximités D (xs , Gi )
entrechaque
vecteur d’intervalles xs et leprototype Gi de
la classeCi :
L’algorithme procède
alternativement par uneétape
dereprésentation
suivied’une
étape
d’allocation. Dans le cas où leprototype
d’une classe est son centre degravité
on retrouvel’algorithme
des k-means ou des centres mobiles.Schéma de
l’algorithme :
a)
initialisation : Onpeut partir
d’unepartition
P =(C1, ..., Ci,..., Ck)
choisie auhasard ou bien d’un ensemble de k
prototypes (Gi, ... 1 Gi 1 - - - Gk)
tirés au hasard.Dans ce cas une
étape
d’affectation est réalisée de la manière suivante :rechercher la classe
Cl
d’affectation de s, avec 1 - arg minD (xs , Gi)
i=l,...,k
b) étape
dereprésentation :
Pour i - 1
à k,
on recherche leprototype Gi
de L minimisant le critèreL D(xs, Gi).
c) étape
d’allocation test E- 0Pour s = 1 à n faire
m est la classe d’affectation du vecteur d’intervalles xs
rechercher sa nouvelle classe
Cl d’affectation,
avec 1 = arg minD (xs, Gi )
z==l,...,A;
si l ~ m
test -- 1
d)
si test = 0 alors stop, autrement alleren b)
Comme le critère A est additif en fonction des k classes et des n
objets
deE,
la recherche de la classe d’affection l de
l’objet s dépend uniquement
de la fonction decomparaison
D entre le vecteur d’intervalles Xs et ladescription
deprototype
decette classe
Cl.
Ainsi la décroissance du critère A est obtenue sous les conditions suivantes :2022 unicité du choix de la classe d’affectation pour
chaque
individu deE;
2022 unicité du
prototype
G minimisant le critèreL D (xs , G)
pour toute classesEC
C de E.
L’unicité de la classe d’affectation se résout facilement en
prenant,
en casd’égalité
desdistances,
la classe deplus petit
indice.Par contre l’existence et l’unicité du
prototype
estplus
difficile à obtenir car elle est liée à la fonction decomparaison
D.Cependant
sil’espace
A dereprésentation
9
TROIS NOUVELLES MÉTHODES DE CLASSIFICATIONAUTOMATIQUE
des classes est
identique
àl’espace
Jp dereprésentation
desobjets
de E alors cetterésolution
dépend uniquement
de la distance entre vecteurs d’intervalles.4. Définition des
prototypes
La définition du meilleur
prototype
d’une classe est liée au choix de la fonction decomparaison
D. Aussi unprototype
detype
différent sera associé à chacune des trois fonctions decomparaison.
2022 Dans la
première
méthode la fonction decomparaison
D est une distancedl
entre deux vecteurs d’intervalles xi et X2
qui
est basée sur la distance de Hausdorff :où
dH
est la distance de Hausdorff entre les deux intervallesxi [ai, loi]
etxj2 = [aj2,bj2].
Le
prototype
G lié à cette fonction decomparaison
sera décritégalement
parun vecteur d’intervalles.
2022 Dans la seconde
méthode,
on associe àchaque
intervallexjs = [ajs,bjs] ]
dutableau de données une distribution
discrète, notée q(xjs),
toutes ces distributionsayant
le même ensemble de définition.Ainsi,
àchaque
vecteur d’intervalles xs, on associeun vecteur qs où les
composantes qjs
sont les vecteurs depoids
des distributionsq(xjs)
associées aux intervalles
xjs.
La fonction decomparaison
D est donc une distanced2
entre deux vecteurs q1 et q2, basée sur la distance
L2
de Minkowski :Le fait d’associer à
chaque
intervalle une distribution discrète revient à réaliserun
codage
du tableau de données par discrétisation des variables intervalles. Nous proposons de déterminer pourchaque
variable un ensemble d’intervalles élémentairesdisjoints
calculés àpartir
des bornessupérieures
et inférieures des intervalles observéssur cette variable.
Après,
pourchaque
intervalle on associe une distribution dont les valeurs sontproportionnelles
auxlongueurs
des intervalles élémentaires contenus dans cet intervalle.Par
exemple (figure 1),
lesobjets
SI, S2, S3 et S4 d’un ensemble E sontreprésentés
par 4 intervalles. Apartir
de ces intervalles on construit la base{I1, I2, I3, I3, I4, I5} qui
estcomposée
par 5 intervalles élémentaires. Lesupport
de l’intervalle s 1 estl’ensemble {Il, 12}
avec unedistribution {(7i, 03B1), (12, 1 - 03B1)}.
Ainsi,
leprototype
G associé à cette fonction decomparaison
ne seraplus
unvecteur d’intervalles mais un vecteur dont les
composantes
sont des distributions.FIGURE 1
Exemple
d’une base d’intervalles élémentaires2022 Dans la troisième
méthode,
on décrit la relation entre lavariable j
etl’objet s,
non pas par un intervalle
xjs
comme dans lapremière approche
ou bien par le vecteur depoids qs
comme dans laseconde,
mais par lapaire : pjs
=(xjs, qjs).
La fonctionde
comparaison d3
entre deux vecteurs pl et p2 est la suivante :où la dissimilarité
d3
est constituée de deuxcomposantes :
la dissimilaritédic qui
estindépendante
du contexte et la dissimilaritéddc qui
estdépendante
du contexte. Ondit
qu’une
dissimilarité estdépendante
du contexte si le calcul de cette dissimilarité pour uncouple
d’élémentsdépend
des autres éléments de cet ensemble.4.1. La distance de
Hausdorff
4.1.1.
Définition
La distance de
Hausdorff [AUB94] dH
entre deux ensemblesAl
etA2
fermésnon vide de R est définie par :
où d est la distance euclidienne.
On déduit facilement de cette définition que la distance de Hausdorff entre deux
TROIS NOUVELLES MÉTHODES DE CLASSIFICATION AUTOMATIQUE
11Finalement,
lacomparaison
entre deux vecteurs d’intervalles xi et x2 est réalisée en effectuant une somme des distances de Hausdorff sur toutes les variables.D’où :
Lorsque
tous les intervalles sont réduits à despoints
c’est-à-dire xi et x2 eRp,
cette distance
correspond
à la distanceLi.
4.1.2. Les prototypes
On cherche pour une classe C d’éléments de E un vecteur d’intervalles G E
Jp qui
minimise :Ce critère
f
étant additif alors il suffit d’estimer pourchaque variable j,
l’intervalle
cj
=[03B1j, 03B2j], prototype
de la classeC, qui
minimise :Pour résoudre ce
problème d’optimisation
on pose :Et on
pose Mi
etÀj respectivement
le milieu et lademi-longueur
de l’intervalle En utilisant lapropriété
suivante définie pour x et y dans R :la fonction
f
à minimiser s’écrit :soit
On retrouve donc deux
problèmes d’optimisation
bien connus : rechercher les valeursj
etj; j
étant une solution de min03A3|03BC - ms et j
étant une solutionde min 03A3|03BB - ljs|.
Les solutions
j
etj
sont doncrespectivement
les médianes :de l’ensemble
{mjs, s ~ C}
des milieux desintervalles , [ajs,bjs], s ~ C
de
l’ensemble {ljs, s ~ C}
de leursdemi-longueurs.
Donc la solution
j
=[j, j]
est l’intervalle[j - j, j
+j].
4.2. La distance
L2 de
Minkowski4.2.1.
Définition
d’une distribution discrète sur un intervallexjs
On
considère { xj1,..., xjs,..., xn
un ensemble de n intervalles deJ.
Apartir
de cet ensemble d’intervalles on construit un ensemble
Ij = Ij1,..., Ijh,..., IjHj}
de
Hj
intervallesdisjoints,
ditsélémentaires,
vérifiant lespropriétés
suivantes :Ils constituent une base de l’ensemble des intervalles
{xj1,..., xjs,..., xjn}
carchaque
intervallexjs
est l’union d’un ensemble d’intervalles élémentairesdisjoints.
Enpratique
les bornes des intervalles élémentairesIh
de l’ensembleh
sont construites àpartir
des bornes ordonnées des n intervalles{xj1,..., xjs,..., xn .
Achaque
intervalle
xjs
on associe un vecteurqjs = (qjs,1,..., qjs,h,..., qjs,Hj)
despoids
définipar :
13
TROIS NOUVELLES MÉTHODES DE CLASSIFICATIONAUTOMATIQUE
ou
1 Ihj 1 est
lalongueur
de l’intervalleI3h».
Une distribution modaleq (x-7 ,,)
sur l’intervallexjs
est une distribution sur l’ensembleIi
des intervalles élémentaires inclus dansxjs,
définie par :
où l’ensemble
SS = { h|qjs,h > 0}
estappelé
support deq(xjs)
et vérifie lapropriété
iv)
de la base d’intervalles élémentaires.4.2.2.
Définition
La distance
L2
de Minkowski entre deux vecteurs depoids
q1 et q2 associés à deux distributions définies sur l’ensembleIj
des intervallesélémentaires,
est :Finalement,
lacomparaison
entre deux vecteursqj1
etq2
est réalisée eneffectuant une somme des distances
L2
de Minkowski sur l’ensemble des variables :4.2.3. Les prototypes
Pour une classe C d’éléments de E on
cherche,
nonplus
un vecteur d’intervallescomme pour les
prototypes
définis avec la distancedl
basée sur la distance deHausdorff,
mais un vecteur G =(gi 1 ... ,gj,
... ,1 gp)
dontchaque composante gj
est le vecteur des
poids
d’une distribution définie sur l’ensembleIi
des intervalles élémentaires sur lavariable j.
On recherche donc Gqui
minimise :où les
composantes qjs
du vecteur qs, sont les vecteurs despoids
des distributions calculées sur les intervalles élémentaires associés aux vecteursxi s (cf. 4.2.1.).
Comme le critère
f
estadditif,
il suffit dedéfinir,
surchaque
variablej,
levecteur de
poids gj = (gj1,..., gjh,..., gjHj) qui
minimise :sous la contrainte :
Ce critère
f
étantégalement additif,
la solution sans la contrainte est évidenteet on obtient :
et comme cette solution
j = (j1,..., jh,
...,jHj)
vérifie la contrainte alors elle est la solution pour(gj).
Remarque. -
Au lieu deprendre
la distanceL2
pour réaliser lescomparaisons
entre lesdistributions discrètes nous pouvons choisir la distance
du ~2
entre ces distributions.Dans ce cas la distance
d2
est une somme de p distances du~2 qui correspond
àla distance
L2
sur les vecteurs depoids qjs,h03A3qjs,h qui
sont unepondération
dessEE
distributions et le
prototype
G dechaque
classe C est défini par ,4.3. Fonction de
comparaison ayant
« deuxcomposantes »
4.3.1.Définition
Dans cette
approche,
on utilise la fonctiond2c
à deuxcomposantes
pour comparer deuxpaires pj1 = (xi, qj1)
etpi = (x2, q2)
constituées d’un intervalle et d’un vecteur depoids :
où
dic
etddc
sont deux dissimilarités l’une associée aux deuxintervalles,
l’autre associée aux deux vecteurs depondération [DCS 98].
La dissimilarité
dic,
diteindépendante
du contexte, entre deux vecteurs d’in- tervallesxi
=[aj1,bj1]
etx2
=[aj2,bj2]
est définie par :15
TROIS NOUVELLES MÉTHODES DE CLASSIFICATIONAUTOMATIQUE
avec
xi
~x2
=[min(aj1, aj2), max(bj1, bj2)]
etxj1=]-~,aj1[
U]bj1,
+00qui
estle
complémentaire
ensembliste de l’intervallexi
dans R. Dans ce cas,dic
s’écrit :La dissimilarité
ddc,
ditedépendante
du contexte, entre les deux vecteurs depoids qui
etq2
est définie par :où
Sj1
et,S’2
sont les deuxsupports
définis par :Sjs={h|qjs,h>0}
pours = 1, 2.
Finalement,
lacomparaison
entre deux vecteurs p1 et p2 dont les pcomposantes
sont
respectivement
lespaires pi
=(xl, qi)
etp2
=(x2, qj2) pour j -
1... p, est réalisée en effectuant une somme des fonctionsd2c
à deuxcomposantes
sur toutes les variables :4.3.2.
Les prototypes
Dans cette troisième
approche,
leprototype
G est un vecteur oùchaque composante Gj
est uncouple (0393j, gj)
avec- gj
est le vecteur depoids, égal
à la moyenne des vecteurs depoids qjs
des distributions associées aux vecteurs
xs, s ~ C.
On retrouve le vecteurgj
desprototypes
associés à la distanceL2
deMinkowsky
soitgjh = 1 |C| 03A3qjs,h
pourh = 1,...,Hj.
-
0393j
est définie de deux manières différentes :2022
(Hl) 0393j
est l’intervalle défini comme lagénéralisation
minimale de tousles intervalles
xjs = [ajs,bjs]
appartenant à la classe C. Dans ce cas0393j
estégal
à[mm(ajs),max(bjs)].
sEC sEC
2022
(H2) 0393j
est lesupport
de la distributiongj
associée à la classe C.FIGURE 2
Exemple
de supports pour une classe de 5 intervalles PROPRIÉTÉ.gj
est aussi le vecteur depoids qui
vérifie la relation suivante :Cette
propriété
se démontre enremarquant
que :et, comme le support associé à
g-7
contient tous les support desobjets s appartenant
à la classe C alors on obtient :Cette
propriété permet,
de la manièrequ’avec
les deuxprécédentes distances, d’interpréter
le vecteur depoids gj
comme lepoint
« central » de la classe C.Remarque. -
Sachant querj
n’est pasobligatoirement
un intervalle on utilise entre un intervalle etr j
la distanceindépendante
du contexte suivante :TROIS NOUVELLES MÉTHODES DE CLASSIFICATIONAUTOMATIQUE 17
avec :
ensembliste de l’intervalle
xi
dans 9î.4.3.3.
L’algorithme d’échange
Les
prototypes
ne sont pasdéfinis,
comme dans les deuxapproches précédentes,
par
l’optimisation
du critèref(C) = 03A3 d3(ps, G)
mesurantl’adéquation
entre lesEC
prototype
G et l’ensemble des vecteurs ps décrivant lesobjets
de la classe C.Dans ce cas nous proposons un
algorithme d’échange qui
réalise lechangement
de classe d’un
objet s
si les nouveauxprototypes,
définis sur les deux classes modifiées par cetéchange,
font décroître le critère. Cetalgorithme
suit le schéma suivant :a)
initialisation : unepartition
P ={Ci,..., Ci, ... , Ck}
est choisie au hasardb)
test ~ 0Pour
chaque objet s
de El’étape d’échange (b.1
etb.2)
suivante est réalisée :b.1 ) Cm
est la classe d’affectation du vecteur d’intervalles xs . Alors pourchaque Ci
de lapartition
P on réalise unéchange
de s entre les deux classesCm
etCi .
A
l’échange
de s entre la classeCm
et la classeCi
on obtient :2022 une nouvelle
partition
2022 un nouveau vecteur
L(i)
des kprototypes
des classes deP(i);
2022 le critère
b.2)
On recherche la nouvelle classeCl
del’objet s
telle queSi l ~
m alors onchange l’objet s
declasse, Cl
est maintenant sa nouvelle classe d’affectation. D’où test ~ 1 etCl
~Cl ~ {s}
etCm ~ Cm - {s}.
c)
si test = 0 alors stop, autrement aller enb).
5.
Applications
Une
comparaison
de trois méthodesproposées
dans cet article a été effectuée àpartir
de deuxapplications.
La
première application
concerne un tableau de « moyennes » mensuelles detempératures journalières
observées dans 60 stationsmétéorologiques
chinoises(http://dss.ucar.edu/datasets/ds578.5/data).
Unereprésentation
naturelle de latempé-
rature « mensuelle » d’une station est l’intervalle constitué par la moyenne des minima
journaliers
et la moyenne des maximajournaliers
observés dans cette station durantce mois. En utilisant les mesures de l’année 1988 nous avons constitué un ensemble de 60
exemples
décrits par 12 variables detype
intervalle associées aux 12 mois de l’année 1988.La deuxième
application
est issue duproblème
de reconnaissance des formes décrit dans le livre de Breiman et al.[BRE 84]. Chaque
réalisation de l’échantillon est issue d’un modèle degénération
utilisant deux formesparmi
les trois formeshl, h2
eth3
obtenues parhl (i)
=maxf 6 - 1 i - 71 , ,0}, h2 (i)
=hl (i
+4), h3 (i)
=hl (i
+8)
et un bruit
gaussien.
Notre échantillon est constitué de 15000 réalisations des 50 sous-groupes des 3 classes a
priori
duproblème. Chaque
sous-groupeCi,k(i
=1,... 50,
k =1,2,3) comprend
100exemples générés
par le modèle suivant :e
E-1 m
est une réalisation de la variable aléatoirenormale 03B5j
de moyenne nulle et de varianceunitaire;
2022 uim
est une réalisation de la loiuniforme u
dans l’intervalle[(i -1)/50, i/50];
e a et b sont des
paramètres dépendant
de l’index k de la classe apriori (pour
k =
1 alors a = 1, b = 2 ; k = 2 alors a = 2, b = 3 ; k - 3 alors a = 1, b = 3).
Le tableau de données
intervalles,
issu de notreéchantillon, comprend
150lignes qui
sont lesdescriptions
sous la forme d’intervalles des 50 sous-groupes des 3 classes apriori.
Les vecteurslignes
de ce tableau sont constitués de 21 intervallesPour un nombre de classes fixé et pour
chaque
méthodeproposée,
50 initialisa- tions différentes sont réalisées et la meilleure solution est retenue. Ceci est effectué pour un nombre de classecompris
entre 2 et 7. On note AL 1 la méthode basée surla distance de
Hausdorff,
AL2 celle basée sur la distance de Minkowski et AL3 celle basée sur la distance à deuxcomposantes
et utilisantl’hypothèse
H2 dans ladétermination du
prototype.
Nous proposons de comparer ces trois méthodes à
partir
des tableaux suivants :2022 Le
premier
tableau contient le taux de confusion entre lespartitions
obtenuespar les méthodes ALI et
AL3,
pour un nombre de classes fixé. Afind’alléger
laprésentation
des résultats nous avons choisi de compareruniquement
les méthodes AL 1 et AL3qui
sont lesplus
différentes en termes deprototype
et de distance.Le taux de confusion est calculé à
partir
du tableau decontingence
entre les deuxpartitions.
Si lespartitions
obtenues sont assez semblables alors il est facile de réaliser lacorrespondance
entre les classes des deuxpartitions.
Par ce fait le taux de confusioncorrespond
aupourcentage
des individusqui n’appartiennent
pas aux classes misesen
correspondances
dans les deuxpartitions.
2022 Le second tableau contient un indicateur de
qualité
de lapartition Pk qui
estégal
à(0394(PE, LE) - 0394(Pk, Lk))/0394(PE, LE)
oùPE
est lapartition grossière
etLE
le
prototype
associé àE ;
TROIS NOUVELLES MÉTHODES DE CLASSIFICATION AUTOMATIQUE
192022 Les derniers tableaux contiennent des
statistiques
sur ladispersion
dessolutions obtenues en fonction des différentes réitérations des
algorithmes
pour lapremière
et la dernière méthodes.5.1.
Classification
des stationsmétéorologiques
en ChineLes résultats des trois méthodes ont été
comparés,
en utilisant le tableau des données destempératures
mensuelles de l’année 1988 de 60 stationschinoises,
àpartir
des indicateursproposés
dans leparagraphe précédent.
Dans le tableau 2 on observe que les deux
partitions
lesplus proches
sont lespartitions
en 3 et 6 classes.TABLEAU 2
Taux de
confusion
entre lespartitions
obtenues par les méthodes ALI et AL3Dans le tableau 3 le
gain
dequalité
leplus important
est obtenu enpassant
de2 à 3 classes pour les trois méthodes étudiées.
TABLEAU 3
Indice de
qualité
des meilleurespartitions
obtenues par les 3 méthodesFIGURE 3
Représentation graphique
des valeurs de l’indice dequalité
despartitions
Le tableau 4 donne pour les
partitions
en 2 à 7 classes obtenues avec la méthodeALI,
lesstatistiques
élémentaires(min, max...)
des 50 valeurs du critère Acorrespondant
aux 50 initialisations différentes del’algorithme.
Lafigure
4 est unereprésentation graphique
de ces résultats où l’axe horizontalreprésente
le nombre de classes et l’axe vertical les valeurs du critère. La courbereprésente
l’évolution des meilleures solutions du critère. Lelosange indique
la moyenne des valeurs du critèresur les 50 réinitialisations de
l’algorithme.
La boite est centrée sur la valeur moyenne et a unelongueur égale
à deuxécart-types.
Ellepermet
donc de visualiser la variabilité des solutions. Danschaque
boite un trait relie la courbe(la
meilleuresolution)
à lasolution la
plus éloignée
de la solutionoptimale.
Cette
figure permet
desouligner,
pour la méthodeALI,
la faible variabilité des solutions duproblème
à deux classes. Pour lespartitions ayant plus
de deux classes la variabilité estplus importante
mais elle touche essentiellement les valeurs maximales et elle ne s’accroît pas en fonction du nombre de classes.TABLEAU 4
Statistiques
sur les valeurs du critère pourl’algorithme
ALITROIS NOUVELLES MÉTHODES DE CLASSIFICATIONAUTOMATIQUE 21
FIGURE 4
Représentation graphique
desstatistiques
sur les valeurs du critère pour
l’algorithme
AL1La
figure
5 montre de la mêmemanière,
l’évolution et la variabilité des solutions del’algorithme
AL3 en fonction du nombre de classes. On note que cette variabilité estplus
faible que pourl’algorithme
ALI(figure 4)
etqu’elle
est très faiblequand
lenombre de classe est
égal
à2, 5
et 7. On en conclut que les solutions obtenues avec la méthode AL3 sont moins sensibles au choix de lapartition
initiale que celles obtenuesavec AL 1.
Cependant
si le nombre de classes estégal
à 4 ou 6 alorsl’algorithme
AL3donne
quelques
solutions trèséloignées
de la meilleure solution cequi justifie
desréinitialisations
plus
nombreuses dans AL3 que dans ALI.TABLEAU 5
Statistiques
sur les valeurs du critère pourl’algorithme
AL3FIGURE 5
Représentation graphique
desstatistiques
sur les valeurs du critère pour
l’algorithme
AL3Le tableau 6a donne les
prototypes
associés auxcinq
classes de lapartition
obtenue avec la méthode
AL3,
pour la variable«juillet».
Cesprototypes
sont des distributions sur les 9 intervalles élémentaires définis parl’algorithme.
Ainsi pour la classe1,
l’intervalle élémentaire[23.60 : 25.79]
a pourpondération
0.076.Le tableau 6b donne les
prototypes
associés auxcinq
classes de lapartition
obtenue avec AL 1. Ces
prototypes
sont des intervalles comme parexemple
l’intervalle detempérature [22.3 : 29.9]
associé à la classe 1.TABLEAU 6a
Prototype
de lapartition
en 5 classes obtenues avecAL3,
pour la variable
« juillet »
23
TROIS NOUVELLES MÉTHODES DE CLASSIFICATIONAUTOMATIQUE TABLEAU 6b
Prototype
de lapartition
en 5 classes obtenuesavec ALI pour la variable
« juillet»
Les
partitions
étant trèssemblables,
il a étépossible
d’effectuer une correspon- dance entre les classes des deuxpartitions
et dereprésenter
sur un mêmegraphique (Figure 6)
lesprototypes
obtenus avec AL3(des distributions)
et lesprototypes
ob-tenus avec AL1
(des intervalles).
On observe sur cette
figure
que les classes 2 et 3 contiennent les stationsmétéorologiques
localisées dans desrégions plutôt
froides enjuillet
et les classes 4 et 5 contiennent les stations situées dans desrégions plutôt
chaudes.On note
également
sur cegraphique
que les résultats des deuxalgorithmes
concordent
puisque
lesprototypes
de la méthode AL1 recouvrent enpartie
lesintervalles élémentaires de
poids
élevé dans lesprototypes
del’algorithme
AL3 ouencore
qu’ils
ne recouvrent aucun intervalle élémentaire depoids
faible.FIGURE 6
Les prototypes entre les méthodes ALI et AL3 pour la variable
« juillet »
En
conclusion,
pourchaque
variable(ici
le mois dejuillet),
leprototype
obtenu parl’algorithme
AL1 est un intervalle detempérature qui
résume au mieux lesintervalles de
température
des stationsappartenant
à chacune des classes. Par contrel’algorithme
AL3représente chaque
classe par une distribution sur undécoupage
dudomaine de variation des
températures
en Juillet.5.2.
Classification
des 150 modèles élémentairesDans cette deuxième
application,
réalisée àpartir
d’un ensemble de courbes artificielles décrites dans le livre de Breiman et al.[BRE 84],
les résultats des méthodesAL 1,
AL2 et AL3 ont étécomparés
avec les même outils quel’application précédente.
TABLEAU 7
Pourcentage
deconfusion
entre lespartitions
obtenues par les méthodes ALI et AL3
On note dans le tableau 7 que les
partitions
en 2 et 3 classes obtenues par AL 1et AL3 sont
identiques
et que celles en 4 et 5 classes sont très semblables.TABLEAU 8
Indice de
qualité
despartitions
obtenues par les 3 méthodes25
TROIS NOUVELLES MÉTHODES DE CLASSIFICATIONAUTOMATIQUE
FIGURE 7
Représentation graphique
des valeurs de l’indice dequalité
despartitions
On observe sur la
figure
7 que les courbes dequalité
despartitions
obtenues avecles trois méthodes évoluent de la même manière en fonction du nombre de classes.
Ceci confirme les valeurs du taux d’erreur contenues dans le tableau 7.
FIGURE 8
Représentation graphique
desstatistiques
sur les valeurs du critère pour
l’algorithme
ALILa
figure
8 montre que la solution obtenue par AL1 estindépendante
del’initialisation pour un nombre de classes
égal
à 2 ou 4. Par contre pour un nombre de classes fixé à 3 on retrouvequelques
solutionsayant
une valeur de l’indice dequalité
très
éloignée
de la valeuroptimale.
Avec
l’algorithme
AL3(figure 9)
la variabilité des 50 solutions est très faible pour un nombre de classes fixé à 3. On retrouve ici le nombre de formes àpartir
desquelles
a étégénéré
le tableau de données.FIGURE 9
Représentation graphique
desstatistiques
sur les valeurs du critère pour
l’algorithme
AL3Les
prototypes,
déterminés par ALI etAL3,
de la classe 1(taux
de confusionnul)
sontreprésentés
dans lafigure
10. Les bornessupérieures
et inférieures des intervallescorrespondant
auxprototypes
obtenus avec AL 1 sont reliés par des courbes et les distributionscorrespondant
auxprototypes
obtenus avec AL3 sontreprésentés
par des barres
ayant
desgraduations plus
ou moins foncées en fonction despoids
associés à
chaque
intervalle élémentaire.FIGURE 10
Visualisation des prototypes de la classe 1
On note là encore la concordance entre les résultats des méthodes AL1 et AL3.
27
TROIS NOUVELLES MÉTHODES DE CLASSIFICATIONAUTOMATIQUE 6. Conclusion
Dans le cadre
classique,
il existe unegrande
diversité de méthodes de classi- fication detype
nuéesdynamiques,
en fonction de la distancechoisie,
cette distancedépendant
elle même souvent dutype
des données(quantitatives, qualitatives...).
Onretrouve dans cet
article,
à travers les trois méthodes de classificationproposées
cettediversité pour des données non
plus classique
mais décrites par des intervalles.On a pu remarquer que pour les deux
applications auxquelles
ont étéappliquées
les trois méthodes
AL1,
AL2 etAL3,
les résultatschangeaient
peu en fonction del’algorithme
choisi.Ainsi,
le choix d’une méthode de classification est unproblème
difficile pour l’utilisateur. Par contre la détermination du modèle de
prototype
estplus
naturelle car l’utilisateur atoujours
une idée apriori
sur lareprésentation
desclasses
(intervalles
oudistributions).
De ce fait le choix dutype
deprototype pourrait
conditionner le choix par l’utilisateur d’une des trois méthodes de classification
proposées
ici.Bibliographie
[AUB94]
AUBIN J.-P.(1994),
Initiation àl’analyse appliquée,
Masson.[BRE 84]
BREIMANL.,
FRIEDMANJ.,
OLSHENR.,
STONE C.(1984), Classifi-
cation and
regression
trees,Chapman
Hall.[BOC 00]
BOCK H.H.,
DIDAY E.(eds.) (2000), Analysis of Symbolic Data, Explo-
ratory methodsfor extracting
statisticalinformation from complex
data.Studies in
Classification,
DataAnalysis
andKnowledge Organisation, Springer-Verlag.
[CEL 89]
CELEUXG.,
DIDAYE., GOVAERT,
G. LECHEVALLIERY.,
RALAM- BONDRAINY H.(1989), Classification Automatique
des Données. Bor-das,
Paris.[CHA 97]
CHAVENT M.(1997), Analyse
des DonnéesSymboliques.
Une méthodedivisive de
classification.
Thèse de l’Université de PARIS-IXDauphine.
[DCA 94]
DE CARVALHO F.A.T.(1994), Proximity
coefficients between Booleansymbolic objects,
in NewApproaches
inClassification
and DataAnalysis, Diday et
al.(Eds.), Springer Verlag, Heidelberg,
387-394.[DCA 98]
DE CARVALHO F.A.T.(1998),
Extension basedproximities
betweenBoolean
symbolic objects,
in DataScience, Classification
and RelatedMethods, Hayashi,
C. et al.(eds.), Springer-Verlag, Tokyo,
370-378.[DCS 98]
DE CARVALHOF.A.T.,
SOUZA R. M. C.(1998),
Statisticalproximity
functions of Boolean
symbolic objects
based onhistograms.
In :Rizzi, A., Vichi, M., Bock,
H.-H.(Eds.) :
Advances in Data Science andClassification, Springer-Verlag, Heidelberg,
391-396[DCA 00]
DE CARVALHOF.A.T.,
ANSELMOC.A.F., SOUZA,
R.M.C.R.(2000), Symbolic approach
toclassify large
data sets, in : DataAnalysis, Classifica- tion,
and RelatedMethods, Kiers,
H.A.L. et al.(Eds.), Springer,
375-380.[DVL 99]
DE CARVALHOF.A.T, VERDE,
R. et LECHEVALLIER Y.(1999),
Adynamical clustering
ofsymbolic objects
based on a contextdependent proximity
measure. In :Bacelar-Nicolau, H., Nicolau,
F.C. andJanssen,
J.(Eds.) :
Proc. IX InternationalSymposium -
ASMDA’99.LEAD,
Univ. deLisboa,
237-242.[DID 71]
DIDAY E.(1971),
Le méthode des Nuéesdynamiques,
in Revue deStatistique Appliquée, 19, 2,
19-34.[DID 88]
DIDAY E.(1988),
Thesymbolic approach
inclustering
and related methods of dataanalysis :
The basic choice. In Proc.IFCS-97, Bock,
H.-H.(Eds), Springer-Verlag, Heidelberg,
673-684.[DID 98]
DIDAY E.(1998), Symbolic
DataAnalysis :
a Mathematical Framework and Tool for DataMining,
in New Andvances in Data Science andClassification, Rizzi,
A. et al.(eds.), Springer -Verlag, Heidelberg,
409-416.
[DIS 76]
DIDAY E. AND SIMON J. C.(1976), Clustering Analysis.
In :Fu,
K. S.(Eds.) : Digital
PatternRecognition. Springer-Verlag, Heidelberg,
47-94.[DID 80]
DIDAYE.,
GOVAERTG.,
LECHEVALLIER Y. et SIDI J.(1980),
Clus-tering
inpattern recognition,
NATO Advancedstudy
Institute onDigital Image Processing
andAnalysis,
Bonas. Available atINRIA-Rocquencourt.
[ICY 94] ICHINO, M.,
YAGUCHI H.(1994),
GeneralizedMinkowsky
Metrics for Mixed FeatureType
DataAnalysis.
IEEE TransactionsSystem,
Man andCybernetics 24,
698-708.[IYD 96]
ICHINOM.,
YAGUCHIH.,
DIDAY E.(1996),
Afuzzy symbolic pattern classifier,
in : Ordinal andSymbolic
DataAnalysis, Diday,
E. et al.(Eds.), Springer,
92-102.[LEC 97]
LECHEVALLIER Y.(1997),
Classification nonsupervisée,
inStatistique
et méthodes
neuronales, Thiria,
Lechevallier et al.(Eds.), Dunod, Chap.
10,171-189.
[LER 79]
LEREDDE H.(1979),
La méthode despôles
d’attraction - La méthode despôles d’agrégation.
Thèse deDiplôme
de docteur de 3ecycle.
UniversitéParis
VI,
106-116.[MIC 80]
MICHALSKI R. S.(1980), Knowledge acquisition through conceptual clustering :
A theoretical framework and analgorithm
forpartitioning
datainto
conjunctive concepts.
Aspecial
Issue onKnowledge Acquisition
andInduction.
Policy Analysis
and InformationSystems,
3.[MDS 81]
MICHALSKI R.S.,
DIDAYE.,
STEPP R. E.(1981),
A recent advance indata