R EVUE DE STATISTIQUE APPLIQUÉE
Y AMINA K HEMAL B ENCHEIKH
Classification croisée et mélanges sur données quantitatives
Revue de statistique appliquée, tome 52, n
o2 (2004), p. 71-86
<http://www.numdam.org/item?id=RSA_2004__52_2_71_0>
© Société française de statistique, 2004, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CLASSIFICATION CROISÉE ET MÉLANGES SUR
DONNÉES QUANTITATIVES
Yamina KHEMAL BENCHEIKH Département de
Mathématiques
Faculté des sciences Université Ferhat Abbas de
Sétif
Sétif
19000 -ALGÉRIE
RÉSUMÉ
La méthode de reconnaissance des composants d’un
mélange
nous permetd’interpréter
des méthodes de classification
simple.
Nous proposons ici de le faire pour les méthodes de classification croisée et enparticulier
sur des tableaux de mesures. Ces derniers posentun
problème
car les deux ensembles décrivant ces tableaux sont de nature différente. Nous montrons alors que lesalgorithmes
departitionnements
simultanés utilisant un critère d’inertie peuvent seprésenter
comme des méthodes pour identifier unmélange gaussien
à l’aide d’uneclassification : suivant différentes
hypothèses
sur les variances des différents composants, onretrouve à
chaque
fois le critère d’inertie utilisé pour la classification de donnéesquantitatives.
Nous montrons aussi que dans le cas où les variances sont toutes les même pour tous les composants cela nous conduit au même critère
qui correspond
à la version laplus simple
et laplus
utilisée de la méthode CROEUC (méthode de classification croisée sur tableau de mesuresoptimisant
un critère défini à l’aide d’une distance euclidienne).Mots-clés :
Classification, Classification
croisée, Critère d’inertie,Mélange
gaussien, Tableaux de mesures.ABSTRACT
The method
of identifying
components of a mixture allows tointerpret simple clustering
methods. We propose it for cross
clustering
methods, inparticular
on measures tables, which present aproblem
for the different nature of the two setsdescribing
these tables. Then weshow that simultaneous
partitioning algorithms using
a criterion of inertia, can be consideredas methods for
identifying
agaussian
mixtureby using
aclustering. According
to differenthypotheses
on variances of different components, every time, we findagain
the criterion of inertia used for thequantitative
dataclustering.
We also show, that where all variances are thesame for all components, this leads to the same criterion which
corresponds
to the CROEUCmethod (cross
clustering
method on measures tablesoptimizing
a defined criterionby
usingan Euclidean metric) most
simple
and used version.Keywords : Clustering,
Crossclustering,
Criterionof
inertia, Gaussian mixture, Measurestables.
Introduction
Les méthodes de classification
reposent
essentiellement sur la définition d’unemétrique
et d’un critère associé sans faire référenceexplicitement
à des modèlesprobabilistes.
En réalité comme Scott etSymons [14],
Schroeder[13],
Celeux[6]
leproposent,
il est souventpossible
de montrerqu’il
y a un modèlesous-jacent.
Celui-cipermet
alors de donner uneinterprétation
du critère et dejustifier
son choix. Laplupart
de ces
approches
ont été faites dans le cas de la classificationsimple,
nous proposons de le faire dans cepapier
pour la classification croisée de donnéesquantitatives,
lecas de données binaires
ayant déjà
été traité par Bencheikh[3].
La méthode CROEUC
(Govaert [9]) correspond
à la classification croisée de tableaux de mesuresoptimisant
un critère défini à l’aide d’une distanceEuclidienne ;
dans lepremier paragraphe,
nous décrivons cette méthode. Dans le second para-graphe,
nousrappelons
leprincipe
de la méthode de reconnaissance descomposants
d’unmélange
croisé(Bencheikh [2]).
Cette dernièrepermet
deplacer
les méthodes de classification croisée dans le même cadre que celui fait pour les méthodes de classifica- tionsimple
Schroeder[13],
Celeux[6]
et Govaert[10].
Dans le troisièmeparagraphe
nous montrons comment la méthode
précédente peut
êtreinterprétée
commel’ap- proche
classification associée à unmélange
de loisgaussiennes unidimensionnelles ;
suivant différenteshypothèses
sur les variances des différentscomposants
dumélange,
on retrouve à
chaque
fois le critère d’inertie utilisé pour la classification de donnéesquantitatives.
Lacomparaison
des résultats obtenus enparticulier
dans le troisième casoù les variances de
chaque
composant dumélange
sont différentes entreselles, permet
de mieuxcomprendre
les liensqui
existent entrel’algorithme
des distancesadapta-
tives et celui de la reconnaissance de
mélange gaussien.
La méthode des distancesadaptatives correspond
donc elle aussi à un modèle de reconnaissance demélange gaussien.
1. La méthode CROEUC
L’objectif
de la méthode de classification croisée sur donnéesquantitatives
estla recherche d’un
couple
departitions,
l’une sur les individus(les lignes
du tableauétudié),
l’autre sur les colonnes(variables),
tel que la «perte d’information» due auregroupement
soitminimale ;
c’est-à-dire telle que la différence entre l’informationapportée
par le tableau initial et celleapportée
par le tableau obtenuaprès
regroupe- ment soit minimale.1.1. Notations
Soit I un ensemble de n individus décrits par p variables
quantitatives.
Lesdonnées sont
rangées
dans un tableau dedescription
X à nlignes
et p colonnesoù xji
est la valeur de lavariable j
pour l’individu i.- 1,
un sous ensemble fini deRP,
contenant n éléments.-
J,
un sous ensemble fini deRn,
contenant p éléments.- P =
(Pl , ... , PK ) représente
unepartition
de 1 en K classes.-
Q (Q 1, ... , QM ) représente
unepartition
de J en M classes.- L =
{03BBmk,k
=1,..., K
et m =1,...,M}
l’ensemble des noyaux, cesnoyaux seront associés aux
partitions
des deux ensembles 1 et J.D’autre
part
on supposera que les individus sont munis depoids
pi tels que :pi
= 1. Associons àchaque
individu i le vecteur xi =(x1i, .... xf)
de RPici
correspondant
à laligne
i du tableau X.L’ensemble
des xi
munis despondérations
pi forme un nuageN(I)
contenudans RP. De la même
façon,
àchaque variable j
est associé le vecteurxi --
(xi xi ) correspondant
à lacolonne j
du tableau X.L’ensemble des
xi
munis despondérations qj
forment un nuageN(J)
contenudans Rn.
Pour mesurer la
proximité
entreindividus,
on munitl’espace
des individus de lamétrique quadratique
définie par la matricediagonale
de termegénérale qj correspondant
àl’importance
donnée à lavariable j :
De même pour mesurer la
proximité
entrevariables,
on munitl’espace
desvariables de la
métrique
despoids Dp :
1.2. Le
problème
La méthode CROEUC fournit une solution locale au
problème d’optimisation
suivant :
Il
s’agit
de trouver unepartition (Pl,
...,Pk)
de 1 en Kclasses,
unepartition (Ql ,
...,QM)
de J en M classes et un ensemble L de noyaux tel que le critère d’inertie intraclasse suivant :soit minimal.
qui
est définie par la formule(Ibis),
étant la moyenne de la classe1.3.
L’algorithme
Plusieurs
algorithmes
de classification croiséeexistent,
on a retenul’algorithme développé
par Govaert[9] ;
celui-ci utilise deuxalgorithmes
voisins l’un del’autre,
tous les deux étant basés sur le
principe
des NuéesDynamiques (Diday [7]).
Leprincipe général
de cetalgorithme
est le suivant : àpartir
d’unepartition (P°
xQ°)
en K x M
classes,
on construit une suite departitions
enappliquant
successivement les trois fonctions suivantes :La
fonction
dereprésentation
gCette fonction permet de déterminer les K - M noyaux minimisant le critère :
W (P
xQ, g(P
xQ)).
On peut facilement voir que ces noyaux sont les moyennes des classes. Si nous notons{(gmk);k = 1,...,
K et m ==1,..., M}
l’ensemble deces centres, on a :
La
fonction d’affectation f
Cette fonction minimise le critère
W(f(Q, L)
xQ, L)
en affectantchaque
individu à la classe
Pk
du noyau delaquelle
il est leplus proche (au
sens dela distance
euclidienne)
en supposant que lapartition Q
et le noyau L sont fixés.Considérons le nuage des individus obtenu
après regroupement
des variables selon lapartition Q ;
il est défini par :Considérons
l’algorithme
des NuéesDynamiques (Diday [7])
suivant : Le tableau de données est le tableauX(I, Q)
défini par lesx7B
les individus sont enligne
et les variables en colonne. On a donc un ensemble de n éléments et M variables.- Les vecteurs sont les
lignes
du tableauxX(I, Q).
- Les
pondérations
des individus sonttoujours
les pi.- Les noyaux sont de la forme
(g1k, ..., gr) qui représente
le centre degravité
de la classe
Pk.
QUANTITATIVES
- La
métrique
associée à ce nouveau tableauX(I, Q)
est définie par la matricediagonale
de termegénéral q’m
oùq’m =
qj.La fonction d’affectation
f
range alorschaque
élément i dans la classeayant
le noyau leplus proche
au sens de lamétrique précédente.
La fonction d’affectation
hCette fonction minimise le critère
W(P
xh(P,L),L),
ensupposant
que lapartition P
et le noyau L sont fixés. Onapplique
la méthode des NuéesDynamiques
surle tableau
X(P, J)
défini par lesxjk.
Les individus sont en colonnes et les variables enlignes.
On obtient un ensemble de p éléments et K variables. La fonction d’affectation h range alorschaque élément j
E J dans la classeayant
le noyau leplus proche
ausens de la
métrique diagonale
dont ladiagonale
a pour termegénéral p’k = 03A3
Pz.La définition de ces trois fonctions entraîne que la suite
W(Pn
xQn, Ln)
est
décroissante ;
on retrouve lespropriétés
habituelles de convergence des NuéesDynamiques (Diday [7]).
1.4.
Cas particulier
Posons :
Le critère
(1)
s’écrit :avec
La minimisation du critère
(2)
revient à la minimisation du critère suivant :qui correspond
à la version laplus simple
et laplus
utilisée de la méthode CROEUC.2. Méthode de reconnaissance des
composants
d’unmélange
croiséLa méthode de reconnaissance des
composants
d’unmélange
croisé a été pro-posée
par Bencheikh[1] en 1992 ;
elle s’est intéressée aux méthodes de classificationcroisée
proposées
par Govaert[9]
et[11];
elle montre que cesméthodes,
comme les méthodes de classificationsimple, peuvent
souvent être considérées comme uneapproche
classification d’un modèle demélange.
Pourceci,
elle propose la notion demélange
croisé en se basant sur unexemple
concret(Bencheikh [2])
et définit les notions de vraisemblance et de vraisemblance classifiante associées. Elle étudie aupassage les liens avec les modèles de
mélange simple proposés
par Schroeder[13],
Celeux
[6]
et Govaert[10]
et montre que ces liens sont tout à faitanalogues
à ceuxqui
existent entre les méthodes de classification
simple
et les méthodes de classification croisée.Avant de
rappeler
leprincipe général
de cetteméthode,
notons que Bzioui[4]
s’est aussi intéressé aux liensqui
existent entre les méthodes de classification croisée et les modèlesprobabilistes ;
il propose un modèleprobabiliste qui
va dansle même sens que celui étudié
ici,
enadoptant
la même démarcheprobabiliste
maisen définissant cette fois-ci un modèle de
mélange
croiséqui respecte
la structure deslignes
et descolonnes ;
il considère le tableau de données comme un échantillon de taille 1 comme c’est souvent le cas en traitementstatistique d’image.
Notreapproche
diffère de celle de Bzioui
[4],
dans le sens où comme on va le voir les données du tableau seront considérées comme un échantillon de taille np.2.1. Notion de
mélange
croiséLes données sont
toujours
fournies sous la forme d’un tableaurectangulaire
à n
lignes
et p colonnes.Rappelons
que 1 est un ensemble de n individus et J est un ensemble de p variables. 1 x J= {(i,j)/i
E 1et j
EJ}
est un ensemble de npindividus-variables;
associons àchaque
individu-variable la valeurxi
E Rqui correspond
à la valeurprise
par lavariable j
pour l’individu i.On suppose maintenant que l’ensemble 1 des individus constitue un échantillon de taille n d’une
population Q,
de même on considère que l’ensemble J des variables constitue un échantillon de taille p d’unepopulation
n’.Soit T = 1 x J le
produit
cartésien des deux ensembles 1 etJ ;
l’ensemble Tpeut
être considéré comme un échantillon de taille n - p d’unepopulation n
x Ç2’. Onpeut toujours
définir une variable aléatoire Zqui
permet d’associer àchaque couple (i, j)
E 1 x J la valeur se trouvant à l’intersection de laligne
i avec lacolonne j qui
est
xji.
2.2.
Identification
d’unmélange
« croisé »Le modèle d’un
mélange
croisé est le modèleprobabiliste qui
cherche àreconnaître dans une
population
observée dutype n
x n’ l’éventuelleprésence
d’échantillons de lois de
probabilité
connues(Bencheikh [2]).
Nous proposons alors le modèle suivant.Le tableau de données de
départ
de dimension(n, p)
est considéré comme unéchantillon T = 1 x J de taille
(n . p)
d’une variable aléatoire à valeur dans R dontla loi de
probabilité
admet la fonction de densité :La formule
(4)
décrit le modèle d’unmélange
detype
donnéf (., 03BBmk) qui
est unefonction de densité sur R
appartenant
à une familleparamétrée
de fonctions de densitédépendant
duparamètre 03BBmk
etpmk
est laprobabilité d’apparition
de l’observationf (·, 03BBmk)
dans lemélange.
2.3. Problème à résoudre Problème 1
Le
problème
consiste à estimer les nombres K et M de composants dumélange
et les
paramètres
inconnusqmk:
au vu de l’échantillon Il
s’agit
d’unproblème
d’estimation deparamètres.
Nous ne le traiterons pas parl’approche
« estimation » duproblème
mais nous nous concentrerons surl’approche
« classification » pour l’identification d’un
mélange
« croisé ».2.4.
Approche classification
Dans cette
approche
onremplace
leproblème
1 d’estimation par leproblème
2suivant :
Problème 2
Rechercher une
partition
P xQ
={Pk
xQ2 ;
k =l, ... , K
et m =
1,
...,M},
K et M étantsupposés
connus, telle quechaque
classePk
xQm
soit assimilable à un sous-échantillon
qui
suit une loif (- , 03BBmk).
En suivant
l’approche
modèleproposé
par Schroeder[13]
et lareprésentation
de Celeux
[6] qui
transforme leproblème d’optimisation
de critère de vraisemblanceen un
problème d’optimisation
de critère de vraisemblanceclassifiante,
on se ramèneégalement,
dans le cas demélange
«croisé » ,
à la maximisation du critère de vraisemblance classifiante suivant :est la vraisemblance du sous-échantillon
Le critère de vraisemblance classifiante s’écrit alors :
On peut remarquer que la résolution du
problème (6) correspond
exactement à la résolution d’unproblème
de classification croisée(Govaert [9]).
Nous proposons d’utiliser le mêmealgorithme
que celui défini pour la classification croisée etrappelé
dans le
paragraphe
1.3. Cetalgorithme,
que nous allonsreprendre
pourl’adapter
ànotre
problème,
utilise deuxalgorithmes
voisins l’un del’autre,
tous les deux étant basés sur leprincipe
des NuéesDynamiques.
2.5.
Algorithme
Le
principe
de cetalgorithme
est le suivant : enpartant
de deux nombres K et M et d’unepartition
initiale( P
xQ)°
en K· Mclasses, l’algorithme
construit unesuite de
partitions-noyaux jusqu’à
l’obtention d’unepartition
stable enappliquant
successivement les trois fonctions suivantes.
Une fonction
dereprésentation
gdéfinie
comme suitCette fonction
permet
de déterminer les K - M noyaux maximisant le critère(6) : VC(P
xQ, g(P
xQ))
=MaxVC(P
xQ, L).
On
peut
facilement voir que ces noyaux sont les estimateurs du maximum de vraisemblance desparamètres
associés aux sous échantillonsUne fonction d’affectation f définie
comme suitCette fonction
permet
dedéterminer,
àQ
et Lfixés,
unepartition
P del’échantillon 1 améliorant le critère
VC (P
xQ, L).
Le critère(6)
s’écrit alors :On retrouve ainsi la forme du critère de vraisemblance classifiante dans le cas
de la classification
simple.
Les éléments de la classePk
seront définis comme suit :Une fonction d’affectation
hdéfinie
comme suitCette fonction permet de
déterminer,
à P et Lfixés,
unepartition Q
del’échantillon J améliorant le critère :
Les éléments de la
partition Q
de l’échantillon J seront déterminés comme suit :On
peut
montrer que sous certaineshypothèses (Govaert [9]),
cetalgorithme
est
convergent.
On obtient à la convergence unepartition
P xQ
et une estimationdes
paramètres 03BBmk.
Lesproportions Pk
dumélange
sont fournies par lesfréquences
des classes
Pk
xQm.
3. Modèle associé aux données
quantitatives
La méthode de reconnaissance des
composants
d’unmélange
croisérappelée
au
paragraphe
2permet d’interpréter
des méthodes de classification croiséequi
traiteles deux ensembles I et J décrivant le tableau de données de manière
identique ;
parexemple
les tableaux binaires.Les tableaux de mesures
(données quantitatives) posent
unproblème,
carcomme nous venons de le
signaler
les ensembles décrivant ces tableaux sont de nature différente. Pourpouvoir appliquer
la méthode de reconnaissance descomposants
d’unmélange croisé,
nous nous sommes efforcés dans tout ce travail de considérer avec unpeu « d’abus » que l’ensemble J des p variables
quantitatives
constitue un échantillon de taille p d’unepopulation
03A9’(où
n’ est l’ensemble de toutes les variablespossibles).
3.1. Choix de
la famille
de distributionOn considère dans ce modèle que les données du tableau
proviennent
d’unmélange
de loisgaussiennes unidimensionnelles,
lesparamètres Àk
s’écrivent03BBmk = (03BCmk, 03C3mk).
,,m espérance
ducomposant (k, m)
03C3mk : écart-type
ducomposant (k, m)
Le
composant (k, m)
est le sous-échantillon associé à la classePk
xQ’
ayant pour fonction de densité la loif
PosonsVmk = (03C3mk)2 qui représente
lavariance du
composant (k, m).
Les
paramètres
à estimer sont les03BCmk
et lesvkm.
La maximisation du critère
W (P
xQ, L)
donné par la formule(6)
revient à laminimisation du critère suivant :
Pour
optimiser
cecritère,
on va devoir étudier trois cas différents en faisantplusieurs hypothèses
sur les variances descomposants
dumélange.
Premier cas
Vmk = V
V k =1,...,
K et m =1,...,
M et V estsupposé
connu. Lamaximisation du critère
(7)
revient à la minimisation du critère suivant :Les
partitions
étantfixées,
l’estimateur du maximum de vraisemblance clas- sifiante defLk
est la moyenne de la classePk
xQm .
Le critère(8) prend
alors laforme :
Ce critère
correspond
bien au critère minimisé par la méthode CROEUC dans le cas leplus simple (formule (3)).
Deuxième cas
Les variances de tous les
composants
dumélange
sont les mêmes etsupposées
inconnues. Notons par W
l’expression
Le critère à minimiser s’écrit :
QUANTITATIVES
Cela revient à minimiser le critère :
qui
estéquivalent
à la minimisation du critère :Là aussi l’ estimateur de
03BCmk
n’est autre que la moyenne de la classePk QI.
Troisième cas
Les variances de
chaque composante
sont différentes entre elles et inconnues.Posons :.
Le critère à minimiser s’écrit alors :
Dans ce cas le critère
(7)
à minimiser se réduit à :Remarque. -
Le critère del’algorithme
des distancesadaptatives
Govaert[8]
élaboré dans un cadre
purement géométrique
pourpermettre
de reconnaître des classes de « formes » différentes s’écrit :où Vk
est la matrice de variance associée à la classePk (cas
de la classificationsimple), et 1 Vk |
le déterminant deVk.
D’autrepart
le critèreproposé
par Celeux[6]
pour l’identification d’unmélange gaussien
à l’aide d’une classificationsimple
s’écrit :
Celeux
[6]
affirme que les critères(11)
et(12)
ne sont pasidentiques,
maissont très
analogues
etqu’en pratique,
ces deux méthodes donnent des résultatsquasi- identiques (cf Govaert [8]
et Schroeder[13]).
On peut facilement voir que
l’expression
du critère donnée par la formule(3),
où les
métriques
sont toutes les deux de laformes -y - Id
oùId
est la matrice identité et ry est unréel, peut
s’écrire sous la forme suivante :et on a vu que pour
optimiser
cecritère,
on utilisel’algorithme proposé
auparagraphe 1.3 ;
ce dernier utilise deuxalgorithmes
voisins l’un de l’autre de classificationsimple,
en fixant à
chaque étape
unepartition
et on améliore l’autrepartition
et vice versa.Ces deux
algorithmes
ne sont autre que lesalgorithmes correspondant
a la méthode(11).
On remarque aussi que
lorsqu’on
fixe l’une où l’autre des deuxpartitions P
etQ,
les deux critères(10)
et(13)
secomportent respectivement
comme les critères(12)
et
(11).
En se basant sur la remarque faiteci-dessus,
onpeut
affirmerqu’en pratique
les méthodes
(10)
et(13)
donnent à leur tour des résultats voisins.En
principe
le critère(10)
devrait donner des résultats meilleurs que ceuxobtenus avec la méthode
classique
CROEUCqui
utilise le critère(3),
cette dernièreutilise une distance fixe et
identique
pour toute affectation d’élément par contrela méthode
correspondant
au critère(10)
utilise des distancesadaptatives
pourl’affectation des éléments aux différentes classes. Cette dernière tient
compte
despartitions
durant le déroulement del’algorithme
et parconséquent
une meilleureclassification est
prévue.
Une étudeanalogue
à été faite pour la méthode CROBIN(Classification
croisée sur donnéesbinaires)
par Bencheikh[3]
et apermis
de mettrela méthode utilisant des distances non
adaptatives
à défaut. Nous proposons dans leparagraphe
suivant de comparer les méthodescorrespondantes respectivement
auxcritères
(8)
et(10)
en lesappliquant
sur deuxtypes
de données.DONNÉES QUANTITATIVES 4.
Application
etcomparaison
des méthodesLe modèle
proposé
dans ce travail pour la méthodeCROEUC,
a non seulementpermis
dejustifier
le choix du critère utilisé parcelle-ci,
mais de proposer une nouvelle méthode de classification croisée sur des données continues utilisant des distancesadaptatives
que nousappellerons
CROEUCadaptatif.
Ce dernier estcomposé
de deuxvariantes : la variante 1 associée au critère défini par la formule
(8) (CROEUC),
et lavariante 2 associée au critère défini par la formule
(10).
Stratégie
utiliséePour réduire l’influence de la
partition
d’initialisation desalgorithmes
sur lesrésultats,
nous avonsopté
pour la démarche suivante : onapplique
la variante 1 del’algorithme
CROEUCadaptatif
en demandant 20tirages, puis
onapplique
lavariante 2 en l’initialisant par le meilleur
couple
departitions
obtenu par la variante 1. On compare les résultats obtenus parrapport
aucouple
departition
d’ initialisation dans le cas de donnéesréelles,
et aucouple
departitions ayant
servi à la simulation dans le cas de données simulées.4.1. Données réelles
On a
appliqué l’algorithme
CROEUCadaptatif
sur les données nommées :« Poissons d’ Amiard » traitées dans Cailliez et
Pages [5]
en demandant trois classesen
lignes
et deux classes en colonnes.Il
s’agit
de 24 mulets(sorte
derougets) qui
ont étérépartis
dans troisaquariums
radio-contaminés de
façon identique. À
ces troisaquariums correspondent
des duréesde contact avec le
polluant
radio-actif différentes :- Le
premier
contient lespoissons
numérotés de 1 à 8- Le second contient les
poissons
numérotés de 9 à 17- Le troisième contient les
poissons
numérotés de 18 à 24(Le poisson
17 est mort en coursd’expérience)
16 caractères sont mesurés. On
peut séparer
ces caractères en deux groupes.Groupe
1 :Caractéristiques
de radio-activité Caractère 1 : radio-activité des yeuxCaractère 2 : radio-activité des branchies Caractère 3 : radio-activité des
opercules
Caractère 4 : radio-activité des
nageoires
Caractère 5 : radio-activité du foie
Caractère 6 : radio-activité du tube
digestif
Caractère 7 : radio-activité des reins Caractère 8 : radio-activité des écailles Caractère 9 : radio-activité des muscles
Groupe
2 :Caractéristiques
de tailleCaractère 10 :
poids
Caractère 11
longueur
Caractère 12 :
longueur
standardCaractère 13 :
largeur
de la têteCaractère 14 :
largeur
Caractère 15 :
largeur
du museauCaractère 16 diamètre des yeux
Tableau de données des
poissons
d’AmiartSur le tableau de données des
poissons
d’Amiartci-dessus,
nous avonsappliqué
les deux variantes de
l’algorithme
CROEUCadaptatif
en suivant lastratégie
définieau début du
paragraphe
4.QUANTITATIVES
Le
couple
departitions
obtenu par la variante 2 del’algorithme
CROEUCadaptatif, compte
4 et 3 éléments classés différemmentrespectivement
enlignes
eten colonnes par rapport au
couple
departitions optimal
obtenu par la variante 1.La
comparaison
de cespartitions
est délicate dans le cas de donnéesréelles,
pour cette raison nous proposons de nous appuyer sur des modèles
probabilistes
pour simuler des données surlesquelles
on a puapprofondir
notrecomparaison.
4.2. Données simulées
Nous avons simulé un tableau de données
quantitatives
de 20lignes
et 20colonnes. Les
paramètres ayant
servi à la simulation de ce tableau sont :Les moyennes
Sur ce tableau de données nous avons
appliqué
les deux variantes del’algo-
rithme CROEUC
adaptatif
en suivant lastratégie
définie au début duparagraphe
4.
Nous avons alors
remarqué
que lecouple
departition
obtenu par la variante 1 diffère de 4 éléments enlignes
et 3 éléments en colonnes parrapport
à lapartition
ayant servi à lasimulation ;
par contre la variante 2 donne exactement la mêmepartition qui
a servi à la simulation. Ce résultat nous semble
important
dans le sens où la variante 2a
permis
de « reconnaître » les donnéesqui
ont été simulées suivant le même modèleprobabiliste
utilisé par la méthodecorrespondant
au critère(10).
Conclusion
Nous venons de voir dans ce
papier,
comment lesalgorithmes
departition-
nements simultanés utilisant un critère d’inertie
peuvent
seprésenter
comme desméthodes pour identifier un
mélange gaussien
à l’aide d’une classification. Suivant différenteshypothèses
sur les variances des différentscomposants,
on retrouve à cha-que fois le critère d’inertie utilisé pour la classification de données
quantitatives.
Nousmontrons aussi que dans le cas où les variances sont toutes les mêmes pour tous les
composants,
cela nous conduit au même critèrequi correspond
à la version laplus simple
et laplus
utilisée de la méthode CROEUC . Lacomparaison
des résultats obtenus enparticulier
dans le troisième cas où les variances dechaque
composantdu
mélange
sont différentes entreelles,
permet de mieuxcomprendre
les liensqui
existent entre
l’algorithme
des distancesadaptatives
et celui de la reconnaissance demélange gaussien.
La méthode des distancesadaptatives correspond
donc elle aussi àun modèle de reconnaissance de
mélange gaussien.
Deplus
nous proposons dans cepapier
un nouvelalgorithme
de classification croisée sur donnéesquantitatives
utili-sant des distances
adaptatives,
ce dernierqui
seraintégré
aulogiciel
SICLA(Système
interactif de classification
automatique, INRIA), présente
unavantage certain,
du moins surl’exemple
des données simulées.Références
[1]
BENCHEIKH Y.(1992), Classification automatique
etmodèles,
Thèse Uni- versité de Metz.[2]
BENCHEIKH Y.(1999),
Classification croisée etmodèles,
Rairooperations research,
vol 33.4 p 525-541.[3]
BENCHEIKH Y.(2002),
Classification croisée et distance L1adaptative,
Rev.Statistique Appliquée, L(3),
53-72.[4]
BZIOUI M.(1999), Classification
croisée etmodèles, Thèse,
Université de Metz.[5]
CAILLIEZF.,
PAGES J.P.(1976),
Introduction àl’analyse
desdonnées,
SMASH.
[6]
CELEUX G.(1988),
Classification etmodèles,
Rev statist.Appl,
n°4,
p43-58,
1988.[7]
DIDAY E.(1972),
Nouvelles méthodes et nouveaux concepts enclassification automatique
et reconnaissancedes formes,
Thèsed’État,
Université Paris 6.[8]
GOVAERT G.(1975), Classification
avec distanceadaptative,
Thèse de Doc-torat de 3eme
cycle,
Paris 6.[9]
GOVAERT G.(1983), Classification croisée,
Thèse de Doctoratd’État,
Uni-versité Pierre et Marie
Curie,
Paris 6.[10]
GOVAERT G.(1990),
Classification binaire etmodèles, Rev.Statistique Ap- pliquée,
XXXVIII(1). 67-81.
[11]
GOVAERT G.(1995),
Simultaneousclustering
of rows andcolumns,
Control andcybernetics,
vol24,
n °4.[12]
HARTIGAN J.-A.(1975),
Statisticaltheory
inclustering,
Journalof classifi- cation, 2,
63-76.[13]
SCHROEDER A.(1974),
Reconnaissance des composants d’unmélange,
Thèse de Doctorat de 3eme