R EVUE DE STATISTIQUE APPLIQUÉE
Y. B ENCHEIKH
Classification croisée et distance L
1adaptative
Revue de statistique appliquée, tome 50, n
o3 (2002), p. 53-72
<http://www.numdam.org/item?id=RSA_2002__50_3_53_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
53
CLASSIFICATION CROISÉE
ET DISTANCE L1 ADAPTATIVE
Y. BENCHEIKH*
*
Département
demathématiques,
Faculté des sciences, Université Ferhat Abbas deSétif, Sétif
19000 - ALGERIE.Rev.
Statistique Appliquée,
2002, L (3),RÉSUMÉ
Les liens existant entre les méthodes de classification
automatique
et les modèles destatistique
inférentielle ont surtout été étudiés dans le cas de la classificationsimple.
Nous nous proposons ici de le faire avec une méthode de classification croisée de données binaires. Nous montrons comment l’identification d’un
mélange
de distributions de Bernoulliavec le même
paramètre
pour toutes les classescorrespond
à un critère de classification croisée de données binaires utilisant la distance LI et des noyaux binaires. Nous avonsgénéralisé
cemodèle en prenant des
paramètres qui dépendent
des classes enlignes, puis
desparamètres qui dépendent
des classes en colonnes. Enfin, nous terminons par le cas leplus général :
cette fois- ci, lesparamètres
peuvent varier suivant les classes enlignes
et en colonnes : nous proposons alors de nouveauxalgorithmes
de classification croisée utilisant des distancesadaptatives
de type LI.Mots-clés : Distance L1,
classification automatique, mélange, classification
croisée.ABSTRACT
The relation betwen
clustering
methods and statistical models have been studied in thecase of
simple clustering
methods.We propose to do it in the case of
binary
crossclustering
method. We show how theidentification of mixture of Bernoulli distributions with the same parameter for all classes
correspond
to aclustering
criterion which uses Li distance andbinary
kemels. We havegeneralized
this model, at firstby selecting
parameters which candepend
on line classes, then on column classes andfinally by selecting
parameters which candepend
on line andcolumn classes. Then we propose new cross
clustering algorithms using adaptive
distances.Keywords :
L1 distance,clustering,
mixture, cross mixture.Introduction
De nombreuses méthodes de classification reposent essentiellement sur la définition d’une
métrique
et d’un critère associé sans faire référenceexplicitement
àdes modèles
probabilistes.
En
réalité,
comme Scott etSymons [12],
Schroeder[11]
et Celeux[4]
leproposent,
il est souventpossible
de montrerqu’il
y a un modèlesous-jacent :
54 Y BENCHEIKH
Celui-ci
permet
alors de donner uneinterprétation
du critère et dejustifier
son choix.Par
exemple
Celeux[4]
a donné unesignification
au critère d’inertie interclasse utilisé pour la classification d’individus décrits par des variablesquantitatives;
Nadif- Marchetti
[10] proposent
des méthodes de classification pour donnéesqualitatives nominales,
liées à un modèleprécis
demélange
de distributions deprobabilité.
Demême Govaert
[8]
montre que le critèreoptimisé
par la méthode MNDBIN pour les données binairescorrespond
à unmélange
de lois de Bemoulli.Toutes ces
approches
ont étés faiteuniquement
dans le cas de la classificationsimple (données qui
mettenten jeu
un seulensemble).
Nous proposons dans ce
papier
de le faire dans le cas de la classification croiséeavec une méthode
particulière :
La méthode CROBIN(classification
croisée surdonnées
binaires).
Ce travail utilise le lienqui
a été établi entre la classification croisée et les modèlesprobabilistes
dans le casgénéral (Bencheikh [2]);
cette dernière montrecomment la classification croisée
peut
être vue comme une solution à unproblème
d’estimation de
paramètres
d’un modèle demélanges
et elledéveloppe
une méthodede reconnaissance des composants d’un
mélange
« croisé » que nous étudierons endétail au
paragraphe
2.Dans tout cet
article,
l’ensemble 1 et l’ensemble J décrivant le tableau de données binaires seront considérés et traités de manièreidentique.
Dans le
premier paragraphe,
nous décrivons la méthode CROBIN(Govaert [7]) qui
est une méthode de classification croisée de données binaires. Dans le second et le troisièmeparagraphe,
nous montrons comment la méthodeprécédente peut
êtreinterprétée
commel’approche
classification associée à unmélange
de distributions de Bernoulli avec le mêmeparamètre
pour toutes lesclasses;
ce modèlecorrespond
aucritère de classification croisée binaire utilisant la distance
LI
et des noyaux binaires.Nous étudions dans le
paragraphe quatre
une extension de ce modèle au cas où leparamètre
varie suivant les classes enlignes,
les classes encolonnes, puis
suivantles classes en
lignes
et encolonnes;
c’est le cas leplus général.
En outre, en nousappuyant
sur des variantes de cemodèle,
nous proposons de nouveauxalgorithmes
de classification croisée utilisant des distances
adaptatives.
Enfin nous terminons cepapier
parquelques applications pratiques.
1. La méthode CROBIN 1.1. Notations
On notera n et p les cardinaux des deux ensembles I et J. Le tableau binaire
sera noté
(xji).
On a
donc xi
E{0,1}.
Dans toute la suite lespartitions
P etQ
seront despartitions
des deux ensembles 1 et J en K et Mclasses; P = {P1, ..., PK}
etQ
={QI, ... , QM}. K
et M sont des constantes fixées arbitrairement.Soit L l’ensemble des noyaux ou ensemble de
représentation.
L est l’ensembledes tableaux binaires à K
lignes
et M colonnes. L =={(03BBmk),k
=1,... K
etm =
1, ... , M} et 03BBmk
E{0,1}.
55
CLASSIFICATION CROISÉE ET DISTANCE
L1
ADAPTATIVEÀk représente
pourchaque
classe la valeurmajoritaire.
1.2. Le
problème
La méthode CROBIN
(Govaert [7])
fournit une solution locale auproblème d’optimisation
suivant :Trouver une
partition
P de I en Kclasses,
unepartition Q
de J en M classeset un tableau binaire à K
lignes
et Mcolonnes,
tel que le critère :soit minimum.
1.3.
L’algorithme
L’algorithme
utilisé dans la méthode CROBIN est le suivant : Partant d’un élément(P, Q, L) initial,
on fixeQ
et on cherche à améliorer P etL, puis
on fixeP et on cherche à améliorer
Q
etL ;
on construit ainsi une suite(Pn, Qn, L’) qui
fait décroître le critère W.
L’algorithme
est donc construit àpartir
de deuxétapes
intermédiaires que nous allons
préciser.
1.3.1.
Etapes
intermédiairesSoit P et
Q
uncouple
departitions
et L un noyau. FixonsQ
et cherchons àaméliorer la
partition
P et le noyauL,
c’est-à-dire cherchons unepartition
P’ et unnoyau L’ tels que :
W (P
xQ, L)
>W (P’
xQ, L’)
On
peut
écrire :Posons et notons B la
quantité
On
peut
donc écrire B= |xmi - qm03BBmk|.
D’oùl’expression
du critère :56 Y BENCHEIKH
Considérons
l’algorithme
des NuéesDynamiques Diday [5]
suivant :- Le tableau de données est le tableau
(I, Q)
défini par lesxi.
Les individus sont enlignes
et les variables en colonnes. On a donc un ensemble de n éléments et M variables.- Chacune des
quantités qm03BBmk (avec 1
m Met 03BBmk
~{0,1})
ne peut être que le minimum ou le maximum atteint par leregroupement
des colonnes du tableauinitial,
c’est à dire les valeurs 0 ou qmpuisque
les valeurs initiales étaient 0 ou 1 et iln’y
a que qn colonnes réunies pour former la classeQm .
On notera L la matrice des
composantes Àk qui
définissent l’ensemble des noyauxprécédents.
- La distance est la distance
« City-block »
ou distanceLi.
Le critère habituel de la méthode des Nuées
Dynamiques
défini àpartir
deséléments que l’on vient de donner est alors la fonction
W (P
xQ, L)
que l’on cherche àoptimiser.
Il suffit depréciser
ce que deviennent les fonctionsf
d’affectation et g dereprésentation.
Fonction
d’affectation (recherche
desclasses)
La fonction
f
d’affectation esttoujours
lamême, chaque
élément i est affectéà la classe du noyau de
laquelle
il est leplus près :
i est donc affecté à la classe kM
minimisant
L lxm - qm03BBmk|.
m=l
Fonction de
représentation (recherche
desnoyaux) :
On cherche pour toutes les classes
Pk,
les éléments(q1 03BB1k,
q203BB2k,
..., qMAM)
minimisant :
On obtient pour m fixé :
et
Posons
B’ = 03A3 xmi.
Il suffit deprendre
commerrzème composantes
du noyau iEPkk,
la valeur 0 si B’ nkqm -B’,
soit B’nkqm 2,
sinon onprendra
la valeur 1.Remarquons
que cette fonctioncorrespond
aussi à la recherche du noyau03BBmk
associé à un
couple
de classePk
xQ"2.
Eneffet,
les éléments03BBmk
définis suivant57 CLASSIFICATION CROISÉE ET DISTANCE
L1
ADAPTATIVEla
régle précédente
seront 0 ou 1 selon que la somme des éléments intervenant dans la classePk
xQ’
seraproche
de 0 ouproche
dumaximum,
c’est-à-dire nkqm. On retrouve ainsi larègle majoritaire.
On noteraL’ (P, Q)
le noyau ainsi obtenu.1.3.2.
Convergence
del’algorithme L’algorithme
CROBIN est le suivant :A
partir
d’untriplet (PO, QD, L 0)
onapplique
alternativement les deuxétapes intermédiaires;
on définit ainsi une suite(Pn, Qn, Ln) qui
vérifie :On peut établir à
partir
de là lespropriétés
de convergence habituelles. La suite(Pn, Qn, Ln)
est stationnaire et la valeur du critère associé W(pn
xQn, Ln)
décroîtstrictement
jusqu’à
la stationnarité. On obtient ainsi une solution localementoptimale qui dépend
de l’élément dedépart
choisi. Deplus
on a montréqu’à chaque étape
lenoyau Ln est formé en associant à
chaque couple
departitions
la valeur binairemajoritaire
du bloc de 0 et 1 défini parchaque couple
de classe. On utilise cettepropriété
poursimplifier
la détermination de l’élément(pn
xQn, Ln) :
il suffiten effet d’avoir un
couple (Po, Q0), le
noyauLO
est alors construit àpartir
de cespartitions.
Pour illustrer le
principe
de la méthodeCROBIN,
nous proposons del’appliquer
sur
l’exemple
suivant.1.4.
Exemple
Soit un ensemble de 10 micro-ordinateurs identifiés par les lettres a
à j
caractérisés par un ensemble de 10
propriétés
identifiées par les nombres 0 à 9.On
représente
les données initiales(figure 1)
sous forme d’un tableau binaire où 1indique
que lapropriété
est vérifiée et un 0qu’elle
ne l’est pas.Si on
applique l’algorithme
CROBIN en demandant trois classes enlignes
et deux classes en
colonnes,
on obtient commepartition
de l’ensemble des micro- ordinateurs l’ensemble des classes :et comme
partition
de l’ensemble despropriétés
l’ensemble des classes :On
désigne
parA, B,
C les 3 classes de P et par1,
2 celles deQ.
On
peut représenter
lespartitions
sur les données initiales(figure 2)
en réordonnantsimplement
leslignes
et les colonnes de manière àrespecter
lespartitions.
Les noyaux obtenus sont
indiqués
sur lafigure 3 ;
la valeur du critère estégale
à 18 ce58 Y. BENCHEIKH
qui indique
que sur 100 valeurs initiales dutableau,
18 ne sont paségales
à la valeuridéale
représentée
par le noyaucorrespondant.
On
peut
voir que les micro-ordinateurs de la classe Apossèdent
engénéral
les
propriétés
de la classe 1 mais pas celles de la classe2;
ceux de la classe B lespropriétés
de la classe 2 mais pas celles de la classe 1 et ceux de la classe C aucunepropriété.
On a résumé le tableau de 100 valeurs par un tableau de 6 valeurs. Les valeurs du tableau des écarts(figure 4) représentent
le nombre de fois où la valeurmajoritaire
n’a pas étéprise
pourchaque classe,
la somme de ces valeursreprésente
la valeur du critère.
Fig.
1. - Tableau initialFig.
2. - Tableau réordonnéFig.
3. - Tableau des valeurs idéalesFig.
4. - Tableau des écarts2. Méthode de reconnaissance des
composants
d’unmélange
croiséLa méthode de reconnaissance des
composants
d’unmélange
croisé à été pro-posée
par Bencheikh[ 1 ] en 1992;
elle s’est intéressée aux méthodes de classification croiséeproposées
par Govaert[7]
et[9] ;
elle montre que cesméthodes,
comme les méthodes de classificationsimple, peuvent
souvent être considérées comme une ap-proche
classification d’un modèle demélange.
Pourceci,
elle propose la notion demélange
croisé en se basant sur unexemple
concret(Bencheikh [2])
et définit les notions de vraisemblance et de vraisemblance classifiante associées. Elle étudie aupassage les liens avec les modèles de
mélange simple proposés
par Schroeder[11],
Celeux[4]
et Govaert[8]
et montre que ces liens sont tout à faitanalogues
à ceuxqui
existent entre les méthodes de classification
simple
et les méthodes de classification croisée.59
CLASSIFICATION CROISÉE ET DISTANCE
L1
ADAPTATIVEAvant de
rappeler
leprincipe général
de cetteméthode,
notons que Bzioui[3]
s’est aussi intéressé aux liens
qui
existent entre les méthodes de classification croisée et les modèlesprobabilistes
et propose aussi un modèleprobabiliste qui
va dans lemême sens que celui étudié
ici,
enadoptant
la même démarcheprobabiliste
mais endéfinissant cette fois-ci un modèle de
mélange
croiséequi respecte
la structure deslignes
et descolonnes;
en considérant le tableau de données comme un échantillon de taille 1 comme il est fait souvent en traitementstatistique d’image.
Notreapproche
diffère de celle de Bzioui
[3],
dans le sens où comme on va le voir les données du tableau seront considérées comme un échantillon de taille np.2.1. Notion de
mélange
croiséLes données sont
toujours
fournies sous la forme d’un tableaurectangulaire
àn
lignes
et p colonnes.Rappelons
que 1 est un ensemble de n individus et J est unensemble de p variables.
I x J
= {(i,j)/i
E Iet j
EJ}
est un ensemble de npindividus-variables;
associons à
chaque
individu-variable la valeurxi
E Rqui correspond
à la valeurprise
par lavariable j
pour l’individu i.On suppose maintenant que l’ensemble 1 des individus constitue un échantillon de taille n d’une
population n;
de même on considère que l’ensemble J des variables constitue un échantillon de taille p d’unepopulation
Ç2’.Soit T = I x J le
produit
cartésien des deux ensembles 1 etJ;
l’ensemble Tpeut
être considéré comme un échantillon de taille n.p d’unepopulation Q
x Ç2,. Onpeut toujours
définir une variable aléatoire Zqui permet
d’associer àchaque couple j)
E I x J la valeur se trouvant à l’intersection de laligne
i avec lacolonne j qui
est
xji.
2.2.
Identification
d’unmélange
« croisé »Le modèle d’un
mélange
croisé est le modèleprobabiliste qui permet
de reconnaître dans unepopulation
observée dutype
Ç2 x Ç2’ l’éventuelleprésence
d’échantillons de lois de
probabilité
connues. Nous proposons alors le modèle suivant : Le tableau de données dedépart
de dimension(n, p)
est considéré comme unéchantillon T = I x J de taille
(n.p)
d’une variable aléatoire à valeur dans R dont la loi deprobabilité
admet la fonction de densité :La formule
(2)
décrit le modèle d’unmélange
detype
donnéf (., Àk) qui
est unefonction de densité sur R
appartenant
à une familleparamétrée
de fonctions de densité60 Y. BENCHEIKH
dépendant
duparamètre 03BBmk
etpl
est laprobabilité d’apparition
de l’observationf (., 03BBmk)
dans lemélange.
2.3. Problème à résoudre Problème 1
Le
problème
consiste à estimer les nombres K et M de composants dumélange
et les
paramètres
inconnusqmk :
Il
s’agit
d’unproblème
d’estimation deparamètres.
Nous ne le traiterons pas parl’approche
« estimation » duproblème
mais nous nous concentrerons surl’approche
« classification » pour l’identification d’un
mélange
« croisé ».2.4.
Approche classification
Dans
l’approche
classification(Scott
etSymons [12],
Schroeder[11],
Bencheikh[2]),
onremplace
leproblème
1 d’estimation par leproblème
2 suivant :Problème 2
Rechercher une
partition
P xQ {Pk
xQm;k
=1,...,
K et m =1,
...,M},
K et M étantsupposés
connus, telle quechaque
classePk
xQ"2
soitassimilable à un sous-échantillon
qui
suit une loif (., 03BBmk).
En suivant
l’approche
modèleproposé
par Schroeder[11] et
lareprésentation
de Celeux
[4] qui
transforme leproblème d’optimisation
de critère de vraisemblanceen un
problème d’optimisation
de critère de vraisemblanceclassifiante,
on se ramèneégalement,
dans le cas demélange «croisé»,
à la maximisation de critère de vraisemblance classifiante suivant :où L est le
K.M-uple (03BBmk, k
=1,..., K
et m ==1,..., M)
etR(Pk
xQ"2, 03BBmk)
estla vraisemblance du sous-échantillon
Pk
xQm qui
suit la loif (., 03BBmk) :
Enfin le critère de vraisemblance classifiante s’écrit :
61
CLASSIFICATION CROISÉE ET DISTANCE
LI
ADAPTATIVEOn
peut
remarquer que la résolution duproblème (4) correspond
exactement à la résolution d’unproblème
de classification croisée(Govaert [7]).
Nous proposons d’utiliser le mêmealgorithme
que celui défini pour la classification croisée etrappelé
dans le
paragraphe
1.3. Cetalgorithme,
que nous allonsreprendre
pourl’adapter
ànotre
problème,
utilise deuxalgorithmes
voisins l’un del’autre,
et tous deux baséssur le
principe
des NuéesDynamiques.
2.5.
Algorithme
Le
principe
de cetalgorithme
est le suivant : enpartant
de deux nombres K et M et d’unepartition
initiale(P
xQ)O
en K.Mclasses, l’algorithme
construit unesuite de
partitions-noyaux jusqu’à
l’obtention d’unepartition
stable enappliquant
successivement les trois fonctions suivantes :
Une
fonction
dereprésentation
gdéfinie
comme suit :Cette fonction
permet
de déterminer les K.M noyaux maximisant le critère(4) :
On
peut
facilement voir que ces noyaux sont les estimateurs du maximum de vraisemblance desparamètres
associés aux sous-échantillons{Pk
xQm; k ==
1, ... , K et m == 1, ..., M}.
Une fonction d’affectation
hdéfinie
comme suit :Cette fonction
permet
dedéterminer,
àQ
et Lfixés,
unepartition
P del’échantillon 1 améliorant le critère
VC(P
xQ, L).
Le critère(4)
s’écrit alors :On retrouve ainsi la forme du critère de vraisemblance classifiante dans le cas
de la classification
simple.
Les éléments de la classePk
seront définis comme suit :62 Y BENCHEIKH
Une fonction d’affectation
hdéfinie
comme suit :Cette fonction
permet
dedéterminer,
à P et Lfixés,
unepartition Q
del’échantillon J améliorant le critère :
Les éléments de la
partition Q
de l’échantillon J seront déterminés comme suit :On
peut
montrer que sous certaineshypothèses (Govaert [7]),
cetalgorithme
est convergent. On obtient à la convergence une
partition
P xQ
et une estimationdes
paramètres 03BBmk.
Lesproportions Pk
dumélange
sont fournies par lesfréquences
des classes
Pk
xQm.
3. Modèle associé aux données binaires 3.1. La
formule générale
On suppose dans ce modèle que les données initiales forment un échantillon de taille
(n.p)
d’une variable aléatoire Z à valeurs dans{0, 1}
dont la distribution deprobabilité
esttoujours
définie par(2);
mais icif(.,03BBmk) = p(.,03BBmk)
est unedistribution de
probabilité
sur{0,1} appartenant
à une familleparamétrée
dedistributions de
probabilités.
3.2. Choix de la
famille
de distributionOn suppose que la variable aléatoire Z définie
précédemment
suit une des deuxlois de Bernoulli suivantes :
1 avec la
probabilité
1 - E et 0 avec laprobabilité
c.1 avec la
probabilité 03B5
et 0 avec laprobabilité
1 - coù 03B5
c]0, - [,
c’est-à-dire la loi de Bernoulli deparamètre (1 - E)
et la loi de Bernoulli deparamètre
E. Onpeut
alors écrire :où
03BBmk indique quelle
est la distribution retenue :À k
= 1 pour lapremière
distribution63
CLASSIFICATION CROISÉE ET DISTANCE
L1
ADAPTATIVEÀk
= 0 pour la deuxième distribution.Les
paramètres
à estimer sont donc les03BBmk
et la valeur E.L’expression
du critère devient alors :où d(xji, 03BBmk) = |xji - 03BBmk|.
Donc pour 03B5
~]0, 1 2 [, Log 03B5 1-03B5
estnégatif.
La maximisation du critèreVC(.P
xQ, L, 03B5)
revient donc à la minimisation du critèreW (P
xQ, L) présenté
dans leparagraphe 1,
cequi
montrel’équivalence
des deuxapproches.
Il est facile de voir que la valeur 03B5 maximisant le critèreVC(P
xQ, L, 03B5)
este np
où e est la valeur du critère obtenu à la convergenceOn obtient donc une
interprétation
en termesprobabiliste
du critère de classi- fication que Govaert[7]
avaitproposé
pour les données binaires.Ce
premier mélange
notéMl
de lois de Bernoullidépend
duparamètre 03B5 qui
mesure l’écart d’une classe à son centre,
paramètre qui
nedépend
ni de lapartition
en
lignes
ni de lapartition
en colonnes ni de lapartition
enlignes
et encolonnes,
ce
qui
dans certainessituations, peut
s’avérer irréaliste.(La
valeur E est enquelque
sorte
l’analogue
de la variance commune des classes construites parl’algorithme
descentres
mobiles).
Pour cela nous proposons d’autres critères où le
paramètre peut dépendre
de lapartition
enlignes,
de lapartition
en colonnes et de lapartition
enlignes
et en colonnes.On considère alors trois autres
mélanges
de Bernoulli(notés respectivement M2, M3, M4)
que l’on se propose d’étudier dans leparagraphe
suivant :4. Extension du modèle binaire 4.1. Etude du
mélange M2
On
remplace
ici la valeur E par les valeurs Ck(avec
Ek~]0, 1 2 [) qui dépendent
dechaque
classe enlignes
maisqui
sonttoujours
les même pour les classes en colonnes.Le critère de vraisemblance classifiante va alors s’écrire :
64 Y. BENCHEIKH
Fonction de
représentation (recherche
des03BBmk
et desEk)
Les
03BBmk
sont les valeursmajoritaires
dechaque
classePk
xQm.
Les valeurs des Ek seront définis comme suit :où nk est le cardinal de la classe
Pk.
Posonsek est le nombre de fois où les valeurs
majoritaires
n’ont pas étéprises
pour la classePk.
Il faut donc maximiser la fonction
03C8.
03C8’(03B5k) = -(p.nk-ek) 1-03B5k + ek 03B5k =
0. Le maximum est atteint pour 03B5k =ek nk.p qui
appartient
bien àl’intervalle ]0, 1 2 [,
sauf dans le cas trèsparticulier
où ek = 0.Fonction
d’affectation (Recherche
desclasses)
On fixe la
partition Q.
Posons
xmi = 03A3 xji
et03BCmk
=qm.03BBmk (qm
est le cardinal de la classeQ"2).
d est une distance de
type LI
etAk
est laquantité p Log(1 - Ek) qui dépend
de k. On affectera donc
l’élément xi
à la classePk qui
minimise laquantité :
(Log1 - 03B5k 03B5k) .d(xi,03BCk) - p Log(1 - 03B5k).
65
CLASSIFICATION CROISÉE ET DISTANCE
L1
ADAPTATIVEOn fixe la
partition P :
dE
est une distance detype Li pondérée
par lesquantités Log1-03B5k 03B5k qui
dépendent
du vecteur c et A’ est laquantité p 03A3
nk.Log(l - 03B5k) qui
nedépend
pask=l
du
point xi .
L’élémentxi
sera donc affecté à la classeQm qui minimise d03B5 (xj, 03B3m).
4.2. Etude du
mélange M3
Dans ce
mélange
leparamètre 03B5
varie suivant lapartition
en colonnes. On seplace
exactement dans les mêmes conditions que dans lemélange M2.
On obtient des résultatssymétriques.
4.3. Etude du
mélange M4
Le
paramètre 03B5
varie cette fois-ci suivant lapartition
enlignes
et encolonnes,
c’est le cas leplus général.
Le critère de vraisemblance classifiante s’écrit :
Fonction de
représentation (recherche des 03BBmk et des 03B5mk)
Les
03BBmk
sonttoujours
les valeursmajoritaires
pour les classePk
xQ"2.
Il restedonc à maximiser le critère
VC4(P
xQ, L, 03B5)
pour trouver les valeurs des03B5mk.
Posons :
emk = 03A3 03A3 |xji - 03BBmk|
oùemk
est le nombre de fois où la valeurmajoritaire
n’a pas étéprise
dans la classePk
xQm.
66 Y. BENCHEIKH
Il faut donc maximiser la fonction
~(03B5mk) = (nk.qm - emk)Log(1 - 03B5mk) + emk .Log 03B5mk.
Le maximum est atteint pour
03B5mk = emk nk.qm qui appartient
bien à l’intervalle]0, 1 2 [,
sauf dans le cas trèsparticulier
oùemk
= 0.Fonction
d’affectation (recherche
desclasses)
On fixe la
partition Q :
Cette fois-ci le second terme
dépend
de k et aura donc uneinfluence;
on affectera x. à la classePk qui
minimise laquantité
On fixe maintenant la
partition P :
On se retrouve là aussi dans la même situation que dans le cas
précédent.
Lesecond terme
dépend
de m et aura donc uneinfluence;
on affecteraxi
à la classeQ’
qui
minimise laquantité :
Nous venons de voir que l’identification d’un
mélange
de Bemouilli avecle même
paramètre
pour toutes les classescorrespond
au critère de classification67
CLASSIFICATION CROISÉE ET DISTANCE
L1
ADAPTATIVEoptimisé
par la méthode CROBIN. Lagénéralisation
de ce modèle en considérant différentsparamètres permet
de proposer un nouvelalgorithme
utilisant des distancesadaptatives
que nousappellerons algorithme
CROBINadaptatif qui
estcomposé
dequatre
variantes : La variante 1 associée aumélange Ml (CROBIN),
la variante 2correspondant
aumélange M2,
la variante 3 aumélange M3
et la variante 4correspondant
aumélange M4.
On propose maintenant de comparer les résultats obtenus en
appliquant
suc-cessivement les
quatre
variantes(VI, V2, V3, V4)
del’algorithme
CROBINadaptatif
sur des données réelles et des données simulées.
5.
Application
etcomparaison
des méthodesPour réduire l’influence de la
partition
d’initialisation desalgorithmes
sur lesrésultats,
nous avonsopté
pour la démarche suivante :Première
stratégie :
Onapplique
la variante 1 del’algorithme
CROBINadaptatif
en demandant 20tirages, puis
onapplique
successivement les variantes2,
3 et 4 en les initialisant par le meilleurcouple
departitions
obtenue par la variante 1. On compare les résultats obtenus parrapport
aucouple
departitions
d’initialisation dans le cas de données réelles et aucouple
departitions
ayant servi à la simulation dans le cas de données simulées.Deuxième
stratégie :
Onapplique
la variante 2 en demandant 20tirages.
Lesvariantes 3 et 4 sont initialisées par le meilleur
couple
departitions
obtenu par la variante 2.Dans le cas de données
réelles,
on compare là aussi lecouple
departitions
desvariantes 3 et 4 au meilleur obtenu dans la variante 2
(i.e
aucouple
departitions
initiales
adopté
pour les variantes 3 et4).
Dans le cas des donnéessimulées,
oncompare le
couple
departitions
obtenu par les variantes 3 et 4 à celuiayant
servi à la simulation.Troisième
stratégie :
Onapplique
la variante 3 en demandant 20tirages.
Lavariante 4 est initialisée par le meilleur
couple
departitions
obtenue par la variante 3. On compare lecouple
departitions
obtenu par la variante 4 au meilleurcouple
dela variante 3 pour les données réelles et à celui
ayant
servi à la simulation pour les données simulées.Quatrième stratégie :
Onapplique
la variante 4 del’algorithme
en demandant20
tirages.
On compare cecouple
departitions
à celuiayant
servi à la simulation(pour
les donnéessimulées).
5.1. Données réelles
On a
appliqué l’algorithme
CROBINadaptatif
sur les données nommées :« Information and store choice » traitées par Goldstein et Dillon
[6]
en demandant trois classes enlignes
et deux classes en colonnes. Ils’agit
de 412 individus caractérisés68 Y. BENCHEIKH
par 4 variables binaires. Le tableau des données étudié est donc un tableau binaire à 412
lignes
et 4 colonnes.Les valeurs du tableau ci dessous
indiquent
pourchaque
cas le nombred’éléments en
lignes
et le nombre d’éléments en colonnesqui
ont été classés différemment. Parexemple
la valeur(19,1)
obtenue par la variante 4indique qu’il
ya 19 éléments en
ligne
et 1 élément en colonnequi
ont été classés différemment parrapport
aucouple
departitions
d’initialisation.Remarque :
Les variantes2,
3 et 4 arrivent engénéral
à modifier lecouple
de
partitions
obtenue par la variante 1(CROBIN) ,
lacomparaison
despartitions
obtenues dans les trois
approches
estdélicate;
il est doncprobable
quel’algorithme
CROBIN
adaptatif
ait ainsi mis en évidence une structure difficile à découvrir. Pour cette raison nous proposons de nous appuyer sur des modèlesprobabilistes
pour simuler des données surlesquelles
on a puapprofondir
notrecomparaison.
69
CLASSIFICATION CROISÉE ET DISTANCE
L1
ADAPTATIVE 5.2. Données simuléesPour ces données on a réalisé un programme de simulation de données
binaires,
ce dernier construit un tableau de données
plus
ou moinsproche
d’un tableau idéal structuré en blocs de 1 et 0. Pour cela il faut fournir les nombres de classes despartitions
enlignes
et encolonnes,
le nombre d’éléments de chacune des classes des deuxpartitions,
le tableau des valeurs idéales et enfin laprobabilité
aveclaquelle
le tableau ainsi défini va
s’approcher
du tableau idéal. Nous proposons aussiquatre
variantes pour cetalgorithme :
la mêmeprobabilité
detirage
E,probabilité
différentepour
chaque
classe enligne
Ek,probabilité
différente pourchaque
classe en colonneE’ et enfin
probabilité
différente pourchaque couple
de classe03B5mk.
Chaque
valeur du tableau est obtenue en faisant untirage
de Bernoulli des deux nombres 0 et 1 avec lesprobabilités 03B5
et(1 - E),
si la valeur idéale est1; (1 - E)
et 03B5si la valeur idéale est 0
(E ~]0, 1 2 [) ;
à la fin du programme, le tableau estpermuté
demanière aléatoire en
lignes
et en colonnes.A l’aide du programme
précédent,
on a simuléquatre
tableaux binaires de dimensions 100 x 30 que l’on nomme parsimull, simul2,
simul3 et simul4. Lesparamètres ayant
servi à la simulation de ces tableaux sont :Les tableaux des valeurs idéales
{03BBmk, k
=1,...,
K et m =1,..., M}
associés à
simull, simul2,
simul3 et simul4 sontrespectivement :
Simull
(même probabilité
detirage
pour tout les éléments : 03B5 =0,10)
Simul2
(probabilité
detirage
différente pourchaque
classe enligne :
03B51 =0,10;
03B52
=0, 20; 03B53 ==0,30)
Simul3
(probabilité
detirage
différente pourchaque
classe en colonne :03B51 = 0, 20;
03B52 = 0, 10; 03B53 = 0, 40)
Simul4
(probabilité
detirage
différente pourchaque
classe enligne
et en colonne :03B511 = 0, 15; 03B521 = 0, 25; 03B531 = 0, 05; 03B512 = 0, 10; 03B522 = 0, 40; 03B532 = 0, 20; 03B513 = 0, 45;
03B523 = 0, 30; 03B533 = 0, 35)
Le tableau ci-dessous résume l’ensemble des résultats obtenus en
appliquant l’algorithme
CROBINadaptatif
auxquatre
fichiers simulés et en demandant 3 classesen
lignes
et 3 classes en colonnes.Les valeurs du tableau
indiquent
pourchaque
cas le nombre d’éléments enlignes
et le nombre d’éléments en colonnesqui
ont été classés différemment. Parexemple
la valeur(8,4)
obtenue pour Simul4 dans lapremière stratégie indique qu’il
70 Y. BENCHEIKH
CLASSIFICATION CROISÉE ET DISTANCE
L1
ADAPTATIVE 71y a 8 éléments en
ligne
et 4 éléments en colonnequi
ont été classés différemment parrapport
aucouple
departitions ayant
servi à la simulation du fichier Simul4.On remarque que sur les deux
types
dedonnées, l’algorithme
CROBINadaptatif
modifie
plus
ou moins lecouple
departitions
obtenue par la variante1,
les valeurs des différents coefficients depondérations
sont raisonnables(pas
d’écartexagéré
entreles différentes
valeurs)
pour lesquatre
cas depondérations;
en revanchel’algorithme
CROBIN
adaptatif présente
ungrand avantage
pour les donnéessimulées,
carchaque
variante de
l’algorithme permet
de donner lecouple
departitions
leplus proche
decelui
qui
a servi à la simulation du tableau de données suivant le modèle de la varianteen
question (voir
tableauci-dessus).
L’algorithme
CROBINadaptatif permet
d’améliorer les résultats obtenus parl’algorithme
CROBIN danslequel,
on ne tient pascompte
despondérations;
c’est-à-dire
qu’on
donne à toutes les variables et les variables-classes le mêmepoids,
cequi statistiquement peut
être vu comme un défaut.6. Conclusion
Dans ce
travail,
nous avons établi comment la méthode CROBIN(classification
croisée sur données
binaires) peut s’interpréter
commel’approche
classification associée à unmélange
de distributions de Bernoulli avec le mêmeparamètre
pour toutes les classes. Lagénéralisation
de ce modèle en considérant différentsparamètres permet
de proposer un nouvelalgorithme
de classification croisée binaire utilisant des distancesadaptatives.
Ces dernièrescorrespondent respectivement
auxmélanges
étudiés
précédemment.
Le lien
qui
existe entre la méthode de classification croisée et le modèleprobabiliste proposé
dans cepapier permet
aussid’expliquer
les bons résultats que Govaert[7]
avait obtenus à l’aide de cetalgorithme
sur des données simuléesqui justement
suivaient ce modèle.Bibliographie
[1]
Y.BENCHEIKH,
Classificationautomatique
etmodèles, Thèse,
Université deMetz,
1992.[2]
Y.BENCHEIKH,
Classification croisée etmodèles,
Rairooperations research,
vol.33.4,
p.525-541,
1999.[3]
M.BZIOUI,
Classification croisée etmodèles, Thèse,
Université deMetz,
1999.[4]
G.CELEUX,
Classification etmodèles,
Rev. statist.Appl.,
n°4,
p.43-58, 1988.
[5]
E.DIDAY,
Nouvelles méthodes et nouveauxconcepts
en classification automa-tique
et reconnaissance desformes,
Thèse d’Etat Université Paris6,
1972.[6]
M. GOLDSTEIN et W.RDILLON,
Discrete discriminantanalysis,
JohnWiley
&
Sons,
New-York(1978).
72 Y. BENCHEIKH
[7]
G.GOVAERT,
Classificationcroisée,
Thèse de Doctoratd’Etat,
Université Pierre et MarieCurie,
Paris6,
1983.[8]
G.GOVAERT,
Classification binaire etmodèles,
Rev.Statistique Appliquée,
1990 XXXVIII
(1), 67-81.
[9]
G.GOVAERT,
Simultaneousclustering
of rows andcolumns,
Control andcybernetics
vol. 24(1995),
N° 4.[10]
M. NADIF et FMARCHETTI,
Classification de donnéesqualitatives
etmodèles,
Rev.statistique Appliquée, 1993,
XLI(1),
55-69.[11]
A.SCHROEDER,
Reconnaissance descomposants
d’unmélange,
Thèse deDoctorat de 3ème