R EVUE DE STATISTIQUE APPLIQUÉE
M. N ADIF
F. M ARCHETTI
Classification de données qualitatives et modèles
Revue de statistique appliquée, tome 41, n
o1 (1993), p. 55-69
<http://www.numdam.org/item?id=RSA_1993__41_1_55_0>
© Société française de statistique, 1993, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CLASSIFICATION DE DONNÉES
QUALITATIVES ET MODÈLES
M.
Nadif,
F. MarchettiUniversité de Metz, Laboratoire de Recherche en
Informatique
Ile du
Saulcy
57045 MetzRÉSUMÉ
Dans cet article, nous proposons des méthodes de classification pour données
qualita-
tives. Nous montrons que les critères
métriques
utilisés par ces méthodes sont associés à des modèlesprobabilistes.
Dans notreapproche,
les données initiales ne sont pas dénaturées, etchaque
classe est caractérisée par un vecteur de modalités. Nous montrons que cette étude est unegénéralisation
des travauxdéjà
réalisés dans le cas des données binaires. Enfin, nousprésentons
desapplications
sur des données simulées et comparons ces méthodes avec la méthode de classification utilisant la distance du Chi2.Mots-clés :
Classification,
Donnéesqualitatives, Noyaux
de modalités,Mélange
de lois deprobabilités.
ABSTRACT
In this paper, we propose
clustering
methods for discrete data. We show that the criteria usedby
these methods are associated withprobabilistic
models. In ourapproach,
thedata are not denatured and each cluster is characterized
by
a vector ofcategories.
We showthat this
study
is ageneralization
of works realized withbinary
data.Finally,
we presentsome numeric
experiences
on simulated data and we compare these methods with the cluster methodusing
the Chi2 distance.Key-words : Clustering,
Discrete data, Kernelsof categories,
Mixture.1. Introduction
Les modèles de
statistique
inférentielleapportent
souvent unéclairage
nou-veau des méthodes de classification
automatique reposant
surl’optimisation
d’uncritère défini à
partir
d’une distance.Ainsi, lorsque
les données sontquantita-
tives,
le critère de l’inertiecorrespond
àl’hypothèse
d’unepopulation
issue d’unmélange
de loisgaussiennes (Celeux 1988). Lorsque
les données sontbinaires,
le critère défini àpartir
de la distance L1(Marchetti 1989) rejoint l’hypothèse
d’unmélange
de lois de Bernoulli comme le montre Govaert(1990).
Par contre, pourdes données
qualitatives, l’approche probabiliste n’apparaît
pas aussi clairement.En
effet,
la méthodeoptimisant
le critère duChi2,
nomméeMNDQAL
par Ra-lambondrainy (1988)
n’est associée à aucun modèle.Cependant,
Celeux(1988)
constate par
expérience
que, sousl’approche classification,
le critèred’information
mutuelle
(Benzécri 1973)
et le critère du Chi2 pour des donnéesqualitatives
sontassociés au modèle des classes latentes
(Goodman 1974,
Everitt1981).
En outre, la méthodeMNDQAL,
utilisant la distance duChi2,
dénature les données initialesen les transformant en vecteurs de RP. La
conséquence
immédiate est la difficileinterprétation
du critère final enregard
des données initiales.Nous proposons ici une méthode de classification
automatique (avec plusieurs variantes)
pour donnéesqualitatives
nominalesqui
nepossède
pas les inconvénients mentionnés ci-dessus. Dans le deuxièmeparagraphe,
nousprésentons
cette méthodedans sa version la
plus simple.
Elle est nommée MNDDIJ(Marchetti 1989)
etest caractérisée par la définition d’un espace de vecteurs de modalités muni d’une distance
particulière qui
estégale
au nombre de différences entre les deux éléments considérés. Cetteapproche permet
d’unepart
lerespect
de la nature initiale desdonnées,
d’autrepart
uneinterprétation simple
des résultats. Dans le troisièmeparagraphe,
nousrappelons
commentl’approche
classification peut être utilisée pour identifier unmélange
de lois deprobabilité (Scott
etSymons 1971,
Schroeder1976), puis
nous proposons un modèle demélange
de loisreposant
sur la donnée d’une modalité et d’uneprobabilité
d’erreur. Nous montrons alors que la méthode de classification MNDDIJcorrespond
au cas leplus simple
du modèle : les variablespossèdent
toutes le même nombre de modalités et laprobabilité
d’erreur est la mêmepour toutes les variables. La méthode
apparaît
alorsrestrictive,
mais comme nous le montrons dans lesparagraphes
3 et4,
il est néanmoinspossible
de construire des variantes en différentiant les lois des variables(une probabilité
d’erreur propre àchaque variable)
ou en différentiant les lois des variables dans chacune des classes de lapartition.
Cette dernièreapproche correspond
alors au cas leplus général
du modèle. Nous terminons notre étude par une
expérimentation
des méthodesproposées
sur des données simulées àpartir
des modèlesprobabilistes
associés.Les résultats fournis sont alors très satisfaisants
comparativement
à la méthodeMNDQAL qui
est souvent mise à défaut pour ces mêmes données simulées.2. Méthode de classification 2.1 Notations
Soit
X (I, Q)
le tableau de modalités croisant un ensembleI = {1,2,...,n}
de n individus et un ensemble
Q = {1,2,...,p}
de p variablesqualitatives
nominales. Nous notons :
où
x i q représente
la modalité de lavariable q
choisie par l’individu i.A
chaque
variable qcorrespond
l’ensemble de modalitésJq = {1,2,..., mq},
mq étant le nombre de modalités de la variable q. Nous définissons alors
l’espace
E comme le
produit JI
xJ2
x ... xJp,
que nous munissons de la distanced,
égale
au nombre decomposantes
différentes entre les deux éléments considérés.Son
expression
sur E est la suivante :A
partir
deslignes
du tableauX(I, Q),
nous définissons le nuageN(I),
inclus dans
l’espace E,
par :2.2 Problème
Il
s’agit
de déterminer unepartition
del’ensemble
I des individus en Kclasses,
K étant fixé apriori.
Nous allons écrire unalgorithme
basé sur leprincipe
des NuéesDynamiques
maisrespectant
leprincipe d’homogénéité
suivant :l’ensemble à classifier étant inclus dans
E,
nousimposons
aux noyauxd’appartenir
à ce même espace E. Le
problème
à résoudre est alors le suivant :Trouver une
partition P = (Pl, P2,
...,PK)
de I et un ensemble L =(al, a2, ... aK) de K
noyaux de E tels que le critère :soit minimum.
La méthode nommée MNDDIJ
(Marchetti 1989)
fournit une solution à ceproblème.
Notons que si les variables ont toutes 2 modalités(cas binaire),
nousretrouvons le critère défini à
partir
de la distanceLi.
2.3
Algorithme
Il
s’agit
de construire la fonction d’affectationf
telle queW(f(L),L)
soitminimum,
et la fonction dereprésentation g
telle queW (P, g(P))
soit minimum.2022 Fonction
d’affectation
Chaque
individu i est affecté à la classePk
dont il est leplus proche
au sensde la distance d.
2022 Fonction de
représentation
Il
s’agit
de déterminer l’ensemble L des K noyauxoptimisant
le critèreW(P,g(P)).
Pourcela,
pour toute classePk,
il suffit de rechercher le noyau akappartenant
à E et minimisant laquantité :
La solution est de choisir pour
composante q
de ak, la modalité de la variable q laplus
souvent choisie dans la classePk :
a%
= modalitémajoritaire
relative de{xqi,
i EPk}
L’algorithme
ainsi construit fournit un ensemble de noyaux de même nature que les éléments à classifier. Pardéfinition,
ces noyaux sont deplus
facilementinterprétables.
Il nous reste àpréciser
lasignification
du critère obtenu à la convergence del’algorithme.
2.4
Expression
du critère à la convergenceA la convergence, nous pouvons
exprimer
le critèreuniquement
parrapport
à lapartition
de sorte que :Ce critère
représente
le nombre d’éléments du tableauX(I, Q) qui
sontdifférents des éléments du tableau
correspondant
à la situation « idéale »(situation
où tous les individus sont
identiques
aux noyaux des classesauxquelles
ilsappartiennent).
2.5 Indices d’aides à
l’interprétation
La valeur du critère à la convergence constitue une
première
indication carelle mesure la
qualité
de lapartition
fournie.Cependant,
cette valeurqui
estégale
au nombre de différences entre situation obtenue et situation «idéale» est à étudier
en
regard
de la taille du tableau initial. Apartir
de cecritère,
nous définissons unpremier
indiceégal
au pourcentage de valeursidentiques
entre noyaux et données initiales.Ainsi,
l’utilisateurpeut juger rapidement
de laqualité
de lapartition
obtenue. Sa définition est la suivante :
et où
D%
est le nombre de modalités différentes de la modalitémajoritaire
relativedans la classe
Pk
pour la variable q.De
plus,
pourchaque
classe de lapartition,
nous proposons un second indicepermettant
dejuger
de saqualité.
Ilreprésente simplement
lepourcentage
de valeursidentiques
au noyau de la classe. Il est alorspossible
dejuger
de manièreindépendante
del’homogénéité
dechacune
des classes obtenues. Pour une classePk
de cardinal nk, la définition de l’indice est la suivante :Les noyaux de modalités
permettent
d’étudierrapidement
lesparticularités
dechaque
classe de lapartition.
Encomplément,
pourchaque couple (classe, variable),
nous proposons un indice
égal
aupourcentage
d’individusayant
choisi la modalitémajoritaire
relative. L’utilisateurdispose
ainsi de K x p indicateurs directementinterprétables.
Pour une classePk
et une variable q,l’expression
de l’indice est :2.6
Exemple d’application
Soit un ensemble de 10 individus identifiés par les nombres de 1 à 10 et décrits par un ensemble de 5 variables
qualitatives
nominales identifiées par les lettres de a à e.Supposons
que ces variablespossèdent
chacune 3 modalitésreprésentées
par les valeurs1,
2 et 3. Les données initiales sontorganisées
sous la forme d’un tableau de modalités
(tableau 1).
Nousappliquons
alors laméthode MNDDIJ en demandant 3 classes.
Après plusieurs essais,
nous aboutissons finalement à lapartition {A,B,C} = {{3,7,9,10}, {1,4,5,8}, {2,6}}.
Nousreprésentons
le tableau initial réordonné suivant cettepartition (tableau 2).
Nousindiquons également
les indices d’aides àl’interprétation
que sont :- les effectifs et les indices
d’homogénéité
des classes(tableau 3);
- les noyaux de modalités fournis par la méthode
(tableau 4) ;
- la mesure
d’homogénéité
dechaque couple (classe, variable) (tableau 5).
La valeur du critère à la convergence étant de
12,
celaindique
que sur 50valeurs
initiales,
12 ne sont paségales
à la valeur idéale. La situation «idéale»obtenue
permet
doncd’expliquer
76% des données initiales.TABLEAU 1 TABLEAU 2
tableau initial tableau réordonné
TABLEAU 3
caractéristiques
des classeseffectifs
homogénéité
TABLEAU 4 TABLEAU 5
les noyaux
homogénéité
par classe et par variable3. Classification et modèle
De nombreuses méthodes de classification
reposent
essentiellement sur la définition d’une distance(ou plus généralement
sur celle d’une mesure de dissi-milarité)
et d’un critèreassocié,
sans faireexplicitement
référence à des modèlesprobabilistes. Cependant,
il est souventpossible
de montrerqu’il
existe un modèlesous-jacent qui permet
alors de donner uneinterprétation
du critère et dejustifier
deson choix. Dans ce
paragraphe,
nousrappelons
commentl’approche
classificationpeut
être utiliséepuis
nous proposons un modèle associé aux donnéesqualitatives.
3.1 Modèle
général
etapproche classification
Le tableau initial X est considéré comme un échantillon Q de taille n d’une variable aléatoire à valeurs dans E dont la loi de
probabilité
admet la fonction de densitéf :
où
f (. ; a)
est une distribution deprobabilité
sur Eappartenant
à une famille de distributions deprobabilités (dépendant
duparamètre
a élément deils,
s1)
et oùPk est la
probabilité qu’un point
de l’échantillon suive la loif(.;ak),
c’est-à-dire lepoids spécifique
ducomposant
dans lapopulation générale.
Nousappelons
cesPk les
proportions
dumélange, K
étant le nombre decomposants
de cemélange.
Dans
l’approche
«classification»(Scott
etSymons 1971,
Schroeder1976),
le
problème
initial d’estimation estremplacé
par leproblème
suivant :Rechercher une
partition
P =(P1,..., PK ), K
étantsupposé
connu, telleque
chaque
classePk
soit assimilable à un sous-échantillonqui
suit une loif (., ak).
L’espace
dereprésentation
d’une classe étantl’espace
de définition desparamètres
a dontdépendent
les densitésf (. ; a),
la méthode vise alors à maximiser le critère de vraisemblance classifiante suivant :où a est le
p-uplet (a1,...,aK)
etL(Pk,ak)
est la vraisemblance du sous-échantillon
Pk suivant
la loif (. ; ak) :
Pour maximiser ce critère
(3.1.1),
nous pouvons utiliser desalgorithmes
detype
NuéesDynamiques qui
construisent àpartir
d’unepartition
initiale P° en K classes une suite departitions
enappliquant
les deux fonctions suivantes :- une fonction de
représentation
g définie parg (P) = g(Pl,..., PK) = (al,
...,aK)
où ak est l’estimation du maximum de vraisemblance duparamètre
dela densité associée au sous-échantillon
Pk ;
- une fonction d’affectation définie par
f (a)
=/(ai,..., aK) = (Pi,... ? PK )
où
Pk = {xi
E03A9/f(xi; ak) f(xi; am)
avec k m en casd’égalité}.
Cet
algorithme
fait croître le critère àchaque
itération et nous obtenons à la convergence unepartition
P et une estimation desparamètres
ak. Lesproportions
Pk du
mélange supposées
constantes dansl’algorithme peuvent
être alors estimées par lesquantités (Card(Pk)/n,k = 1, K)
3.2 Modèle associé aux données
qualitatives
Pour
chaque composant
k dumélange,
nous supposons que les p variables sontindépendantes
et que chacune d’elles(q)
suit une loi de distributiondépendant
d’un
paramètre
a et d’une modalitéaqk :
aq k
avec laprobabilité
1 - a~q ~ Q { les autres modalités avec la probabilité mq -
En nous
inspirant
de la méthodeMNDDIJ,
la valeur cepeut
être considéréecomme la
probabilité
d’erreur que lavariable q
ne prenne pas la modalitéaqk . Ainsi,
nous
imposons
la contrainte que amq - 1 mq
pour tout q EQ (en
casd’égalité,
à
chaque
modalité est associée une mêmeprobabilité 1 mq,
cequi
necorrespond
plus
à la donnée d’une modalitéplus probable
que lesautres).
De cettefaçon,
lamodalité
ak
est choisie avec laplus
forteprobabilité
et les autres modalités separtagent
de manièreéquiprobable
l’erreur a.Nous pouvons alors écrire :
où ak =
(a1k,..., apk)
et où lesaqk indiquent
laprobabilité
retenue :{aqk
=xq
pour lapremière probabilité
1 - claqk ~ xq
pour la secondeprobabilité 03B1/(mq - 1)
3.3
Optimisation
du critèreA
partir
de(3.2.1),
nous pouvons alors déduirel’expression
du critère de vraisemblance classifiante(3.1.1) qui
s’écrit sous la forme suivante :Il
s’agit
ensuite de rechercher les différentsparamètres
du modèle maximisant cecritère. Notons d’abord que la recherche de ce et celle des ak sont
indépendantes.
De
plus,
maximiser le critèreW (P,
a,a)
parrapport
à a revient à minimiser laquantité :
La minimisation de cette
quantité
se réalise à l’aide des deux fonctions habituelles caractérisant la méthode des NuéesDynamiques.
2022 Fonction
d’affectation (recherche
desclasses)
Chaque
individu i est affecté à la classe dont il est leplus proche
au sens dela distance D définie par :
Il
s’agit
bien d’une distancepuisque
sous la contrainteimposée
sur a(c’est-à-dire
a e
]0,min{mq - 1 mq; q
EQ le
termeLog[(l - a)(mq - 1)/03B1]
estpositif.
Notons que cette distance est du même
type
que celle utilisée dans la méthode MNDDIJ et estpondérée
par les coefficientsLog[(l - a)(mq - l)/a].
2022 Fonction de
représentation (recherche
desaqk et
dea)
Quelle
que soit la valeur duparamètre
a, il est évident quechaque a q k
correspond
à la modalitémajoritaire
relative de lavariable q
pour la classePk.
Par
ailleurs,
la valeur duparamètre
a maximisantW (P, a, a)
est donnéeK
par
e/np
où e= 03A303A303A3 03B4(xqi, a q) exprime
le nombre de fois où la valeurmajoritaire
n’a pas étéprise
par les individus dans toutes les classes. Il nous reste à vérifier si la valeur arespecte
bien la contrainteimposée.
Pourcela,
si nous notons
eq - 03A303B4(xqi,aqk),
nous avonseq
E[0, mq - 1 mq nk]
et parconséquent
e e[0, n L mq - 1 mq].
La valeur aappartient
donc à l’intervalle[0, 1 p 03A3 mq - 1 mq ] qui contient] 0, Min {mq - 1 mq;q
~Q} [.Nous
proposons alors de choisir a= MIN{e np,Min{mq - 1 mq;q ~ Q}}.
2022
Remarque
Nous avons ainsi construit une
première
méthode de classification pour donnéesqualitatives.
Celle-cipeut paraître
restrictive du fait del’hypothèse
d’unemême
probabilité
d’erreur pour toutes les variables considérées.Cependant,
cetteapproche
admet les deux casparticuliers
suivants :i)
Dans le casbinaire,
pour tout qappartenant
àQ,
nous avons mq =2,
la contrainteimposée
sur a se restreint à aappartenant à]0,1/2[et
laquantité
àminimiser devient :
Nous
rejoignons
alors les travaux de Govaert(1990) qui
montre comment l’identi- fication d’unmélange
de distributions de Bernoulli avec le mêmeparamètre
appar- tenantà ]0,1/2[
pour toutes les classes et toutes les variablescorrespond
au critèrede classification binaire utilisant la distance
LI
et des noyaux binaires(Marchetti 1989).
’
ii) Lorsque
les mq sont touségaux (nous
posons mq = m pour toutq),
laquantité
à minimiser devient :La minimisation de
C(P, a)
est alorséquivalente
à la maximisation deW(P, a),
cequi permet
d’affirmer que lemélange
de distributionsproposé,
avec la contrainte que tous les mq soientégaux, correspond
au critère de la méthode de classification MNDDIJ.4. Généralisation
L’algorithme précédent peut
être étendu en considérant deux autres modèlesdépendant
du choix duparamètre
a. Eneffet,
celui-cipeut
êtreremplacé
soitpar
(03B11,..., aP),
soit par{(03B11k,..., 03B1pk);
k =1, K}
suivant que adépend respectivement
dechaque
variable ou dechaque couple (classe, variable).
Dansles deux cas, la contrainte
imposée
est la même : les aq eta%
doiventappartenir
à l’intervalle
0, mq - 1 mq [.
L’utilisation d’unparamètre dépendant
à la fois de lavariable et de la classe
correspond
à la version laplus générale
de la méthode.4.1 Paramètre
dépendant
dechaque
variableDans ce cas,
l’expression (3.2.1)
s’écrit :Le critère de vraisemblance classifiante
(3.1.1)
devient :Pour maximiser ce
critère,
nousprocédons
de la même manière queprécédemment.
2022 Fonction
d’affectation (recherche
desclasses)
Chaque
individu i est affecté à la classe dont il est leplus proche
au sens dela mesure de dissimilarité
pondérée Di
définie par :2022 Fonction de
représentation (recherche
desaqk
et dea)
Quelles
que soient lescomposantes
duparamètre
a, il est évident quechaque
aqk correspond
à la modalitémajoritaire
relative de lavariable q
pour la classePk.
Par
ailleurs, chaque composante
03B1q est donnéepar n
où eq =03A303A303B4(xqi, aqk)
exprime
le nombre de fois où la valeurmajoritaire
n’a pas étéprise
dans chacune des classes pour la variable q.4.2 Paramètre
dépendant
dechaque
variable et dechaque
classeDans ce cas,
l’expression (3.2.1)
s’écrit :et le critère de vraisemblance classifiante devient :
Pour maximiser ce
critère,
nousprocédons toujours
de la même manière.2022 Fonction
d’affectation (recherche
desclasses)
Chaque
individu i est affecté à la classe dont il est leplus proche
au sens dela mesure de dissimilarité
pondérée D2
définie par :2022 Fonction de
représentation (recherche
desaqk
et de03B1)
Quelles
que soient lescomposantes
duparamètre
a,chaque aqk correspond
àla modalité
majoritaire
relative de lavariable q
pour la classePk.
Chaque composante 03B1qk
est donnée parek nk q
où nkreprésente
l’effectif de la classePk
eteqk
=03A3 03B4(xqi, aqk) exprime
le nombre de fois où la valeurmajoritaire
n’a pas été
prise
dans la classePk
pour la variable q.Cette méthode
correspond
au cas leplus général
etenglobe
toutes cellesproposées
dans ce travail. Deplus,
dans le cas où toutes les variables ont 2modalités,
nousrejoignons
le modèlegénéralisé
associé aux données binaires etproposé
par Govaert(1990).
2022
Remarque :
Il est facile de vérifier que les 03B1q
(respectivement 03B1qk)
maximisantW1 (P,
a,03B1) (respectivement W2(P,a,03B1))
vérifient bien la contrainte(aq, respectivement 03B1qk
appartiennent à] 0, mq - 1 mq[)
sauf dans le cas trèsparticulier
où eq = 0(respecti-
vement
eqk
=0).
Pourpallier
cetinconvénient,
il suffit deprendre
dansl’algorithme
les valeurs de ces
paramètres
calculées dansl’étape précédente.
Dans ce cas, nousne maximisons pas le critère mais nous l’améliorons.
5.
Expériences numériques
Pour illustrer les différentes variantes de notre
méthode,
nous avonsprocédé
comme suit : nous avons simulé des données structurées en
classes ;
nousappliquons
ensuite les différentes méthodes et nous comparons la
partition
obtenue avec lapartition
simulée. En outre, nous comparons les résultats obtenus avec ceux de la méthodeMNDQAL.
5.1
Appellation des
méthodes5.2 Illustrations
Nous
présentons
maintenant unesynthèse
de toutes les simulations effectuées.Première
expérience
Nous avons tout d’abord
comparé
les différentes variantes entre elles à travers desapplications
sur des données simulées àpartir
des modèlesMl, M2,
M3 et M4. Les résultats obtenus sont ceux attendus. Eneffet,
nous pouvons constater le caractèresimpliste
de la méthode MNDDIJ ne donnant des résultatsacceptables
que dans le seul cas où les données sont simulées à
partir
du modèle Ml. Laméthode MNDFIX convient pour les modèles Ml et
M2,
la méthode MNDVAR pourM l,
M2 et M3.Enfin,
nous avonsapprécié
le caractèregénéral
de la méthode MNDCLAqui
donne de bons résultatsquel
que soit le modèle(Ml, M2,
M3 ouM4)
utilisé pour la simulation.Seconde
expérience :
MNDDIJ etMNDQAL
A l’aide du modèle Ml associé à
l’algorithme MNDDIJ,
nous avons simulé des données structurées en 3 classes en utilisant différentes valeurs duparamètre
a.Pour
chaque
valeur de a, nous avonsappliqué
les deuxalgorithmes
et les résultats obtenus pour un ensemble de 100 individus décrits par 5 variables(ayant
toutes5
modalités)
sont résumés dans lafigure
1 ci-dessous.valeurs du
paramètre
aFIGURE 1
pourcentage
d’objets
mal classés par rapport à lapartition
simulée en
fonction
des valeursprises
par leparamètre
aNous avons
également
réalisé de nombreux autres essais avec des tableaux de données et de classesplus importants. Et, toujours,
la méthode MNDDIJ s’est avéréeéquivalente
sinon meilleure que la méthodeMNDQAL
pour des données simulées.Troisième
expérience :
MNDFIX etMNDQAL
Les données sont simulées suivant le modèle M2 associé à MNDFIX. Dans
ce cas, la méthode
MNDQAL
est aussi mise à défaut par la méthode MNDFIX.valeurs du
paramètre
aFIGURE 2
pourcentage
d’objets
mal classés par rapport à lapartition
simulée en
fonction
des valeurs prises par leparamètre
aRemarque
Nous avons
également comparé
MNDVAR et MNDCLA avecMNDQAL.
Nous avons
constaté,
defaçon plus marquée
encore,l’inadéquation
de la méthodeMNDQAL
sur les données simulées suivant les modèles M3 et M4.6. Conclusion
Dans ce
travail,
nous avonsproposé
des méthodes de classification pour donnéesqualitatives nominales,
liées à un modèleprécis
demélanges
de distri-butions de
probabilité.
Ces liensjustifient
les bons résultats obtenus à l’aide deces méthodes
appliquées
sur des données simulées suivantjustement
chacun desmodèles associés. En
effet,
nous avonssouligné
par de nombreusesexpériences l’adéquation
des méthodesproposées
et nous avons pu mettre à défaut la méthode de classificationMNDQAL.
Ces nouvelles méthodespermettent
de caractériser les classes de lapartition
obtenue par un vecteur de modalités facilementinterpréta-
ble. L’introduction de noyaux de modalités et l’existence d’un modèle
probabiliste
associé nous semblent constituer les deux
points
essentiels de notre étude.Cette
approche
nous apermis d’apporter
unéclairage
nouveau de la méthode de classification MNDDIJ en lui associant un modèleprobabiliste
bien défini. Deplus,
nous avons montré que le modèle associé aux données binaires est un casparticulier
du modèleproposé
ici pour les donnéesqualitatives
nominales. Il nous restecependant
à confronter ces nouvelles méthodes à des données réelles.7. Références
BENZECRI J.P
(1973)
Théorie de l’information et classificationd’après
un tableaude
contingence. L’Analyse
des données tome1,
Dunod.CELEUX G.
(1988)
Classification et modèles. R.S.A. 4 : pp 43-58.EVERITT B.
(1981)
An introduction to latent variable models.Chapman
and Hall.GOODMAN L.
(1974) Exploratory
latent structure modelsusing
both identifiable and unidentifiable models. Biometrika. 61.GOVAERT G.
(1990)
Classification binaire et modèles. R.S.A. 38 : pp 67-81.MARCHETTI F.
(1989)
Contribution à la classification de données binaires etqualitatives.
Thèse de doctorat de l’Université. Université de Metz.RALAMBONDRAINY H.
(1988)
Etude des donnéesqualitatives
par les méthodestypologiques.
Actes aucongrès
de l’AssociationFrançaise
deMarketting.
Montpellier.
SCHROEDER A.
(1976) Analyse
d’unmélange
de distributions deprobabilités
demême
type.
R.S.A. vol24,
n°1 : pp 39-62.SCOTT A.J. et SYMONS M.J.