R EVUE DE STATISTIQUE APPLIQUÉE
J. G. P OSTAIRE
Une approche statistique unique pour l’analyse des mélanges et la détection des modes en classification automatique
Revue de statistique appliquée, tome 31, n
o4 (1983), p. 17-36
<http://www.numdam.org/item?id=RSA_1983__31_4_17_0>
© Société française de statistique, 1983, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
17
UNE APPROCHE STATISTIQUE UNIQUE POUR L’ANALYSE DES MELANGES ET LA DETECTION DES MODES EN CLASSIFICATION AUTOMATIQUE
J.G. POSTAI RE Centre d’Automatique Université de Lille 1 59655 Villeneuve d’Ascq Cedex
RESUME
Cet article
présente
une approche statistique globale et cohérente de différents pro- blèmes de classification automatique. On montre comment l’analyse locale de la convexité des fonctions de densité deprobabilité
permet d’aborder, avec les mêmes outils mathéma- tiques, des aspects aussi différents de la classification nonsupervisée
que la recherche des groupements par détection des modes et l’optimisation de la classification par identification desmélanges.
Deux algorithmes sont
proposés
pour chacun de cesproblèmes.
L’un est destiné aux grandséchantillons,
l’autre aux échantillons de taille réduite. L’accent estporté
sur la comparaison des performances et des domainesd’application
de ces quatreprocédures
dontles comportements sont
analysés
sur des données artificielles.Dans tous les cas, la classification est obtenue uniquement à partir de l’information
apportée
par les observations nonétiquetées
de l’échantillon disponible. La variété desconditions d’utilisation et des
hypothèses d’application
de l’approcheproposée
permet uneréponse
souple etadaptée
aux nombreuses exigences desproblèmes
de classification automa-tique non
supervisée.
1. INTRODUCTION
La classification
automatique apparaît
encoretrop
souvent comme un arsenal de méthodesqui
n’ont en commun que leur finalité etqui
fontappel
à autant denotions
mathématiques
et deconcepts scientifiques qu’il
existed’algorithmes.
L’utilisateur le
plus
averti reste souventperplexe
devant le foisonnement des tech-niques qui permettent
d’identifier les classes enprésence
dans un ensemble de données multidimensionnelles. Selon le nombre d’observations à classer et la dimen- sion desdonnées,
selon lapossibilité
d’utiliser un modèleparamètrique
etcompte
tenu des informations dont il
dispose
apriori, l’analyste
doit choisir unestratégie parmi
un ensemble de méthodes très diverses et souvent peucomparables,
chacuneayant
sespoints
forts et ses faiblesses.Ce manque de cohérence et d’unité
apparaît
surtout en classification nonsupervisée,
c’est-à-direlorsqu’il s’agit
d’identifier les classes enprésence
dans unéchantillon à
partir
de la seule informationqui peut
être extraite des observations à classer. Cetype
de situationcorrespond
à des démarchesexploratoires
où on nedispose
d’aucune information apriori
sur les données àclasser,
ne serait-ce que sous la forme dequelques prototypes.
Très souvent, au début del’analyse,
on ne connaitmême pas le nombre de classes en
présence.
Revue de Statistique Appliquée, 1983, vol. XXXt, n° 4
Mots-Clés : Classification
automatique ; Convexité ; Analyse
desmélanges ;
Certaines méthodes de classification non
supervisée
sont basées sur desconcepts
de distance[1-6]
tandis que d’autres se réfèrent à des notions statis-tiques [7-11 ].
Si certainsalgorithmes
sont totalementheuristiques [ 12-14],
d’autresse veulent
optimaux
en ce sensqu’ils
minimisent un critère[ 1-2, 5, 15-16].
Il fautmême noter que certaines
méthodes, qui
semblent aupremier
abordapparentées
aux
approches statistiques,
ne font en fait référence à des notions de corrélation et de variance que pour définir un critèrealgébrique
à extrèmiser. Il nes’agit
alors que d’une
généralisation
de la notion de distance[5, 17-18].
Malgré
cettegrande
diversitéd’approches
dont les références citées nedonnent
qu’un
aperçuincomplet
etlimité,
il n’existe aucune méthodepermet-
tant
d’optimiser
une classification nonsupervisée
au sens de la minimisation du tauxd’erreur,
c’est-à-dire au sens de la théorie de la décision.Face à cette
profusion
de méthodesqui
masque certaineslacunes,
nousavons tenté de résoudre les
problèmes classiques
de classification nonsupervisée
par une
approche unique
et cohérente. Leprincipal
but de cet article est de montrercomment l’utilisation du
concept
de convexitépermet
de regrouper différentsaspects
de la classificationautomatique
sous une même théorie unificatrice.L’approche proposée apporte
une solution auproblème classique
de larecherche des
groupements (clustering) lorsqu’on
n’émet aucunehypothèse parti-
culière sur la nature
statistique
de la distribution des données à classer. Mais ellepermet également d’optimiser
une classification par minimisation du taux d’erreur.Cette
possibilité
étaitjusqu’à présent
réservée à desproblèmes particuliers,
avecun nombre réduit de classes
[ 19-20],
ou une connaissance apriori
de certains para- mètres[21-24]
ou encore avec deshypothèses
restrictives[25-28]. L’optimisation
dans le cas très
général
de la classification nonsupervisée
sanshypothèses
restric-tives a été obtenue
grâce
à une méthode d’identification desmélanges
basée surl’analyse
de la convexité des fonctions de densité deprobabilité.
Nous verronségalement
commentanalyser,
par la mêmeapproche,
des données de faible dimen- sion comme des données de dimensionélevée,
que l’ondispose
depetits
échan-tillons ou d’échantillons de taille
importante.
Cet article est un essai de
synthèse
de différents travauxpubliés séparément.
L’accent est donc mis sur les
grandes lignes
del’approche
et lesaspects
fondamen-taux de la démarche. Le lecteur intéressé trouvera dans la
bibliographie
des réfé-rences d’articles détaillés
portant
aussi bien sur les fondementsthéoriques
de laméthodologie
que sur lesaspects pratiques
de sonimplantation
sur calculateurnumérique.
Les résultats
présentés reposent
sur la mise aupoint
d’un testqui permet
deconnaître localement le sens de la convexité de la fonction de densité
sous-jacente
à une distribution d’observations multidimensionnelles
(section 2).
On montrecomment la
description
des fonction de densité en termes de convexitépermet
de proposer un schéma pour l’identification desmélanges gaussiens (section 3).
Mais l’utilisation du test de convexité ne
pouvant
êtreenvisagée
que pour des échantillons relativementimportants,
une variante de cette méthode d’identifica- tion desmélanges
estproposée
pour lespetits
échantillons. Le schéma directeur estconservé,
maisl’analyse
de la convexité de la fonction de densité multivariable estremplacée
parl’analyse
de la convexité de ses densitésmarginales (section 4).
Quelle
que soit la taille de l’échantillondisponible
et la dimension du pro--blème,
onpeut donc,
enacceptant l’hypothèse normale, optimiser
une classifica- tion sur la base de l’identification dumélange sous-jacent (section 5).
Mais dansle cas où l’on estime devoir s’affanchir de cette
hypothèse,
il est encorepossible
de regrouper les observations
après
avoir détecté les modes de la fonction de densitésous-jacente grâce
àl’analyse
de sa convexité ou de celle de ses densitémarginales (section 6).
De nombreux
exemples permettent
dejuger
lesperformances
de laprocé-
dure
d’optimisation
ainsi que celles de la méthode de recherche desgroupements
pour des échantillons de taille et de dimension variées. Ils montrent l’intérêt de cette nouvelleapproche qui apporte
uneréponse souple
etadaptée
auxexigences
desproblèmes
de classification nonsupervisée.
2. CONVEXITE DES FONCTIONS DE DENSITE
Nous verrons dans cet article que la détermination de la convexité des fonc- tions de densité de
probabilité apparaît
comme uneapproche
intéressante des pro- blèmes de classificationautomatique. Usuellement,
on ditqu’une
fonctionf(X)
est convexe sur un domaine convexe D de
R"
si :quels
que soientXl, X2
E D et A E[0, 1].
Or les fonctions de densité ne sontgénéralement
connues dans lesproblèmes
de classification que sous la forme d’une estimationexplicite,
obtenue àpartir
des observationsdisponibles.
La définitionclassique
est donc maladaptée
à la détermination de la convexité de ces fonctions dont on ne connait pasl’expression analytique.
Eneffet,
cette définition faitappel
à une notion
globale,
en ce sens quel’inégalité (1)
doit être vérifiée pour toutcouple
depoints X 1, X2 appartenant
au domaine surlequel
la fonction est convexe.Lorsqu’on
nedispose
pas de la formeanalytique
de la fonctionétudiée,
il est dif- ficile d’utiliser cette définitionglobale
pouranalyser
sa convexité., Pour
pallier
cettedifficulté,
nous proposons une méthodequi
consiste à tester localement(ou point
parpoint)
le sens de la convexité des fonctions multivariables.Cette
analyse
faitappel
à une notion de convexité en unpoint
que nous définissonscomme suit :
Une fonction
f(X)
est dite "localement convexe" aupoint
X s’il existe unvoisinage
de X convexe surlequel
la fonctionf (X)
est convexe. La détermination de la convexité d’une fonction en unpoint
Xpeut
alors êtreenvisagée
àpartir
de
l’analyse
des variations de sa valeur moyenne :calculée sur des domaines D
appropriés,
centrés en X et de volumeV(D)
variable.Ces
domaines, appelés
"domainesd’observation",
sont obtenus àpartir
d’undomaine de
référence,
centré en X etsymétrique
parrapport
à soncentre,
par une homothétie de centre X(cf. Fig. 1).
On montre alors que sif(X)
est localementconvexe en un
point,
la valeur moyenne def(X)
calculée sur les domaines d’obser- vation ainsi définis est une fonction croissante de la taille de ces domaines. Lesens de variation est
opposé
dans le cas concave[29].
Cette relation
simple
entre le sens de variation de la valeur moyenne de la fonction calculée sur des domaines d’observation de taille croissante et le sens de la convexité de la fonction aupoint
où sont centrés les domaines est aisémentexploi-
table dans le contexte de la classification
automatique.
Partant d’un ensembled’observations
multidimensionnelles,
il est en effet maintenantpossible
de testerle sens de la convexité de la fonction de densité
sous-jacente.
En tout
point
X où on désire effectuer ce test, on estime d’abordf(X)
par la méthode de ROSENBLATT-PARZEN sous la forme :
où k est le nombre d’observations de l’échantillon
disponible
de taille q situées dans le domaine D centré en X et de volumeV(D).
La taille du domaine D estajustée
en fonction du nombre q d’observations afin d’assurer la convergence en moyennequadratique
de l’estimateur.f(X)
est considérée comme la valeur limite de la valeur moyenne def(X)
calculée sur des domaines d’observation centrés en X
lorsque
leur taille tend verszéro. Pour connaître le sens de variation de cette valeur moyenne
lorsque
la tailledes domaines d’observation
augmente,
il suffit d’estimer la valeur moyennep [f(X), D]
def(X)
sur un domaineD’
de taillelégèrement supérieure
à celle deD sous la forme :
k’
étant le nombre d’observations de l’échantillon situées dans le domaineD’.
Si:
on conclut que la valeur moyenne de
f(X)
est une fonction croissante de la taille des domaines d’observation surlesquels
elle est calculée. La fonctionf(X)
estalors localement convexe en X. Dans le cas contraire, on conclut
qu’elle
est locale-ment concave en X.
Une des
principales critiques
faites à la méthode d’estimation des fonctions de densité de ROSENBLATT-PARZEN utilisée dans le test de convexité décrit ci- dessus est que son utilisation demeure limitée à desproblèmes
de faible dimension.Or le test de convexité
proposé
nécessite deux foixplus
de calculs que l’estimation des fonctions dedensité, puisqu’en chaque point
il faut d’abord estimer la fonc-tion
elle-même, puis
sa valeur moyenne sur un domaine d’observation.Il serait donc irréaliste
d’envisager
l’utilisation de ce test sansdisposer
d’uneprocédure permettant
d’accélérer la mise en oeuvre de la méthode d’estimation de ROSENBLATT-PARZEN. C’estpourquoi
nous avons mis aupoint
unalgorithme rapide
d’estimationutilisant.
le noyaucubique [30].
A titred’exemple,
pour unproblème
à 6 dimensions avec un échantillon de 1 000observations,
cetalgorithme permet
d’estimer la fonction de densitésous-jacente
environ 10 000 foisplus
viteque
l’algorithme
conventionnel. Utilisé pour tester le sens de la convexité locale des fonctions de densité àpartir
desobservations,
cetalgorithme permet
de traiterdes
problèmes
de forte dimension en destemps
tout à fait raisonnables.Il faut toutefois
garder
àl’esprit
le fait quel’application
de cetteprocédure
ne
permet
de déterminer le sens de la convexité locale de la fonctionanalysée
que si celle-ci est définie au
voisinage
despoints
de test. C’estpourquoi
nous allonsmaintenant examiner les
propriétés
de convexité des fonctions de densité nor-males,
souventproposées
comme modèlesparamètriques
dans lesproblèmes
declassification
automatique.
3. IDENTIFICATION DES MELANGES GAUSSIENS PAR ANALYSE MUL- TIVARIABLE
3.1. Détermination des
paramètres
d’une distribution normale paranalyse
de laconvexité de sa fonction de densité
En étudiant le
signe
duHESSIEN (*)
d’une fonction de densité normaled’expression :
on
peut
montrer que celle-ci est concave à l’intérieur d’unhyperellipsoïde d’équa-
tion :
et que sa concavité n’est pas définie à l’extérieur de ce domaine
appelé
"domaine de concavité" dep(X) [ 31 ] .
L’analyse
despropriétés géométriques
de cethyperellipsoïde
montre que sesaxes
principaux
ont la direction des vecteurs propres de l’inverse de la matrice de covariance S. Deplus,
lesdemi-longueurs
de ces axes ne sont autres que les valeurs propres de la matriceE-1. (cf. Fig. 2).
Le test de convexité
présenté
auparagraphe précédent permet
donc de pro- poser une nouvelle méthode d’identification desparamètres
d’une distribution normale àpartir
d’un échantillon. Le schéma directeur est le suivant :a) Déterminer, point
parpoint
et àpartir
des observationsdisponibles,
ledomaine où la fonction de. densité
sous-jacente
est concave.b)
Modéliser ce domaine par unhyperellipsoïde
dont on détermine les direc- tionsprincipales
et lalongueur
des axesprincipauxo
c)
Le centre del’hyperellipsoïde indique
le vecteur moyenneX
de la distri- bution. La direction et lalongueur
des axesprincipaux indiquent
les vecteurspropres et valeurs propres de la matrice
L-l.
Le calcul de la matrice de covariance est donc immédiat.La
procédure a)
est réalisée enappliquant
le test de convexité à tous lespoints
d’un réseauhypercubique. Lorsque
le testindique
que la fonctionp(x)
(*) Rappelons que les éléments
Pi,j(X)
du HESSIEN de p(X) sont de la forme :avec:
Figure 1. - Domaines d’observation
sphériques
dans un espace à trois dimensions /
Figure 2. -
Propriétés géométriques
du"domaine de concavité" de la fonction de densité d’une distribution normale
à deux dimensions.
CARRES A CONVEXITE NEGATIVE
CARRES A CONVEXITE NEGATIVE MATERIALISANT LE DOMAINE DE CONCAVITE
DOMAINE DE CONCAVITE
Figure 3. - Résultat du test de convexité
appliqué
à une distribution normale d’observations bidimensionnelles.est convexe en un
point,
on dit que cepoint
a une convexitépositive,
par oppo- sition auxpoints
à convexiténégative
où le testindique
que la fonction est concave.Tous les
points
du réseau situés à l’intérieur du domaine de concavité dep(X)
seront despoints
à convexiténégative.
Par contre à l’extérieur de ce do-maine,
la convexité de la fonction n’étant pasdéfinie,
le test de convexité feraapparaître
indifféremment despoints
à convexiténégative
etpositive (cf. Fig. 3).
Une
simple procédure d’agrégation, portant
sur lespoints
à convexiténégative, permet
donc d’isoler parchaînage
lespoints adjacents
matérialisant le domaine de concavité de la fonction.Une
technique
de calculapparentée
à la recherche del’ellipsoïde
d’inertied’un solide
permet
alors de déterminer les axesprincipaux
du domaine matérialisé par lespoints
isolés par laprocédure d’agrégation.
La détermination des para- mètres de la distribution est alors immédiate.La
détermination,
àpartir
desobservations,
du domaine à l’intérieurduquel
une fonction de densité est concave
permet
donc de calculer des valeursapprochées
du vecteur moyenne et de la matrice de covariance d’une distribution normale.
Si l’intérêt de cette nouvelle
approche
pour l’identification d’une distributionunique
reste trèslimité,
il n’en est pas de même pour cequi
est del’analyse
desmélanges gaussiens qui
a motivé cette étude.3.2. Identification des
mélanges gaussiens
paranalyse
de la convexité des fonc- tions de densitéOn s’intéresse maintenant
à
des observations dont la distributionpeut
être décrite par unmélange gaussien
de fonction de densité :où
p(X 1 Ck),
k =1, 2, ... ,
k sont les fonctions de densité de chacune des classesen
présence
et oùP(C,,) ,
k =1, 2, ... ,
k sont lesprobabilités
apriori
de cescomposantes.
Il est
d’usage,
en classificationautomatique,
de supposerqu’il
existe unecorrespondance bijective
entre les modes def(X)
et les classes enprésence [7].
Qui plus
est, nous verrons sur desexemples
que lesdegrés
de chevauchement entrecomposantes
couramment rencontrés enpratique permettent d’assimiler,
avec une très bonne
approximation,
les domaines de concavité desmélanges
àceux de leurs
composantes.
Le test de convexitépermet
de déterminer les do- maines de concavité d’unmélange
àpartir
des observations. En suivant le schéma directeurprésenté
auparagraphe précédent
pour chacune descomposantes
ainsimise en
évidence,
il devient alorspossible
d’obtenir des valeursapprochées
duvecteur moyenne et de la matrice de covariance de
chaque
classe. Les seuls para- mètres restant à déterminer pour identifiercomplètement
lesmélanges
sont lesprobabilités
apriori
des différentes classes. Il est aisé de montrerqu’elles
sontsensiblement
proportionnelles
au nombre d’observations situées à l’intérieur des domaines de concavité associés aux classes mises en évidence.L’identification d’un
mélange
d’un nombre inconnu decomposantes peut
donc êtreentreprise
selon le schéma directeur suivant[31 ] :
a)
Déterminerpoint
parpoint
et àpartir
des observationsdisponibles
lesdomaines de concavité de la fonction de densité
sous-jacente.
b)
Modéliser ces domaines par deshyperellipsoïdes.
c)
Apartir
descaractéristiques géométriques
de ceshyperellipsoïdes,
déter-miner des valeurs
approchées
des vecteurs moyenne et matrices de covariance de chacune des classes mises en évidence.d)
Dénombrer le nombre d’observations situées à l’intérieur dechaque
domaine de concavité pour calculer les
probabilités
apriori
des classes consti-tuant le
mélange.
4. IDENTIFICATION DES MELANGES GAUSSIENS PAR ANALYSE MONO- VARIABLE
Le test de convexité
qui permet
de connaître le sens de la convexité des fonctions de densité multivariables repose sur unetechnique
d’estimation nonparamètrique qui
nécessite un nombre d’observationsdisponibles
d’autantplus important
que la dimension des données est élevée. Pour les échantillonstrop petits
pourpermettre
l’utilisation de ce test, on utilise une variante de la méthodeprécédente qui
repose surl’analyse
de la convexité des densitésmarginales
desfonctions de densité multivariables dont l’estimation ne pose pas de
problème,
même avec des échantillons de taille très réduite
[32].
Sous
l’hypothèse d’indépendance
desvariables,
il est aisé de montrer que les densitésmarginales
d’une fonction normaleprésentent
dessegments
concavesqui
sont lesprojections
du domaine de concavité sur les axes.L’analyse
de laconvexité des densités
marginales
d’unmélange gaussien
estimées àpartir
des obser-vations
indiquent
donc lesprojections
sur les axes des domaines de concavité descomposantes.
Leproduit
euclidien de cessegments permet
ensuite de reconstituer des domaineshyperparallélépipédiques
dontcertains, appelés
"domaines caracté-ristiques",
définissent lescomposantes
dumélange. D’autres,
artificiellement introduits par leproduit euclidien,
sont facilementrejetés
du faitqu’ils
ne contien-nent que très peu d’observations
(cf. Fig. 4).
Les centres des domaines
caractéristiques
retenusindiquent
les vecteursmoyenne des
composantes
mises enévidence ;
leurs dimensions dans les différentes directionsindiquent
les élémentsdiagonaux
des matrices de covariance. CommeFigure 4. - Détermination des "domaines
caractéristiques"
d’unmélange
gaussien à partirdes segments concaves de ses fonctions de densité marginales.
précédemment,
le dénombrement des observations situées à l’intérieur de chacun de ces domainespermet
de calculer lesprobabilités
apriori
des différentes classes.Le schéma directeur de cette méthode d’identification des
mélanges
est alors lesuivant
[33] :
a)
Estimer les densitésmarginales
de la distribution des observationsdispo-
nibles et en déterminer les
segments
concaves.b)
Déterminer les domainescaractéristiques
descomposantes
par leproduit
euclidien de ces
segments
concaves.c)
Apartir
descaractéristiques géométriques
de cesdomaines,
déterminerles valeurs des vecteurs moyenne et des matrices de covariance des classes mises
en évidence.
d)
Dénombrer le nombre d’observations situées à l’intérieur dechaque
domaine
caractéristique
pour calculer lesprobabilités
apriori
des classes consti- tuant lemélange.
5. OPTIMISATION DU PROCESSUS DE CLASSIFICATION
A ce
stade,
nousdisposons
de deux méthodesd’analyse
desmélanges
gaus-siens,
l’une destinée à degrands
échantillons de taille relativementréduite,
l’autremieux
adaptée
auxpetits échantillons,
même de dimension élevée.L’identification du
mélange
dont sontsupposées
extraites les observations à classerpermet d’envisager
une classificationoptimale puisque
l’ondispose
devaleurs
approchées
de tous lesparamètres
nécessaires au calcul des fonctions de décisionclassiques :
En affectant une observation X à la classe
Ck
telle que :on est assuré de minimiser le
risque
d’erreur en ce sensqu’aucune
autreprocédure
ne
peut
conduire à un taux d’erreurplus petit.
La différence entre le taux d’erreur minimumthéorique
et le taux d’erreur effectifdépend
dudegré d’approximation
des valeurs des
paramètres
desmélanges
obtenues par les méthodesproposées [34].
Nous
présentons
maintenantquelques exemples
de classification sur des donnéesgénérées
artificiellementqui permettent
dejuger
de laqualité
de ces ap-proximations.
Nous commencerons par troisexemples
bi-dimensionnelsqui peuvent
être aisément visualisés.Exemple
1 : Les données dupremier exemple, représentées figure Sa,
sont issues d’unmélange
de trois classessphériques équiprobables
dont lesparamètres
sontconsignés
dans le tableau la. Les deux méthodesd’analyse
desmélanges
ont étéappliquées
à ces données et les valeursapprochées
desparamètres
des classes ainsiobtenues
figurent également
dans ce tableau. Pour les deux méthodesexposées ci-dessus,
le taux d’erreur de la classification basée sur ces valeursapprochées
restetrès
proche
du taux d’erreurthéorique optimal.
a) exemple 1,
b) exemple 2,
c) exemple 3.
Figure 5. -
Représentation
graphique des échantillons bidimensionnels utilisés pour illustrer laprocédure
d’optimisation.Exemple
2 : Le secondexemple, représenté figure
Sb et dont lescaractéristiques
sont
indiquées
au tableau 1 b est destiné à mettre en évidence lespossibilités
d’ana-lyse
demélanges
de classes nonsphériques,
avec desprobabilités
apriori
diffé-rentes. Ici encore, les valeurs
approchées
desparamètres
obtenues par les deux méthodesd’analyse
desmélanges permettent
de classer les données avec des taux d’erreur trèsproches
du tauxthéorique
minimum. La différence entre le taux d’erreur effectif et le tauxoptimal correspond
à seulement 3 observations mal classées sur un total de 300 pour la méthoded’analyse
multivariable et à 5 obser- vations pour la méthoded’analyse
monovariable.Exemple
3: Le troisièmeexemple, représenté figure 5c,
est destiné à montrer lespossibilités d’analyse
desmélanges
decomposantes ayant
des matrices de cova-riance non
diagonales.
La méthoded’analyse
monovariable étant réservée aux casoù les variables sont
indépendantes,
il ne sera traité que par la méthoded’analyse
multivariable. Les
paramètres
dumélange
et leurs valeursapprochées
ainsi obtenuessont donnés dans le tableau 1 c. Encore une
fois,
le taux d’erreur de la classification reste trèsproche
de la valeuroptimale.
Pour des données de dimension
plus élevée,
lecomportement
des deux pro- cédures reste très semblable à celui décrit dans cesexemples
bi-dimensionnels.Le tableau 2
indique quelques
résultats pour des données multidimensionnellesavec des
degrés
de chevauchement entre classes variables. Ces résultats sont encoretrès
satisfaisants,
mais cequ’il
convient surtout de remarquer, c’est laprogression quasi
linéaire dutemps
d’exécution desalgorithmes
avec la dimension des données.Cette
propriété
est bien entendu le fruit du nouvelalgorithme
d’estimation nonparamètrique
mentionné section 2.M Q)
1:4
e
i
0
Il
importe
de noter que la seule intervention del’analyste
consiste àajuster
le pas de discrétisation
qui
définit la densité du réseau depoints
où est testée laconvexité des fonctions de densité mono ou multivariables.
L’analyse
des varia-tions du nombre de modes mis en évidence en fonction du pas de discrétisation
permet d’ajuster
ce dernier de manièreheuristique.
On détermine pour cela laplus grande plage
de variation de ce pas pourlaquelle
le nombre de modes détectés reste constant. En se réferant auconcept
de "stabilité du nombre de classes détec- tées"[35],
le pas est finalementajusté
à la valeurcorrespondant
au milieu de cetteplage
de variation.Une seconde
précision
doitégalement
êtreapportée,
concernant la miseen oeuvre de la méthode
d’analyse
monovariable. Lepartage
del’espace
enrégions
de décision relatives à chacune des classes mises en évidence par cette méthode
peut
être amélioré par uneprocédure d’analyse
locale itérative faisant suite à la pro- cédured’analyse globale
décrite dans la section 4. Cetteanalyse
locale est unetransposition
directe del’analyse globale
aux observations situées danschaque région
de décision obtenue à l’itérationprécédente.
Engénéral,
cetteprocédure permet
de mettre en évidence des classesqui
étaientpassées inaperçues
lors del’analyse globale
et améliore sensiblement la détermination des vecteurs moyenne et matrices de covariance des différentes classes mises en évidence[36].
6. RECHERCHE DE GROUPEMENTS
Par le
jeu
des nombreuxparamètres qui
caractérisent les fonctions de densiténormales,
le modèlegaussien permet
de modéliser des distributions très variées.Mais il se
présente
des casoù, malgré
sasouplesse,
l’utilisation de ce modèlerisque d’imposer
une structure aux donnéesplutôt
que d’aider à découvrir leurorganisa-
tion véritable.
Une
approche classique
duproblème
de recherche degroupements
dans un échantillon d’observations consiste à mettre en évidence les modes de la fonction de densitésous-jacente,
une classe étant associée àchaque
mode[7].
Traditionnelle- ment, la détection des modes d’une distribution faitappel
à destechniques
detype
"gradient",
avec tous les inconvénients que celacomporte.
En assimilant les modesaux domaines concaves de la fonction de densité
sous-jacente plutôt qu’à
ses som-mets
locaux,
onpeut
les détectergrâce
au test deconvexité,
mono- ou multi-variable. Les observations situées à l’intérieur de
chaque
domaine où la fonction de densité est concave constituent le noyau de la classe ainsi détectée. Leproblème
de la recherche des
groupements
se résoud alors en affectant les observations restantes à leurplus proche
noyau[37].
Pour illustrer les
possiblités
de détection des modes et de recherche desgroupements
paranalyse
de la convexité des densités deprobabilité,
nouspré-
sentons deux
exemples
bi-dimensionnels constitués de classes aisément identi- fiables par examen visuel mais difficilement modélisables(cf. Fig. 6).
Dans les deux cas, lesgroupements
obtenusconcordent,
àquelques exceptions près,
avec lesconclusions d’une
inspection
visuelle des données.Notons que
l’analyse
de la convexité des densitésmarginales permet égale-
ment de détecter les modes
lorsque
le nombre d’observationsdisponibles
n’est passuffisant pour
appliquer
le test de convexité multivariable. La mise en oeuvre d’uneanalyse
locale itérative à la suite del’analyse globale
améliore sensiblement lesperformances
de la méthode[38].
Figure 6. -
Représentation
graphique des échantillons utilisés pour illustrer laprocédure
de recherche des groupements.7. CONCLUSION
Dans cet article de
synthèse,
nous avons montré comment l’utilisation duconcept
de convexité fournit un cadregénéral
pour aborderl’aspect statistique
dela classification
automatique.
La mêmeapproche mathématique permet
de résoudre efficacement desproblèmes d’analyse
demélanges
aussi bien que desproblèmes
dedétection des modes des fonctions de densité de
probabilité.
Servant de base aux
procédures
de classificationprésentées,
nous avonsproposé
unetechnique nonparamétrique qui permet,
àpartir
desobservations,
de déterminer localement le sens de la convexité de la fonction de densité sous-
jacente. L’opération d’intégration
de cette fonction sur des domaines d’observationqui
est à la base de cetteapproche,
assure unegrande
robustesse auxopérateurs
mis en
jeu.
Dans le cas trèsgénéral
oùl’analyste
nedispose
d’aucune autre informa-tion que celle
qui peut
être extraite de l’échantillonqui
lui estsoumis,
cettetechnique
fournit unedescription
succinte et concise de la distribution des obser- vations en termes de convexité.Sans aucune
hypothèse restrictive, l’analyse
de la convexité des fonctions de densité multivariablespermet
de mettre en évidence lescomposantes
d’unmélange gaussien
et dedéterminer,
pour chacuned’elles,
des valeursapprochées
du vecteur moyenne, de la matrice de covariance et de la
probabilité
apriori.
Laconstruction de fonctions de décision sur la base de ces valeurs
approchées permet
ensuited’optimiser
le processus de classification.L’utilisation de
techniques
nonparamétriques
pourl’analyse
de la convexité des fonctions de densité aposé
deuxproblèmes majeurs,
d’ailleurs bien connusdes utilisateurs. Le
premier
concerne lestemps
de calculsprohibitifs
nécessaires à la mise en oeuvre de cestechniques
dès que la dimension des donnéesdépasse quelques
unités. Nous avons été conduits à proposer unalgorithme
d’estimationrapide qui,
par delà sonapplication
immédiate dans le cadre de cetteétude, peut
contribuer à redonner un nouvel intérêt à cestechniques
d’estimation nonpara-métriques.
Le second
problème
rencontré est lié à ladégradation
desperformances
del’estimateur
lorsque
la taille de l’échantillondisponible
vient à diminuer. Nousavons ainsi été amenés à proposer des variantes de la méthode
générale,
en subs-tituant
l’analyse
des densitésmarginales
deprobabilité
à celle des fonctions de densité multivariables elles-mêmes.Afin de
guider
l’utilisateurpotentiel,
lafigure
7indique
la méthode laplus appropriée
pour traiter unproblème
en fonction deshypothèses acceptables,
dunombre d’observations
disponibles
q et de la taille n de l’échantillon.Le
concept
de convexitéapporte
donc un nouvel outil bienadapté
auxproblèmes
de classificationautomatique, particulièrement lorsque
l’ondispose
detrès peu d’information a
priori
sur la structure des données àanalyser,
la seuleinformation
disponible
étant cellequi peut
être extraite de l’ensemble des obser- vations. Dans le cadre unificateur del’analyse
de la convexité des fonctions dedensité, l’analyste dispose
d’unepanoplie
de méthodesqui répondent
auxexigences
les
plus
strictes desproblèmes
de classification nonsupervisée.
Ilimportait
que ces diverses méthodes soientprésentées
simultanément en un seul article desynthèse.
Figure 7. - Choix d’une méthode de classification en fonction des
hypothèses
d’application et des conditions d’utilisation. (La valeur limite du rapportq/n
qui conditionne l’utilisation de l’analyse multivariable n’est donnéequ’à
titreindicatif car elle
dépend
essentiellement de la structure des données).REMERCIEMENTS
Les travaux
présentés
dans cet article constituent unepartie
d’une thèse d’état soutenue à l’Université de Lille 1 sous le titre"Optimisation
du processus de classificationautomatique
paranalyse
de la convexité des fonctions de densité deprobabilité". Que
le Professeur P.VIDAL, qui
adirigé
cettethèse,
trouve icil’expression
de nosplus
sincères remerciements pour son aide attentive et efficace.Nous sommes
également
reconnaissants envers le Professeur M. NAJIMqui
agénéreusement
mis les moyens matériels de son Laboratoire à notredisposi-
tion.
REFERENCES
[1]
G.H. BALL et D.J. HALL.(1967). -
Aclustering technique
forsummarizing
multivariate
data,
BehavorialSc., Vol.12,
p. 153-155.[2]
E. DIDAY(1971). -
Une nouvelle méthode en classificationautomatique
etreconnaissance des formes : la méthode des nuées
dynamiques,
Revue de Stat.Appl.
Vol.19, n° 2,
p. 20-33.[3]
K. FUKUNAGA et W.L.G. KOONTZ(1970). -
A criterion and analgorithm
for
grouping data, IEEE
Trans. onComputers, Vol.C-19,
p. 917-923.[4]
G.N. LANCE et W.T. WILLIAMS(1967). -
Ageneral theory
ofclassificatory sorting strategies
1 - Hierarchicalsystems, Computer Jour.,
Vol.9,
p. 973-980.[5]
J. MACQUEEN (1967). -
Some methods for classification andanalysis
ofmultivariate
observations,
Proc. 5thBerkeley Symp.
on Math. Stat. andProb.,
p. 281-297.
[6]
C.T. ZAHN(1971). - Graph
theoretical methods fordetecting
anddescribing gestalt
clusters. IEEE Trans. onComputers, Vol.C-20,
p. 68-86.[7]
J.L. FLEISS et J. ZUBIN(1969). -
On the method andtheory
ofclustering,
Multivariate Behavioral
Research,
p. 235-250.[8]
I. GITMAN(1973). -
Analgorithm
fornonsupervised pattern classification,
IEEE Trans.on
Syst.,
Man &Cyb.,
Vol.SMC-3,
p. 66-74.[9] I.
GITMAN et M.D LEVINE(1970). -
Analgorithm
fordetecting
unimodalfuzy
sets and itsapplication
as aclustering technique,
IEEE Trans. onComputers, Vol.C-19,
p. 583-593.[10]
R. MIZOGUCHI et M. SHIMURA(1976). -
Nonparametric learning
withouta teacher based on mode
estimation,
IEEE Trans. onComputers,Vol. C-25,
p. 1109-1117.
[11]
D. WISHART(1978). - Estimating
the modes of a multivariatesample density,
Proc. JointMeeting of
theClassif.
Soc. & British PatternRecognition
Ass. London.
[12]
B.G. BATCHELOR et B.R. WILKINS(1969). -
Methods folocation
of clusters ofpatterns
to initialize alearning machine,
Electronicsletters,Vol. 5, n° 20,
p. 481-483.[13]
K. FUKUNAGA et L.D. HOSTETLER(1975). -
The estimation of thegradient
of adensity
fonction withapplications
inpattern recognition,
IEEETrans.
on Inf. Theory,
Vol.II-21, n° 1,
p. 3 2-40.[14]
J. KITTLER(1976). -
Alocally
sensitive method for clusteranalysis,
PatternRecognition,Vol.
8 p. 23-33.[15]
G.S. SEBESTYEN(1962). -
Patternrecognition by
anadaptive
process ofsample
setconstruction,
IRE Trans. onInfo. Theory,
Vol.II-8,
p. 82-91.[16]
R.L. THORNDIKE(1953). -
Whobelong
in thefamily? Psychometrica, Vol.18,
p. 267-276.[17]
H.P. FRIEDMAN et J. ROBIN(1967) -
On some invariant criteria forgrouping data, J.
Amer. Stat.Ass.,
Vol.62,
p. 1159-1178.[18]
M.A. VOGEL et A.K.C. WONG(1979). -
PFSclustering method,
IEEE Trans. on Pattern Anal. & MachineIntelligence, Vol.PAMI-1, n° 3,
p. 237-245.[19]
U.E. MAKOV et A.F.M. SMITH. - Aquasi-Bayes Unsupervised learning procedure
forpriors.
IEEE Trans.Info. Theory,
Vol.II-23, n° 6,
p. 761-764.[20]
R. MIZOGUCHI et M. SHIMURA(1975). - An approach
tounsupervised learning classification,
IEEE Trans. onComputers,Vol.C-24, n°10, p. 979-983.
[21]
R.F. DALY(1962). -
Theadaptive binary
detectionproblem
on the realline,
Techn.Report 2003-3,
StanfordUniv.,
Calif.[22]
C.G. HILLBORN et D.G. LAINIOTIS(1968). - Optimal unsupervised learning multicategory dependant hypotheses pattern recognition,
IEEETrans.