R EVUE DE STATISTIQUE APPLIQUÉE
D ENIS R ANDON
Classification non hiérarchique et optimisation. Une
application : la décomposition d’échantillons non homogènes
Revue de statistique appliquée, tome 22, n
o3 (1974), p. 23-41
<http://www.numdam.org/item?id=RSA_1974__22_3_23_0>
© Société française de statistique, 1974, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
23
CLASSIFICATION NON HIÉRARCHIQUE ET OPTIMISATION.
UNE APPLICATION : LA DÉCOMPOSITION D’ÉCHANTILLONS
NON HOMOGÈNES (1)
Denis RANDON
Laboratoire de Statistique, Université Paul babatier, loulouse
1 - INTRODUCTION
La résolution d’un
problème
de classificationconsidéré comme problème
de
regroupement optimal d’objets
en classespeut
être abordée de deuxfaçons
différentes :
représentation hiérarchique
de l’ensemble Z desobjets
àclasser,
re-rprésentation
fournissant indirectement desclassifications,
soitplus
directement par des méthodes itératives "améliorant" àchaque étape
la classification ob- tenue àl’étape précédente.
Nous considérons seulement ce dernier type de méthodes. Celles-ci supposent que l’on donne un sensprécis
au mot"améliorer",
donc que l’on ait défini une
(ou plusieurs) applications
de l’ensemble des clas- sifications dansR,critères permettant
dejuger
de la valeur d’une classification.Nous verrons
qu’il
faut aussi introduire d’autres conceptsqu’ignore
la classifica- tionhiérarchique.
Il nousparait indispensable
de faire maintenantquelques
re-marques d’ordre
général.
Remarque
1Considérons un échantillon
qui comprendrait,
poursimplifier, uniquement
les observations des classes 1 et 2
(fig. 1).
Si nous n’avons à notredisposition
que les troisobjets
notés z1, Z2" Z3, nousproposerions,
en admettant que le nom- bre de classes soitdeux,
la classificationCI
1={z1 ,
z2}, C2 ={z3}.
Mais si nousdisposons
de l’ensemble des observations des classes 1 et2,
nouspréferons
re-grouper zi et z 3 dans une même
classe,
z2 dans l’autre classe. Une méthode de classification doit donc éviter de considérerséparément
chacune des dissimula- rités D(Zi’ zj).
Elle doit lesconsidérer globalement
et utiliser toute l’informa-tion
disponible.
Remarque
2Il résulte de ce
qui précède qu’il
n’existe sans doute pas unalgorithme
meilleur que les autres dans tous les cas. On ne doit pas traiter de la même
façon
un échantillon depoints
deRN
et un tableau de données constitué designes
+ où -. Il faut donc s’attacher à étudier des méthodes de construc- tiond’algorithmes
et fournir des théorèmes permettant d’établir aisément les conditions de convergence,plutôt
que chercher à construire desalgorithmes généraux
venants’ajouter
à ceuxqui
existentdéjà.
---
(1) Article remis le 18/6/73. Révisé le 28/ 1/74
Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
24
Remarque
3Toute méthode de classification devra s’efforcer de résoudre les difficultés
posées
par l’existence de corrélations entre les diversescomposantes
d’unobjet
zn’ corrélations pouvant varier
beaucoup
d’une classe à l’autre. Plusprosaïque-
ment il faudra s’efforcer de déterminer la "forme" d’une classe. La
figure
1 per- met de se rendre comptequ’il s’agit
d’unproblème
fondamental.Nous avons
proposé
en[ 10] quelques
éléments d’une théorie des méthodes itératives declassification,
théoriequi
tiendrait compte des remarques ci-dessus.Nous nous
bornerons,
dans les pagesqui suivent,
àprésenter
lesprincipaux
résul-tats obtenus en les
appliquant
à la résolution d’unproblème
trèsparticulier :
celui d’observations deRP ,
observations considérées comme réalisations de va-riables aléatoires.
On trouvera un
exposé plus précis,
les démonstrations des théorèmes etquelques exemples supplémentaires
dans le texte cité.II CAS PARTICULIER
Décomposition
d’un échantillon nonhomogène.
II.1 -
Introduction généralités.
Ce
problème déjà ancien,
mais bénéficiant actuellement d’unregain
d’in-térêt,
peut être considéré comme unproblème
de classificationparticulier.
Di-vers
heuristiques
ont étéproposés,
parexemple [ 5 ], [7], [ 11 ]. Tous,
à notre con- naissancesupposant l’égalité
des matrices de covariance. C’est là une restrictionimportante.
Dans le modèle
proposé ci-dessous,
nous introduisons une matrice de cova-riance distincte pour
chaque
classe. Ces matrices servent à définir autant de dis- tances de Mahalanobis et par suite de résoudre leproblème
des corrélations entre composantes des diverses observationsévoqué
dans la remarque 3.IL2 - Notations -
Soient E un ensemble
quelconque.
N, K,
P des ensembles finis d’indicesZ = {zn iz n E E ,
nEN}
l’ensemble des observations(échantillon)
à classer.Nous noterons :
lAI désigne
le cardinal de l’ensemble A.t M
désigne
latransposée
de la matrice.Les diverses classes seront notées
Ck ,
k E K.Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
25 Il.3 - Modèle
statistique -
II. 3a - Généralités.
Nous faisons
l’hypothèse
quechaque
observation zn E Z est une réalisation d’une variable aléatoireparmi IKI
v.a. réelles distinctes. Nous supposons, deplus,
que chacune des v.a.
(notées Xk ,
k EK)
admet une densitéP8k ’ Ok-
E 0 en-semble
donné. 8k
est fixé mais engénéral
inconnu. Notrepropos
est d’une partde déterminer ces
paramètres 8k
et d’autre part de regrouper dans la classeCk ,
celles des observations zn
qui
sont des réalisations d’une même v.a.Xk
Pour
cela,
nous introduisons desvariables .
valant 1 si zn est une réalisa-tion de
Xi
1 valant 0 si tel n’est pas le cas. La densité deprobabilité
de zn peut alors s’écrire :Le
problème
consiste alors à déterminer "au mieux" lesparamètres c’:, 6k , kEK, nEN.
Exprimons
d’abord ceproblème
d’une manièreplus
formelle en introdui-sant un modèle
statistique.
Nous avons choisi un modèle du type maximum devraisemblance,
l’on peutconstruire,
tout aussibien,
un modèle dutype
moindres carrés.IL 3. b - iv10dèle
statistique
et vraisemblance associée.Soit = { Po, 0 EE 0}
une famille de lois deprobabilité
sur un espace pro- babilisable(E, 03B1).
Soit(E, 03B1,R)
la structurestatistique correspondante.
Noussupposons cette structure dominée par une mesure jn,
positive,
a - finie sur(E, a).
Soit PB une détermination de la densité
dP B /djn. Soit f
la fonction devraisemblance,
c’est-à-dire la fonction définie sur E x O parA
partir
de lafamille
nous définissons la familleRk :
qui
est une famille de lois deprobabilité
sur(E, 03B1),
dominée par la mesure J1. La densité dePco,T
s écritLa fonction de vraisemblance
devient,
pour lafamille RK
La structure
statistique
associée à la réalisation de l’échantillon Z est :Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
26
La fonction de vraisemblance de l’échantillon s’écrit :
Le
problème
de la détermination desparamètres
devient :II. 4 - Le
problème d’optimisation ; problème équivalent -
Comme la fonction x ~ 2013
Log (x)
est strictement décroissante pour x >0,
leproblème précédent
estéquivalent
auproblème
Pl.Posons
Problème Pl -
(problème discret)
Trouver
La condition c
~ SKN
peuts’exprimer
par lesystème
de contraintes :Problème P2 -
(problème
continusous-jacent
àPl)
Trouver
Nous démontrons dans
[ 10]
que leproblème P2
admet les mêmes solutionsque le
problème Pl
et que, pour toutoptimum
local deP2 , c n
vaut 0 ou 1. Ilest donc
possible
de résoudre indifféremment leproblème Pl
ou leproblème P2
et d’utiliser dans ce dernier cas les
propriétés
de continuité et de différentiabilité de W.Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
27 IL5 - Cas
particulier :
Décomposition
d’un échantillon en composantesgaussiennes -
I15.a GénéralitésExaminons maintenant le cas
particulier
où E =RP
muni de la tribu de sesboréliens
BRp.
Les v.a.X k
sontsupposées gaussiennes
nondégénérées
dansRP
On pose
1
rk
matrice decovariance, appartient
à l’ensemblefp
des matrices carréesIPlx Ipr,symétriques,
définiespositives
et bornées.II5.b.
Algorithme
de minimisation dans un espaceproduit (M.E.P.)
Il
s’agit
d’unalgorithme
de résolution duproblème
à variables discrètes. Cetype d’algorithme
se rencontre trèsfréquemment
en théorie del’optimisation.
L’idée de base est extrèmement
simple.
Soit à trouver inf. f
(x)
xeD
L’algorithme procède
par itérations successives. Achaque
itération l’onconstruit,
àpartir
d’une valeur x deD,
une nouvellevaleur x’
telle quef(x’) f(x)
en résolvantQ problèmes d’optimisation
dans chacun des ensemblesDq.
*On cherche d’abord
x’1
tel queet ainsi de suite pour chacune des
Q
variables.Cette méthode est utilisée en
programmation mathématique (Méthodes
dedécomposition
deprogrammes),
enanalyse numérique (Résolution
desgrands systèmes
linéaires par la méthode deGauss-Seidel), (Méthodes
de pas fraction-naires).
Revue de Statistique Appliquée, 1974 - vol. XXI N° 3
28
Nous pouvons l’utiliser à la résolution du
problème Pl, puisque
le domainedéfini par les contraintes de
Pl
1 est leproduit
deinti (
+IKI I
ensembles con-vexes.
Considérons une variable
en
ESKI
leminimum c’no
surSK
del’appli-
cation
c’n
H W(c,T)
estobtenu
en posantn 0
1pour
l’indiceko
tel quefn o k 0 soit maximum (*)
0Il faut
également
déterminer les valeursM’k El RP, 0393’k ~ gp, qui
rendentminimum la
quantité.
avec
Ces valeurs sont
uniques.
Ce sont les estimationshabituelles(**)
L’algorithme
M. E. P.- Initialement on se donne
c (0)
arbitraire dansSNK
et l’on débute enb)
ou bien l’on se donneT(o)
arbitraire dansBK
et l’on débute ena).
a)
Pourchaque
valeur de n, calculer les valeursf n k ,
rechercherko
tel queet poser
b)
Calculer les nouvelles valeurs¡J.’k
et1-’ ,
k E K à l’aide de(3)
-
Répéter a)
etb) jusqu’à
ce que c’ = cConvergence
del’algorithme
M.E.P.L’algorithme
converge en un nombre finid’itérations,
bienqu’il
y ait unnombre infini de
couples (c, 1) possibles.
Proposition.
Soit
u ( 1 .) - - ( c ( i) , T(i»)
le résultat obtenu à la fin de la i-ème itération(*) Nous supposons ici que l’indice ko est
unique(*
* *)(**) Nous admettons qu’aucune des classes
Ck
n’est vide (***)(** *) Ces hypothèses sont introduites dans le seul but de simplifier la présentation de l’algo- rithme ;
[ 10]
traite le cas général.Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
29
Nous dirons que
(c(io), T(io)est
un"point
terminal" del’algorithme ; u(io)
n’est pastoujours l’optimum
souhaité. Toutefois les classifications ob- tenues par M.E.P. sontgénéralement
satisfaisantes. La solutionoptimale
dePl
est obtenue
après quelques
essais effectués avec des classifications initiales dis- tinctes. Il estpossible
de modifier cetalgorithme
de nombreusesfaçons,
en ob-tenant
toujours
unalgorithme
convergent.II 5.c -
Algorithme
de résolution deséquations
de vraisemblance - Conditions nécessaires vérifiées par toutoptimum
deP2
*Kuhn et Tucker ont établi
[8] ]
des conditions nécessaires(Elles
seraient suffisantes si la fonction W étaitconvexe)
pourqu’un point
soit un minimumsur un domaine D d’une fonction continument différentiable. Leurs résultats
s’adaptent
immédiatement auproblème P2
sous la forme :Théorème - Pour que c, T soit solution du
problème P2,
il est nécessairequ’il
existe v
= {vn|~N} ERN
tel que(c, t, v)
soit unpoint-selle
duLagrangien :
C’est à dire
qu’il vérifie,
pour tout n EN,
pour tout k E K et pour toutj
E J ensembled’indices,
les relations suivantes :Remarque : Tj désigne
laj-eme
composante de la variable T. EeK
CRJ
Tous calculs
faits,
les relations(4)
se réduisent dans le casparticulier
duproblème P2
à :Revue de Statistique Appliquée, 1974 - vol. XXI I N° 3
30
Ce
système d’équations
seraappelé système
deséquations
de vraisem-blance.
Soit le domaine D =
PK
x(RP x gp)K.
SoitD
l’intérieurtopologique
de D.Les
équations (5)
forment unsystème
non linéaire écrit sous la formeoù u
désigne
lecouple (c,T)
et (03B1 est uneapplication
deD
dansD ; (Le
cas où uappartient
à la frontière de D est sansintérêt).
Nous
disposons
d’une méthode trèssimple
pour trouver une solution de cesystème :
audépart,
on se donne une valeuru(o) ;
oncalcule u(i+1)
=03B1(u(i)).
Décrivons cet
algorithme
de manièreplus
détaillée.Algorithme
de résolution deséquations
de vraisemblance - R.E. V.- Initiatement on se donne des valeurs arbitraires
c n
E]0,1] telles
que03A3k~Kckn = 1,
despoints
Ilk deRP,
des matricesrk symétriques
définiesposi-
tives.
a)
on calculeb)
on calculec)
on calculeon
répète a), b), c) jusqu’à
ce que1 lu’
-ull
e nombrepositif
fixé.Proposition -
Sic(o)
ENK
et si Zengendre RP, l’algorithme
R.E.V. fournit unesuite d’itérés
{u(i) 1
i E N ensemble des entiersnaturels}
telle que :b)
Toutpoint
d’accumulation de la suiteu(i)
est solution deséquations
devraisemblance -
Notons que la suite admet des
points d’accumulation,
car infinie dansPNK
compact.
Il. 5. d Méthode de directions admissibles -
Le
problème P2
est unproblème
de recherched’optimum posé
sous une formefamilière,
mais ilprésente
descaractéristiques particulières.
- Très
grand
nombre de variables.- Critère de forme
complexe, impossibilité
d’utiliser les dérivéessecondes ;
temps machine élevé pourchaque
calcul de la valeur de W- Les contraintes ont une forme extrèmement
simple.
Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
31
En utilisant cette dernière
particularité,
il estpossible d’adapter
des métho-des
classiques
de recherched’optimum
à la résolution deP2 .
Nous avons étudiédans un cadre
beaucoup plus général
uneadaptation
des méthodes de directions admissibles(Zoutendijk - 1960)
et degradient
réduit(Wolfe).
Cette méthode
possède
de bonnespropriétés théoriques.
Les calculs bien.qu’assez lourds,
s’effectuent sans difficultémajeure.
Par contre, elle s’est révélée inférieure en efficacité aux méthodesprécédentes.
Aussi nous bornerons nous à
présenter ici, d’une
manière tout à fait som-maire,
l’idée directricede
cette méthode. Voir[3], [10].
La
procédure
est itérative.Initialement,
l’on se donneu(’o)
=(C(Q), T(o») E D ; (D désignant
l’intérieur du domaine défini par lescontraintes).
Chaque
itération s’effectue en deuxétapes
bien distinctes.a)
Recherches d’une direction h et d’un nombreÀM
> 0 tels que :b)
Recherche dupoint "optimal"
sur[o, 03BBM ]
Le même calcul se
répète
àpartir
de la nouvelle valeurLa direction h est
généralement
construite àpartir
dugradient
de W.On peut
prendre 1
tel que W(u - h) ~
W(u -
Àh) ;
V X Eo, ÀM ]
Nous
disposons
du résultat suivant :Proposition
L’algorithme
fournit une suite d’itérés{u(i) i ~ N}
telle que :a)
ou bien cette suite est stationnaire àpartir
d’un certain rang et sa limite est solution deséquations
de vraisemblance.b)
ou bienW(u(i+1))
W(u(i)),
V i E N et toutpoint
d’accumulation de lasuite { u(i) 1
ilN}est
solution deséquations
de vraisemblance.Il.6 - Conclusion -
Les
algorithmes précédents
restent desheuristiques.
La classification obte-nue n’est pas en
général l’optimum
cherché. Cette classification finaledépend
de la
partition
choisie initialement. Enappliquant l’algorithme
à des valeurs dedépart distinctes,
il estpossible
de découvrirl’optimum cherché,
leplus
souvent
après
unpetit
nombre d’essais.L’algorithme
M.E.P. est leplus simple
et celuiqui
demande le moins deplace
mémoire et de temps de calcul.Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
32
L’algorithme R.E.V.,
trèssimple
luiaussi, exige
toutefois que l’on con- serve en mémoire toutes lesquantités ckn.
Il est bond’appliquer
à la classifica- tion obtenue parR.E.V., l’algorithme
M.E.P.Quant
au dernieralgorithme,
bien quel’exposé complet
de la méthode soitassez
lourd,
lalogique
del’algorithme
obtenue estsimple.
Cetalgorithme
nousparaissait intéressant,
parce que, contrairement auxprécédents,
il modifie si- multanément toutes les variables et non une variableaprès
l’autre. Mais il de- mande de conserverbeaucoup trop
de résultats intermédiaires.Pratiquement
il converge lentement et pose des
problèmes
deprécision numérique.
Nous avons
appliqué
cesalgorithmes
à des échantillons fictifsengendrés
à l’aide de nombrespseudo-aléatoires.
La classification "exacte"était donc connueà l’avance. Nous
pouvions
donc calculer les moyennes et matrices de covariance exactes etempiriques. Dans
tous ces essais la classification débutait avec des ma-trices
rk diagonales
ayant de trèsgrandes
valeurspositives
sur ladiagonale .Les
valeurs initiales de Pk étaient les seules à varier d’un essai à l’autre. Elles étaient tirées au hasard par le programme. Dans les
algorithmes
de résolution deP2
nousavons
pris systématiquement
p Y qckn
n= 2013, IKI Vn,V k.
Nous pensons que l’on obtient de meilleurs résultats en
effectuant,
àpartir
de conditions initiales du type de celles que nous venons de
décrire, quelques
itérations
(5
parexemple)
parl’algorithme R.E.V., puis
enappliquant l’algo-
rithme M.E.P. à la classification ainsi obtenue. En
procédant
de cettefaçon,
laplupart
des classifications obtenuesprésentaient
une valeur du critère W infé-rieure à la valeur calculée à
partir
de la classification exacte, donc étaient tota- lement satisfaisantes bien que nonoptimales.
Ces méthodes permettent de traiter sans difficulté les
grands
tableaux de données.Par contre, il existe une limitation liée à la nature même du modèle. En
effet,
le nombre deparamètres
à estimer devient vite trèsgrand.
D’où la néces- sité de définir lesobjets
par unpetit
nombre de composantes. On peut penserutiliser, préalablement
à touteclassification,
uneanalyse
encomposantes prin- cipales.
Mais ceci peut condûire a des résultats erronés. En effet nous ne savonspas si les axes
principaux
sont les mêmes dans toutes les classes. Si le nombre deparamètres
esttrop grand,
il vaut mieux utiliser un modèle dutype
moindres carrés.Nous n’avons pas abordé l’étude des
propriétés statistiques
des estimations obtenues. S’il est exclu que les valeurs estimées pourckn
convergent, l’onpeut
par contre supposer que les estimations
de 03BCk
etrk
sontasymptoliquemerit
sans biais et convergent presque sûrement.
Le
problème
du meilleur choix du nombre de classes reste entier. Ce choixne peut résulter d’une
propriété d’optimalité. (il
faudraitprendre IKI = INI).
Dans certains cas
particuliers,
on pourra faire un test del’hypothèse
de normali- té de chacune desIKI
classes. En cas derejet,
il convientd’augmenter
le nombrede classes et de recommencer la classification.
Revue de Statistique Appliquée, 1974 - vol. XXI N° 3
33
III - GENERALISATION A D’AUTRES PROBLEMES DE CLASSIFICATION Nous avons établi les résultats
qui précèdent
dans un cadrebeaucoup plus général.
Nous allonsprésenter rapidement
leproblème d’optimisation
associé àun
problème
de classification. Nousindiquerons
ensuitequelques
unes de sespropriétés.
111.1 Les
hypothèses
H - Problème.. Soit 0 un ensemble non vide
(espace
desparamètres
ou de toutes les"formes"
possibles).
. Soient des
applications Dk
données pour tout k EK,
Pratiquement Dk
est une mesure de laproximité
del’objet
z à la forme0).
G estun intervalle.
. Pour tout n,
’II fi désigne
uneapplication
de G dans R. Nous supposons les fonctions’II fi
toutes strictement monotones de même sens.. Nous supposons que le critère mesurant la "valeur" d’une classification peut se mettre sous la forme :
et que W est défini pour c E
PNK, 03B8k ~ 0398
Nous supposons de
plus
que l’ensembleest borné inférieurement et que inf
Wf
EWf
Le
problème d’optimisation -
Le
problème
de la recherche simultanéedes |K|
"formes" de Oreprésen-
tant le mieux l’échantillon Z et du meilleur regroupement
d’objets
en classes peuts’exprimer :
Problème 1 :
Trouver,
sous leshypothèses H,
tels que W
III. 2 -
Exemples -
.
Exemple
1. Recherche de lapartition
à variance intra-classe minimale.Si E =
RP,
si 8 est l’ensemble des moyennes depoints
de l’échantillon Z ou cequi
revient aumême,
si 0 =RP ,
trouver lapartition
rendant minimum la varian-ce
intra-classe,
revient à résoudre leproblème Pl
en prenant pour critèreoù
Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
34
zk désigne
la moyenneempirique
deCk
,Ilx Il
la norme euclidienne usuelle..
Exemple
2 -C’est
l’exemple
étudié ci-dessus.
Exemple
3 -E ensemble
quelconque, 03B8k = Ck
d est un indice de dissimilarité sur E x E
On obtient
W3
en prenant
Dk
Le critère
W3
peut aussi s’écrireIl existe des
algorithmes
permettantthéoriquement
de trouver le maximumabsolu dans ce cas
particulier important.
.
Exemple
4 -E ensemble
quelconque, Ok partie
de Z ayant nkéléments,nk
entierpositif
fixé. Soit D uneapplication
de E x O dans R.On
prend
le critèreIII. 3 - Le
problème
à variables continues - RecouvrementsDans le cas où G est un
intervalle,
le critère W est défini pour c EPNK. (6)
définit alors un recouvrement de Z ou
plus
exactement une famille de "sous- ensembles flous" recouvrant Z. Leproblème
du recouvrementoptimal
peut s’écrire :Problème 2,
Sous les
hypothèses
H, trouver c EPK , T
EO K
tels queRevue de Statistique Appliquée, 1974 - vol. XXII N° 3
35
En fait
l’optimum
ne sera pas un recouvrement à proprementparler,
maisune
partition : Proposition
Sous les
hypothèses H,
siD2 désigne pNK
xOK, 0
étant un espacetopolo- gique,
pour tout minimum localc, T
de Wsur D
il existe c* ESNK
tel queW
(c*, T)
= W(c, T).
Ce résultat subsiste pour tout
point (ê,T) E D2
vérifiant les conditions de Kuhn-Tucker(4),
même si cepoint
n’est pas un minimum local.Dans le cas
général,
il est doncpossible
deplonger
leproblème
1 dans unproblème plus
vaste ayant mêmes solutions et pouvant êtreplus
facile à résou- dre.111.4
Algorithmes généraux
III 4
a) L’algorithme
M. E. P. s’écrit :-
étape
1 - Recherche pourchaque
n E N de l’indiceko
tel que :On pose
-
étape
2 - on détermine les nouvelles valeurs03B8’k
en résolvant les pro- blèmesavec
La démonstration de la convergence de M.E.P. est faite dans le cas
général.
III. 4.
b. )
L’algorithme
de directions admissibles peut segénéraliser
au cas ou W estcontinument différentiable
lorsque
0 est un espace vectoriel de dimension finie.III. 5
Remarque
La formulation
mathématique
donnée à notreproblème
permet de le rap-procher
duproblème
delocalisation-transport. [4].
Soit
D(zn, Ok )
le coût du transport d’une unité d’un certainproduit
de la"source"
0 k
vers la "destination" z,,. Soitcon
laquantité
deproduit envoyé
deek à Zn .
On se propose de déterminer
l’emplacement optimal
desIKI
"sources" et lesquantités ckn
de telle sorte que le coûtglobal
du transport d’un certain pro- duit soit minimum. La formulationmathématique
de ceproblème
seramène,
dans certains casparticuliers
à notreproblème
1. Lesalgorithmes proposés
en[4]
sont des variantes de M.E.P.Revue de Statistique Appliquée, 1974 - vol. XXI ? 3
36 IV - EXEMPLES -
IV. 1 -
Exemple
1 -Il
s’agit
d’un échantillon fictif de 200observations, généré
et classé commeil a été
indiqué
en 11.6.Caractéristiques
dechaque
distribution -Cet échantillon est
représenté
sur lafigure
1. Les observations sont notéesen utilisant un
symbole
différent pourchaque
classePour la classification exacte la valeur du critère W est :
W = 934. si l’on utilise les moyennes et matrices de covariance exactes.
W = 926.5 si l’on utilise les moyennes et matrices de covariance estimées à par- tir des valeurs de l’échantillon..
Nous avons effectué trois classifications de cet échantillon en
procédant
comme il a été
indiqué
en 11.6. Le nombre de classes restait fixé à trois. Les trois essais ont été effectués avec des moyennes initiales différentes àchaque
essai. Ces essais ont donné la même classification finale. Celle ci est
représentée
sur la
figure
2.Remarquons
que la classe1,
nuageallongé
selon lapremière
bisectrice est très bien retrouvé.
Caractéristiques
de laclassification
obtenue -La valeur du critère W est 891.2
Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
37
Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
38 Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
Les résultats
apparaissent
nettement sur lafigure
2. Notons seulement que pour des raisons évidentes les moyennesprésentent
un biais relativementimpor-
tant et que la
comparaison
des matrices de covariance est assez difficile à réali-ser. Il faudrait comparer d’une part les valeurs propres des matrices
respectives,
d’autre part les vecteurs propres. Notons enfin que, même si nous ne sommespas certains que la classification obtenue soit
optimale,
il n’est pas très utile d’en rechercher une meilleure.Il est
commode,
pour comparerglobalement
deuxclassifications,
derepré-
senter les divers
échanges
sous la forme d’un tableau à 2 entrées dans le termegénéral nij désigne
le nombre d’observations appartenant à la classe i dans la pre- mière classification etplacées
dans laclasse j
pour l’autre classification. Dans cequi
suit leslignes correspondent
à la classification exacte.Tableau des
échanges
del’exemple
1 -IV.2 -
Exemple
2 -. Echantillon de 100 observations de
R 5
. 3 variables aléatoires
Les trois nuages d’observations ne sont pas nettement
dissociés ;
Les matri-ces de covariance sont très différente. La
difficulté,
dans cetexemple, provient
du trèsgrand
nombre deparamètres
à estimer simultanément.Caractéristiques
du nuaged’observations;
Valeur du critère W : 939.6
(avec paramètres exacts)
: 911.5
(avec paramètres estimés)
40
Nous avons réalisé
cinq
classifications en utilisant àchaque
fois des valeurs de Ilk différentes.Meilleure classification obtenue : W = 904.5
Moyennes
classe 1 :
(0., -0.3, -1.5, -2.4, 3.3)
classe 2 :
(2.2, 20., 0., 0., 0.1)
classe 3 :(10.1, 10.3, 0.8, 0.1, 0.3)
Tableau des
échanges
V CONCLUSION
Ramener une classification à un
problème d’optimisation
fournit donc unmoyen commode pour construire des
algorithmes
utilisant au mieux lesparticu-
larités duproblème
et étudier la convergence desalgorithmes
ainsiconstruits,
ceci en utilisant toutl’acquis
del’analyse numérique.
Les recherches effectuées sur la minimisation de critères à variables binai-
res nous fournissent la
possibilité
de résoudrecomplètement
certainsproblèmes particuliers (par exemple
III.2 -Exemple 3).
Mais étant donné le nombre élevé de variablesckn,
nous ne pensons pas que ces méthodes soient directement ap-plicables
à de grosproblèmes.
Outre l’introduction d’un
critère,
toute méthode itérative nécessite l’uti- lisation d’un espace 0 espace de"paramètres"
dont le rôle est de "résumer aumieux" l’information obtenue sur les classes
Ck
au cours des itérationsprécé-
dentes. L’introduction de ces
paramètres
augmente aussi lesperformances
del’algorithme ;
il n’estplus
nécessaire de stocker lesquantités
d(zi, Zj).
Mais ellea une
signification plus profonde :
. Il est interdit dans le cas
général -
et ceci pour des raisons fondamentales-d’espérer
retrouver la classification exactepuisque
les variablesckn
ne convergentpas nécessairement.
. Par contre il peut exister un choix de e tel
que Ok
converge vers sa "vraievaleur"
quand
le nombre d’observations croîtindéfiniment ;
Le sens del’expres-
sion ci dessus est à
préciser
en fonction desparticularités
duproblème.
Une foisles
paramètres 03B8k déterminés,
l’utilisateur a lapossibilité
de choisir une classifi-cation, partition
ou recouvrement de Z.Revue de Statistique Appliquée, 1974 - vol. XXII N° 3
41
L’étude de la convergence,
lorsque INI
tend versl’infini,
desparamètres 03B8
reste à faire. Les résultats
classiques
relatifs au maximum de vraisemblance sontinapplicables
ici. Le seul résultat que nous connaissions est le théorème établi par MacQueen [9]
dans le cas d’observations de RP.Des recherches en ce sens devraient permettre de rattacher
plus
étroitement la théorie de la classification à lastatistique mathématique.
Note :
Cette étude a été réalisée au Laboratoire de
Statistique
de l’université Paul Sabatierà
Toulouse.Nous tenons à
exprimer
nos remerciements à Monsieur leprofesseur
Caussinus pour toutes les remarques et
suggestions qu’il
abien
voulufaire,
remarques
qui
nous ontbeaucoup
aidé àpréciser
nos idéespremières.
REFERENCES
[1] BARRA -
"Notions fondamentales destatistique mathématique"
Dunod 2014Paris
(1971)
[2]
BEALE "Euclidea clusteranalysis"
Bulletin ISI43,2
pages 92-94(1969) [3] J.
CEA"Optimisation -
Théorie etalgorithmes"
Dunod - Paris(1971) [4]
L. COOPER - ’TheTransportation-location problem" Operations
Research20-1
p. 94 (1972)
[5]
DAY -"Estimating
the components of a mixture of normal distributions Biometrika 56 p. 463-474(1969)
[6]
DIDAY - "Une nouvelle méthode en classificationautomatique
et recon-naissance des formes : la méthode des nuées
dynamiques"
Rev. Stat.Appli.
XIX-2p.19-23 (1971)
[7]
GREGOR - "Analgorithm
for thedecomposition
of a distribution intogaussian components"
Biometrics 25-1(1969)
[8]
KUHN-TUCKER - "Non linearprogramming"
2dBerkely Symposium (1951)
[9]
MACQUEEN -
"Some methods for classification andanalysis
of multiva- riate observations" 5 thBerkeley Symposium (1965)
[10]
RANDON - "Problèmes de classification et théorie del’optimisation"
Thèse de 3eme
cycle -
Toulouse -(1972)
[11]
SCOTT-SYMONS -"Clustering
methods based on likelihood - ratio criteria" Biometrics 27-2.(1971)
Revue de Statistique Appliquée, 1974 - vol. XXII N° 3