R EVUE DE STATISTIQUE APPLIQUÉE
J. Y. L AFAYE
Une méthode de discrétisation de variables continues
Revue de statistique appliquée, tome 27, n
o2 (1979), p. 39-53
<http://www.numdam.org/item?id=RSA_1979__27_2_39_0>
© Société française de statistique, 1979, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
39
UNE MÉTHODE DE DISCRÉTISATION
DE VARIABLES CONTINUES
J. Y.
IAFAYE
I.U.T. Département "STATISTIQUES" Kercado B.P. 1104 - 56008 VANNES
RESUME
La question soulevée est celle de la transformation d’un tableau de données initialement
numériques
en un tableau disjonctif complet ou encore en un tableau de notes, relativement àun ensemble de variables
préordinales.
Nous envisageons une telle transformation en préalable à des traitements d’analyse de données de type
métriques
ou combinatoires.Il s’agit donc de trouver une subdivision "optimale" de l’intervalle de variation de la variable
numérique
initiale, et d’identifier cette variable avec un caractère dont les différentes modalités correspondraient aux sous-intervalles ainsi mis en évidence.De façon
générale,
leproblème
se pose en termes deséparation
demélanges
de lois deprobabilité.
Après
une revue bibliographique, nous proposons une méthode originale pour obtenir la subdivision cherchée dans une optique nonparamétrique.
Nous terminons par
l’exposé
d’applications pratiques dans le domaine médical et par des résultats concernant desmélanges
obtenus par simulation.1. INTRODUCTION
Le caractère peu restrictif des contraintes
pesant
sur la forme des matrices de similarités dansl’analyse
classificatoire des données apermis
la définition d’unegrande
variété d’indice de similarité aussi bien entre variablesqu’entre objets.
Cesdifférents indices font référence à divers
types
decodage.
La liberté de choix d’une forme
particulière
de similaritérecquiert
donc lacapacité d’accéder,
àpartir
des donnéesbrutes,
à d’autres sortes dereprésentations.
Nous nous intéressons ici à
l’appauvrissement
d’une structureriche,
variablenumérique
en l’occurence. Bien que la richesse de l’information contenue dans les données brutes soit engénéral
unequalité
àpréserver,
ilpeut
être intéressant deprocéder
néanmoins à une telleopération.
- Ce sera la cas si la
précision
de la valeur réelle observée ne constitue pas àproprement parler
une"information",
et si seul un ordre degrandeur
est effective-ment
signifiant.
- La
discrétisation,
conduisant à uncodage
par des nombres sansdimension, peut
être un moyen de réduirel’hétérogénéité
d’un ensemble de mesures aux unitéstrop
diverses.-
Enfin,
différentes formesd’appréhension
d’un même ensemble de donnéespeuvent apporter
deséclairages
variés et d’unégal
intérêtquant
à la connaissance des échantillons classifiés.L’exploration
de ces différentspoints
de vue nécessitede
pouvoir
passer au mieux d’un mode dereprésentation
à un autre.Revue de Statistique Appliquée,1979, vol. XXVII, n° 2
Mots-clés :
Discrétisation ; segmentation ; mélanges ;
estimation de densité.2. FORMALISATION DU PROBLEME
Etant donné une variable
numérique
"v" à valeurs dans l’intervalle I :[a,
b[
il
s’agit
de trouver une suite finie strictement croissanteLe caractère "c" associé à "v"
possède
ainsi p modalitéset l’on a :
Selon que l’on retient ou non un ordre sur
{Cj}on
accède à unereprésen-
tation de variable
numérique
par une variablepréordinale
ou par un caractère à modalités sans structure.La défmition
complète
de la suite{xj }j=0,p
suppose donc :- le choix de la valeur p
- le choix des valeurs
xj
pour
j
=1 ; (p -1).
Une méthode
qui
a le mérite de lasimplicité
est de choisir"p"
defaçon
arbi-traire, puis d’opérer
une subdivision en p sous-intervallesd’égale amplitude.
Une
façon d’agir plus
élaborée etqui
fait référence à un soucis desauvegarde
d’information est
d’opérer
une subdivision en p intervalles d’effectifségaux (22).
Cependant, analysant
unepopulation hétérogène,
si l’on désire quechaque
sous-intervalle soit en accord avec la distribution
indiquée
par l’échantillon etqu’il
soit éventuellement
possible d’interpréter
chacune des modalités des caractères résultants commecorrespondant
à unesous-population homogène,
leproblème
sepose naturellement en termes de
séparation
demélange
de lois deprobabilité.
Chaque composant
unimodal constitue une entitélogique
que doitrespecter
un
découpage pertinent.
D’une
façon formelle,
leproblème
seprésente
comme suit :Etant donné une variable aléatoire
"X",
on considère un échantillon de cette variable comme résultat detirages
successifs dans différentespopulations
homo-gènes {Ri}
i =1 ;
kA
chaque population Ri correspond
une distribution unimodale"~i"
de lavariable observée
"X",
ainsiqu’un
nombre"pi" compris
entre 0 et1,
caractéris-tique
de lafréquence
relative aveclaquelle
letirage
effectué s’adresse à lapopula-
tion
i.
C’est la distribution résultante "f ’
qu’il s’agit
dedécomposer.
f
s’exprime
comme une combinaison linéaire convexe de’{Ji’
i =1 ;
k.La résolution
complète
duproblème
consiste à :41
- évaluer k
- préciser
lemodèle,
c’est-à-dire la nature des différents~i i
=1, k
- estimer les
paramètres
de chacun descomposants.
-
préciser
lesystème
despoids pi
i =1,
k.- déduire de la connaissance des différents
composants
une subdivision lesrespectant
"au mieux" suivant un critèrequ’il s’agit
depréciser.
Une méthode natu-relle
peut
être de choisir une borneXj séparant
les réalisationsprovenant de Rj-1
de celles
provenant
deli (j
=1, p)
la valeur minimisant lerisque
d’affectation erronée d’une observationà Rj-1
ouà Rj.
On peutégalement
chercher àoptimiser
les critères d’inertie par
exemple...
Signalons
que laquestion
de l’existence et de l’unicité d’unesolution,
au pro- blème de ladécomposition
desmélanges
a été traitée defaçon
détaillée par Teicher(1963) puis
Yakowitz etSpragins (1968).
3. DECOMPOSITION DE
MELANGES,
DISCRETISATION - APERCU DES DIVERSES METHODESa)
Méthodes d’estimationclassique
Nous dirons peu de mots de ces méthodes désormais
classiques qui
ontconstitué la toute
première approche
rationnelle de laquestion. Que
ce soit laméthode des moments élaborée par Pearson
(1894-1915)
limitée àl’origine
au casde distribution
gaussiennes puis
étendue à un casplus général
par Blischke(1962),
ou encore des méthodes utilisant les estimations du maximum de vraisemblance
développées
par Rao(1948)
ouDay (1969).
Si les méthodes sont aussi variées que le sont les méthodes d’estimation elles-
mêmes, X2 minimum,
estimateursbayésiens,
etc. il restequ’aucune n’échappe
àune
complexité rapidement
inextricablelorsque
se voitaugmenté
le nombre descomposants.
Ainsi les méthodes liées au maximum de vraisemblance se limitent-elles au
traitement de deux constituants
gaussiens
de même variance.Les éventuelles extensions ne concernent en tout état de cause
qu’un
nombretrès limité de
composants
et n’abordentjamais
le cas multivarié. Elles sont en consé- quence de peu d’intérêtpratique.
b)
Méthodesbayesiennes
avecapprentissage
Ce
type
de méthodes est basé sur desalgorithmes
d’estimationstochastique
des
paramètres
inconnus dumodèle,
les observations étantprises
encompte
une àune. Le critère d’arrêt de
l’algorithme
étant l’obtention d’une certaine stabilité dans les estimations récursives effectuées àchaque
fois.Une telle
optique
a été formalisée àl’origine
en termesd’apprentissage
sansmaître par Patrick et Costello
(1970)
ou encore en termesd’apprentissage
avecmaître par Abramson et Braverman
(1962)
etenfin, plus
récemment comme "learn-ing
with aprobabilistic
teacher" avecAgralawa (1970).
Ces
méthodes,
d’un intérêtthéorique
certainrecquièrent
toutes leshypo-
thèses très
restrictives,
cequi
réduit considérablement leur domained’application.
De
plus,
elles demandent dans leur ensemble des échantillons de tailleimportante.
Revue de Statistique Appliquée, 1979, vol. XXV II , n° 2
Le volume des calculs étant
rapidement
croissant avec le nombre d’estima- tions àeffectuer,
ce genre detechnique
est mieuxadapté
auxproblèmes
où lenombre de
paramètres
inconnus estfaible,
soit que l’on ait une bonne connais-sance à
priori
du modèle.Nous terminerons en
signalant
un inventaire détaillé de cetype
de méthodeet de celui traité au
précédent paramètre
dû àDorofeyuk (1971).
c) Algorithmes optimisant
un critèreLes deux
précédentes
classes de méthodesrépondent
enpremier
lieu ausouci d’estimer les
paramètres
dumodèle,
etpermettent,
à la lumière de ces résul- tatsd’adapter
unerègle
de décisionquant
au choix des bornes de la subdivision cherchée.La classe
d’algorithmes
que nousenvisageons
ici chemine defaçon
inverseau niveau
conceptuel
du moins. Onenvisage
d’abord deprocéder
à l’allocation dechaque
observation à uncomposant particulier (l’allocation pouvant
être remiseen cause lors du déroulement de
l’algorithme).
Une fois le processus d’allocation
terminé,
onprocède
à l’estimation des pa- ramètres.Dans notre
optique
propre, le choix de la subdivisionpeut
êtreenvisagée
dedeux
façons,
selon que l’on se base commeprécédemment
sur la connaissance desparamètres
dumodèle,
soit que l’on utilise directement les résultats concernant laséparation
des constituants.Les critères
optimisés
lors de laprocédure
de réallocationpeuvent
êtrevariés ;
variéségalement
lesalgorithmes optimisant
un même critère.Que
ce soit un critère detype géométrique optimisant
lerapport
de l’iner-tie inter groupes à l’inertie intra groupes telle la méthode de Fischer
(1958)
baséesur la
programmation dymamique.
Cette méthode
classique
donne lieu à d’intéressantesgénéralisations
de lapart
de Vinod(1969)
en termes deprogrammation
linéaire et Le Chevallier(1977) développant
la méthode de Vinod dans uneoptique
nonparamétrique.
Dans le même ordre d’idées
Young
etCorraluppi (1970) proposent
uneprocédure
récursived’optimisation
d’un critère d’information pourséparer
unmélange gaussien
multivarié sansqu’il
soit nécessaire de connaître àpriori
le nombredes constituants.
Enfin,
laséparation peut
être réalisée par unetechnique
de classificationautomatique appliquée
sur un espace unidimensionnel. Dans cecadre,
A. Schroeder(1976)
propose uneapproche
basée sur la méthode des nuéesdynamiques opti-
misant un critère de vraisemblance. Cette
technique
al’avantage
depermettre
ladécomposition
demélanges
nongaussiens,
les"~i"
devantcependant
être dis-tribués suivant des lois de
probabilité
de mêmetypes.
Une méthode itérative d’un genre différent est
proposée
par Benzecri ettraitée par Cazes
(1976). L’algorithme procède
par déconvolutions successives de la densité f résultante par des densités normales centrées.d)
Méthodesgraphiques
La difficulté à vérifier ou à admettre des
hypothèses
souvent trèsrestrictives,
la lourdeur des calculs à mettre en oeuvre, ontpoussé
à lapratique
de méthodesplus
ou moinsempiriques
basées sur desreprésentations graphiques.
43
Dans le cas où les
composants
sont bienséparés
et le nombre d’observationssuffisant,
la seule considération del’histogramme
fournit une estimation correcte du nombre des constituants et de leurs valeurs centrales. L’estimation de la va- riance est difficile.Souvent
l’histogramme
desfréquences
estinadéquat.
La démarche des mé-thodes
graphiques
est de chercher unargument
de décision mieuxadapté.
Dans lecas de
mélanges gaussiens,
onprocède
à des transformations sur fqui
aboutissent à l’observation de fonctionsquadratiques (24)
ou linéaires(3), (5),
de la variable.L’ajustement
deparaboles
ou de droitespermet
de conclurequant
au nombre decomposants
et à la valeur des deuxpremiers
moments de chacun.e)
Tests de bimodalitéLa
plupart
des méthodesprécédemment exposées
nécessitent la connaissance àpriori
du nombre de constituants. Certainespermettent
derépondre plus
oumoins aisément à la
question
du dénombrement des modessignificatifs
correspon- dant à une souspopulation homogène,
paropposition
à ceuxerratiques,
dus àl’échantillonnage.
Certains
procédés spécifiques
ont étédéveloppés
sous la forme de tests debimodalité.
Engelman
etHartigan (1969) proposent
un test basé sur unestatistique
derapport
de vraisemblancequi
a l’inconvénient destipuler
deshypothèses
très res-trictives. La
population
mère est sousl’hypothèse
nullegaussienne (03BC, a)
et, sousl’hypothèse alternative,
unmélange
de deuxsous-populations
elles aussigaussiennes
de moyennes et 03BC2 et de même écart
type
= Q.Des
développements d’applications plus générale
sont fournis parHartigan (1975) qui,
étudie lespropriétés asymptotiques
du testprécédent
dans le cas ou lapopulation
mère est arbitraire.Nous citerons
également
les travaux de Giacomelli(1971).
Et ceux deHartigan (1977)
introduisant la notion de"dip
statistic" liée à la mesure de la densité dans lesalgorithmes
detype "single linkage". Hartigan
fournit à cesujet
une table devaleurs
critiques
de la"dip
statistic" pour différents seuils et différentes tailles d’échantillons.4 - UNE NOUVELLE METHODE D’AIDE A LA DISCRETISATION DES VARIABLES CONTINUES
a)
But etoptique générale
Les méthodes
précédentes
se sont avérées maladaptées
au traitementpréa-
lable d’un fichier médical que nous devions étudier par une séried’analyses
classi- ficatoires(15).
Ceci en raison du coûtqui
ne sejustifiait
pas dans la mesure où ladécomposition
desmélanges
n’était pas le butfinal,
maisuniquement
unepremière étape
del’analyse,
et surtout en raison de la taille très réduite du fichierdisponible.
Ainsi,
avons-nous cherché à mettre aupoint
unetechnique
de discrétisation efficace sur depetits échantillons, présentant
en outre desqualités
desouplesse
derapidité
et nécessitant uneplace
mémoire modeste.Ces buts
peuvent
être atteints dans la mesure où l’onaccepte
de réduire l’ambition de l’estimation de chacun desparamètres
dumélange analysé
à lasimple
Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 2
séparation
des constituants. Ainsidévelopperons-nous
par la suite unalgorithme
dediscrétisation non
paramétrique
dont I.C. LERMAN nous a fourni l’idée dedépart.
b)
Position duproblème
Nous nous proposons de mettre en évidence les minima de la densité "f ’ résultant du
mélange. Ceux-ci,
une fois reconnusindiqueront
simultanément le nombre "k" descomposants
ainsi que les valeurs{xj/j
=0 , k}
des limites dechaque
sous intervallepertinent
dans l’intervalle de variation de la variable mesurée.On
peut objecter
que les minima de f necorrespondent
pasprécisément
avecle
système
de bornesoptimisant
un critèreparticulier :
inertie(10)
ou affectation derisque
d’erreur minimum.En
effet, cependant,
ledécoupage
basé sur les minima de f reste intuitivementjustifiée (24).
En outre, il constitue dans lamajorité
des cas uneapproximation
correcte des limites définies par les critères
ci-dessus ;
enparticulier,
si l’on faitréférence à un modèle où les
dispersions
sontcomparables,
lespondérations
demême ordre et les
dissymétries
non excessives. Ces dernières conditions sont peu restrictives vis-à-vis d’un modèleparamétrique.
Notons pour conclure que si l’on considère un critère de
risque
d’affectation erronnéeminimum,
le choix des minima de f conduit à un nombre de mal classés d’autantplus
réduit que ledécoupage
s’effectue dans une zone de faible densité pour chacun des"~i".
Ceci est d’autantplus
vrai que l’on seplace
dans le casd’échantillons de
petites
tailles.Quoi qu’il
ensoit,
cetteapproximation
est nécessaire si l’on désire éviter la référence à un modèleparamétrique
et les lourds calculs que nécessitent les esti- mationsqui
en découlent.c)
Fenêtre mobileSi dans certains cas,
l’histogramme
desfréquences permet
la localisation des extréma def,
leplus
souvent, il s’avèreinadapté ;
et cela d’autantplus
que nousnous intéressons à de
petits
échantillons.A
l’image
des démarchesadaptées
par BHATTACHARRYA ouTANAKA,
il
s’agit
de fournir unargument
de décisionplus adéquat
que lesimple histogramme.
A
partir
de la suite ordonnée desobservations,
I.C. LERMAN propose, étant donné un réelpositif
"Q"d’imaginer
une "fenêtre" delargeur
"Q" centrée en unpoint "03B8",
on calcule la valeurFQ (0) égale
au nombre de réalisations dans la fenêtre.Se donnant une fonction de densité
"f ’,
nous définissons de cette manièreune famille
d’applications
de R dans N :{FQ/Q E R+}
indicée par le réelpositif
"~".
FQ (03B8)
est la "~-densité" aupoint
03B8 etcorrespond à l’intégrale
de la densité théo-rique
sur lesegment [03B8-~2;03B8 + ~ 2[.
Autrementdit,
si F est uneprimitive
de f :45
De façon analogue,
nous pouvons associer àchaque application FQ
unopé-
rateur
FQ
surl’ensemble F (R , R)
desapplications
réelles d’une variable réelle.où
FQ (f)
est défini en toutpoint
t de R parl’égalité
Nous noterons par la suite et sans
ambiguité
de la mêmefaçon FQ
etF~,
à savoir :"F~".
A toute fonction de densité continue
f,
nous sommes en mesure d’associerune famille de fonctions de ~-densité
{F~ (f)/Q
~R+},
elles aussi continues.D’un
point
de vueexpérimental,
de tout échantillon issu d’unepopulation
distribuée selon la densité
f,
il est immédiatementpossible
de déduire un échan- tillon d’unquelconque
élément de la familleCas
extrêmes, exemples :
Soit
{tj/j
=1 , n}
une suite d’observationssupposée
ordonnée etcroissante,
et
to
une valeurplus petite
quet1.
et
1 er cas : 1
dm
la
représentation
deFQ(t),
t E Rcorrespond
exactement avecl’histogramme
le
plus
fincompatible
avec laprécision
des mesures(fig. 1).
2e
cas : 1> dM
la
représentation
deFI (t) ;
t E R est unimodale et les deuxparties
mono-tones
correspondent
àl’histogramme
desfréquences
cumulées.L’amplitude
desclasses y est définie par la
précision
des mesures(fig. 2).
par
exemple :
soit la suite :
{1.3,3, 3, 4, 5, 7,7,8,10}
Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 2
Entre ces deux
extrêmes,
courbetrès plurimodale pour ~ dm
et unimodalepour > dM ,
les éléments de{FQ , Q ~ R+} passent
par des états intermédiaires.C’est
précisément
l’étude de tels étatsqui permet
la discrétisation par lerepérage
des extréma
significatifs
de f.d)
Caractérisation des extrema de "f’Les extréma d’un élément
particulier {F~ (0) , ()
ER}
sontsujets
à unecaractérisation
analytique
àpartir
de fonctions se déduisant de f par translation.Soit
respectivement fQ/2
etfQ/2
les translatées de f par(Q/2)
et(- Q/2) :
Soit
0394~ l’opérateur
sur S"i(R ; R)
définit comme suitOn montre l’identité
qui
caractérise de deuxfaçons équivalents
les localisations t* des extréma deFQ dQ (f) ’
t* = 0 caractériseégalement,
pour de faibles valeurs de2,
les extréma de f. On déduit donc de cequi précède
quejusqu’à
une certaine valeur limite"~0" majorant
les valeurs"Q’;
àchaque
extremum de fcorrespond
un extremumde
FQ
etréciproquement.
La valeurQo peut
êtreprécisée analytiquement
dès quel’on connaît la densité f
(15).
Les cas intéressants dans notre
optique
de discrétisation sont ceux où laréciproque
estfausse,
c’est-à-dire pour des valeurs "C" excédant"~0".
En
effet,
la considération deFQ
au lieu de f revient àopérer
unlissage
oumieux un
"filtrage"
sur les différents modes def,
ne laissant subsister que lesplus importants,
et absorbant les fluctuations dues aux modes mineurs. Ces notions rela- tives àl’importance
relative des extréma sontprécisées
dans(15).
Plutôt que dereprendre
ici un formalisme assezlourd,
nous nous bornerons à une définition intuitive de"l’amplitude"
d’un minimum ou d’un mode tellequ’elle apparaît
sur la
figure
3.figure 3
Les modes d’abscisses Ml, M2 et le minimum d’abcisse ml ont respectivement pour amplitude
les
quantités
Al, A2, al. Elles correspondentschématiquement
aux longueurs délimitées par la courbe étudiée sur ses tangentes aux points d’abscisses "ml" et "M2".47
Précisément,
soit une densité fprésentant
une suite de modes{Mi/i
=1, h}
d’amplitudes {Ai/i
=1, h}
et une suite de minima{mj/j
= 0h} d’amplitudes {aj/j
=0 , h}.
Le mode de rang k sera absorbé dans lareprésentation FQ
si "Q"excède une valeur
critique 5 k égale
à :Pratiquement, l’absorption
s’effectue souventplus
tôt pour une valeur Q de l’ordre de5 k
= min{Ak ;
a. - 1 ;ak+1}
Les
figures
4 et 5 montrent comments’opère
lefiltrage
des modes mineurs.c) Pratique
de la discrétisationLes
considérations qui précèdent
ont fait référence à des Q-densités{F~/~
ER + 1. Pratiquement,
on se limite à l’observation d’une suite{F~i/i = 1,N}
pour
différentesvaleurs ~1
de la fenêtre(on
suppose~i+1
>Qi.
De même on selimite à l’observation des
F,i
en une suite fixe depoints : {th/h ~ N}.
Finalementon observe donc la suite des
représentations {{F~i (th)/h
EN}/i
=1, N}.
Choix de la suite
{th/h
~N}
Le choix le
plus
naturel est deprendre th
=to
+ a h ou t est une valeurarbitraire inférieure à la
plus petite
réalisation observée dans l’échantillon. "a"est la distance fixe
séparant th
deth+1
et constitue le"pas"
d’avancement de la fenêtre. Il se doit d’être assez réduit pourpermettre
une bonneapproximation
de
FQi
sans excèscependant
pour conserverquelques
lisibilité augraphique.
A titre
d’indication, dm,
2dm,
3dm
sont des valeursexpérimentalement
raisonnables pour a.
Choix de la suite
(~i/i
=1, N}
L’expérience permet
de conseiller N ~ 10 et~1 ~ dM/20
tandis que~N ~ dM /6.
On notera que l’on doit veiller àrespecter
la contrainte a Q. LeRevue de Statistique Appliquée, 1979, vol. XXVII, n° 2
choix a = Q conduit à "oublier" des observations et est en
conséquence
àrejeter ;
à fortiori si l’échantillon est réduit.
Démarche détaillée
1 : Obtenir la suite
{uj/j
=1, n}
des observations ordonnées par valeurs crois- santes.II : en déduire les valeurs
dm
etdM
III : choisir avec les
règles
énoncéesplus
haut une suite croissante{Qi/i
=1, N}
IV : choisir une fois pour toute la valeur a du pas d’avancement de la fenêtre
(03B1~1)
V : choisir pour centre de la
première
fenêtre(to)
la valeur(03BC1 -03B1 2)
VI :
représenter
lasuite des
courbesFQ.
en toutpoint
de{to
+h03B1}h=0,~
oùe =
partie
entière de(dM 03B1)
VII :
déduire
de l’observation de la suite des extrema des différentsFQi
les valeursde la suite
{xj}j=0,k permettant
ledécoupage
cherché.Pratiquement,
l’observation successive des courbesFg.,
montre une évolutiondu
nombre,
de la localisation et del’importance
relative deséxtréma.
- Dans le cas de
composants
bienséparés,
il est aisé de reconnaître la lon- gueur"optimale" ~*i permettant
une nette mise en évidence des constituants.- Dans les cas
plus confus,
il est nécessaire deprocédér
à l’examen simultanéde
plusieurs F Q.
iLorsque
iaugmente,
on observe une accentuation de certains extrema dont la localisation eststable,
unedisparition progressive
ou une constantemigration
desautres. Les extrema les
plus
accentuéscorrespondent
naturellement aux extremasignificatifs
d’unesous-population.
5 - SIMULATION ET APPLICATIONS
a) Décomposition
demélanges
obtenus par simulationDans le but de tester la validité de la méthode
proposée
et d’étudier sa sensi-bilité dans différents contextes, nous avons
procédé
à laséparation
de nombreuxmélanges
obtenus par simulation.Différentes conclusions ressortent de cette
analyse qui
sont détaillées dans(15).
Nous nous limiterons àprésenter
ici unexemple
montrant l’alluregénérale
des courbes
Fg..
L’exemple
choisi est unmélange équipondéré
de trois constituantsgaussiens
fortementimbriqués,
avec n = 150.Si l’on retient comme limites
théoriques
entre deux sous intervalles consé- cutifs lespoints 6; vérifiant ~i(03B81) = ~i+1 (03B8i)
i =1,
2 on obtient03B81=
0.75 et03B82
= 3.20.49
Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 2
Nous choisissons a = 0.2 et
to
= 1.55 et pour{~i}.
la suite{0.6, 0,7, 0.8, 0.9}.
Les résultats sont les suivants :
L’étude du tableau
permet
de confirmer le résultatqui apparaît
clairement d’ailleurs sur lesgraphiques
suivants et enparticulier
pour Q = 0.9. Les valeurs estiméessont 03B81
= 0.65et 02
=3.05
tandis que les estimations des abscisses des modes sont :Ml
= 0.05M2
= 1.45M3
= 3.45.b) Applications
à desmélanges
réelsNous avons été amenés à
analyser
deux fichiers de données médicalesPremier fichier
Dans le but de déterminer des valeurs
critiques
pour différentparamètres
médicaux et différents
degrés pathologiques,
ils’agit
de discrétiser une centaine de variablesnumériques correspondant
à des examensclassiques
enpathologie générale. Chaque
variable est mesurée sur 400 malades décrivant au mieux l’en-semble de la
pathologie classique.
Une discrétisation en classe detype
"trèsfaible",
"faible", "normal", "élevé",
"trèsélevé",
doitpermettre
la mise en oeuvre ulté-rieure d’un
système
dudiagnostic automatique
"A.DM."(14).
Les résultats obtenus s’avèrent satisfaisant pour le médecin et
permettent
de nuancer defaçon
intéressante le schémagénéral
en 5 classes ci-dessus.e Second fichier
Ce second fichier est limité à la
pathologie hépatobiliaire
et de taillebeaucoup plus
modestepuisque
croisant 16paramètres biologiques
et 117 malades.La méthode de la fenêtre mobile
permet d’obtenir,
àpartir
des variables nu-mériques
initiales des caractères ayant de deux àcinq
modalités. Le nombre de modalités semblant d’ailleurscroître,
dans une certaine mesure, avec lapertinence
et le
pouvoir
discriminant duparamètre
considéré.Le
point
leplus important,
dansl’optique
de la validation de la méthode dedécoupage
est le suivant :On observe la presque totale concordance entre les deux classifications obte-
nues sur l’ensemble des variables :
- à
partir
des donnéesnumériques
initiales. L’indice de similarité étant le coefficient de corrélation(fig. 6).
- à
partir
des données discrétisées les variables étant alors des variablespréordinales.
L’indice est celui de la chaîne de programmes de I.C. LERMAN
(17)
et faitappel
à la notion de corrélation entre structurespréordinales (fig. 7).
51
Dans les deux cas,
l’algorithme
utilisé est celui de la vraisemblance du lien.Les seules différences observées concernent des variables très neutres. Par contre, les noyaux
correspondants
auxquatre principaux syndrômes
sont conser-vés.
Cette stabilité doit être
interprétée
comme une preuve que lecodage
par une variablepréordinale
réduit très faiblement l’information contenue dans les données brutes. Ceci montre que ledécoupage
des variables a bienrespecté
la structure dela
population traitée,
et prouve la validité de l’attitude médicalequi
retient enfait,
pour son
diagnostic,
seulement un ordre degrandeur.
6. CONCLUSION
La méthode de la fenêtre mobile si elle n’est pas en soi une
technique
de dé-composition
desmélanges permet
toutefoisd’opérer
defaçon
efficace laséparation
des constituants.
Elle
peut
éventuellement servir depréalable
àl’application
d’une méthode d’estimation desparamètres
d’unmélange
nécessitant la connaissance àpriori
dunombre des
composants.
En outre, elle
possède
lesqualités
recherchéesd’économie,
desouplesse
et d’efficacité dans le cas de
petits
échantillons.Elle
peut
être utilisée sur de trèspetits
ordinateurs etprend
tout son intérêten mode conversationnel.
Une voie de
poursuite
de l’étude serait de tendre à unegénéralisation
au casmultidimensionnel à une
quantification
de l’erreur entre la subdivision obtenue et une subdivision"optimale" théorique.
Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 2
7. BIBLIOGRAPHIE
[1] ABRAMSON N.,
BRAVERMAN D.J.(1962). - "Learning
torecognize patterns
in random environment". I.R.E. Trans.Information Theory -
Vol.IT 8 p. 58-63.
[2]
AGRALAWA A.K.(1970). - "Learning
with aprobabilistic
teacher". I.E.E.E.Trans.
Information Theory 2014
Vol. IT16,
p. 373-379.[3]
BHATTACHARRYA C.G.(1967). -
"Asimple
method of resolution of adistribution into
gaussian components".Biometrics 2014
Vol. 23n° 1, p. 115-135.
[4]
BLISCHKE W.R.(1962). -
"Moment estimators for theparameters
of two binomial distributions". Ann. Math. Stat. Vol.33,
p. 444-454.[5]
CASSIE R.M.(1954). -
"The use ofprobability
paper in theanalysis
of sizefrequency
distributions". Austr. J. Marine Freshwater Res. Vol.5,
p. 253- 522.[6]
CAZES P.(1976). - "Décomposition
d’unhistogramme
encomposantes gaussiennes".
Rev. Stat.Appl.
Vol.XXIV,
p. 63-82.[7]
DAY N.E.(1969). - "Estimating
thecomponents
of normal distributions".Biometrika Vol.
56,
p. 463-474.[8]
DOROFEYUK A.A.(1971). -
"Automatic classificationalgorithms
review".Automation and control Vol.
32, n° 12, p. 1928-1958.
[9]
ENGLEMANL.,
HARTIGAN(1969). - "Percentage points
of a test forclusters". J. Amer. Stat. Ass. Vol.
64, p. 1647-1648.
[10]
FISCHER W.D.(1958). -
"Ongrouping
with maximumhomogeneity".
J. Amer. Stat. Ass. Vol. 53.
[11] GIACOMELLI
F.(1971). - "Subpopulation
of bloodlympthocytes
de-monstrated
by quantitative cytochemistry".
J.Histochemistry
andcyto- chemistry,
Vol. XIXn° 7,
p. 426-433.[12] HARTIGAN
J.A.(1975). - "Clustering Algorithms".
WILEY N.Y.[13] HARTIGAN
J.A.(1977). -
"Distributionproblems
inclustering".
Classi-fication and
clustering -
J. Van Rizin N.Y.[14] KERJEAN
A.M. née SALMON(1978). -
"Tentative d’établissement de 100typologies
d’examensbiologiques.
Contribution à l’établissement dusystème
"A.D.M.". Thèse de Doctorat d’Etat - Univ. de Rennes.[15] LAFAYE
J.Y.(1978). -
"Les différentes formes del’appréhension
des don-nées dans
l’exploration
fonctionnellehépatique.
Discrétisation de variablesnumériques.
Recherches deprofils biologiques
par une méthode de classi- ficationautomatique".
Thèse de Doctorat de3è cycle - Université
de Rennes.[16]
LECHEVALLIER Y.(1974). - "Optimisation
dequelques
critères en classi-fication
automatique
etapplication
à l’étude des modifications desprotéines sériques
enpathologie clinique".
Thèse de Doctorat de3è cycle -
Universitéde Paris VI.
[17]
LERMAN I.C.(1977). -
"Reconnaissance et classification des structures finiesen
analyse
des données". Vol. 1 : Théories et méthodes.Rapport
I.R.I.S.A.n°
70 - Rennes.[18]
MEDGYESSY P.(1961). - "Décomposition
ofsuperpositions
of distribution function".Publishing
house of thehungarian academy
of sciences.Budapest.
53
[19] PATRICK E.A.,
COSTELLO J.P.(1970). -
"Onunsupervised
estimationalgorithms". I.E.E.E.
TransInformation theory -
Vol. IT 16n°
5 - p. 556- 569.[20]
PEARSON K.(1894). -
"Contribution to the mathematicaltheory
of evo- lution". Philos. Trans. Soc.n°
185.[21 ] RAO
C.R.(1948). -
"Utilisation ofmultiple
measurement inproblems
ofbiological
classification". J.Roy.
Stat. Soc. Série B. - Vol.10, n°
2.[22]
ROUXM.,
ROUX G.(1975). - "Programme STEAK,
pour rendrehomogène
un tableau de données
quelconques
et en faire l’A.F.C.". Laboratoire destatistique -
Université de Paris VI.[23] SCHROEDER
A.(1976). - "Analyse
d’unmélange
de distributions de mêmetype".
Rev. Stat.Appl. -
Vol. XXIVn° 1,
p. 53-62.[24]
TANAKA S.(1962). -
"A method ofanalysing
apolymodal frequency
dis-tribution and its
application
to thelength
distribution of thePorgy".
J. Fish.Res. Bd Canada - Vol. XIX
n° 6,
p. 1143-1159.[25] TEICHER
H.(1963). - "Identifiability
of finite mixtures". Ann. Math. Stat.Vol.
XXXIV,
p. 1265-1269.[26]
VINOD H.D.(1969). - "Integer programming
and thetheory
ofgrouping".
J. Amer. Stat. Ass. p. 506-519.
[27] YAKOWITZ S.S.,
SPRAGINS J.D.(1968). -
"On theidentifiability
ofmixtures". Ann. Math. Stat. - Vol. XXXIX
n° 1, p.
209-214.[28]
YOUNGT.Y.,
CORALLUPPI G.(1970). -
"Stochastic estimation of a mixture of normaldensity
functionsusing
an information criterion". I.E.E.E.Trans.
Information Theory -
Vol. ITn° 3,
p. 258-263.Revue de Statistique Appliquée, 1979, vol. XXVII, n° 2