R EVUE DE STATISTIQUE APPLIQUÉE
G ILLES C ELEUX
Y VES L ECHEVALLIER
Méthodes de segmentation non paramétriques
Revue de statistique appliquée, tome 30, n
o4 (1982), p. 39-53
<http://www.numdam.org/item?id=RSA_1982__30_4_39_0>
© Société française de statistique, 1982, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
39
METHODES DE SEGMENTATION NON PARAMETRIQUES
Gilles
CELEUX,
Yves LECHEVALLIERINRIA
1. INTRODUCTION
L’utilisation de méthodes de
segmentation
pour desproblèmes
de discrimina- tion est peurépandue.
Ce manque de succès vient du caractère
simple
de ces méthodes. Eneffet,
elles construisent des fonctions de décision binaires sur les variables
explicatives.
Pourtant,
ellesprésentent
desqualités.
Elles sont
rapides
et surtout très faciles àinterpréter.
Cette facilité d’inter-prétation
estagréable
dans laphase descriptive
del’analyse
discriminante où ils’agit
d’examiner si les variablesexplicatives permettent
de discriminer les classes définies apriori.
Dans la
phase
décisionnelle de ladiscrimination,
la clarté desrègles
de déci-sion rend
possible
ledialogue
homme-machine. Pour cetteraison,
dans le cas où les taux de reconnaissance sontsatisfaisants,
cetype
de méthode nousparaît préférable
à des méthodes donnant des résultatsanalogues
maisplus
difficilesà
interpréter.
Dans cet
article,
nousprésentons
des méthodes desegmentation
non para-métriques qui
sont basées surl’approche bayésienne
de la discrimination.Après,
avoirexposé
la méthode de base dans le cas de deux classes à dis-criminer,
unegénéralisation permettant
de résoudre une discrimination àplus
dedeux classes est ensuite
proposée. Enfin,
estprésentée
une méthodequi peut
être utiliséelorsque
les classes à reconnaître sont assezmélangées.
2. LA METHODE DE BASE
(cas
de 2classes)
Le cadre est celui de la discrimination
bayésienne.
Ondispose
d’un échan- tillon de N individus décrits par p variablesquantitatives. Chaque
individu i estdonc caractérisé par un vecteur de RP. On note
(x 1 , ... , XN)
cet échantillon.Par
ailleurs,
unepartition
en deux classesW
1 etW2
est définie apriori
sur l’échantillon.
Revue de statistique Appliquée, 1982, vol. XXX, n° 4
On pose card
W
1 = n, cardW2 =
N - n = m.On notera 03C01
(resp. lr2)
laprobabilité
apriori
pour un élémentd’appartenir
à la famille
W
1(resp. W2).
On a 03C01 + 1T2 = 1. Onnotera QI (resp. Q2)
le coûtde mauvaise classification d’un élément de
W
1(resp. W2)
dansW2 (resp. W 1 ).
La méthode que nous
présentons
dans ceparagraphe
est due à J. FRIEDMAN[Fri 77].
2.1. Cas d’une seule variable
(p
=1)
Dans ce cas, on note
f 1 (x)
etf2 (x)
les densités deprobabilité
des classesW
1 etW2
etF 1 (x)
etF2 (x)
les fonctions derépartition correspondantes.
Soit xN + 1 un nouvel individu. Le
principe
de la méthode est le suivant :on veut classer xN + 1 dans
W
1 ouW2
àpartir
de l’échantillon x ... , XN en utilisant lepoint
coupure c de la manière suivante :si
XN+1
c , il est affecté dans lapopulation "inférieure", W
1 parexemple,
si XN+1 > c , il est affecté dans la
population "supérieure",
soit
W2 .
Dans ce
cadre,
on veut choisir c de manière à minimiser lerisque
deBayes
R de mauvaise classification de cet individu test. On se restreindra ici au cas où1T 1 QI
1 = 1(2Q2 .
Cettehypothèse
est vérifiée dans le cas courant où faute depouvoir
mieuxfaire,
on introduit des coûts inversementproportionnels
auxprobabilités d’apparition
des classes.La valeur du
risque
deBayes R (z)
de mal classer XN + 1 en utilisant unpoint quelconque
z comme coupure est :On en déduit que sous
l’hypothèse 03C01 ~
1 = 1T2~2 ,
on al’équivalence :
La
population
inférieure et lapopulation supérieure
sont définies ainsi :W est
lapopulation
inférieure si :Sinon, W 1 est
lapopulation supérieure.
Comme on ne connaît pas a
priori
lapopulation
inférieure et lapopulation supérieure,
lepoint qui
minimise lerisque
deBayes
est lepoint
c tel que :La
quantité D (c)
n’est autre que la distance deKolmogorov-Smimov
entreles deux distributions et est une mesure bien connue de la
séparabilité
des 2 fonc-tions de
répartition.
En
pratique, Flet F2
ne sont pas connues et on les estime par les fonctions derépartition empiriques
définies ainsi :avec
formules dans
lesquelles xk
est lek ieme point
de la classeWi (i
=1 , 2)
lespoints
étant
rangés
par ordre croissant.Le
risque
effectif de mauvaise classification résultant de cetteprocédure
est
R (c).
Lerisque
"estimé" de mauvaise classification estOn a les
propositions
suivantes[Sto 54] : Proposition
1 :()
converge enprobabilité
versD (c).
Proposition
2 :D (ê)
converge enprobabilité
versD (c).
Sous l’hypothèse 03C01~1
= 112~2,
laproposition
1implique
que lerisque
"estimé"
R()
converge enprobabilité
vers lerisque
deBayes R(c)
et la propo-sition 2
implique
que lerisque
effectifR (c)
converge enprobabilité
vers lerisque
de
Bayes R(c).
2.2. Extension de la
procédure
àplusieurs
variablesDans le cas de
plusieurs variables,
on effectue lapremière
coupure sur lavariable
qui
fournit laplus grande
distance deKolmogorov-Smimov
entre lesdeux classes a
priori.
Par cette
procédure,
l’échantillon estdécoupé
en deux sous échantillonsportés
par deuxsegments.
Dans lasuite,
on identifierachaque
sous échantillonau
segment qui
leporte.
Pour
chaque segment
ainsiconstruit,
on réitère laprocédure.
Ledécoupage
des
segments
s’arrêtelorsqu’un
test d’arrêt est vérifié. _Plus
précisément, l’algorithme peut
se résumer ainsi : On calcule pour toutes les variables laquantité :
) représentant
la fonction derépar-
tition
empirique
de la classeW
1(resp. W2)
pour la variablej)
et l’on effectue la coupure pour lavariable j*
telle que :La coupure se fait au
point ci..
Si l’un des deux
segments
satisfait au testd’arrêt,
il est affecté à l’une des deux classes(celle qui
estmajoritaire
dans le souséchantillon)
et on obtient ainsiun
segment
terminal.Sinon,
onreprend
laprocédure
àpartir
de ce segment. En par-ticulier,
on recalculeD(cj)
même pour lavariable j
choisie au(x)
pasprécédent(s),
en effet dans le cas où
fl(x) et/ou f2(x)
sontmultimodes,
il sepeut qu’une
seulecoupure ne fournisse pas une bonne discrimination.
2.2.1. Le test d’arrêt
Il reste à définir le test d’arrêt. L’affectation à une des classes est faite sur
la base de l’estimation du
rapport f1(x)/f2(x).
Le cardinal dechaque
classe dans lessegments
doit être assezgrand
pourpermettre
une estimation raisonnable durapport
des densités. Ainsi lepartitionnement
s’arrêterachaque
fois que leparti-
tionnement suivant n’assurera pas des échantillons de taille minimum pour
chaque
classe.
Le choix de la taille t minimale doit être déterminé par l’utilisateur et
dépend
du
problème posé.
t doit croître avec n, maisplus
lentement que n. Eneffet,
Gordon et Ohlsen montrent
[GoOh 78] J
que laprocédure
décrite ici estasympto- tiquement
efficace au sens deBayes
siAutrement
dit, toujours
sous la restriction2,
1 1T 1= ~2
1T2’lorsque
la tailledes deux classes devient
grande,
lerisque
deBayes
de classement d’un nouvel individuapproche,
avec uneprobabilité
arbitrairementproche
de1,
lerisque
deBayes
basé sur uneprocédure
deBayes
construite àpartir
d’une connaissancecomplète
des distributionsF 1 et F2.
Ils’agit
en fait de lagénéralisation
au casmultivariable de la
proposition
2.2.2.2. Affectation de nouveaux individus
Le
partitionnement
par cetteprocédure
conduit à un arbre de décision binaire. Unsegment
àchaque étape
estreprésenté
par un noeud de l’arbre. Le sommet de l’arbre redonne l’échantillon tout entier. Les deux successeurs dechaque
noeud non terminal
représentent
les 2segments
définis parpartitionnement.
Lesnoeuds terminaux
représentent
lessegments
terminaux.La
règle
de classification d’un nouvel individu est doncsimple.
On l’affecteà la classe caractérisant le
segment
danslequel
il tombe. Partant du sommet, l’indi- vidu descend l’arbrejusqu’à
cequ’il
arrive à unsegment
terminal. Si celui-cirepré-
sente une classe
unique,
il est affecté à cette classe. Si lesegment représente
un
mélange
declasses,
il est affecté à la classemajoritaire.
En descendantl’arbre,
la décision d’aller à
gauche
ou à droite estprise
ainsi : sixi* ci
on va au suc- cesseur degauche,
sinon on va au successeur de droite.Ici j *
etCj* représentent
’ la variable et la coupure
correspondantes
à ce noeud2.2.3.
Remarques
La méthode
garantit
la meilleuresegmentation
en deux classes au sens du critère. Mais elle ne passe pas en revue tous les choix deséquences
de coupurespossibles
et donc rien n’assure que lasegmentation
finale soit la meilleure pos- sible au sens durisque
deBayes. Aussi,
l’examen de toutes les suites de coupures n’est pasenvisageable
même pour depetits
échantillons et pour unpetit
nombrede variables.
Dans ce
qui précède,
nous avonssupposé
que03C01~1
= 03C02~2,
cequi garantit
pour la
procédure
lapropriété
d’efficacitéasymptotique
au sens deBayes.
Ceciétant,
le critèrechoisi,
ici la distance deKolmogorov-Smimov
entre les 2 distri-butions,
sejustifie
en dehors des considérations de convergence, par son bon pou- voir deséparation
entre 2 distributions.Si l’on désire conserver la
propriété
de convergence durisque
deBayes
etsi
l’hypothèse 03C01 ~1 = 03C02 ~2 n’apparaît
passatisfaisante,
onpeut
définir le cri- tère àpartir
d’une estimation de03C01, ~1,
19222 .
On doit alors à
chaque
pas del’algorithme
trouver cqui
minimise lerisque
de
Bayes R(z)
=~1
ir 1(1 - F 1 (z» + ~203C02 F2 (z)
et enpratique
on doit consi-dérer
R(z) = 21
11 (1 - 1(z)) + 22 2 F2(z)
où1, 2, 1, 2 représentent
les estimations des valeurs
théoriques.
La modification introduite dansl’algorithme garantit
l’efficacitéasymptotique
au sens durisque
deBayes [GoOh 78].
3. UNE METHODE DANS LE CAS MULTI-CLASSES
Une extension
possible
de cetteprocédure
à desproblèmes
àplus
de 2 classes consiste à les considérer comme une succession deproblèmes
à 2 classes[Fri77].
Si on a K classes
(K
>2)
àdiscriminer,
on construit les K arbres de décisioncorrespondant
àchaque
classe(contre
toutes lesautres).
En
fait,
cetteapproche
n’est pas satisfaisante.D’une
part,
laprocédure
d’affectation de nouveaux individusperd
enrapidité.
D’autre
part,
les décisions offertes par cette méthodepeuvent
être contra- dictoires si l’on considèrechaque
arbre de décisionpris séparément :
Soit par
exemple,
trois classesA, B,
C. Au vu de l’arbre de décision de la classeA,
un individupeut
être affecté à la classe A et au vu de l’arbre de la classeB,
être affecté à la classeB,
etc.Aussi,
nous avonsdéveloppé
une méthodepermettant
lasegmentation
en neconstruisant
qu’un
seul arbre de décision.On retrouve cette
préoccupation
dans[GGM80]. Cependant
les auteursde cet article utilisent une
approche
différente de celle que nousprésentons
ci-dessous. En
particulier l’agrégation
des classes se fait en amont de la construction de l’arbre de décision.3.1. Cas d’une seule variable
Le
problème
est de construire un seul arbre de décision associé à un ensemble de K classes. Nous notonsW1,
...WK
les K classes et03A01,.... 03A0K
lesprobabili-
tés a
priori
associées à ces classes etF 1 , ... FK
leurs fonctions derépartitions
théoriques.
Soit W ={W1,
... ,WK}
alors pourA~R(W)
la fonction deréparti-
tion
théorique
est :avec
Ainsi pour un ensemble A de classes a
priori
lerisque
deBayes
aupoint
zest
égal
à :avec
Généralement on fixe les coûts
QA
etQK
inversementproportionnels
auxprobabilités,
d’où03C0A~A = 03C0-A~A.
On a
Comme on ne connaît pas a
priori
lapopulation
inférieure et lapopulation supérieure
lepoint
cqui
minimise lerisque
deBayes
est :On estime
D (c)
parD (c)
=Sup 1 FA (z) - FA(z)
.Proposition
3 :D
(c)
converge enprobabilité
versD (c)
cequi implique
que lerisque
effectifR()
converge vers lerisque R(c)
sousl’hypothèse
1f AQA -
1fAQA .
Démonstration : il suffit
d’appliquer
lespropositions
1 et 2 aux classes A et A .3.2. Détermination de la classe A
Cette détermination
peut
se faire audépart [GGM80]
ou au fur et à mesurede la construction de l’arbre.
On note A l’ensemble des
partitions
en 2 classes de{W 1 ..., Wk}.
Dansce cas, la classe A choisie est la réunion de classes a
priori qui
rend maximumle critère suivant :
Remarque :
Pour zfixé,
la recherche de la classe A ne nécessite pas l’énumérationcomplète
de tous les caspossibles
d’unregroupement
en deux classes d’un ensemble de k classes apriori,
mais seulement la construction de(k - 1) regroupements
can- didats(cf. [CeLe.80]).
3.3. Extension de la
procédure
àplusieurs
variablesCette extension est
identique
à celle duparagraphe
2.2.Ainsi,
on calculepour toutes les variables la
quantité :
et l’on effectue la coupure pour la
variable j*
tel que :3.4.
Exemple
Pour illustrer cette
méthode,
nousprésenterons
sonapplication
sur les don-nées
classiques
de Fisher[Fis 36]
concernant 3populations
d’Iris : Setosa(Seto),
Versicolor
(Vers), Virginica (Virg).
Ondispose
d’un échantillon de 50 individus pourchaque type
d’Iris.Chaque
Iris est caractérisé parquatre
variables :longueur
du
sépale (SL), largeur
dusépale (SW), longueur
dupétale (PL), largeur
dupétale (PW).
Nous
présentons
tout d’abord les trois arbres de décision obtenus pour laséparation
d’une classe contre les deux autres.Setosa :
Versicolor :
Virginica :
Finalement,
en affectant lespoints
par larègle majoritaire,
on obtient 9individus mal classés : 1 setosa, 4 versicolor et 4
virginica.
L’unique
arbre de décision obtenu par la méthode décrite ci-dessus est le suivant :Cet arbre donne 7 individus mal classés : 1
sétosa,
4versicolor,
2virginica.
De
plus,
il nécessite un nombre moindre decomparaisons
que l’examen de tous les arbres dechaque type.
4. UNE VARIANTE : ARBRES DE DECISION TERNAIRES
L’algorithme
que nous avonsprésenté
vaut par sarapidité
de mise en oeuvreet la facilité
d’interprétation
des résultats.La
principale critique
que l’onpeut
lui faire est son manque de finesse. S’il est très efficace etagréable
pour reconnaître des classes relativement bienséparées,
il est moins
performant
pour reconnaître des classes"proches"
l’une de l’autre.Dans cette
partie,
nousprésentons
une variante dont le but est de fournirune discrimination
plus
fine tout en conservant la facilitéd’interprétation
desrésultats de la méthode
précédente
etqui
resteperformante
aupoint
de vue de larapidité.
4.1.
Principe
de la méthode dans le cas de 2 classesL’idée est la suivante : au lieu de construire des arbres de décision
binaires,
on va construire des arbres de décision à 3
branches,
la branche du milieu étantune branche d’indécision.
Le formalisme de cette variante est tout à fait
analogue
à celui de la méthode de base. Aussi nousl’exposons
en suivant le mêmeplan
queprécédemment.
4.1.1. Cas d’une seule variable
(p
=1)
Les définitions sont les mêmes
qu’au
débutdu §
2. Mais enplus
des coûtsQ1 (resp. ~2)
de mauvaise classification pour un élément deW (resp. W2),
on intro-duit le coût de non
décision Q1 (resp. ~’2) pour
un élément deW1 (resp. W2).
Le
problème
s’énnonce alors ainsi :Au vu de l’échantillon
xi ,
... , xN , on veut classer un individusupplémen-
taire
xN+1
dansW 1
ouW2
en utilisant deuxpoints
coupureCI
etc2 (c1 C2)
de la manière suivante :
si
xN+1
CI’ il est affecté dans lapopulation "inférieure", W1
parexemple.
si xN+1 > C2 , il est affecté dans la
population "supérieure",
soitW2,
si c1
xN+1
c2 , on neprend
pas dedécision,
cequi signifie
que la variable considérée nepermet
pas de décider de l’affectation dexN+1.
Dans ce
cadre,
on veut choisir c1 et c2 de manière à minimiser lerisque
deBayes R(z1, z2 )
de mal classer un individu en utilisant les deuxpoints
coupures z1 et z2(z1 z2).
Là encore, on se
restreindra
au cas 03C01~1
= 03C02~2.
Et demanière
cohérenteavec cette dernière
restriction,
on supposera deplus
que03C01~’1=03C02 Q2 .
Enfin,
onposera ~1 = aQi
avec a1,
cequi
entraîneque Q2 = aQ2 ,
car de03C01 Ql - 03C02 Q2
on tire03C01 a~’1 = 03C02 Q2 - a 1l’ 2 ~’2 Puisque 03C01 ~’1 = 03C02 Q2 .
Notons que
prendre
a 1 est naturel. Il semble raisonnable de convenir que le coût de mal classer un élément deW1
soitplus grand
que le coût de ne pas classer cet individu à l’aide de la variable considérée.Le
risque
deBayes
s’écrit :Dans le cas ou
03C01 ~1
=03C02 ~2 = a03C01~’1
1 =a03C02~’2 ,
il vient :On a alors
l’équivalence :
En
fait,
on ne connaît pas apriori
lapopulation
inférieure. Maisl’algorithme
détermine au début la
population
inférieure de la manière suivante :W1
est la po-pulation
inférieure siDans la
suite,
on supposera donc queW 1
est lapopulation
inférieure.La variante consiste donc à chercher les deux
points
coupures CI et c2qui
rendent maximum le critère :En
pratique,
on rend maximumet donc on estime
par
De manière
analogue
au casbinaire,
on a lespropriétés
de convergence suivantes(voir
démonstrations enannexe) :
Proposition 4
D(1 , ê2)
converge versD(c1 , C2)
enprobabilité.
Proposition 5
D(êl , ê2)
converge enprobabilité
versD(cl , c2).
On en déduit le résultat suivant :
Le
risque
effectif de mauvaise classificationR(1 , ê2)
converge enprobabi-
lité vers le
risque
deBayes R(c1 , C2).
4.1.2. Extension de la méthode à
plusieurs
variablesL’algorithme
est alors le même que dans le cas binaire.A
chaque
pas on sélectionne la variablequi
maximise le critère :et on effectue les deux coupures aux
points ê et ê2
On réitère la
procédure
sur chacun dessegments
ainsi obtenus. Le test d’arrêtest le même que dans le cas binaire.
Le
partitionnement
par cetteprocédure
conduit à un arbre de décision où dechaque
sommetpartent
deux ou trois branches selon les cas. Ilpart
deux branches si au sommet considéré lespoints coupures c
1 etê2
sontconfondus,
trois branches si
ê
1ê2
Ce dernier cas se
produit lorsque
lavariable j
sélectionnée au sommet consi- déré nepermet
pas de discriminer entre les deux classes tous les individus dont la coordonnéeXj
pour cette variable vérifieê
1Xj ê2.
L’introduction de cette branche du "milieu"
permet
ainsi d’éviter une affec-tation peu sûre d’individus à l’une des deux classes définies a
priori.
Lorsque
la branche du milieudisparaît,
c’est-à-direlorsque
pour le sommet considéré et la variable sélectionnéecorrespondante
on aê
1= 2 , le
critère s’écrit :L’unique point
coupure est alors le même que l’on obtient dans le cas binaire.Ainsi,
si les classes apriori
sont bienséparées,
cette variante donnera les mêmes résultats quel’algorithme
de base : dechaque
sommet de l’arbre dedécision,
il nepartira
que deux branches.4.2.
Cas multi-clisses(K
>2)
Il est clair que,
quelle
que soit la manièred’envisager
leproblème
multi-classes,
lesalgorithmes
que nous avonsprésentés
segénéralisent
sanspeine
pour cette variante.4.3. Le choix de a
Dans la variante
proposée,
le nombre a > 1 telque 21
1 =a ~’1
est un para-mètre de
l’algorithme qui
doit être défini par l’utilisateur.Si a est
trop grand,
l’arbre de décision aura de nombreuses branches et seradifficile à
interpréter.
Si a esttrop petit,
l’arbre sera peu différent d’un arbre de décision binaire.Nous pensons que
prendre
a =3,
soitQI
1- 3 Q i
est une assez bonne solu- tion.En
pratique,
l’utilisateur pourra faire varier a au cours de différents essais de manière à obtenir un arbre de décisionqui
le satisfasse enregard
du pro- blèmeposé.
4.4. Considérations
numériques
Dans ce
paragraphe,
nous allons voirqu’il
n’est pas nécessaire de passer en revue tous lescouples (z 1 , z2 )
pouroptimiser
le critèreProposition [CeLe80]:
Pour a >2,
lecouple (c1, c2)
vérifiantest tel que :
et
où c vérifie
Remarque :
fairel’hypothèse
a > 2 est raisonnable car a ne doit pas êtretrop
voisin de 1 et celapermet
d’accélérerl’algorithme.
En
effet,
laproposition permet
desimplifier
la recherche ducouple (c1 , C2) optimal.
On cherche d’abord le
point
c tel que :Cela nous
permet
de déterminer lespopulations
inférieure etsupérieure.
CI
1 est alors obtenu par maximisation deD(ZI ’ c)
et C2 par maximisation deD(c, z2).
Cet
algorithme
nécessite 2Ninvestigations (N
étant la taille del’échantillon) :
N
investigations
pour la recherche de c, Ninvestigations
pour la recherche deCI
et de c2 .
Or s’il avait fallu examiner tous
les couples (c1 , C2)
avecc1
c2 pour op-N 2 + N
timiser le
critère,
cela aurait nécéssité2 investigations.
4.5.
Exemples d’application
Nous
présentons
deuxapplications
sur des données simulées. Cesexemples permettent
de bien illustrer l’intérêt de la méthode.On trouvera des
applications
de cette méthode à desproblèmes
médicauxdans
[CeLe80], [CLL82].
Application
1On a tiré au hasard 100
points
deR2
suivant un loi uniforme sur le cube[0,1]
x[0,1] (classe A)
et 100points
deR2
suivant une loi uniforme sur le cube(classe B)[0.75,1.75] x [- 0.25, 0.75 ].
Les deux classes A et B ainsi définies admettent donc à peu
près
lareprésen-
tation suivante :
L’arbre obtenu est le suivant :
Cet arbre
permet
bien de retrouver la zone de recouvrement des classes A et B.Elle
correspond
à la classe d’indécision 1 suivante :Application
2On a tiré au hasard 100
points
deR2 suivant
une loi normale de vecteur moyenneet
de matrice de variances covariancesf4 0
et 100
points
deR2
10 roi 0 1
suivant une loi normale de vecteur moyenne et de matrice de variances cova-
riances
1 0
02J
2Les
deux classes A et B ainsi définies admettent lesellipses
d’inertie à 95 % :Ordonnée (Ord) 1
Cet arbre donne 4 mal
classés,
tous issus de la classeA,
et 87 non classés situés dans lessegments Il
et12
En
effet,
ledécoupage
dessegments Il
et12
est illusoire : àchaque
nouvellesegmentation tentée,
iln’y
a pasplus
d’un ou deuxpoints plus petits
que la coupure inférieure ouplus grands
que la coupuresupérieure.
On voit
que Il
U12
recouvre à peuprès
la zone de recouvrement des deux classes A et B :Le programme, écrit en FORTRAN, de ces algorithmes est disponible
auprès
des auteursà l’INRIA. Domaine de Voluceau. Rocquencourt. Le Chesnay 78150.
ANNEXE Démonstration de la
Proposition
4~(z1 , z2), (z1 , z2 )
converge enprobabilité
versD (z 1 ’ Z2)
car la fonction derépartition empirique
converge enprobabilité
vers la fonction derépartition.
En
particulier (c1 , C2 )
converge enprobabilité
versO(CI ’ c2).
Onpeut
alors écrire :
Or,
parconstruction, .
pour tout n >
NI ,
D’autrepart :
La
quantité
sous le sup s’écrit encore :On en déduit :
Et
d’après
le théorème deGlyvenko-Cantelli,
pour i =1 , 2 sup|Fi(z)-Fi(z)|
tend
vers 0 presque sûrement donc a fortiori enprobabilité.
On a donc :
Finalement,
on déduit de(1)
et(2)
que :Démonstration de la
Proposition
5On a :
D’après
laproposition précédente D (c 1 , ê2)
converge enprobabilité
versD(c1 , C2)
et(1 , ê2)
converge enprobabilité
versD(1 , 2 ) puisque
la fonction derépartition empirique
converge enprobabilité
vers la fonction derépartition.
On endéduit aisément le résultat annoncé.
BIBLIOGRAPHIE
[CeLe 80]
G.CELEUX,
Y. LECHEVALLIER. - Méthodes de discrimination nonparamétriques asymptotiquement efficaces
au sens deBayes. Rapport
de Recherche
n°
52.INRIA,
1980.[CLL82]
G.CELEUX,
N.LAURO,
Y. LECHEVALLIER. - Contrilenti dell’analizi multidimensionale nello studio di
gruppi cliniqui
apriori
maldéfiniti. Rivista di statistica
applicata (Italie),
1982.[Fis 36]
R.A. FISHER. - The use ofmultiple
measurements in taxinomiaproblems.
Ann.of Enginics,
7.[Fri 77]
J.H. FRIEDMAN. - A recursivepartitionary
decision rule for nonparametric
classification. IEEE Trans.Comput,
pp. 404-408(Avril 1977).
[Go0h 78]
L.GORDON,
R.A. OHLSEN. -Asymptotically
efficient solutionsto the classification
problem. Annals of Statistics.
Vol.6, n° 3,
1978.[GGM 80]
D.E.GUSTAFSON,
S.GELFAND,
S.K. MITTER. 2014A nonparametric
multiclass
partitioning
methodfor classification.
Proceed. of 5th International Conference on PatternRecognition.
[Sto 54]
D.S. STOLLER. - Univariatetwo-population
distributionfree
discri-mination. J. Amer. Statist. Assoc. Vol.