R EVUE DE STATISTIQUE APPLIQUÉE
A. M KHADRI
Discrimination binaire non paramétrique. Méthodes d’estimation du paramètre de lissage
Revue de statistique appliquée, tome 39, n
o3 (1991), p. 37-55
<http://www.numdam.org/item?id=RSA_1991__39_3_37_0>
© Société française de statistique, 1991, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DISCRIMINATION BINAIRE NON PARAMÉTRIQUE MÉTHODES D’ESTIMATION DU PARAMÈTRE
DE LISSAGE
A. MKHADRI
INRIA, Domaine de
Voluceau-Rocquencourt
BP 105, 78153 Le
Chesnay
Cedex-FranceRÉSUMÉ
La méthode des noyaux pour l’estimation non
paramétrique
desprobabilités
multi- nomiales,proposée
par Aitchison & Aitken(1976), dépend
fortement d’unparamètre
delissage
À. Lestechniques
d’estimation de la densité fondées sur lapseudo-vraisemblance
etles fonctions de perte
quadratiques
sontprésentées.
Dans ce cadre, nous montrons comment utiliser lestechniques
derééchantillonnage (validation
croisée etbootstrap)
pour estimerexplicitement
leparamètre
delissage
A. Si l’intérêtprincipal
n’est pas l’estimation de la densité mais la discrimination, d’autres méthodes de choix de À peuvent donner de meilleuresperformances
pour laséparation
des groupes. Les méthodes de ce type ont été considérées récemment par Tutz (1986,1989)
et Hall & Wand (1988). Dans le même cadre, nous propo-sons une méthode fondée sur la minimisation du taux d’erreur,
qui
nous fournitexplicitement
À sans avoir recours à unalgorithme d’optimisation.
Deplus,
on étend aussi latechnique
du
bootstrap
à la méthode de Hall & Wand. Uneapplication pratique
estprésentée
pour illustrer le comportement de cestechniques.
Mots-clés : Estimation de la densité ; discrimination ; méthode des noyaux ;
paramètres
delissage ; rééchantillonnage ;
taux d’erreurABSTRACT
The kernel method for
estimating
the cellprobabilities
of multivariate discrete distribution, due to Aitchison & Aitken (1976),depends crucially
on an unknownsmoothing
parameter À. Most of the methods forchoosing
thesmoothing
parameter are discussed in the context ofdensity
estimation . The choice may be based on apseudo-likelihood
or onloss functions for the estimation of
density.
In thissetting,
we show how to useresampling
methods
(cross-validation
andbootstrap)
toestimating
thesmoothing
parameters. If the main interest is not indensity
estimation but in discrimination, alternative methods forchoosing
À from the discriminationviewpoint
mayyield
betterperformance
forseparation
of groups.Methods of this type have been
proposed
in Tutz (1986,1989)
for discrete kemels and morerecently
in Hall & Wand(1988).
In the samesetting,
we propose a method,estimating À explicitly,
based on minimization of theleaving-one-out
estimator of the error rate, withoutusing
iterative method. Moreover, we extend the method ofbootstrap
to Hall & Wandapproach’s,
in the case of two groups. Anexemple
isgiven
to illustre thepratical
behaviourof all these methods.
Key-words : Density
estimation ; discrimination ; kernel method ;smoothing
parameters ;resampling ; Leaving-one-out
method.Introduction
Aitchison & Aitken
(1976)
ontproposé
une méthode des noyaux, pour l’estimation nonparamétrique
desprobabilités
multinomiales pour des donnéesqualitatives.
Leurestimateur,
construit sur la base d’un échantillond’apprentissage
E =
{x1,
...,xn},
avec xi E{0, 11P,
p étant le nombre de variables et i =1,
..., n,peut
s’écrireoù
K(.|E,03BB)
est une fonctionappelée
noyau et Àe [1/2,1]
unparamètre
delissage.
La fonction noyaupeut prendre plusieurs
formes(Aitken 1983,
Habbema& al. 1978 et
Titterington 1980;
pour les variables ordonnées voir aussiTitterington
& Bowman
1985). Rappelons
ici la forme très utilisée de Aitchison & AitkenTous ces estimateurs sont très sensibles au
paramètre
delissage,
tandis que letype
de la fonction noyau a très peud’importance. Ainsi,
leparamètre
delissage
devra être choisi avec
prudence
ens’appuyant
sur des considérationspratiques.
Lechoix du
paramètre
delissage
peut être basé sur unepseudo-vraisemblance (i. e.
vraisemblance par validation
croisée,
Aitchison & Aitken1976)
ou sur des fonctions deperte
pour l’estimation de la densité. Cetteapproche traditionnelle,
danslaquelle
les
paramètres
sont déterminésséparément
pourchaque
groupe, sans tenircompte
de ladiscrimination,
a étébeaucoup
étudiée parplusieurs
auteurs(Bowman 1980, Titterington 1980,
Hall1981 a,
Brown et Rundell1985,
Hand 1982 et Bowman et al.1984).
Si l’intérêt
principal
n’est pas l’estimation de la densité mais ladiscrimination,
des méthodes alternatives du choix de À àpartir
dupoint
de vue de la discriminationpeuvent
donner de meilleuresperformances
pour laséparation
des groupes. Les méthodes de cetype
ont été utilisées par Van Ness &Simpson (1976)
et Van Ness(1979)
pour les noyaux deParzen,
etplus
récemment par Tutz(1986, 1989)
et Hall& Wand
(1988)
pour les noyaux discrets.Le but de cet article est de discuter certaines de ces méthodes récentes et de montrer comment utiliser des
techniques
derééchantillonnage (validation
croiséeet
bootstrap)
pour estimer le(ou les) paramètre (s)
delissage À (ou al, ..., AK).
Lesméthodes d’estimation fondées sur ces
techniques
nous fournissent desparamètres optimaux,
en un certain sens, delissage
d’une manièreexplicite
et ils sontsimples
à calculer. De
plus,
on montrera comment éviter lesproblèmes numériques
desalgorithmes d’optimisation,
utilisés pouroptimiser
le tauxd’erreur,
pour obtenirexplicitement
À.Nous concentrons notre attention sur les données binaires multivariées.
Après
une revue, au
paragraphe 1,
destechniques
d’estimation de la densité fondées surle maximum de
vraisemblance,
les fonctions deperte quadratique
et d’information deKullback-Leibler,
nous proposons, dans le mêmecadre,
des variantes fondéessur la validation croisée et le
bootstrap.
Onprésente
auparagraphe
2 les résultats des méthodes d’estimation liées directement à la discrimination(plus précisément
celles de Tutz 1986 et Hall & Wand
1988).
Demême,
on propose une nouvelleméthode,
concurrente de celle deTutz, qui
nous fournitexplicitement
leparamètre optimal
delissage
sans avoir recours à unalgorithme d’optimisation.
Deplus,
on étend aussi la méthode de
bootstrap
duparagraphe
1 à la méthode de Hall &Wand.
L’application
de ces différentes méthodes à unexemple
estprésentée
auparagraphe
3.1. Procédures de
lissage
pour l’estimation de la densitéDans cette section
(., À) (ou (.|E, À) représente
l’estimateur de la densité par la méthode des noyaux défini sur l’échantillon Ereprésentant
un seul groupea
priori.
1.1
Propriétés
de la méthode du maximum de vraisemblance Lastratégie
de maximisation de la vraisemblanceavec
K (x 1 z, À) = 03BBp-d(x,z)(1 - 03BB)d(x,z)
où Bp ={0, 1}p
et nx est lafréquence
des observations x dans l’échantillon
E,
conduit à 03BBégal
à 1(cf.
Hand1982).
Maintenant la vraisemblance
par validation croisée,
oupseudo-vraisemblance,
s’écrit
D’après
Bowman(1980),
choisir Aqui
maximise W estéquivalent
à choisir Àqui
maximise
et par
conséquent,
c’est aussiéquivalent
à la minimisation deavec
03B4xi (x)
= 1 si x = xi et 0sinon,
L étant la fonction deperte
Kullback-Leibler définie parL{p, q}
=Exp(x)Log{p(x)/q(x)}.
Proposition
1(Bowman 1980) :
Soit03BBn
la valeur maximisantW,
alors pour n assezgrand, L(f(.), (.|03BBn))
converge enprobabilité
vers0, f(.)
étant ladensité
optimale
inconnue.1.2 Méthode de Hall et
critique
de la validation croiséeHall
(1981a)
montre que la maximisation de Wpeut
amener à un maximum local en 03BB = 1. Pour éviter ceproblème,
il propose de maximiser l’un des critèresou
où w est une fonction de
poids.
Il montre, en utilisant lesdéveloppements
deTaylor
de
f
autour de(1 - À),
queet nvar
où En utilisant ces formules dans la relation
il en
déduit,
parapproximations jusqu’à
l’ordre un, queÀlH
etrespectivement
À2H qui
minimisentJI
etrespectivement J2 (en prenant
comme fonction depoids
w(x)
=f (x)
dansJ2)
sont définis parCes formules
peuvent
êtrerésolues,
soit directement enremplaçant f (x)
parN0(x)/n
etf1(x)
parN1(x)/n (cas pratique;
oùNv (x)
=Card{b ~ E|d(x,b) = v}, v
=0,1),
soit par uneprocédure
itérative(en regardant
cette formule commeune fonction
implicite)
,B() -
1peut
être utilisé comme valeur initiale. Hall a considéré le critèreJi
enpoussant
lesdéveloppements jusqu’à
l’ordre 2 dans lesexpressions (5)
et(6). Ainsi,
il obtientl’approximation
Il note aussi que la convergence de
iH(i = 1, 2)
vers 1 avec une vitessed’ordre
n-1
est une condition nécessaire et suffisante pour que l’estimateur associéf
soitconvergent.
Dans un autre
article,
Hall(1981b)
a considéré une autreforme, plus générale,
pour l’estimateur
(1) qu’on peut
écrire sous forme d’une combinaison linéaire deNv (x) (v
=1, ..., r), où,
pour tout x EBP,
on aavec W =
(wo, ...,03C9r)t
un vecteurpoids
à choisir et 1 r p.Remarque
1 : Le cas, Wv = 1 pour v r et Wj = 0 pourtout j
> r,correspond
à l’estimateur des r
plus proches
voisins de Hills(1967).
Demême,
l’estimateur(1)
revient àprendre
dans(9)
Wv =03BBp{(1 - 03BB)/03BB}v
pour tout v. L’estimateur du modèle multinomialcomplet correspond
au cas où wo = 1 et wv = 0 pour toutv =
1,..., r.
On montre facilement
(cf. Hall 1981b)
que03A3xN0(x)
= n et03A3xN1(x)
= np,avec x E BP.
Théorème 1
(Hall 1981b) :
Le vecteurpoids optimal
03C9opt =(03C90,..., 03C9r)t qui
minimise
JI
estdéfini
par :où Q
et D sont des matrices carrées de taille r + 1 et go un vecteur à(r
+1)
composantes, tels que
(10) peut
s’écrire aussiavec
i
==(1, 0,
...,0)t.
Lesfv(x)
serontremplacés
par leurs estimateurs du maximum de vraisemblanceNv(x)/n qui
mènent àQ
et ainsi à l’estimateuroù I est la matrice identité d’ordre r + 1.
On remarque que la somme de ces estimations ne
peut
pas êtreégale
à 1.Ainsi,
Hall modifie cespoids,
de telle sorte que leur somme soitégale
à1,
enminimisant
JI
sous la contrainte03C9th
=1,
où h =((r0),(r1),...,(rr))t.
Il obtientdans le cas où r = p, en utilisant les
multiplicateurs
deLagrange,
le résultat suivant.Corollaire 1
(Hall 1981b, 1983) :
Le vecteuroptimal i,-jl
minimisantJI
sous lacontrainte
03C9th
=1,
où h =((p0), (P), ..., (P»’,
estoù Â = (1 - n-1)I
+n-1-1D et u
est le vecteur unité à(p
+1)
composantes.Les estimations
peuvent
êtrenégatives.
Ce n’est pas forcément un désavan-tage
dans le cadre de la discrimination vu que lescomparaisons
des scores et doncles classifications
peuvent
être réalisées.On note que les résultats
précédents
nécessitent clairement que la matriceQ
soit inversible. Hall a commenté brièvement le cas où
Q
étaitsingulière.
Il notecependant
que c’est une occurrence trèsimprobable.
1.3 Nouvelles
procédures
Dans cette
section,
nous proposons différentesprocédures
d’estimation ex-plicite
duparamètre
delissage
basées sur lestechniques
derééchantillonnage (va-
lidation croisée et
bootstrap).
1.3.1 Une
procédure
de validation croiséeEn
général,
leparamètre
delissage À qui
minimiseJi
ouJ2 dépend
de ladensité inconnue
f.
Enpratique,
les données doivent être utilisées pour "estimer"À. La validation croisée est un moyen de construction de l’estimateur basé sur les données. Pour
cela,
observons quedonc choisir A pour minimiser le membre de droite est
équivalent
à choisir A pour minimiserJi. Ainsi,
l’estimateurest un estimateur sans biais du membre de droite de
l’expression précédente (cf.
Rudemo
1982,
Bowman 1984 et Hall &Titterington 1987).
On a le résultat suivant.Proposition
2 : La valeuroptimale
de 03BB minimisant(13)
estapproximée
parPreuve : en
effet,
en utilisant undéveloppement
deTaylor
d’ordre deux autour de(1 - 03BB)
dans(1),
on aDonc
Cval(03BB) s’écrit,
ennégligeant
les termes d’ordre(1 - 03BB)2/(n - 1)
dans(z|E - {z}, A), approximativement
D’où,
enposant h
= 1 -À,
et en dérivantCval(h)
parrapport
àh,
on obtientAinsi, quand n
devientgrand, 03BBval
converge vers 1(voir
Mkhadri1990b)
avecune vitesse d’ordre
n-1 qui
est une condition nécessaire et suffisante pour la convergence de la méthode d’estimation(cf.
Hall1981a).
Remarque
2 : La mêmeprocédure peut
êtreappliquée
à l’estimateur desplus proches
voisins d’ordre r défini parl’expression (9).
On en déduit(cf.
Mkhadri1990a)
que lepoids optimal
03C9val minimisantCval(03C9)
est défini par :où N -
03A3xN(x)N(x)t
est une matrice carrée de taille r +1,
etPo -
03A3xN0(x)N*(x)
est un vecteur à r+1composantes, où N(x) = (N0(x),
...,Nr(x))t
et
N*(x) = (N0(x) - 1, .N1(x),...,Nr(x))t.
Cette dernièreexpression
de 03C9val est valableuniquement lorsque
N est inversible.L’avantage
de cetteexpression
parrapport
à celle obtenue en(10)
estqu’elle
nedépend
pas de la densitéoptimale
inconnue
f.
1.3.2 Procédure basée sur le
Bootstrap
C’est une
procédure
dontl’objectif
est similaire à celle basée sur la validation croisée. Elle a été considérée parTaylor (1989),
dans le cascontinu,
en utilisant les noyauxgaussiens.
Il étudie lecomportement
du critère de la moyenne des écartsquadratiques (noté MEQ)
basé sur l’échantillonbootstrap
lissé E* ={x*1,
...,lx* 1
tiré aléatoirement de la loi de
.
On définit1*
sur E* de la même manière quef
sur E.
Ainsi,
il arrive àexprimer
le critèreuniquement
en fonction des données initiales sansrééchantillonnage.
On
adapte
ici cetteprocédure
aux données binaires dans le but d’obtenir leparamètre
delissage optimal dépendant uniquement
des données. Nous montrons que cette méthode fournitexplicitement
unparamètre
delissage optimal.
On suppose que E* est tiré suivant
(.|n,03BB),
et a la même taille n que E.Nous obtenons la
propriété
suivante :Proposition
3 : La valeur deh = (1-03BB)
minimisant, estapproximativement (où .
avec
Preuve : suivant le
développement
deTaylor
d’ordredeux,
on aD’après
la formule(5), l’espérance
deet sa variance se déduit de la même manière de
(6)
parOr,
on sait queAinsi,
l’estimationbootstrap
deSMEQ(h)
s’écritapproximativement
D’où,
en dérivant cetteexpression
parrapport
à h et enégalant
à0,
on en déduitRemarque
3 : Dans un cadreplus général,
etindépendamment
deTaylor,
Hall(1990)
propose une méthode d’utilisation dubootstrap classique.
On montre(cf.
Mkhadri
1990a)
que cetteprocédure
nous fournit unparamètre
delissage qui peut
êtresupérieur
à 1. De même(cf. §3,
tableau1),
laprocédure précédente peut
amener à unparamètre
delissage supérieur
à1 ; auquel
cas onimpose
unparamètre
delissage égal
à 1.2. Méthodes d’estimation liées a la discrimination
Jusqu’à présent,
on s’est intéressé aux méthodes liées directement à l’esti- mation de ladensité,
en utilisant des fonctions deperte appropriées. Or,
si l’intérêtprincipal
n’est pas l’estimation de la densité mais ladiscrimination,
ilpeut
être très utile deprendre
celle-ci en considération. Onprésente
deux méthodesqui
sontliées à la
discrimination;
on montre comment onpeut
trouverexplicitement
leparamètre
delissage pour
lapremière méthode,
fondée sur le tauxd’erreur,
et onpropose une nouvelle
technique
pour estimerexplicitement
leparamètre
de lis-sage pour la deuxième
méthode,
basée sur lebootstrap
comme dans leparagraphe précédent.
2.1 Méthode basée sur le taux d’erreur
Supposons qu’on
aitplusieurs
classesE1,..., EK,
associées à unmélange
dans une
population
degrande taille ;
lesprobabilités
apriori
des classes sont notées03B41,...,03B4K.
Soitp(x|k)
laprobabilité
d’avoir le vecteurxt = (x1,...,xp)
dans laclasse
k; Ek = fX(k) ...,x(k)nk}
est un échantillon aléatoire de nk observations issu de la loip(x|k).
SoitD.= (1,..., K)
larègle
de classificationgénérée
par l’utilisation des estimateurs de densité basés sur les noyaux définis en
(1),
oùx E
Dk signifie
queavec
Posons alors le vecteur
ligne
des scoresdiscriminants au
point
x estSoit po(x) == {03B41p(x|1), ...,03B4Kp(x|K)},
le vecteur des scores discriminantsoptimaux
et soit(x|k)
la valeur de lafréquence
relative de x dans l’échantillonEk.
Alors l’estimateurtL
du taux de bon classement par validation croisée(leaving- one-out) peut
s’écrire(Tutz 1986)
où
Comme Stone
(1977)
leconstatait,
latechnique
de validation croiséepeut
ne pas êtreconvergente.
Mais Tutz montre que la maximisation detL(03BB)
fournit uneprocédure
d’estimationqui
est fortementconvergente.
Théorème 2
(Thtz 1986) :
Alors
i) tL(À*)
converge presque sûrement vers le taux de bon classementoptimal
r(D*).
ii)
Larègle
declassification qui
en résulteest fortement
convergente au sens deBayes (i. e.
le taux de bon classement de larègle
declassification
converge presque sûrement vers le taux de bon classementoptimal.)
Remarques
4 : La convergence résultant du théorèmes’applique
aussi dans lecas
où,
à laplace
des K échantillonsséparés,
on utilise un seul échantillon issu d’unmélange;
mais alors les estimateurs desprobabilités
apriori
seront estiméspar leurs
fréquences
relatives(i.e. k = nk/n, k = 1,..., K).
Demême,
on obtientle vecteur de
paramètres
delissage
trivial1K (1,...,1)t si,
dans laprocédure
de
maximisation,
on autilisé,
à laplace
de la validationcroisée,
la méthode de resubstitution.Les
problèmes pratiques
seposent quand tL(03BB)
doit être maximisé numé-riquement : tL(03BB)
est une fonction discontinue. Pour éviter cesproblèmes,
uneversion lissée de
tL(03BB) peut
être utilisée. Elle a étéproposée
par Glick(1978)
dansle cas de deux
classes, puis généralisée
par Tutz(1985)
au cas de K classes. Tutz(1988)
montre que le théorème 2 reste vrailorsque
l’on utilise cette version lissée detL(03BB).
Nous proposons une nouvelle
approche, plus simple, qui
consiste àimposer
un seul
paramètre
delissage
pour toutes les classes(A
=Ai =
... =AK).
Descomparaisons pratiques
ont en effet montré qued’imposer l’égalité
desparamètres
de
lissage
ne détériorait pas les taux dereconnaissance,
bien au contaire(cf.
Hand1982 p.
162-164,
Tutz1986). D’après (1),
l’estimateur des noyaux pour la classeEk peut
s’écrireoù l’on a
posé 03B3
=(1 - A)/À,
-y E[0,1]
etNjk(X) = Card{b
EEkld(x, b)
=j}j
==1,..., p
et k =1,..., K. Ainsi,
l’estimateur par validation croisée pour la classeEk peut
s’écrirecette
expression
se réduit àoù
avec
Nous allons chercher le
paramètre
delissage qui
minimise l’estimateurT*(03B3)
du taux d’erreur par validationcroisée,
etqui
s’écritPour
simplifier
laprésentation,
nous allons détailler les calculs dans le cas de deux groupesEl
etE2.
On a lapropriété
suivante :Proposition
4 : Leparamètre optimal
delissage
estsoit
=0, soit 03B3
=1, soit 03B3
est de la
forme
avec x E E.
Preuve :
à 03B3 fixé,
il est immédiat de montrer,d’après (17a),
que larègle
de décision par validation croisées’écrit,
pour toutxi(1~i~ n) :
xi est affecté àEl
si etseulement si
C(xi,03B3)
~0,
où l’on aposé
Ainsi,
la classe àlaquelle
xi est affectéchange
en fonction de 03B3, si et seulementsi,
il existe un 03B30 tel queC(xi, 03B30)
= 0 et 03B30 ~[0,1].
Cela donne bien un 03B30 de la forme(17b).
SiC(xi,03B3) garde
unsigne
constant sur[0,1],
l’affectation de xi seraindépendante de -y
et sera, soit celle fournie par le modèle multinomialcomplet (si
’"’1 =
0),
soit sera detype plus proches
voisins(si ’"’1
=1).
Remarque
5 : Laproposition
3 montre quele ’"’1 optimal correspond
à la valeur àlaquelle
la décisionchange
d’affectation et, elle est à rechercherparmi 0,1
etles racines des
équations C(xi, -y)
= 0(1
in).
Enpratique,
le nombrede ces racines est
petit :
ilreprésente
le nombre d’états où le modèle multinomialcomplet
et le modèle detype plus proches
voisins(définis
par lesVk(i) (x))
diffèrent.Ainsi,
contrairement àTutz,
nous sommes en mesure de calculerexplicitement
leparamètre optimal
delissage
par validation croisée. Le cas où le nombre de groupes K estsupérieur
à deux estanalogue (cf.
Mkhadri 1990a ch.5,
Celeux & Mkhadri1991).
2.2 Méthode de Hall & Wand
Dans le cas de deux classes
El
etE2,
larègle
de classification se réduit à : uneobservation
z(z
E{0,1}p)
est affectée à la classeEl
si :03B41f(x|E1) ~ 03B42f(x|E2),
ce
qui
estéquivalent
àf(x|E1)
etf (xIE2)
étantinconnus,
on les estimerespectivement
par(x|E1, 03BB1)
et
(x|E2, 03BB2)
définis par(1).
D’où larègle
de classification : z est affecté àEl
siHall et Wand
(1988) proposent
de minimiser le critèreJ1(h1, h2)
entreg(z)
et
g(z),
avechi
=1 - 03BBi(i
=1, 2), J1(h1, h2)
=E03A3z{g(z) - (z)}2.
Ils montrentque l’un des
paramètres optimums peut
êtrenégatif. Ainsi,
pour éviter ceproblème,
ils
proposent
une autreprocédure
fondée sur la validation croisée. On remarque que minimiserJ1 (hl, h2)
estéquivalent
à minimiserUn estimateur sans biais de A est
(cf.
Hall & Wand1988),
si mdésigne
la taillede
Ei,
et n celle deE2
En
fait,
Hall et Wand n’ont pasprécisé
lesparamètres hl
eth2 qui
minimisent(h1, h2),
nous les donnons ci-dessous.Proposition
5 :Lorsque
la taille m de l’échantillonEl
et la taille n deE2
deviennentgrandes,
alors lesparamètres hl
eth2 minimisant 0
sontdéfinis approximativement
parpour
Preuve : Il suffit d’écrire les
développements
deTaylor
d’ordredeux,
comme dansla preuve de la
proposition
2(voir
Mkhadri1990a).
Une version du
bootstrap
lisséMaintenant on se situe dans les conditions du
bootstrap
lissé(§1.3.3).
Onnote par
Ei
etE2
les échantillons tirésrespectivement
suivant(.|E1,h1)
et(.|E2,h2).
Paranalogie
avec Hall &Wand,
on cherche lecouple (h1,h2) qui
minimise le critère
0394*(h1, h2),
la version de0394(h1, h2)
basée sur les échantillonsbootstrap Ei
etE2 ,
avec
De la même manière que
précédemment ,
on aThéorème 3 :
Lorsque
la taille m de l’échantillonEl
et la taille n deE2
deviennentgrandes,
alors lesparamètres hlB
eth2B minimisant *
sontdéfinis
approximativement
paroù
avec
Preuve : La démonstration est similaire à celle de la
proposition
3(voir
Mkhadri1990b).
3.
Application pratique
Le but de
l’exemple
est d’étudier l’effet desstratégies présentées
pour le choix desparamètres
delissage
et l’efficacité de larègle
de décisionqui
en découle. On compare six méthodes d’estimation duparamètre
delissage À (la
méthode de Hall :disnop,
la méthode basée sur la validationcroisée §1.3.1 : disval,
la méthode baséesur le
bootstrap
lissé :disbot,
la méthode de Hall et Wand par validation croisée :dishw ;
la méthode de Hall et Wandboostrapée :
dishwb et la méthode du taux d’erreur : Taux. Les troispremières
méthodes sont liées à la méthode d’estimation basée sur l’estimation de ladensité,
tandis que les autres sont liées directement à la discrimination.Les données sont tirées de Goldstein & Dillon
(1978,
p.15-16).
Ils’agit
d’un
questionnaire auquel
ontrépondu
412 clients dont 154 étaient identifiéscomme étant les clients d’un
grand magasin (El )
et 258 étaient identifiés commeétant les clients d’un
magasin spécialisé (E2).
Lesquatre
variables binaires desquestionnaires
concernent, la volonté del’information,
la connaissance del’information, l’expérience
d’achat direct etl’expérience
d’achat parcatalogue.
A
partir
de l’échantillon initial de 412individus,
on a tiré aléatoirement un sous-échantillon de 103
individus, qui
constitue l’échantillond’apprentissage
et le resteconstitue l’échantillon test.
Le tableau 1 résume les résultats des différentes méthodes sur ces données.
Pour
chaque méthode,
nous fournissons le taux de bon classement obtenu sur l’échantillond’apprentissage,
par validation croisée et sur l’échantillon test. Lesprobabilités
apriori
ont étéprises égales
dans les deux groupes.Sur le fichier
d’apprentissage,
toutes les méthodes fournissent des résultatsanalogues (sauf Taux)
et peu variables suivant le taux de bon classement condition- nel. Le taux de bon classement par validation croisée est inférieur à celui obtenu surle fichier
d’apprentissage
pour toutes les méthodes(sauf
pour dishwbqui
fournit unrésultat certainement
biaisé).
La différence est de l’ordre de 1 à2%,
cequi apparaît
raisonnable du fait que le taux d’erreur par resubstitution est très
optimiste.
Les méthodes dishw et dishwb fournissent un taux de bon
classement,
par validationcroisée, légèrement
meilleur que les autres méthodes. Par contre, les méthodesdisval,
disbot et Taux fournissent un taux de classementglobal identique,
mais le taux de classement conditionnel
peut
être différent.Pour l’échantillon test, les méthodes
disval,
dishwb et Taux fournissent unrésultat
légèrement
meilleur que les autres méthodes.On remarque aussi que les méthodes Taux et disval lissent
plus
fortementque les autres méthodes. Par contre, la méthode disbot
apparaît
peuintéressente, puisqu’elle peut
fournir unparamètre
delissage égal
à 1.En
conclusion,
on constate que les méthodes Taux et disvalapparaissent plus avantageuses
que les autresméthodes,
du faitqu’elles
lissentplus
lesdonnées,
cequi,
nous le pensons, doit êtreavantageux
dans bien des cas.4. Conclusion
Cette étude montre que
l’emploi
d’unparamètre
delissage
minimisant le tauxd’erreur estimé par validation croisée et
l’estimateur,
par validationcroisée,
de lasomme des écarts moyens au carré fournissent des résultats satisfaisants. D’autre
part,
les résultatsmontrent-qu’il
y a peu de différences entre toutes ces méthodes.TABLEAU 1
Résultats de la discrimination non
paramétrique
sur le fichierd’apprentissage,
test et par validation croisée avec, pour
chaque méthode,
le
pourcentage
de bon classementglobal (après l’accolade,
le taux de bon classementconditionnel)
surchaque
fichieret différents
paramètres
delissage
N. B. :
disnop
méthode de Halldisval méthode
fondée
sur la validation croisée disbotméthode fondée
sur lebootstrap
lissédishw méthode de Hall - Wand
dishwb : méthode de Hall - Wand
Bootstrapée
Taux : méthode basée sur le taux d’erreur par validation croisée
Mais,
onpeut préférer
lestechniques
delissage qui
visent à minimiser un critère directement lié auproblème
de discrimination.Le
grand
intérêtpratique
de ces méthodes estqu’elles
sont faciles à program-mer du fait
qu’on
a une estimationexplicite
duparamètre
delissage
etqu’on
éviteainsi le recours à un
algorithme d’optimisation. Enfin, signalons
que lelissage
estbénéfique
surtoutlorsque
les données sont clairsemées(grand
nombre devariables).
Par
ailleurs,
la méthode des noyaux s’étend facilement aux variablesqualita-
tives
ayant plus
de deux modalités(cf.
Aitchison & Aitken 1976 pour les variablenon ordonnées et
Titterington
& Bowman 1985 pour les variablesordonnées).
Remerciements
L’auteur remercie G. Celeux et l’éditeur pour leurs
suggestions.
Bibliographie
AITCHISON J. & AITKEN C. G. G.
(1976).
Multivariatebinary
discriminationby
the kernel method. Biometrika63,
413-20.AITKEN C. G. G.
(1983).
Kernel methods for the estimation of discrete distribu- tions. J. Statist.Comput.
Simul.16,
189-200.BOWMAN A. W.
(1980).
A note onconsistency
of kernel method for theanalyse
of
categorical
data. Biometrika67,
682-4.BOWMAN A. W.
(1984).
An alternative method of cross-validation forsmoothing
of
density
estimates. Biometrika71,
353-60.BOWMAN A.
W.,
HALL P. & TITTERINGTON D. M.(1984).
Cross-validation innonparametric
estimation ofprobabilities
andprobability
densities. Bio- metrika71,
341-51.BROWN P. J. & RUNDELL P. W. K.
(1985).
Kernel estimates forcategorical
data.Technometrics
27,
293-9.CELEUX G. & MKHADRI A.
(1991).
DiscreteRegularized
DiscriminantAnalysis.
Rapports
de rechercheINRIA,
No 1481.GLICK N.
(1978).
Additive estimator forprobabilities
of correct classification.Pattern
Rocognition 10,
211-222.GOLDSTEIN M. & DILLON W. R.
(1978).
Discrete discriminantanalysis.
J.Wiley
&Sons,
New York.HABBEMA J. D.
F.,
HERMANS J. & REMME J.(1978).
Variable kerneldensity
estimation in discriminantanalysis. Compstat. 1978, Proceedings
inComputational Statistics, Physica Verlag.
HALL P.
(1981a).
Onnonparametric
multivariatebinary
discrimination. Biometrika68, 287-94.
HALL P.
(1981b). Optimal
nearneighbour
estimator for use in discriminantanalysis.
Biometrika68,
572-5.HALL P.
(1983). Orthogonal
series methods forqualitative
andquantitative
data.Ann. Statist.
11,
1004-7.HALL P. & TITTERINGTON D. M.
(1987).
Onsmoothing
sparse multinomial data. Australian J. Statist.29,
19-37.HALL P. & WAND P.
(1988). Nonparametric
discriminationusing density
diffe-rences. Biometrika
75,
541-7.HALL P.
(1990). Using bootstrap
to estimate meansquared
error and selectsmoothing parameter
innonparametric problems.
J. Multiv. Anal.32,
177- 203.HAND D. J.
(1982).
Kernel discriminantanalysis.
Chichester : Research Studies Press.Wiley.
HAND D. J.
(1983).
Acomparative
of two methods of discriminantanlysis applied
to
binary
data. Biometrics39,
683-94.HILLS M.
(1967).
Discrimination and allocation with discete data. J.Roy.
Stat.Soc.
C16,
237-250.MKHADRI A.
(1990a).
Classification et discrimination des donnéesqualitatives :
Discrimination Multinomiale
Régularisée.
Thèse de Doctorat de Paris 6.MKHADRI A.
(1990b).
Discrimination binairenonparamétrique :
méthodes d’es-timation
duparamètre
delissage. Rapports
de rechercheINRIA,
N° 1335.RUDEMO M.
(1982). Empirical
choice ofhistograms
and kerneldensity
estima-tion. Scand. J. Statist.
9,
65-78.STONE M.
(1977). Asymptotics
for andagainst
cross-validation. Biometrika64,
29-35.TAYLOR C. C.
(1989). Bootstrap
choice ofsmoothing parameter
in kerneldensity
estimation. Biometrika
76,
705-12.TITTERINGTON D. M.
(1980).
Acomparative study
of kernel-baseddensity
estimates for
categorical
data. Technometrics22,
259-68.TITTERINGTON D. M & BOWMAN A. W.
(1985).
Acomparative study
ofsmoothing procedures
for orderedcategorical
data. J. Statist.Comput.
Simul.21, 291-312.
TUTZ G.
(1985).
Smoothed additive estimators for nonerror rates inmultiples
discriminant
analysis.
PatternRocognition 18,
151-159.TUTZ G.
(1986).
An alternative choice ofsmoothing
for kemel-baseddensity
estimates in discrete discriminant
analysis.
Biometrika73,
405-11.TUTZ G.
(1988). Smoothing
for discrete kemels in discrimination. Biometrical Journal30,
729-40.TUTZ G.
(1989).
On cross-validation for discrete kernel estimation in discrimina- tion. Commun.Statist.-Theory
Meth. 18(11),
4145-4162.VAN NESS J.
(1979).
On the effects of dimension in discrimantanalysis
forunequal
covariance
populations.
Technometrics21,
119-27.VAN NESS J. & SIMPSON C.