R EVUE DE STATISTIQUE APPLIQUÉE
H. C HAMLAL
S. S LAOUI C HAH
Proposition d’une nouvelle règle discriminante et comparaison avec les règles linéaire et quadratique
Revue de statistique appliquée, tome 49, n
o3 (2001), p. 61-72
<http://www.numdam.org/item?id=RSA_2001__49_3_61_0>
© Société française de statistique, 2001, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
PROPOSITION D’UNE NOUVELLE RÈGLE
DISCRIMINANTE ET COMPARAISON AVEC LES RÈGLES
LINÉAIRE ET QUADRATIQUE
H. CHAMLAL et SLAOUI CHAH S.
Département
deMathématiques
etInformatique,
Faculté des Sciences, B.P. 1014, Rue Ibn Batouta, Rabat (Maroc)RÉSUMÉ
L’objet
de cet article est d’introduire unerègle
d’affectation enanalyse
discrim-inante combinant la notion
d’atypicité
et larègle quadratique bayésienne,
sous leshy- pothèses d’équiprobabilité
apriori
etd’égalité
des coûts de mauvaise classification.Après
une
présentation
de l’indiced’atypicité,
on montre que laprésence
des« régions critiques »
lorsde
l’application
de larègle quadratique bayésienne,
sous certaineshypothèses,
conduit à deserreurs d’affectations. La
performance
de la nouvellerègle
est mise en évidence au moyen de simulations. Une étudecomparative
avec larègle quadratique bayésienne
etl’analyse
discri-minante linéaire est effectuée.
Mots-clés : Indice
d’atypicité, Régions critiques, Règle quadratique bayésienne, Affectation, Analyse
discriminante linéaire.ABSTRACT
We propose a method of discriminant
analysis,
based on theatypicity
index and thedensity
function. After a short survey of theatypicity
index, we show that the presence of "criticalregions",
when weapply
thebayesian quadratic
discrimination, under somehypotheses,
leads to misclassifications. Theperformance
of theproposed
method versusquadratic
and linear discrimination is assessed via simulation. It’sgenerally
shown that thediscrimination based on the ratio
(atypicity index/density
function)improves consistently
the percentage of well classified individuals relative to the traditional methods. The method is illustrated with a numericalexample
and iscompared
toquadratic
discrimination.Keywords : Atypicity
index, Critical regions, Bayesianquadratic
rule,Affectation,
Lineardiscriminant
analysis.
1. Introduction
Dans les
règles
d’affectation enanalyse discriminante,
on s’intéresse au groupe d’individusayant
une «ressemblance» maximale avec l’individu à classer. Les méthodesgéométriques
telles quel’analyse
discriminantelinéaire,
les méthodes de discriminationquadratique
deSebestyen,
celle de Rohlf et de Rioux...définissentchacune une distance entre un groupe et l’individu à
classer,
dans le but de déterminer le groupe leplus proche
de l’individu à classer.S’agissant
du modèleprobabiliste,
etparticulièrement
de larègle quadratique bayésienne (RQB),
on seplace généralement
sous leshypothèses d’équiprobabilité
a
priori
etd’égalité
des coûts de mauvaise classification. L’affectation se base sur lacomparaison
des fonctions de densité à l’intérieur dechaque
groupe.Cependant,
bienque cette
règle
donnepratiquement
des résultatssatisfaisants,
lacomparaison
desfonctions de densité à l’intérieur de
chaque
groupe ,peut
conduire à des affectationsincorrectes,
àpartir
du moment où cettecomparaison privilégie
le groupe danslequel
les valeurs de la fonction de densité sont élevées.
Avant
d’appliquer
larègle
de discriminationbayésienne,
certains auteursrecommandent d’étudier
l’atypicité
de l’individu à classer au moyen de l’indiced’atypicité qui
estsignificatif quand
il atteint ses valeurs extrêmes.Dans cet
article,
on introduit unerègle d’affectation, permettant
de remédier auproblème généré
par la différence entre fonctions de densité à l’intérieur dechaque
groupe, lors de
l’application
de larègle quadratique bayésienne (RQB),
sous leshypothèses d’égalité
des coûts de mauvaise classification etd’équiprobabilité
apriori.
Dans les sections 2 et
3,
onrappelle
la notiond’atypicité,
larègle quadratique bayésienne
et on étudie les«régions critiques».
Dans la section4,
on introduit le critère d’affectationqui
combine celui de la fonction de densité à l’intérieur du groupe(RQB)
d’unepart,
et l’indiced’atypicité
d’autre part. Le nouveau critère établit unéquilibre
entre fonctions de densité à l’intérieur dechaque
groupe. Dans la section5,
on seplace
sousl’hypothèse
d’un modèle de O’Neill[O’Neill, (1992)]
et par
simulation,
on effectue une étudecomparative
de la méthodeproposée
avec larègle quadratique bayésienne (RQB)
etl’analyse
discriminante linéaire(ADL).
Deuxexemples numériques
illustrent lesperformances
de larègle proposée.
Données du
problème
E : un n-échantillon.
X1,..., Xp :
p variablesexplicatives quantitatives.
Q :
variablequalitative
àexpliquer,
ayant m modalités.G Gn :
groupes induits parQ
sur E.2. Indice
d’atypicité
Soit X =
(X 1, - - - , Xp)t,
un vecteurexplicatif
distribué à l’intérieur dechaque
groupe
Cr
selon une loi de fonction dedensité, f (x/r) (r
=1,..., m).
DÉFINITION 1. -
Étant
donné deux individus i etj,
on dit que i estplus typique
du groupe
Gr que j
si et seulement sif (i/r)
>f(j/r).
DÉFINITION 2. - L’indice
d’atypicité
du groupeGl affecté
à l’individu i est donné par :Si
ind(i, l)
=0,
alors il résulte de la définitionprécédente
quePar
ailleurs, ind(i, l)
atteindra son maximum siDe
façon générale,
un individu sera affecté au groupe minimisant l’indiced’ atypicité.
Pourtant,
si on décide de se baser sur cet indice seul pour construire unerègle d’affectation,
lacomparaison
des indicesd’atypicité
des différents groupes conduit àprivilégier
les groupes pourlesquels
les valeurs de la fonction de densité sont faibles.3.
Règle bayésienne
Notons 03C0r la
probabilité
apriori d’appartenance
au groupeGr. c(j Ir) désigne
le coût de mauvaise classification résultant d’une affectation d’un individu du groupe
Cr
au groupeGj, ((j, r)
E{1, 2,.., m}2, c(j/j)
=0).
Soit
is
une observationqu’on
cherche à affecter. Larègle bayésienne
consisteà chercher une
partition
de lapopulation
en mrégions Rr, R2, ... , R*m, is
étantaffectée au groupe
CI
siis appartient
àR;.
Cettepartition
est celle minimisantle
risque global
moyen, elle est donnée par le théorème suivant(voir
parexemple [Nakache
J. P.(1980)])
THÉORÈME 1. - La
règle optimale bayésienne
consiste à choisir lapartition
enm
régions R*1, R*2,..., Rr,.L,
telles que :Si on suppose que les coûts de mauvaise classification sont
égaux (c(j/r) =
on a :
(is
est affecté au groupeEn
général,
on suppose que lesprobabilités
apriori
sontégales,
Le
problème
se ramène à unecomparaison
des fonctions de densité à l’intérieur dechaque
groupe, cequi privilégie
le groupe danslequel
la fonction de densitéprend
des valeurs élevées.
On se
place
dans le cassimple
d’une distribution normaleunidimensionnelle, (ce
choix serajustifié
dans la dernièresection),
et une variable àexpliquer
ayant deux modalités. La variableexplicative
estdistribuée,
à l’intérieur dupremier
groupe, suivant une loi normale centréeréduite,
à l’intérieur dudeuxième,
suivant une loi normale de moyenne 03BC, d’écarttype
cr. Pour l’affectation d’unindividu,
on étudie lerapport
ou encore le
signe
del’expression :
L’étude des variations de cette
quantité,
ensupposant a2
>1,
est résumée dans le tableau3.1,
oùTABLEAU 3.1
Etude des variations de la
quantité ln(f (-/1»
Si on considère que les observations les
plus probables
à l’intérieur dupremier
groupe sont éléments de l’intervalle
[-2,2],
celles à l’intérieur du deuxième groupe sont éléments de[J1 - 203C3,03BC
+2cr].
Le
risque
d’affecter incorrectement des observations du groupeG2, augmente
avec la
probabilité
de l’événement :([03BC - 2cr,
J1 +203C3]
n[x*1, X2]).
Le
risque
d’affecter incorrectement des observations du groupeG1, augmente
avec la
probabilité
de l’événement :([-2,2]~]-~,x*1])~([-2,2]~[x*2,+~[).
La
région [03BC - 203C3, 03BC
+203C3]
n[x*1, x*2]
estappelée région critique
deG2.
La
région ([-2, 2]~]-~, x*1)~(-2, 2]~[x*2, +~[)est appelée région critique ded.
Exemple :
supposonsqu’à
l’intérieur du deuxièmegroupe, X
est distribuée suivantune loi normale
N(3,2) :
les valeurs lesplus probables
à l’intérieur du groupeG2
sont éléments de
[-1,7]. [-1,7]
n[-2,2] ~ Ø, x*1 = -3.418, x2
= 1.418. Larégion critique
du deuxième groupe est[-1,1.418]
deprobabilité
0.192. Larégion critique
du
premier
groupe est[1.418,2]
deprobabilité
0.055. Si on suppose que y = 3 et0- ==
3;
les valeurs lesplus probables
à l’intérieur du groupeG2
sont éléments de[-3,9]
D[- 2, 2], x1
= -2.31 etx2
= 1.56. Larégion critique
du deuxième groupe est[-2.31,1.56]
deprobabilité
0.2772. Celle du groupeCI
est[1.56, 2]
deprobabilité
0.0366.
On voit
qu’il
estplus probable
d’affecter incorrectement les observationsprovenant
du deuxième groupecompte
tenu des faibles valeurs de la fonction de densité. Ces deux cas seront étudiés ultérieurement.4. Méthode d’affectation
proposée
L’approche
que nous proposons consiste àintégrer,
la notiond’atypicité
dansla méthode basée sur la fonction de densité. Le critère
qui
enrésulte, présente
alorsles
qualités
des deux méthodes(i.e.
la(RQB)
sous leshypothèses d’équiprobabilité
apriori
etd’égalité
des coûts de mauvaiseclassification ,
et larègle
basée sur l’indiced’atypicité );
ilpermet
en outre d’obtenir des résultats meilleurs que ceuxobtenus,
par chacune des
approches appliquées séparément.
PROPOSITION 1. - La
règle proposée
consiste àaffecter is
au groupeGlo, vérifiant :
Convention : La
règle
discriminanteproposée
est basée sur leRapport (Aty- picité/Densité),
on convient de l’intituler(RAD).
PROPOSITION 2. -
Supposons qu’à
l’intérieur dechaque
groupeGl, f(./l)
estla
fonction
de densité d’une loi multinormale de moyenne Mi ERP,
de matrice devariance covariance
03A3l
alors :où
fo
est lafonction
de densité d’une loi multinormale centréeréduite, il
estl’observation i
normalisée,
pour le groupeGl (il
=03A3-1/2l(i - 03BCl)).
En
effet,
considérons laquantité :
(is
individu àclasser)
À
ceniveau,
on se base sur un critèrequi
neprivilégie
ni le groupe danslequel
les variables sont les
plus dispersées,
ni les moinsdispersées, puisque
cela revient à travailler avec des observations normalisées.Dans le cas
normal,
construire unerègle
d’affectation sur la base du critèrepermet
d’obtenir des résultatsmeilleurs
que ceux obtenus parapplication
de larègle quadratique bayésienne
sousl’hypothèse d’équiprobabilité
apriori,
avec normalisa-tion. En
effet, d’après
laproposition
2 :en minimisant ce
rapport,
on minimise la dissemblance à un groupe(après
normali-sation)
et on maximise le critère de larègle quadratique bayésienne
sousl’hypothèse d’équiprobabilité
apriori,
avec normalisation.Lors de
l’application
de larègle quadratique bayésienne,
on seplace généra-
lement sous
l’hypothèse
d’homoscédasticité(hypothèse
rarementtestée).
Dans le casnormal,
et sous cettehypothèse, l’application
de larègle quadratique bayésienne
surles données initiales est
équivalente
àl’application
sur les données normalisées. Le critère(RAD)
ne suppose pasl’homoscédasticité,
il donne des résultats meilleurs queceux obtenus par
application
de larègle quadratique bayésienne
sous cettehypothèse.
En outre, se baser sur le critère
(RAD)
revient à travailler avec des observations normalisées(cf. Proposition 2),
même sil’hypothèse
d’homoscédasticité est violée.La
règle
d’affectation(RAD)
est unegénéralisation
de larègle «(RQB)
normalisée» au cas d’une famille
quelconque
de fonctions de densité.Le critère
(RAD)
établit un«équilibre»
entre fonctions de densité à l’intérieur des différents groupes sansprivilégier
les groupes selon la valeurplus
ou moins élevée de la fonction de densité. En effetl’approche
consiste à minimiser la dissemblance àun groupe et à maximiser la
probabilité d’appartenance
à un groupe.5.
Comparaison
des méthodes5.1. Résultats de simulations
Dans tout ce
qui suit,
on suppose que la variable àexpliquer possède
deuxmodalités. La
population P
est divisée en deux souspopulations Pl, P2.
Le modèle de O’Neill a étéproposé
par O’Neill(1992)
pour comparer laperformance
desrègles
de discrimination linéaire et
quadratique.
Leshypothèses
du modèle de O’Neill sont les suivantes :X est distribuée suivant une loi multinormale
Afp(wi, Qi) (i
=1, 2)
dans lesdeux sous
populations.
Dans la
population P1 : 03C91 = 0
et01
=Ip.
Dans la
population P2 :
W2 -bel
etO2
=Ip
+Telel.
el étant le
premier
vecteur de la basecanonique
deRp, 03C4
> -1 et b E R sont desparamètres.
DÉFINITION 3. - Soit X un vecteur distribué suivant une loi
Np(03C9i, Ç2i)dansles populations Pi (i
=1, 2),
on dit que Xsatisfait
au modèle de O’Neill de dimensionq (q p), si
ej étant
le jem
vecteur de la basecanonique
deRP,
Pour étudier la
performance
de la méthode(RAD),
on seplace
dans le cas d’unmodèle de O’Neill de dimension un , ce
qui justifie
l’étude unidimensionnelle faite dans la troisièmesection ,
lors de la détermination desrégions critiques (RQB).
Lechoix
de q ==
1 est motivé par lapratique;
il estpratiquement
le cas leplus important [Flury
B. et al(1996)].
Nous avons effectué des simulations dans les conditions suivantes :
p étant fixé
égal
à4, 03B4 ~ {3, 4, 5, 6}
et T~ {3,8,15,24,35}. Quatre
cas résultantdes combinaisons de ces
paramètres
sont étudiés ici. Pourchaque
cas, nous con- sidérons que les deux groupes induits par la variable àexpliquer
sont de tailleégale
(nl
=n2).
On agénéré
1000 fois n1 =n2 réalisations de la for N(03C9i, 03A9i) (i
=1, 2).
Nous avons fait varier nl de 15 à 120 et le
pourcentage
moyen de bien classés est la moyennearithmétique
des 1000pourcentages
de bien classés calculés parappli-
cation de la
technique
de validation croisé due à Lachenbruch etMickey [Saporta G., 1990]
sur les 1000 échantillons simulés. Pour lesquatre
cas, lesrégions critiques
sont de
probabilité
nonnégligeable (cf.
section3).
D’où l’intérêt deprésenter
cescas. L’étude effectuée est
comparative;
nous avons calculé lespourcentages
de bien classés pour la nouvelle méthode(RAD),
larègle quadratique bayésienne (RQB)
etl’analyse
discriminante linéaire(ADL).
FIGURE 5.1
Pourcentage
moyen de bienclassés,
p =4, (a)
03B4 = 3, T =8; (b)
03B4 =4,
T = 15Pour les
quatre
cas, les meilleurspourcentages
de bien classés sont atteints parapplication
de larègle
d’affectation(RAD).
Lesplus
baspourcentages
de bien classés pour la(RQB)
sont obtenus dans les cas où lesrégions critiques
sont deprobabilité
non
négligeable (cf.
Tableau5.1).
Ils’agit
des cas :TAB LEAU 5.1
Régions critiques
Premier cas :
(cf. fig 5.1(a))
Parapplication
del’(ADL),
on obtient despourcentages
de bien classéslégèrement
meilleurs que ceux calculés parapplication
de la(RQB).
Parapplication
de larègle (RAD),
on obtientdes
pourcentages
de bien classés très écartés despourcentages
calculés parapplication
del’(ADL)
et de la(RQB) .
Deuxième cas :
(cf. fig
5.1(b)) L’écart,
d’unepart,
entre lespourcentages
de bien classés calculés parapplication
de larègle (RAD)
et lespourcentages
calculés parapplication
de la(RQB)
et del’ (ADL),
d’autrepart,
estimportant.
L’écartentre les
pourcentages
de bienclassés,
calculés parapplication
del’(ADL)
etde la
(RQB),
estplus significatif
que dans lepremier
cas. Lespourcentages
de bien classés calculés parapplication
de la(RQB)
sont meilleurs que ceux calculés parapplication
del’ (ADL).
Troisième cas :
(cf. fig 5.2(b))
Lespourcentages
de bien classés calculés parapplication
de larègle (RAD)
s’écartent nettement de ceux calculés parapplication
de la(RQB)
et del’ (ADL).
Quatrième
cas :(cf. fig 5.2(a))
L’ écart entre lespourcentages
de bien classés calculés parapplication
de larègle (RAD)
et ceux calculés parapplication
dela
(RQB)
et del’(ADL)
estimportant.
En
général,
on note que l’écart entre lespourcentages
moyens de bien classés calculés parapplication
de larègle (RAD),
et ceux calculés parapplication
de la(RQB),
augmente avec laprobabilité
desrégions critiques.
FIGURE 5.2
Pourcentage
moyen de bienclassés,
p =4, (a)
8 = 5, T =24; (b)
03B4 =6,
T = 355.2.
Exemples
Nous
optons
pour deux ensembles dedonnées,
pourlesquels, l’hypothèse
d’homoscédasticité est «presque» réalisée.
L’application
de la(RQB)
sur les données initiales estéquivalente
àl’application
sur les données normalisées.Le
premier
ensemble estappelé
Normal4[Nikhil
R. Pal & James C.Bezdek,
1995],
le second Iris[Anderson
E.(1935)].
Normal4. est un échantillon de 800 observations
réparties
en 4 groupes de 200 observations chacun. Les individus sont décrits par 4 variablesexplicatives.
Lamoyenne et la matrice des variances covariances sont :
Iris. il
s’agit
des «Iris d’Anderson». 100 irisrépartis
àégalité
en deuxclasses,
1 : IrisVirginia,
2 : Iris Vesicolor.
Les fleurs sont décrites par quatre variables
explicatives : Xl, X2,
mesurent lalongueur
et lalargeur
en(cm)
dessépales , X3, X4,
mesurent lalongeur
et lalargeur
en(cm)
despétales.
Sur
chaque
ensemble dedonnées,
nousappliquons
larègle (RAD)
et la(RQB).
Normal4.
Les deux
pourcentages
de bienclassés,
calculés parapplication
de latechnique
de validation croisé due à Lachenbruch et
Mickey [Saporta G., 1990],
sont presqueidentiques.
Iris.
le 5
de l’échantillon totaljoue
le rôle d’échantillon test. Dans le tableau(cf.
Tableau
5.2),
les 20 iris à réaffecter sont décrits par lesquatre
variablesexplicatives
et la variable à
expliquer Q.
On donne pourchaque
groupe la valeur du critère à minimiser notéct(l), 1
=1, 2.
La variableQ’ représente
les affectations des individus parapplication
de larègle (RAD).
On se
place
sous leshypothèses
de normalité et d’homoscédasticité. La matrice des variances covariances est estimée par la matrice de variance intraclasse.Les résultats sont les suivants : un seul individu de
chaque
groupe est malclassé;
soit unpourcentage
de bien classéségal
à90%.
Les résultats parapplication
de la
(RQB)
sontanalogues;
aussi bien au niveau des affectationsqu’au
niveau despourcentages de bien classés.
6. Conclusion
Les résultats des simulations et ceux des
exemples numériques
montrent quel’approche (RAD)
donne de meilleurs résultats que les méthodesclassiques.
Dans leTableau 5.2
Résultats de la méthode
(RAD ) appliquée
sur les données Iriscas où les
régions critiques
sont deprobabilité
nonnégligeable,
lesrésultats,
obtenuspar
simulation,
sont nettement meilleurs que ceux de larègle quadratique bayésienne
et de
l’analyse
discriminante linéaire. Dans tout cequi précède,
on s’estplacé
lorsde
l’application
de la(RQB),
sousl’hypothèse d’équiprobabilité
apriori.
Dans le casle
plus fréquent,
on seplace
sous cettehypothèse (voir
parexemple [J.P.Nakache, 1980]).
Le nouveau critère«équilibre»
les fonctions de densité à l’intérieur des différents groupes. Il permet de neprivilégier
ni le groupe danslequel
les valeurs de la fonction de densité sont faibles ni le groupe danslequel
les valeurs de la fonction de densité sont élevées. Pour lessimulations,
on s’estplacé
sousl’hypothèse
d’unmodèle de
O’Neil,
et sousl’hypothèse
q = 1. C’estpratiquement
le modèle leplus
important.
Pour lesexemples numériques,
les résultats parapplication
de larègle
(RAD)
et de la(RQB)
sontanalogues.
Références
bibliographiques
ANDERSON
E.,
The IRISes of theGaspe peninsula :
Bull.Ame.IRISSOC.,
vol.59, pp. 2-5, (1935).
FLURY
B.,
NEL D. G. and PIENAARI.,
Simultaneous Detection of Shift in Means and Variances : Journalof
the American Statistical Association91,
pp. 1743- 1748(1996).
NAKACHE J.
P.,
Méthodes de discrimination pour variables de naturequelconque,
théorie et
pratique :
Thèseprésentée
pour obtenir legrade
de Docteur-essciences,
Université Pierre et Marie Curie(1980).
NIKHIL R. Pal & JAMES C.
Bezdek,
On clustervalidity
for thefuzzy
C-meansmodel : IEEE Transaction
on fuzzy
system, vol3,
n3,
p377, August (1995).
O’NEILL T.
J.,
Error Ratesof Non-Bayesian
Classification Rules and Robustness of Fisher’s Linear Discriminant Function :Biometrika, 79,
pp. 177-184(1992).
RIOUX
P., Quadratic
discriminantanalysis :
EDV in Medizin andBiologie, 6,112 (1975).
ROHLFF
J., Adaptative
Hierarchicalclustring
shemes :Syst. Zool, 19,
p. 58-82(1970).
SAPORTA
G., Probabilités, analyse
des données etstatistique,
Editionstechnip- France (1990).
SEBESTYEN G.
S.,
DecisionMaking
Process in PatternRecognition :
Vol19,
MacMillan