R EVUE DE STATISTIQUE APPLIQUÉE
J. U LMO
Différents aspects de l’analyse discriminante
Revue de statistique appliquée, tome 21, n
o2 (1973), p. 17-55
<http://www.numdam.org/item?id=RSA_1973__21_2_17_0>
© Société française de statistique, 1973, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
DIFFÉRENTS ASPECTS DE L’ANALYSE DISCRIMINANTE
J. ULMO
Après
avoirprésenté
dans unepremière partie l’Analyse
discriminante dupoint
de vue del’analyse
des données et dupoint
de vue de la décision statis-tique,
sans oublier leproblème
de lasignification
del’influence
d’une variableaprès prise
encompte
des autres, on traite dans une deuxièmepartie
de l’ana-lyse factorielle discriminante, toujours
sous les deuxpoints
de vuemétrique
etstatistique.
On montre à la
fin
de cettedeuxième partie
quel’analyse factorielle
dis-criminante est un cas
particulier
del’analyse canonique.
Une troisième
partie
est consacrée àl’application
de cequi précède
à uneextension de la
régression
linéairemultiple
au cas où la variable àexpliquer
estqualitative.
SOMMAIRE
Pages
lèrepartie. -
L’ANALYSE DISCRIMINANTE1
/
Introduction... 181.1 - Généralités ... 18
1.2 -
Exemples ...
191.3 - Formulation
plus précise
duproblème ...
202/ Principes
des différentestechniques
del’analyse
discriminante... 212.1 -
Techniques
basées sur l’utilisation d’une distance entre un individu et un groupe ... 212.2 -
Techniques probabilistes. L’analyse
discriminante pro- blème de décisionstatistique...
242ème
partie. -
L’ANALYSE FACTORIELLE DISCRIMINANTE OU RECHERCHE DES VARIABLESCANONIQUES
POUR LA DISCRIMINATION1 /
Introduction ... 36Pages 2/
Définition par des critères detype métrique...
362.1 - Choix du
premier
axe factoriel discriminant ... 36 2.2 - Définition des axes factoriels discriminants d’ordresupé-
rieur à un... 39 2.3 - Etude des variables
canoniques
associées aux axes facto-riels
discriminants ...
42 2.4 - Lien entrel’analyse
factorielle discriminante et une ana-lyse
encomposantes principales
du nuage des centres degravité
des groupes del’échantillon...
453/
Définition des variablescanoniques
par un critère detype
sta-tistique...
464/
Présentation del’analyse
factorielle discriminante comme uneanalyse canonique particulière...
494.1 - Etude de la corrélation
canonique
entre une variable réelle et un ensemble de k variables booléennes mutuellementexclusives ...
50 4.2 -L’analyse
factorielle discriminante est uneanalyse
cano-nique particulière...
515/ Conclusion...
52 3èmepartie. -
APPLICATION A UNE EXTENSION DE LA REGRES-SION LINEAIRE MULTIPLE AU CAS OU LA VARIA- BLE A
EXPLIQUER
ESTQUALITATIVE
1 / Exposé
duproblème
etpremière solution ...
5 22/
Choix d’unerègle
de décisionaléatoire ...
54PREMIERE PARTIE : L’ANALYSE DISCRIMINANTE
1 - INTRODUCTION 1.1 - Généralités
L’analyse
discriminante(A.D.)
est unetechnique
de classement ou de re-connaissance des formes par
opposition
à latypologie
ou à la olassiffcation.Dans la reconnaissance des formes ou le
classement,
les formes ou lesgroupes sont connus ; dans la
typologie
ou laclassification,
lestypes
ou groupesne sont pas connus.
Quand
on considèrel’analyse
discriminante comme unetechnique
d’ana-lyse
desdonnées,
elleappartient
à lacatégorie
destechniques
danslesquelles
l’ensemble des caractères estpartitionné
en deux groupes : le groupe des ca-ractères à
expliquer
et le groupe des caractèresexplicatifs
(ce groupe con- tientégalement
lestechniques
derégression,
desegmentation
etd’analyse
cano-nique).
Dans
l’A.D.,
le ou les caractères àexpliquer
Y(ou Yi
s’il y en aplusieurs)
sont
qualitatifs
ou detype présence-absence,
tandis que les caractèresexplica-
tifs : xi, i =1,2,...,
p sontquantitatifs.
Ce sont les modalités de Y
(ou
de l’ensemble desYi) qui
définissent les groupes1,2,...,
K et ils’agit,
étant donné les valeursprises
par les caractères xi, i =1,2,...,
p pourl’individu j,
que l’onpeut
ainsireprésenter après codage
par un
point xi
deRP,
de le classer dans l’un des groupes1,2,...,
K définispar Y.
Il
s’agit
donc de définir uneapplication
h deRP
dans la famille des groupes définis par Y telle que le classement défini par cetteapplication
pour lapopula-
tion E des individus considérés soit le
plus
satisfaisantpossible.
1.2 -
Exemples
deproblèmes d’analyse
discriminantea)
Problèmes detransport
Y est le moyen de
transport
utilisé et onpeut,
parexemple,
définir 3groupes :
- utilisation de la voiture
particulière
- utilisation des
transports
en commun- autres moyens de
transport (pieds, bicyclette, etc.).
Il
s’agit
de discriminer entre ces 3 groupesd’après
des critèressociologiques,
de
logement,
etc.b)
Discrimination entreplusieurs types
de voituresd’après
des critères dutype :
-
prix
de vente- nombre de
places
- vitesse de
pointe
- consommation.
- etc.
Remarque :
Onpeut
aussi essayer de faire une discrimination entre les acheteurs de ces voituresd’après
des critèressociologiques.
c)
Discrimination entreplusieurs types
delogements
urbainsd’après
des cri-tères relatifs aux
ménages
tels quecatégorie socio-professionnelle
duchef, âge
duchef,
revenutotal,
nombred’enfants,
etc.d)
Problèmes d’études de marché tel que celui de la télévision. Onpeut
dis-tinguer :
- les possesseurs d’une T.V. couleur
- les possesseurs d’une T.V. ordinaire
- les réfractaires à la T.V.
e) Historiquement, l’analyse
discriminante aété,
et est encore, très utilisée dans de nombreuxproblèmes
d’identificationd’espèces
ou desous-espèces
en biolo-gie, ethnologie, anthropologie (problèmes
de discrimination entre les races enInde,
d’identification d’ossements d’hommes ou d’animauxfossiles, etc.).
Elle est aussi très utilisée dans de nombreux
problèmes
dediagnostic
médi-cal
(par exemple,
lesproblèmes
de discrimination entre tumeursbénignes
et ma-lignes
et dans les tumeursmalignes
entre différentstypes, d’après
des critèrescliniques, radiologiques
ouhistologiques).
1.3 - Formulation
plus précise
duproblème
Le critère de
satisfaction
doit êtredéfini,
et pour ce faire il convient de mieuxpréciser
cequ’on
recherche.La
partition g
de E est définie parl’application canonique
e -Y(e)
de Edans
y,
tandis que l’observation de l’ensemble x E RP des caractères xi définitl’application
et ce que l’on
désire,
c’est avoir pour tous les individus e e E :ho x(e)
=y(e),
i.e.
ho
X = Y. h est donc uneapplication qui
"factorise" Y à travers X(La
re-présentation
des caractères xi, i =1,2,...,
p et Y comme des fonctions définiessur l’ensemble E des individus et à valeurs dans R et
y
utilisée ici est trèspré-
cieuse et sera souvent
utilisée).
Comme il est
pratiquement impossible
d’avoirho
X = Y si on veut définirh autrement que
point
parpoint
surE(1),
il convient de définir un critère pourjuger
de l’écart entreho
X et Y sur E.Deux
types
de critères sontgénéralement envisagés.
Des critères de
type métrique, qui
font intervenir une notion de distance entreho . X(e)
etY(e),
distancequi
estgénéralement
définie dansRP
=h-1 (y)
sous forme de distance d’un individu e un groupe
Gi (Gi
est un groupe d’indivi-dus pour
lesquels
Y =yi).
---
(1)
Même dans ce cas ce ne sera pas possible s’il existe plusieurs individus de E ayant même valeur de x (i. e. même image par X) et des valeurs différentes de y (Le. des images dif- férentes par Y). ie. si pour tout xex (E) on n’a pas : 3 yi tel queX-l(!)
c Y-1(yl),
Le.si
Y0X-1
n’est pas une application de X(E)dans y
Des
critères
detype probabiliste, qui
font intervenir la notion d’erreur de classement d’un individu[il
y a erreur de classement pour e siho X(e) ~ Y(e)(1)],
et le coût moyen des erreurs de classement pour l’ensemble des individus de E
(Ce
coût est en relation directe avec le coût total si E estfinie,
mais ilpermet
aussi de considérer unepopulation infinie,
ou non entièrement connue, à condi- tion d’introduire un modèleprobabiliste),
ou à défaut lesrisques
d’erreurs declassement attachés aux individus de yl ,y2,...,Yk
[plus précisément
deY-1(y1), y-1(y2),..., y-l 1 (yk ) ou
la somme de cesrisques.
L’analyse
discriminante est en effet un destypes
lesplus simples
de pro- blèmes de décisionstatistique.
Le
problème
de l’A. D. est la recherche de h àpartir
d’un échantillon de n-individuse’, j
=1,2, ... , n
pourlesquels
on connait non seulementxi
=X(ej)
mais aussi
yj
i.e. le groupeGi auxquels
ilappartiennent.
2 - PRINCIPE DES DIFFERENTES
TECHNIQUES
DE L’ANALYSE DISCRI- MINANTE2.1 - Techniques
basées sur l’utilisation d’une distance dans RP entre un individue et un groupe G
L’échantillon E permet
de définir dans RP des nuages depoints xj apparte-
nant aux différents groupes
Gi.
On affecte un individu e à la classeGi
1 =
1,2,...,
k telle que D[x(e), Gi ] = Min [D(x(e), Gi)]
Il reste alors à définir D
(x , G)
pour tout groupe G Eg.
On
peut
définir cette distance de diverses manières(Cf. (3)).
La distance la
plus
utilisée en raison dessimplifications qu’elle apporte
et de sesjustifications statistiques
est cellequi
définitD(x , Gi )
par la distanceeuclidienne,
pour une certainemétrique M,
de x aubarycentre gi
despoints
de&
appartenant
àGi
i.e. aubarycentre
du"nuage Gi
del’échantillon
8 "qu’on appellera G*i
pour ledistinguer
du nuageGi
de lapopulation
totale.---
(1) Dans les problèmes de typologie, on ne peut plus parler d’erreur de classement
puisque les types ne sont pas définis a priori.
On
peut
utiliser d’autres définitions de la distance de x àGi,
telle que lamoyenne des carrés des distances de x aux
points
deGi (cf. (2)),
laplus petite
distance de x auxpoints
deGi,
mais on n’obtientplus
de solutions aussisimples qu’avec
la distancebarycentrique
euclidienne.La
métrique
laplus
utilisée est cellequi
consiste àprendre
pour M non pas lamétrique
euclidienneclassique I,
mais l’une des deuxmétriques
définies par l’inverse de la matrice de covariance des variables x;, soit dans les sous-groupesGr
de0,
soit dans l’échantillontotal ,
soit :
avec
et
La distance ou
métrique
définie par03A3-1
dansRP
est la distance de Maha- lanobis relative aux groupesG*i.
Elle a unejustification
essentiellement statis-tique (Cf. 2.2.4-2.).
Elle estégalement susceptible
d’unejustification géomé- trique puisqu’on
montre(cf. (2))
que lamétrique
M telle que le moment d’iner- tie d’un nuage p dimensionnel parrapport
à son centre degravité
soit minimumsous la condition
IM 1 = 1,
est M* =|03A3|1/p 03A3-1,
si E est la matrice covariance du nuage(IMI I
= déterminant deM joue
le rôle de facteur de normalisationpuisque
si M est
remplacée
parXM,
le moment d’inertie estmultiplié
parÀ).
03A3-1
est donc lamétrique
M pourlaquelle
la somme des inerties de chacun des groupesGr
parrapport
à leurs propres centres degravité g*i
estminimale,
sous la condition
|M| = Cte.
-La distance définie par
T-1 peut
êtrejustifiée
par des considérationsgéo- métriques analogues
ou liées à"l’analyse
factorielle discriminante".(cf.
IF par-tie).
C’est donc le
signe
de la fonctionsoit
qui
est une fonction linéaire de xqui permet
de décider si x estplus proche
deGl’
que deGi
03B4i/1(x)
> 0 ~ x estplus proche
deGt
que deGi
03B4i/1(x)
0 ~ x estplus
loin deGt
que deGi.
Si
03B4i/1(x)
>0,
on examine alors lesigne
de03B4i/m (x),
m ~1,
tandis que si03B4i/1(x)0,
soit03B41/i(x)
>0, puisque 03B41/i(x)=-03B4i/1(x),
on examine lesigne
de03B41/m(x), m =1= i,
etc..La fonction
03B4i/1(x), i,
1~ { 1,2,..., k},
i ~1,
estappelée
fonction discri-minante du groupe i par
rapport
à 1 et on voitqu’il
y en a enprincipe (k 2 1)
de distinctes.
La
règle
d’affectation est alors définie parLa manière dont cette
règle
a été obtenue montrequ’il
y atoujours
une af- fectation et uneseule,
sauf si03B4i/1(x)
=0,
casauquel
onpeut
choisir indifférem- ment entreGi
etGl.
Ainsi dans
RI,
les groupesGi
sont limités chacun par k - 1hyperplans passant
chacun par les milieux des droitesjoignant g;
aux centres degravité
gl des groupesG*1
formés par lespoints
del’échantillon E,
et Morthogonaux
àces
droites gi . gl, c’est-à-dire par les k - 1hyperplans
médiateurs degi .
gl pour lamétrique MT
Remarques importantes
1/
La forme de la fonction discriminante03B4i/1
nedépend
que des indices i et 1 et parconséquent
elle n’est pas modifiée si on décide de réunirplusieurs
desautres groupes que i et 1 en un
seul,
ou au contraire de diviser certains de ces autres groupes, ou même si on décide de ne considérer que les deux seuls groupes i. et1.,
dans la mesure où la matrice M n’est pas liée à larépartition
dans les grou- pes de l’ensemble des observations de -9La remarque
s’applique
ainsi avec M =T-1,
mais non avec M =03A3-1,
etpourrait justifier
le choix de M =T-
1plutôt
que M =03A3-1.
Cette remarque
peut
être très utile dans lapratique.
C’est ainsi que dans la discrimination entre les tumeurs on peut dans une 1 èreétape
réunir un certainnombre de
types
variés de tumeursmalignes (par exemple,
trèsmalignes)
sanschanger
la fonction discriminante entrebénignes
et peumalignes.
---
(1) Au point de vue calcul sur ordinateur, il est finalement plus simple de calculer
d (x, gi)
pour tous les groupesGi
et de regarder celui qui donned2(x, gi)
minimum quek(k - 1) -
de calculer
les 03B4i/1(x).
2/
Lepouvoir
discriminant de larègle adoptée peut
être caractérisé par lepourcentage
d’erreurs de classement sur les individus de E àlaquelle
elleconduit,
ou par le coût total de ces erreurs.
On
peut
aussienvisager
desupprimer
des variablesexplicatives
xi dont l’influenceparait
peu sensible pour discriminer entre les groupes.(variables
pourlesquelles
les centres degravité
gl, sont peu distincts les uns des autres en sorte que leur contribution dans la différenciation entre lesd2(x, Gi)
sera très faible.Il faut
cependant
faire attention si on n’utilise pas lamétrique
M =I).
On pour-ra
juger
de l’intérêt de cettesuppression
par la variation dupourcentage
d’er-reurs de classement des individus de
ê,
mais si on veut réduire le nombre des va-riables
explicatives
ilapparait préférable
deprocéder
à uneanalyse
factorielle discriminantequi
si k p,permettra
de n’avoir que k - 1p
variablesdiscrimi- nantes(cf.
2epartie),
ou de considérer leproblème
d’unpoint
de vueprobabi-
liste et de
procéder
à un test designification
dupouvoir
discriminant d’une va-riable
quand
les autres sont choisies(Cf. 2.2.5).
2.2 -
Techniques probabilistes : l’analyse discriminante, problème
de décisionstatistique [(1)
et(4)]
2.2.1 - Les ensembles
fondamentaux
Soit
(E , a)
lapopulation
considérée((X est
la tribu d’événements deE)
etX : e -
X(e)
une variable aléatoire définie sur E et à valeurs dans X. Dans lecas
présent X
C RP et X est une variable vectorielle de dimension p.X constitue
l’espace
desobservations,
et sur X est définie une famille de me-sures de
probabilité Po, 0 E
8. 8 estl’espace
des états de la nature.Dans le cas
présent,
la famillePo
est finie et de cardinal k et0398={03B81, 03B82,..., 03B8k}
avec
0 i :
l’observationprovient
d’un élément deEi, E1, E2, ... , Ek
étant unepartition
de lapopulation
totale E.Ceci revient à dire que si les
observations xj~ Rp proviennent
de la sous-population Ei,
on leur affectera la mesure deprobabilité P,,, = Pi
X induit surles
Ei
lesapplications Xi,
ou si onpréfère
les variables aléatoiresXi
dont les lois deprobabilité
sontPi,
et ils’agit
au vu d’une réalisation x de X de savoir dequelle Xi
elleprovient.
Une
règle
de décision est uneapplication
S de X dansl’espace
A des déci-sions
(ou
desactions).
Dans le casprésent
Apeut
être confondu avec 8. On aen effet A =
{a1,
a2 , ... ,ak}
avec ai : faire comme si l’observationprovient
de
Ei,
i.e. décider quel’observation provient
d’un élément deEi.
La
règle
d’affectation d’un individu à l’un des groupesE, (ou Gi)
àpartir
d’une observation x Efr est donc bien une
règle
de décisionstatistique
5 tellequ’on
vient de la définir.2.2.2 -
Critère
de choix d’unerègle
de décision 03B4 et recherche de cetterègle :
Choix d’une
règle
deBayes
La fonction de
perte
est ici uneapplication
de A x e dansRI -
1(ai, 03B81) représente
le coût du classement d’un individu deEl
dansEi.
On a doncet
soit
Probabilité a
priori
sur 0398O étant
fini,
cetteprobabilité
q est définie par un ensemble de k nombres qi, i E{1,2,
... ,k} :
qi =P’ (0 = 03B8i)
On sait que la
règle
deBayes 03B4*
associée à laprobabilité
apriori
q et à la fonction deperte
1 est cellequi
minimise laperte
moyenne :où A est l’ensemble des
règles
de décision considérées(ensemble d’applications
de X dans
A),
etl’espérance
E estprise
pour la loi ducouple (x , 8 ) E )SCxQ].
La
règle
deBayes
est donc cellequi
minimise le coût moyen des erreurs de classe- ment pour l’ensemble des valeurs x et 8possibles.
Recherche de la
règle
deBayes
S *A une
règle simple 6, application
de tE dansA,
est associée unepartition
detE définie par les ensembles
G, (i) ={x, 8(x) = ai}
=5-’ (a,) i~{1,2,..., k}
Gs (i)
est larégion
de X formée par lespoints
affectés àEi
par larègle
6.Remarque :
On
pourrait envisager
desrègles
de décisionaléatoires,
i.e.remplacer l’ap- plication
S par une distribution deprobabilité
surA ;
cetteconception peut
être utile dans desproblèmes
voisins de ceux de l’A. D.classique
tels que larégression
d’une variablequalitative
sur des variablesquantitatives qui
est étudiée en 3èmepartie.
Proposition
Si les mesures
Pi possèdent
des densités pi parrapport
à une mesure Msurx,
les
regions Ri - G03B4*(i), i~1 , 2 ,
... , kqui
minimisent le cout moyen deserreurs de classements sont définies par
Démonstration -
Nous utiliserons la méthodeclassique
de recherche d’unerègle
deBayes (4).
On
peut
écrireEx.03B8[1(03B4(X), 03B8)]
=EX[E03B8/x[1(03B4(x), 8)] )en désignant
parE(X,8)’ Ex, E8/x
lesespérances prises respectivement
pour -la loi ducouple (X, 6),
la loimarginale
de X et la loi de 0 conditionnée par X = x, c’est-à-dire la loi aposteriori
de 8quand
on a observé X, en sorte que s’il existe unerègle
03B4*minimisant
E03B8/x[1(03B4(x), 0)] pour
toutx~X,
elle minimiseraEx,03B8[1(03B4(X),03B8)].
Comme
l’espace
A des décisions estfini,
une tellerègle
existe. Elle est dé- finie par x - al tel queLa
règle 03B4*
conduit donc àaffecter
un x donné au groupe 1 minimisant le coût moyen de l’erreur de classement de ce xCalculons
E03B8/x [1 (am , 03B8)].
La
probabilité, x
étantdonné,
que 03B8 =03B8 i est d’après
le théorère deBayes :
2.2.3. - Etude du cas
particulier
où on pose1(ai, 0 1)
= C>0 pour tou t i ~ 1(Toutes
les erreurs de classement coûtent le mêmeprix)
Alors le critère de classement est :
Par suite,
on affecte x à lapopulation El
dont laprobabilité
aposteriori,
x’tant donné,
est laplus forte,
cequi paraît
très naturel.Dans la
pratique,
il est intéressant de calculer lesp(03B8i/x), i~1, 2, ...
kcorrespondant
à un élément x à classer car il sepeut
que la classe choisie soit très peupréférable
à uneautre,
ou au contraire très nettementpréférable
àtoutes les autres.
Remarques :
1/
Si on fait c =1,
laperte
moyenne attachée à unerègle
de classement 6 devient laprobabilité
d’erreur de classementqui
est doncsoit
où
Pi(G) désigne
laprobabilité
de l’ensemble G de Xquand
8 =8i,
i.e. pour lamesure de
probabilité 8 i.
2/
Si lesprobabilités
apriori
ne sont pas connues, on est souvent conduit à 1les supposer toutes
égales àk.
On est alors conduit à affecterx à
lapopulation El qui
lui donne laplus grande probabilité
d’être observé. où laplus grande
vraisemblance.
La
règle
d’affectation est alors unerègle
du Maximum de vraisemblance.3/
Onpeut
aussi introduire lesrisques
d’erreur de classement attachés àchaque sous-population Ei,
i~{1, 2,..., k}
soitai(6)
est laprobabilité
des erreurs de classement attachée à larègle
6quand
les individusproviennent
deEi (C’est
lerisque
de 1èreespèce
de la théorie des testsquand
k =2).
On
peut
vouloir limiter certains ai ; parexemple
dans lediagnostic médical,
on
peut
vouloir limiter lerisque
de déclarer non-malade ou atteint d’une affec- tationlégère (tumeur bénigne
parexemple)
un malade grave (tumeurmaligne).
On
peut
aussi chercher unerègle qui
minimise leplus grand
desrisques ci(5), i~ 1, 2, ... ,
k i.e.qui
minimise Max ai(6).
i El, 2,... k
Une telle
règle
estappelée règle
du Minimax. Elle seplace
dansl’hypothèse
la
plus pessimiste (On peut
montrer que c’est unerègle
deBayes correspondant
à une distribution a
priori
pour 0 dite la moinsfavorable).
On montre que les
03B1i ()
sont touségaux,
mais la recherche d’une rè-gle
du minimax n’est engénéral
pas commode.2.2.4 -
Application pratique
de latechnique probabiliste
Il faut connaître les
probabilités
apriori
qi des différentessous-populations,
les valeurs
ci/l de
la fonction de coût et enfin les lois deprobabilité Pi
de X pourchacune des
sous-populations.
1/
Cas d’ungrand
échantillonDans la
pratique quand
ondispose
d’ungrand
échantillonE,
onpeut
estimer les qi par les effectifsni/n
des groupesG*.
Ilparaît plus
difficile d’estimer lesdistributions
Pi
par des distributions observées pour X sur les groupesG;,
si ladimension p de X n’est pas très faible ou si X est
continue,
ou a certaines de sescomposantes
continues et onrisque
d’obtenir desfréquences
nulles pour un bon nombre de classes de valeurs pour X ERp.
Il faut alors faire
appel
à des méthodes d’estimation des densités deproba-
bilité pour une variable
multidimensionnelle, qui peuvent
êtreparamétriques
ounon, selon la connaissance a
priori
que l’on a sur les loisPi(x).
On
montre, (cf. (5)),
que si les estimateurs obtenus sontconvergents quand
l’ensemble des ni tend versl’infini,
larègle
estimée6*
converge vers larègle
op- timale03B4* ;
de même lesprobabilités
estimées d’erreurs de classement & etâi
etla
perte
moyenne estiméeconvergent
vers les valeurscorrespondant
à larègle
op-timale S *
bien que ces estimateurs soient souvent des estimateurs biaisés pardéfaut,
c’est-à-direoptimistes,
des valeurscorrespondantes
pour5*.(ceci
a lieusi les estimateurs des densités sont sans biais et
plus généralement
siE
[i i(x)]
qi pi(x)
pour presque tout
x~X).
Le même auteur donne une
bibliographie
commentéeimportante
concer-nant les méthodes d’estimation de densités de
probabilité,
et deprobabilités
d’erreurs de classement en
analyse
discriminante.En ce
qui
concerne lesCi/l’
valeurs de1(ai/03B81),
si on n’a aucune idée deleurs
grandeurs respectives,
on les supposera touteségales.
Si on aquelqu’idée
sur leurs valeurs on
peut envisager
de faire des essais avec différentssystèmesde
valeurs et comparer les résultats
obtenus,
enparticulier
pour le classement des in- dividus de E dont on connaît le classement réel.Il est en effet
toujours
intéressant deregarder
ce que donne laprocédure
trouvée pour les individus de
8,
et enparticulier
de s’intéresser à laproportion
(E)
des erreurs de classement de ces individus et aussi auxproportions i(E)at-
tachées à
chaque
souspopulation G*i.
On a
2/
Casparticulier
où on suppose quePi
est une loi normale de moyenne03BCi
et de matrice de covariance Y,
identique
pour toutes les valeurs dei,
et que le coût des erreurs de classement est constant :ci/l
= c , i ~ 1.et
On a donc
(si,
a été définie en2.1.) et gi = mi
V i.On retrouve donc les fonctions discriminantes linéaires
l)1/i(x)
pour définirles
régions R1,
mais le critèred’appartenance
àRI
est :alors que dans la
technique géométrique
c’était5wi(x)
> 0.On retombe exactement sur le même critère
quand
qi = ql Vi,
i.e.quand
toutes les
populations
ont mêmesprobabilités
apriori.
Dans la
pratique
les03BCi
et E sont inconnus et on estime lesLu’
par les moyen-nes observées des groupes soit
gi
(notéesplus
souventE)
et 2 par la covarianceempirique
dans les groupesdéjà
définie en 2.1. sous la dénomination de E (Onprend
aussiparfois
pour tenir
compte
du faitqu’on
a estimé k moyennes degroupes. E *
est un es-timateur sans biais de E . Cela ne
change
rienquand
les qi sont touségaux
ouquand
n estgrand
devantk).
Les estimateurs
correspondant
des densitéspi(x)
sontconvergents,
aussi les résultats énoncés en1 / s’appliquent-ils,
en cequi
concerne la convergence de la solutiontrouvée,
mais non en cequi
concerne le biais desprobabilités
d’erreursde classement car les estimateurs des densités sont biaisés. Les études faites dans
ce cas
particulier (cf.
références commentées dans(5)
p.118),
semblentindiquer
que là encore on a un biais par
défaut,
c’est-à-dire une estimationoptimiste
desprobabilités
d’erreur de classement.On trouvera dans
(6)
des estimateurs sans biais etparamétriques
des den-sités
pi(x)
dans ce cas.2. 2. 5 - Test de
signification
del’influence
d’unevariable,
parexemple xp , après prise
encompte
des p - 1premières
variables.Application
à l’A. D .stepwise.
On teste habituellement si la
probabilité
dexp
conditionnée par les xi , i =1= ppeut
être considérée comme étant la même pour les différentespopula- tions 03B8i, i~1, 2, ... , k.
Si
oui,
celasignifie
que,après prise
encompte
de x 1, x2,...,xp-1, xp
n’est d’aucune utilité pour discriminer entre les9;.
Sinon, xp peut apporter
une information pourdiscriminer,
mais cettepossi-
bilité n’est nullement une certitude.
Le test habituel
répond
donc à laquestion : xp
est-ilsusceptible d’apporter
une information
supplémentaire
pourdiscriminer,et
non à laquestion
réelle :xp
améliore-t-il effectivement la
discrimination, c’est-à-dire,
diminue-t-elle laperte
moyenne, ou la
probabilité
des erreurs de classement dans le cas d’un coût d’er-reur constant.
Il est
généralement
difficile d’estimer laperte
moyenne ou laprobabilité
des erreurs de
classement,
autrement que directement àpartir
des résultats ob- tenus avec larègle estimée b
pour les individusde E,
sauf dans le cas de k = 2 groupes, sous leshypothèses
denormalité, d’égale
covariance etd’égale probabi-
lité à
priori
pour les deux groupes etd’un
coût d’erreur constant.Cas de 2 groupes et d’une distribution normale de même covariance pour les 2 groupes
Il
n’y
a alorsqu’une
seule fonction disctiminante et laprobabilité
d’erreurde classement est
(1) :
où 03A6 est la fonction de
répartition
de la variablenormale
centrée réduite etf12 = (Lui - 03BC2)’03A3-1(03BC1 - 03BC2)
est le carré de la distance de Mahalanobis entre les deux groupes.a est donc une fonction décroissante de 42 et on est amené à étudier com- ment varie
03942 quand
on passe de p à p -1,
etplus généralement
à p - q, varia- blesXi (8).
Onpeut
calculerexplicitement W2 = 2 _ 03942p-1
et montrer que03C92p 0,
donc03B1p cip-1.
Dans lapratique
on nepeut qu’estimer 02
par la dis- tance de Mahalanobisempirique D 2
et en déduire un estimateur pour aqui est,
on l’adéjà
dit en2.2.4, 1°,
biaisé pardéfaut,
aussi a-t-onremplacé D 2 par
d’autres
expressions 02 tendant
à réduire ce biais(8).
Cesexpressions
ne crois-sent
plus
nécessairementquand
pcroît,
en sortequ’on peut prendre
comme cri-tère de
suppression
dexp, 6p - 2p-1
0.Cochran
(9)
a étudié lepouvoir
discriminant de l’ensemble des variablesXi,
i =1, 2,
... , p, caractérisé parAp,
en fonction de celui de chacune de cesvariables caractérisé par
d2i = 2
en vued’éliminer,
avant de calculer la fonctiondiscriminante,
un groupe de variables dont lepouvoir
discriminant pa- raît faible. Un examen de l’effet de corrélations entre variables dans un certain nombre de cas luisuggère
les conclusions suivantes :a)
Une variable corréléenégativement
aux autresapportera
sans doute une contributioncomplémentaire plus importante
que cequ’on
aurait pu attendre de sonpouvoir
discriminantindividuel,
tandisqu’une
variable corréléepositive-
ment fera l’inverse.
b)
Si la contribution d’un groupe de qvariables, prédite
ensupposant
l’in-dépendance
desvariables,
et donc mesuréepar Y d2 ,
estfaible,
il est peu pro-bable que sa contribution effective soit
importante.
C’est la difficulté du calcul de a
qui
a conduit à essayer de tourner la diffi- culté avec le test habituelqui
est d’une mise en oeuvre aisée sous leshypothèses
de normalité et
d’égale
matrice de covariance pour lesPi.
En effet on est ramenéà tester si les
hypersurfaces
derégression
deXp
sur lesXi,
i p, sont ou nonconfondues
(les hypothèses d’égale
covarianceimpliquent
leurparallélisme).
Onest donc ramené à un
problème classique
decomparaison
de krégressions
li-néaires
multiples qu’on
résoud parl’analyse
de covariance(cf.
parexemple (7)).
Si la
réponse
au test est :acceptation
del’hypothèse
nulle : pas d’informa- tionsupplémentaire,
onpeut juger
inutile de pousserplus
loin dans la mesure oùon ne le désire pas, car il ne faut pas oublier
qu’en
théorieclassique
des tests onest a
priori
favorable àl’hypothèse
nulle.Si la
réponse
est :rejet
del’hypothèse nulle,
si on souhaite vraiment limiter le nombre des variablesexplicatives,
il faut examiner sixp
améliore effective-ment la discrimination.
Proposition
de tests pourjuger
sixp
amélioreeffectivement
la discrimina-tion,
sousl’hypothèse
de normalité etd’égale
covariance desPj,
basés sur le testde Wilks de
comparaison
sur l’échantillonE,
des moyennemi, j
=1, 2,
...,k,
des k groupes
Pour
pouvoir
trouver unerègle
de décision8* qui permette
de discriminer entre les k groupes sans que lerisque
d’erreur soittrop grand,
il faut que les k lois deprobabilité Pj
soient effectivement différentes.Avec les
hypothèses faîtes,
seules leursmoyennes Il:!. peuvent diférer,
et ondispose
entre autrestests, du
test de Wilks basé sur le critère U= W T
pour tes-ter
l’hypothèse
nulle Hd’égalité
deslil, j
=1, 2, ... ,
k[(1)
et(10)].
W et T sont
respectivement
les matrices de covarianceempiriques
"dansles
groupes" ("within")
et totale.(cf.
2.1 où W étaitdésignée par 03A3).
On a
toujours
U1,
et on sait que si H estréalisée,
U a une distributionUp (n-k, k-1)
deWilks,
tandis que si H n’est pas réalisée U a tendance à être in- férieur àUp,
d’où unerégion
derejet
de seuil a de la forme UUa
avec1 er test
(très statistique)
Pour
juger
sixp
améliore effectivement ladiscrimination,
nous proposons donc de calculer lesstatistiques U(p)
etU(p-1) correspondant respectivement
à l’ensemble des p variables xi et aux p - 1
premières
et de déterminer les pro- babilitésP[Up (n-k, k-1) U(p)] = 03B1(p)
etP[Up-1 (n-k, k-1) U(p-1)]
=03B1(p-1).
Selon que l’on a
a(p) 03B1(p - 1 )
ou non, on conservera la variablex p
ouon l’éliminera.
L’inconvénient de la méthode est d’une
part d’exiger
le calcul deU(p)
etU(p-1),
d’autrepart
le fait que la loi de Wilks n’estgénéralement
pas connue exactement mais seulementapprochée.
En fait la
plupart
des programmesclassiques d’analyse
discriminante (et enparticulier
le programme B.M.D. 07. Md’analyse
discriminante"stepwise") pré-
voient le calcul de U et le test de
l’hypothèse
H[cf. (10)
et(11 :
8c.4)
"Testde l’information additionnelle
apportée
par un groupe devariables"].
Par ailleurs on
peut
montrerqu’on
atoujours U(p) U(p-1)(1)
et que lerapport U(p , p - 1)
= U - 1 )
est tel que1 - U(p,p - 1) U(p, p - 1)
n - (k+p-1)
k - 1 est
égal
à lastatistique G(p),
utilisée enanalyse
de covariance pour testerl’hypo-
thèse
Hl
de même distribution dexp
conditionnée par les xi , i =1, 2, ... ,
p - 1 et
qui
sousHl
est distribuée comme F[k - 1,
n -(k
+ p -1)].
Ayant
calculé cettestatistique
pourprocéder
au test habituel designifica-
tion de l’influence de
xp,
il est facile d’en déduireU(p,
p -1)
et par suite(1) Ce résultat ne permet pas d’admettre qu’en première approximation les lois de
Up (n -
k, k - 1) et deUp _, (n -
k, k - 1) différent peu et d’en déduire le critère simple :Remarques
1/
C’est le fait queU(p)
soit au
plus égal
à 1 et fonction deG(p) qui U(p - 1)
nous a fait renoncer à définir un test basé sur
U(p,
p -1)
etqui
serait de la forme :conserver
xp
siUPIP-1
X où À est une constante àdéterminer,
car ce test se-rait
équivalent
au test deH1,
aurisque
aadopté près.
2ème test
(de
caractèreplus géométrique
etempirique)
L’interprétation géométrique
deU(p)
commerapport
des carrés des vo-lumes de deux
parallèlotopes
à p dimensions deRn [(1)
et(10)], qui
le rend ho-mogène
à lapuissance 2pe
durapport
de deuxlongueurs,
conduit à comparerU(p)1/p
etU(p - 1)1/p-1
et àadopter
unerègle
de la forme : conserverxp
siU1/p(p)
U1/p-1(p-1) 1,
ouplus généralement
siU1/p(p) U1/p-1(p-1)
À où Xpourrait
être une cons-tante
indépendante
de p et auplus égale
à 1.(On pourrait prendre
X de tellefaçon
que pour p =1, U(1)
Àcorresponde
à une différencesignificative
desmoyennes de la variables
xp considérée,
à unrisque
a àdéfinir,
cequi
conduit àsoit
On
peut
écrireen sorte que la
règle
serait : conserverxp
siU(p,p-1) 03BBp-1 U1/p(p)
où X estfixé,
03BB 1. Onpeut
penser que ce deuxième test estplus "robuste" que
le pre-mier,
vis-à-vis d’écarts auxhypothèses
faîtes sur les lois deprobabilité Pj.
Examen du cas où il y a non corrélation
empirique
dexp
avec les xi, i p,à la
fois
dans les groupes et pour l’ensemble de l’échantillon.Ce cas
apparemment
trèsparticulier,
que nous examinons pour mieux com-prendre
le testproposé,
se trouve réalisé pour les "variablescanoniques"
del’analyse
factorielle discriminante(cf.
2èmepartie 2.3)
La
statistique
G du test del’hypothèse Hl
de même distribution dexp
con- ditionnée par les xi, i p dans les groupes estoù