R EVUE DE STATISTIQUE APPLIQUÉE
J EAN -M ARC D EVAUD
Discrimination par l’ajustement de variables indicatrices
Revue de statistique appliquée, tome 32, n
o3 (1984), p. 23-41
<http://www.numdam.org/item?id=RSA_1984__32_3_23_0>
© Société française de statistique, 1984, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
23
DISCRIMINATION PAR L’AJUSTEMENT DE VARIABLES INDICATRICES
Jean-Marc DEVAUD ESCP - Département A TI 79, Avenue de la République 75011 Paris
RESUME
Parmi les méthodes statistiques multidimensionnelles, la discrimination est un domaine
encore largement ouvert. Une
façon
possible de traiter cette question consiste à estimer laprobabilité
d’appartenance à une classe pour un individu donné. L’objet de cet article est de décrire une méthode donnant des estimations linéaires de cesprobabilités
à l’aide derégressions
multiples. Cette méthode adéjà
étéproposée
sous le nom de "Multivariate Nominal scale Ana-lysis" (M.N.A.) mais l’approche
présentée
ici permettra de considérer chaque individu commeun point d’un espace de dimension k - 1 (pour une discrimination sur k classes). De plus,
cette approche fournit des
règles
commodes d’affectation d’un nouvel individu à l’une des ksous-populations. Les modalités des variables qualitatives peuvent aussi être
représentées
gra-phiquement dans l’espace de dimension k - 1 et il est possible d’introduire des variables quanti- tatives parmi les variables explicatives. On montre aussi comment traiter le cas où les classes ont des effectifs
déséquilibrés
et, enfin, un exemple d’application estprésenté.
ABSTRACT
Among multivariate statistical methods, discrimination is still a wide opened field. A possible way to deal with that problem consists in estimating the probability to belong to a definite population for an individual. Our purpose is to describe a method giving linear esti- mates of these probabilities with linear regression. This method has already been
proposed
and called "Multivariate Nominal scale Analysis (M.N.A.) but the approach presented will
allow to consider each subject as a point of a (k - 1)-dimensional space (for a discrimina- tion over k groups). Furthermore this approach gives convenient rules to allocate a new indivi- dual to one of the k populations. The categories of the qualitative variables can also be graphi- cally
displayed
as points in the (k - 1)-dimensional space and quantitative variables can be introduced among the explanatory variables. We also study how unbalanced groups can be taken into account and, finally, an example is discussed.INTRODUCTION
La discrimination est une
préoccupation déjà
ancienne des théoriciens et despraticiens
de lastatistique
et del’analyse
des données. La voguequ’elle
a pu con- naître tient sans doute d’unepart
à la richesse desproblèmes méthodologiques qu’elle
conduit à résoudre et, d’autrepart,
au nombre et à la variété desapplications
concrètes
qui
entrent dans son cadre. Plusieurs travaux desynthèse
ontdéjà
vu lejour
sur cesujet.
On citera enparticulier
ROMEDER(1973),
ULMO(1973),
GOLDSTEIN et DILLON
(1978)
et NAKACHE(1980).
Les méthodes de discrimination où des
prédicteurs
sontqualitatifs
constituentun cas
particulièrement intéressant,
là aussi tant sur leplan méthodologique
queRevue de Statistique Appliquée, 1984, vol. XXXII, n° 3
Key-words :
Discrete discriminantanalysis,
Multivariateregression,
Geometricaldisplay,
Allocationrules, Dummy
variables.24
sur celui des
applications.
Ceproblème
aégalement
faitl’objet
debeaucoup
derecherches ;
onévoquera
à ce propos des travaux de TENENHAUS et BOUROCHE(1970)
et MORGAN etSONQUIST (1963)
concernant lasegmentation,
ceuxpré-
sentés par
LEBART,
MORINEAU et TABARD(1977)
visant àadapter l’analyse
des
correspondances multiples
à la discrimination ainsi que ceux de SAPORTA(1977)
et de DAUDIN(1978). Malgré
toutes lesapproches qui
ont étéproposées,
il semble que le
problème
de la discrimination surprédicteurs qualitatifs
mixtesreste encore assez
largement
ouvert.Les propos
qui
suivent ont pour but deprésenter
uneapproche
dont leprin- cipe
consiste à"expliquer"
les indicatrices associées à la variable définissant les classes à discriminer.Après
avoirexposé
le cadre danslequel
s’insère cetteméthode,
on en donnera une
interprétation géométrique permettant
lareprésentation
simul-tanée,
dans un espace de faibledimension,
des individus étudiés et des modalités des variablesqualitatives. Enfin,
onévoquera
lesproblèmes posés
par le cas où les classes à discriminer ont des effectifstrop déséquilibrés
et onprésentera
unexemple d’application.
I. MODELISATION DU PROBLEME DE DISCRIMINATION
Soit
y
une variablequalitative prenant
kmodalités. y
définit unepartition
de
lapopulation
étudiée E de n individus(1 El = n)
en ksous-populations
notéesE1,..., Ek.
On cherche à"expliquer" y
par p variablesexplicatives X1,...,Xp.
XI,
... ,Xp pourront
êtrequantitatives
ou des indicatrices associées à desvariables
qualitatives.
Dans le cas où des indicatricesfigurent parmi
les variablesXi,
on sup-posera avoir
pris
les"précautions d’usage"
pour que la matriceX,
X =[In, xi, ..., Xp ],
soit deplein rang( 1 ).
On notera
Yh
l’indicatrice associée à la he modalitéde y (donc
attachée àsous-population Eh).
Plaçons-nous
dans le cassimple
où k = 2. Onpeut alors,
pour le ie individu deE,
considérer la variable de BernoulliYil
définie comme suit :Yil
= 1 si le ie individu de Eappartient
àEl, Yi1
= 0 sinonavec Prob
[Yi = 1]
= ?Ti’On constate immédiatement que les réalisations des
Yl i
=1, ... , n)
sont lesvaleurs
prises
par l’indicatrice attachée à lapopulation E1, 03C0i étant,
pour sapart,
la
probabilité d’appartenance
àEl
du ie individu.Notre
problème d’analyse
discriminante va donc consister àestimer ?Ti
enpré- supposant
que 7T;dépend
des valeursprises
par les variablesexplicatives
sur le ie in-dividu de E. On notera
Xji
la valeurprise
parXj
sur le ie individu deE (j = 1,
...,p).
Or,
on sait bien queE(Yi1) =
03C0i. Paranalogie
avec larégression
linéaire où leproblème
estpécisément
d’estimerE[Yi1] t Xl =
xli, ... ,Xp = Xpi],
nous pou-vons donc
envisager
d’estimer laprobabilité d’appartenance
àEl
enrégressant Y 1
(1) Dans la suite, on supposera que chaque colonne correspondant à une modalité ex- plicative est
égale
à la différence entre la colonne de l’indicatrice associée et celle de l’indica- trice associée à la dernière modalité de la variable qualitative considérée.Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
25
sur
X 1,
... ,Xp .
L’inconvénient de cetteapproche
tient à ce que la variable à ex-pliquer
étant uneindicatrice,
d’unepart
iln’y
aplus homoscédasticité,
cequi
faitperdre
à l’estimateur des moindres carrés ordinaires son caractèreoptimal
au sensdu théorème de
Gauss-Markov,
d’autrepart
leshypothèses
de normalité n’étantplus vérifiées,
lesstatistiques
utilisées habituellement dans les testsperdent beaucoup
deleur intérêt.
Enfin,
lesprobabilités
estimées à l’aide de larégression
linéairen’appartien-
dront pas forcément à l’intervalle
[0, 1].
Pour remédier à ce dernierinconvénient,
on
peut
proposer de faire unerégression logistique
au lieu d’unerégression
linéaire.Cette
approche
revient àestimer 1fi
nonplus
à l’aide d’une fonction linéaire desXji
mais avec une fonction
logistique :
L’estimation
de 1Ti
sera alors par constructioncomprise
entre 0 et 1. On es-time alors les
paramètres 03B20, 03B21,
... ,03B2p
par le maximum de vraisemblance et on teste la validité du modèle par lelogarithme
durapport
de vraisemblance. Tous cesaspects
sontdéveloppés
par COX(1970).
Onpeut
aussi trouver desjustifications plus
satisfaisantes à l’utilisation d’une fonctionlogistique
dans DAY et KERRIDGE(1967).
Malgré
les inconvénientsévoqués plus haut, l’approche
consistant àrégresser
linéairement
Y 1
surXl,
... ,Xp
nous a parudigne
d’intérêt. Onpeut
en effet in-terpréter
lesprobabilités
estimées comme des "indicateursd’appartenance
auxclasses" et en déduire ainsi des
règles
d’affectation d’un nouvel individu. Nous ver- rons aussiqu’on peut
trouver uneinterprétation géométrique fournissant
unerepré-
sentation simultanée des individus et des modalités des variables
qualitatives. Enfin,
et sur le
plan pratique,
cepoint
n’est pasnégligeable,
unsimple
programme infor-matique
derégression
suffit pourpouvoir
utiliser cette méthode.Il. ECRITURE DU MODELE DE BASE
II.1. Différentes
expressions
duproblème
Revenons au cas
général
où l’on doit discriminer sur k classes.L’approche proposée
consiste donc àopérer
krégressions multiples.
Chacune d’elles consistera àrégresser
une indicatricede cu
surX 1 ’ ..., Xp.
On cherchera donc kjeux
de para-mètres
03B21, ..., 03B2h,..., 03B2k -
répondant
auxproblèmes :
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
26
où
!!H.t
est la norme euclidienne associée à la matrice identité d’ordre n, notéeIn.
Cette méthode a été
proposée
par ANDREWS et MESSENGER(1973)
sousle nom de "Multivariate Nominal scale
Analysis" (MNA).
Nous proposons pour notrepart quelques compléments qui,
noussemble-t-il,
devraientpermettre
de la rendreplus exploitable
dans lapratique.
Il est
possible
de donner à ceproblème
deuxinterprétations équivalentes.
" D’une
part,
en seplaçant
sur Rnk,
onpeut
constater que la recherche de(31, ... , 03B2k
se ramène à rechercher la matrice03B2, 03B2
=[03B21| ...|, 03B2k] permettant
d’ajuster
au mieux le tableaudisjonctif complet
Y associéà y,
Y =[Y1| ... 1 yk].
En
effet,
on doit alors résoudreOr,
en
posant : Yh (e)
= valeurprise
parY h
sur l’individu e de EX
(e) = {1, X1 (e),
... ,Xp (e)}
=ligne
associée à l’individu e dans X et" Le minimum de
(2)
sera donc atteint pour lamatrice j8
dont les colonnes03B2h (h
=1,
... ,k)
sont les vecteurs deparamètres
estimés dans larégression
deYh
sur les colonnes de X.
D’autre
part, (3) peut
encores’écrire,
en inversant lessignes
sommes :en
posant Y (e)
Soit encore
(4)
Or,
pour tout individu e deEh, Y (e)
a toutes sescomposantes
nulles à l’ex-ception
de lahe qui
vaut 1. Nous noteronsCh
cek-uplet
caractérisantl’apparte-
nance à la classe
El.
Donc :Minimiser
(5)
s’écrit alors :Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
27 On constate donc que MNA a une
interprétation
immédiate dansRk.
II.2. Une
propriété
du modèleSoit W le sous-espace vectoriel de
Ru engendré
par les colonnes de X rap-porté
à la basecorrespondante.
On sait queYh, Yh = X03B2h
est laprojection
ortho-gonale
deYh
sur W au sens duproduit
scalaire usuelYh
=Proj w Yh.
II.3.
Remarque
Si,
enthéorie,
laprésence
de variablesXj quantitatives
ne pose pas de pro-blèmes,
enpratique,
si les valeursprises
par ces variables sontgrandes
devant1,
le faitd’ajuster
les valeurs en 0-1 des indicatrices conduira à trouver des13t quasiment
nuls,
voire nuls à l’arrondi de l’ordinateurprès.
Pour contourner cette
difficulté,
onpeut
bien sûr travailler sur desXj
cen-trées-réduites mais on
peut
aussi leur faire subir la transformation suivante :où
Xjmin (resp. Xjmax) représente
laplus petite (resp. grande)
valeur observée deXj.Onaalors:
Les
Xm
sont alors"comparables"
aux colonnescorrespondant
aux indica-trices dans
X.
Il est alorspossible
de constater que :X*j est
donc une variable "centrée-réduite" enprenant
la demi-étendue comme in- dicateur de tendance centrale et l’étendue comme indicateur dedispersion.
Revue de Statistique Appliquée, 1984, vol. XXXII, no 3
28
III.
ASPECTS GEOMETRIQUES
ET VISUALISATIONSOn a vu en
(5)
que MNApouvait
trouver uneinterprétation
dansRk;
nousallons
développer
cetteinterprétation.
III.1.
Principe
del’interprétation
dansRk
A
chaque
individu e deE,
onpeut
donc associer unk-uplet (Y 1 (e),
... ,Yk (e))
que nous noteronsY (e). Y (e) peut
êtreinterprété
comme unpoint
d’unespace affine de dimension k. Nous pourrons donc
représenter chaque
individu e" k
"h
par le
point Y (e).
Deplus,
on a vu que, pour tout e deE, 03A3 Y (e)
=1 ;
tousles
Y (e)
sont donc dans un espace de dimension k - 1 que nousnoterons Lk
etque nous
appellerons "espace
des classes".De
plus,
lesk-uplets Cl,
... ,Ch,
... ,Ck qui
caractérisentl’appartenance respective
des individus aux différentes classesEl, Eh , ... , Ek peuvent,
euxaussi,
être considérés comme despoints
deLk.
Nous pourrons doncvisualiser,
dans
1"’espace
desclasses",
tous les individus de E et ils serontpositionnés
parrapport
auxpoints représentatifs
de leur classed’appartenance. D’autre part,
on voit maintenantapparaître
que le critère(5 bis)
traduit que lesY (e)
seront cons-truits de telle
façon qu’ils
soientglobalement
aussiproches
quepossible
despoints représentatifs
des classesd’appartenance.
Lorsque
k =2, ek
sera bien sûr une droite(cf. Fig. 1)
et on pourra illustrerles résultats de
l’analyse
en utilisant unhistogramme représentant
l’effectif des individus deE 1
etE2
dont lecodage
se situe sur unsegment
donné de la droiteL2 (Fig. 2).
Lorsque
k =3, C k
sera alors unplan (cf. Fig. 3)
et on pourra visualiser dif- féremment les individus suivant leur classed’origine (Fig. 4).
Si k >
3, Lk
seraplus
difficile àreprésenter.
Il estcependant possible
d’uti-liser une
analyse
encomposantes principales
pour obtenir unereprésentation
lamoins déformée
possible.
Figure 1
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
29 Figure 2
Figure 3
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
30
Les numéros sont ceux de la classe d’appar-
tenance
Figure 4
ÏÏI.2. Réaffectation des individus
L’interprétation géométrique permet
d’induire unerègle de réaffectation
desindividus. Dans le cas où le modèle est
bon, lorsque
e EEh, Y (e)
devrait êtreproche
deCh. Donc,
il semble naturel d’affecter un nouvel individu e à la classeEn
siCh
est lepoint
de{C1,
...,Ck} le plus proche
deY(e).
Autrement dit :s
Il se pose alors le choix de la distance d.
Il paraît
assez cohérent avec le restede la méthode de choisir la distance définie par la norme utilisée dans
(5 bis).
A cet
égard,
il nous semble utile designaler
deuxrésultats ;
ceux-ci sontjus-
tifiés de
façon plus
détaillée en annexe.Tout
d’abord,
onpeut
montrer que,lorsque
d est la distance associée à lanorme euclidienne
canonique,
larègle
de réaffectation devient :Par
ailleurs, lorsque
k =2,
onpeut
montrer que larègle
de réaffectation est invariantequelle
que soit la norme euclidienne utilisée et que larègle
de réaffecta-tion est la suivante :
!I!.3. Visualisation des modalités des variables
qualitatives
dansLk.
Puisque chaque
individu e de Epeut
être visualisé par unpoint Y (e)
detek
,on
peut envisager
dereprésenter chaque
modalité des variablesqualitatives
par leRevue de Statistique Appliquée, 1984, vol. XXXI I, n" 3
31
point
moyen desY (e)
des individus eprenant
cette modalité. Cetteidée,
fré-quemment
utilisée enanalyse factorielle, permettra
de"juger
visuellement" du pou- voir discriminant des différentesvariables qualitatives
selon laproximité
despoints
représentatifs
des modalités despoints CI,
... ,Ck.
Lafigure
5 illustre ces propos dans le cas où k = 3.Figure 5
Di
etDj
sont deux variablesexplicatives qualitatives.
Di1 D2i
sont des modalitésde(D;.
D1j, D2j, D3j
sont des modalitésde60j.
Y1, y2 , Y3
sont les modalitésde y.
D1i,D2i, D1j, D2j, D3j, Y1, y2 , Y3
sontpositionnés
aux centres degratité
res-p ectifs
des individusprenant
ces modalités.C1, C2, C3
sont définis commeprécédemment.
IV. PROBLEMES POSES PAR DES DONNEES
DESEQUILIBREES
Nous
allons
voirque
detrop grandes disparités
entre les effectifs|E1|,..., JE ) des
classesE1,..., E
entraînentquelques
inconvénientspuis
nous étudieronscomment tenter de les éviter.
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
32
IV.1. Position du
problème
Plaçons-nous
dans le cas où k = 2.Supposons
quelE 11 =
80 etJE 21
= 20.On sait
qu’en régression,
la moyenne des observations estégale
à la moyenne desestimations,
donc :semblablement,
On constate donc que le
point
moyen desY (e)
a pour coordonnées(0,8 ; 0,2).
Parconstruction,
le modèle a donc tendance à attirer lesY (e)
versCh lorsque Eh
est la classe laplus
nombreuse. Autrementdit,
lespoints Y(e)
seront, dans l’en-semble, plus proches
de cepoint Ch
que des autrespoints
Cs(s
~h)
et du seul faitque |Eh| > 1 ESI , s =1= h.
IV.2.
Régression pondérée
On
peut expliquer
facilement l’inconvénientévoqué
ci-dessus àpartir
du cri-tère
(5 bis).
On y constate en effet que toutes les classes y sont considérées sur le mêmeplan
sans distinction suivant leur effectif et lepoids
des classes à fort ef- fectif est tel que celles-ci attirent lesY(e)
vers lespoints Ch correspondants.
Afind’y remédier,
onpeut envisager
de modifier le critère(5 bis)
et de minimiserpermet
de donner àchaque
classe le mêmepoids.
Orsoit encore, si on note
p (e)
lepoids
del’individu e tel que p
(e)
alors :où
D-1
est la matricediagonale
d’ordre n dont les élémentsdiagonaux
sont lesquantités p(e).
Autrement dit :Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
33 On en déduit que, minimiser le critère
(9),
revient àopérer
krégressions
unidimensionnelles mais en munissant
R n
nonplus
de la norme euclidienne "cano-nique"
mais de celle associée àD-1.
On effectuera donc krégressions pondérées
où
chaque
individu aura pourpoids
l’inverse de l’effectif de sa classe.On
peut
montrer(voir
DEVAUD(1982))
que lespropriétés
du 11.2 sontconservées et que des
représentations dans J:k
sonttoujours possibles.
IV.3.
Régression
sous contraintesUne seconde
approche, également envisageable,
consiste àimposer
auxY(e),
pour les e
appartenant
à la classeE ,
d’admettreC pour
centre degravité.
En par-ticulier, lorsque
les différents individus seront biendiscriminés,
onpeut espérer
avoir des
représentations
de la forme suivante :Imposer,
pourchaque sous-population Eh,
auxY(e), e6EB
d’avoir leurpoint
moyen enCh peut
s’écrire :Revue de Statistique Appliquée, 1984, vol. XXXII, 3
34
On a donc alors :
ce que l’on
peut
écrirematriciellement, puisque Y = X03B2, Y’ X a
= N où N est unematrice
diagonale
d’ordre k dont lehe
élémentdiagonal est |Eh|.
Nous allons donc maintenant chercher la matrice
j8*
de format(p
+1, k) permettant d’ajuster
au mieux Y mais sous les contraintes que nous venons dedécrire.
En serappelant
que~Y-X03B2~2I
= Trace[(Y - X03B2)’ (Y - X03B2)],
ondevra résoudre :
ink
Intéressons-nous aux conditions nécessaires
d’optimum.
Soit A la matrice carrée d’ordre k contenant lesk2 multiplicateurs
deLagrange
duproblème.
Lelagrangien
de notreproblème
s’écrit alors :En annulant les dérivées
partielles
deL,
il vient(cf.
RAO(1973)) :
Après
avoirprémultiplié
les deux membres de 10.1 parY’ X (X’ X)-1,
on a :
d’où
à condition que
Y’ X(X’ X) X’
Y soit inversible.Or, (X’ X)-1
est une matricesymétrique
et définiepositive
de rang p +1,
onpeut
donc l’écrire sous la formeC’
C où C est une matrice carréerégulière
d’ordre p + 1.Y’ X(X’ X)-l X’
Yapparaît
donc comme une matrice de Gram dont lacomposante gramienne
estC
X’ y(2).
On doit donc s’intéresser au rang de CX’
Y. C étantinversible,
son(2) C’est-à-dire de la forme
T’T,
avec T = CX’Y.Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
35
endomorphisme
associé(une
base étant choisie dansRp+ 1)
estbijectif ;
le rangde C
X’
Y est doncégal
au rang deX’
Y. Pour queY’ X(X’ X)-1 X’
Y soit inver-sible,
ont doit donc s’assurer queX’
Y est de rang k et que p + 1 k.On
imposera
donc p + 1 k et rang(X’ Y)
= k. Il est facile de constaterque les k colonnes de
X’
Y sont constituées des coordonnées des centres degravité
des k sous-nuages
multipliées
chacune pour l’effectif de lasous-population
corres-pondante
en seplaçant
dansl’espace
affine F de dimension p + 1 naturellement associé auproblème (à
chacune des p variablesexplicatives
est associée une dimen-sion,
la(p
+1)’
variable étantidentiquement égale
à1). Ainsi,
la he colonne deX’Y
s’écrira :où
xhi
est la moyenne deXi
calculée sur lasous-population Eh.
En
général, X’
Y sera donc de rang k. Les cas où cettepropriété
ne sera pasvérifiée
correspondent
à desconfigurations particulières
des centres degravité
dans
l’espace
affine F citéplus
haut.On peut
montrerqu’il
en est ainsilorsque
certains de ces centres de
gravité
sont confondus oualignés
ou,plus généralement,
dans une variété linéaire de F.
En tenant
compte
du fait quey’ Xi3
= N et enreportant
10.3 dans10.1,
il vient :
En
notant 03B2 l’optimum
duproblème
sans contrainte(j3
=(X’ X)-1 X’ Y),
on abou-tit à :
La fonction
objectif
duproblème apparaît
clairement comme une fonctionconvexe et les contraintes sont linéaires.
03B2*
est donc bienl’optimum
recherché.Là encore
(cf.
DEVAUD(1982)),
onpeut
montrer que lespropriétés
du II.2 sont conservées et que les visualisations dans
Lk
sont encore valables.On remarquera
également
que, sous les contraintesimposées,
lesquantités
03A3 ~Ch - X(e) 0 ~2Ik introduites dans le critère (5 bis) s’interprètent
comme
les inerties de chacune des classes par
rapport
à leur centre degravité dans
V. UN EXEMPLE D’APPLICATION
Cet
exemple d’application porte
sur des données d’accidents de travail s’étantproduits
en 1978 dans unegrande entreprise
nationaliséefrançaise.
Plusprécisé-
ment, on
disposait
de 3 000 accidents s’étantproduits
dans cetteentreprise
cetteannée-là et, pour chacun d’entre eux, on connaissait le
type (accident
detrajet
ou accident de travailpendant
leservice)
ainsi quel’âge,
le sexe et le niveau hiérar-chique
de l’accidenté. Notreproblème
consistait àexpliquer
letype
d’accident par les variablesâge,
sexe et niveauhiérarchique.
La variableâge comprenait
4 mo- dalités(20-30
ans, 30-40 ans, 40-50 ans, 50-60 ans et la variable niveau hiérar-Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
36
chique
3 modalités(agent d’exécution, agent
demaîtrise, cadre).
On a effectuéles traitements sur 4
fichiers (notés FI, ..., F4)
de 1 500 accidents(tirés
au hasardparmi
les 3000)
différant les uns des autres par 10 % de leursenregistrements,
cela afin d’avoir une idée de la robustesse des résultats.Les données étant
déséquilibrées (environ
1 accident detrajet
pour 4 acci- dents enservice),
on a utilisél’approche
consistant à utiliser desrégressions
pon- dérées(cf. IV .2).
Les estimations des différents
paramètres
sur les 4 fichiersfigurent
dans letableau 1. Ces résultats
correspondent
à larégression
de l’indicatrice associée auxaccidents de
trajet ;
lesparamètres
de larégression
de l’indicatrice associée à l’autre classe s’en déduisent à l’aide des résultats vus au 11.2.On constate sur ce tableau que c’est
toujours
leparamètre correspondant
àl’indicatrice des cadres
qui
est leplus fort,
cequi
tendrait à prouver que c’est cettepopulation qui
a laplus
fortepropension
à avoir des accidents detrajet ;
les femmes venant immédiatement
après.
Al’opposé,
on trouve l’indicatrice"hommes" et,
juste avant,
l’indicatrice"exécution",
les deuxcatégories
correspon- dantes étantplutôt
atteintes par des accidents en service. On remarqueégalement
que les coefficients associés aux indicatrices de
l’âge
sont lesplus
faibles en valeurabsolue ;
le rôle de cette variable dans la discriminationapparaît
donc comme rela-tivement faible.
Comme on discrimine entre deux
classes,
larègle
de réaffectation est inva- riantequelle
que soit lamétrique
choisie et on doit comparer lesY 1(e)
à1/2
(cf. 111.2).
Il est clair que, dans le casqui
nouspréoccupe,
tous les individus d’une mêmesous-population
constituée par un croisement des variablesâge,
sexe etniveau
hiérarchique
auront le mêmescore Y1(e),
donc tous les individus d’une mêmesous-population
auront la même réaffectation. Les valeurs desY1(e)
associésà
chaque sous-population figurent
dans le tableau 2.Globalement,
pour lesquatre fichiers,
lepourcentage
d’individus mal réaf- fectés est de l’ordre de 21 %. Sur les fichiersFI, F2, F3,
onaffectera,
dans laclasse des accidents de
trajet,
tous lescadres,
les"femmes-maîtrise",
les "femmes- exécution" ainsi que les hommes-maîtrise de 50 à 60 ans ; les autres sont affectés dans la classe accidents en service. Sur le fichierF4,
larègle
est modifiée : les"hommes-maîtrise" sont tous affectés aux accidents en service. Il est
possible,
à cet
égard,
que laprésence
de la variableâge, qui
semble avoir unpouvoir
dis-criminant assez
faible,
soit àl’origine
de cesquelques "perturbations"
dans larègle
de réaffectation.Sur la
figure 7,
on areprésenté
les modalités des variables(variables expli-
catives et variable
expliquée)
dansl’espace L2
pour les 4 fichiers commeindiqué
au 111.3. Les valeurs des abscisses des
points représentatifs
des modalités sontdonnées dans le tableau 3
(l’origine
de l’axe est lepoint C2
associé au accidentsen
service).
On constate que lespoints
"cadres" et "femmes" ont des abscissessupérieures
à celle dupoint "trajet"
alors que celles despoints
"hommes" et"exécution" sont inférieures à celle du
point "service",
cequi
met en évidence lespropensions
des cadres et des femmes aux accidents detrajet
et celles des hommes et desagents
d’exécution aux accidents en service.Toutefois,
on constateégalement
que les femmes sontplus
nettement au-dessus dupoint représentatif
"trajet"
que les hommes au-dessous dupoint "service",
cequi
traduit que la pro-pension
de femmes pour les accidents detrajet
estplus
forte que celle des hommes pour les accidents en service.Enfin,
les modalités de la variableâge
sontrepré-
sentées par des
points
situés entre lespoints "trajet"
et"service",
cequi
tend àmettre en évidence le caractère peu discriminant de cette variable.
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
37
TAB LEAU 1
TABLEAU 2
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
38
Figure 7
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
39
TABLEAU III
CONCLUSION
L’approche qui
vient d’êtreexposée
a doncpermis
de donner unereprésen-
tation des individus et des modalités des variables
qualitatives
dans un espace de dimension k -1,
dans le cas d’unproblème
à k classes. On aégalement proposé
deux
façons
d’éliminer les inconvénients liés aux donnéesdéséquilibrées.
Afin d’améliorer encore cette
méthode, plusieurs
voies de recherche sontpossibles.
Enparticulier,
il conviendrait sans douted’intégrer
uneprocédure
per- mettant dejuger
del’importance
del’apport
d’unprédicteur
au modèle et, par la mêmeoccasion,
un moyen de sélectionner les variablesexplicatives
pas à pas.Une difficulté résiderait sans doute dans l’absence de normalité
évoquée
au I.On
pourrait
alorsenvisager
d’utiliser des méthodes detype
"Monte-Carlo" pour donner uneréponse
à cettequestion.
Il serait sans douteégalement
intéressant de trouver un mode dereprésentation
desprédicteurs quantitatifs
dansLk,
cequi permettrait
de les visualiser simultanément avec les autresprédicteurs.
ANNEXE :
REMARQUES
SUR LE CHOIX D’UNE DISTANCE DANSLk.
Supposons que
Rk
soit muni de la norme euclidienne associée à une matriceMinimiser d
(Y (e), Ces)
reviendra donc à minimiserqSS
Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
40
- Si
Q
estdiagonale, qis
= 0 pour i~ s ;
donc il suffira de minimiser sur slaquantité qss [1 - 2Ys(e)].
- Si
Q
estproportionnelle
àIk et,
enparticulier,
siQ
=Ik (cas
de la normeeuclidienne canonique),
tous lesqss
sontégaux ;
donc trouver le minimum desd(Y(e), CS)
reviendra à trouver le maximum sur s des YS(e).
Plaçons-nous
dans le cas où k = 2 et munissonsR2
de la norme euclidienne associée àQ, Q
=q1 q12 q2 q12] .
On a vu, auparagraphe précédent, qu’il
suffisaitalors de comparer (q1 - 2[Y1(e)q1
+Y2(e)q12])à(q2-2[Y1(e)q12 + Y2(e) q2]).Or,comme Y1(e)
+Y2(e)
=1, on
a :mais
q1
+q2 - 2 q 12
=~C1 C2 ~2Q>
0. Donc(~Y(e)-C1~2Q - C2~2Q)
est du
signe
de1
- 2Y 1 (e).
La recherche du minimum sur s ded (Y (e), C ) se
fera
donc,
pourn’importe quelle
matriceQ,
suivant la valeur deY1 (e) (Y1 (e)
>1/2
ouY1 (e) 1/2).
BIBLIOGRAPHIE
[1]
F.M. ANDREWS et R.C. MESSENGER(1973). -
"Multivariate Nominal ScaleAnalysis :
Areport
on a newanalysis technique
and acomputer
pro-gram", Survey
ResearchLetter,
Institute for SocialResearch, University
ofMichigan,
AnnArbor, Michigan.
[2]
D.R. COX(1970). -
TheAnalysis of Binary Data, Methuen,
Londres.[3]
J.J. DAUDIN(1978).
2014"Etude de la liaison entre variables aléatoires -Régres-
sion sur variables
qualitatives",
Thèse de 3ecycle,
Université Paris XI.[4]
N.E. DAY et D.F. KERRIDGE(1967). -
"Ageneral
maximum likelihooddiscriminant", Biometrics,
Vol.23,
pp. 313-323.[5]
J.M. DEVAUD(1982).2014"Discrimination
etdescription
sur variablesquali-
tatives -
Application
à des données d’accidents detravail",
Thèse de3e cycle,
Université de
Paris-Dauphine.
[6]
M. GOLDSTEIN et W.R. DILLON(1978). -
Discrete discriminantanalysis,
John
Wiley
andSons,
New York.[7]
L.LEBART,
A. MORINEAU et N. TABARD(1977). - Techniques de la description statistiaue -
Méthodes etlogiciels
pourl’analyse
desgrands
ta-bleaux, Dunod,
Paris.[8]
J.N. MORGAN et J.A.SONQUIST (1963). -
"Problems in theanalysis
ofsurvey
data,
and aproposal", JASA,
Vol.58, n°
302.[9]
J.P. NAKACHE(1980). -
"Méthodes de discrimination sur variables de na-ture
quelconque -
Théorie etpratique",
Thèsed’Etat,
Université Paris VI.[10]
C.R. RAO( 1973). -
Linear statisticalinference
and itsapplications,
JohnWiley
andSons,
NewYork,
2nd edition.[11]
J.M. ROMEDER.(1973). -
Méthodes et programmesd’analyse
discrimi-nante,
Dunod,
Paris.Revue de Statistique Appliquée, 1984, vol. XXXII, n° 3
41
[12]
G. SAPORTA(1977). 2014
"Une méthode et un programmed’analyse
discri-minante pas à pas sur variables
qualitatives", Colloque
IRIA :Analyse
desdonnées et
informatique,
Vol.1,
pp. 201-210.[13]
M. TENENHAUS et J.M. BOUROCHE(1970). 2014 "Quelques
méthodes desegmentation", RIRO,
Vol.5, n° 2,
pp. 29-42.[14]
J. ULMO(1973). 2014
"Différentsaspects
del’analyse discriminante",
Rev.Stat.
Appl.,
Vol.21, n° 2,
pp. 17-55.Revue de Statistique Appliquée, 1984, vol. XXXt!, n" 3