R EVUE DE STATISTIQUE APPLIQUÉE
A. L ECLERC A. C HEVALIER D. L UCE
M. B LANC
Analyses des correspondances et modèle logistique : possibilités et intérêt d’approches complémentaires
Revue de statistique appliquée, tome 33, n
o1 (1985), p. 25-40
<http://www.numdam.org/item?id=RSA_1985__33_1_25_0>
© Société française de statistique, 1985, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
25
ANALYSES DES CORRESPONDANCES ET MODELE LOGISTIQUE:
POSSIBI LITES ET INTERET D’APPROCHES COMPLEMENTAIRES
A.
LECLERC*,
A.CHEVALIER,
D.LUCE,
M. BLANC-INSERM U. 88, 91, Bd de l’hôpital, 75634 Paris Cedex 13
RESUME
On envisage ici, à partir d’un exemple, une utilisation
complémentaire
de l’analysedes correspondances (A.F.C.) et du modèle logistique : l’A.F.C. est utilisé dans une
première étape
comme une méthode descriptive, fournissant un cadre àl’application
du modèle logistique et aidant au choix des variables à retenir, dans une situation où les données se
préteraient
mal à utiliser d’emblée le modèle logistique.SUMMARY
"correspondence analysis and logistic model : possibility and interest of a complementary
use"
A complementary use of two statistical methods is considered here, with an exemple : correspondence analysis as a first step, and logistic model for a subgroup of variables. Some results of correspondence analysis are used in order to reduce the number of explanatory variables, or to choice variables to be explained. Some links between the two method are
stressed.
Combining an exploratory method (correspondence analysis) and a confirmatory method (logistic model) is suggested as being an adapted solution in the analysis of some
survey data, like health survey data.
I.INTRODUCTION
Le modèle
logistique permet d"’expliquer"
une variable à deux modalités parplusieurs
variablesqualitatives
ouquantitatives, prenant
encompte
le rôle propre dechacune,
et l’effet éventuel desinteractions ;
le modèle est bienadapté
à des situations où on
peut
facilement isoler une variable àexpliquer,
et unpetit
nombre de variables
explicatives pertinentes ;
ceci est le cas, bien souvent, enépidémiologie
où ce modèle estlargement
utilisé[19, 6].
Si on
s’éloigne
de ces conditionsidéales,
onpeut
être intéressé à utiliser aussi le modèlelogistique,
maisquelques problèmes peuvent
alors seprésenter :
Si les variables "à
expliquer"
sontnombreuses,
toutes ne méritentpeut-être
pas uneanalyse détaillée,
et onpeut apprécier
dedisposer
d’élémentsfacilitant le choix des variables à retenir.
Un manque de connaissance sur le
sujet
étudié a engénéral
commeconséquence
un nombre assezimportant
de variablesexplicatives
dont toutesne sont
peut-être
pas àgarder :
certaines sontredondantes,
d’autres ont unpouvoir explicatif
faible.Revue de Statistique Appliquée, 1985, vol XXXI II, n" 1
Mots-clés : Modèle
logistique, Analyse
descorrespondances.
26
Dans le cas d’une situation ainsi
partiellement exploratoire [22]
utiliserdirectement le modèle
logistique
n’est pas une bonnesolution,
même si c’estmatériellement
possible ;
legrand
nombre de modèles à essayer amène à multi-plier
les testsstatistiques,
avec lerisque
de trouver des associationssignificatives
sans aucun caractère
général ;
les effectifs faibles de certaines associations de variablespeuvent
aussi limiterlargement
à la fois lespossibilités
de mise enoeuvres et la
portée
desconclusions ;
une solutionadaptée peut
être alors deprocéder
à unepremière étape
dedescription
des données defaçon
à réduirele nombre de variables et à
disposer
d’informationssynthétiques qui
servirontde cadre aux
modèles ;
c’est cette démarchequi
estprésentée
ici sur unexemple.
Bien que le lien soit étroit entre modèle
log-linéaire
et modèlelogistique,
notre
approche
diffère de celle de J.J. DAUDIN ou C. LAURO[8. 15] qui
mettent "en concurrence" modèle
log-linéaire
etanalyse
descorrespondances ;
nous
n’envisageons
pasqu’une
méthoderemplace l’autre,
maisqu’elles
secomplètent
en étant utiliséessuccessivement ;
nous tenons aussi à nousplacer
le
plus près possible
d’une situation réelle où des contraintes d’effectif limitent lapossibilité
de certainesinvestigations,
et où legrand
nombre de variablesjustifie pleinement
le recours àl’analyse
de données.L’exemple
que nousprésentons comporte
relativement peu devariables,
mais des fichiers de taille
beaucoup plus importante
seprêtent
à la mêmeapproche [20].
Au-delà de cet
exemple
nous nous demandonsquelles
informations utilespeut apporter l’analyse
descorrespondances
vis-à-vis del’application
de modèleslogistiques.
II. LES METHODES UTILISEES
Nous avons
appliqué l’analyse
descorrespondances multiples [16],
en traitanten variables actives toutes les variables
potentiellement
àexpliquer (ici,
unensemble de variables de santé
déclarée),
et en variablessupplémentaires
lesvariables
explicatives (variables socio-démographiques
etprofessionnelles) ;
nousdiscuterons
plus
loin du choix de cetteapproche.
Nous allons
développer
cequi
concerne le modèlelogistique,
car cetteméthode est, en
France,
moins bien connue :On considère une variable à
expliquer, Z,
à deuxmodalités, (oui-non,
Z = 1 pour le
oui,
0 pour lenon),
et des variablesexplicatives X i, ... X *,
quantitatives
ouqualitatives,
dont on connaît les réalisations sur unéchantil-
lon de taille n.
On se restreint ici au cas où les
X*j
sontqualitatives.
,
On note
ir=P(Z
=1) ; X1 .... Xp
sont les variables en 0 ou 1 associées à toutes les modalités des variablesX*j
moins une(choisie arbitrairement)
par variable.Xo prend
la valeur 1 pour toute observation.Dans le modèle
logistique,
7rs’exprime
en fonction deXl .... Xp
par unerelation de la forme :
Revue de Statistique Appliquée, 1985, vol XXXIII, n° 1
27
(modèle
sans termed’interaction).
Dans un modèle avec interaction
s’ajoutent
auxXK
certains de leursproduits.
La
quantité
degauche
dans(1)
estappelée "logit" ;
c’est une transformationcouramment utilisée pour les
pourcentages, qui
al’avantage d’opérer
une formede
normalisation,
et de fournir un modèlereprésentant
bien un certain nombrede situations observées de relation dose-effet
[7].
Certains
développements
enanalyse
discriminante amènent aussi à proposer le modèlelogistique
comme une méthode de discrimination[9, 11, 21] . Malgré
cette ressemblance
formelle, cependant,
lesobjectifs
sont différents : dans le modèlelogistique,
on étudie les événements rares ;l’objectif
deprévision
est leplus
souvent absent et le modèle n’est pas utilisé comme aide à la décision
[6].
Dans le cas où les
Xj
sontqualitatives,
le modèlepeut
être considérécomme une
application
du modèlelog-linéaire
à l’ensemble des variables ycompris
la variable à
expliquer [4, 10, 11 ] ;
les deuxapproches
différent engénéral
par leur écriture : il est habituel dans le modèlelog-linéaire
d’associer un coefficient àchaque modalité,
avec des contraintes sur les coefficients comme enanalyse
devariance ;
dans le modèlelogistique,
la contrainte intervient en fixant arbitraire- ment à 0 le coefficient d’une modalité par variable. Cette écriture est bienadaptée
au cas où une modalité par variablereprésente
le "niveauplancher"
d’un
risque (par exemple,
lerisque
de cancer du poumonpeut
être unrisque minimum, augmenté
par laprésence
d’un ouplusieurs
facteurs derisque).
Il serait erroné de croire que le modèle
logistique
se réduit à un casparticulier
de modèlelinéaire ;
eneffet,
les réalisations desprobabilités
7r concer- nent des groupes et non dessujets,
et leur estimation est de ce fait trèsdépendante
des variables
qualitatives
introduites.Pratiquement,
les coefficientsaK
sont estimés paritération,
le critèred’ajustement
étant leplus
souvent celui du maximum de vraisemblance[4, 12, 14].
Comme en modèle
linéaire,
ilparaît
difficile de se borner à utiliser la méthode pour estimer ou tester des coefficients et lapratique
laplus
courante consiste à comparerplusieurs modèles,
cequi
pose desproblèmes
destratégie auxquels
uneréponse possible
est uneprocédure
de pas à pas[3, 5].
Lastratégie adoptée
ici est baséesur les éléments suivants :
Dans le modèle
logistique
il estpossible
de tester unehypothèse
"modèle restreint" HOcomportant
un sous ensemble de variablesexplicatives,
contre unehypothèse
"modèlelarge"
Hlcomportant
ces variablesplus d’autres,
de lafaçon
suivante :
Soit LO
(resp. L1)
la vraisemblance sousl’hypothèse
HO(resp. Hl).
SousHO la
quantité -
2log
LO + 2log
LI suitapproximativement
unX2
dont lenombre de
degrés
de liberté est le nombre de modalitésexplicatives (indépen- dantes) présentes
sous Hl et non sous HO. Achaque
modèle est doncassocié,
en vue de
comparaisons
laquantité -
2log
L et le nombre dedegrés
de liberté(dd 1),
nombre de modalitésexplicatives indépendantes
dans le modèle.Les tests de
comparaison
entre modèles emboités interviennent ici commeindicateurs dans une
procédure,
parétapes,
de choix de modèle de lafaçon
suivante :
Revue de Statistique Appliquée, 1985, vol XXXIII, n° 1
28
Le
premier
modèleessayé comporte
toutes les variablesexplicatives (sans interaction).
Un modèlecomportant
une variableexplicative
V de moins luiest
comparé
et conservé si la différence entre lesquantités -
2log
L ne conclutpas à la nécessité de conserver V. La variable V est choisie
parmi
celles dont onpeut
penserqu’elles jouent
un rôlemineur,
au vu des intervalles de confiance des coefficients du modèlecomplet. (Ceux
ci sont donnés par le programme,comme en modèle
linéaire).
La
procédure
sepoursuit
par essai d’exclusion d’une nouvellevariable, jusqu’à
obtenir un modèlequi
nepeut
être réduit. Apartir
de celui-ci onenvisage
enfin l’introduction de termes d’interactioncomplétant
les variables retenues.La
procédure
choisie n’assure pas que le modèle final ait desqualités optimales.
III. UN EXEMPLE :
1. Les données
analysées
Les données
proviennent
d’uneenquête
en milieu detravail, auprès
de 444personnes
réparties
sur 3 sitesprofessionnels ;
unepartie
des personnesinterrogées
a un horaire de travail
normal ;
d’autres travaillent en 2 x 8(équipes
alternantes dejour)
ou en 3 x 8(par
roulement lematin, l’après midi,
ou lanuit) ;
l’intérêtprincipal
de l’étudeporte
sur les effets du travail en horaires alternants sur la santé au senslarge,
ycompris plaintes
ou déclarations desymptomes ; les
résultatsont été
publiés [13] ; l’analyse qui
suit est uncomplément,
dont l’intérêtépidémio- logique
est un peu limité par l’existence de certains biais que nous n’avons pasessayé
decorriger. (La façon
dont lesquestions
ont étéposées
n’est pas entièrementhomogène,
et il subsiste un "effetenquêteur").
L’intérêt de
l’exemple
estprincipalement qu’il
illustre une situationfréquem-
ment rencontrée dans
l’analyse
desquestionnaires
sur la santé et defaçon plus générale,
de certainsquestionnaires
centrés sur un thèmeparticulier
décrit par des variablesmultiples,
les variablesexplicatives
étant de nature socio-démographique.
Les variables de
santé, qui
ont été traitées en variables actives dansl’analyse
des
correspondances multiples,
sont l’existence ou non de : TEN Tensionélevée ;
TRE
Tremblements ;
ALT Altération de l’état
général ;
PAL
Palpitations ;
PRE
Précordialgie ;
DYS
Dyspnée d’effort ;
GAS
Gastralgie ;
ULC
Ulcère ;
FMU
Fatigue musculaire ;
FINFatigue intellectuelle ;
TAP Troubles del’appétit ;
SPP Somnolence
après
les repas ; TRA Troubles dutransit ;
Revue de Statistique Appliquée, 1985, vol XXXIII, n° 1
29 SOM Troubles du
sommeil ;
SEX Troubles
sexuels ;
CEPSymptomes céphalées ;
ASO
Angoisse somatique ;
APS Anxiété
psychique ;
CAR Troubles du
caractère ;
MEX Troubles de la sensibilité au monde
extérieur ;
DEPDépression ;
HYP
Hypocondrie ;
VIE Fait médicalement vieux pour son
âge ;
ALC Consommation
d’alcool ;
TAB Consommation de tabac.d’après
uninterrogatoire
par le médecin du travail. Par lasuite,
l’identification des modalités deréponse
est : 1 pour"non",
2 pour "oui".Les variables
socio-démographiques
etprofessionnelles
suivantes ont étéplacées
en variablessupplémentaires :
HOR Horaires de travail HOR 1 horaire normal HOR22x8
HOR33x8 SIT Site industriel SIT 1
SIT 2 SIT 3
ANC Ancienneté dans le
poste
ANC 1 3 ans ANC 2 4 à 13 ansANC 3 14 ans.
AGE
Age
AGE 1 25 ansAGE 2 26-35 ans
AGE 3 > 36 ans
CAT
Catégorie hiérarchique
CAT 1 ouvrierCAT 2 Contremaître.
2. Résultats de
l’analyse
descorrespondances multiples
On s’intéresse
principalement
à lareprésentation graphique
sur leplan
1-2
(Fig. 1)
où on asouligné
les modalités des variablessupplémentaires
dontle carré de la distance à
l’origine,
sur leplan,
estsupérieure
à5.99/nj,
oùnj
est l’effectif associé à la
modalité j ;
cecicorrespond
à uneposition significati-
vement différente de
l’origine
aurisque
5 %[16].
L’axe 1 oppose les "oui" aux
"non",
pour toutes les variables de santé.Ceci est une
configuration classique [1] ;
l’axe 2sépare
deux groupes desymptômes
ou de troubles
déclarés ;
les uns semblentplus
liés au site3,
les autresplus
liésà l’horaire en 3 x 8 et à
l’âge
élevé. Toutes les modalitéssupplémentaires
sontéloignées
del’origine (distance 2
>5.99/nj)
àl’exception
d’ancienneté moyenne,âge
moyen etcatégorie ouvrier, qui
sont des modalités soit médianes soit depoids
très
important.
Au-delà du
plan 1-2,
les modalitéssupplémentaires
sontexceptionnellement excentrées,
et les modalités de santéqui jouent
un rôleimportant
concernentpeu de
sujets : dyspnée
d’effort(17 personnes)
et "fait médicalement vieux pourRevue de Statistique Appliquée, 1985, vol XXXII I, n° 1
30
souligné : modalité supplémentaire, distance à l’origine >
2.45/nj
entouré : modèle logistique essayé.
~ : modalité intervenant positivement dans le modèle logistique.
Figure 1. - Plan 1-2 de l’A.F.C.
son
âge" (23 personnes)
sur l’axe3,
alcoolisme(12 personnes),
troubles sexuels(28 personnes)
sur l’axe 4.Les axes 1 et 2
paraissent
par ailleurs avoir unpouvoir explicatif
nettementplus élevé ;
lespourcentages
d’inertieX/1
X issus du tableaudisjonctif analysé,
sont
respectivement égaux
à 13%,
9%, puis 6 %,
5%,
5%,
lesquantités 03BB2/03A3 À 2 ,
qui
sont lespourcentages
d’inertie du tableau de Burtcorrespondant
etqui peuvent
être considérées comme des mesures mieuxadaptées,
valent : 31%,
15%, puis
7%, 5 %, 5
% .Nous avons utilisé la
représentation
sur leplan 1-2,
ainsi que lesdescrip-
tions des variables seules ou deux à deux
(tableaux croisés)
pour choisir lesRevue de Statistique Appliquée, 1985, vol XXXIII, n° 1
31 variables à retenir pour le modèle
logistique (variables
àexpliquer
et variablesexplicatives).
Pour les variables à
expliquer,
le nombre de variables à retenir était limité par des raisons matérielles(lourdeur
de la mise en oeuvre des modèleslogistiques).
7 variables ont été choisies à
partir
des critères suivants :- Exclusion des variables dont une
analyse
un peuplus
détaillée estimpossible
ou sansintérêt,
donc soittrop
rares, soit dont lasignification peut apparaître
commetrop subjective : "angoisse"
parexemple.
- Inclusion de variables intéressantes du
point
de vue des liens avecle travail en 3 x
8,
pourlesquelles
les résultats del’analyse
descorrespondances
sont insuffisamment
précis : fatigue intellectuelle,
troubles del’appétit,
somno-lence
post-prandiale,
troubles du sommeil et du caractère.- Inclusion de variables pour
lesquelles l’analyse
descorrespondances suggère
l’existence de liensprivilégiés
avec certaines variablesexplicatives :
tensionélevée et
précordialgie
ont été ainsi choisis pour confirmer par un modèle cequi apparaît
sur legraphique.
Les variables choisies sont de
plus
fortement liées aux variablesexplicatives
du
point
de vue des Khi - 2 des tableaux decontingence (voir
tableau1 ).
La variableTABLEAU 1
Khi-2 des tableaux de contingence Modèle logistique retenu
2013 Pas d’essai de modèle logistique
x Khi-2 significatif à 5%.
Revue de Statistique Appliquée, 1985, vol XXXII I, n° 1
32
"précordialgie"
est unexemple extrême,
car le lien avec le site 3 est trèsimportant (ce qui peut
être du à un effetenquêteur).
Pour les variables
explicatives l’analyse permet
de réduire le nombre de variables ou modalités :- Les sites 1 et 2 ont été
agrégés
car ils ont mêmeprojection.
Ils’agit
d’ailleurs de la même ville et du même médecin du
travail ;
- il
n’apparaît
pas nécessaire de conserver à la foisl’âge
etl’ancienneté ; l’importance
du lien entre les deux variables est bien vérifiée sur lesdonnées ;
en
conséquence
l’ancienneté dans leposte
est exclue del’analyse.
3. Modèles
logistiques
Le modèle
logistique
a étéappliqué
aux 7 variables retenues, avec les variablesexplicatives :
Horaire
(Jour, 2 x 8, 3 x 8)
Site
(1
et2,
ou3) Age (1, 2, 3)
Catégorie (ouvrier, contremaître).
La
stratégie
utilisée pour retenir un modèle est cellequi
a étéprésentée
en
II ;
parexemple,
pour"fatigue intellectuelle",
les modèles suivants ont étéessayés :
Les modèles
1, 2, 3,
parcomparaisons successives,
amènent à enlever du modèlel’âge
et lesite ;
par contre le modèle 4apparaît trop
réducteur(écart
de 4.81 entre les
quantités -
2log L,
à comparer à un Khi-2 à 1ddl).
La
comparaison
des modèles 3 et 5permet
dejuger
de l’améliorationapportée
par un termed’interaction ;
ici on retient en définitive le modèle 3 :si HOR 1 0 si CAT 1
Logit P(FIN)
1.76+ 1.54
0.72 si HOR si HOR 3 2+ 0.50 si CAT 2
dont la
qualité
se mesure parcomparaison
au modèle 6(écart
de 48.24 entreles
quantités -
2log L,
à comparer à unX2
à 3ddl).
Aucun modèle excluant l’horaire(catégorie seule,
parexemple)
n’a étéessayé,
le coefficient associé à "horaire 3 x 8"apparaissant partout
comme hautementsignificatif.
Revue de Statistique Appliquée, 1985, vol XXX)tt, n° 1
33 TABLEAU 2
Modèles logistiques retenus
Le même modèle
peut
s’écrire avec des coefficients liés par des contraintes de centrage comme enanalyse
de variance :Pour HOR
3,
CAT2,
parexemple,
laprobabilité
estimée est laplus
élevée ;elle vaut :
On trouvera dans les tableau 1 et 2 tous les modèles retenus ; par
rapport
aux
informations apportées
par les tableaux croisés(variables
de santé Xvariables explicatives),
il n’est pas étonnant de trouver des ressemblancesimportantes.
Le fait de tenir
compte
des associations entre variables(ce
que fait le modèlelogistique)
modifiecependant
certains effets : l’existence d’uneprécordialgie
déclarée n’est liée
qu’au
site 3(en
effet sur les 46observées,
44 sont du site3 !) ;
par contre l’effet de
l’âge
sur les troubles du sommeilapparaît plus
nettement dansle modèle
logistique
que dans les tableaux croisés.La
représentation graphique
del’analyse
descorrespondances (figure 1) permet
de visualiserpartiellement
les résultats des modèleslogistiques ;
surle
plan 1-2,
on a relié par une flèche une modalité"explicative"
à une variableexpliquée, chaque
fois que laprésence
de lamodalité, d’après
le modèleretenu, augmente la
probabilité
deprésenter
leproblème
de santé enquestion,
donc
chaque
fois que le coefficient associé à la modalité estpositif (avec
l’écriture du modèle
type "analyse
devariance").
Revue de Statistique Appliquée, 1985, vol XXXII I, n" 1
34
Cette
représentation graphique
semble assez satisfaisante : engénéral,
siune modalité de variable
supplémentaire
estplacée
dans la direction d’une variable desanté,
elle influe bien(positivement)
sur lafréquence
de la déclara- tion : parexemple,
travailler au site 3 augmente lafréquence
de"précordialgie"
(PRE 2)
et de "tension élevée"(TEN 2) ;
l’horaire 3 x 8(HOR 3) augmente
lafréquence
des déclarations defatigue intellectuelle,
troubles dusommeil,
de
l’appétit,
ducaractère,
et somnolenceaprès
les repas.Parallèlement,
les variables de santé sont influencéespositivement
par les modalités"explicatives" qui
seprojettent
dans les mêmesdirections,
àquelques exceptions près.
Le
graphique
nepermet
pascependant
deprévoir
defaçon
détaillée les variablesexplicatives qui jouent
un rôleimportant
pour le modèlelogistique ;
parexemple,
iln’apparaît
pasgraphiquement
que, pour lafatigue intellectuelle, l’âge
soit moinsimportant
dans le modèlelogistique
que lacatégorie hiérarchique,
alors
qu’il
l’estplus
pour les troubles du sommeil et du caractère.IV. COMPARAISON DE DIFFERENTES APPROCHES
DESCRIPTIVES,
CHOIX DES VARIABLES A
EXPLIQUER
PAR UN MODELEL’analyse
descorrespondances
aurait pu, dans cetexemple,
être utilisée différemment et onpeut envisager
au moins troisfaçons simples
de l’utiliser dans cetteoptique
decomplémentarité
au modèlelogistique :
A Variables à
expliquer
actives(notre exemple) ;
B Variables
explicatives
activesC
Analyse
du tableau decontingence juxtaposé
croisant toutes les variablesà
expliquer
avec toutes les variablesexplicatives.
A
priori, l’approche B, qui
consiste àprojeter
les variables àexpliquer
sur un
plan explicatif
est la démarche laplus proche
de larégression logistique.
Ceci
pourrait
être une raison déterminante de lapréférer
dans le cas où lesvariables
explicatives
sont nombreuses.Cependant, essayée
sur, nosdonnées, l’analyse
B est très pauvre : les variablesexplicatives
ne sont pas sinombreuses,
et les liens
qu’elles présentent
entre elles sont faciles à connaître parailleurs ;
ladescription
des relations entre variables de santé est aussi moinsinformative, puisque
tout est médiatisé par unpetit
nombre de variablesexplicatives.
D’autre
part,
avec unobjectif d’explication
detype
modèlelogistique,
l’intérêt ne se
porte
pasprincipalement
sur les relations entre variablesexplica- tives, qui
sontplutôt
considérées comme unegêne
à lacompréhension
desphénomènes,
certaine variables(l’âge
parexemple)
intervenant comme "tiersfacteur", perturbant
les relations que l’on veutanalyser.
L’approche
A estplus complémentaire,
car elleapporte
des informationssur les relations entre variables à
expliquer,
au niveau des individus.L’approche
Cpourrait apparaître
aussi comme une bonneétape préalable :
on
analyse
les relations entre variables àexpliquer
et variablesexplicatives,
sanstenir
compte
des inter-relations entre variablesexplicatives,
ce que le modèlelogistique
fait ensuite.Essayé
sur nosdonnées,
le résultat estproche
de cequi
a été retenu ici
[18].
La lecture desgraphiques
estagréable
du fait de la bonneRevue de Statistique Appliquée, 1985, vol XXXIII, n° 1
35
qualité
dereprésentation
despoints (on
ne traiteplus
un tableaudisjonctif complet) ;
sur nos données parexemple
leplan
1-2explique
80 % del’inertie ;
par contre, le fait que
l’analyse porte précisément
sur les relations entre variablesexplicatives
et variables àexpliquer complique l’interprétation :
il n’existeaucune notion de distance entre une variable à
expliquer
et une variableexplicative,
les deux
n’appartenant
pas au même espace.Quelque
soitl’approche,
la mise enoeuvre de modèles
logistiques apparaît
commecomplémentaire
enrépondant
à deuxobjectifs
non contradictoires :- Validation d’un
graphique représentant
les variables àexpliquer,
lesvariables soumises à un modèle
logistique
étant alors choisies comme formantun sous ensemble couvrant les différentes
parties
dugraphique.
- Recherche de
précisions supplémentaires,
parexemple
différenceentre deux variables à
expliquer
quel’analyse
descorrespondances distingue
mal.V.
QUELQUES
LIENS ENTRE ANALYSE DES CORRESPONDANCES MULTIPLESET
MODELELOGISTIQUE.
CHOIX DES VARIABLES EXPLICATIVES EN MODELELOGISTIQUE
De
façon générale,
lesapproches descriptives envisagées
nepermettent
pas deprévoir
l’ensemble des résultats du modèlelogistique ;
les liens existants entre les deux méthodespermettent cependant
uneprévision partielle
etexpliquent
la cohérence observée entre les deux
approches.
Dans tout ce
qui suit,
on supposera que les observations sont assez nom- breuses pour que les fluctuations aléatoirespuissent
êtrenégligées.
1. Mesures d’association entre variables
On considère ici la mesure de la relation entre une variable à
expliquer
Zet une variable
explicative Xj
toute deux à deuxmodalités,
en modèlelogistique
ou en
analyse
descorrespondances multiples ;
la relation entre Z etXj
est calculéeà
partir
du tableau decontingence :
Un résultat
classique
en modèlelogistique, présenté
parexemple
dans[23]
est le suivant :
Revue de Statistique Appliquée, 1985, vol XXXI 11, n* 1
36
Dans le modèle
logistique exprimant
Z ouplus
exactement sonlogit,
enfonction de
X.
le coefficient associé àXj
estlog (ad/cd) ;
laquantité ad/cd
est
appelée
odds-ratio.En
analyse
descorrespondances multiples,
la mesure laplus comparable
à ce coefficient est le cosinus de
l’angle
formé par les axesjoignant
le centrede
gravité
d’unepart
à la modalitépositive
deZ,
d’autrepart
à la modalitépositive
de X.(ceci
dansRn
muni de lamétrique
euclidienneusuelle),
cosinuségal
àr(Z, Xj),
coefficient de corrélation entre Z etX. ;
laquantité
nr2 (Z, Xj)
est aussi
égale au X2
decontingence
associé au tableauprécédent.
Les deux
quantités Log(ad/cb)
etr(Z, Xj)
onttoujours
mêmesigne ;
eneffet elles sont nulles pour le même
type
de tableau(indépendance),
et demême
signe
que a -(a
+c) (a
+b)/n, quantité
encoreégale
à(ad - bc)/n. (Voir exemple
enFig. 2).
TABLEAU 2X2 : COSINUS ET LOG DU ODDSRATIO
Figure 2
Conséquence
pour la lecture des résultats enanalyse
descorrespondances multiples
Si l’axe
joignant l’origine
àXj
et l’axejoignant l’origine
à Z font unangle
inférieur à
7T/2 (dans Rn,
ou sur unplan
factoriel avec une bonnequalité
dereprésentation), alors,
dans un modèlelogistique exprimant
Z en fonction deXj,
cette dernière variable intervient avec un coefficient
positif.
Revue de Statistique Appliquée, 1985, vol XXXIII, n° 1
37 Pour les variables
explicatives
àplus
de deuxmodalités,
le faitqu’une
modalité
explicative
seprojette
dans la même direction que la variable àexpliquer,
avec une bonne
qualité
dereprésentation, signifie
que cette modalité interviendraitavec un coefficient
positif
dans un modèlelogistique
où la seule variableexplicative
serait la
présence
ou l’absence de la modalité.Ce
qui précède
concerneuniquement
un modèlelogistique
à une variableexplicative ;
dans le cas deplusieurs
variablesexplicatives,
onpeut
démonterqu’il
en est encore de même au moins dans un cas
particulier :
absence de termes d’interaction etindépendance
entre les variablesexplicatives
dans les deux sousgroupes
(Z
= 1 et Z =0) [23].
Dans le casgénéral,
lescoefficients,
comme enmodèle
linéaire, dépendent
des variablesprésentes
dans lemodèle ;
les effets lesplus importants, cependant,
sont peu sensibles à laprésence
ou à l’absenced’autres
variables,
si onprend
soin de ne pas avoir de variablesexplicatives trop
liées.2. Choix de bonnes variables
prédictives
L’analyse
descorrespondances multiples
des variablesexplicatives (varia-
bles
actives) permet
de réduirecelles-ci,
et leursmodalités,
defaçon
à améliorer la stabilité et laprécision
des coefficients du modèle.Si les variables
explicatives
ont été traitées en variablessupplémentaires,
l’information sur leurs inter-relations est moins
directe, mais, jointe
auxtableaux
croisés, peut
être suffisante pour en sélectionner un sous ensemble.Par
ailleurs,
cette dernièreanalyse
donne des indications sur les variables lesplus liées, globalement,
à un ensemble de variables àexpliquer
bienreprésentées
sur un sous-espace de faible dimension.
Pour une variable
explicative Xj
la mesure àprendre peut
être ladispersion
des diverses modalités de
Xj
sur le sous-espaceconsidéré, complétée
par lamesure de la
qualité globale,
sur ce sous-espace, de lareprésentation
des modalités deXj,
telle que cette mesure estproposée
dans[2]
ou[17],
comme sommepondérée
par lesinerties,
desqualités
dereprésentation
des modalités.L’une et l’autre de ces mesures
peuvent
intervenir comme élément de choix de variablesexplicatives
si les variables àexpliquer
sontnombreuses,
etque l’on veut se restreindre aux mêmes variables
explicatives
pour tous les modèles.3. Détection des termes d’interaction
Le modèle liant Z à deux variables
explicatives
à deux modalités peut être :(modèle
sans termed’interaction)
ou :
l’absence d’interaction se définit aussi par :
Revue de Statistique Appliquée, 1985,vo)XXXt!),n°1 1
38
odds
R(Z, X1 X2)
= oddsR(Z, Xl) odds R(Z, X2) (4)
odds R étant le odds ratio du tableau croisé
correspondant.
La notion
d’interaction,
dans le modèlelogistique,
estcomplexe ;
ilpeut
y avoir interaction ou non,
qu’il
y aitindépendance
ou non entre les variablesX1
etX2 .
Pourqui
est familier du modèlelog-linéaire,
un terme d’interaction(d’ordxe 2)
en modèlelogistique
est un terme d’interaction d’ordre 3 enmodèle
log-linéaire.
L’analyse
descorrespondances
détecte des interactions d’ordre 2 enmodèle
Log-linéaire [15],
mais ilparaît
difficiled’imaginer
que soient détectées des interactions d’ordre 2 en modèlelogistique.
Les seules interactions que l’onpeut espérer
mettre en évidence(par exemple
enprojetant
les associations de modalitésexplicatives)
sont tellement extrêmesqu’elles
amèneraient à remettre en cause le choix du modèle : parexemple, al
eta2
de mêmesigne, a12
designe opposé,
et :la121
>laI
+a21.
CONCLUSION
Aucune méthode ne
permet
uneanalyse complète
desdonnées,
dans le casou les
questions
que l’on se pose sont à la limite de"l’exploration"
et de la"validation". Ceci
justifie
l’intérêtqu’il
y aurait à mieuxpréciser
enquoi
lesapproches
très différentespeuvent
secompléter,
et à tester desprocédures
incluant diverses
méthodes,
pour des données issues de domainesd’application
variés. Ce
qui
estprésenté
ici nepeut
être formalisé comme une démarcheprécise
etrigoureuse, susceptible
d’êtreappliquée
defaçon systématique.
Cela tient en
partie
à ce que les liens entre méthodes sontlimités, l’applica-
tion de l’une ne
permettant
deprédire
que trèspartiellement
les résultats de l’autre.Un
point également important
est que, dans une démarche derecherche,
dans le choix des
investigations
et desapproches,
interviennent des éléments propres au domained’application,
à l’intérêtporté
à différentsaspects qui
nepeuvent
se traduire en termesstatistiques.
REMERCIEMENTS
Nous remercions messieurs M. GUIGNARD et M. CARRE pour les données
analysées.
Revue de Statistique Appliquée, 1985, vol XXXIII, n° 1
39 REFERENCES
[1 ]
P.AIAICH,
A.LECLERC,
A. PHILIPPE. - Facteurs de différenciation dans la déclaration desymptômes
Rev.Epidemiol.
SantéPub., 29, 1, 27-44,
1981.[2]
C.BASTIN,
J.P.BENZECRI,
C.BOURGARIT,
P. CAZES. -Pratique de l’analyse
desdonnées,
Vol.2, DUNOD, 1980,
466 p.[3]
J.K.BENEDETTI,
M.B. BROWN. 2014Stratégies
for the selectionof Log-linear
models.
Biometrics,
34 :680-686,
1978.[4]
Y.M.M.BISHOP,
S.E.FIENBERG,
P.W. HOLLAND. 2014 Discrete multivariateanalysis : theory
andpractice.
The M.I. T.Press,
1975.[5]
B.M.D.P. 2014 79 . -University
of California Press.[6]
N.E.BRESLOW,
N.E. DAY. 2014 Statistical methods in cancer research Vol. I : TheAnalysis
of Case Control Studies. IARCScientific
Publicationn°
32 :WHO, Lyon
1980.[7]
D.R. COX. -Analysis of binary
data. MethuenLondon,
1970.[8]
J.J.DAUDIN,
P. TRECOURT. 2014Analyse
factorielle descorrespondances
et modèle
Log-linéaire : comparaison
de deux méthodes sur unexemple.
Rev. Stat.
Appl.,
28 :5-24, 1980.
[9]
N.E.DAY,
D.F. KERRIDGE. 2014 Ageneral
maximum likehood discriminantBiometrics, 1967, 23,
313-323.[10]
J.M. DEVAUD. 2014 Discrimination etdescription
sur variablesqualitatives Application
à des données d’accident de travail. Thèse de 3ecycle,
Paris-Dauphine,
1982.[11]
S.E. FIENBERG. 2014 TheAnalysis
of cross-classifiedcategorical
data. TheM.I. T.
Press,
1980.[12]
S. GREENLAND. - Tests for interaction inepidemiologic
studies : a reviewand a
study
of power. Statistics inmedicine,
Vol.2, n° 2,
1983.[13]
M.GUIGNARD,
M. CARRE. - Vécu et santé du travailleur en service continu. Thèse de doctoratd’Université, Ergonomie
etEcologie,
ParisI,
1983.[14]
S.J. HABERMAN. - TheAnalysis of frequency
data.Chicago,
Univ. ofChicago Press,
1974.[15]
N.C.LAURO,
A. DECARLI . -Correspondence analysis
andLog-linear
models in
multiway contingency
tablesstudy.
Some remarks onexperimental
data.
Metron,
Vol.XL, N° 1-2, 213-234, 1982.
[16]
L.LEBART,
A.MORINEAU,
N. TABARD. -Techniques
de ladescription statistique. DUNOD,
1977.[17]
A. LECLERC . - Aides àl’interprétation
etprocédures
de validation enanalyse
de données. Thèsed’état,
Paris6, 1982.
[18]
A. LECLERC. 2014 Modeloslogísticos.Journées d’analyse
de données et infor-matique CARACAS,
1983.[19]
J . LELLOUCH. - Lerisque :
définitions etprocédés
de calcul Rev.Epidém.
et santé
publ., 1976, 24,
201-210.Revue de Statistique Appliquée, 1985, vol XXXIII, n’ 1
40
[20]
P.LOGEAY,
J .F.CHASTANG,
F. LERT. - Etudeépidémiologique de
l’incidence médicale et sociale des horaires de travail sur le
personnel infir-
mier
(en préparation).
[21]
J .P. NAKACHE. 2014 Méthodes de discrimination sur variables de naturequel-
conque. Théorie et
pratique.
Thèsed’état,
Paris6, 1980.
[22] J.W.
TUKEY. -Styles of
dataanalysis
and theirimplications for
statisticalcomputing.
COMPSTAT1980, Proceedings
incomputational
statisticsPhysica-Verlag,
21-31.[23]
Méthodesquantitatives
enépidémiologie.
Séminairetechnologique INSERM,
Document
multigraphié,
1983.Revue de Statistique Appliquée, 1985, vol XXXIII, n° 1