R EVUE DE STATISTIQUE APPLIQUÉE
K. J. W ORSLEY
Un exemple d’identification d’un modèle log-linéaire grâce à une analyse des correspondances
Revue de statistique appliquée, tome 35, n
o3 (1987), p. 13-20
<http://www.numdam.org/item?id=RSA_1987__35_3_13_0>
© Société française de statistique, 1987, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UN EXEMPLE D’IDENTIFICATION
D’UN MODÈLE LOG-LINÉAIRE
GRÂCE À UNE ANALYSE DES CORRESPONDANCES
K.J. WORSLEY
Laboratoire de
Statistique
et Probabilités, U.A.-C.N.R.S. 745, Université Paul Sabatier118, route de Narbonne, 31062 Toulouse Cedex
et Department
of
Mathematics and Statistics,McGill University, 805, rue Sherbrooke ouest, Montréal,
Québec,
Canada H3A 2K6
RÉSUMÉ
L’analyse
descorrespondances
est souventproposée
commeanalyse exploratoire
des données, mais lesexemples
où elle conduit à proposer un modèlelog-linéaire
sont assezrares. Dans cet article, on présente un tel exemple. Les liens entre les deux
approches
sontillustrés par un
graphique
des estimations des paramètres d’un modèlelog-linéaire, qui
s’avère presque
identique
à lareprésentation graphique
issue del’analyse
des corres-pondances.
Mots clés : Modèles
log-linéaires; Analyse
descorrespondances;
GLIM.SUMMARY
Correspondence analysis
is oftenproposed
as an exploratory dataanalysis,
but examples of where it has lead to the formulation of alog-linear
model are rather rare. Inthis article we shall présent such an
example.
The link between the twoapproaches
isillustrated
by
aplot
oflog-linear régression
parameter estimâtes, which turns out to be almost identical to the usualgraphical présentation
ofcorrespondence analysis
scores.1.
Exemple
VAN DER HEIJDEN et DE LEEUW
[5]
ontdéveloppé
uneanalyse
descorrespondances généralisées
pour les résidus d’un modèlelog-linéaire.
Ils ontillustré leur méthode sur une table de
contingence
à trois dimensions : le mode de suicide(9 modalités), l’âge
des suicidés(17
modalités :10+,
15 +,..., 90 + )
et le sexe
(2 modalités).
Les données sont lesfréquences
des suicides constatéesen
Allemagne
durant les années 1974-1977. Dans leurpremière analyse,
les deuxvariables «
âge »
et « sexe » ont été combinées en une seule variable «âge-sexe
Ȉ 34
modalités,
et la table à deux dimensions résultante a été traitée parl’analyse
des
correspondances simple.
Lesreprésentations
sur les deuxpremiers
axes sontreproduites
sur lafigure 1 (a)
pour les modalités de la variable «âge-sexe
», etsur la
figure l(b)
pour les modalités de la variable « mode ».Ces deux axes
expliquent 51,9 %
et38,1
% de l’association entreâge-sexe
et
mode,
et les valeurs propres sontrespectivement 0,312
et0,26.
Grâce à la14 K.J. WORSLEY
(a) Les modalités de la variable « âge-sexe » : À¡ = 0,312 (51,9 %), A2 = 0,268 (38,1 %).
(b) Les modalités de la variable « mode ».
FIGURE 1
figure l(a),
on peut constater immédiatement que lepremier
axe oppose les hommes et lesfemmes,
et que le deuxième axe met en évidence un effetapproximativement
linéaire del’âge, excepté
les modalités 10 + et 15+ pour les hommes et10 +, 75 +
à 90+ pour les femmes. On peut alors se demander s’il y a un modèlelog-linéaire susceptible
de modéliser ces observations.2. Liens entre
analyse
descorrespondances
et
modèles log-linéaires
D’une certaine
façon,
pour deuxdimensions, l’analyse
descorrespondances simple
revient àapprocher
lesfréquences
absoluesfij
par eij, avecoù les
paramètres
c, pi, q; , Uli, Vlj, U2i, V2j sont « estimés » parn’importe quelles
valeurs minimisant
où
fi+ , f+j, f+ +
sont les effectifsmarginaux,
avec des notations usuelles. Pourplus
de clarté dans la
suite,
lareprésentation (1)
n’est pas écrite sous la forme usuelle.Notons que c, pi et qj ne sont pas ici
fixés,
etqu’il
fautimposer
des contraintes surtous les
paramètres
pour obtenir les coordonnées usuelles del’analyse
des corres-pondances.
Si Uli, Vlj, U2i, V2j sont
petits
par rapport à1,
on peut écrireoù u, =
log
c, ai ==log
pi et5j
=log
qi, c’est-à-dire un modèlelog-multiplicatif
pour lesfréquences.
Cette condition estapproximativement
satisfaitelorsque
lescontraintes usuelles sont
imposées
et que la racine de la somme des carrés des deuxpremières
valeurs propres estpetite
par rapport à un. C’est le cas dans notreexemple puisque
cette valeur estégale
à0,41.
De
plus,
la minimisation du critèredu X2
estapproximativement équivalente
à la minimisation de la déviance
qui
est la méthode du maximum de vraisemblancequand
lesfréquences
sontindépendantes
et suivent une loi de Poisson. En ce sens,l’analyse
des correspon- dances estapproximativement équivalente
àl’ajustement
du modèlelog-multipli-
catif
(2)
par maximum de vraisemblance(voir
ESCOUFIER[2],
p.68,
et GOOD-MAN
[4]).
3. Modèles
log-linéaires suggérés
parl’analyse
descorrespondances
Pour la table des
suicides,
soit i l’indice de la modalitéâge-sexe et j
l’indicede la modalité mode. Les sorties
graphiques
del’analyse
descorrespondances
suggèrent
que leparamètre
uliprendrait
une valeur constante pour les hommes et16 K.J. WORSLEY
une autre valeur constante pour les femmes. De
plus,
le modèle(2)
est invariant par transformation linéaire desparamètres
uli. Par suite on peut affecter auxparamè-
tres un deux valeurs
fixées,
disons xn = 0 pour les hommes et xn = 1 pour les femmes. Le termemultiplicatif
uli vij se transforme alors en un terme linéaire Xli vlj,qui
est un terme d’interaction entre sexe etmode,
au sens du modèle linéaire.L’analyse
descorrespondances suggère
encore que U2ipourrait prendre
desvaleurs
qui dépendent
linéairement del’âge,
mis à part certaines modalités. Commevu
ci-dessus,
on peut lesremplacer
par les valeurs fixées X2i = 1 pourl’âge 10 +,
X2i = 2 pour
l’âge
15 + ,..., X2i = 17 pourl’âge
90 +. Le terme U2iV2j se transforme alors en un terme linéaire par rapport àl’âge
X2i V2j avec des pentes V2j différentes selon le mode de suicide.Ainsi,
le modèlelog-multiplicatif (2)
seraitapproximativement équivalent
aumodèle
log-linéaire
Ce modèle a été
ajusté
auxfréquences
par lelogiciel
GLIM en troisétapes.
On ad’abord
ajusté
le modèled’indépendance :
puis
on aajouté
le terme d’interaction entre sexe et mode etajusté
le modèle :La réduction de la déviance est de
53,1 %,
soit une valeur trèsproche
de laréduction
du X2
de51,9
% associée aupremier
axe del’analyse
descorrespondan-
ces.
Enfin les deux
premières
modalitésd’âge
ont étésupprimées
et, enajoutant
le terme X2iV2j linéaire par rapport à
l’âge,
la déviance du modèle(3)
devientD =
840,4 (216 d.d.l.),
soit une réduction de38,8 %,
trèsproche
de la contribution de38,1
% du deuxième axe del’analyse
descorrespondances.
On peutjustifier
la
suppression
des modalités 10+ et 15 + del’âge
en considérantqu’il
estimpossible
de se fier à leursfréquences;
eneffet,
mis à part lapendaison,
lessuicides des
jeunes
sont souvent attribués à des accidents. Deplus,
ils correspon- dent à desfréquences faibles,
donc peusignificatives.
On peut
représenter graphiquement
les estimations(vlj, V2j) (voir Figure 2);
on constate que ce
graphique
est presqueidentique
augraphique produit
parl’analyse
descorrespondances, Figure 1 (b). Rappelons
que l’axe horizontalexprime
les effets du sexe et l’axe vertical les effets linéaires del’âge.
Les estimations elles-mêmes sont données dans la Table 1 avec leur transformation
exponentielle.
Notons que vn = 0 et V2J = 0 à cause des contrain- tes(arbitraires) imposées
par GLIM pour rendre estimables les autresparamètres.
Leur
interprétation quantitative
est la suivante. Par rapport àl’empoisonne-
ment, les taux des autres modes de suicide sont en
général plus
faibles chez lesfemmes;
enparticulier,
lerisque
relatif de l’utilisation par les femmes des fusils diminue de100 (1 - 0,06)
= 94 %. Avecchaque augmentation
del’âge
de 5 ans,et
toujours
par rapport àl’empoisonnement,
les modes violents(pendaison, noyade,
couteau,saut)
sontdavantage employés,
mis à part les fusils pourlesquels
le
risque
relatif diminue de100 (1 - 0,96)
= 4 %chaque
5 ans. Ces conclusionsFIGURE 2
Les estimations du modèle
log-linéaire
(3).TABLE 1
quantitatives
peuventservir,
parexemple,
pour lacomparaison
avec d’autres paysou d’autres
époques.
L’effet de
l’âge
est-il vraimentlinéaire,
c’est-à-dire a-t-on un meilleurajustement
enremplaçant
X2i par desparamètres complètement arbitraires,
U2i ? Ceproblème
est étudié en introduisant le modèlelog-multiplicatif
intermédiaire suivant :18
FIGURE 3
Les estimations du modèle
log-multiplicatif
intermédiaire (4).Ce modèle a été
ajusté
par la méthode itérativeproposée
par BREEN[1] :
en fixant les valeurs des U2i on estime les V2j,
puis
en donnant aux V2j ces valeurson estime à leur tour les U2i, et on itère. A
chaque
itération onajuste
un modèlelog-linéaire,
et trois directives de GLIM suffisent pour cela.Après
quatre itérations la déviance est stabilisée à la valeur de765,4 (203 d.d.l.).
LaFigure
3donne une
représentation graphique
des estimations Û2i en fonction del’âge.
On peut constater que c’est à peuprès linéaire,
saufpeut-être
pour lesâges
70 + à90 +
qui
sontplus proches
que les autres; cetteproximité
est aussiprésente
dansla
Figure l(a).
Cette constatationcorrespond
à la faible diminution de la déviance par rapport à la déviance du modèle(3),
linéaire par rapport àl’âge.
Onpourrait
donc attribuer une
grande partie
de la différence entre ces deux modèles(3)
et(4)
auxâges
70 + à 90+.La méthode itérative pour
ajuster
les modèlesmultiplicatifs
semblerapide
et efficace. En effet
l’analyse
descorrespondances
dedépart
et lesgraphiques
desFigures 1 (a)
etl(b)
ont été obtenus par GLIM en utilisant la même méthodeitérative,
mais enremplaçant
le critère du maximum devraisemblance, D,
par le critère des moindres carréspondérés, x2.
Dans ce cas, cetalgorithme
estéquivalent
àl’algorithme
des « moyenneréciproques » [4].
4.
Approche
modélisatriceclassique
L’analyse
descorrespondances
nous a conduit directement à un modèlelog-linéaire qui s’ajuste
bien aux données avec moins deparamètres qu’un
modèlelog-multiplicatif.
On peut se demander si on aurait étéguidé
vers un tel modèlepar les méthodes
classiques.
Devant cette table à troisdimensions,
il est naturel de considérer le modèle avec toutes les interactions entre deux facteurs(D
= 429;128
d.d.l.).
Mais le facteurâge
étantordonné,
on leremplace
souvent dans lesinteractions par une variable linéaire. On retrouverait alors le modèle
(3),
lesmodalités 10+ et 15 + de
l’âge comprises;
ce modèle a une déviance de 1 741(248 d.d.l.).
Une dernièrequestion
se pose : est-ce que l’on peut mettre en évidence que les deux modalités 10+ et 15 + sont aberrantes ? Ungraphique
donnant les résidus standardisés en fonction de
l’âge (Figure 4)
permet deconstater que les résidus associés à ces modalités sont anormalement
grands,
eton
pourrait
donc lessupprimer.
FIGURE 4
Les résidus standardisés du modèle (3), les modalités 10 + et 15 + de
l’âge
comprise.On peut, bien
sûr,
chercher des modèlesplus
raffinés pour réduire la déviance. Parexemple,
enajoutant
un terme d’interaction entre le mode de suicide et une variablequadratique
par rapport àl’âge 2
V3j, la déviance devient D =483,2 (208 d.d.l.).
Enprincipe,
on peut continuer de cette manièrejusqu’à
ce que la déviance soit
acceptée
par un testde X2
auniveau, disons,
de 5 %.Pourtant,
tous les modèlesdéjà
considérés ne sont pasacceptables;
il y apeut-être
trois raisons pour cela.
D’abord,
lesfréquences pourraient dépendre
d’autresvariables non mesurées
(habitation
urbaine oururale, proximité
d’une surfaced’eau,
saison del’année...);
il est en effet difficile d’admettre que les seules variablesâge,
sexe et mode peuventcomplètement expliquer
les distributions desfréquences. Deuxièmement,
si ces variables non mesurées sontaléatoires,
un modèle utilisant les variablesâge,
sexe et modepourrait
être satisfaisant pour les moyennes desfréquences,
mais en revanche lesfréquences
ne suivrontplus
uneloi de
Poisson;
enparticulier
les variances desfréquences
augmenteront, ainsi que20 K.J. WORSLEY
les valeurs
critiques
de la loi nulle de la déviance.Enfin,
des corrélations entreles
fréquences produiront
le mêmeeffet;
il est bien connuqu’un
suicide peut en provoquer un autre.5. Conclusion
Un statisticien adroit aurait donc pu retrouver le modèle
(3)
par les méthodesclassiques; mais,
enrevanche, l’analyse
descorrespondances
nousdirige directement,
et avecplus
desûreté,
vers un modèlelog-linéaire approprié,
un modèle
qui
peut fournir des conclusionsquantitatives complétant
utilementles
représentations graphiques
del’analyse
descorrespondances.
Bibliographie
[1] R. BREEN (1984). -
Fitting
non-hierarchical associationlog-linear
modelusing
GLIM.
Sociological
Methods and Research, Vol. 13, 77-107.[2] Y. ESCOUFIER (1982). - L’analyse des tableaux de contingence simples et multiples.
Metron, Vol. XL, 53-77.
[3] L.A. GOODMAN (1985). - The
analysis
of cross-classified datahaving
orderedand/or unordered
catagories :
Association models, and asymmetry models forcontingency
tables with or withoutmissing
entries. The Annals of Statistics, Vol. 13, 10-69.[4] M.O. HILL (1974). -
Correspondence analysis :
aneglected
multivariate method.Applied
Statistics, Vol. 23, 340-354.[5] P.G.M. van der HEIJDEN et J. de LEEUW (1985). 2014 Correspondence anlaysis used complementary to