R EVUE DE STATISTIQUE APPLIQUÉE
A. B ACCINI
A. K HOUDRAJI
Application d’un modèle d’association à l’analyse d’une table de taux
Revue de statistique appliquée, tome 40, n
o4 (1992), p. 59-75
<http://www.numdam.org/item?id=RSA_1992__40_4_59_0>
© Société française de statistique, 1992, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
APPLICATION D’UN MODÈLE D’ASSOCIATION
À L’ANALYSE D’UNE TABLE DE TAUX
A.
Baccini(1),
A.Khoudraji(2)
(1) Laboratoire de
Statistique
et Probabilités, U.R.A.-CN.R.S. D0745 118, route de Narbonne F-31062 Toulouse Cedex(2)
Département
deMathématiques,
Faculté des Sciences, Université CadiAyyad,
Boulevard du Prince
Moulay
Abdellah, B.P. S15, Marrakech, MarocRÉSUMÉ
Dans cet article, nous proposons d’utiliser le modèle d’association défini par L.
Goodman pour
analyser
une table de taux à deux entrées.Après
avoirrappelé
les méthodesclassiques
permettantl’analyse
d’une table decontingence
standard, nous écrivons le modèled’association pour le
paramètre
de la loi binomiale associée au taux observé danschaque
cellule; nous décrivons etjustifions
ensuite uneprocédure
moindres carrés permettant d’obtenir les estimations desparamètres
de ce modèle; nousprésentons
enfin unexemple
réel illustrant la méthode
proposée.
Mots-clés :
Analyse
descorrespondances, Biplot,
Estimation par les moindres carrés, Modèle d’association, Tables de taux.ABSTRACT
In this paper, we
investigate
theapplication
of Goodman’s association model inanalysing
a two-way table of rates. In a first stage, we recall standard methods used toanalyse contingency
tables ; then we consider the association model to modelise theprobability
of thebinomial distribution associated with the rate in each cell, and we propose a least squares
procedure
to estimate the parameters of this model ;finally
the treatment of real data isperformed
to illustrate theproposed
method.Key-words : Correspondence Analysis, Biplot,
LeastSquares
Estimation, Association Model, Tablesof
Rates.1. Introduction 1.1. Le
problème
considéréDans cet
article,
on s’intéresse auproblème
del’analyse statistique
d’unetable de taux. On entend par taux le
rapport n
entre deux entiers(il s’agit
enS
général d’effectifs)
vérifiant0 s et 0 n s.
Les tables que nous considérons ici sont des tables de taux à deuxentrées, correspondant
au croisement de deux variables discrètes(ou catégorielles),
etl’objectif
estd’analyser
la variation des taux selon les deux variables considérées.Les données du
type
décrit ci-dessus sont assez courantes dans lapratique,
mais les méthodes
statistiques permettant
leuranalyse
sont relativement peu nombreuses. D’unpoint
de vueexploratoire,
les méthodesclassiques d’analyse
factorielle sont mal
adaptées
à cetype
dedonnées;
onpourrait envisager l’analyse
d’une table
(celle
desn)
en référence à une autre table(celle
dess),
telle que l’ontproposée,
parexemple, Domenges
& Volle(1979), Qannari (1983),
Escofier(1984)
ou
Falguerolles
&Heijden (1987); toutefois,
à notreconnaissance,
ces méthodes n’ont pas été mises en oeuvre pourl’analyse
d’une table de taux. En cequi
concernela modélisation d’une telle
table,
il est courant d’utiliser soit un modèlelogistique,
soit un modèle
log-linéaire (voir,
parexemple, Agresti, 1990).
Nous proposons en fait une extension du modèle d’association défini par Goodman
(1985,1986
et1991),
ainsi que sa mise en oeuvre par des méthodes de moindres carrés. L’intérêt du modèle d’association est d’unepart
d’offrirune écriture assez
spécifique
du modèlelog-linéaire (les
interactions y sontplus structurées),
d’autrepart
depermettre
desreprésentations graphiques analogues
àcelles utilisées en
Analyse
Factorielle desCorrespondances (A.F.C.).
1.2. Notations
Notons X et Y les deux variables discrètes considérées et I et J leurs nombres
respectifs
de modalités(ou niveaux).
Dans toute lasuite,
aucune structurene sera
prise
encompte
sur cesmodalités,
même enprésence
de variablesordinales,
voire
numériques (regroupées
enclasses).
Lapopulation
de référence surlaquelle
Xet Y sont observées est notée Ç2 et son cardinal s. On
peut
donc considérer la table-I J
de
contingence correspondante,
de termegénérique
sij vérifiantL L
sij = s.i=l j=l
La «variable d’ intérêt » est une variable
binaire,
notéeZ, correspondant
à laprésence
ou à l’absence d’un certainphénomène (le
cancer dansl’exemple
étudiéen
4).
Nous noteronsnii(0 nij sij)
le nombre d’individusqui,
aux niveaux ide X
et j
deY, présentent
lephénomène
considéré(c’est-à-dire
la valeur 1 deZ).
Enfin nous poserons ri j -
nij ~(i,j) ~ {1, ..., I} {1, ..., J;
r-jdésigne
doncsij
le taux de
présence
duphénomène
considéré dans lacatégorie (i, j).
C’est à
l’analyse
de la variation des taux r-j que nous nous intéressons par la suite.2. Méthodes
statistiques
pourl’analyse
des tables decontingence
Nous
rappelons
brièvement ici diverses méthodes usuelles pourl’analyse
destables de
contingence;
nous ne considérons que les tables à deuxentrées,
toutesces méthodes pouvant se
généraliser (plus
ou moinssimplement)
au cas de tablesmultidimensionnelles. Les notations sont celles introduites en
1.2,
mais la variable Z n’intervient pas pour l’instant.2.1.
L’Analyse
Factorielle desCorrespondances
Nous ne donnerons que
quelques
indications essentielles sur cette méthodelargement
utiliséeaujourd’hui. Rappelons
tout d’abordqu’elle
consiste à réaliser desgraphiques représentant conjointement
leslignes
et les colonnes de la table decontingence
initiale et illustrant les liaisons entre les modalitéscorrespondantes;
si l’on note qij la
fréquence générique
de cette table(qij
=sij s),
unefaçon
de construire ces
graphiques
consiste à réaliser laDécomposition
en ValeursSingulières (D.V.S.)
de la matrice de termegénéral
qij -qi+q+j qi+q+j, (qi+ = 03A3qij
et q+j =
t, qij)
et à en utiliser les résultats pourreprésenter
lebiplot
selon leprincipe
défini par Gabriel(1971).
Mentionnons
également
la formule dite de «reconstitution des données » :K ==
inf(I - 1,
J -1) ;
les03BBk, k = 1,..., K,
sont les valeurs propres de l’A.F.C.(les 03BBk
sont les valeurssingulières
de laD.V.S.)
et vérifient1 03BB1
...03BBK 0;
les vecteurs Xk ={xik;
i -1, Il (resp.
yk ={yjk; j
=1,
...,JI)
sont orthonormés au sens de la
métrique
définie parDi 1 (resp. D-1J),
avecDI - diag(q1+, ..., qI+) (resp. DJ = diag (q+1, ..., q+J)) ;
ils’agit
des vecteursnormés associés aux
composantes principales
deslignes (resp.
descolonnes).
La
bibliographie
sur l’A.F.C. est trèsimportante ;
pour desdéveloppements éventuels,
nous renvoyons à Benzecri(1973),
ainsiqu’à
Greenacre(1984) qui
constitue une bonne
synthèse
desapproches française
etanglo-saxonne
de cetteméthode.
Notons que l’A.F.C. ne
s’adapte
pas àl’analyse
d’une table de tauxpuisque,
dans une telle
table,
lesquantités qi+etq+j
n’ont aucun sens.2.2. Le modèle
log-linéaire
Si l’on note
Qij
laprobabilité théorique correspondant
à la cellule(i, j )
dela table de
contingence considérée,
le modèlelog-linéaire
consiste à écrire :m est l’effet moyen; les
ai, i
=1, ..., I (resp.
lesbj, j
=1, ..., J) représentent
lesl J
effets des
lignes (resp.
descolonnes)
et vérifientLai ==
0(resp. E bj - 0);
i=l j=l
les ci j
représentent
les interactions entre leslignes
et les colonnes et vérifientT T
Le modèle
(2.2)
est saturé(c’est-à-dire qu’il
contient autant deparamètres indépendants
que la tableanalysée
contient decellules),
mais onpeut
lesimplifier
en introduisant des
hypothèses
restrictives sur les interactions(ainsi,
le modèled’indépendance correspond
à la nullité de toutes lesinteractions;
destypes
de contraintes «intermédiaires» seront d’autre part introduits en2.4).
La
bibliographie
sur le modèlelog-linéaire
estégalement
trèsimportante;
citons,
pourmémoire, Bishop
et al.(1975)
etAgresti (1990);
on pourra d’autre part consulterHeijden
et al.(1989)
pour une étudecomparative
de l’A.F.C. et du modèlelog-linéaire.
2.3. Le modèle de corrélation
Défini par Goodman
(1985,
1986 et1991),
ce modèle consiste àécrire,
pour tout entier M vérifiant1 M K,
03B4kk’
étant lesymbole
de Kronecker.La formule
(2.3)
définit le modèle de corrélation d’ordre M. Encomparant (2.3)
à(2.1),
on voit clairement que ce modèle estéquivalent
à l’A.F.C. de mêmeordre,
ak ==03BBk représentant
la k-ième valeursingulière.
L’obtention des
paramètres Ak,
Xik et Yjk par une D.V.S. commeindiqué
en 2.1
correspond
à leur estimation par les moindrescarrés ;
l’utilisation de la formule(2.3)
soit dans le cadre d’un modèlemultinomial,
soit danscelui ,de
lois de Poissonindépendantes
pour les différentes cellules(i, j), permet
d’obtenir les estimations maximum devraisemblance ;
ces dernièresprésentent l’avantage
d’êtreefficaces mais l’inconvénient de ne pas être « emboîtées »
lorsque
M croit. Sur l’estimation maximum de vraisemblance desparamètres,
on pourra sereporter
à Gilula & Haberman(1986).
2.4. Le modèle d’association
.Ce modèle a
également
étéproposé
par Goodman(1985,
1986 et1991), parallèlement
au modèle de corrélation. A l’ordre M(1 M K),
il est définipar
Dans ce
modèle,
lesparamètres Ok
sontappelés
les associationsintrinsèques,
et les J1ik
(resp.
lesVjk)
les scores deslignes (resp.
descolonnes) ;
lesquantités
gi ethj
sont despoids
vérifiant :On
précisera
auparagraphe
3 lespoids utilisés ;
parailleurs,
pour une discussiongénérale
sur le choix de cespoids,
on pourra sereporter
à Becker &Clogg (1989).
Le modèle
(2.4) peut
être considéré comme unespécification
du modèlelog-linéaire,
danslaquelle
onimpose
une structure commune aux interactions.Becker
(1990)
aproposé
uneprocédure
d’estimation desparamètres
dumodèle
(2.4)
par maximum devraisemblance,
ainsi que lelogiciel correspondant ;
par
ailleurs,
Baccini &Khoudragji (1990)
ont défini uneprocédure
moindres carréspermettant
d’obtenir les estimations àpartir
d’unlogiciel
d’A.F.C. ou de D.V.S.Compte
tenu del’analogie
entre les modèles(2.3)
et(2.4),
il est assez natureld’envisager
unereprésentation graphique conjointe
deslignes
et des colonnes de la tableanalysée,
selon leprincipe
dubiplot,
au moyen des J1ik et des Vjk(sur
cepoint,
voirCaussinus, 1986b).
3.
Analyse
d’une table de tauxLes notations sont celles introduites en
1.2;
on considère donc une table I x J de taux ri j= nij sij.
3.1. Le modèle choisi
Nous supposons ici que les
quantités sij (i
=1,..., I ; j
=1,...,J)
sontfixées et connues
(ceci correspond
souvent à laréalité,
comme l’illustrel’exemple présenté
en4).
Nous supposons deplus
quechaque
nij est l’observation d’une variable aléatoire réelle(v.a.r.) Nij,
lesNij
étant mutuellementindépendantes. Nij
est donc une loi binomiale de
paramètres
Sij et pi., P2jdésignant
laprobabilité
que la «variabled’intérêt»
Z prenne la valeur 1 sur le sous-ensemble de Q constitué des individusayant présenté
les modalités i de Xet j
de Y. Les sij étant engénéral grands
et les pijpetits,
onpeut approximer chaque
v.a.r.Nij
par une loi dePoisson de
paramètre Oij -
sijpij ;compte
tenu que cela nous est commode dans lajustification
du critère(3.2)
introduit aupoint suivant,
nous ferons dorénavant cetteapproximation.
Dans
l’analyse
d’une table de taux, leproblème qui
nous intéresse estl’explication
desprobabilités
pij en fonction de X et deY ;
dans cebut,
nous allons écrire les pij selon le modèle d’association d’ordreM ;
on pose donc :les contraintes sur les
paramètres
étant celles écrites en(2.5).
Un des
avantages
de ce modèle(par rapport,
parexemple,
au modèlelog- linéaire)
est depermettre
unereprésentation graphique
des modalités de X et de Y au moyen des scores J1ik et Vjk(voir plus loin).
Parailleurs,
dans diversessituations,
ce modèle nous a paru mieuxadapté
que le modèle de corrélation ou l’A.F.C.(voir,
notamment, Baccini etal., 1991).
Le
problème qui
se pose alors est l’estimation des différentsparamètres
introduits dans le modèle
(3.1).
Onpeut,
bienentendu, envisager
uneprocédure
maximum de
vraisemblance,
mais il nous a paru intéressant de proposer ici uneprocédure
moindres carrés pour diverses raisons : toutd’abord,
lasimplicité
de samise en oeuvre à
partir
d’un programme d’A.F.C. ou de D.V.S. et larapidité
d’unetelle
procédure,
ycompris
dans le cas où l’on a degrandes
valeurs deI,
J etM ;
ensuite le fait que, dans ce caslà,
les estimations maximum de vraisemblance sont souvent assezinstables;
d’autrepart,
l’ « emboîtement » des solutions fournies par laprocédure
moindres carrés est intéressant au niveau del’interprétation
desparamètres
dumodèle; enfin,
dans lapratique,
les deux ensembles d’estimations sont souvent trèsproches (voir
Baccini &Khoudraji, 1990).
3.2. Le critère à minimiser Le critère des moindres carrés considéré est le suivant :
On a
posé
ici :pij vérifie
toujours (3.1), V(i,j) ~ {1,..., I} x f 1, ..., J},
mais les contraintes(2.5)
sont maintenant
spécifiées
comme suit :La
justification
du critère(3.2)
et des contraintes(3.3)
nécessite diversdéveloppements
que nous donnons ci-dessous.(a) Rappels
sur le modèle àeffets fixes.
Nous
rappelons
iciquelques propriétés
du modèle à effets fixes dans le contexte des tables decontingence,
tellesqu’elles
sontexposées
dans Caussinus(1986a),
ou dans Besse et al.(1988).
Soit T le tableau m x p des donnéesobservées ;
on considère alors
Vi, ...,Ym,
m vecteurs aléatoires de Rp vérifiant :2022 Vi =
1, ..., m, E[Yi] =
yi ~Fq,
oùFq
est un sous-espace affine inconnu de Rp de dimension inférieure ouégale à q (q p) ;
2022
Var(Yi) = 03C32 0393,
où03C32
est unparamètre d’échelle,
w2 est lepoids de Yi
wi
m
(on
suppose wi >0,
Vz =1, ..., m,
et03A3 wi = 1),
et 0393 est une matrice carréed’ordre p,
symétrique
etdéfinie-positive;
dans cemodèle,
wi et F sontsupposés
connus.
Le
problème
est alors d’estimerFq et y2 (ainsi, éventuellement,
queu2)
enutilisant le critère des moindres carrés suivant
dans
lequel Fq
est l’ensemble des sous-espaces affines de RP de dimension inférieure ouégale
à q, et A est une matrice définissant unemétrique
dans Rp(elle
est donc carrée d’ordre p,symétrique
etdéfinie-positive).
Les solutions sont
rappelées
ci-dessous :m
.
Fq
est le sous-espace affine de RPpassant
parY = 03A3wiYi
etparallèle
ài=l
Êq; Êq
=vect(u1,
...,Uq),
où Ul, ..., Uq sont les vecteurs propres 0394-orthornormés detXWX0394 respectivement
associés aux qplus grandes
valeurs propres; W ==diag(wl, ..., wm)
définit lamétrique
despoids
dans Rm et X = T -lm t y
représente
la matrice des données centrées(lm
est le vecteur de Rm dont toutes les coordonnées valent1);
2022 i
est laprojection A-orthogonale de yi
surFq ;
2022 concernant
A,
unepropriété
dutype
Gauss-Markov(voir
Besse etal., 1987),
conduit à choisir A =r-1.
(b) Espérance
et variance dulogarithme
d’une loi de Poisson.Considérons une v.a.r. N distribuée selon une loi de Poisson de
paramètre
03BB > 0. On sait que
N - loi N(0, 1);
parconséquent,
si l’on écritB/À(Log
N -Log A) = B/ÀLog (1 + N - 03BB 03BB),
on voit que, pour lesgrandes
valeursde
À,
on obtientl’approximation :
On en déduit :
Pour les
grandes
valeurs deÀ,
on pourra donc écrire :Concrètement,
cetteapproximation
pourra être utiliséepour A atteignant quelques dizaines,
cequi
est manifestement le cas dansl’exemple présenté
en 4.(c) Application
du modèle àeffets fixes.
Nous avons
supposé
que les v.a.r.Nij
introduites en 3.1 étaient distribuées selon des lois de Poisson deparamètres respectifs (Jij
=- sijpij. Dans le cadre du modèle à effets fixesrappelé
en(a), posons Yi = (Log Nil,
...,Log NiJ),
i =
1, ...,7.
Il vient :03C32 - 1 (n représente toujours
le nombre total d’observations duphénomène
n
étudié),
etVar(Yi) - ri = nwidiag(..., 1 03B8ij,...).
Pour se ramener au modèle
homoscédastique
défini en(a),
on doitremplacer ri
par une matrice de covariances moyenne F(simplification analogue
à celle faite parCaussinus, 1986a,
dans le cadre del’A.F.C.).
Pour des raisons évidentes decommodité,
nous choisissons ici la moyenneharmonique (pondérée
par lesw2),
choix par ailleurs naturel dans la mesure où les éléments
diagonaux
deri
sont desquotients.
On a donc :où
Oij
est leparamètre
inconnu de la loi deNij;
en l’estimant par nij, on estimeT
On
eut
doncposer = diag(...,
1...)
et 0394= -1
=diag( ...
Le critère
(3.4)
s’écrit ainsi :les
lignes
et les colonnes de la table de tauxjouant
des rôlessymétriques,
on doitprendre
lespoids
wiégaux
àf i+,
d’où l’écriture du critère :En utilisant encore
(3.5),
il vient :En
remplaçant
enfinNij
par sa valeur observée nii., laparenthèse
de(3.6)
s’écrit :On obtient ainsi le critère
(3.2),
lespoids gi
eth j
intervenant dans les contraintes sur lesparamètres
devant naturellement êtreremplacés
parfi+
etf + j respectivement,
d’où les contraintes(3.3).
3.3. Estimation des
paramètres
Nous souhaitons maintenant estimer les
paramètres
03B1i,03B2j, ~k,
03BCik et lJjk(i
=1, ..., I ; j - 1,..., J ; k
=1,..., M)
intervenant dans l’écriture(3.1)
de pi j , de telle sorte que le critère des moindres carrés(3.2)
soit minimisé sous les contraintes(3.3).
Pour
cela,
considérons l’ensembleMI J
des matrices réelles de dimension I x J etdésignons par Il
·~I J
la norme définie surMI J
parIl I
M~2I J =
l J
03A303A3fi+f+jm2ij(mij
est le termegénérique
de M EMI J).
z=lj=l
Notons L et C les éléments de
MlxJ
de termesgénériques respectifs
M
~ij
=Logrij
et cij =03A3~k03BCik03BDjk
Parailleurs,
dansRI (resp. RJ),
notonsk=l
1 l (resp. Ij)
le vecteur de termegénéral
1 et A(resp. B)
celui de termegénéral
.Log 03B1i (resp. Log /3j ).
Le critère
(3.2)
peut alors se réécrire sous la forme~L - At1J-1ItB - C~2I J.
En suivant Gabriel
(1978),
on sait que la solution est obtenue en déterminant dans unpremier
tempsÂ
etÊ minimisant Il I
L -At1J - 1 l t B ~2I J (partie
linéaire), puis
dans un secondtemps C minimisant 11 |L -A1J - 1I t C ~2I J
(partie bilinéaire).
Le
premier problème
n’est pas identifiablepuisque
toutes lesquantités
J l
03A3f+jLogrij
+ E et03A3fi+Log rij - E - ,
avec E constante réelleet =
03A303A3fi+f+jLogrij,
fournissent le même minimum pour lapartie
linéaire dui=l j=l
critère ;
pour résoudre cettedifficulté,
nous choisironsarbitrairement,
mais defaçon
naturelle :
Pour la
partie
bilinéaire ducritère,
on obtient une solutionunique
enréalisant
laD.V.S. généralisée (voir Greenacre, 1984)
à l’ordre M de la matrice L -t1J - 1It
de termegénérique
la D.V.S.
généralisée
est effectuée relativement aux matricesdiag( fl+,
...,fI+)
etdiag(/+i,...,/+j).
4.
Exemple
Les données
présentées
dans ceparagraphe
sont extraites duregistre
descancers du
Tarn ;
ils’agit
d’unregistre
àbut épidémiologique
contenant denombreux
renseignements
concernant les personnes habitant cedépartement
et chezlesquelles
futdiagnostiqué
un cancer au cours des années1982,
1983 et 1984. Ontrouvera une
présentation plus
détaillée de ceregistre
dansKhoudraji (1986).
Lesdeux variables retenues ici sont
l’âge
et le canton derésidence; l’âge (au
moment de la survenue ducancer)
a été considéré avec trois niveaux(âge
1 = moins de65 ans,
âge
2 = entre 65 et 80 ans,âge
3 =plus
de 80ans)
et les cantons avec six niveaux(notés
de CTNI àCTN6);
ils’agit
en fait des six classes obtenues à l’issue d’une classification réalisée(en
utilisant la méthode des nuéesdynamiques)
sur les trente-six cantons du
département
du Tarn. On trouvera en annexe 1 la listedes cantons
appartenant
àchaque classe,
ainsi que les trois variables(extraites
duregistre
descancers)
àpartir desquelles
a été réalisée la classification.Nous
présentons
en annexe 2 les tablesdonnant,
pourchaque catégorie d’âge
et pour
chaque
classe de cantons, d’unepart
lapopulation
totale au recensement de 1982(table AI, correspondant
auxsij),
d’autrepart
le nombre total de cancersenregistrés
sur lapériode
considérée(table A2, correspondant
auxnid).
Les valeursdes taux
(rij
=sis )
sont données dans la table1,
danslaquelle
on trouveégalement,
pourmémoire,
les tauxmarginaux.
Les estimations des
paramètres
du modèle(3.1)
selon la méthodeproposée
en 3.3 sont données dans la table 2.
TABLE 1
Taux de cancers dans le
département
du Tarn selon lacatégorie d’âge
et la classe de cantons.
Remarques :
e les traitements réalisés dans cet article ont
pris
encompte
9 décimales(8
au delà dupremier zéro) ;
e les taux ne sont pas directement
interprétables,
dans la mesure où lenumérateur est un cumul sur 3 années
(flux)
alors que le dénominateur est un niveau à un moment donné(stock).
TABLE 2
Estimation des
paramètres
du modèle d’associationappliqué
aux taux de la table 1.e effets
principaux :
Dimension 1
(M
=1) :
2022 association
intrinsèque : 1
=0,
07332022 scores des
lignes (i1) :
2022 scores des colonnes(j1) :
Dimension 2
(M
=2) :
e association
intrinsèque : 2 = 0,
03782022 scores des
lignes (i2) :
8 scores des colonnes(Vj2) :
Pour
chaque
valeurpossible
deM,
la table 3 donne :- le
degré
de liberté dumodèle, qui
vaut(I - M - 1) (J -
M -1) (voir
Becker &
Clogg, 1989) ;
- la valeur de la
statistique 03A303A3 nij - ij) 2ij où ij
= sijij, ij étantcalculé selon la formule
(3.1),
en utilisant les estimations données par la table 2.Asymptotiquement,
cettestatistique
n’est pas distribuée selon une loi de khi-deuxpuisque
les estimateursni j
ne sont pas efficaces.Toutefois,
dans lapratique,
cesestimateurs sont peu différents des estimateurs du maximum de vraisemblance et
nous utiliserons cette
statistique
à titre indicatif.Remarque :
On notera quel’analyse statistique
réalisée ici nécessite que soient connus, enplus
des taux ri j , au moins lesfréquences marginales
duphénomène
étudié
(c’est-à-dire
lesfi+
et lesf+j);
deplus,
pour calculer lastatistique ci-dessus,
on doit
disposer
de toutes lesquantités
Sij et nij.TABLE 3
Le modèle d’ordre 0
(indépendance)
n’est passatisfaisant,
le modèle d’ordre 1 l’étantdavantage ;
il fournit une reconstitution convenable de la table initiale.L’interprétation
des effetsprincipaux
est immédiate : ils sontquasiment proportionnels
aux tauxmarginaux correspondants ; ainsi,
si l’onrapporte
lesi (resp.
les03B2j)
aux tauxmarginaux
deslignes (resp.
descolonnes),
on trouve, en neconservant
qu’une
seuledécimale,
trois fois6,4 (resp.
desrapports compris
entre8,2
et9,2).
Les associationsintrinsèques
donnent une idée del’importance
relativedes dimensions successives du modèle
(ici,
66% pour la dimension 1 et 34% pour la dimension2). Enfin, l’interprétation
directe des scores, en termesd’interactions,
n’est pasaisée ;
par contre, unereprésentation graphique
simultanée deslignes
etGRAPHIQUE
1Représentation
des scores deslignes
et des colonnes en dimension 1.des colonnes de la table initiale au moyen des scores facilite
grandement
cetteinterprétation.
Legraphique
1 fournit cettereprésentation
en dimension 1.L’interprétation
en est la suivante : deux modalités des deux variablesreprésentées proches
l’une de l’autre etéloignées
del’origine correspondent
àune interaction
positive,
c’est-à-dire à un tauxplus
élevé que celuiattendu,
en l’absenced’interaction,
à laligne
et à la colonnecorrespondantes (exemple : âge
1 et
CTN4);
deux modalités simultanémentéloignées
del’origine,
etsituées
depart
etd’autre, correspondent
à une interactionnégative,
c’est-à-dire à un tauxplus
faible que celui attendu
(exemple : âge
3 etCTN3) ;
les modalités situéesprès
del’origine correspondent
à des interactionsfaibles,
voirenégligeables.
On retrouvedonc un
principe d’interprétation analogue
à celui del’A.F.C.,
cequi
fait l’un des intérêts de cette méthode.5. Conclusion
Le modèle d’association
proposé
par L. Goodman nousparaît
incontestable- ment un outil trèsperformant
dansl’analyse
des tables decontingence.
Enparti- culier,
au niveau de l’étude desinteractions,
ilpermet
d’en donner une structure claire etinterprétable,
bien au delà de ce quepermettent
defaire,
parexemple,
lemodèle
log-linéaire
ou le modèlelogistique ;
deplus,
cette structure conduit à unereprésentation graphique simple qui s’interprète
de la mêmefaçon qu’une
A.F.C.Dans le cas
spécifique
considéréici,
celui d’une table de taux,l’adaptation
du modèle d’association a pu se faire sans
difficultés,
alorsqu’il
n’en va pas de même pour d’autrestechniques
telles que l’A.F.C.La
procédure
moindres carrésproposée
pour l’estimation desparamètres
dumodèle considéré
présente
le doubleavantage
d’être trèssimple
à mettre en oeuvre(la
mise en oeuvre se faisant par l’intermédiaire d’uneD.V.S.)
et de fournir des estimations stables.Toutefois,
onpeut, lorsqu’on
lesouhaite,
estimer cesparamètres
par maximum de vraisemblance en utilisant un
logiciel
tel que GLIM.Pour
l’avenir,
il nousparaît
intéressantd’envisager
unegénéralisation
dumodèle
proposé
ici à des tables de taux àplus
de deux.entrées ;
enparticulier,
celanous semble
pouvoir
se faire sanstrop
de difficultés pour une table à trois entrées.Annexe 1
Liste des cantons du
département
du Tarnappartenant
à chacune des six classes considérées :CTNI = classe 1 :
ALBI;
CTN2 = classe 2 :
CASTRES ;
CTN3 = classe 3 : CASTELNAU DE
MONTMIRAL, GAILLAC, GRAULHET, LAVAUR,
VILLEFRANCHED’ALBIGEOIS ;
CTN4 = classe 4 :
ALBAN, CARMAUX, MAZAMET;
CTN5 =
classe
5 :CORDES, DOURGNE, LABRUGUIERE, LACAUNE,
LIS-LE SUR
TARN, PAMPELONNE, PUYLAURENS,
RABAS-TENS, REALMONT,
SAINT AMANSSOULT;
CTN6 = classe 6 :
ANGLES, BRASSAC, CADALEN, CUQ TOULZA,
LAU-TREC, MONESTIES,
MONTREDONLABESSONIE,
MU-RAT SUR
VEBRE, ROQUECOURBE, SALVAGNAC,
SAINT PAUL CAP DEJOUX, VABRE, VALDERIES,
VALENCED’ALBIGEOIS, VAOUR,
VIELMUR SUR AGOUT.On notera que les
regroupements
n’ont pas été faits en fonction de critèresgéographiques,
mais en fonction des ressemblances entre les personnes atteintes d’un cancer, dupoint
de vue del’âge,
de lacatégorie socioprofessionnelle
et dutype
de cancer(variables figurant
dans leregistre
des cancers du Tam et s’étantrévélées
parmi
lesplus importantes
à l’issue d’uneAnalyse
desCorrespondances Multiples).
Annexe 2 TABLE Al
(sij )
population
dudépartement
du Tarn au recensement de 1982 selon lacatégorie d’âge
et la classe de cantons :TABLE A2
(nij)
nombre de cancers
enregistrés
dans ledépartement
du Tarn en 1982, 1983,et 1984 selon la
catégorie d’âge
et la classe de cantons :Bibliographie
AGRESTI A.
(1990), "Categorical
DataAnalysis", Wiley,
New York.BACCINI
A.,
CAUSSINUSH.,
& FALGUEROLLES A. de(1991),
"RC Models inExploratory
DataAnalysis",
Discussion of thePaper by
L.A.Goodman,
Journalof
the American Statistical Association,86,
1115-1117.BACCINI
A.,
& KHOUDRAJI A.(1990),
"A LeastSquares
Procedure for Estima-ting
the Parameters in an AssociationModel",
Publications du Laboratoire deStatistique
etProbabilités,
N°05-90,
Toulouse.BECKER M.P.
(1990), "Algorithm
AS 253 : Maximum Likelihood Estimation of theRC(M)
AssociationModel", Applied Statistics, 39,
152-167.BECKER
M.P.,
& CLOGG C.C.(1989), "Analysis
of Sets ofTwo-Way
Contin-gency Tables
Using
AssociationModels",
Journalof
the American StatisticalAssociation, 84,
142-151.BENZÉCRI
J.P.(1973), «L’analyse
desdonnées »,
tome 2 :l’analyse
des corres-pondances, Dunod,
Paris.BESSE
P.,
CAUSSINUSH, FERRÉ L.,
& FINE J.(1987),
«Sur l’utilisationoptimale
del’Analyse
enComposantes Principales »,
note auxC.R.A.S., 304,
sérieI,
Paris.BESSE
P.,
CAUSSINUSH., FERRÉ L.,
& FINE J.(1988), "Principal Components Analysis
andOptimization of Graphical Displays", Statistics, 19,
301-312.BISHOP
Y.M.,
FIENBERGS.E.,
& HOLLAND P.W.(1975),
"Discrete Multiva- riateAnalysis : Theory
andPractice",
MITPress, Cambridge,
Massachusetts.CAUSSINUS H.
(1986a), «Quelques
réflexions sur lapart
des modèlesprobabi-
listes en
analyse
desdonnées »,
inProceedings of
the 4th InternationalSym- posium
on DataAnalysis
andInformatics, Diday
et al.eds, North-Holland, Amsterdam,
151-165.CAUSSINUS H.
(1986b),
discussion of the paperby
L.A.Goodman,
International StatisticalReview, 54,
274-278.DOMENGES
D.,
& VOLLE M.(1979), «Analyse
factoriellesphérique :
uneexploration »,
Annales del’INSEE, 35,
3-83.ESCOFIER B.
(1984), «Analyse
factorielle en référence à unmodèle; application
à
l’analyse
de tableauxd’échange»,
Revue deStatistique Appliquée, 32, 4,
25-36.
FALGUEROLLES A.
de,
& HEIDJEN P.G.M. van der(1987),
«Surl’Analyse
Factorielle des
Correspondances
etquelques
unes de sesvariantes»,
Revue deStatistique Appliquée, 35, 3,
7-12.GABRIEL K.R.
(1971),
"TheBiplot Graphic Display
of Matrices withApplication
to
Principal Component Analysis", Biometrika, 58,
453-467.GABRIEL K.R.
(1978),
"LeastSquares Approximation
of Matricesby
Additiveand
Multiplicative Models",
Journalof the Royal
StatisticalSociety,
SeriesB,
40,
186-196.GILULA Z. & HABERMAN J.
(1986),
"CanonicalAnalysis of Contingency
Tablesby
MaximumLikelihood",
Journalof
the American StatisticalAssociation, 81,
780-788.GOODMAN L.A.
(1985),
"TheAnalysis
of Cross-Classified DataHaving
Orderedand/or Unordered
Categories :
AssociationModels,
CorrelationModels,
andAsymmery
Models forContingency
Tables with or withoutMissing Entries", Annals of Statistics, 13,
10-69.GOODMAN L.A.
(1986),
"Some Useful Extensions of the UsualCorrespondence Analysis Approach
and the UsualLog-Linear
ModelsApproach
in theAnalysis
ofContingency Tables",
International StatisticalReviews,54,243-
270.GOODMAN L.A.
(1991), "Measures, Models,
andGraphical Displays
in theAnalysis
of Cross-ClassifiedData",
Journalof
the American StatisticalAssociation, 86,
1085-1111.GREENACRE M.J.
(1984), "Theory
andApplications
ofCorrespondence Analy- sis",
AcademicPress,
Londres.HEIJDEN P.G.M. van
der,
FALGUEROLLES A.de,
& LEEUW J. de(1989),
"ACombined
Approach
toContingency
TableAnalysis Using Correspondence Analysis
andLog-Linear Analysis", Applied Statistics, 38,
249-273.KHOUDRAJI A.
(1986), «Analyse statistique
sur des donnéesépidémiologiques
relatives aux cancers observés dans le
département
duTarn»,
notetechnique,
Laboratoire de
Statistique
etProbabilités,
Université PaulSabatier,
Toulouse.KHOUDRAJI A.
(1988), «Analyse
desCorrespondances
et mise en oeuvre du modèle deGoodman »,
Thèse de 3ecycle,
Université PaulSabatier,
Toulouse.QANNARI
E.M.(1983), «Analyses
factorielles de mesures;applications »,
Thèsede 3e