R EVUE DE STATISTIQUE APPLIQUÉE
F. D ERRIENNIC P. D UCIMETIERE
Comparaison de deux méthodes statistiques d’analyse des taux de mortalité
Revue de statistique appliquée, tome 25, n
o4 (1977), p. 37-44
<http://www.numdam.org/item?id=RSA_1977__25_4_37_0>
© Société française de statistique, 1977, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
37
COMPARAISON DE DEUX MÉTHODES STATISTIQUES D’ANALYSE DES TAUX DE MORTALITÉ
F.
DERRIENNIC
(1) ET P.DUCIMETIERE
(2)RESUME
L’analyse des taux de mortalité pour une cause de décès donnée selon les modalités conjointes de plusieurs facteurs ne peut pas être effectuée par les techniques habituelles d’ana- lyse de variance, car les taux sont calculés sur des effectifs généralement très variables.
Pour résoudre ce
problème,
le modèle logistique classique (COX) permet d’analyser les effets principaux des facteurs. Récemment un modèle additif (EL SHAARAWI) a étéproposé
conduisant à une analyse de variance non orthogonale.
Le but de ce travail est de comparer les résultats obtenus par ces deux types d’approche,
l’estimation des
paramètres
du modèle logistique étant effectué comme un cas particulier d’une méthode plus générale d’estimation dans les tableaux de contingencedéveloppée
par HUBER et LELLOUCH.L’analyse de la mortalité par différentes causes en France en 1968 chez les hommes d’âge compris entre 45 et 64 ans en fonction de leur
catégorie
socio-professionnelle et de leurrégion
de domicile est choisie comme exemple.
Les
statistiques
nationales de mortalité demeurent un outil trèsutilisé,
bienqu’imparfait,
dans les études de santé. La recherche d’éventuels facteurs d’environ- nement,démographiques, socio-économiques...
conduit souvent à comparer lestaux de mortalité
générale
ou par causesspécifiques
dans des sous-groupes de lapopulation,
définis par des critèresmultiples : régions géographiques,
tranchesd’âge, époques...
Classiquement,
le modèlelogistique (COX 1) permet d’analyser
les effets des facteurs sur les taux de décès et dans le casparticulier
de tauxpetits
parrapport
àl’unité,
le modèle est enpratique
detype multiplicatif. Récemment,
leuranalyse
par un modèle additif a été
proposée (EL
SHAARAWI[3])
conduisant à l’estima- tion desparamètres
dans uneanalyse
de variance nonorthogonale.
Le but de la
présente
note est de comparer les résultats obtenus par ces deuxtypes
deméthode,
l’estimation desparamètres
du modèlelogistique
étant effectuéecomme un cas
particulier
d’une méthodeplus générale
d’estimation dans les ta- bleaux decontingence développée
par HUBER et LELLOUCH[4].
L’analyse
de la mortalité par différentes causes en France en 1968 chez les hommesd’âge compris
entre 45 et 64 ans, en fonction de leurcatégorie
socio-professionnelle
et de larégion géographique
est choisie commeexemple.
(1) Centre de Recherche INSERM 44, Chemin de Ronde 78110 Le Vesinet.
(2) Unité de Recherches Statistiques INSERM, 16 Bis A.V. Paul-Vaillant Couturier 94800 Villejuif.
Revue de Statistique Appliquée, 1977 vol. XXV N° 4
Mots-clés : Estimation. Mortalité. Modèle additif. Modèle
multiplicatif.
38 MATERIEL ET METHODES
1)
Données de baseLes données sont établies dans le cadre d’une étude sur la mortalité car-
diovasculaire en France et sont décrites
complètement
dans ce dernier travail(DERRIENNIC
et DUCIMETIERE[2]).
La
population française
de référence est celle de 1968(année
du dernierrecensement
disponible),
masculineâgée
de 44 à 65 ans,catégorie
choisie pour limiterl’imprécision
dans la codification des causes de décès et dans laréparti-
tition des
sujets
selon lescatégories socioprofessionnelles.
9
catégories socio-professionnelles
sontconstituées(*).
Lessujets
dits inactifs(16 %
des hommes du grouped’âge)
sont exclus car peucomparables
auxsujets
enactivité.
19
régions géographiques
sont étudiéesaprès
exclusion de 3régions (Pays
dela
Loire,
Provence - Côte d’Azur etCorse)
pourlesquelles
lepourcentage
de causes de décès mal définies ou nonspécifiées
estparticulièrement important (12
à21 %
contre 4 à 7
%
pour lesautres).
En dehors de la mortalité toutes causes, différents groupes de causes de décès sont constitués à titre
d’exemple :
maladiescardiaques, cérébro-vasculaires,
tumeurs, maladiesrespiratoires,
maladiesdigestives,
accidents et morts violentes. Leur défi- nitionprécise
est donnée dans[2].
2)
Modèlemultiplicatif
Ce modèle s’introduit aisément comme cas
particulier
de l’estimation de distributions multinomiales(4).
Considérons en effet les trois variablespolycho- tomiques
suivantesappliquées
à l’ensemble de lapopulation
étudiée :xi sujet
vivant ou décédé(2 modalités)
X2 catégorie socio-professionnelle
dusujet (9 modalités) X3 : région géographique
dusujet (19 modalités)
Le modèle le
plus général
donnantla probabilité conjointe Pijk
sans faireintervenir l’intéraction d’ordre 3 entre les variables
peut
s’écrire :où C est une constante telle
que 03A3 Pijk
= 1ijk
Les deux
premiers
termes fexpriment
d’une certaine manière la variation du taux de décès selon lacatégorie socio-professionnelle
et larégion,
le troisièmeexprime
la liaisonqui
existe entre ces deux variables.(*)
d’après
les définitions de l’Institut National de la Statistique et des Etudes Econo- miques.Revue de Statistique Appliquée, 1977 vol XXV N° 4
39
Les estimations
ijk
sont obtenues par la maximisation de la vraisemblance des observations du tableau decontingence
par une méthode itérativequi
utilise le fait que lesstatistiques
exhaustives pour l’estimation du modèle sont ici lesmargi-
nales d’ordre 2.
c’est-à-dire ~j 03C8k
avec des notations évidentes.Le taux de décès
tjk
=p2jk p1jk+p2jk
est ainsi mis sous la formelogistique générale Lo g tjk 1-tjk = Log ~j
+ Log 03C8k
et comme
tjk
1 le modèlepeut
s’é crire ;qui exprime
le taux de décès dans lacatégorie (j , k)
sous formemultiplicative.
Cependant
les estimationstik
obtenues àpartir
desPijk
nepermettent
pas une déterminationunique des ~j et 03C8k
et il est nécessaire pour cela de poser des contraintes.De manière à comparer aisément les estimations
obtenues,
à celles du mo-dèle
additif,
on poseratjk
=j j
où lesj et k
vérifient la double contrainte :Les estimations
, j
etk
sont alors entièrement déterminées(c.f.
Annexe1)
à
partir
des taux estiméstjk .
3)
Modèle additifa2
Il s’écrit
tik
= M +a,
+bk
+6. ejk
est distribué normalement de variance oùnjk
est l’effectif de lacatégorie (j , k)
eta2une quantité
constante.Les estimations
âj
etk
sont obtenues par la méthode du maximum de vrai- semblance sous la double contrainte :jn
est le taux de décès estimé sur l’ensemble de lapopulation.
La méthode d’estimation et de calcul des
paramètres
est décrite par EL SHAARAWI et Coll.[3].
Revue de Statistique Appliquée, 1977 vol XXV N° 4
40
4) Comparaison
des deux modèlesLe choix des contraintes que vérifient les estimateurs conduit à comparer les
paramètres
Aet J1
d’unepart
etj (resp. VJk) à +j resp. +k
d’autrepart
(cf.
Annexe2).
Cecipeut
êtreinterprété
comme lacomparaison
des estimations d’un "taux relatif de mortalité" propre à lacatégorie socio-professionnelle j (ou
àla
région k)
parrapport
à celui de lapopulation générale.
Parailleurs, l’adéquation
relative de chacun des modèles aux observations
peut
êtrejugée
en calculant danschaque
cas, le tableau des effectifs des décédés danschaque catégorie (j , k)
tableauqui
est à comparer au tableau observé par le calcul d’unX 2.
Enthéorie,
les tableaux calculé et observé des effectifs des survivants devraient intervenir mais leur contri- bution à la valeur duX 2
estnégligeable.
RESULTATS
Les résultats
complets
concernantl’analyse
de la mortalité toutes causesdans la
population
sont donnés à titred’exemple.
Lesestimations
etÂ
sontrespectivement
1189 et 1205 pour 100000. Le tableau 1indique
pourchaque catégorie socio-professionnelle
les valeursde j
et+j
pour la mortalité toutes causes. Bien que les "taux relatifs de mortalité" varient de0,60 (Cadres supé- rieurs)
à1,35 (Ouvriers qualifiés),
leurs estimations par les deux modèles sont pra-tiquement identiques.
TABLE 1
Comparaison
desparamètres
estimés par le modèleadditif (1)
etmultiplicatif (2) (catégories socio-professionnelles,
mortalité toutescauses)
Ouvriers
qualifiés
Salariés
agricoles Employés
Artisans, commerçants
OuvriersAgriculteurs
Cadres moyens Industriels Cadressupérieurs
Il en est de même pour les variations de mortalité selon la
région géogra- phique (Tableau 2).
Revue de Statistique Appliquee, 1977 vol XXV N° 4
41 TABLE 2
Comparaison
desparamètres
estimés par le modèleadditif (1)
etmultiplicatif (2) (régions géographiques,
mortalité toutescauses)
Bretagne
Alsace Limousin LorraineBasse-Normandie Nord
Rhône-Alpes
Franche-Comté
Auvergne
Picardie
Bourgogne
Haute-Normandie
Région
ParisienneChampagne Aquitaine Midi-Pyrénées
Poitou-Charentes Centre
Languedoc-Roussillon
Les valeurs du
X 2 d’adéquation
aux modèles sont données au Tableau 3pour la mortalité toutes causes et pour les différentes
grandes catégories
de causesde décès.
TABLE 3
Comparaison
des valeurs du~2 d’adéquation
du modèleadditif (1)
et
multiplicatif (2)
aux observations des nombres de décès(mortalité
par causesspécifiques
et toutescauses)
maladies cardiovasculaires maladies cérébrovasculaires tumeurs
maladies du
système respiratoire (*)
Maladies du
système digestif(*) accidents,
mort violente toutes causes(*) à l’exclusion des tumeurs
Revue de Statistique Appliquée, 1977 vol XXV N° 4
42
Elles sont dans tous les cas
plus petites
pour le modèlemultiplicatif,
legain
étant de l’ordre de 4 à 17%
parrapport
au modèle additif. Onpeut
remar-quer
qu’en
attribuant à cesx2
un nombre dedegrés
de libertéapproximatif égal
à(9-1) (19-1)
=144,
ils sontcependant
tous trèssignificatifs,
cequi implique
une intéraction entre le facteur
géographique
etsocio-professionnel
dans leurs effets sur les taux de mortalité nonprise
encompte
dans les deux modèles.DISCUSSION
L’analyse
simultanée des taux de décès dans des sous-groupes de la popu- lation définis par le croisement de deux facteurs nepeut
être effectuée par lestechniques
habituellesd’analyse
de variancecompte-tenu
de la variabilité des effectifs de ces sous-groupes.Les
paramètres
du modèlemultiplicatif
sans intéraction :tjk
=A ~k 03C8k
présentent
laparticularité
d’êtreinterprétables
en termes de"risques
relatifs’’dès que le
paramètre  peut
être assimilé à un taux de mortalité dans l’ensemble de lapopulation
paranalogie
avec larègle
demultiplication
desprobabilités.
Or l’examen des formules
(1)
del’Appendice
donnant les estimations desparamètres
montre que représente
bien un taux de mortalité moyen mais recalculé dans unepopulation théorique
où les effectifs dechaque
sous-groupe(j , k)
estnj. n.k n..
c’est-à-dire pourlaquelle
les deux facteurs sont distribués indé-n..
pendamment,
conditionnellement aux totauxmarginaux.
L’écart entre les estimations
 et
reflète donc l’effet de la liaison entre les deux facteurs dans lapopulation.
Cet écart est ici très faible.Les
paramètres
du modèle additif sans intéractiontik
= J1 +aj
+bk
neprésentent
pas(en
dehors deJ1) d’interprétation simple
en termes deprobabilités
de décès et le modèle doit être considéré sous
l’angle purement opérationnel.
Dansl’exemple
étudié dans leprésent travail,
les estimationsqu’il
fournit sontquasi-
ment
identiques
à celles du modèlemultiplicatif.
Il
présente cependant l’avantage
depermettre
l’établissement de tests designification
des effets des facteurs et de leurs intervalles deconfiance, simple-
ment à
partir
del’analyse
de variance(EL
SHAARAWI[3]).
Dans le cas du modèlemultiplicatif.
des calculs similairespeuvent
être conduits àpartir
de la théorie du maximum de vraisemblance mais sontplus
lourds.L’adéquation
des deux modèles aux observations de la mortalité pour diffé- rentes causesapparaît
àl’avantage
du modèlemultiplicatif
bien que ce dernierne
permette
pas de fairedisparaître
l’intéraction entre lacatégorie
socio-professionnelle
et larégion géographique
dans leurs effets sur les taux de mor-talité étudiés.
En
conclusion,
en cequi
concerne l’estimation des effets dûs auxfacteurs,
les deux
modèles
ne sontguère
discernables mais le modèle additifapparaît plus simple
à mettre en oeuvre sur leplan
des calculs. Le modèlemultiplicatif s’ajuste
mieux aux observations et
peut
se révéler utilelorsque
l’on s’intéresseparticu-
lièrement à l’effet de l’intéraction entre les facteurs.
Revue de Statistique Appliquée, 1977 vol. XXV N° 4
43 REFERENCES
[1]
COX D.R. - Theanalysis
ofbinary
data. Methuen andC° London,
1970.[2]
DERRIENNICF.,
DUCIMETIERE P. - La mortalitécardiaque
desFrançais
actifs
d’âge
moyen selon leurcatégorie socio-professionnelle
et leurrégion
de domicile. Rev.
d’Epid.
SantéPublique,
1977(à paraître).
[3]
EL SHAARAWIA.H.,
CHERRYW.H.,
FORBESW.F.,
PRENTICE R.L. - A statistical model forstudying regional
differences in observedmortality
rates, and its
application
to Ontorioduring
1964-1968. J. Chron.Dis., 29, 311-330, 1976.
[4]
HUBERC.,
LELLOUCH J. - Estimation dans les tableaux decontingence
àun
grand
nombre d’entrées. Int. Stat.Rev., 42, 193-203,
1974.Nous remercions Mr J. LELLOUCH pour ses nombreux conseils.
ANNEXE
1)
Estimation desparamètres
du modèlemultiplicatif
Posons :
calculés à
partir
des taux de décès estimés Cesquantités
sont solutions dusystèmes
en effet :
car les estimations
t
vérifient~r,s : tjs trk - jk trs
ainsi quel’impose
la formedu modèle.
D’autre
part,
elles vérifient les contraintes car :Revue de Statistique Appliquée, 1977 vol. XXV N° 4
44
2)
Relations entre les estimations desparamètres
des deux modèlesSoit
trs (resp. trs)
l’estimation du taux de décès dans lacatégorie (r , s)
par le modèlemultiplicatif (resp. additif).
En écrivanttrs
dans les formules(1)
sousla forme
(irs - rs)
+rs
etremplaçant
le deuxième terme par +âr
+bs,
lescontraintes que vérifient les
quantités âr
etbs
conduisent aux relations :Sous cette
forme,
ons’aperçoit
quepeut
être assimiléà est
(resp. 03C8k) à +j resp. A
dès que les termescorrectifs,
moyennes pon- dérées des écarts entre les estimations des taux de décès par les deux modèles sontpetits.
Revue de Statistique Appliquée, 1977 vol. XXV N° 4