R EVUE DE STATISTIQUE APPLIQUÉE
D ANIEL S CHWARTZ
La méthode statistique en médecine : les enquêtes éthiologiques
Revue de statistique appliquée, tome 8, n
o3 (1960), p. 5-27
<http://www.numdam.org/item?id=RSA_1960__8_3_5_0>
© Société française de statistique, 1960, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
LA MÉTHODE STATISTIQUE EN MÉDECINE :
LES ENQUÈTES ÉTHIOLOGIQUES
par
Daniel SCHWARTZ
Directeur de
l’Unité
de
Recherches Statistiques de l’Institut National d’Hygiène
àl’Institut
GustaveRoussy
On se propose
de rechercher dansquelle
mesure unfacteur
x in-tervient causalement dans le déterminisme d’une maladie m au sein d’une
population
humaine : parexemple l’usage
du tabac dans le casdu cancer
broncho-pulmonaire.
Ce
problème
peutthéoriquement
êtreabordé :
- soit par la voie
expérimentale, :
examen de 2 groupescomparables,
obtenus partirage
au sort, dont l’un sera soumis aufac-
teur x et 1 ’autre non. Cette
façon de faire
est leplus
souventinap- plicable
pour des raisons matérielles oumorales;
elle nerépond
d’ail-leurs pas exac temen t à la
question posée:
avec ceprocédé autoritaire
le cancer du poumon
pourrai t
bienfrapper, dans le groupe fumeur,
dessujets particulièrement vulnérables, qui
dans les conditionssponta-
nées nefumeraient
pas.- soit
parlavoie de l’observation.:
on cherche s’il exis- te, dans lapopulation générale,
une association entrel’exposition
au
facteur
x et1 1 appari t ion de la
maladie m.Cependant
t’associationne permet
pas de
conclure à lacausalité,
du,fait
quel’exposition
aufacteur
x estaléatoire,
et liéeà
de nombreuxfacteurs, parmi
le s- quels peut se trouver ta vraie cause : si1 ’usage du
tabac résulte d’unpsychisme déterminé,
la consommation de tabacélevée
des cancéreux neserait-elle pas seulement 1 1 indice d’un
psychisme particulier quise-
rai t la cause de ce cancer ? La voie de l’observation ne saurai t donc en théorie rien apporter au
problème étiologique.
Enfait
elle a per- mis, dans certains casqui
serontdéveloppés
enfin
de cetexposé, d’abOutir
à uneforte présomption
causale.Cependan t
même si, renonçan t àl’interprétation
causale, on secontente plus modestement
d’étudier la relationd’association,
ilfaut préciser
d’emblée que cette association à, l’état brut est souvent inintéressante : ainsi, dansl’exemple qui vient d’etre cité,on
doits’ a t t end re
à
observerbeaucoup plus
souvent le can ce rbroncho-pul-
monaire chez lesfumeurs
que chez les nonfumeurs,
par le seulfait
que
l’âge
moyen estbeaucoup plus
élevé dans lepremier
groupe que dans le second,qui
icomprend jusqu’ aux nou veau-nés ;
il n’ es t In-téressant de comparer les
fumeurs
et les nonfumeurs qu’à ut éaeal ;
on arrive ainsi à la not ion d’une association
corrigée
de1tnflu-
ence de
l’âge.
Ceproblème pourra être abordé,
soit enexaminant
seulement une
population d’âge
donné(é,tude
enpopulation homo~ène) ,
soit pa r une é tude en
population hétérogène,
courant un assezlarge
intervalle
d’ages, l’ in ftuence de l’a~e étant
éliminée par unprocédé
statistique.
Les
mêmes
considérationss’appliquent
naturellementà
desfac-
teurs autres que
l’âge:
sexe,peut-être
milieu d’habi tat ion, ni veausocial... d’une manière
générale
à tous lesfacteurs
liés à la con- sommation de tabac. La liste de cesfacteurs peut être
longue et in- connue. Enf a i t
onpeut
assez raisonnablementdistinguer
2étapes :
-
dans une première étape,
on é tud iel’association,
d’une part à l’état brut, mais simultanément en lacorrigeant
del’influ-
ence du sexe et de
l’âge,
e t éventuellement d’un nom bre extrêmement rédui t defacteurs
liésfondamentalement
àl’exposition
aufacteur x.
- dans une deuxième
étape,
oncorrtéellassociatton
pour tous les autresfacteurs liésà l’exposition
aufacteur
x. Cetteétape
peu t
ê t re
menéeplus
ou moins loin. Elle est sansfin
...On peut admettre, sans
trop d’arbitraire,
que la limite entre ces 2étapes définit
le moment où se termine l’étude durôle étiolo- gique
dufacteur,
et où commence la recherche d’uneinterprétation
causale.L’une et l’autre peuvent être
abordées :
soit par l’examen d’unepopulation homogène,
où tous lesfacteurs
en cause sont constants, soit par l’examend’une population hétérogène,
où lerôle
de cesfacteurs
est éliminé par un
procède statistique.
Ces considérations
définissent
leplan
de notreexposé.
I PRINCIPE DE
L’ENQUETE
ET MODE D’ECHANTILLONNAGE -a)
Unpremier exemple (enquête prospective )
Dans cet
exemple,
on constitue un échantillonreprésentatif
de lapopula-
tion
générale ;
on note si lessujets
sontexposés
ou non au facteur x, et on en-registre
par la suite tous les cas de la maladie mqui
seproduisent.
De telles
enquêtes
ont été conduites notamment pour étudier le rôle de l’obésité et del’hypertension
dansl’étiologie
de la maladie coronarienne( 18) ,
de la rubéole des femmes enceintes dans la
production
de malformations chezl’enfant (36),
de la consommation de tabac dans le déterminisme de diverses ma-ladies,
enparticulier
le cancer des voiesaéro-digestives supérieures (24, 25, 32).
L’échantillon examiné doit être
représentatif. Cependant
cetteexigence
n’est pas
toujours réalisable,
et dans certains cas on a choisi un groupeplus
facile àsuivre,
parexemple
la totalité du corps médical(24)
ou un groupe desujets pensionnés
de l’Etat(25),
faisantl’hypothèse
d’une stabi i té de l’associa- tion étudiée(si
le tabac estdangereux
pour le corpsmédical,
il l’est vraisem- blablement d’une manièregénérale).
En tout état de cause, si on ne cherche pas àextrapoler,
ondispose
au moins de résultats valables pour unepopulation
biendéfinie.
L’échantillon
peut
êtrereprésentatif
d’unepopulation homogène : l’enquête (32)
sur les fumeursportait
sur lessujets
de sexemasculin,
de raceblanche , d’âge compris
entre 50 et 69 ans. Parcontre, l’enquête (24)
sur le corps médi- calportait
sur unepopulation hétérogène
enâges,
et l’étude d’association àâge
donné nécessita une correction par un des
procédés qui
serontexposés plus
loin.L’exposition
au facteur x est connue par un examen ou unquestionnaire ,
nécessairement très réduit en raison du
grand
nombre dessujets ; quant
à la ma-ladie,
elle estenregistrée lorsque
c’estpossible ; cependant
on doit souvent se contenter de l’information dudécès,
substituant à l’étude d’une maladie l’étude de la mort par cette maladie.Une
enquête "prospective"
de ce genreprésente
d’indiscutablesavantages :
elle
fournit,
comme on le verraplus loin,
une informationcomplète
sur le rôledu
facteur;
elle évite le recours à des groupes témoinscritiquables ;
l’interro-gatoire
a lieu à un moment où le sort dusujet
n’est pas connu, cequi
en garan- titl’impartialité.
Enfinil estpossible
d’étudier simultanément les diverses ma- ladiesimputables
aufacteur.
Mais le nombre de
sujets exigé
estconsidérable,
dès que lafréquence
dela maladie est faible : on a suivi
près
de 200 000sujets pendant plusieurs
annéesdans les
enquêtes (25)
et(32).
De tellesenquêtes
sont donc. rarement réalisables.b)
Un deuxièmeexemple (enquête rétrospective).
Dans ce
2e exemple,
on constitue un échantillon desujets
atteints de lamaladie,
et un échantillonqui
en estindemne,
et on les compare pour la pro-portion
desujets exposés
au facteur x. L’échantillon de malades doit êtrerepré- sentatif ;
si ceci a pu être réalisé dans de rares cas, notamment dans une en-quête
sur les cancers et leucémies de l’enfantqui
a puenglober
tous les cas(du
moins tous les cas
mortels) pendant
unepériode
donnée(62),
on se contente engénéral
d’un mode de recrutementcommode,
parexemple
des cas rencontrésà
l’hôpital
et dans certainesvilles,
admettant ici encore la stabilité de l’asso- ciation.C’est alors la définition du groupe témoin
qui
devient difficile : il doit être obtenu partirage
au sortparmi
lessujets
indemnes de la maladie dans " lapopulation
d’oùprovient
l’échantillon demalades".
Si on choisitpour le groupe
malade les cas
hospitaliers,
on admettra que cettepopulation
est"la
clientèlehospitalière",
c’est-à-dire unecatégorie
desujets
que leur condition(sociale , familiale, psychologique... )
rend candidats àl’hôpital
en cas de maladie.En réalité il n’existe pas une clientèle
hospitalière
engénéral,
mais uneclientèle par maladie:
plus
celle-ci est grave,plus l’hôpital
recrute à unegrande
distance et dans des classes sociales de niveau
élevé ;
c’est donc la cI 1 entà 1 espéci f i que
de la maladie mqu’il
faut échantillonner pour constituer le groupe té- moin.Pratiquement
on forme le groupe témoin avec les cashospitaliers
d’unemaladie m’ de
gravité comparable
à m ; ceprocédé
n’estacceptable
que si la ma- ladie m’ afrappé
cette clientèle"au hasard",
c’est-à-dire si elle neprésente
pas de relation avec le
f acteur
x(ce qui
va de soi : il ne faut évidemment pas que la maladie m’ soit liée à unesous-exposition
ou à unesur-exposition
au fac-teur).
On choisira parexemple,
pour l’étude d’un cancer, des témoins atteints d’autres cancers, oud’autres
maladies graves ; oubien, partant
du groupe desujets
venus consulter pour unetumeur,
dont ils ne savent si elleest bénigne
ou
maligne,
on les diviseraaprès
coup en cancers(maladie
àétudier)
et tumeursbénignes (témoins),
étant à peuprès
assuré que les mêmes facteurs d’échantil-lonnage
ontdirigé
les uns et les autres versl’hôpital.
La difficulté de trouver un groupe témoin correct conduit en
général
à choi-sir
plusieurs
groupestémoins, qu’on justifie
par unecomparaison
mutuelle : parexemple,
dansl’enquête (60)
sur le cancerbroncho-pulmonaire,
les 3 groupes témoins choisis(cancers
autres que ceux des voiesaéro-digestives supérieures,
malades des services de médecine
générale, accidentés)
ontprésenté
le mêmeniveau de consommation de
cigarettes (alors
que celui-ci étaitbeaucoup plus
élevé pour les cancers du
poumon).
De toute
manière,
si on suppose que le groupe témoin nereprésente
pas correctement lapopulation
d’oùprovient
le groupemalade,
il devient nécessaire decorriger
cebiais,
soit par l’examen depopulations homogènes (comparaison
des malades et des témoins dans des groupes de milieu
d’habitation,
niveau so-cial...
donnés),
soit enappliquant
à l’échantillon de popu l at ionhétérogène
lescorrections
voulues, qui
serontexposées plus
loin.Cette
partie
del’analyse statistique
doit être menée avecsoin,
si on veutéviter
d’appeler
association cequi
ne serait en fait que le résultat d’uneinéga-
lité
d’échantillonnage
entre les 2 groupes.C’est
pourquoi
on tâche engénéral
decorriger
cetteinégalité
par un appa- riement ; ; ceprocédé , qui
est un desavantages possibles
del’enquête rétrospec- tive,
consiste àchercher,
pourchaque
maladeinterrogé,
un témoincomparable
e)l
égard
à certainescaractéristiques :
celles-cipeuvent être,
soit des facteursd’échantillonnage (milieu d’habitation,
niveausocial... )
soit des facteurs essen-tiels cités
plus
haut : sexe,âge ... Ainsi,
dansl’enquête (60)
surl’étiologie
ducancer
broncho-pulmonaire,
àchaque
maladecorrespondait
un témoind’âge
voi-sin
(même
tranched’age
de 5ans), interrogé
à la mêmeépoque
et sipossible
dans le même
hôpital ;
dansl’enquête
sur les cancers de l’enfant(62),
les té-moins étaient tirés au sort sur les
registres
de l’état-civil de la commune où était né l’enfantcancéreux, parmi
les enfants de même sexe nés à la mêmedate ,
ce
qui
assuraitl’appariement
par sexe,âge
et lieu d’habitation.Il va de soi que
l’appariement
doitêtre limité
aux seulsfacteurs
dont lerôle
estdéjà
connu; dès lorsqu’on apparie
enfonction
d’unfacteur,
on annulepour ce
facteur la différence
entre les groupes malade ettémoin,
de sortequ’on
renonce à toute
information
sur son rôle dansl’étiologie.
L’exemple
ainsi décritd’enquête rétrospective comporte
finalement bien des difficultés deprincipe ;
encontre-partie
la conduite del’enquête
est infini- mentplus
aisée que dans lesenquêtes prospectives,
car il suffit de réunir un nom-bre relativement faible de cas. En
outre,
il devient alorspossible
de mettre enjeu
unquestionnaire détaillé,
de sorte que ce n’est pas seulement le rôle d’un facteurqui
estétudié,
mais deplusieurs,
voire de tous ceux dont l’influenceétiologique
estsupposée.
Aussi ce genre
d’enquête
a-t-il tenté de nombreuxchercheurs, qui
l’ontutilisé pour des maladies aussi variées que la tuberculose
(44),
la maladie coro-narienne
(21, 28, 65),
la cirrhose du foie(54),
les malformationscongéni-
tales
(45)
et surtout le cancer. Dans ce seuldomaine,
on a ainsi étudié la rela- tion entre la situation de famille et le cancer du sein(30, 37, 59, 63),
ou du colde l’utérus
(30, 34, 43, 68), l’étiologie
du cancer de la vessie en fonction de l’u- sage du tabac( 11, 19, 40)
ou d’infectionsparasitaires (52),
du cancer des voiesaéro-digestives supérieures
en relation notamment avec la consommation du ta- bac et de l’alcool(38, 50, 55, 56, 58, 69, 71),
des cancersgastro-intestinaux
en relation avec
l’usage
des laxatifs(6),
du cancergastrique
en relation avec lesantécédents héréditaires
(64)
ou le groupesanguin (5, 29),
de la leucémie chez l’enfant en relation avec une irradiation de la mèrependant
la grossesse(62).
Rien que pour le cancer
broncho-pulmonaire,
onpeut
citerplus
de 20enquêtes rétrospectives (notamment 7, 22, 55, 60,
67 pour ne mentionner que cellesqui portent
sur au moins 500 cas de cancer et 500témoins,
et31,
70 pour cellesqui portent
sur le sexeféminin).
c)
Considérationsgénérales -
Classification desenquêtes.
Les 2 modes
d’enquête qui
viennent d’être décrits sont trèsdifférents,
et l’élément leplue apparent
de cette différence est d’ordrechronologique :
on s’at-tache à l’avenir des
sujets
dans un cas, aupassé
dans l’autre.Cependant
letemps
n’est ici
qu’un
caractèresecond,
et il est bienplus judicieux
de classer les en-quêtes d’après
le moded’échantillonnage.
Nous
adopterons
à cet effet unmodèle, représenté
au tableau2,
où les su-jets
sont classés dans un tableau 2 x 2 en 4catégories.
Ils’agit
là d’un modèlesimplifié ;
en effet :a)
La raison pourlaquelle
lessujets
nonexposés peuvent
contracterla maladie m n’est pas
envisagée;
cette raisonpeut
êtrel’exposition
à un facteur y aumoins ;
il faudrait dans ce casprévoir
un modèle à au moins 3 dimensions(exposition
au facteur x,exposition
au facteur y, maladiem ) ;
b)
onpourrait
étudier avecplus
deprécision
le rôle du facteur x, ensupposant plusieurs degrés d’exposition.
Cepoint
seraparfois pris
en considé-ration dans les pages
qui suivent ;
c)
il faut enfinpréciser
cequ’on
entendpar "sujets
atteints de la ma-ladie
m".
Ilpeut s’agir
de mortalité ou demorbidité, et,
dans cette dernièreéventualité,
soit des nouveaux cas apparuspendant
unepériode donnée,
soit descas existant à un mome.nt donné
( incidence
etprevalence
de laterminologie anglo- saxonne) ;
cesaspects, - et
d’autresqu’on peut imaginer -
traduisent des moyens différents de mesurer lafréquence
d’une maladie dans un groupe. Cette diversité est commune à bien desproblèmes
d’ordrestatistique
enmédecine,
et la sourcede bien des
difficultés.
Nous conserverons dans le tableau 2 laterminologie,
àdessein vague, de
"malades",
en sachantqu’il
y auraitlieu,
pourchaque
pro- blèmeparticulier,
de formuler audépart
une définitionplus précise.
Si on
adopte
le modèle du tableau2,
les 2variables, exposition
au facteurx et atteinte par la maladie m, étant toutes deux aléatoires
(puisqu’il s’agit
uni-quement d’observation}l’expérience
étantexclue),
c’est la nature de leur distri- bution - distribution contrôlée ou distribution aléatoire -qui permet
de classerles
types d’enquête.
On obtientalors,
avec White et Bailar(66),
3types : type
1 = distribution aléatoire pour x et pour m : on constitue un échantillonreprésentatif
de lapopulation
étudiéetype
2 = distribution contrôlée pour x , aléatoire pour m : on constitue 2 groupesreprésentatifs
desujets exposés
et nonexposés
type
3 = distribution contrôlée pour m, aléatoire pour x : on constitue 2 groupesreprésentatifs
desujets
malades et non malades.TYPE 1
(ECHANTILLON
REPRESENTATIF DE LA POPULATIONETUDIEE)
C ’est dans cette
catégorie qu’entrent
lesenquêtes prospectives
décritesplus
haut. Toutefois le
type
1n’oblige
aucunement à suivre les malades dans lefutur,
on
peut
très bien dans certains cas se référer aupassé
ou auprésent
dessujets.
Naturellement,
s’ils’agit
du cancer du poumon, on ne saurait s’intéresser aupassé,
car lessujets ayant
dans lepassé développé
cette maladie seront en ma-jorité décédés,
cequi
fausseral’échantillonnage ;
on nepeut
pasdavantage
s’in-téresser au
présent,
car le nombre desujets
atteints seraittrop faible ;
force est donc de suivre lessujets
dans le futur. Mais dans le cas d’une maladie nonmortelle,
etfréquente,
rienn’empêche
de considérer lepassé
ou leprésent :
onpourra par
exemple
étudier la relation entrel’éthylisme
et les altérations arté- rielles du fond d’oeil sur un échantillon de taillemodeste,
le facteur et lesigne pathologique
étant tous deuxlargement répandus.
Au
type
1 se rattache lacatégorie particulièrement
intéressante des en-quêtes
demorbidité, qui indiquent
les nouveaux cas de maladie apparus,pendant
une
période déterminée, dans
la popul at ion ent ière d’une airegéographique
dé-terminée,
et constituent desenquêtes étiologiques possibles lorsque
le facteurx est une
caractéristique démographique
connue par lesstatistiques
de cette po-pulation :
ainsi a-t-on pu étudier la relation entre les cancersgénitaux
de lafemme et la situation de
famille,
dans 10grandes
villes des U. S. A.(26)
et dansla totalité du Danemark
( 10).
TYPE 2
(UN
GR,OUPE DE SUJETSEXPOSES,
UN GROUPEDE SUJETS NON
EXPOSES)
Ce
type peut permettre
de suivre un nombre desujets
moins considérable que dans letype
1. Avec les notations des tableau 1 et2,
lacomparaison
des 2groupes faIt .... IntervenIr une varIance de
forme . mo (1 - mo) M, (1 - ml)
; on
peut,
g rou p es fait intervenir une variance de forme-2013201320132013201320132013
+
2013201320132013201320132013 ; ;
on
peut ,
no. n~
se fixant
celle-ci,
chercher les valeurs de no* et nl*qui
assurent l’effectif total(n o*
+nl* )
minimum. Si on suppose que lafréquence
de la maladie ne sera pasbeaucoup plus
élevée dans le groupeexposé que
dans le groupe nonexposé (m1
=mo ) ,
c’est en choisissant des effectifs
égaux
dans les 2 groupesqu’on
obtient le mini-mum de
sujets
à suivre.Dans le cas de
l’enquête
sur le rôle dutabac,
unéchantillonnage
aléatoirede 200 000
sujets
conduit à 30 000 non fumeurs et 170 000fumeurs ;
il est certainqu’en
constituant audépart
2 groupes d’effectifsplus équilibrés,
onpeut,
pourune même
précision,
diminuer le nombre desujets nécessaire ;
celaobligerait ,
par
ailleurs,
pour trouverdavantage
de nonfumeurs,
àorganiser
une prospec- tion initialeplus
étendue :peut-être
serait-ce finalementplus compliqué,
cecidépend
des difficultés relatives de laprospect ion
initiale etde la surveillanceultérieure. La surveillance est en
général difficile ;
laprospection
initialepeut
être aisée : s’ils’agit
d’étudier lafréquence
des cancersgénitaux
de la femmeen fonction du nombre
d’enfants,
ce dernierrenseignement
sera facilement dis-ponible,
et on aura tout intérêt à constituer 2 groupes d’effectiféquivalent
de femmes avec ou sansenfants.
Le bénéfice du
type
2 est d’autantplus
considérable quel’exposition
au fac-teur est
plus
rare(par exemple
exercice d’uneprofession
peurépandue).
Sicelle-ci se rencontre 1 fois sur
1 000,
le coefficient de la varianceserait,
par millier desujets,
dans letype 1, (toujours
dansl’hypothèse
11 mo =m~, 2013 +2013~~
1 9991.
précision qui peut
être obtenue dans letype
2par 1 + 1 ,
2 2 donc avec 4sujets; il
suffit
donc d’un nombre desujets
250fois plus faible.
A ces
gains
souvent trèsconsidérables,
letype
2permet d’ajouter
encore unperfectionnement : lorsque l’exposition
au facteurpeut
être divisée enplus
de2 classes hiérarchisées
(0, 1, 2,
...enfants,
au nonfumeurs, petits,
moyens ,grands fumeurs),
si on suppose que l’effet du facteur cro3t en fonction de cettehiérarchie,
onpeut
constituer 2 groupes,correspondant
aux valeurs extrêmes(non
fumeurs et trèsgrands fumeurs,
femmes sans enfants et mères de famillenombreuse).
L’écartescompté
entre les 2 groupes étantaugmenté,
on pourrase contenter d’effectifs
plus faibles.
Enfin un cas extrême du
type
2 est celui où on constitue seulement le groupeexposé
aufacteur,
le groupe nonexposé
s’identifiant à lapopulation générale :
on a
suivi,
parexemple,
un groupe d’ouvriers travaillant dansl’amiante,
et com-paré
lafréquence
observée de décès par cancer du poumon à celle de lapopula-
tion
générale (23) ;
on a de même étudié la mortalité par cancer du poumon chez lessujets gazés,
ou souffrant de bronchitechronique (9),
la mortalité par cancer de l’estomac chez des personnesachlorhydriques
ou atteintes d’anémieperni-
cieuse
(3, 33, 51 ),
la mortalité chez lesradiologistes,
pour les différentes cau- ses dedécès,
et enparticulier
le cancer( 17, etc. ).
Cette méthode suppose na- turellement que lessujets exposés constituent,
dans lapopulation générale,
ungroupe suffisamment
petit
pourqu’on puisse
confondrepopulation
nonexposée
et
population générale.
Parailleurs,
lescomparaisons
de mortalité ou de mor-bidité ne s’entendent évidemment
qu’à
sexeégal, âge égal,
éventuellement mi- lieu socialégal,
etc. cequi exige
les correctionsd’usage.
Tableau 1 Echantillon
(effectifs)
Tableau 2
Population générale (proportions)
TYPE 3
(UN
GROUPE DE SUJETSMALADES,
UN GROUPEDE SUJETS NON
MALADES)
C’est dans cette
catégorie qu’entrent
lesenquêtes rétrospectives
décritesplus haut.
Ellepermet
de réduire les effectifsprévus
par letype 1,
tout commele
type 2 ,
et pour des considérationssymétriques, portant
cette fois sur les ef-fectifs des groupes malade et
témoin.
Legain
est obtenu enéquilibrant
ces ef-fectifs,
et il est d’autantplus grand
que lamaladie,
dans lapopulation étudiée ,
est
plus
rare : dans le cas du cancer du poumon, il suffit dequelques
centainesde
sujets
danschacun
des groupes malade et témoin pour obtenir la mêmepré-
cision
qu’avec
200 000sujets
d’un échantillonaléatoire.
En réalité il arrive
souvent,
dans lesenquêtes
de ce genre, que les té- moins soientplus
faciles à recruter que lesmalades,
de sortequ’on préfère
enréunir un
plus grand
nombre(n*o
>n.l).
On se souviendra toutefoisqu’il
n’estpas
opportun
d’allertrop
loin dans cettevoie ; l’expression-.!.... + 1
ne diminuen*o
n*l
plus guère,
pourn*1 donné, quand n*o
devientgrand :
c’est ainsiqu’entre
la va-leur atteinte pour n~ = 3n ( soit 4 =)
et pournu
infini{soit 2-)
la diminution3 n*l
n*lde variance ne compense
guère
la difficulté de recrutement.Un cas extrême du
type
3 est celui où on constitue seulement le groupe ma-lade,
le groupe témoin s’identifiant à lapopulation générale -
ceci n’étantpossi-
ble que si la
fréquence d’exposition
au facteur est connue pourcelle-ci,
et si la maladie est suffisamment rare pourqu’on puisse
confondrepopulation
non ma-lade et
population générale :
on acomparé
parexemple
aux données de la popu- lationgénérale
la situation de famille observée sur un groupe de 1 200 femmes atteintes de cancer du col utérin(48),
ou lafréquence
de la mortalité par cancer du sein dans l’ascendance féminine d’un groupe de malades atteintes de cemême cancer
(46).
Cescomparaisons
sont naturellement faites àâge égal,
éventuellement à milieu social
égal,
etc. par les correctionsexposées plus
loin.D’une manière
générale,
dans lesenquêtes
dutype 3,
et surtoutlorsqu’on
craint des biais dans
l’échantillonnage
du groupetémoin,
on devra tenircompte
des
multiples
facteursd’échantillonnage,
pour des raisonsqui
ont été détailléesdans
l’exemple
de"l’enquête rétrospective".
d)
Conclusion.Le type 1,
avec sonéchantillonnage représentatif
de lapopulation étudiée ,
est très coûteux en nombre de
sujets.
Le
type
2permet
de réduire cenombre,
ceci d’autantplus
quel’exposition
au facteur est une éventualité
plus
rare.Le
type
3permet
une réduction du même genre, d’autantplus
considérable que la maladie estplus
rare.Il va de soi
qu’en contre-partie
on ne saurait attendre autant destypes
2 et3 que du
type
1 : ils nepeuvent
donner que des conclusions moins étendues et d’une valeurplus discutable ;
c’est ce queprécisera
lechapitre
suivant.U - TEST ET MESURE DU ROLE
ETIOLOGIQUE
DE L’EXPOSITION AU FAC- TEUR -a)
Mesure du rôleétiologique
dans lapopulation étudiée, supposée homogène.
Nous nous
plaçons
dans le cas du modèlesimplifié,
décritplus haut,
et re-présenté
au tableau2,
où onenvisage
4catégories
desujets, exposés
ou non ex-posés,
malades ou non.Nous supposons en
outre,
pour commencer, que lapopulation
étudiée esthomogène
pour les facteurs essentiels énumérésplus haut,
tels que :âge,
sexe ,niveau social.
Indépendamment
desproportions
ouprobabilités
p oo~ po, PIO, pll~qui
dé- finissent entièrement lasituation,
nous avons faitfigurer
simultanément au ta- bleau 2quelques
combinaisons de cesprobabilités qui,
poursimplifier,
serontdésignées
par dessymboles plus parlants :
mo, m 1, et m, lesprobabilités
demaladie chez les
sujets
nonexposés, exposés,
etglobalement ; xo, xi,
et x lesproportions
desujets exposés
au facteur xparmi
lessujets indemnes, malades ,
et
globalement.
Si
l’exposition
au facteur n’intervient pas dansl’étiologie
de la maladie m , lesprobabilités
POl et PlI sontproportionnelles
à Poo et plo, ou encore lesproba-
bilités m o et ml sont
égales (ainsi
d’ailleurs que lesproportions
desujets
expo- sésxo
etxl).
Si elleintervient,
il n’en est pasainsi,
lesprobabilités mo
etml
par
exemple
sontdifférentes,
enprincipe
dans le sens mi > m o .Si
l’exposition
au facteur a un rôleétiologique (cette
locution nesupposant
pas
qu’il s’agisse d’une
relationcausale)
onpeut
se proposer de traduire ce rôle-quantitativement.
Il est d’abord certain que le rôle du facteur x est d’autant
plus important
que le tableau 2 s’écarte
davantage
du modèle del’indépendance,
c’est-à-dire parexemple
que ml s’écartedavantage
de mo. On pourra donc mesurer ce rôle parune
expression indiquant
l’écartentre
ml et mo.Hammond et
Horn,
dansl’enquête prospective
sur la mortalité en relationavec
l’usage
du tabac(32),
ontutilisé,
pour une cause de décèsdonnée,
par exem-m
ple
le cancer du poumon, lerapport= qui
mesure la surmortalité des fumeurs . moBerkson (4)
pensequ’il
vaudrait mieux utiliser la différence(ml - mo).
De toutemanière,
aucune fonction de ml et mo nepeut
à elle seule résumer la situation définie par les 2 données ml etm o ;
il est clair que pour unrapport
donné la dif-férence
peut
êtrevariable,
et inversement. M. C.Sheps (61 ) souligne qu’il
estplus
intéressant de former telle ou telle fonction de ml et rn.0
qui
ait un sens concretdans un modè le donné. Elle propose notamment de faire intervenir la mortalité par
cancer du poumon liée en propre à
l’usage
de lacigarette,
soit m x, et d’écrire la la mortalité chez les fumeurs sous la forme :C’ est là un modèle
particulièrement simple,
car aux conventionsdéjà adop-
tées
plus
haut(on n’envisage
pas que lessujets
nonexposés
au facteur xpuis-
sent être
exposés
ou non à d’autresfacteurs,
cequi
conduirait à un schéma àplus
de 2dimensions),
onajoute
unehypothèse supplémentaire :
lessujets, qu’ils
soient
exposés
ou nonexposés
au facteurx (tabac),
auraient par ailleurs la mêmeprobabilité
de décès par cancerbroncho- pulmonaire
pour les"autres causes".
Sion
adopte
ce schéma enpremière approximation,
de(1) on
tire :~ -...-
Cette fonction de ml et mo aun sens
concret, puisqu’elle
mesure la morta-lité liée en propre à
l’exposition
au facteur x, ou encore mortalitéqu’on
obser-verait en l’absence des autres causes de cancer
broncho-pulmonaire ;
c’est sur-tout dans le cas de la relation causale que cette
expression
est intéressante : mx mesure alors1 1 e f fe t
propre du facteur x.On notera que
1 - mu= 1 - ml ;
ce dernierrapport, qui prend
ainsi un sens1 - mo
concret, est le
rapport
des survies des groupesexposé
et nonexposé,
de sorteque le
rapport
des survies devientplus
intéressant que lerapport
desmortalités.
Il va de soi que mx, pas
plus qu’une
autrefonction,
ne résume ml et m.o~et
qu’il
faut une deuxième information pour définir lecouple (ml, mo) ;
celle-cipeut
être m o, lecouple (m o, mx) ayant
une valeurplus
concrète que lecouple ( m o, ml), puisqu’il exprime
lerisque
en l’absence dufacteur,
et lerisque
lié en pro- pre àl’exposition
aufacteur.
Enfin le
couple (mo, mx)
ne suffit pas encore à résumer la situation décrite par le tableau2 ;
celui-ci est défini par 4probabilités
poo,Pal’ Plo, PlI’
dont lasomme est
1,
donc par 3 donnéesindépendantes.
Onpeut
alorsadjoindre
au cou-ple (mo, mx)
une troisièmedonnée,
parexemple
lafréquence
del’exposition
aufacteur,
soit x. La situation serait alors ainsi résumée :m o =
probabilité
de maladie en l’absenced’exposition
au facteurm =
probabilité
de maladie pour unsujet exposé,
en l’absence d’autrescauses de la
maladie,
ou effet propre du facteur dansl’hypothèse
causale
x =
fréquence
del’exposition
aufacteur.
On
peut
naturellementpréférer
un autre groupe de 3indices.
Il reste que , de toutemanière,
le rôleétiologique
d’un facteur ne saurait être mesuré par un seul indice : c’est là un résultat commun à toutproblème
de liaison entre 2 va-riables aléatoires
dichotomiques
etqu’on
rencontre sous une forme similairequand
on veut mesurer le rôle d’un critère en matière depronostic
ou de dia-gnostic.
Un indice intéressant est la
proportion
de cas dus aufacteur (proportion
de cancers du poumon dus à
l’usage
dutabac),
soit P. C’est :ou, en fonction de ma, m x , et x,
b)
Test et mesure du rôleétiologique d’après l’échantillon.
Cas del’échantillonnage représentatif
d’unepopulation homogène.
Pour commencer, nous supposons ici
l’échantillonnage correct,
c’est-à- dire donnant un échantillonreprésentatif
de lapopulation
étudiée dans letype 1 ,
deux groupes
représentatifs
descatégories exposée
et nonexposée
dans letype 2,
malade et témoin dans letype
3.Nous supposons encore
qu’il s’agit,
dans chacun décès cas, d’unepopu t a t i on homo~ène
en cequi
concerne lescaractéristiques
essentielles énumérées dès l’in- troduction de cetexposé,
c’est-à-dire de sexedonné, d’âge donné,
éventuelle- ment de niveau social ou de milieu d’habitation donné ...Il
s’agit, d’après
l’échantillonobservé, d’éprouver puis
d’estimer le rôleétiologique
del’exposition
au facteur.Le
type
1permet
de connaîtrecomplètement
le rôleétiologique
du facteur :on
éprouve
d’abord ce rôle parjugement
sur l’échantillon du tableau1 ,
à l’aided’un test
classique ( X2
sur le tableau 2 x2); il est possible
ensuite d’ est imer man01
n . n 1*par-,
n o* ,mi par n
n 1* et xpar n
nDans le
type 2,
on a encore des estimations valables de ma etml,
et leurcomparaison permet d’éprouver
le rôleétiologique
dufacteur.
Cettecomparaison
15
de
proportions
seramène,
ici encore, à un test de X2 sur le tableau 2 x 2. Lamesure du rôle
étiologique
ne saurait par contre êtrecomplète :
on a des esti-mations de m o et mi comme ci-dessus. Mais la
fréquence
x del’exposition
n’estpas connue,
puisqu’on
a choisi arbitrairement les effectifs des groupesexposé
etnon
exposé.
Ce moded’enquête
nepermet
donc que d’évaluer l’effet dufacteur,
mais pas sa
fréquence. (Notons qu’il
estparfois possible
de connaître celle-ci parailleurs,
à l’aide de donnéesstatistiques générales).
Dans le
type 3,
une difficulté seprésente
dès le test d’ associat ion : on nepeut
pas comparer ml et mo, car on nedispose
pas de leurs estimations du faitqu’on
a choisi arbitrairement les effectifs des groupes malade et témoin. Par contre on a des estimations correctes dexi et
xo,qu’on peut
comparer par un test designification, qui
est ici encore un X2 sur le tableau 2 x 2. Or il est visible que ce testpermet d’éprouver
le rôleétiologique
du facteur. Si lesdésignations
"malade"
ou"non malade"
des tableaux 1 et 2désignent
dessujets présentant
lamaladie
pendant l’époque
del’enquête (*),
le test d’association est réversible : si xi > Xo, on a aussi m 1 > mo, c’est-à-dire unefréquence
des cas demaladie ,
dénombrables
pendant
un intervalle detemps donné, plus
élevée dans le groupeexposé,
cequi indique
le rôleétiologique
dufacteur.
La mesure de ce rôle est malaisée : on
peut
estimer seulement Xo et xi, cequi
donne comme dans letype
2 deux indices au lieu de3 ;
mais ces indices ne sontguère intéressants,
et onignore mol ml’
et x, - à moins naturellement que lafréquence
de la maladie dans lapopulation générale
ne soit par ailleurs connue par des donnéesstatistiques, auquel
cas,disposant
de 3données,
onpeut
con-naître
complètement
le rôle dufacteur.
Toutefois, lorsque la fréquence
dela maladie,
sans être connue, estfaible, on peut
tirer del’enquête
desrenseignements étiologiques plus intéressants;
sion suppose la maladie rare, tant pour le groupe
exposé
que pour le groupe nonexposé,
on a en effet :et
expression qui peut
êtreestimée,
àpartir
desdonnées,
parLe m
rapport = a été appelé
r i s querel at i f par C ornfield ( 15 ), qui
en a donnémo
l’estimation
par la formule (6),
ainsi que les limites deconfiance.
Cerisque
re-latif r mesure le
rapport
entre lesproportions
desujets présentant
la maladie---
(*)
Ils’agit
donc, pour reprendre la distinction définie plus haut, des cas existant à un moment donné (enanglais prevalence).
donnée, pendant
un intervalle detemps déterminé,
chez lessujets exposés
et nonexposés.
Dans le cas du cancerbroncho-pulmonaire
parexemple,
lerisque
re- latif desfumeurs,
parrapport
à celui des nonfumeurs,
est de l’ordre de 10.Le
risque
relatif reste naturellement soumis aux limitationsindiquées plus
mi
haut pour le
rapport - ;
il ne saurait à lui seul résumer ml et m o, et 2 situationsmo
étiologiquescaractérisées,
l’une parm~ =1/1000,
ml =10/ 1 000,
l’autrepar des proportions
10 foisplus élevées,
donnent le mêmerisque
relatif r = 10 alors que(ml - m o)
parexemple
est très différente. Mais lerisque
relatif a pour lui depouvoir
être estimé àpartir
desdonnées,
cequi
n’est le cas ni pour(m 1- mu)’
ni pour mx ...
La
place
du facteur x dansl’étiologie peut également, - toujours
dans lamême
hypothèse
de maladie rare et dans le cas du modèle décritplus
haut - être connue. Laproportion
de cas dus à la maladie étantd’après (3) :
on a, pour une maladie rare,
de sorte que :
expression dépendant
seulement deet POl, qu’on peut
estimerd’après
l’é-Poo Pu
,chantillon.
En faisant intervenir les
proportions
desujets exposés,
dans les groupes malade :et non malade :
on
peut exprimer
P sous les formes :ou