R EVUE DE STATISTIQUE APPLIQUÉE
P HILIPPE L AZAR
Partition d’un groupe hétérogène en sous-groupes homogènes
Revue de statistique appliquée, tome 14, n
o1 (1966), p. 39-43
<
http://www.numdam.org/item?id=RSA_1966__14_1_39_0>
© Société française de statistique, 1966, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
39
PARTITION D’UN GROUPE HÉTÉROGÈNE
EN SOUS-GROUPES HOMOGÈNES
Philippe LAZAR*
Nombreuses sont les méthodes
proposées
dans la littérature pourmener à son terme la
comparaison
d’un groupe de k variablesqu’un
testglobal
a révéléesdifférentes ;
LELLOUCH vient d’en donner unlarge
aperçu
synthétique
en mêmetemps qu’une
classification[1].
Onpeut
constater que, dans
l’ensemble,
ces méthodes sont relativement peupuissantes, parfois
assez lourdesquant
auxcalculs,
et surtout condui- sent à des conclusions souvent difficiles àinterpréter :
le résultat final est en effet rarementsimple,
dutype (A = B) ~ (C =
D =E) ~ (F = G).
C’est que
l’optique adoptée
reste essentiellementdémonstrative,
et que, notamment, on veut continuer à limiter sévèrement lerisque
de 1èreespèce
relatif à lacomparaison
de 2 ouplusieurs
des k variables. Ilnous a semblé que, dans certains
problèmes,
ilpourrait
être intéressant de se libérerpartiellement
de cescontraintes,
en seplaçant
dans uneoptique prospective,
à la recherche d’idées nouvelles.Lorsqu’on
est amené en effet àpratiquer
un testglobal d’homogé- néité,
parexemple
uneanalyse
de variance pour comparer k moyennes, c’estqu’il
existe apriori
entre ces moyennes une certainesymétrie.
Si ce n’ est pas le cas, on a bien souvent intérêt à
adopter
une straté-gie
autrequ’un
testglobal.
Il ne faut pasperdre
de vue quel’objet
es-sentiel du test
global
est avant tout de rompre cettesymétrie apparente
de l’ensemble des k
variables,
et que cette seule conclusionpeut
êtreen elle-même très riche.
Ainsi il
peut
être intéressant de savoir si parexemple
un facteurcomme la
couleur,
lataille,
la forme de la cagepeut jouer
un rôle dansl’évolution des animaux soumis à une
expérience :
onplacera
pour cela des animaux dans des cages decouleurs, tailles,
formes trèsdiverses,
et on fera un test
global d’homogénéité.
La conclusion essentielle seraacquise
dès lorsqu’on
aura montré que les résultats sont ou ne sont pasglobalement homogènes.
Si l’on veut allerplus loin,
et chercher par ex-emple quelles
formes de cages donnent les résultats lesplus différents,
c’est presque d’un autre
problème qu’il s’agit,
et l’onconçoit qu’il puisse
êtreparfaitement
satisfaisant de se servir des résultats de la lèreexpé-
rience non pour démontrer que telle forme conduit à des résultats différents de ceux que donne telle autre
forme,
mais seulement pour orienter les re- cherchesfutures,
cequi permet d’accepter,
en connaissance de cause, de.s erreursplus importantes.
Dans cetteperspective,
nous avons cher- ché à nous raccrocher à l’un des modèles lesplus simples
à concevoir : classerobjectivement et complètement
les k valeurshétérogènes
en unnombre aussi
petit
quepossible
de sous groupeshomogènes
distincts.---
* - Unité de Recherches Statistiques de l’Institut National de la Santé et de la Recher- che Médicale.
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 1
40
PRINCIPE DE LA CLASSIFICATIONLe
principe
de cettepartition
repose sur ladécomposition classique (exacte
ouasymptotique)
de testsglobaux
en sous-tests. Nous allons l’ex- poser dans le cas de k variables aléatoiresmi normales,
de moyennes 4 i et de variances03B42i(i =
1...k).
Sous
l’hypothèse
nulle[03BCi = 03BC (i =
1 ...k) ],
on saitqu’on peut estimer 4
paroù
et que
est distribué selon une loi de
X 2
à(k - 1)
d.l.Sous
n’importe quelle hypothèse alternative,
cetteexpression
estdistribuée selon un
X2 non
centré. Onpeut préciser davantage.:
sousl’hypo-
thèse
Hj,
parexemple,
où les variablesappartiennent à j
sous-groupes distincts(j k)
on constate aisément que Xpeut
sedécomposer
en 2termes
indépendants,
l’unqui
est unX2
non centré fondé surles j
va-leurs
distinctes, qu’on peut
noter~’2, et
l’autre unX2
à(k - j)
d.l.qui exprime
les fluctuations des variables autour de leurs moyennes respec- tives.Par exemple si les valeurs mi et m2 sont extraites de populations de moyenne 03BCA, ; que m3, m4 et m5 sont extraites de populations de moyenne 03BCB, on a
d’où
puisque
de variance
avec
et que
Revue je Statistique Appliquée 1966 - Vol. XIV - N’ 1
41
avec
Le 3ème terme entre crochets est un x2 non centré, la somme des 2 premiers
termes un X2 à 3 dl.
REGLE DE PARTITION
1) -
on fait le testglobal.
S’il est nonsignificatif
ons’arrête.
S’il estsignificatif
on continue.2) -
on essaie toutes les coupures en 2 sous-groupes. Achaque
cé-sure
correspond
unedécomposition
de X en 2 termes, l’uncorrespondant
à
l’hétérogénéité
entre les sous-groupes, l’autre àl’homogénéité
à l’in-térieur des sous-groupes. La césure
qui
maximise l’un minimise l’autrepuisque
leur somme est constante. C’est celle-làqu’on
choisit comme la"meilleure"
césure en 2 sous-groupes. Reste à s’assurerqu’elle
est sa-tisfaisante,
c’est-à-dire que le testd’homogénéité
estnon-significatif.
On ne sert pour cela de la table de
X2
à(k - 2)
d.l. Si le test est nonsignificatif,
on s’arrête et onadopte
cette césure.(La significativité
del’autre terme de la
décomposition
donne une indication sur la valeur réelle de cettepartition).
Si par contre le testd’homogénéité
estsignificatif
oncontinue.
3) -
on essaie de novo toutes les coupures en 3 sous-groupes. Achaque
césurecorrespond
encore unedécomposition
de X en 2 termesadditifs,
l’unqui
est le testd’hétérogénéité,
l’autre la somme des testsd’homogénéité
entre les 3 sous-groupes. La césurequi
maximise l’unminimise l’autre etc....
DISPOSITION
PRATIQUE
On classe les valeurs observées par ordre croissant. On
peut
éli - miner d’emblée de nombreux essais manifestement inutiles. Les résul- tats des césures en 2 sous-groupes donnent des indications sur la marche à suivre pour 3 sous-groupes etc ... Enpratique
les calculssont jamais
très
longs....
s’iln’y
a pastrop
de sous-groupes distincts.CARACTERISTIQUES
DE LA METHODEOn
peut
montrer aisément que la méthodeproposée
limite àaj
laprobabilité
de trouverplus
de sous-groupesqu’il
n’en existeréellement,
si on choisit le seuil de
significativité a j
pour le test departition en j sous-groupes, j
étant le nombre réel de sous-groupes. En effet suppo-sons par
exemple
queH3
soit vraie(3 sous-groupes).
De deux choses l’une : ou bien le manque depuissance
fait arrêter ladécomposition aux étapes
de 1 groupehomogène
ou de 2 sous-groupes, ou bien on abordel’étape
3 sous-groupes.Dès
lors, puisqu’on
fait(au
moinsthéoriquement)
toutes les décom-positions
en 3 sous-groupes, on fait enparticulier
la"bonne",
c’est-à-dire celle
qui permet
d’écrireOn teste
l’homogénéité
par lex 2 [k - 3] qui
a 03B1 3 chances d’êtresignificatif.
Revue de Statistique Appliquée 1966 - Vol. XIV - N 1
42
- s’il est
significatif,
il restepossible qu’une
autre césureconduise à un test
non-significatif
- s’il est non
significatif,
il estpossible qu’une
autre césure conduise à une valeur encoreplus faible,
mais de toutefaçon
on s’ar-rêtera à 3 sous-groupes.
Donc la
probabilité
de continuer àdécomposer
est limitée par 03B13.La
probabilité
de trouvertrop
de sous-groupes est donc raisonna- blement limitée. Naturellement la constitution de ces sous-groupes nesera pas
toujours
exacte, mais onconçoit
que laprobabilité
d’une com-position
tout à fait aberrante soit faible. Cettequestion
mériterait d’êtreprécisée,
mais est difficile.Quoi qu’il
en soit les groupes ainsi consti- tués ont des chances raisonnables de refléter au moinspartiellement
la vérité.Deux
avantages
nonnégligeables
encontrepartie :
toutes les varia- bles sont classées defaçon unique,
et il n’est pas nécessaire de supposerl’égalité
des variancesCy 2
cequi
est bien commode dans lesproblèmes
d’observation où on n’est
justement
pas maître de laprécision
dechaque
variable.EXEMPLE : APPLICATION AU PROBLEME DU SEX-RATIO
Il est bien connu que la
fréquence
des cancers n’est pas la mêmeparmi
les hommes et les femmes pour les organes communs aux deuxsexes. On constate que le sex-ratio
(rapport
du nombre de cas masculinsau nombre de cas
féminins)
estbeaucoup plus
élevé pour des organescomme par
exemple
lalangue, l’oesophage,
lesbronches,
pourlesquels
on
peut invoquer
uneétiologie "tabac"
ou"alcool" -
c’est-à-direplus spécifiquement masculine,
que pour des organes commel’intestin,
lesreins,
etc...Il a paru intéressant de tester
l’homogénéité
du sex-ratio entre les sous -localisations d’un même organe, defaçon
à rechercher s’ilpouvait
exister des conditions
étiologiques
différentes selon ces sous-localisations.La méthode décrite ci-dessus a été
appliquée
à un ensemble de 65. 000cas de cancers
[2],
et apermis
dedégager
un certain nombred’hypo-
thèses
étiologiques
devant fairel’objet
de vérificationsplus
directes(enquêtes).
Il fautsouligner,
à propos de cetexemple,
les raisonsqui peuvent
inciter àadopter
un testglobal
suivi d’une recherche de sous-groupes dans un
esprit prospectif,
et notamment :-
l’importance
du testglobal qui permet
de choisir entrel’hy- pothèse
d’uneétiologie unique
et celled’étiologies multiples.
- la difficulté de faire une classification a
priori
des sous-localisations
[par exemple
pourl’oesophage,
c’est le tiers médianqui
sedétache du reste, alors que pour l’estomac c’est la
partie
haute(cardia)].
- la faible
importance
relative de mal classer une ou deux sous-localisationslorsqu’on
est averti que cette erreur estpossible -
c’est-à-dire à condition de ne pasprendre
pourargent comptant
la clas- sification établie.- l’intérêt de ne pas être limité par une clause
d’égalité
desvariances,
les effectifs étant très différente dans les diverses sous- localisations.Revue de Statistique Appliquée 1966 - Vol. XIV - N 1
43
EXTENSION A L’ANALYSE DE VARIANCEOn
peut
montrer très facilement que la fluctuation entre traite - mentspeut
sedécomposer,
àchaque étape,
en 2 termes additifs de fa- çon tout à faitanalogue
à cequi précède,
l’un relatif àl’hétérogénéité
entre
les j
sous-groupes, l’autre à leurhomogénéité
interne. La méthodeprécédente
pourra donc être facilement étendue à ce cas. Elle nerequiert
pas
l’égalité
des effectifs dechaque
groupe.EXTENSION AUX TESTS D’HOMOGENEITE DES TABLEAUX DE CONTIN- GENCE PAR UN
X2
Ici la
décomposition
duX 2n’est qu’asymptotique,
mais enpratique
suffisamment exacte pour
qu’on puisse procéder
defaçon
tout à fait ana-logue
à cequi précède.
CONCLUSION
La méthode
proposée
neprétend
pasapporter
une solution démons - trativeaprès qu’un
testglobal
aitpermis
d’établirl’hétérogénéité
d’en-semble d’un groupe de k valeurs. Elle
part
duprincipe
que si on a faitun test
global
c’estqu’a priori
les variablesjouaient
un rôlesymétrique,
et que l’essentiel de la démonstration consistait dès lors à rompre cette
apparente symétrie
par des moyens suffisammentéconomiques (test glo- bal).
Une foisl’homogénéité
mise en cause, onpeut adopter
une attitudeplus libre, qui,
pour êtrepleinement efficace,
doit déboucher sur des idées relativementsimples
destinées à introduire d’autres observations . La classificationobjective
en un nombre minimal de sous-groupesqui
aété
exposée
ici est une desfaçons
de fairequi
obéisse à cetimpératif
de
clarté ;
encontre-partie
ellepeut
introduire des erreurs de classe- ment, et ilimporte
de s’en servir dansl’esprit prospectif
surlequel
on a insisté
ici,
c’est-à-dire avecprécautions.
[1] -
J. LELLOUCH -Quelques Aspects
du Problème desComparaisons multiples.
Revue destatistique appliquée (même numéro).
[2] -
R.FLAMANT,
O.LASSERRE,
Ph.LAZAR,
J.LEGUERINAIS ,
P. DENOIX & D. SCHWARTZ - Différences in Sex-RatioAccording
to Cancer Site and Possible
Relationship
With Use of Tobacco and Alcohol. Review of 65. 000 Cases. - Journal of the National Cancer Institute - Vol.32,
n°6 -
June 1964.Revue de Statistique Appliquie 1966 - Vol. XIV - N 1