R EVUE DE STATISTIQUE APPLIQUÉE
P HAM -D INH -T UAN
Problème de test d’hypothèses linéaires multiples en analyse de la variance
Revue de statistique appliquée, tome 19, n
o1 (1971), p. 77-85
<
http://www.numdam.org/item?id=RSA_1971__19_1_77_0>
© Société française de statistique, 1971, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
77
PROBLÈME DE TEST D’HYPOTHÈSES LINÉAIRES MULTIPLES
EN ANALYSE DE LA VARIANCE
PHAM-DINH-TUAN
laboratoire de Mathématiques Appliquées, Grenoble
1 - INTRODUCTION
Dans le modèle I
d’Analyse
de laVariance,
leshypothèses (que
ce soitune
hypothèse
àpriori
ou celles que l’on veuttester)
sonttoujours
deshy- pothèses
linéaires. Dans cemodèle,
les observations sont des variables aléa- toiresX 1, ... , Xn normales, indépendantes,
demoyennes ,..., ~
et demême variance
02.
Le vecteur~ERn,
decomposantes ~ 1 ,
...,est
sup-posé appartenir
à un sous-espace vectoriel V deRn (dim
Vn).
C’estl’hypo-
thèse à
priori.
On s’intéresse à savoirsi ~ appartient
à un ouplusieurs
sous-espaces vectoriels donnés
V1 , ... ,Vk
de V. Parexemple,
considérons le cas d’unplan
factoriel à deux facteurs. Si l’on faitl’hypothèse
àpriori qu’il n’y
a pas d’intéraction entre lesfacteurs,
les observations sont de la forme :J sont des constantes avec
et
e ij’ i = 1, ... , I, j = 1,
..., J sont des variables aléatoiresnormales, indépendantes,
centrées de variance commune Cy 2.Le terme ~.
représente
la moyennegénérale
desobservations,
lestermes
e~, i = 1 ,
..., 1représentent
l’effet du facteurA,
les termesE i B
i = 1, ..., J celui du facteur B et les termes ei j , i = 1, ...,I, j
= 1, ..., J tiennentcompte
des effets du hasard.Ici le nombre des observations est
n = I. J,
et le vecteur~~RB
dec ompo sante s ~ i j =
EX i j ,
i = 1,I, j = 1,...,
Jappartient
au sous-espace vectoriel
On pourra s’intéresser à déterminer si le facteur A n’a pas d’influence
sur les
observations,
cequi
se traduitpar 6~=0,
i =1,
..., I ; c’est-à-direque ~ appartient
au sous-espace vectoriel :Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
De
façon analogue,
on pourra se demander si le facteur B n’a pas d’in- fluence sur lesobservations,
cequi
veut direque ~
appartient au sous- espace vectoriel :Les
hypothèses
que l’on pourra formuler sont :pas d’influence de A et B Influence de B seul Influence de A seul Influence de A et B
On a donc un
problème
de testd’hypothèses multiples.
Il en est demême pour les
plans
factoriels àplusieurs facteurs,
avec intéraction ou nonentre les
facteurs,
à ceciprès
que l’on a unplus grand
nombre de sous-espaces vectoriels Vi, ... ,
Vk
etplus d’hypothèses
à tester.Une manière naturelle de résoudre ce
problème
est d’effectuersépa-
rément les tests del’hypothèse ~~V~
contre~E Vi
pourchaque
i = 1, ..., ket de conclure suivant les résultats de ces tests. Dans
l’exemple précédent,
si par le
premier
test on est amener àaccepter l’hypothèse ~~EB~
et par lesecond,
on est amener àrejeter l’hypothèse E:E V 2’
alors on choisiral’hypo-
thèse H2. La suite de cet article est consacré à l’étude d’un tel
procédé.
2 - DEFINITION DU PROBLEME ET LE TEST CORRESPONDANT
Soit n variables aléatoires
-indépendantes Xl,
... ,X n,
normales de moyennesrespectives E: 1, ..., ~
et de variance communeCy2 ; le
vecteur des moyennes~~(~
estsupposé appartenir
à un sous-espace V deR .
Soient alors
V
... ,Vk,
k sous-espaces vectoriel de V(dim Vi
dimV , i = 1,
... ,k),
on se propose, au vu d’une observation x deX = (X~
...,Xn)
de choisir une des
2 k hypothèses :
où j
est unepartie
de{1,
...,k }.
Désignons
parWi, l’orthogonal
deVi
dans V et supposons que :(C)
Les sous-espaces vectorielsWi, t-1,
..., k son tortho~onaux deux à
deux.La condition C est très
importante,
ellepermet
de réduire leproblème
de test par la considération de l’invariance.
79
Notons
laprojection de ~
surW1.
Leshypothèses
à testerpeuvent
s’écrire d’une autre manière :H J : ~=0
iE J~w, ~ 0
iEJLe test que nous proposons est le suivant :
Désignons x ’1’
i =1,
...,k,
x~* lesprojections
de l’observation x deXERD
surW1,
i =1,
..., k et sur V*(V *
étantl’orthogonal
de V dansR°),
on choisi
l’hypothèse H J
si et seulement sioù
Pi, i = 1,
..., k sont des constantes données à l’avance.On remarque
qu’effectuer
ce testéquivaut
à tester simultanémentl’hy- pothèse ~
= 0 contre~,, 7t
0 pourchaque
i =1,
...,k,
par la méthode de testd’hypothèses
linéaire(le F-test).
3 - ETUDE DU TEST PRECEDENT
3 .1. Test
d’hypothèse multiple
et fonctionpuissance
Soit X un élément aléatoire de loi de
probabilité Pe
où 0 est un para- mètreinconnu, appartenant
à un ensemble abstrait 0. SoientOi ,
...,8t
unepartition
de 0 en rparties,
leproblème
de testd’hypothèses multiples
estde décider au vu de l’observation x de
X,
l’une de khypothèses :
Un test est alors une fonction cp, mesurable de X dans R
telle que
où
CPi (x) représente
laprobabilité
que l’onaccepte l’hypothèse Hi quand
xest observé.
La
performance
d’un testy s’exprime
à l’aide de la fonctionpuissance p (. ;
;cp)
définie sur 8 et à valeurs dansRk :
La
composante Pi (8 ; cp)
=E pe.(yi ) de P (8 ; cp) représente
laprobabilité
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
que l’on
accepte l’hypothèse
H en utilisant le testcp
etquand P8
est la vraie ici. Un test est d’autant meilleur que si~1 (0 ; cp)
est d’autantpetit quand
O§É 91
3.2.
Propriétés optimales
du testprécédent :
On trouvera
quelques propriétés optimales
et une étudeplus complète
du test
précédent
dana PHAM-DINH[3].
On remarque que l’on a affaire àun
problème
de décision et quel’optimalité
d’uneprocédure
de décision s’étudie ici au niveau de la fonction durisque correspondant
à une fonctionde coût très
simple.
4 - FONCTION PUISSANCE DU TEST
(2 .1 ) .
RESULTATNUMERIQUE
DANSLE CAS DE DEUX HYPOTHESES LINEAIRES
La fonction
puissance
du test(2 .1 )
définiedans §
2 est une fonction à valeurs dansR 2k soit P (8 )
dont lescomposantes
sontP (0)
=Pa {accepter hypothèse Hj} 8 = ~ , cr2) >
Introduisons les variables aléatoires :
Les variables aléatoires
Ui,
i = 1, ..., k suivent des lois du X2 dé- centrées à ni = dimWi
= dim V - dimVi degrés
de liberté et deparamètre
de
décentrage Pi = IIt:WlI12/02 et
la variable aléatoireUo
suit une loi duX2
centrée à no = n - dim V
degrés
de liberté.La fonction
puissance
du test se déduit donc de la loi deprobabilité
duk-tuples (Ul /U,,
...,Uk /Uo)’
elle est une fonction de(p 1,
...,pk)
et dé-pend
desdegrés
de liberté no , nl, ..., nk ainsi que lesséparatrices paratrices p 1 ... , Pk qui
définissent le testDans le cas où k =
2,
la fonctionpuissance
aquatre composantes
81
m
~ J.4
"’’ ’’C~
.,...,..
~ C)
w 14)
~~
o IL4
10
pq
W (.) z
~
rns
1-4 p..
CD ~
:c
~Cu Z
~ 0
...
H
~ Z o W
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
Une
procédure Algol permet
de calculer lesquatre composantes
de la fonctionpuissance
pourchaque
valeur de no , ni, n2, Pl, p2, et pl , p 2 .Comme
exemple,
reprenons leplan
factoriel à deux facteurs sans in- teraction. Onprend
1 =5,
J = 4. Il est facile de voir que :D’où no= 12, nI = 4,
n2= 3.D’autre
part,
on choisira lesséparatrices p,
1P2 de façon
queoù a est un nombre
compris
entre0,
et 1. Pour a = 5%,
on a :Dans la table 1, on a
listé,
pourchaque couple
pi, P2 lesquatre
pro- babilités de décider lesquatre hypothèse :
Hi~Pi=P2~~ ~
haut àgauche), H 2 : pi > 0,
1P 2 = 0 (en haut,
àdroite),
H3 :
p~ = 0, P2>0 (en
bas àgauche),
H4 :p 1 > 0, p 2 > 0 (en
bas àdroite) .
On voit que l’erreur de décision
(par exemple,
déciderHj, j 7~
iquand Hi ,
i = 1, ..., 4 s’est
réalisée)
est moins que5 %
sipl
n’est pascomprise
entre0 et 30. 0 et p 2 n’est pas
compris
entre 0 et 25. 0. Plusprécisément,
soitp i *,
i = 1, 2, définis paroù
pi ,
i = 1, 2 sont lesséparatrices
du test, alors le test est valable pour tester leshypothèses :
Les
probabilités
pourchaque types
d’erreur de décision seront infé- rieures à a.La valeur de
p * -ne dépend
que de ni, n o et a : :p~p*(n~
.n~ ,a)
oùp * (n i ,
Ho,a )
est donné par83
f-n (p,x)
étant la densité de laloi P
décentrée deparamètre n 1/2 , no /2
et de
paramètre
dedécentrage p/2,
soit :On a tabulé les valeurs de
p*(n 1,
no ;ex )
pour = 0. 05(table 2)
et pour a = 0.10(table 3)
et pour no = 1(1) 20, ni = 1 (1) (1)
20.Dans
l’exemple précédent,
no =12,
n 1=4,
n 2 = 3 ; on trouve pour a = 0.05p*1= 27.74 p~=24.12.
BIBLIOGRAPHIE
[1]
HISLEURG. -Exemple
d’utilisation d’un calculateur enStatistique (Cha- pitre 3).
Thèseprésentée
à la Faculté des Sciences de Grenoble(1969).
[ 2] FERGUSON,
TH. S. -Mathematical Statistics. A decisiontheoreticapproach (Chapitre 6).
Academic press, New York(1967).
[3]
PHAM-DINH T. - Contributions àl’Analyse
de la Variance et auxplans d’expérience (chapitre 1).
Thèseprésentée
à la faculté des Sciences de Grenoble(1970).
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
00 M 00 H t:I::
o
>t M
00 H .-!
w
~ ~
s
ë
w E-t H .-!
~
C’iI :;:J ë
0’ :c
A~
oE-t
~
E-t p:¡
«
H 0
«
p:¡
~
H U H o H o H p:¡
~ H
~
85
00 w 00 w
==
E-t o Pi
>4
==
00 w a
~
~ z
1-4
H
00
1-4
o E-400 r4 E-4 w
>4
~ w
M ~7
.g
0E-4
es
E-4
~
P4
G~1 o
~
w t)
~ o
~ o
~
~ E-t W
1 lâ~
Revue de Statistique Appliquée. 1971 - vol. XIX N° 1