R EVUE DE STATISTIQUE APPLIQUÉE
E. M ORICE
Les méthodes d’analyse de la variance
Revue de statistique appliquée, tome 3, n
o2 (1955), p. 65-82
<
http://www.numdam.org/item?id=RSA_1955__3_2_65_0>
© Société française de statistique, 1955, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
LES MÉTHODES D’ANALYSE DE LA VARIANCE
par
E. MORICE
Inspecteur
Général à l’institutNational
de laStatistique
et des EtudesEconomiques
L’apparente
simplicité avec laquelles’appliquent
les méthodes classiques d’anal yse de la variance à des schémas élémentaires decomparaisons
d’échantil- lons ou d’études de validité de liaisons entre variables, n’est pas sans inconvénients.Faute de s’être assuré du f ait que les hypothèses de base sont véri f i~es, ou tout au moins
acceptables,
enpremière approximation,
ou encore parsuite
d’une erreurd’appréciation
des paramètres ((degrés
de liberté ») qui entrent en jeu dans les tests utilisés, on risque d’aboutir à des conclusions erronées ou sans rap- port réel avec la questionposée.
Sans
présenter
une théorie complète de la question, qui dé~asserait de beau- coup le cadre d’un article de revue, il n’est sans doute pas dénué d’intérêt d’essayer depréciser
brièvement leshypothèses
de base et les conditions de validité del’emploi
des tests statistiques utilisés.1. - DISTRIBUTION DE
1(2
On donne ce nom à la distribution d’une variable
aléatoire, généralement
dé-signée
par la lettre grecqueX2,
dont la loi deprobabilité
élémentaire est définie par .Cette
loi,
enplus
de la variablealéatoire X2 dépend
donc d’unparamètre
V ap-pelé
nombre dedegré
de liberté de la distribution.La distribution
de X2
a été mise en tablesqui,
leplus généralement,
donnentles fractiles
supérieurs
deladistribution, c’est-à-dire,
les valeursX2 ,
o telles quepour diverses valeurs de P, en fonction du nombre V de
degrés
de liberté.Ainsi pour V -
10,
P =0,05,
on lit directement dans la table :Pour V =
10,
il y acinq
chances sur 100que X2 dépasse
la valeurOn
peut
résumer ainsiqu’il
suit lespropriétés
essentielles de cette distri- bution :1 - Si u~, 1 u2, ...,
u~sont
n observationsindépendantes
constituant un échan- tillon tiré d’unepopulation
normale de moyenne nulle et de varianceégale
à l’unité66
les variables aléatoires
correspondant
aux divers échantillons que l’onpourrait
concevoir àpartir
de cettepopulation
sont distribuées commeX"
avec :V = n
degrés
de libertéIl en résulte immédiatement que s i X1’... xn sont dans les même s
hypothèses (indépendance
etnormalité),
n observations constituant un échantillon tiré a:’unepopulation
de moyenne m et de variance02,
les variables :v
sont distribuées
comme X2
avec :V = n
degrés
de liberté .2 - Il arrive assez
généralement
enpratique
que la moyenne m de lapopulation
soit inconnue et estimée par la moyenne 5c de l’échantillon.
Dans ces conditions,, et sous réserve des mêmes
hypothèses
queci-dessus,
on démontre encore que la Quantité :ci.
est distribuée comme
X2,
@ mais avecV = n - 1
degrés
de libertéSous cette
forme,
la distributionde X2 permettra
de traiter les deuxproblè-
mes suivants :
(a) -
Si la variance de lapopulation
est connue, ou si l’on faitunehypo-.
thèse sur la valeur
02
de cettevariance,
déterminer un intervalle deprobabilité
1 - P,
pour laquantité L (x - x)2 et
parconséquent
pour la variance de l’échan- tillon.Ainsi,
parexemple, pourP
= 0,05 =0,025
+0,025,
on lira dans latable,
pourn = 12, cie st - à - di re : V = 11
donc
Si, par
hypothèse (population
bienconnue envertu d’observationsantérieures)
on a :
l’inégalité précédente
s’écrit ’ -c le,.et- à -dire
Si toutes les
hypothèses précédentes
sont fondées(indépendance
des observa- tions,population
normale de variance02= 0,18),
iln’y
a donc quecinq
chancessur cent pour que, relativement à l’échantillon
observé,
la somme des carrés desécarts ~ (x - x)2r.
soit extérieure à l’intervalle :(0, 688 ;
au lieude, 3,942)
c’est-à-dire, cinq
chances sur cent pour que la variance0~
de l’échantillon soit extérieure à l’intervalle(0, 057 ;
au lieude, 0, 328)
(b) -
Si la varianceQ2
de lapopulation
est inconnue et si l’on nepossède
que l’échantillon observé x~ , ...x~, on pourra déterminer un intervalle de confiance à 1 - P pour cette variance (12.
Ainsi,
parexemple, toujours pour
P =0, 05
= 0, 025 +0,025,
si un échantillon de n = 10 observations a donné :On aura encore
( V
=9)
L- V 2013’
La
résolution,
parrapportàa2,
del’inégalité ci-dessus,
donnera poura2l’in-
tervalle de confiance
(1, 94 ; 13,7)à 0,95.
3 - Il arrive souvent que l’on soit conduit à estimer une variance s2 à
partir
d’une
expression
Q= 2 Lf ,
danslaquelle
lesquantités L;
sont des formes linéai-res non
indépendantes dépendant
des N observations liées par k relations linéaires(on
dira alors que Q e st une formequadratique
de rang N -k).
Dans ce cas,
si Q est
N-k une estimation correcte de la varianceenvisagée
02la variable aléatoire
Q2
6 est distribuéecomme x2
avec V = n - kdegré
de liberté.Ainsi, par
exemple,
si on considère k échantillons de n~,., ni,., nk observationsindépendantes provenant
depopulations
normales de même variancea2, chaque expression
de laforme :
,- -
r -
indépendante
de toutehypothèse
sur les moyennes de ces diversespopulations,
estune estimation correcte de
0~,
c’est-à-dire telle que :- 1 r
Il est évident
que si l’hypothèse
de l’unicité de variance estvalable,
onpeut
avoir une meilleure estimation dea2
en utilisant l’informationglobale fournie,
non par unseul,
mais par l’ensemble des échantillons.’
On démontre effectivement que
l’expression
... ,....
est une estimàtioncorrecte de
Oz,
basée sur v = N - kdegrés
de liberté. On a, eneffet, N- expre s sions Lij
=xij - xi’
mais elles sont liée s par k relations, car danschaque échantillon,
on a :Dans ces
conditions,
la variable aléatoireest distribuée
comme X2
avec V = N - kdegrés
de liberté.Les
propriétés
fondamentales de ladistribution de X2
sont résumées par lesdeux théorèmes suivants :
4 - Théorème d’addition
(FISHER)
Si k
expressions indépendantes A1’ A2,
...,Ak
sont individuellement distri- buéescomme X2
avec desdegrés
de liberté en nombresrespectifs
Vt , y2 , ...~V~ ,
leur somme :A =
A1
+A2+
...Ak
est aussi distribuée
comme X2
avec un nombre dedegrés
de libertéV
= VI +V2+ ... "k
Ainsi,
parexemple,
dans le casprécédent, chaque expression
étant distribuée comme
X2
avecB11
= ni-(degrés de liberté,
leur sommeest
distribuée comme X2
avec v =v,+ ...vk
= N - kdegrés
de liberté.5 - Théorèmes de
partition (COCHRAN - FISHER)
2
(a) - Si AI, A2, ... Ak
sont desquantités respectivement distribuées
commeX2,
, avec V1 , V2 , ... Vkdegrés
deliberté,
et si leur somme A =~ Ai
estaussidistribuée comme
X2,
avec :"V = V. + B)2 + ... Vk
distribuée
"
avec : 1 =1~ =
~t
+V~+- ’ ’~k
degré
delibertés,
les variablesAi
sontindépendantes
enprobabilité.
(b) -
Si A,A~ , A2,
...Ak
sontrespectivement
distribuéescomme X2
avecV
,~~ , . vk degrés
deliberté,
siAI,
...Ak
sontindépendantes
et si l’on a :B est aussi distribué
comme x2
avec V’ =V - L Vi degrés
de liberté.Il. - DISTRIBUTION DE F
(Fisher-Snedecor)
On donne ce nom à la distribution d’une variable aléatoire
F,
dont la loi deprobabilité
élémentaire est définie par :Cette loi, en
plus
de la variable aléatoire F,dépend
donc de deuxparamè-
tres
Vt et V2 , appelés
encoredegrés
deliberté,
dont le sens seraprécisé ci-après.
La distribution de F est liée à la distribution
de X2
par lapropriété
fonda-mentale suivante ’ *
Si A’ et A" sont deux variables
aléatoires indépendantes, respectivement
dis-tribuées comme
X2
avec V’ etV" degrés
deliberté,
lerapport :
est distribué comme F avec V’ et
V" degrés
de liberté.La distribution de F a été mise en tables
qui,
leplus généralement,donnent
lesfractiles
supérieurs
deladistribution,
c’est-à-dire les valeursFo
de F, telles quepour diverses valeurs de P, en fonction
de "1
etB)2-
Etant donné que lerapport
*.v
est aussidistribué comme F avec cette
fois, V" et V~ degrés
deliberté,
les tables sont, engénéral,
réduites aux valeurs de Fsupérieures
à l’unité.En
effet,
ex. étant un nombrepositif supérieur
àl’unité,
on a :Il suffira d’intervenir les
paramètres VI
etVIl
d’entrée dans lestables,
danslesquelles V1 désigne
le nombre dedegrés
de liberté relatif auplus grand
des deuxte rme s .
III.. APPLICATION AUX
PROBLÈMES
DE COMPARAISON DEVARIANCES
1. -
Comparaison
de deux variances Considérons deux échantillons ’E, (xi x~ ) :
:Echantillon de nf observationsindépendantes
de moyenne x pro-" venant d’une
population normale
de variance inconnueü ~ ;
E P. (y~ .... Yn2)
Echantillonde n observationsindépendantes
de moyenney
pro- venant d’unepopulation normale
de variance inconnue0,;
et proposons-nous de rechercher si
l’hypothèse
d’une variance communea2
estacceptable.
_ ~;’Dans cette
hypothèse,
lesquantités
et sont des estimations correctes de
02.
De
plus,
le squantités
*_
sont alors distribuées comme
X,4
avecUt
=n, - 1 ~ V2
= n2 - 1 . Parconséquent,
lerapport
est distribué
comme
F("1 ’ ~2 )’
S’il résulte de l’examen de la table de F que la
probabilité
d’obtenir pour cerapport
une valeursupérieure
ouégale (ou
inférieure ouégale)
à celle fournie parl’observation,
esttrop petite,
on sera conduit àrejeter l’hypothèse Ho .
Exemple
-La table montre que
pour
=12, V2
= 24, laprobabilité
d’obtenirF ~ 1,40
est
supérieure
à 0,05.Au niveau
considéré,
on n’a donc pas de raison suffisante de conclure que0~
est
supérieure
à0 2 2
*Avec les mêmes
données, on peut
se proposer de déterminer l’intervalle(F~ .1~’) qui
a uneprobabilité donnée,
parexemple
1 - P =0,98,
de contenir le rapport ob- servé dansl’hypothèse
del’égalité
des variances.On lira encore dans la table que P =0,01 pour que P = 0 , 01 pour que c’est-à-dire ’
d’où en définitive
Le
rapport
F =1,40
est intérieur àcetintervalle : auniveauconsidéré,
iln’y
a pas lieu de conclure à
l’inégalité
des variances.2. - Test de
signification
d’uncoefficient
de corrélation(ou
derégression)
linéairel’équation
d’estimation linéaire de y en fonction de x obtenue par la méthode de s moindres carrés. Admettons commehy- pothèse acceptable
que la distribution de y dans lapopulation
est normale de varianceGÿ
et que les distributions liées de y pourx donné sont aussi normales de variance
commune :
a;.x = 0: (1 -l~) .
le coefficient de corrélation r étant défini par la relation :
d’ou on déduit
aisément, compte
tenu de~1~,
la définitionclassique :
tous les calculs étant faits à
partir
des ncouples
observés(x,y)
de l’échantillon dont ondispose.
A
partir
de l’identitéet
compte
tenu des relations(1)
et(2),
on en déduit la relation ;de la forme
précédemment envisagée :
Q =Q~
+QZ
On remarquera d’abord que les trois formes
quadratiques Q, Q~ , Q2,
satisfontaux conditions suivantes ’
a)
Q =X (y - 7)~
est une formequadratique
derang V = n - 1, les
n formeslinéai re s
y-y
étant liée s par la relationE (Y-Y)=0
(b) QI =y~ (y’ - 7)2
est une somme de carrés de n formes linéairesqui
semet immédiatement sous la forme
avec
c’est-à-dire une forme
quadratique
ne faisant intervenirqu’une
seule combinaison linéaire des y.Q2
est donc une formequadratique
derang "1
= 1.(c) Q2 =~ (y - y’)2
est une formequadratique
derang V2
= n -2,
car lesn formes linéaires
y - y’
sont liées par deux relationsindépendantes :
De
plus, on
a *.V = V, + V2
Supposons
maintenantqu’en plus
deshypothèses précisées ci-dessus,
on veuille testerl’hypothèse
d’une corrélation nuller = 0 , ( ou byx
=0 ).
Dans ce cas la variance conditionnelle
a 2
et la variancea2
sontégales
et lestroi s
expressions
yx y
sont des estimations correctes de cette variance
02.
On a alors : E
(S2) =
E(s~ ) =
E(s~ ) = (7~ .
De plus,
J en raison du théorème deCochran, QI
etQ2
sontindépendantes
et lerapport
est distribué comme F
avec B/1
= 1 et"2
= n - 2 avec :autour d’une valeur moyenne voisine de l’unité
Par contre, si la
régression (ou
lacorrélation)
estsignificativement
diffé-rente de
zéro, a2
n-2 est une estimation deGÿ,x
~û~
De
plus :
Etant donné que :
on a alors
et le
rapport
F sera alors, en moyenne,supérieur
à l’unité.Il en résulte que rechercher si la corrélation est
significative,
c’est recher-cher si le
rapport
F estsignificativement supérieur
àl’unité,
cequi
pourra être testé à l’aide de la table de la distribut ion de F.On remarquera, pour
parler
unlangage simple,
que ceci revient à chercher(compte
tenu deshypothèses
initiales sur la normalité etl’indépendance)
si lavariance
expliquée
par larégression :
L (y’ - y)2
estsignificativement supérieure
à la variance résiduelle :Ces résultats sont.
généralement présentés
sous forme d’un tableauappelé
tableau
d’analyse
de la variance :On remarquera que l’on a .
3. - Test de
l’homogénéité
d’un groupe de k moyennes(analyse
devariance :
casd’un seul facteur de
variabilité)
Considérons un groupe de k échantil- lons d’observation
Xij (j~valeur
de l’échan-tillon
i)
Soient :5q ... 7i ... xkles
moyennes de ces échan-tillons d’effectifs ; n ... n ...
nk
et X leur moyennegénérale :
On a tout d’abord la relation :
1-
- ...
de la forme
Q=Q,+Q2
Dans tout ce
qui
suit, nous supposerons d’abord quechaque
échantillon est constitué par n observationsindépendantes provenant
d’unepopulation
normale etque toutes ce s
populations
normales ont même variance62
et nous nous propose-rons de tester
l’hypothèse
d’une mêmemoyenne
m pour cespopulations.
Si cette
hypothèse
est vérifiée :liées par une relation
donc
Q,
est une formequadratique
derang V.
= k - 1.est une somme de carrés de N formes linéaires
liées par k relations
indépendantes :
i=1,2,....,k
v
donc
Q2
est une formequadratique
de rangV 2
= N - k et on a V =Vt
+V2..
De
plus,
dansl’hypothèse
d’une même moyenne m et d’une même variance lesquantités -
sont trois estimations correctes de cette variance
a2. (on peut
démontrer directe-me nt que l’on a
Dans ces
conditions,
enapplication
du théorème de Cochran et de la définition de la distribution de F :I. Les
quantités
sont distribuées comme
2. Les
quantités Q,
etQ2
sontindépendantes.
3. Le
rapport
est distribué comme F
avec
= k - 1,Vz -=
N - k autour d’une valeur moyenne voisine de l’unité(20132013~20132013 ]
.V2 -- 2
Par contre, si les k
populations
ont des moyenne sdifférentes,
m~,...m;,...., mk’la variance estimée
si
sera encore telle quemais la variance estimée dans
s 2 1 proviendra
de deux sourcesindépendantes :
1. L~a
part provenant
de la fluctuation desxij
danschaque
échantillon etqui inter-
vient dans la variance des
xi pourf,
n, c’est-à-dire pourdans - -
k -1 1 ~2. La
part provenant
de ladispersion
propre desmi.
Ces deux
composantes s’ajoutant,
on aura encore : .et le
rapport
aura tendance à être en moyenne
supérieur
à l’unité.Le test F
permettra
donc de voir si lerapport
F observé est telqu’il n’y
aqu’une probabilité
trèspetite
que cette valeur soit atteinte du seul fait des fluctua- tionsaléatoires,
c’est-à-dire si - pour un niveau de confiance donné - il y alieu de considérer que, dans leurensemble,
les différencesconstatées
entre(E1),
....(Ek) peuvent
être valablementattribuées,
non aux fluctuationsd’échantillonnage,
mais à des différences
systématiques.
74
Le tableau
d’analyse
de la variance seprésentera
comme suit :Pour l’exécution des calculs, on remarquera que si l’on
désigne
par : X la somme de toutes les observationsXi
la somme des ni observations de l’échantillonEi
On a :
1 1
(Les
calculs peuvent d’ailleurs encore êtresimplifiés
enremplaçant
tous lesxij
par leurs différencesXij -
a,comptées
àpartir
d’uneorigine arbitraire).
Il est
important
de remarquer que, enplus
deshypothèses
de normalité etd’indépendance déjà posées
au début de cetteétude,
les raisonnements faits sup- posent deplus
l’unicité de variance dans les kpopulations
échantillonnées.Pratiquement, cette hypothèse
est assezgénéralement plausible,
les différences entre lespopulations, 1~ ,
... ,Pk
soumises à lacomparaison
neportant
pas sur la nature même desphénomènes,
mais sur des modifications relativementlégères ayant
pour effet dedéplacer
la courbe de distribution sans la modifier.Néanmoins,
cettehypothèse qui
peut d’ailleurs être testée(Test L1
deNey-
man et Pearson ou test de
Bartlett)
n’est pasobligatoirement
vérifiée.4. - Etude simultanée de deux facteurs A et B
susceptibles
de diverses modalités(A
1 ... *A~),(B~
1 ...Bn) .
·Les observations
xij
seprésentent
alors sous la forme suivante :x étant la moyenne
générale
des nkobservations,
onpeut
écrire.:d’où l’on déduit encore :
avec :
de la forme :
Q=Q,+Q2+Q3-
Les mêmes raisonnements que
précédemment
montrent encore que ces for-mes
quadratiques
sont de rang srespectifs :
v = nk - 1
;~==n-1; k - 1 V3 = (n -1) (k -1)
avec
~=~~+B~ +~3 ;
si, de
plus,
on fait les mêmeshypothèses
de base(indépendance, normalité,
uni- cité de varianceCJ2) l’hypothèse
à tester de l’absence de l’effet de la cause A,(même
moyenne c aux fluctuations aléatoires
près
pour les diversescolonnes),
conduit àconclure que le
rapport
Fest distribué comme F avec
V1 =
k -1, B/2= (n - 1) (k - 1) (avec
la mêmehypothèse
pour l’effet
B).
En
effet,
si ceshypothèses
sontréalisées, les quantités :
sont quatre estimations correctes de
ci’ :
:De
plus,
lesquantités Q~ , Q2, Q3
sontindépendantes.
Par contre, l’existence de l’effet A sera caractérisée par le fait que F estsignificativement supérieur
àl’unité,
car dans ce cas on aura encore :mais pour la même raison que ci-dessus :
De même, l’existence de l’effet B sera caractérisée
par le
fait que lerapport
est
significativement supérieur
à l’unité.76
Le tableau
d’analyse
de la variance seprésentera
comme ci-dessous :L’éxécution des calculs se fait sans difficulté : en
effet,
si ondésigne
par : X la somme de toutes les observationsCi
la somme de la colonneA;
Rj
la somme de laligne Bj
on aura encore :
Le dernier
terme L L d2
étant calculé par différence.Mais l’extension à ce dernier cas du raisonnement fait dans le cas de l’ana-
lyse
pour un seul facteur de variabilité supposeimplicitement (en
raison del’hy- pothèse d’indépendance) l’indépendance
des effets éventuels des causes A etB,
c’est-à-dire l’addivité des effets dus à la variation de ces causes(absence
d’in-teraction). .-
Le modèle
mathématique
utilisé est en fait :Dans cette relation,
oci
etj3.
caractérisentrespectivement
l’influence descauses
Ai
etBj
J avecet
6,j
les variations aléatoires normalement etindépendamment
distribuées au-tour de zéro avec la variance
62.
IV. - INFLUENCE DE LA
NON-RÉALISATION
DESHYPOTHÈSES
DE BASE DE L’ANALYSE DE VARIANCERappelons
que ceshypothèses
sont les suivantes : 1. Normalité de la distribution des erreursexpérimentales
2.
Indépendance
des erreursexpérimentales
3. Additivité des effets des causes sous contrôle,
4. Constance de la variance des erreurs
expérimentales quelle
que soitl’impor-
tance des effets de ces causes. ,
Prises dans leur
ensemble,
ceshypothèses
semblentimpliquer
une sévèrerestriction des
types de_problèmes auxquels
lestechniques d’analyse
de variancepeuvents’appliquer. Il y a
lieu de rechercher dansquelle
mesure la validité du testest affectée
lorsque
ceshypothèses
ne sont pas vérifiées.1. - Non normalité
Une étude
mathématique
de. l’influence de la non normalité sur la validité du test F est évidemment très difficile.E . S. PEARSON a étudié
expérimentalement
la distribution de F àpartir
de sixexemples
différents depopulationnon-normales.
L’étudeempirique
ainsi réaliséeest insuffisante pour fixer avec
précision
les seuils à 5%
et1%
des distributionscorrespondantes ’ néanmoins,
il semble enrésulter que le test Fclassique puisse
être
appliqué
sans erreur grave aux échantillonsprovenant
de distributions telles que celles que l’on rencontregénéralement.
COCHRAN estime que les valeurs de F données par la table pour les seuils
5%
et
1% correspondent, en fait, respectivement
à des seuilscompris
entre4%
et7%
d’unepart, 0,5%
et2%
d’autrepart.
En
général,
la non normalité a pour effet de faireparaître
le résultatplus significatif qu’il
ne l’est en réalité.Dans la
pratique,
il pourra arriver que l’on ait àpriori,
en raison d’obser-vations antérieures
suffisammentnombreuses, quelque opinion’valable
sur la nor-malité
approximative
des distributions dans lespopulations envisagées.
S’il n’en est pas ainsi, on ne
peut guère envisager
de tester cette normalitéà l’aide des échantillons
observés,
engénéral beaucoup trop
peuimportants.
Si, en raison même de la nature des
phénomènes étudiés,
il y aquelque
rai-son à
priori de suspecter lanonnormalité,
onpeut quelquefois envisager
un chan-gement
devariable capable
d’améliorer uneapproximation
vers la normalité.Une méthode
d’analyse n’impliquant
aucunehypothèse
relativement à la nor-malité des
populations
a étéenvisagée
par PITMAN et WELCH(1).
2 - Non
indépendance
entre les erreursS’il existe une corrélation
p
entre les erreurs ou fluctuations ~;relatives,
parexemple,
aux k observations d’un mêmefacteur, Bj
parexemple, l’espérance.ma- thématique
de la variance estimée dans la méthoded’analyse
de la variance n’estplus égale
à02.
Il est
théoriquement possible
de calculer cetteespérance mathématique qui dépend
de p, mais étant donnél’impossibilité
d’estimerp
àpartir
de l’échantillon il est difficile depréciser
l’influence de l’existence de telles corrélations sur la validité du test F .Il est en tout cas nécessaire de
prendre
toutesprécautions
pour éviter autant quepossible
leur existence.3. - Non additivité
Lanon additivitédes
effets,
parexemple, l’hypothèse
d’un modèle de la formex;j
=m Ot.
1pj 0+6;j)
a pour
effetd’augmenter
la variance résiduellequi
intervient dans le dénominateur de F, à moins que cette variancerésiduelle
ne soitpetite
parrapport
aux effets des causes, cet accroissement de la variance résiduelle pourra, engénéral,
êtrenégligé.
(1) -
PITMAN - The analysis of variance test - Biometrika 29 - 1937 - p. 322-335.WELCH - On the z Test in randomized blocks and latin Squares - Biometrika29 - 1937 - p. 21. 52.
78
4. - Non
uniformité
de la varianceLa non uniformité de la variance a aussi pour effet de réduire la sensibilité du test.
Dans le cas de
l’analyse
de variance relative à un seul facteur devariabilité,
il est, en
général, possible
de testerl’homogénéité
de variance dans les diversespopulations F~ ,
... ,Pi’
...Pk ,
en utilisant, parexemple,
le texteL1
de NEY-MAN et PEARSON, basé sur la distribution de :
avec, dans le cas de k échantillons de même effectif n :
1
Ce
rapport LI
doit tendre vers l’unité dansl’hypothèse
del’homogénéité
desvariances ’ s’il est
significativement
inférieur à l’unité il y ahétérogénéité
dansles variances et on ne
peut plus
utiliser le test F.Les tables établies pour
nI = ... = ni .... =
nk = n
peuvent
encore être utiliséesquand
ni est variable, en prenant pour n la moyennearithmétique
des n; , à conditionqu’aucun
des n; ne soit inférieur à 15 ou 20.5. -
Changements
de variables en vue de stabiliser les variancesLorsque
la variable x a une distribution danslaquelle
la variance est fonction de la moyenne(loi binomiale,
loi de Poisson,...)
il est évident que les différencessignificatives
entre moyennes d’échantillons sontincompatibles avec l’hypothèse
d’une variance uniforme.
Dans de tels cas, il est souvent
possible d’envisager
unchangement
de va-riable y = f
(x)
tel que la variance des y serapratiquement indépendante
des mo-yennes.
(a) -
Cas d’une distribution binomiale - Si x est unefréquence,
parexemple proportion
despièces
défectueuses dans un échantillon de n observationsprovenant
d’unepopulation dans laquelle
cettefréquence
est p, la variance de x estsi on considère la variable transformée
on montre que sa variance e st
approximativement 4 n ,
ai y estexprimé
en ra-dians,
821
1 si y estexprimé
endegrés.
4n dians, lans,
ou20132013, si y est exprimé
nslyestexprlmeen
endegrés.
egres.Cette transformation est
efficace,
sauf pour les valeurs extrêmes de x. BART- LETT asuggéré
decompter
lesrapports 0/n
etn/n, respectivement
pour1/4
n et(n - l/4)/n.
Cette transformation améliore
l’approximation
de p vers lanormalité,
d’autantplus
médiocre àl’origine
que p étaitplus
voisin de zéro(ou un).
Plus
généralement,
si la variance est liée à la moyenne m par une relationempirique
de la forme0~ == k m ( 1 2013 m)
la même transformation donne lieu à une variance stabilisée
approximativement
égale
à0, 25
k.(b) -
Cas d’unedistribution
de Poisson - Si x est une variable distribuée suivant une loi de Poisson de moyenne m, sa variance est aussiégale
à m.Dans ce cas, la variable transformée :
ou mieux encore
a pour m > 3 une variance sensiblement constante
approximativement égale
à0~2.5.
Plus
généralement,
y si la variance est liée à la moyenne par une relation de la formela même transformation donnera lieu à une variance stabilisée
approximativement égale
à0,25 ~2.
(c) -
Cas depopulations
dontl’écart-ty~e
est sensiblementproportionnel à la moyenne (coefficient
de variation constant :c)
Dans ce cas, la variable transformée y =
log
10 xou
y = log 10 (x + 1)
(si
xpeut prendre
la valeurzéro)
a une variance sensiblement constante et
égale
à0, 189
c2(ou
à C2 si l’on apris
y =Loge x).
On notera de
plus qu’un
telchangement
de variable transforme les effets mul-tiplicatifs
en effets additifs.V. -
RISQUES
D’ERREURSIl ne faut pas
oublier,
deplus,
que tout teststatistique conduit,
non pas à une conclusion absolue(telle
chose estvraie,
ou telle chose n’est pasvraie),
mais àune conclusion
considérée,
dans les conditions del’expérimentation,
commeplus
vraisemblable que la conclusion contraire ou
qu’une
autre conclusion.Mais la conclusion à
laquelle
on s’arrête - et en vertu delaquelle
onprend
une décision -peut
se trouver fausse ellecomporte
essentiellement deuxrisques
d’erreur.
Si l’on
désigne parH l’hypothèse
à tester, formulée de manièreprécise, appli-
quer à ce
problème
un testdéterminé,
c’estaccepter
de courir deuxrisques :
-
Risque
depremière espèce
ourisque
derejeter l’hypothèse
H alorsqu’elle
est vraie;-
Risque
de secondeespèce
ourisque d’accepter l’hypothèse
H alorsqu’elle
est fausse.Soient oc et
(3
lesprobabilités
caractérisantrespectivement
lepremier
et lesecond
risque, probabilités
que l’on souhaiteragénéralement
êtrepetites,
sinontrès
petites (appréciation technique
ou mêmesubjective
des inconvénients ou dan- gers deprendre
une dé cision basée sur une conclusionfausse).
On remarquera que dans ce
qui précède,
lepremier problème
est formulé demanière
précise :
on définitl’hypothèse
H et on se donne (Xqui peut
êtreregardé
comme la
proportion
des cas ou l’onrejettera
à tortl’hypothèse
H, si l’on effectue de nombreux tests dans des conditionsanalogues.
Mais il n’en est pas de même du second
problème,
engénéral plus complexe:
l’hypothèse
testée Hpouvant
être fausse de bien des manières.(Dans
un domainesimplement numérique
on remarquera la différencequi
existe entre les conditionsA=a A ;É a
a étant un nombre
donné ) .
80
Pour
préciser numériquement
cequ’il
faut entendre parrisque
de secondeespèce,
il fautpouvoir remplacer
la définition toutenégative "hypothèse
fausse"par une définition
précise
d’unehypothèse
alternative H’ contrelaquelle
on testel’hypothèse
H.Examinons ce
qui
se passelorsqu’on emploie
le test F dans lesproblèmes envisagés
ci-dessus.. ,Considérons,
parexemple,
leproblème
traité au 111-3(Test
del’homogénéité
d’un groupe de k
moyennes).
Supposons qu’on
utilise le testFau.niveau a =0, 05; compte
tenu des nombres dedegrés
deliberté: ’11
= k -1, v2
= N -k,
la table de la distribution de F nousdonne une valeur
critique :
FO,05 (’il
’~2)
Par
exemple
pour k =5,
n = 10.Fo,oS - 2,57
D’autre
part,
l’ensemble des observations utilisées nous donne une va.leurexpérimentale ’
Que nous donne la
règle envisagée?
Si 1 F 2, 57 nous constatons que
l’hétérogénéité expérimentalement
cons-tatée - dans le sens
prévu
dans le cas d’unehétérogénéité
réelle - est tellequ’elle
a
plus
de 5 chances sur 100 d’être effectivement constatée dans le cas ou les échan- tillons observésproviendraient
depopulations (normales
et de mêmevariance)
dans
lesquelles
cettehétérogénéité
n’existerait pas.Ceci veut dire
qu’en répétant
l’observation sur ungrand
nombre d’ensemblesanalogues provenant
de tellespopulations,
on trouverait environ5%
de ces en-sembles donnant lieu à une valeur
expérimentale
de Fsupérieure
à la valeur cri-tique
choisieF 0,05 = 2,
57.Le
risque
derejeter l’hypothèse
H(homogénéité)
alorsqu’elle
est vraie estdonc oc =
0,05,
mais lerisque
de deuxièmeespèce : accepter l’hypothèse
de l’ho-mogénéité,
alorsqu’elle
n’existe pas, n’est paspris
en considération.D’un
point
de vuepratique,
ceci seconçoit aisément ;
si l’on compare deuxméthodes,
ou deuxmachines,
c’est en vue deremplacer
éventuellement la moins bonne par la meilleure. Si l’on étudiel’homogénéité
des moyennes d’un grouped’échantillons,
c’est en vue deprendre
les mesures nécessaires pour assurer cettehomogénéité
dans le sens favorable au butpoursuivi.
Dans un cas comme dans
l’autre,
cecipeut
conduire àprendre
des mesurescoûteuses
(remplacement
d’une machine par une autre, d’unprocédé
de fabrica- tion par un autre,... ),
ilimporte
donc de neprendre
ces décisions que si ellessont vraiment utiles.
Par contre, si tout se passe à peu
près
comme sil’homogénéité
existait - il est certain d’ailleurs quel’homogénéité parfaite
n’existepas -
iln’y
a, engénéral ,
pas d’inconvénient à l’admettre.
D’une
part, l’augmentation
des effectifs des échantillons(on
sait dequelle façon
endépend
laprécision
des estimations des~
ets-2 ,
c’est-à-dire leurs in- tervalles deconfiance),
etd’autrepart,
larépétition
des groupesd’observations, permettront
à’cetégard
d’améliorer ou de confirmer la validité des conclusions.., Il est encore un autre
point
surlequel
ilparait
nécessaire d’attirer l’attention.L’homogénéité -
sous réserve de la validitédes hypothèses
de base(normalité
J’unicité de
variance)
~- est caractérisée par le fait que F ne doit pastrop
s’écarter de1,
endeçà.
ou au delà et la table Fpermet, moyennant permutation
des nombresde
degrés
deliberté,
de définir un intervalle considéré commecompatible
aveccette
homogénéité,
parexemple :
Mais
l’hypothèse
del’hétérogénéité,
dans leproblème envisagé,
doit conduire à une valeur de F tendant à ètresignificativement supérieure
à l’unité et la table Fsuffira pour
répondre
à laquestion
si F >- 1. Parexemple,
elle nouspermettra
de dire : il y a moins d’une chance sur mille que dans
l’hypothèse
del’homogénéité
le
rapport
Fpuisse,
en raison des seules fluctuationsd’échantillonnage,
atteindreune telle
valeur,
il est donc raisonnable de soupçonner l’existence d’une causesystématique
qui, si elle existe dans le cadrede [iexi~tence
deshypothèses
debase,
ne saurait être que
l’hétérogénéité
des moyennes.°
Par contré, si la valeur
numérique
de F, fournie parl’expérience,
J est nota-blement inférieure à
l’unité,
la seuleréponse
de la table F estqu’un
tel résultata une faible
(ou
trèsfaible) probabilité
d’êtrecompatible
avecl’hypothèse s~ = ~a 2
si s2 et s’ 2
sont des estimationsstatistiquement indépendantes
d’une même variance.Mais on ne pourra rien en conclure en ce
qui
concerne les moyennes,puisque
-
compte
tenu deshypothèses
de base - une alternative est seulepossible : Homogénéité
20132013~- Fgénéralement
voisin de 1.Hétérogénéité
20132013~- F tend às’éloigner
de1,
mais en devenantplus grand.
Ceci doit donc conduire à
suspecter
la validitéd’emploi
du test, c’est-à-dire la validité de cet ensembled’hypothèses
de base et parconséquent
à examiner at- tentivement ceshypothèses.
VI. -
CONCLUSIONLes considérations
qui précèdent
n’ont pas pour but de minimiserl’importance
des méthodes
d’analyse
de la variance,qui
constituent unpuissant
moyen d’inves-tigation,
mais elles montrent que, même dans des cas très élémentaires tels queceux
qui
ont étéenvisagés
auparagraphe III, l’emploi
de ces méthodes ne sauraitse réduire à la
manipulation arithmétique
d’un tableau de chiffres.Quelques
connaissancesstatistiques,
biensûr,
mais aussi unesprit critique
averti, uneparfaite
connaissancetechnique
du domaine étudié etdes conditions danslesquelles
les observations ont étéfaites,
sont des conditions nécessaires pourquel’analyse statistique apporte quelque
lumière sur desproblèmes
de com-paraisonque l’arithmétique -
élémentaire ou savante - ne saurait résoudre seule.82 BIBLIOGRAPHIE
- H. CRAMER - Mathematical Methods of Statistics Princeton
University
Press -1946
- H. B. MANN -
Analysis
andDesign
ofExperiments
Dover Publications Inc. - New-York - 1949
- KEMPTHORNE - The
design
andanalysis
ofexperiment Chapmann
and Hall - Londres - 1952- W.G. COCHRAN - Some conséquences when the
assumptions
for theanalysis
ofvariance ar not satisfied
Biometrics - vol. III
(1947) -
p. 22-38- CHURCHILL EISENHART - The
assumptions underlying the analysis
of varianceBiometrics -
vol’ .
III(1947) -
p. 1-21- VESSEREAU - Méthodes
statistiques
enbiologie
etagronomie
Baillière et fils - Paris - 1948- VESSEREAU - Cours
professé
austage
de formationstatistique générale (Centre
de formation des