R EVUE DE STATISTIQUE APPLIQUÉE
E. M ORICE
Tests de normalité basés sur l’emploi des statistiques d’ordre
Revue de statistique appliquée, tome 23, n
o3 (1975), p. 75-79
<http://www.numdam.org/item?id=RSA_1975__23_3_75_0>
© Société française de statistique, 1975, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
TESTS DE NORMALITÉ BASÉS SUR L’EMPLOI DES STATISTIQUES D’ORDRE(1)
E. MORICE
Depuis
l’étudepubliée
parKolmogorov
dans le Bulletin de l’Académie des Sciences(U.R.S.S., 1933),
de nombreux tests del’hypothèse
de norma-lité ont été
proposés
et tabulés.On
peut
les ranger en deuxcatégories :
a)
Tests basés sur les écarts entre lesfréquences
cumulées estimées àpartir
de l’échantillon et les valeurscorrespondantes
de la fonction derépartition
de la loi normale(définie
apriori
ou estimée àpartir
de l’échan-tillon).
b)
Tests basés sur lerapport
d’une estimation linéaire de la variance(ou
del’écart-type),
calculés àpartir
del’échantillon,
aux estimations définies àpartir
de 03A3(xi - X)2 .
A - TESTS DE KOLMOGOROV ET TESTS DERIVES Etant donné un échantillon de n observations ordonnées :
soit z, la valeur pour X = xi de la fonction de
répartition
de la loi normaleconsidérée,
avec :zi = P
(xi)
pour une loispécifiée
apriori
ou
avec
Les
principaux
testsproposés
utilisent lesstatistiques
suivantes :1 /
Test deKolmogorov-Smirnov
(1) Cette note apporte un
complèment
à l’étude publiée par le même auteur : "Tests de normalité d’une distribution observée". RSA - n : 2. 197276
2/
Test de Cramer-von Mises3/
Test deKuiper
4/
Test de Watsonoù z est la moyenne des valeurs zi .
5/
Test deAnderson-Darling
Les tables relatives a ces tests, pour zi, défini a
priori
ouestimé ,
ont étéprésentées
sous diversesformes,
mais elles sont toutes résumées dans les ta- bles deStephens,
utilisables pour toutes valeurs de n,publiées
dans Biometrika Tables(Tome
II p.359),
où l’on trouvera aussi les références relatives aux travauxoriginaux.
6/
Test de Durbin - Biometrika 1961p.
41-55On
peut
aussi ranger dans cettecatégorie
le test utilisant lastatistique
avec
...
Cxj...
étant les différences ordonnées de la formeCi
= zi 2013 zi - 1B - TESTS BASES SUR DES ESTIMATIONS DE VARIANCE OU D’ECART- TYPE
Dans ce
qui suit,
pour l’échantillon ordonnéposons
Les
statistiques
utilisées sont les suivantes :1 /
Test de David - Biometrika1954,
p. 482-93 pour n 1 000Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
Compte
tenu de la laison entre l’étendue de l’échantillon etl’écart-type
de la
distribution,
il utilise lastatistique
2/
Test deShapiro-Wilk -
Biometrika 1965 p.591-611,
tables pourpour
suivant que n est
pair
ouimpair.
Pour n
50,
les tables de S.W. donnent les valeurs des coefficients ai en fonction de i et n, ainsi que les valeurscritiques
de W.3/
Test deShapiro-Francia -
Journal of the American Statistical Associa-tion, 1972, n°
337 p. 214-17. Tables pour n = 50 à 100.Il utilise la
statistique
de même forme que celle de S.W. avec
i =
1 ,
2 ...n ou n - 1 2
selon que n estpair
ouimpair,
mais les coefficientsa’i
qui
n’ont pas été tabulés doivent danschaque
cas être calculés àpartir
des formulesoù
03B6in désigne l’espérance mathématique
de laième
valeur d’un échantillon de n valeurs de la variable normale réduite ordonnée(Biometrika
Tables TomeII).
Les tables
’de
S.F.prolongent
celles de S.W.jusqu’à
n =99,
en cequi
concerne les valeurs
critiques
deW’,
mais leuremploi -
enplus
du calculdes
a;
- semble de faible valeurpratique
en raison des très faibles écarts entre les valeursW’1-03B1 lorsque
lerisque a
varie. Ainsi parexemple
pourn =
50, W’1-03B1
varie de0,994
pour a =0,01
à0,987
pour a =0,20.
4/
Test ded’Agostino - Biometrika, 1971, n°
2 p. 341-348. Tables pour n = 50 à 1 000.Il utilise la
statistique
Y définie par la série de calculsci-après :
78
Pour n =
50(10)
...100(50) ... 1 000,
la table de d’A. donne divers fractiles de la distribution deY, permettant
un test bilatéral auxrisques
a =
0,01 - 0,02 - 0,05 - 0,10.
La table est d’un
emploi facile,
les valeurscritiques
étant nettementdistinctes
lorsque a
varie.Ainsi pour
alors que
REMARQUES
GENERALES1 - La
puissance
de ces tests,généralement
croissante avec l’effectifn de
l’échantillon, dépend
évidemment del’hypothèse
alternativeopposée
àl’hypothèse
normale que l’on veut tester.Cette
hypothèse
alternative étant leplus
souventinconnue,
il résulte des étudescomparatives
faites parsimulation,
pour diverses valeurs de n(10 -
15 - 20 - 30 -50),
parShapiro-Wilk-Chen (Journal
of the American Statistical Association1966,
p.1343-1372), d’Agostino (Biometrika 1971, n°
2 p.341)
etShapiro-Francia (Jal
Amer. Stat. Ass. 1972 p.215-216) :
- que les tests
W,
W’ et Y sontgénéralement plus puissants
que les tests du typeKolmogorov
etdérivés,
enparticulier
pour lespetits
échantillons(n 20).
- que, dans le cas d’une
hypothèse
alternative uniforme le test U estlégèrement plus puissant
que le testW,
- que pour n
50,
le test W estgénéralement
aussipuissant
ouplus puissant
que d’autres testsclassiques
de K. Pearson basés soit sur les moments(tests yb
1 etb2 ),
soit sur lacomparaison
desfréquences
des classes(tests X2)
(Biometrika
Tables Tome II et Biometrika 1973n° 3,
p.610-625).
II -
Quel
que soit le testutilisé,
il luicorrespond
unrisque
a fixé apriori -
en
général
assez faible : 1 % - 5%,
derejeter l’hypothèse
de normalité alorsqu’elle
est vraie et de sepriver
ainsi del’emploi
despropriétés
de lois dérivéesde la loi normale.
Mais il lui
correspond
aussi unrisque inconnu, qui peut
êtreimportant, d’accepter
comme normale une distributionqui
ne l’est pas.Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
Alors,
unequestion
se pose,importante
bien quegénéralement négligée
par le
praticien :
dansquelle
mesure la manière dont la distribution considérée àpartir
d’unéchantillon,
s’écarte de lanormalité,
assure-t-ellecependant
la validitépratique
del’emploi
des tests t ,X2 , F
utilisés dans lesproblèmes
decomparaison
de moyennes et de variances ?Une telle
question
ne peut pas avoir deréponse certaine,
faute de pou- voir en touterigueur
mesurer "l’écart" entre la distribution d’oùprovient
l’échantillon et une distribution normale.Cependant
si on admet enpremière approximation
que la forme d’une distribution est suffisamment caractérisée par sesquatre premiers
moments et,plus particulièrement,
par les deuxparamètres
de Pearson.respectivement égaux
à 0 et 3 dans le cas d’une distributionnormale,
il est évidemmentpossible -
par une méthode desimulation,
utilisant un trèsgrand
nombre d’échantillons d’effectifs
5, 10, 20,
... provenant depopulations correspondant
à diverses valeursdue 0, 03B22 ,
de voir comment secomportent
les tests t ,X2 , F , comparés
à leurs résultatsthéoriques
en cas de normalité.Une telle étude a été
entreprise
et estpoursuivie
par le Professeur E. Pearson et sonéquipe.
Pour des échantillons aussipetits
que n = 10 elle a montréen
particulier
la robustesse du test t decomparaison
de deux moyennes aussi bien pour03B21 =
0 et{32
= 3(distribution normale),
que pourV/Tl = 0,6
et
{32
variant de 2 à4,4 (distributions dissymétriques
assezlargement
étaléesvers les
petites
ou lesgrandes
valeurs de lavariable).
Le test t relatif à uneseule moyenne est peu sensible aux variations
de {32 lorsque 03B21 = 0,
maispour b 1
=0,6,
les écarts entre lesrisques théoriques
a =0,01
ou0,05
et lesrisques
réels associés auxtests,
sont assezimportants
etplus particulièrement
dans les tests unilatéraux.
Par contre les tests relatifs à une variance ou à la
comparaison
de deuxvariances,
sont aussi bien pour03B21
= 0 que pourV/Tl = 0,6,
très sensiblesaux variations de
03B22.
Ces
résultats,
obtenus parsimulation, correspondent
à des valeurs de03B21
et{32,
fixées apriori,
alors que danschaque
casparticulier
on ne connaîtque leurs estimations
b1
etb2
àpartir
des momentsempiriques
Une étude des fluctuations de
, ,/b
1 etb2 ,
autour des valeurs fixées03B21
et03B22 ,
devrait sans doutepermettre
de donner uneportée plus
réalisteaux résultats ci-dessus.
Une telle étude
implique
la réalisation etl’analyse
d’une masse consi-dérable de
calculs,
dont lerésultat, lorsqu’il
serapublié, permettra
sans doutede donner aux