R EVUE DE STATISTIQUE APPLIQUÉE
G. DER M EGREDITCHIAN
Un test non paramétrique unilatéral de rupture d’homogénéité de « k » échantillons
Revue de statistique appliquée, tome 34, n
o1 (1986), p. 45-60
<http://www.numdam.org/item?id=RSA_1986__34_1_45_0>
© Société française de statistique, 1986, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
45
UN TEST NON PARAMÉTRIQUE UNILATÉRAL
DE RUPTURE D’HOMOGÉNÉITÉ
DE
«K » ÉCHANTILLONS
G. DER
MEGREDITCHIAN
Météorologie NationaleDans de nombreuses
disciplines scientifiques,
et enmétéorologie
enparticulier,
se pose avec acuité leproblème
del’homogénéité
des sériesstatistiques.
Unéchantillonnage
étant effectué successivement au cours dutemps,
il estprimordial
souvent depouvoir
affirmer que les conditions deson obtention n’ont pas variées : les conditions
climatiques
sont-elles les mêmes pour unepériode
donnée ou, aucontraire,
un fait nouveau est-il venuperturber
lespopulations
dont les échantillons sont extraits ? Peut-onaffirmer,
parexemple,
que la loi de distribution de l’ozone a été modifiée par des facteursexogènes
tels que lapollution
ambiante ? Les séries des échantillons annuels d’un élémentmétéorologique (température, précipita-
tions
etc.)
ont-elles évoluées sous l’influence d’une modification des condi- tions de leur mesure(déplacement
dusite, changement d’appareils etc.) ?
Assiste-t-on à une modification du climat ?
L’outil
statistique approprié
pourrépondre
à ce genre dequestions
estla théorie des tests dits non
paramétriques.
Formulons maintenant leproblème mathématique correspondant.
POSITION DU
PROBLÈME
Le
problème général
de vérification del’homogénéité
de « K » échantil-lons se formule ainsi. Considérons K
populations
aléatoires définies par les K fonctions derépartition Fj (x), j = 1,
k.On extrait « au hasard» de
chaque population
un échantillon de taille nj :On
dispose
ainsi de K échantillonsindépendants
extraits auhasard,
de sorte, que l’onpeut
introduire les fonctions derépartition empiriques
corres-pondantes :
où 8
[z] désigne
la fonction de Heaviside :On cherche à vérifier
l’hypothèse :
Revue de Statistiques Appliquées, 1986, vol. XXXIV, n" 1
Mots-clés :
Homogénéité,
Tests nonparamétriques,
Echantillon.46
contre
l’hypothèse
alternative.Dans le cas
classique
de deux échantillons(K
=2)
de nombreux tests ontété élaborés. Nous citerons
simplement
certains d’entre eux : le test dessignes,
le test de VAN DER
VARDEN,
le test deWALD-WOLFOWICZ,
le test deKHI-DEUX,
le test deWILCOXON,
le test deMann-WHITNEY,
le test informationnel de KULLBACK et enfin le test de KOLMOGOROV-SMIR- NOV. Le test de KOLMOGOROV-SIMIRNOV[18]
occupe uneplace particu-
lière dans la
grande
famille des tests nonparamétriques
par lesmultiples
recherches
qu’il
a suscitées. SMIRNOV a étudié desstatistiques
basées surl’écart entre fonction de
répartition empiriaues :
pour
lesquelles
il a établi les relationsasymptotiques :
GNÉDENKO a
introduit[10, 11]
une méthodeélégante
pour étudier lesprobabilités
exactescorrespondantes.
Il a défini unproblème
combinatoire donnant la solution exacte etpouvant
êtreinterprété
soit en termes decheminement
aléatoire,
soit en termes de schéma d’urne. Ceproblème
combi-natoire
peut
être ramené en fait à unproblème classique,
leproblème
duscrutin de
ANDRÉ 1,
connuégalement
sous le nom de lemme de BER- TRAND 2.GNÉDENKO
a obtenu ainsi pour le cas des tailleségales
des échantil-lons,
ni = n2 = n les formules suivantes :Le cas des tailles non
égales (ni =1= n2)
des échantillons fut étudié par KOROLIOUK[15, 16],
STECK[19],
CHANG LI CHIEN[20]
et donne des formulesplus compliquées.
Le cas
général
deplusieurs
échantillons(k
>2)
sembleplus
délicat àaborder. Nous
rappellerons
certainesstatistiques.
Pour le cas de K = 3 échantillons OZOLS
[17]
a étudié lastatistique
unilatérale
(ni =
n2 = n3 =n) :
et DAVID
[3]
lastatistique
bilatérale(ni =
n2 = n3 =n) :
Revue de Statistiques Appliquées, 1986, vol. XXX)V. no 1
47 Ils ont obtenu les lois exactes et
asymptotiques
de distribution de cesstatistiques
dansl’hypothèse Ho d’homogénéité : Statistique
d’OZOLS[17] :
,On a introduit ici la notation
[~1, ~2, ~3] pour désigner
le coefficientpolynomial :
Statistique
de DAVID[3] :
où
Dans le cas
général (k
>3)
les résultats sont peu nombreux. GIKHMAN[ 13]
et KIEFER[ 14]
ont obtenu la loiasymptotique
de lastatistique D2k
du testbilatéral : -
où
1s désigne
le s-ième zéropositif
de la fonction de BESSELCe n’est que dans certains cas
particuliers,
que la formule(9) prend
uneforme relativement
simple.
Ainsi pour K = 2 la formule
(9)
devient : ..Revue de Statistiques Appliquées, 1986, vol. XXXIV, n" 1
48
De même pour K = 4 nous avons encore une
expression
assezsimple :
FISZ et CHANG
[8, 9]
ont trouvé unsystème
de combinaisons linéairesindépendantes
des fonctions derépartition empiriques Fi (x) qui
leur apermis
de remener le
problème
de la dimension K à la dimension 2. Pourexpliciter
cette affirmation considérons tout d’abord le cas de deux échantillons de tailles
ni et nj
générés
par les fonctions derépartition Fi (x)
etFj (x).
Introduisons lesstatistiques
de SMIRNOV :pour le test unilatéral :
pour le test bilatéral :
La distribution exacte de ces
statistiques
étudiée parGNÉDENKO
etKOROLIOUK
[10, 11, 15, 16]
est bien connue et nous avonsrappelé
sa formedans le cas
particulier
où ni = n2 = n. Nous introduirons ici poursimplifier
les notations suivantes pour leur fonction de
répartition :
Les résultats
asymptotiques correspondants s’expriment
alors par les relations :Les
statistiques
retenues par FISZ et CHANG dans le casgénéral
sont de la forme
(on
aposé
icipour le test unilatéral :
pour le test bilatéral :
Les
statistiques D+1,...,D+j,..., D+k-1
étantindépendantes [9],
demême que les
statistiques D+1,..., D+j,..., D+k-1
on obtient immédiatementles relations : , ,
Revue de Statistiques Appliquées, 1986, vol. XXXIV, no 1
49 En
passant
à la limitequand Nk-...
on obtient desexpressions
commodespour
l’application pratique
des tests :En
pratique,
il arrive souvent que l’on doive vérifier non pasl’homogé-
néité de tous les
couples d’échantillons,
maisplutôt
larupture d’homogénéité
dans une série ordonnée d’échantillons. En
particulier,
les échantillons sont souventprélevés
successivement dans letemps
et nous voulons vérifier si noussommes
toujours
enprésence
de la mêmepopulation.
En d’autres termes, nous voulons vérifierl’hypothèse.
contre
l’hypothèse
alternativeNous proposons pour vérifier cette
hypothèse
un test basé sur lesstatistiques.
- Test unilatéral
- Test bilatéral
Nous
présentons
ici les résultats obtenus pour le test unilatéral dans le casd’égalité
des tailles des échantillons ni =... = nj =... = nk = n, dont nous avons donné unepremière
démonstration assezcomplexe
en 1966[4, 5, 6],
maispour
lesquels
une démonstrationbeaucoup plus simple
a été obtenue mainte-nant.
PROBABILITÉS
EXACTESRevue de Statistiques Appliquées, 1986, vol. XXXIV, n" 1
50
PROBABILITÉS ASYMPTOTIQUES
Nous avons
adopté
ici les conventions suivantes :sont des entiers
positifs.
Pour établir les formules exactes nous avons
généralisé
la voie traitée parGNÉDENKO [10, 11]
dans le casclassique
de 2 échantillons. Précisons tout d’abord le schéma combinatoireadéquat.
SCHÉMA
COMBINATOIREk
Soit une urne
comportant Lk 1 ~j boules,
dontÊj portent
le numéroj.
Considérons les séries obtenues en tirant successivement toutes les boules
(sans
lesremettre).
Le nombre total de séries différentes est évidemmentAppelons
vi[s]
le nombre de boules numérotées « i » contenuesparmi
lesS
premières
boules de la série.Soit :
l’événement défini par
l’inégalité :
Nous définissons encore deux événements
Introduisons la fonction
fk (~1,..., 4 / 8, , ... , Ok)
=fk [f
/9],
à l’aidede la relation.
Revue de Statistiques Appliquées, 1986, vol. XXXIV, no 1
51 C’est par
conséquent
le nombre de séries pourlesquelles
l’événement A est réalisé.On vérifie alors aisément les relations suivantes
qui
établissent le lien entre le schéma combinatoire et la loi de distribution de lastatistique
du testnon
paramétrique :
La démonstration est basée sur la
généralisation
de la méthode de Gnédenko(10)
pour le cas de deux échantillons.Etablissons maintenant le lemme suivant :
Lemme 1
La fonction
fk (Ê 1
... ,fk 1 61, ... , 8k )
-fk (~/03B8)
est caractérisée univo-quement
par les 4propriétés
suivantes :La démonstration de ces
propriétés
découle de la nature même du schéma combinatoire. L’univocitépeut
être aisément établie. Parconséquent;
toutefonction des variables entières £ =
{~1,..., ~k},
8 ={81,..., 03B8k} possédant
ces4
propriétés
coincide avec la fonctionfk [~/03B8].
Revue de Statistiques Appliquées, 1986, vol XXXIV, no 1
52 Lemme 2
La fonction
fk [~/03B8]
est déterminée par la formule :Démonstration
On remarque immédiatement que pour k = 2 on a l’identité :
Cette identité nous
suggère
l’introduction de la fonctionpour
laquelle
nous avonsdéjà
queNous démontrons
ensuite,
que la fonction Yk(~/03B8)
vérifie lespropriétés caractéristiques 1, 2, 3,
4figurant
dans le lemme 1. Seule la démonstration de lapropriété
1 est laborieuse et nécessite desdéveloppements
assezlongs,
bienque ne
comportant
pas de difficultémajeure.
En définitive nous obtenons l’identité :
Le lemme 2
permet
d’établir immédiatement les lois deprobabilité
de lastatistique 0:
sous les trois formes que nous avonsrapportées.
Pour établir les lois
asymptotiques,
nous utiliserons la formule deStirling
pour démontrer la relation :
où an ne
dépend
pas de t.On obtient alors
compte
tenu de(21), (23)
et(26) :
En
passant
à la limitequand
n ~ oo nous établissons lapremière
formuleasymptotique :
Revue de Statistiques Appliquées, 1986, vol. XXXIV, ne 1
53 La seconde en découle directement. Pour la troisième nous obtenons de
(21)
enposant Si
=(i
-1)
t :Mais
det (et2(i-1)(j-1))
n’est autrequ’un
déterminant dutype
de VAN-DERMONDE,
de sorte que nous obtenons en définitive la troisième formuleasymptotique :
Quelques graphiques complémentaires
illustrent laméthodologie
propo-sée.
Figure 1. - Densité de probabilité de la loi de KOLMOGOROV.
Figure l’. - Fonction de répartition de la loi de KOLMOGOROV.
Revut de Statistiques Appliquées, 1986, vol. XXXIV, no 1
54
Figure 2. - Densité de probabilité de la loi de SMIRNOV.
Figure 2’. - Fonction de répartition de la loi de SMIRNOV.
Ainsi on
présente
sur lesfigures
1 et l’ la densité deprobabilité
et lafonction de
répartition
de la loi deKOLMOGOROV,
sur lesfigures
2 et 2’ ladensité de
probabilité
et la fonction derépartition
de la loi deSMIRNOV,
surles
figures
3 et 3’ la formeasymptotique
de la densité deprobabilité
et de lafonction de
répartition
de lastatistique G+20 correspondant
à la vérification del’homogénéité
de K = 20 échantillons.Pour une utilisation commode de ce test de
rupture d’homogénéité
on aprésenté également
sur lafigure
4 les valeurscritiques
de la distributionasymptotique
de lastatistique GK
du test de G. DER MEGREDITCHIAN pour un nombre d’échantillons K variant de 2 à 100. On asouligné
enparticulier
les courbescorrespondant
aux seuils a =0,01
et a =0,05.
Les valeurs Za sont définies par la relation :Les résultats
présentés
ontpermis
l’élaboration d’un programme stan- dardisé « HOMOGK »qui
a étéappliqué
à la vérification del’homogénéité
denombreux échantillons
météorologiques.
Revue de Statistiques Appliquées, 1986, vol. XXXIV, no 1
55 Figure 3. - Densité de probabilité de la statistique Gio du test de rupture d’homogénéité dans
le cas de K = 20 échantillons.
Figure 3’. - Fonction de répartition de la statistique G2’0 du test de rupture d’homogénéité pour le cas de K = 20 échantillons.
Le programme « HOMOGK » est basé sur le calcul des
statistiques
de 4tests : FISZ et
CHANG, GIKHMAN-KIEFER,
DER MEGREDITCHIAN et la varianteadéquate
du test du KHI-DEUX. Nous avonsprévu
dans ce test unemodification
permettant
dans le calcul desstatistiques
de tenircompte
de la redondance des observations par l’introduction du nombreéquivalent
d’unitésd’information
indépendantes
introduit dans[5, 6].
Par ailleurs le test duKHI-DEUX ne
pouvant
êtreappliqué
que si les classes extrêmescomportent
au moins 5 observations un
regroupement
des classes estautomatiquement prévu
si nécessaire.Le programme HOMOGK a été
largement appliqué
à la vérification del’homogénéité
des années-échantillons d’observations des variables météoro-logiques.
En effet si l’on considère une variablemétéorologique
mesuréequotidiennement
en une stationdonnée,
sa variabilité annuelleimpliquera
uneRevue de Statistiques Appliquées, 1986, vol. XXXIV, no 1
56 Revue de Statistiques Appliquées, 1986, vol. XXXIV, n" 1
57 certaine distribution de ses
valeurs,
caractérisée par une fonction derépartition Fa (x)
pour une année « a » donnée. Onpeut
alors se poser laquestion
de lastabilité de cette distribution au cours de K années
(a
=1, K).
Autrement ditpeut-on
considérerhomogènes
les K-années-échantillons ? Comme nousn’avons aucune information de caractère
théorique
sur la forme concrète de la fonction derépartition théorique
inconnueFq (x),
nous sommes bien dans le cadre d’un test nonparamètrique
de vérification del’homogénéité
de « K »échantillons,
de sorte que sans chercher à connaître la fonctionFa (x),
nousvoulons
simplement
savoir si elle a évolué au cours des années. Nous sommesainsi conduit à vérifier
l’hypothèse
contre
l’hypothèse
alternativePour terminer nous donnerons un
exemple d’application
du programme à la vérification del’homogénéité
des années-échantillons d’ozonetotal,
quenous avons conduits pour le fichier
correspondant
à 119 stations de mesurequi
nous a été fourni par le Centre Mondial de Toronto dans le cadre de l’accord
tripartite, U.S.A., U.K.,
France de surveillance de l’ozone.En effet il est bien connu que l’ozone constitue pour
l’organisme
humainun bouclier
protecteur
contre les radiations néfastes. Or la communautéscientifique
estaujourd’hui
sensibilisée par les destruction éventulle de cet élément queprovoquerait
certaines causesexogènes
telles lapollution
am-biante,
les volsstratosphériques,
les bombesaérosols,
le fréon etc. C’est en toutcas ce
qu’il
ressort de considérationsthéoriques
basées sur des modèlesphysicochimiques.
Il est donc extrêmementimportant
de vérifier sur les fichiersdisponibles
le bien fondé de cettehypothèse pessimiste.
Enparticulier
nous illustrerons cette étude par
l’application
de HOMOGK aux 20 annéesd’observations de l’ozone total à la station Resolute.
Soulignons toutefois,
que d’autresapproches
sontégalement possibles
etont
également
étéappliquées
à la résolution de ceproblème complexe.
Le programme HOMOGK calcule tout d’abord les
paramètres empiri-
ques du fichier pour chacun des 20 échantillons années comme le montre le tableau 1. Il donne
ensuite,
pour un nombre de classes fixées des valeurs observées le nombre d’observations parclasses,
lesfréquences
relatives et lesfréquences
cumulées(présentées
dans le tableau2).
Les donnéespermettent
alors le calcul desstatistiques
desquatre
tests retenus que nousprésentons
surle tableau 3.
Le programme sort
également
les résultats intermédiairescorrespondant
à la valeur des
statistiques
pour deux échantillonscorrespondant
à deuxannées
successives,
cequi peut
être une informationcomplémentaire
intéres-sante.
En tout état de cause dans
l’exemple
de l’ozone totall’hypothèse
del’homogénéité
des 20 échantillons n’estrejetée
que pour 7 des 119 stationsétudiées,
de sorte que les données dont nousdisposons
ne nouspermettent
pas de conclureglobalement
à une modificationsignificative
de la structuredu
champ
d’ozone total.Revue de Statistiques Appliquées, 1986, vol. XXXIV, ne 1
58 Revue de Statistiques Appliquées, 1986, vol. XXXIV, no 1 TABLEAU 1
Paramètres empiriques du fichier « Ozone total » calculés pour chaque année-échantillon Colonne 1 : Numéro de l’année; Colonne 2 : valeur moyenne; Colonne 3 : écart-type; Colonne
4 : 3ième moment centré; Colonne 5 : 4ième moment centré; Colonne 6 : coefficient d’asymétrie;
Colonne 7 : coefficient d’aplatissement; Colonne 8 : entropie.
STATISTIQUES CALCULEES POUR CHAQUE ANNEE.
TABLEAU 2
Fréquences cumulées (fonctions de répartition empiriques) des valeurs observées par classes des années-échantillons (K = 20, n = 20).
FREQUENCES CUMULEES
59 TABLEAU 3
Valeurs observées des statistiques des tests non paramétriques d’homogénéité figurant dans le
programme HOMOGK.
BIBLIOGRAPHIE
[1] ANDRÉ. -
Solution directe duproblème
résolu par Bertrand.C.R.A.S., Paris,
Vol.105,
1887.[2]
BERTRAND. - Calcul desprobabilités, Paris,
1925.[3]
DAVID. - A threesample Kolmogorov-Smirnov
test.AMS, Vol. 29,
1958.
[4]
DER MEGREDITCHIAN. - Un critère unilatérald’homogénéité
de Kéchantillons. Travaux du Centre
Météorologique
Mondial n°9, Moscou,
1966
(en russe).
[5]
DER MEGREDITCHIAN. - Thèse dedoctorat,
Moscou 1969.[6]
DER MEGREDITCHIAN. - Sur la définition du nombre de stationsindépendantes
«équivalentes »
à unsystème
donné de stations corrélées(en russe). Météorologie
etHydrologie
n° 2Moscou,
1963.[7]
FELLER. - An introduction toProbalility Theory
and itsapplications.
Wiley,
1957.[8]
FISZ. - A limit theorem forempirical
distribution functions. Bull.Polish. Acad. Scien.
5,
1957.[9]
FISZ and CHANG. -Asymptoticaly independant
linear functions ofempirical
distribution functions. ScienceRecord,
1957.[10] GNÉDENKO. 2014
Théorie desprobabilités (en russe) Moscou,
1961.Revue de Statistiques Appliquées, 1986, vol. XXXIV, nO 1
60
[11] GNÉDENKO. 2014
Vérification de la constance des distributions desprobabilités
dans deux échantillonsindépendants.
Math.Nachr., 12, 1-2,
1954.[12] GNÉDENKO
et KOROLIOUK. - Sur l’écart maximal entre deux fonctions derépartition empiriques (en russe). Comptes
rendus del’Académie des Sciences de
l’URSS, 80, 4,
1951.[13]
GIKHMAN. - Sur un test nonparamétrique
de vérification de l’homo-généité
de « K » échantillons(en russe).
Théorie desprobabilités
et sesapplications, 1957,
n° 3.[14]
KIEFER. - Ksamples analogues
of theKolmogorov-Smirnov
andCramer. Von Mises tests AMS. Vol.
30, n° 2,
1959.[15] KOROLIOUK,
YAROCHEVSKI. - Distribution de l’écart maximum entre deux fonctions derépartition empiriques, Dopovidi
Akad. NavkUKRAIN
RSR, 80, 4,
1951.[16]
KOROLIOUK. - Sur l’écart entre deux fonctions derépartition empiriques
pour le cas de deux échantillonsindépendants.
Bulletin de l’Académie des Sciencesde l’U.R.S.S.,
sériemath., 19, 1,
1955.[17]
OZOLS. - Le théorème de Gnédenko-Koroliouk pour trois échantillonsavec deux fonctions unilatérales
(en letton).
Bulletin de l’Académie des Sciences de Lettonie,1956,
Vol. 10.[18]
SMIRNOV. - Estimation de l’écart entre deux échantillonsindépen-
dants.Bulletin de l’université de
Moscou,
T11, 2,
1939.[19]
STECK. The SMIRNOV twosample
test as rank test,AMS, 1969,
10.[20]
CHANG LI CHIEN. Sur la distribution exacte de lastatistique
deSMIRNOV et son
développement asymptotique. Mathematica,
4(2),
1960.
Revue de Statistiques Appliquées, 1986, vol. XXXIV, n" 1