R EVUE DE STATISTIQUE APPLIQUÉE
J OHN E. W ALSH
La distribution d’une statistique d’ordre établie sur un ensemble d’observations qui ne forment pas un échantillon
Revue de statistique appliquée, tome 18, n
o3 (1970), p. 65-69
<
http://www.numdam.org/item?id=RSA_1970__18_3_65_0>
© Société française de statistique, 1970, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
65
LA DISTRIBUTION D’UNE STATISTIQUE D’ORDRE ÉTABLIE SUR UN ENSEMBLE D’OBSERVATIONS
QUI NE FORMENT PAS UN ÉCHANTILLON
John E. WALSH
Southern
Methodist University (1)
Considérons
n observations unidimensionnellesayant
unedistributionarbitraire;on
montre au’en~énéraZ, ?
?a distri bu-tion de toute
statistique
d’ordreétablie à partir
de ces ob-servat ions est l a
même
que cet Z e de cettemême statistique
d’or-dreétablie
pour unéchantillon
au hasardd’effectif n (prove-
nant d’une distri bu tion
dépendant
de celle des n observationsinitiales). Ainsi,
lesstatistiques
d’ordrepeuvent ~treregor- dées
individuellement commeprovenant d’échantillons. Cependant,
la distribution
"échantillonnée" peut dépendre beaucoup
de lastatistique
d’ordreconsidérée.
Pour des valeurs de ngrandes ou peti tes,
cesrésultats
sont utiles pourdé finir
descoe f fi -
ci en ts de
ré~ression
pour untype
deré~ression ayant
unlarge domaine d’appl ication (régression
nonlinéaire Z inéarisée).
Ilssont
aussi
utiles pour ladétermination
despropriétés
asymp-totiques dès
distributions desextrêmes
et despercentiles.
Pour n
donné,
assezgrand,
une distributionas~n~Dtotique peut etre u tt 1 t sée
dans des situationsplus ééné rai es,
si la dis- tribution"échantillonnée" appartient à
une classe de distri- butions assezlarge. Ainsi,
dans le cascontinu,
lespercenti-
lesobservés
ontasymptotiquement
des distributions normales sous des condi tions assez~énérat es.
Demême,
les distri but.tonsasymptotiques établies pour
les valeursextrêmes d’échantillons pourraient
souventêtre utilisées
pour des situations conti- nues.On discute dequelques applications
de ces résultatsasympto- tiques
pour laprévision.
INTRODUCTION ET DISCUSSION
L’hypothèse
d’un échantillon au hasard est très commodelorsqu’on
éta-blit les
propriétés
de la distribution d’unestatistique
d’ordre d’un ensemble d’observations unidimensionnelles.Aussi,
dans lapratique,
cettehypothèse
est souvent retenue alors
qu’elle
estlargement
violée(par exemple
en ceciqu’il
existe une forte liaison entre certainesobservations).
Endépit
de ces---
(1) Recherche subventionnée en partie par Mobil Research and Development Corp., NASA Grant NGR 44 077-028 et un contrat ONR N 00014-68-A-0515
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 3
réserves,
l’évidenceempirique
montrequ’au
moinsquelques
unes des pro-priétés
sont les mêmes que s’ils’agissait
d’échantillons. Parexemple,
uneforme de distribution
asymptotique
pour laplus grande
valeur d’un échantil- lon semble satisfaisante dans certaines situationspratiques
où la "condition d’échantillon" semble être fortement violée(Gumbel, 1958).
Quand
les observations sontindépendantes,
onpeut
donner uneexpli-
cation à la
possibilité d’appliquer
au moinsquelques
uns des résultats éta- blis pour les échantillons. Dans des circonstances assezgénérales,
une sta-tistique
d’ordre secomporte
à peuprès
comme si elleprovenait
d’un échan- tillon au hasard(de
mêmeeffectif)
àpartir
d’une distributionégale
à lamoyenne
arithmétique
des distributions des n observations(Walsh, 1959, 1964).
Des intervalles de confianceapprochés,
unilatéraux etbilatéraux,
et des tests du genre test de
signe peuvent
être obtenus pour lespercenti-
les de cette distribution moyenne. De
même,
pour unelarge
classe de situa-tions,
des résultatsasymptotiques
basés sur un échantillon de la distribu- tion moyennepeuvent
êtreappliqués
pour les valeurs extrêmes.L’établissement et
l’emploi
depropriétés
des distributions sont beau- coupplus compliqués lorsqu’intervient
unedépendance
non triviale.Cepen- dant,
nous montrons dans cet article que toutestatistique
d’ordrepeut
être traitée comme si elleprovenait
d’un échantillon au hasard d’effectif n. Mal-heureusement,
à cause des diversesdépendances,
la distribution "échan- tillonnée~peut
être très différente pour les diversesstatistiques d’ordre,
et il ne semble pas exister de relation utile en
général
entre ces distribu-tions. En
fait,
sauf pour laplus grande
et laplus petite observation,
la dis-tribution "échantillonnée" n’est pas bien identifiée en termes de distribution individuelle
(conditionnelle
ou nonconditionnelle)
pour les observations indi- viduelles.Ces
propriétés
montrentqu’une
vérificationempirique
du caractère d’échantillon sur desstatistiques
d’ordre n’est pas, même defaçon
appro-chée,
une vérification del’hypothèse
d’échantillon. Des distributions de cette naturepeuvent
seprésenter (exactement)
pour toute sorte de situations où l’on n’a pas affaire à un échantillon.Les
propriétés
semblables à celles d’un échantillon ont desapplications
directes pour des valeurs
quelconques
de n et pour ngrand (cas asymptoti- que).
Pour nquelconque,
la considération de la distribution "échantillonnée"peut
conduire aux bonnes définitions desparamètres statistiques.
Unemploi
de cette méthode concerne l’extension de la méthode de
régression
non liné-aire linéarisée
(introduite
dansWalsh, 1963).
Cette extension utilise la dis- tribution "échantillonnée" pour obtenir la médiane de certaines observationscomme base de définition d’une fonction linéaire
particulière
des coefficients derégression.
Pour des données continues et pour cetype
dedéfinition,
onobtient des estimations de la médiane exacte pour des fonctions linéaires
spécifiées
des coefficients derégression (Walsh
etKelleher, 1969).
Les
propriétés
semblables à celles d’un échantillon ontquelques
im-plications
de nature nonparamétrique
dans les casasymptotiques.
Il existede très
larges
classes de distributions telles que lesstatistiques
d’ordre établies sur des échantillons suffisammentlarges
de toute distribution d’une classe ont(approximativement)
une forme de distributionqui
estcomplète-
ment déterminée sauf pour les valeurs d’un
petit
nombre deparamètres.
Enparticulier,
cette situation seprésente
dans le cas continu et pour les va-67
leurs extrêmes ou les
percentiles expérimentaux.
Considérons maintenant lecas
général
de n observations et d’unestatistique
d’ordre donnée. Si n est suffisammentgrand
et si(pour
cette valeur den)
la distribution "échantil- lonnée" pour lastatistique
d’ordreappartient
à la classe trèslarge,
alorsla
forme paramétrique
de la distributionasymptotique peut
être utilisée.Ceci
simplifie
leproblème statistique
en le réduisant à la recherche d’unpetit
nombre deparamètres.
D’une
façon plus précise,
considérons tout d’abord lepercentile
obser-vé dans le cas où les n observations sont une observation d’une
population
n-dimensionnelle
qui
est continue. Pour ngrand,
la distribution d’un percen- tile observé est à peuprès
normale si la distribution "échantillonnée" ap-partient
à une classe extrêmementlarge
de distributions.Ainsi,
pour n trèsgrand,
la distribution d’unpercentile
observé doit-elle être souvent à peuprès
normale. Des considérations semblabless’appliquent
aux distributionsasymptotiques
des valeurs extrêmes.Ici, cependant,
la classe des distribu- tions conduisant aux distributionsasymptotiques paramétriques ("asymptotes",
voir
Gumbel, 1958)
est seulement modérémentlarge.
Considérons maintenant
quelques applications pratiques.
Une utilisation intéressante despropriétés
semblables à celles d’un échantillon concerne laprédiction
dans untype particulier
de situation.Ici,
un nouvel ensemble d’observations unidimensionnelles d’effectif n doit être tiréindépendamment
d’une loi
qui
est à peuprès
la même queplusieurs
loisqui
ontdéjà
fournides ensembles
indépendants
d’effectif n. C’est-à-direqu’une
nouvelle obser- vation multidimensionnelle avec ncomposantes
doit être obtenueindépendam-
ment à
partir
d’une distribution multidimensionnellequi
est à peuprès
lamême que
plusieurs
distributions multidimensionnellesindépendantes
avec ncomposantes. Alors,
pour unestatistique
d’ordre donnée des valeurs descomposantes,
la distribution "échantillonnée" doit être à peuprès
la mêmepour toutes ces observations. Le
problème
deprédiction
consiste à estimerles
propriétés probabilistes
d’unestatistique
d’ordre donnée de la nouvelle observation àpartir
des valeurs de cettestatistique
d’ordre pour les obser- vationsdéjà
obtenues.Une
application
concerne larégression
non linéaire linéarisée(voir
Walsh etKelleher, 1969). Quelques
autresapplications
seprésentent
pour les casasymptotiques.
Eneffet,
les distributionsasymptotiques, qui
sontcomplètement spécifiées,
sauf en cequi
concerne les valeurs d’unpetit
nom- bre deparamètres, peuvent
souvent être retenues. Lesstatistiques
d’ordrecorrespondantes
àpartir
deplusieurs
observations multidimensionnelles pas- sées fournissent le matériel de base pour estimer cesparamètres.
Des pro-priétés probabilistes
pour la nouvellestatistique
d’ordrepeuvent
être esti- mées en utilisant la distributionasymptotique
avec ces estimations des pa- ramètres. Parexemple,
cette méthodepeut
être utileconjointement
avec lesdistributions
asymptotiques
pour les valeurs extrêmesquand
on a affaire àdes variables continues.
Il existe une méthode
plus précise quand
on considère unpercentile
des coordonnées d’une observation multidimensionnelle dans le cas continu.
La distribution
asymptotique
d’un telpercentile
doit souvent êtreapproxima-
tivement normale.
Ainsi,
lespercentiles
observés pour les observations pas- sées formentapproximativement
un échantillon au hasard d’unepopulation
normale. Le nouveau
percentile
est une valeurindépendante
issueapproxi-
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 3
mativement de la même
population.
Unestatistique
t(1) peut
être utilisée pour estimer laprobabilité
que le nouveaupercentile dépasse
une valeurdonnée d’avance. On
peut
testerégalement
si le nouveaupercentile provient approximativement
de la mêmepopulation
que lespercentiles déjà
obtenus.En
fait,
toutprocédé
pour étudier une nouvelle observation sur la base d’un échantillonindépendant
de la mêmepopulation
normalepeut
êtreemployé
comme
approximation.
La section
qui
suit contient la démonstration que lesstatistiques
d’or- dre pour une situationquelconque
où l’on n’est pas enprésence
d’un échan- tillon ont des distributions semblables à celles d’un échantillon. La distri- bution "échantillonnée" pour unestatistique
d’ordre donnée est déterminée par la valeur de n et par la distributionconjointe
des observations. Ellepeut s’exprimer
à l’aide de distributions deprobabilité
conditionnelle et non-conditionnelle.
Cependant,
lesexpressions
sont fortcompliquées
sauf pourles cas de la
plus grande
observation et de laplus petite
observation.VERIFICATION
Soit
Xt
lat~’"~ statistique
d’ordre dans un ensemble de n observationsqui peuvent
avoirn’importe quelle
distributionconjointe (t =
1correspond
àla
plus petite observation, etc... ).
La fonction derépartition
deXt
pourcette situation est déterminée par la distribution
conjointe
et sera notéeFt (x ; n).
SoitGt(x ; n)
définie par0 ~ Gt(x ; n) ~
1 etLa fonction
Gt(x ; n)
a lespropriétés
d’une fonction derépartition (c’est-à-dire
queGt(x ; n)
est monotonecroissante, GJ- oo, n) = 0, GJoo, n) = 1, etc... ).
Ceci résulte immédiatement du fait que le membre degauche
de(1)
est une fonction continue et strictement croissante deGt (x ; n)
pour0
Gt(x ; n) 4
1 ; d’autrepart
sa valeur est zéro pourGt(x ; n) =
0 et l’unité pourG t (x ; n) =
1.Considérons la
tièlle statistique
d’ordre dans un échantillon au hasard d’effectif nprovenant
de la fonction derépartition Gt(x ; n).
Sa distribution est donnée par le membre degauche
del’équation (1).
AinsiXt
a la mêmedistribution que la
tièlle statistique
d’ordre dans un échantillon au hasard d’effectif n obtenu àpartir
de la fonction derépartition G t (x ; n).
Pour t = 1 et n, la fonction
Gt (x ; n) s’exprime
aisément à l’aide de distributions non conditionnelle et conditionnelle des observations individuel- les. Onpeut également l’exprimer explicitement
en fonction deFt(x ; n).
On trouve :
Soit
Hj(x ; Sj -1)
laprobabilité
conditionnelle que laj1ème
observation unidimensionnelle ait une valeur auplus égale
à x étant donné que les pre-mière, seconde,
...,(j
-1)1ème
observations ont des valeurs x.Ici,
, sa---
(1) statistique t de Student.
69
fi
n’indique
aucune condition.Alors, Fn (x ; n) = rfHj(x ; Sj-1),
cequi exprime
j’i
Gn (x ; n)
à l’aide d’une fonction derépartition
non conditionnelle et de n - 1 conditionnelles.Cependant, l’indice j pourrait
être affecté aux observations den’importe quelle
manière.Ainsi,
il y a n!façons d’exprimer Fn(x ; n)
à l’aide d’une fonction derépartition
non conditionnelle et de n - 1 condition-nelles, plus
un nombre illimité de combinaisons de ces niexpressions.
Finalement
soit Ij (x ; s~_1)
laprobabilité
conditionnelle que lajième
ob-servation ait une valeur x sachant que les
première, seconde,...,
1(j - 1)i~me
observations ont des valeurs > x.
Ici, s’ 0 n’indique
aucune condition.Alors,
et
F 1 (x ; n) s’exprime
à l’aide d’une fonction derépartition
non conditionnelle et de n - 1 conditionnelles.REFERENCES
GUMBEL E. J. - Statistics of
extremes,
Columbia Univ.Press,
1958WALSH J. E. - "Definition and use of
generalized percentage points",
Sank-hyà,
Vol. 21(1959)
p.281/88
WALSH J. E. - "Use of linearized nonlinear
regression
for simulations in-volving Monte-Carlo", Operations Research,
Vol. 11(1963,
p.228/235
WALSH J. E. -
"Approximate
distribution of extremes fornonsample
cases"Journal Amer. Stat. Assoc. Vol 59
(1964)
p.429/436
WALSH J.E. and KELLEHER G.J. - Extended uses of linearized nonlinear
regression
for random-naturesimulations",
Proceedings
of the 5th International Conference onOperational Research,
1969
(in press).
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 3