Statistique et analyse des données
J
EAN-C
LAUDEP
ETITEssai de présentation des tests non paramétriques à l’aide de la notion de statistique fortement distribution-free
Statistique et analyse des données, tome 1, no1 (1976), p. 68-78
<http://www.numdam.org/item?id=SAD_1976__1_1_68_0>
© Association pour la statistique et ses utilisations, 1976, tous droits réservés.
L’accès aux archives de la revue « Statistique et analyse des données » implique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/conditions). Toute utilisation commer- ciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impres- sion de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
Méthodes
Non paramétriques SAD 1 - 1976
E S S A I D E P R E S E N T A T I O N D E S T E S T S N O N P A R A M E - T R I Q U E S A L ' A I D E - D E L A N O T I O N D E S T A T I S -
T I Q U E F O R T E M E N T D I S T R I B U T I O N • F R E E .
Jean-Claude PETIT.
I.U.T. INFORMATIQUE - U n i v e r s i t é de Nancy I I .
J a n v i e r 1976.
I. INTRODUCTION
L!enseiTible des observations e f f e c t u é e s l o r s d'une expérience a l é a t o i r e e s t représenté par le vecteur a l é a t o i r e X = ( X - , . . . , ) C p à v a l e u r s dans i espace * , où £ CIRN.
Les v a r i a b l e s a l é a t o i r e s X- s o n t mutuellement indépendantes.
Le vecteur X e t s a fonction de r é p a r t i t i o n H génèrent un espace p r o b a b i l i s é C*£,PH) 011¾ e s t l a t r i b u boulienne s u r ÏRN e t PR l a l o i de p r o b a b i l i t é
associée à l a fonction H.
On note fi. l a c l a s s e des fonctions de r é p a r t i t i o n continues sur B e t on envisage une c l a s s e fi de fonctions de r é p a r t i t i o n s u r TR , de l a forme :
* N fi ={H : 3 Fr. . . , FNf c fi* avec H ^ , . . . , ^ ) = n F . C x ^ } .
On considère une p a r t i t i o n de fi en deux c l a s s e s O, e t IL e t l ' o n envisage l e s hypothèses :
(H) : l a d i s t r i b u t i o n de X a p p a r t i e n t à il, (K) : l a d i s t r i b u t i o n de X a p p a r t i e n t à fi^.
Remarque : l e s hypothèses (H) e t (K) peuvent ê t r e t r è s d i v e r s e s , l a s e u l e restriction é t a n t l a c o n t i n u i t é des fonctions de r é p a r t i t i o n .
On s ' a t t a c h e r a dans c e t t e étude à c a r a c t é r i s e r les tests non paramétriques de l'hypothèse (H) contre l'hypothèse (K) , c ' e s t - à - d i r e les t e s t s
fondés sur des s t a t i s t i q u e s dont l a d i s t r i b u t i o n sous l'hypothèse nulle e s t indé- pendante des distributions théoriques intervenant dans c e t t e hypothèse £3} •
De t e l l e s s t a t i s t i q u e s sont d i t e s distribution-free sur la classe
% ;
EEFINITION 1 une s t a t i s t i q u e T est dite d i s t r i b u t i o n - f r e e sur Ci s ' i l existe une H
f o n c t i o n de r é p a r t i t i o n Q ( s u r 1R ) t e l l e que :
V H € fiH, PH ïlih < t l = Q(t) pour t o u t t dans IR .
L'étude de l ' e x i s t e n c e de s t a t i s t i q u e s d i s t r i b u t i o n - f r e e a é t é effectuée p a r BELL ( 1 ) . Cette e x i s t e n c e e s t l i é e à c e l l e d'une p a r t i t i o n convenable de l ' e s p a c e - é c h a n t i l l o n .
Lorsque l a c l a s s e SI ne c o n t i e n t que des fonctions de r é p a r t i t i o n continues, i l e x i s t e toujours au moins une s t a t i s t i q u e d i s t r i b u t i o n - f r e e s u r SI,, ( v o i r 5)
Les considérations théoriques développées c i - d e s s o u s , fondées s u r le p r i n c i p e d ' i n v a r i a n c e de LAHMANN [4"], se proposent de mettre en évidence l e s p r o p r i é t é s des s t a t i s t i q u e s d i s t r i b u t i o n - f r e e e t d ' e n donner un procédé de c o n s t r u c t i o n . On s ' a t t a c h e r a e n s u i t e au cas p a r t i c u l i e r des s t a t i s t i q u e s de rang.
I I - LES STATISTIQUES FOKIMNT PI STRI BUT ION-FREE.
Ces s t a t i s t i q u e s c o n s t i t u e n t une e x t e n s i o n des s t a t i s t i q u e s d i s t r i b u t i o n - f r e e ; e l l e s conduisent au c a l c u l de l a puissance des t e s t s q u i l e u r sont a s s o c i é s .
I I . 1 - TRANSFORMATIONS SUR L'ESPACE ECHANTILLON.
S o i t une transformation g b i j e c t i v e e t mesurable d é f i n i e s u r l ' e s p a c e é c h a n t i l l o n H e t à v a l e u r s dans 36 .
On note g(H) l a fonction de r é p a r t i t i o n de l a transformée g(% ; i l v i e n t a l o r s V B f c f i , ^ [g(X) € B] = P [ x fe g '1 (B)l
g(H) J
SAD 1 - 1976 6 9
Imposons à l a transformation g de v é r i f i e r l e s c o n d i t i o n s s u i v a n t e s
(c)
( i ) V H t î î , g(H) £ fi
V H € f i , 3 H e f i : H » = g(H) > t o
ce qu'on note p l u s brièvement : g(fi) = fi ( i i ) g(%) =fi H
Considérons un groupe de t r a n s f o r m a t i o n s b i j e c t i v e s e t mesurables v é r i f i a n t les conditions (c) e t note G ; s o i t G le groupe des t r a n s f o r m a t i o n s s u r &
i n d u i t p a r G.
I l e s t a l o r s p o s s i b l e de d é f i n i r deux r e l a t i o n s d ' é q u i v a l e n c e s N o
s u r R e t s u r ùL respectivement :
(1) x ^ y (mod.G)<?=>33éG : y = g(x) où x,y £ 1RN. (2) H ^ H» (mod.G)<=>3j €G : H' = g(H) où H,H»6 fi .
L ' e s p a c e - é c h a n t i l l o n e t l a c l a s s e fi sont a l o r s p a r t i t i o n n é s en c l a s s e s d ' é q u i - valence.
I I . 2 - ENSEMBLES CARACTERISTIQUES
Certains éléments de l a t r i b u % j o u e n t un r ô l e p a r t i c u l i e r pour d é f i n i r l a n o t i o n de s t a t i s t i q u e fortement d i s t r i b u t i o n - f r e e .
DEFINITIONS Soit A e &
1. A est dit distribution-free sur fi e t de t a i l l e a s i :
n
V H e % ' PH( A ) = a
2. A est dit presque invariant sur fi pour le groupe G s i :
V H fc fi, Vg t G on a : PH [A Ag(A)J = 0
3. A est dit invariant en probabilité sur fi pour l e groupe G s i
V H t fi , V g t G on a : PH(A) =PH fg(A)] •
Ces t r o i s notions sont liées par les propositions suivantes
Proposition^] :iSi A est presque invariant sur fi pour G, alors A e s t invariant en I probabilité sur fi pour G. ;~o " «_) f ^\
Démonstration : Puisque PH [A - g(A)] = PH[g(A) - A] = 0 par hypothèse, i l s ' e n s u i t que : PH [Af|g(A)]= PH(A) e t PH[g(A)rt A] = PH[g(A)] , d'où le
r é s u l t a t . Proposition^
Démonstration
On suppose que&„ e s t une classe d'équivalence relativement au groupe G.
Si A est invariant en probabilité sur fi pour G. alors A e s t distribution-free sur
% •
;3> r - M
Progosition_3 J
Soient H et H' deux éléments d i s t i n c t s dans a , : par hypothèse, i l existe une transformation g dans G t e l l e que : H' - g(H) .
I l vient alors : P„,(A) = P (A) = P„ fg"1(A)l = P„(A) , ce qui
H -( H ) H L J H
prouve que A est dis t r i b u t ion-free sur fi„.
On suppose que la classe fi e s t complète ( i . e . : tout estimateur non biaisé de 0 e s t presque sûrement égal à 0 ) . Si A e s t invariant en probabilité sur fi pour G, alors A e s t presque invariant sur fi pour G.
Démonstration : Soient IA e t I ^ les variables i n d i c a t r i c e s des ensembles A e t g(A) A étant par hypothèse invariant en p r o b a b i l i t é , i l vient :
V H tf i , V g £ G : / [ lA" Ig ( A )] dPH = 0 Puisque fi e s t supposée complète, i l s ' e n s u i t que
V H . f i , V g e G : PH[ lA- Ig ( A ) * 0 ] - 0 e t par conséquent :
PH [AAg(A)] = 0
• ' * ï^*S
l
Ainsi, lorsque la classe Si e s t complète, les notions d'invariance en probabilité e t de presque-invariance sont équivalents; (propositions 1 e t 3).
SAD 1 - 1976 71
I I . 3 - STATISTIQUES FORTENENT DISTRIBUTION-FREE.
DEFINITION 1 Une s t a t i s t i q u e T e s t d i t e fortement d i s t r i b u t i o n - f r e e sur fi , v i s à vis du groupe G s i sa d i s t r i b u t i o n est La même sur chacune des choses d'équivalence dans fi i n d u i t e s par g ;
V H , K € fi , K^H (mod Q) = > P K[T K 0 = PH fr < 0 pour t o u t t fc F
L ' i n t é r ê t d'une t e l l e p r o p r i é t é a p p a r a i t clairement : s i l a c l a s s e fi„ ( a s s o c i é e à l'hypothèse n u l l e (H)) e s t une c l a s s e d'équivalence dans fi , r e l a t i v e m e n t au groupe G, une s t a t i s t i q u e fortement d i s t r i b u t i o n - f r e e e s t a l o r s d i s t r i b u t i o n - f r e e s u r fi„
e t conduit à un t e s t non paramétrique de (H) contre (K).
De p l u s , l a puissance du t e s t e s t l a même à l ' i n t é r i e u r de chacune des c l a s s e s d'équivalence s u r fi.
Caractérisons maintenant ces s t a t i s t i q u e s
THEOREME 1 : Une condition n é c e s s a i r e e t s u f f i s a n t e pour qu'une s t a t i s t i q u e T s o i t fortement d i s t r i b u t ion-free s u r fi , v i s à v i s d'un groupe G, e s t que pour t o u t boulien B de fa l'ensemble T (B) s o i t i n v a r i a n t en p r o b a b i l i t é s u r ^ pour G.
Démonstration : S o i t T fortement d i s t r i b u t i o n - f ree ; VH , Kefi , H'vK, i l v i e n t : PK[T"1(B)] = PH[T"1(B)] VB
o r ,
P
K[T-V)] - PJOJT-'CB)] =P
H[g"
1OT-^B)]
ce qui prouve que T (B) e s t i n v a r i a n t en p r o b a b i l i t é . n-1
La réciproque r é s u l t e immédiatement de l ' é g a l i t é :
P
H[g oT"
1(B)] = P
[ T '1( B ) 1L J
g"
1(H) L
JLes propriétés énoncées au paragraphe II.2 peuvent être traduites en termes de Statistiques.
DEFINITION : Une s t a t i s t i q u e T e s t d i t e presque invariante sur fi pour G s i V H £ fi , Vg c G on a : PR (T = T o g 1 = 1
LE1WE 1 Une condition nécessaire e t suffisante pour qu'une s t a t i s t i q u e T s o i t presque invariante sur fi , pour un groupe G e s t que, pour tout boulien B de % y les ensembles T (B) soient presque invariants sur fi , pour G.
Démonstration : On a : {T~1(B) A g o T~1(B)$ C {T J* T o g"1}
Par s u i t e : V H 6 fi , PR[ T "1( B ) A g o T"1 (B)]<: PR [ T fi T o g '1 J = 0 La condition est donc nécessaire.
Montrons q u ' e l l e e s t suffisante :
PH [T * T o g ] = PH [T >T O g j + PH [T <T O g ]
Un raisonnement simple sur les événements permet de prouver que :
T + T ° g Jt-i k=i PH L T C "~ ; *r Ag_1 ° T " 1 ( H S } J
Les p o s s i b i l i t é s intervenant au second membre de l ' i n é g a l i t é étant nulles par hypothèse, i l s'ensuit que la s t a t i s t i q u e T e s t presque invariante.
On peut alors énoncer le théorème fondamental suivant :
THEOREME 2
Démonstration
(i) Si une s t a t i s t i q u e T e s t presque invariante sur fi , pour G, alors T est fortement distribution-free sur fi , pour G.
(ii) Si la classe fi est conplète, alors s i T e s t fortement d i s t r i b u t i o n - free sur fi pour G, T e s t presque invariante.
(i) T presque invariante = > V B 6¾ , T~1(B) presque invariant (lemme 1)
= > T (B) invariant en probabilité (proposition 1 de I I . 2)
= > T fortement dis t r i b u t ion-free (théorème 1).
( i i ) T fortement distribution-free =>VBfeS, T~1(B) invariant en probabilité (théorème 1)
= > T presque invariant (proposition 3 de II.2)
SAD 1 - 1976
La notion de s t a t i s t i q u e presque i n v a r i a n t e é t a n t peu maniable dans l a p r a t i q u e , on l a p a r t i c u l a r i s e :
EEFINITION 2 Une s t a t i s t i q u e T e s t d i t e i n v a r i a n t e pour un groupe de t r a n s f o r m a t i o n s 6 si e l l e e s t constante sur chacune des classes d ' é q u i v a l e n c e i n d u i t e s par G.
I l e s t c l a i r que t o u t e s t a t i s t i q u e i n v a r i a n t e e s t presque i n v a r i a n t e e t donc fortement d i s t r i b u t i o n - f r e e .
DEFINITION 3
THEOREl^ 3
4t
Une s t a t i s t i q u e T e s t appelée un i n v a r i a n t maximal pour un groupe de transformations G si e l l e e s t i n v a r i a n t e e t si e l l e prend des v a l e u r s d i s t i n c t e s sur chacune des classes d ' é q u i v a l e n c e i n d u i t e s par G.
Une condition n é c e s s a i r e e t s u f f i s a n t e pour qu'une s t a t i s t i q u e T s o i t i n v a r i a n t e pour G e s t q u ' i l e x i s t e une fonction h t e l l e que :
-» N T(x) = h o r (x)
où T* e s t un i n v a r i a n t maximal pour G.
Démonstration : Si T(x) = h o T*(x) a l o r s T o g(x) = h o T*o g(x) = h o T*(x)
" T(x) pour t o u t g dans G ; T e s t donc i n v a r i a n t e .
Réciproquement, s i T e s t i n v a r i a n t e e t s i T (x-) = T (x2) a l o r s i l e x i s t e g dans G t e l que : x2 = g(x-) e t p a r s u i t e T(x2) = T(x-) .
Cette n o t i o n de s t a t i s t i q u e i n v a r i a n t e , due à LEHMANN £ 4 j ,
conduit à c e l l e de s t a t i s t i q u e fortement d i s t r i b u t i o n - f r e e ; e l l e peut ê t r e u t i l i s é e pour c o n s t r u i r e des t e s t s non paramétriques (en c h o i s i s s a n t le groupe de transforma- t i e n s adéquat) e t de p l u s , e l l e fournit c e r t a i n s r é s u l t a t s concernant l a puissance de ces t e s t s .
Un exemple e s t donné au paragraphe s u i v a n t .
I I I - APPLICATION : LES TESTS DE RANG.
On i n t r o d u i t les s t a t i s t i q u e s de rang en t a n t que s t a t i s t i q u e s
fortement d i s t r i b u t i o n - f r e e dans l a s i t u a t i o n p a r t i c u l i è r e d'un t e s t à deux é c h a n t i l - lons.
S o i t x1, x2, . . . , x un é c h a n t i l l o n a l é a t o i r e non e x h a u s t i f e x t r a i t d'une v a r i a b l e a l é a t o i r e de fonction de r é p a r t i t i o n continue e t s t r i c t e m e n t c r o i s s a n t e , n o t é e F.
S o i t d ' a u t r e p a r t y - , y2, . . . , y un é c h a n t i l l o n a l é a t o i r e non e x h a u s t i f e x t r a i t d'une v a r i a b l e a l é a t o i r e de fonction de r é p a r t i t i o n continue e t s t r i c t e m e n t c r o i s s a n t e , notée G.
Les deux é c h a n t i l l o n s (x.) e t (y.) s o n t supposés indépendants.
On se propose de t e s t e r l ' h y p o t h è s e n u l l e : (H) : F(x) = G(x) , VxelR contre l'hypothèse a l t e r n a t i v e : (K) : F(x) ^ G(x) s u r un ensemble de mesure non n u l l e .
En posant N = m + n e t X , . = Y^^ pour i = 1 , 2 , . . . , n , on e s t amené à considérer les c l a s s e s de fonctions de r é p a r t i t i o n s u r l # d é f i n i e s c i - d e s s o u s :
m N fi - {H : 3F,G continues e t s t r i c t e m e n t c r o i s s a n t e s avec H(x) = II F(x.) II G(x.)}
i=1 i-mM N
fîu ={H : 3 F continue e t s t r i c t e m e n t c r o i s s a n t e avec H(x) = IT F ( x - ) }
N
Envisageons un groupe de transformations s u r 1R de l a manière s u i v a n t e : G ={g = x ->g(x) = f ( x ^ ,f (x2) , . . . , f ( x ^
où f e s t une fonction à v a l e u r s r é e l l e s continue e t s t r i c t e m e n t 1 c r o i s s a n t e .
I l e s t immédiat que l e s b i j e c t i o n s de G v é r i f i e n t l e s c o n d i t i o n s (C) e t que fi^
c o n s t i t u e une c l a s s e d'équivalence pour G.
m -1 N -1
(on a : g (H) f ?. = n F o f !( x . ) n G o f ' ( x - ) )
w i=1 x i=mM
SAD 1 - 1 9 7 6 75
S o i t x*= ( x - , x ^ , , . . . » : ^ ) une r é a l i s a t i o n du v e c t e u r a l é a t o i r e X ; l e s d i s t r i b u t i o n s d é c r é t a n t continues p a r hypothèse, l e s v a l e u r s x. sont presque sûrement d i s t i n c t e s . Notons x ^ = (x^ , x^ , . . . , x ^ ) le p o i n t obtenu à p a r t i r de ^Ten ordonnant l e s coordonnées p a r ordre c r o i s s a n t :
S o i t r- le rang de x- dans l a s u i t e x^"J ; i l v i e n t x. = x ^riJ pour i = 1 , 2 , . . . , N . L*application T * d é f i n i e p a r :
1 : x = (x- ,x2 , . . . *XJMJ ^ T(xj = r = ( r - , r2, . . . , r ^ , J e s t un invariant maximal pour le groupe G (à v a l e u r s dans IN ) N
(en e f f e t , T*(x) = T*(x») ~>t ^ T ^ t ~ xf (mod G)).
Toute s t a t i s t i q u e i n v a r i a n t e pour G e s t a l o r s de l a forme : T = h o T*.
On dispose donc de s t a t i s t i q u e s fortement d i s t r i b u t i o n - f r e e s u r Si pour le groupe G : ce sont les statistiques de rang.
Ces s t a t i s t i q u e s ont é t é largement é t u d i é e s p a r HAJEK Q2^.
A i n s i , un t e s t de (H) contre (K) fondé s u r une s t a t i s t i q u e de rang T e s t w?
test non paramétrique e t de p l u s , i l e s t p o s s i b l e de déduire un r é s u l t a t important c m œ r n a n t l a puissance de ce t e s t :
s o i e n t K- e t K2 deux éléments de Sl^ = «fl>- SI ; posons : m j ^ K ( x1, x2, . . . , xN) = TT ^ , ¾ ) il GiOO
i=1 i=m+1
et
m N K? ( x - j X - , . . . ,xN) = T T F ( x . ) T T G ( x . )
L ' L [ i=1 L x i=m*1 ù x
Si K e t K? sont é q u i v a l e n t s , (au sens de l a r e l a t i o n d'équivalence i n d u i t e par l e groupe G) , i l e x i s t e a l o r s une b i j e c t i o n f t e l l e que :
F1 = F2 o f "1 e t G1 = G2 o f "1
Par conséquent : G] o F ^ = 5 o F " .
I l e s t aisé de prouver l a réciproque e t par s u i t e : K1 A / K2 (mod G) <*=*> G1 o F ^1 = G2 o F2"1
En se fondant sur cette caractéristique des classes d'équivalence dans SL e t en u t i l i s a n t le fait.qu'une s t a t i s t i q u e de rang e s t fortement d i s t r i b u t i o n - f r e e sur SI pour G, i l apparaît que l a d i s t r i b u t i o n d'une s t a t i s t i q u e de rang sous l'hypothèse
a l t e . r n a t i v e e t donc l a puissance dfun test de rang de (H) contre (K) ne dépend que de G o F '1 .
On a u t i l i s é c e t t e p r o p r i é t é pour c a l c u l e r l a puissance de c e r t a i n s t e s t s de rang pour d i f f é r e n t e s a l t e r n a t i v e s , avec un gain de c a l c u l s a p p r é c i a b l e ( j f ) .
Remarque : Pour d ' a u t r e s hypothèses (H) e t (K) que c e l l e s envisagées i c i , l e
groupe de transformations G s u r l ' e s p a c e é c h a n t i l l o n s u r l e q u e l repose l a c o n s t r u c t i o n des s t a t i s t i q u e s fortement d i s t r i b u t i o n - f r e e ne p e u t pas toujours ê t r e e x p l i c i t é .
IV CONCLUSION
La n o t i o n de s t a t i s t i q u e "forientant distribution-free" semble amener une p r é s e n t a t i o n des t e s t s non paramétriques p l u s l a r g e e t p l u s é l é g a n t e
que l a p r é s e n t a t i o n c l a s s i q u e fondée s u r l e s t e s t s de rang.
E l l e apporte de plus une information s u r l a puissance de ces t e s t s .
Cependant, c e t e s s a i n é c e s s i t e l ' h y p o t h è s e de c o n t i n u i t é des fonctions de r é p a r t i t i o n e t é v i t e l e cas des l o i s de p r o b a b i l i t é d i s c r è t e s .
SAD 1 - 1976 77
REFERENCES
D]
BELL C.B. "Sorte basic theorems of distribution"free statistias"The Annals of Mathematical s t a t i s t i c s . 35 - (1964) p. 150-156.
[ 2 ] HAJEK J . - SIDAK Z."Theory of Rank tests»
Académie P r e s s New York (1967)
[3J KENDALL M.G. - SUNDRUM R.M. "Distribution-free methods and order properties»
Review of the International S t a t i s t i c a l I n s t i t u t e 21 p. 124-134 (1953)
M
LEHMANN E.L "Testing statistical hypothesis"J. Wiley - New York 1959
H
PETIT J . C . "Essai de systématisation de la théorie des statistiques non paramétriques. Recherche de la puissance de certainstests de rang".
Thèse de troisième c y c l e . U n i v e r s i t é de Nancy I . (1974)