Statistique pour petits ´ echantillons
Ecole Doctorale des Sciences de la Vie et de la Sant´e Universit´e Louis Pasteur
Module de formation
Fr´ ed´ eric Bertrand et Myriam Bertrand 1
10 et 11 janvier 2007
1
Institut de Recherche Math´ ematique Avanc´ ee, Universit´ e Louis Pasteur moe7, rue Ren´ e Descartes, 67084 Strasbourg C edex
moefbertran@math.u-strasbg.fr
moemmaumy@math.u-strasbg.fr
Premi` ere partie
Notes de cours
Chapitre 1
Quelques tests non param´ etriques. 1
1.1. Les tests non param´ etriques sur un ´ echantillon
Dans cette section nous nous int´ eressons ` a deux tests non param´ etriques : – le test du signe et
– le test des rangs sign´ es.
Nous utiliserons de pr´ ef´ erence le test des rangs sign´ es d` es que les conditions de son utili- sation sont remplies, sa puissance ´ etant alors sup´ erieure ` a celle du test du signe.
1.1.1. Test du signe
Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X 1 , . . . , X n d’une loi continue F dont la valeur m´ ediane est not´ ee m e et la moyenne µ. Le test du signe permet de tester les hypoth` eses suivantes :
Hypoth` eses :
H 0 : m e = 0 ou de fa¸con ´ equivalente P [X i > 0] = 1 2 contre
H 1 : m e 6= 0 ou de fa¸con ´ equivalente P [X i > 0] 6= 1 2 .
Remarque 1.1.1. La formulation de ce test est bien sˆ ur la formulation d’un test bilat´ eral.
Nous pouvons envisager les deux tests unilat´ eraux correspondants. ` A ce moment l` a, la formulation de l’hypoth` ese alternative H 1 est diff´ erente et s’´ ecrit soit :
1
Les r´ ef´ erences [10], [13] et [8] ayant servi ` a l’´ elaboration de ce document sont mentionn´ ees dans la
bibliographie.
H 1
0: P [X i > 0] < 1 2 soit
H 1
00: P [X i > 0] > 1 2 .
Remarque 1.1.2. Plus g´ en´ eralement ce test permet de tester l’hypoth` ese nulle H 0 : m e = m 0 ou de fa¸con ´ equivalente P [X i > 0] = p
contre
H 1 : m e 6= m 0 ou de fa¸con ´ equivalente P [X i > 0] 6= p.
o` u m 0 est un nombre r´ eel et p est une constante comprise entre 0 et 1, ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative
H
01 : m e < m 0
ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative H
001 : m e > m 0
Pour cela il suffit de consid´ erer l’´ echantillon Z 1 , . . . , Z n avec Z i = X i − m 0 et de lui appliquer le test d´ ecrit ci-dessous.
Statistique : S n d´ esigne le nombre de variables X i , 1 6 i 6 n, qui prennent une valeur positive.
Propri´ et´ es 1.1.1. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire S n suit exactement une loi binomiale B (n, p) de param` etres n et p.
Concr` etement cette hypoth` ese nulle H 0 signifie que l’effectif de l’´ echantillon consid´ er´ e est faible devant celui de la population dont il est issu.
Remarque 1.1.3. Nous pourrons prendre comme taille limite des ´ echantillons dont les effectifs sont inf´ erieurs ` a une fraction de 1/10 de la population. Dans ce cas nous pouvons assimiler les tirages r´ ealis´ es ici ` a des tirages avec remise.
Cas le plus souvent utilis´ e : p =1/2. Nous nous proposons de tester : Hypoth` eses :
H 0 : P [X i > 0] = 1 2 contre H 1 : P [X i > 0] 6= 1
2 .
1.1 Les tests non param´ etriques sur un ´ echantillon
Statistique : S n d´ esigne le nombre de variables X i , 1 6 i 6 n, qui prennent une valeur positive.
Propri´ et´ es 1.1.2. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire S n a les trois propri´ et´ es suivantes :
1. La variable al´ eatoire S n suit une loi binomiale B (n, 1/2) de param` etres n et 1/2. De ce fait, d´ ecoule les deux propri´ et´ es suivantes :
2. E [S n ] = n/2.
3. Var [S n ] = n/4.
Cette distribution binomiale est sym´ etrique. Pour n grand (n > 40), nous pouvons utiliser l’approximation normale avec correction de continuit´ e :
P H
0[S n 6 h] = P H
0[S n > n − h] = Φ(2h + 1 − n)
√ n o` u Φ est la fonction de r´ epartition d’une loi normale centr´ ee r´ eduite.
D´ ecision 1.1.1. Pour un seuil α donn´ e (= α = 5% = 0, 05 en g´ en´ eral), nous cherchons le plus grand entier s ? α tel que P [Y 6 s ? α ] 6 α/2 o` u Y suit une loi binomiale B (n, 1/2) de param` etres n et 1/2. Alors nous d´ ecidons :
H 1 est vraie si S n,obs ∈]s / ? α , n − s ? α [ H 0 est vraie si S n,obs ∈]s ? α , n − s ? α [.
Remarque 1.1.4. Le niveau de signification r´ eel du test est alors ´ egal ` a 2 P [Y 6 s ? α ] qui est g´ en´ eralement diff´ erent de α.
Remarque 1.1.5. Pour voir un exemple, nous renvoyons ` a la feuille de travaux dirig´ es qui sera trait´ ee lors de la premi` ere s´ eance de travaux dirig´ es.
1.1.2. Test des rangs sign´ es de Wilcoxon
Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X 1 , . . . , X n d’une loi continue F dont la valeur m´ ediane est not´ ee m e et la moyenne µ.
Hypoth` eses : Le test des rangs sign´ es permet de tester l’hypoth` ese nulle H 0 : La loi continue F est sym´ etrique en 0
contre
H 1 : La loi continue F n’est pas sym´ etrique en 0.
De plus, si nous savons que la loi continue F est sym´ etrique, alors le test des rangs sign´ es de Wilcoxon devient
H 0 : µ = µ 0 contre H 1 : µ 6= µ 0 .
Ici µ 0 est un nombre r´ eel et ce jeu d’hypoth` eses permet alors de s’int´ eresser ` a la moyenne
de la loi continue F .
1.1.2.1. Cas o` u il n’y a pas d’ex æquo.
Soit x 1 , . . . , x n n r´ ealisations de l’´ echantillon pr´ ec´ edent. ` A chaque x i nous attribuons le rang r a i qui correspond au rang de |x i | lorsque que les n r´ ealisations sont class´ ees par ordre croissant de leurs valeurs absolues.
Statistique : Nous d´ eterminons alors la somme w des rangs r i a des seules observations positives. La statistique W n + des rangs sign´ es de Wilcoxon est la variable al´ eatoire qui prend pour valeur la somme w. Par cons´ equent, la statistique W n + des rangs sign´ es de Wilcoxon s’´ ecrit
W n + = X 1 6 i 6 n
X i > 0 R a i .
Propri´ et´ es 1.1.3. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire W n + a les trois propri´ et´ es suivantes :
1. W n + est sym´ etrique autour de sa valeur moyenne E [W n + ] = n(n + 1)/4.
2. Var [W n + ] = n(n + 1)(2n + 1)/24.
3. Elle est tabul´ ee pour de faibles valeurs de n. Pour n > 15, nous avons l’approxima- tion normale avec correction de continuit´ e :
P
W n + 6 w
= Φ w + 0, 5 − n(n + 1)/4 p n(n + 1)(2n + 1)/24
!
o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.
D´ ecision 1.1.2.
– Premier cas : Pour tester l’hypoth` ese nulle « H 0 : La loi continue F est sym´ etrique en 0 » contre l’hypoth` ese alternative « H 1 : La loi continue F n’est pas sym´ etrique en 0 » pour un seuil donn´ e α, nous cherchons l’entier w α tel que P [W n + 6 w α ] ≈ α/2.
Alors nous d´ ecidons :
H 1 est vraie si W n,obs + ∈]w / α + 1, n(n + 1)/2 − w α − 1[, H 0 est vraie si W n,obs + ∈]w α + 1, n(n + 1)/2 − w α − 1[.
– Second cas : Pour tester l’hypoth` ese nulle « H 0 : µ = µ 0 », nous introduisons l’´ echantillon Z 1 , . . . , Z n avec Z i = X i − µ, 1 6 i 6 n.
1.1.2.2. Cas o` u il y a des ex æquo.
Les observations x 1 , . . . , x n peuvent pr´ esenter des ex æquo et a fortiori leurs valeurs
absolues. Il s’agit en particulier du cas o` u la loi F est discr` ete. Deux proc´ edures sont alors
employ´ ees.
1.1 Les tests non param´ etriques sur un ´ echantillon
• M´ ethode de d´ epartition des ex æquo
Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A cha- cune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
En associant ` a l’observation X i son rang moyen R a i
?dans le classement des valeurs absolues et en sommant tous les rangs pour lesquels X i > 0 nous obtenons la statistique :
W n +? = X 1 6 i 6 n
X i > 0
R a i
?.
Les valeurs absolues observ´ ees |x 1 |, . . . , |x n | ´ etant ordonn´ ees puis regroup´ ees en classes d’ex æquo, C 0 pour la premi` ere classe qui est constitu´ ee des nombres |x i | nuls, s’il en existe, et C j , 1 6 j 6 h pour les autres nombres, certaines classes C j
pouvant comporter un seul ´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d j le nombre d’ex æquo de la classe C j . Nous avons
d 0 +
h
X
j=1
d j = n.
Sous l’hypoth` ese nulle H 0 et si n > 15, il est d’usage d’utiliser l’approximation normale
W n +? − m ?
σ ? ≈ N (0, 1) o` u
m ? = 1
4 (n(n + 1) − d 0 (d 0 + 1)) et
(σ ? ) 2 = 1
24 (n(n + 1)(2n + 1) − d 0 (d 0 + 1)(2d 0 + 1)) − 1 48
h
X
j=1
d 3 j − d j
.
Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens, nous ne pouvons pas
utiliser les tables statistiques usuelles qui concernent la distribution de la variable
al´ eatoire W n + .
1.2. Les tests non param´ etriques sur deux ´ echantil- lons
1.2.1. Les ´ echantillons sont ind´ ependants : Test de Mann-Whi- tney
Nous observons, de mani` ere ind´ ependante, une variable Y , continue, sur deux populations, ou sur une population divis´ ee en deux sous-populations. Nous notons L i la loi de Y sur la (sous-)population d’ordre i. Nous allons pr´ esenter le test :
Hypoth` eses :
H 0 : Les deux lois L i sont ´ egales ou encore de fa¸con ´ equivalente : L 1 = L 2
contre
H 1 : Les deux lois L i ne sont pas ´ egales ou encore de fa¸con ´ equivalente : L 1 6= L 2 . 1.2.1.1. Cas o` u il n’y a pas d’ex aequo.
Statistique : Pour obtenir la statistique du test not´ ee U en g´ en´ eral, nous devons proc´ eder
`
a des ´ etapes successives :
1. En se pla¸cant sous l’hypoth` ese nulle H 0 , nous classons par ordre croissant l’en- semble des observations des deux ´ echantillons (x 1 , . . . , x n
1) et (y 1 , . . . , y n
2) de taille respective n 1 et n 2 .
2. Nous affectons le rang correspondant.
3. Nous effectuons la somme des rangs pour chacun des deux ´ echantillons, not´ es R 1 et R 2 .
4. Nous en d´ eduisons les quantit´ es U 1 et U 2 qui se calculent ainsi : (1.2.1) U n
1= n 1 × n 2 + n 1 (n 1 + 1)
2 − R 1
et
(1.2.2) U n
2= n 1 × n 2 + n 2 (n 2 + 1)
2 − R 2 = n 1 × n 2 − U 1 .
La plus petite des deux valeurs U n
1et U n
2, not´ ee U n
1,n
2, est utilis´ ee pour tester l’hypoth` ese nulle H 0 .
Propri´ et´ es 1.2.1. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire U n
1,n
2a les trois propri´ et´ es suivantes :
1. E [U n
1,n
2] = (n 1 × n 2 )/2.
2. Var [U n
1,n
2] = (n 1 × n 2 )(n 1 + n 2 + 1)/12.
1.2 Les tests non param´ etriques sur deux ´ echantillons
3. La variable al´ eatoire U n
1,n
2est tabul´ ee pour de faibles valeurs de n. Pour n > 20, nous avons l’approximation normale :
P [U n
1,n
26 u] = Φ u − (n 1 × n 2 )/2 p (n 1 × n 2 )(n 1 + n 2 + 1)/12
!
o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.
D´ ecision 1.2.1.
– Premier cas : Si les tailles n 1 ou n 2 sont inf´ erieures ` a 20. Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de Mann-Whitney nous fournit une valeur critique c. Alors nous d´ ecidons :
H 1 est vraie si U n
1,n
2,obs 6 c, H 0 est vraie si U n
1,n
2,obs > c.
– Second cas : Si les tailles n 1 et n 2 sont sup´ erieures ` a 20, alors la quantit´ e est d´ ecrite approximativement par une loi normale et nous utilisons alors le test de l’´ ecart r´ eduit :
Z n
1,n
2= U n
1,n
2− (n 1 × n 2 )/2 p (n 1 × n 2 )(n 1 + n 2 + 1)/12 .
Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de la loi normale centr´ ee r´ eduite nous fournit une valeur critique c. Alors nous d´ ecidons :
H 1 est vraie si Z n
1,n
2,obs > c, H 0 est vraie si Z n
1,n
2,obs < c.
1.2.1.2. Cas o` u il y a des ex æquo.
Les observations x 1 , . . . , x n
1, y 1 , . . . , y n
2peuvent pr´ esenter des ex æquo. Il s’agit en parti- culier du cas o` u les lois F et G dont sont issus les deux ´ echantillons sont discr` etes. Deux proc´ edures sont alors employ´ ees.
• M´ ethode de d´ epartition des ex æquo
Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
Les valeurs absolues observ´ ees x 1 , . . . , x n
1, y 1 , . . . , y n
2´ etant ordonn´ ees puis regroup´ ees en h classes d’ex æquo C j , 1 6 j 6 h, certaines classes C j pouvant comporter un seul
´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d j le nombre d’ex æquo de la classe
C j . Nous avons
h
X
j=1
d j = n 1 + n 2 .
En associant ` a l’observation X i son rang moyen R i ? dans ce classement et en sommant tous les rangs de tous les X i , on obtient la statistique :
U n ?
1
,n
2=
n
2X
i=1
R ? i .
Sous l’hypoth` ese nulle H 0 : « X et Y ont la mˆ eme distribution » et pour n 1 > 15 et n 2 > 15, il est d’usage d’utiliser l’approximation normale
U n ?
1,n
2− m ?
σ ? ≈ N (0, 1) o` u
m ? = 1
2 (n 1 (n 1 + n 2 + 1)) et
(σ ? ) 2 = 1
12 (n 1 n 2 (n 1 + n 2 + 1)) − 1 12
n 1 n 2
(n 1 + n 2 )(n 1 + n 2 − 1)
h
X
j=1
d 3 j − d j .
Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens nous ne pouvons pas uti- liser les tables statistiques usuelles qui concernent la distribution de la variable al´ eatoire U n
1,n
2.
1.2.2. Les ´ echantillons sont ind´ ependants : Test de la m´ ediane de Mood
On consid` ere deux ´ echantillons ind´ ependants (X 1 , . . . , X n
1) et (Y 1 , . . . , Y n
2).
(X 1 , . . . , X n
1) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi conti- nue F et (Y 1 , . . . , Y n
2) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi continue G.
Apr` es regroupement des n 1 + n 2 valeurs des deux ´ echantillons, n 1 × M N est le nombre d’observations X i qui sont sup´ erieures ` a la m´ ediane des N = n 1 + n 2 observations.
Sous l’hypoth` ese nulle H 0 : « Les variables X et Y suivent la mˆ eme loi continue c’est-` a-dire G = F », la variable n 1 × M N peut prendre les valeurs 0, 1, . . . , n 1 selon la distribution hyperg´ eom´ etrique suivante :
P [n 1 × M N = k] = C n k
1C n N/2−k
2C N N/2 .
1.2 Les tests non param´ etriques sur deux ´ echantillons Ainsi on a :
E [n 1 × M N ] = n 1 (n 1 + n 2 − N ) 2N
Var [n 1 × M N ] = n 1 n 2 (n 1 + n 2 + 1)
4(n 1 + n 2 − 1 + N )(n 1 + n 2 + 1 − N ) , o` u N = 0 si N est pair et N = 1 si N est impair.
Lorsque n 1 et n 2 sont grands, c’est-` a-dire n 1 > 25 et n 2 > 25, on utilise l’approximation normale :
n 1 × M N − E [n 1 × M N ]
p Var [n 1 × M N ] ≈ N (0, 1) avec correction de continuit´ e.
La distribution est sym´ etrique lorsque N est pair.
Pour tester l’hypoth` ese nulle H 0 : « G = F » contre H 1 : « G 6= F » avec un niveau de signification ´ egal ` a α, on cherche les entiers k α et k α
0tels que P [n 1 × M N 6 k α ] ≈ α/2 et P
n 1 × M N > n 1 − k
0α
≈ α/2, puis on rejette l’hypoth` ese nulle H 0 si la r´ ealisation de la statistique du test calcul´ ee ` a l’aide de l’´ echantillon n’est pas dans l’intervalle [k α , k
0α ].
Cette statistique permet ´ egalement de r´ ealiser des tests unilat´ eraux.
1.2.3. Les ´ echantillons sont d´ ependants : Test de Wilcoxon
Nous consid´ erons deux variables al´ eatoires X et Y , de mˆ eme nature, observ´ ees toutes les deux sur les mˆ emes unit´ es d’un n-´ echantillon. Les observations se pr´ esentent alors sous la forme d’une suite de couples (x 1 , y 1 ), . . . , (x n , y n ). Ce test concerne les lois des deux variables. Pour ce faire nous testons :
Hypoth` eses :
H 0 : Les deux lois sont ´ egales ou encore de fa¸con ´ equivalente L (X) = L (Y ) contre
H 1 : Les deux lois ne sont pas ´ egales ou encore de fa¸con ´ equivalente L (X) 6= L (Y ).
1.2.3.1. Cas o` u il n’y a pas d’ex aequo.
Statistique : Pour obtenir la statistique du test not´ ee S + en g´ en´ eral, nous devons proc´ eder ` a des ´ etapes successives :
1. Ce test suppose que la loi de la diff´ erence entre les deux variables ´ etudi´ ees est
sym´ etrique par rapport ` a 0.
2. Apr` es avoir calcul´ e les diff´ erences d i , nous classons par ordre croissant les |d i | non nulles, c’est-` a-dire les d i sans tenir compte des signes.
3. Nous attribuons ` a chaque |d i | le rang correspondant.
4. Nous restituons ensuite ` a chaque rang le signe de la diff´ erence correspondante.
5. Enfin, nous calculons la somme S + des rangs positifs (P ) et la somme S − des rangs n´ egatifs (M ).
La somme S + des rangs positifs (P ) permet de tester l’hypoth` ese nulle H 0 . D´ ecision 1.2.2.
– Premier cas : Si n < 15, nous utilisons une table et nous comparons la valeur de (S + )
`
a la valeur critique c associ´ ee au seuil α du test.
– Second cas : Si n > 15, nous utilisons l’approximation normale avec correction de continuit´ e :
P H
0S + 6 h
≈ Φ h + 0, 5 − n(n + 1)/4 p (n(n + 1)(2n + 1))/24
!
o` u Φ est la fonction de r´ epartition d’un loi normale centr´ ee r´ eduite.
1.2.3.2. Cas o` u il y a des ex æquo.
Il se traite de la mˆ eme mani` ere que pour la statistique de Wilcoxon pour un ´ echantillon, voir le paragraphe 1.1.2.
1.3. Les tests non param´ etriques sur k ´ echantillons : 1 facteur
1.3.1. Les ´ echantillons sont ind´ ependants : Test de Kruskal- Wallis
On suppose que l’on dispose de k ´ echantillons ind´ ependants et identiquement distribu´ es (X 1,1 , . . . , X 1,n
1), . . . , (X k,1 , . . . , X k,n
k). La distribution du i−` eme ´ echantillon est not´ ee F i . On admet a priori que F i (x) = G(x − α i ) o` u G est une fonction de r´ epartition inconnue mais continue de moyenne µ et les α i sont des nombres r´ eels. Ainsi on suppose que le seul param` etre qui diff` ere d’une distribution F i ` a l’autre est un param` etre de position α i . C’est pourquoi mˆ eme lorsque vous effectuez un test de Kruskal-Wallis vous devez vous assurer que vous pouvez au moins supposer que les variances des variables sont ´ egales d’un
´
echantillon ` a l’autre ` a l’aide d’un test non param´ etrique de Levene d’´ egalit´ e des variances.
Les hypoth` eses ci-dessus impliquent que l’on peut ´ ecrire, pour tout 1 6 i 6 k la d´ ecom- position suivante :
X i,j = µ + α i + i,j , 1 6 j 6 n i ,
1.3 Les tests non param´ etriques sur k ´ echantillons : 1 facteur
les N =
k
X
i=1
n i variables al´ eatoires i,j ´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.
1.3.1.1. Cas o` u il n’y a pas d’ex æquo.
La variable KW N de Kruskal-Wallis est utilis´ ee pour tester l’hypoth` ese H 0 : α 1 = . . . = α k = 0
contre
H 1 : Il existe au moins un i 0 tel que α i
06= 0.
On commence par calculer le rang R i,j de X i,j parmi les N valeurs, puis la somme des rangs associ´ ee ` a chaque ´ echantillon : R i,• =
n
iX
j=1
R i,j et enfin la moyenne des rangs de chaque ´ echantillon : R i,• = R i,•
n i .
La statistique de Krukal-Wallis KW N prend en compte l’´ ecart entre la moyenne des rangs de chaque ´ echantillon et la moyenne de tous les rangs, qui vaut (N + 1)/2 :
KW N = 12
N (N + 1)
k
X
i=1
n i
R i,• − N + 1 2
.
Sous l’hypoth` ese nulle H 0 : « X 1 , . . . , X k ont la mˆ eme distribution continue », qui dans notre cas est ´ equivalente ` a H 0 : « α 1 = . . . = α k = 0 », il est possible de d´ eterminer la distribution de KW N bien que le calcul soit complexe.
– Si l’un des effectifs n i , 1 6 i 6 k, est inf´ erieur ou ´ egal ` a 4, on utilise une table sp´ ecifique.
– Si n i > 5, pout tout 1 6 i 6 k on utilise l’approximation KW N ≈ χ 2 k−1 .
Pour un seuil de signification de α, on d´ etermine c α tel que P [KW N > c α ] ∼ = α et l’on rejette l’hypoth` ese nulle H 0 lorsque la valeur prise par KW N est sup´ erieure ` a c α .
1.3.1.2. Cas o` u il y a des ex æquo.
• M´ ethode de d´ epartition des ex æquo
On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs
´
egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un
rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent
et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
A chaque nombre appartenant ` ` a un groupe d’ex æquo on attribue le rang moyen du groupe auquel il appartient puis on d´ etermine la somme T =
h
X
l=1
(t 3 l − t l ) o` u t l d´ esigne le nombre d’´ el´ ements du l−` eme groupe d’ex æquo. Il est d’usage de substituer ` a KW N la variable KW N ? d´ efinie par :
KW N ? = KW N
1 − T
N 3 − N .
Comparaisons multiples
Si l’on rejette l’hypoth` ese nulle H 0 : « α 1 = . . . = α k = 0 » d’absence de diff´ erence entre les distributions F i des k ´ echantillons, on peut ˆ etre amen´ e ` a se demander quelles sont les distributions qui sont diff´ erentes.
On d´ ecide que deux distributions F i et F i
0sont significativement diff´ erentes au seuil α si :
R i,• − R i
0,•
> p
χ 2 (k − 1, 1 − α)
r N (N + 1) 12
s 1 n i + 1
n i
0,
o` u χ 2 (k − 1, 1 − α) est le 100(1 − α) quantile de la loi du χ 2 ` a k − 1 degr´ es de libert´ e.
On d´ ecide qu’au seuil global α deux distributions F i et F i
0, parmi les k(k − 1) com- paraisons que l’on va faire, sont significativement diff´ erentes si :
R i,• − R i
0,•
> u
1 − α
k(k − 1)
r N (N + 1) 12
s 1 n i + 1
n i
0,
o` u u
1 − α
k(k − 1)
est le 100
1 − α
k(k − 1)
quantile de la loi normale centr´ ee r´ eduite.
Il s’agit d’une application des in´ egalit´ es de Bonferroni 2 . Cette proc´ edure est plus puissante que la pr´ ec´ edente.
On d´ ecide qu’au seuil global α deux distributions F i et F i
0, parmi les k(k − 1) com- paraisons que l’on va faire, sont significativement diff´ erentes si :
2
On pourra consulter le cours sur les mod` eles d’analyse de la variance pour plus de d´ etails sur les
proc´ edures de comparaisons multiples.
1.3 Les tests non param´ etriques sur k ´ echantillons : 1 facteur
R i,• − R i
0,•
> q(k, +∞, 1 − α)
r N (N + 1) 12
s 1 2
1 n i + 1
n i
0,
o` u q(k, +∞, 1 − α) est le 100(1 − α) quantile de la loi de l’´ etendue studentis´ ee pour k moyennes et +∞ degr´ es de libert´ e. Il s’agit d’une proc´ edure analogue ` a celle de Tukey- Kramer 2 dans le cas param´ etrique et valide asymptotiquement. Elle est g´ en´ eralement plus puissante que les deux approches pr´ ec´ edentes.
1.3.2. Les ´ echantillons sont ind´ ependants : Test de Jonckheere- Terpstra
La statistique J N de Jonckheere-Terpstra permet de raffiner l’approche de la statistique KW N de Kruskal-Wallis : supposons que les k modalit´ es du facteur pour lequel on a r´ ealis´ e les exp´ eriences soient naturellement ordonn´ ees. C’est par exemple le cas dans la situation suivante : vous souhaitez trouver la dose optimale d’engrais ` a utiliser pour am´ eliorer un rendement. Vous allez donc r´ ealiser des exp´ eriences avec des doses de plus en plus im- portantes d’engrais et les modalit´ es de votre facteur explicatif seront donc naturellement ordonn´ ees par la quantit´ e croissante d’engrais utilis´ e.
La statistique J N de Jonckheere-Terpstra permet de tester l’hypoth` ese : H 0 : α 1 = . . . = α k = 0
contre
H 1 : α 1 6 . . . 6 α k = 0 et il existe au moins un i 0 tel que α i
0< α i
0+1 . 1.3.2.1. Cas o` u il n’y a pas d’ex æquo.
La statistique J N est construite ` a l’aide de toutes les variables de Mann-Whitney U i,j , associ´ ees ` a l’´ echantillon i et l’´ echantillon j, lorsque 1 6 i < j 6 k :
J N = X
16i<j6k
U i,j . Sous l’hypoth` ese nulle H 0 : « α 1 = . . . = α k = 0 » : – L’esp´ erance et la variance de la statistique J N sont :
E [J N ] =
N 2 −
k
X
i=1
n 2 i
4 ,
Var[J N ] = 1
72 N 2 (3 + 2N ) −
k
X
i=1
n 2 i (3 + 2n i )
!
.
– Les valeurs critiques de la statistique J N sont tabul´ ees pour de faibles valeurs de k et des n i .
– Lorsque n i > 5, pour tout 1 6 i 6 k, on a l’approximation normale avec correction de continuit´ e :
J N − E [J n ]
p Var [J N ] ≈ N (0, 1) .
On cherche l’entier φ α tel que P [J N > φ α ] ≈ α puis on rejette l’hypoth` ese nulle H 0 au seuil α si la valeur prise par la statistique J N est sup´ erieure ou ´ egale ` a φ α .
1.3.2.2. Cas o` u il y a des ex æquo.
On peut utiliser une m´ ethode de d´ epartition des ex æquo ou des tests de Mann-Whitney bas´ es sur des rangs moyens, l’inconvient de la seconde m´ ethode ´ etant qu’on ne peut uti- liser les mˆ emes tables qu’en absence d’ex æquo.
1.3.3. Les ´ echantillons ne sont pas ind´ ependants : Test de Fried- man
On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur ne sont pas ind´ ependants.
Individu Facteur A 1 · · · n 1 x 1,1 · · · x n,1
.. . .. . .. . .. . k x 1,k · · · x n,k On construit alors le tableau des rangs :
Individu Facteur A Total
1 · · · n
1 r 1,1 · · · r n,1 n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r 1,k · · · r n,k n(n + 1)/2 Total r 1,• · · · r n,• kn(n + 1)/2
Si on est en pr´ esence de r´ ep´ etitions x i,j,k on remplace x i,j par la moyenne x i,j des valeurs pour chaque cas o` u il y a des r´ ep´ etitions.
On cherche alors ` a tester l’hypoth` ese :
1.3 Les tests non param´ etriques sur k ´ echantillons : 1 facteur H 0 : Les niveaux du facteur ont tous la mˆ eme influence
contre
H 1 : Les niveaux du facteur n’ont pas tous la mˆ eme influence.
1.3.3.1. Cas o` u il n’y a pas d’ex æquo.
La statistique de Friedman F k,n est d´ efinie par : F k,n = 12k
n(n + 1)
n
X
i=1
R i,•
k − n + 1 2
2
= 12
kn(n + 1)
n
X
i=1
R 2 i,• − 3k(n + 1).
On admet que sous l’hypoth` ese nulle H 0 : « Les niveaux du facteur ont tous la mˆ eme influence » les distributions pour chaque individu ne diff` erent que par un param` etre de position, ce que l’on peut v´ erifier par un test non param´ etrique de Levene par exemple.
– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W k,n de Kendall car la statistique de Friedman F k,n = k(n − 1)W k,n .
– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F k,n ≈ χ 2 n−1 .
On rejettera l’hypoth` ese nulle H 0 si la valeur prise par F k,n est trop grande.
1.3.3.2. Cas o` u il y a des ex æquo.
• M´ ethode de d´ epartition des ex æquo
On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs
´
egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.
Lorsque le classement num´ ero m a h m groupes d’ex æquo, on lui attribue la somme T m =
h
mX
l=1
t 3 l,m − t l,m
o` u t l,m d´ esigne le nombre d’´ el´ ements du l−` eme de ces h m groupes.
S’il n’y a pas d’ex æquo on a ´ evidemment T m = 0 puisque la r´ epartition des n entiers du
classement en classes de nombres ´ egaux donne h m = n et t l,m = 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :
F k,n ? = 12k(n − 1) n 3 − n
− 1 k
k
X
m=1
T m
n
X
l=1
R l,•
k − n + 1 2
2
= 1
1 − 1
(n 3 − n) 1 k
k
X
m=1
T m
12k n(n + 1)
n
X
l=1
R l,•
k − n + 1 2
2
.
On en d´ eduit que :
F k,n ? = F k,n
1 − 1
(n 3 − n) 1 k
k
X
m=1
T m .
1.4. Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs
1.4.1. Les ´ echantillons sont ind´ ependants : Test de Friedman
On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur sont ind´ ependants.
Facteur B Facteur A 1 · · · n 1 x 1,1 · · · x n,1
.. . .. . .. . .. . k x 1,k · · · x n,k On construit alors le tableau des rangs :
Facteur B Facteur A Total
1 · · · n
1 r 1,1 · · · r n,1 n(n + 1)/2
.. . .. . .. . .. . n(n + 1)/2
k r 1,k · · · r n,k n(n + 1)/2
Total r 1,• · · · r n,• kn(n + 1)/2
1.4 Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs
Si on est en pr´ esence de r´ ep´ etitions x i,j,k on remplace x i,j par la moyenne x i,j des valeurs pour chaque cas o` u il y a des r´ ep´ etitions.
On admet a priori que l’influence des couples de niveaux (A i , B j ) des facteurs A et B, pour 1 6 i 6 n, 1 6 j 6 k, se traduit par une d´ ecomposition de la forme :
X i,j = µ + α i + β j + i,j , 1 6 i 6 n, 1 6 j 6 k avec
n
X
i=1
α i = 0 et
k
X
j=1
β j = 0. Les N =
n
X
i=1
k = n × k variables al´ eatoires i,j ´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.
1.4.1.1. Cas o` u il n’y a pas d’ex æquo.
La variable F k,n de Friedman est utilis´ ee pour tester l’hypoth` ese H 0 : α 1 = . . . = α n = 0
contre
H 1 : Il existe au moins un i 0 tel que α i
06= 0.
On commence par calculer le rang R i,j de X i,j parmi les n valeurs de la colonne i, puis la somme des rangs associ´ ee ` a chaque colonne : R i,• =
k
X
j=1
R i,j et enfin la moyenne des rangs de chaque colonne : R i,• = R i,•
k .
La statistique de Friedman F k,n est d´ efinie par : F k,n = 12k
n(n + 1)
n
X
i=1
R i,•
k − n + 1 2
2
= 12
kn(n + 1)
n
X
i=1
R 2 i,• − 3k(n + 1).
– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W k,n de Kendall car F k,n = k(n − 1)W k,n .
– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F k,n ≈ χ 2 n−1 .
On rejettera l’hypoth` ese nulle H 0 si la valeur prise par la statistique de Friedman F k,n est trop grande.
Si l’on voulait ´ egalement tester l’influence du facteur B on aurait analys´ e les tableaux
ci-dessous avec la mˆ eme m´ ethode.
Facteur A Facteur B 1 · · · n 1 x 1,1 · · · x n,1
.. . .. . .. . .. . k x 1,k · · · x n,k
Facteur A Facteur B Total
1 · · · n
1 r 1,1 · · · r n,1 n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r 1,k · · · r n,k n(n + 1)/2 Total r 1,• · · · r n,• kn(n + 1)/2
Comme on a ´ echang´ e le rˆ ole du facteur A et du facteur B on teste maintenant : H 0 : Les niveaux du facteur B ont tous la mˆ eme influence
contre
H 1 : Les niveaux du facteur B n’ont pas tous la mˆ eme influence.
On ne peut pas tester l’existence d’une interaction par cette m´ ethode puisque le mod` ele utilis´ e ne comporte pas de terme d’interaction. Il existe d’autres tests pour ´ etudier l’exis- tence d’une interaction.
1.4.1.2. Cas o` u il y a des ex æquo.
• M´ ethode de d´ epartition des ex æquo
On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs
´
egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.
Lorsque le classement num´ ero m a h m groupes d’ex æquo, on lui attribue la somme T m =
h
mX
l=1
t 3 l,m − t l,m
o` u t l,m d´ esigne le nombre d’´ el´ ements du l−` eme de ces h m groupes.
S’il n’y a pas d’ex æquo on a ´ evidemment T m = 0 puisque la r´ epartition des n entiers du
1.4 Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs
classement en classes de nombres ´ egaux donne h m = n et t l,m = 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :
F k,n ? = 12k(n − 1) n 3 − n
− 1 k
k
X
m=1
T m
n
X
l=1
R l,•
k − n + 1 2
2
= 1
1 − 1
(n 3 − n) 1 k
k
X
m=1
T m 12k n(n + 1)
n
X
l=1
R l,•
k − n + 1 2
2
.
On en d´ eduit que :
F k,n ? = F k,n
1 − 1
(n 3 − n) 1 k
k
X
m=1
T m
.
Chapitre 2
Valeurs non repr´ esentatives. 1
2.1. Valeurs extrˆ emes, valeurs non repr´ esentatives
La plupart des distributions statistiques ont la majeure partie de leurs r´ ealisations com- prises dans un intervalle d’une largeur de 6 ´ ecarts types autour de la moyenne µ. Par exemple dans le cas de la loi normale de param` etres µ et σ, la probabilit´ e d’obtenir une valeur dans un intervalle [µ − 3σ, µ + 3σ] est de 99,8 %. Il ne faut pas d´ eduire de cette propri´ et´ e que l’on n’observera jamais de r´ ealisations se trouvant en dehors de cet inter- valle dans la pratique. En effet, bien que la soit probabilit´ e de se trouver face ` a une telle situation soit faible, elle n’est pas nulle. De surcroˆıt, plus l’effectif de l’´ echantillon est important, plus ce cas de figure est susceptible de se produire.
En effet, comme vous le savez, en notant X une variable al´ eatoire d’esp´ erance µ et d’´ ecart type σ et n le nombre de r´ ealisations de X que l’on consid` ere, la fr´ equence th´ eorique de l’´ ev` enement consid´ er´ e est
n × (1 − P [−3σ 6 X − µ 6 +3σ]) .
En consid´ erant le cas d’un loi normale de moyenne µ = 0 et d’´ ecart type σ = 1, on obtient :
n × (1 − P [−3 6 X 6 +3]) = n × 0, 00270.
Ainsi pour un effectif de 400 la fr´ equence attendue est de 1, 080.
Plus g´ en´ eralement, l’in´ egalit´ e de Bienaym´ e-Tchebychev, valable pour toute variable al´ ea- toire Y admettant une variance σ Y 2 , et par cons´ equent une moyenne µ Y , permet d’obtenir
1