Quelques tests non param´etriques
11. Les tests non param´ etriques sur un ´ echantillon
Dans cette section nous nous int´ eressons ` a deux tests non param´ etriques : – le test du signe et
– le test des rangs sign´ es.
Nous utiliserons de pr´ ef´ erence le test des rangs sign´ es d` es que les conditions de son utili- sation sont remplies, sa puissance ´ etant alors sup´ erieure ` a celle du test du signe.
1.1. Test du signe
Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X
1, . . . , X
nd’une loi continue F dont la valeur m´ ediane est not´ ee m
eet la moyenne µ. Le test du signe permet de tester les hypoth` eses suivantes :
Hypoth` eses :
H
0: m
e= 0 ou de fa¸con ´ equivalente P [X
i> 0] = 1 2 contre
H
1: m
e6= 0 ou de fa¸con ´ equivalente P [X
i> 0] 6= 1 2 .
Remarque 1.1. La formulation de ce test est bien sˆ ur la formulation d’un test bilat´ eral.
Nous pouvons envisager les deux tests unilat´ eraux correspondants. ` A ce moment l` a, la formulation de l’hypoth` ese alternative H
1est diff´ erente et s’´ ecrit soit :
H
01: P [X
i> 0] < 1 2 soit
1
Les r´ ef´ erences [2], [3] et [1] ayant servi ` a l’´ elaboration de ce document sont mentionn´ ees dans la
bibliographie.
H
001: P [X
i> 0] > 1 2 .
Remarque 1.2. Plus g´ en´ eralement ce test permet de tester l’hypoth` ese nulle H
0: m
e= m
0ou de fa¸con ´ equivalente P [X
i> 0] = p
contre
H
1: m
e6= m
0ou de fa¸con ´ equivalente P [X
i> 0] 6= p.
o` u m
0est un nombre r´ eel et p est une constante comprise entre 0 et 1, ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative
H
01: m
e< m
0ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative H
001: m
e> m
0Pour cela il suffit de consid´ erer l’´ echantillon Z
1, . . . , Z
navec Z
i= X
i− m
0et de lui appliquer le test d´ ecrit ci-dessous.
Statistique : S
nd´ esigne le nombre de variables X
i, 1 6 i 6 n, qui prennent une valeur positive.
Propri´ et´ es 1.1. Lorsque l’hypoth` ese nulle H
0est vraie, la variable al´ eatoire S
nsuit exactement une loi binomiale B(n, p) de param` etres n et p.
Concr` etement cette hypoth` ese nulle H
0signifie que l’effectif de l’´ echantillon consid´ er´ e est faible devant celui de la population dont il est issu.
Remarque 1.3. Nous pourrons prendre comme taille limite des ´ echantillons dont les effectifs sont inf´ erieurs ` a une fraction de 1/10 de la population. Dans ce cas nous pouvons assimiler les tirages r´ ealis´ es ici ` a des tirages avec remise.
Cas le plus souvent utilis´ e : p =1/2. Nous nous proposons de tester : Hypoth` eses :
H
0: P [X
i> 0] = 1 2 contre H
1: P [X
i> 0] 6= 1
2 .
Statistique : S
nd´ esigne le nombre de variables X
i, 1 6 i 6 n, qui prennent une valeur positive.
Propri´ et´ es 1.2. Lorsque l’hypoth` ese nulle H
0est vraie, la variable al´ eatoire S
na les trois propri´ et´ es suivantes :
1. La variable al´ eatoire S
nsuit une loi binomiale B(n, 1/2) de param` etres n et 1/2. De ce fait, d´ ecoule les deux propri´ et´ es suivantes :
2. E [S
n] = n/2.
3. Var [S
n] = n/4.
Cette distribution binomiale est sym´ etrique. Pour n grand (n > 40), nous pouvons utiliser l’approximation normale avec correction de continuit´ e :
P
H0[S
n6 h] = P
H0[S
n> n − h] = Φ(2h + 1 − n)
√ n o` u Φ est la fonction de r´ epartition d’une loi normale centr´ ee r´ eduite.
D´ ecision 1.1. Pour un seuil α donn´ e (= α = 5% = 0, 05 en g´ en´ eral), nous cherchons le plus grand entier s
?αtel que P [Y 6 s
?α] 6 α/2 o` u Y suit une loi binomiale B(n, 1/2) de param` etres n et 1/2. Alors nous d´ ecidons :
H
1est vraie si S
n,obs∈]s /
?α, n − s
?α[ H
0est vraie si S
n,obs∈]s
?α, n − s
?α[.
Remarque 1.4. Le niveau de signification r´ eel du test est alors ´ egal ` a 2 P [Y 6 s
?α] qui est g´ en´ eralement diff´ erent de α.
Remarque 1.5. Pour voir un exemple, nous renvoyons ` a la feuille de travaux dirig´ es qui sera trait´ ee lors de la premi` ere s´ eance de travaux dirig´ es.
1.2. Test des rangs sign´ es de Wilcoxon
Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X
1, . . . , X
nd’une loi continue F dont la valeur m´ ediane est not´ ee m
eet la moyenne µ.
Hypoth` eses : Le test des rangs sign´ es permet de tester l’hypoth` ese nulle H
0: La loi continue F est sym´ etrique en 0
contre
H
1: La loi continue F n’est pas sym´ etrique en 0.
De plus, si nous savons que la loi continue F est sym´ etrique, alors le test des rangs sign´ es de Wilcoxon devient
H
0: µ = µ
0contre H
1: µ 6= µ
0.
Ici µ
0est un nombre r´ eel et ce jeu d’hypoth` eses permet alors de s’int´ eresser ` a la moyenne
de la loi continue F .
1.2.1. Cas o` u il n’y a pas d’ex æquo.
Soit x
1, . . . , x
nn r´ ealisations de l’´ echantillon pr´ ec´ edent. ` A chaque x
inous attribuons le rang r
iaqui correspond au rang de |x
i| lorsque que les n r´ ealisations sont class´ ees par ordre croissant de leurs valeurs absolues.
Statistique : Nous d´ eterminons alors la somme w des rangs r
aides seules observations positives. La statistique W
n+des rangs sign´ es de Wilcoxon est la variable al´ eatoire qui prend pour valeur la somme w. Par cons´ equent, la statistique W
n+des rangs sign´ es de Wilcoxon s’´ ecrit
W
n+= X 1 6 i 6 n
X
i> 0 R
ai.
Propri´ et´ es 1.3. Lorsque l’hypoth` ese nulle H
0est vraie, la variable al´ eatoire W
n+a les trois propri´ et´ es suivantes :
1. W
n+est sym´ etrique autour de sa valeur moyenne E [W
n+] = n(n + 1)/4.
2. Var [W
n+] = n(n + 1)(2n + 1)/24.
3. Elle est tabul´ ee pour de faibles valeurs de n. Pour n > 15, nous avons l’approxima- tion normale avec correction de continuit´ e :
P
W
n+6 w
= Φ w + 0, 5 − n(n + 1)/4 p n(n + 1)(2n + 1)/24
!
o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.
D´ ecision 1.2.
– Premier cas : Pour tester l’hypoth` ese nulle « H
0: La loi continue F est sym´ etrique en 0 » contre l’hypoth` ese alternative « H
1: La loi continue F n’est pas sym´ etrique en 0 » pour un seuil donn´ e α, nous cherchons l’entier w
αtel que P [W
n+6 w
α] ≈ α/2.
Alors nous d´ ecidons :
H
1est vraie si W
n,obs+∈]w /
α+ 1, n(n + 1)/2 − w
α− 1[, H
0est vraie si W
n,obs+∈]w
α+ 1, n(n + 1)/2 − w
α− 1[.
– Second cas : Pour tester l’hypoth` ese nulle « H
0: µ = µ
0», nous introduisons l’´ echantillon Z
1, . . . , Z
navec Z
i= X
i− µ, 1 6 i 6 n.
1.2.2. Cas o` u il y a des ex æquo.
Les observations x
1, . . . , x
npeuvent pr´ esenter des ex æquo et a fortiori leurs valeurs
absolues. Il s’agit en particulier du cas o` u la loi F est discr` ete. Deux proc´ edures sont alors
employ´ ees.
• M´ ethode de d´ epartition des ex æquo
Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A cha- cune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
En associant ` a l’observation X
ison rang moyen R
ai?dans le classement des valeurs absolues et en sommant tous les rangs pour lesquels X
i> 0 nous obtenons la statistique :
W
n+?= X 1 6 i 6 n
X
i> 0
R
ai?.
Les valeurs absolues observ´ ees |x
1|, . . . , |x
n| ´ etant ordonn´ ees puis regroup´ ees en classes d’ex æquo, C
0pour la premi` ere classe qui est constitu´ ee des nombres |x
i| nuls, s’il en existe, et C
j, 1 6 j 6 h pour les autres nombres, certaines classes C
jpouvant comporter un seul ´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d
jle nombre d’ex æquo de la classe C
j. Nous avons
d
0+
h
X
j=1
d
j= n.
Sous l’hypoth` ese nulle H
0et si n > 15, il est d’usage d’utiliser l’approximation normale
W
n+?− m
?σ
?≈ N (0, 1) o` u
m
?= 1
4 (n(n + 1) − d
0(d
0+ 1)) et
(σ
?)
2= 1
24 (n(n + 1)(2n + 1) − d
0(d
0+ 1)(2d
0+ 1)) − 1 48
h
X
j=1
d
3j− d
j.
Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens, nous ne pouvons pas
utiliser les tables statistiques usuelles qui concernent la distribution de la variable
al´ eatoire W
n+.
2. Les tests non param´ etriques sur deux ´ echantillons
2.1. Les ´ echantillons sont ind´ ependants : Test de Mann-Whi- tney
Nous observons, de mani` ere ind´ ependante, une variable Y , continue, sur deux populations, ou sur une population divis´ ee en deux sous-populations. Nous notons L
ila loi de Y sur la (sous-)population d’ordre i. Nous allons pr´ esenter le test :
Hypoth` eses :
H
0: Les deux lois L
isont ´ egales ou encore de fa¸con ´ equivalente : L
1= L
2contre
H
1: Les deux lois L
ine sont pas ´ egales ou encore de fa¸con ´ equivalente : L
16= L
2.
2.1.1. Cas o` u il n’y a pas d’ex aequo.
Statistique : Pour obtenir la statistique du test not´ ee U en g´ en´ eral, nous devons proc´ eder
`
a des ´ etapes successives :
1. En se pla¸cant sous l’hypoth` ese nulle H
0, nous classons par ordre croissant l’en- semble des observations des deux ´ echantillons (x
1, . . . , x
n1) et (y
1, . . . , y
n2) de taille respective n
1et n
2.
2. Nous affectons le rang correspondant.
3. Nous effectuons la somme des rangs pour chacun des deux ´ echantillons, not´ es R
1et R
2.
4. Nous en d´ eduisons les quantit´ es U
1et U
2qui se calculent ainsi : U
n1= n
1× n
2+ n
1(n
1+ 1)
2 − R
1(2.1)
et
U
n2= n
1× n
2+ n
2(n
2+ 1)
2 − R
2= n
1× n
2− U
1. (2.2) La plus petite des deux valeurs U
n1et U
n2, not´ ee U
n1,n2, est utilis´ ee pour tester l’hypoth` ese nulle H
0.
Propri´ et´ es 2.1. Lorsque l’hypoth` ese nulle H
0est vraie, la variable al´ eatoire U
n1,n2a les trois propri´ et´ es suivantes :
1. E [U
n1,n2] = (n
1× n
2)/2.
2. Var [U
n1,n2] = (n
1× n
2)(n
1+ n
2+ 1)/12.
3. La variable al´ eatoire U
n1,n2est tabul´ ee pour de faibles valeurs de n. Pour n > 20, nous avons l’approximation normale :
P [U
n1,n26 u] = Φ u − (n
1× n
2)/2 p (n
1× n
2)(n
1+ n
2+ 1)/12
!
o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.
D´ ecision 2.1.
– Premier cas : Si les tailles n
1ou n
2sont inf´ erieures ` a 20. Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de Mann-Whitney nous fournit une valeur critique c. Alors nous d´ ecidons :
H
1est vraie si U
n1,n2,obs6 c, H
0est vraie si U
n1,n2,obs> c.
– Second cas : Si les tailles n
1et n
2sont sup´ erieures ` a 20, alors la quantit´ e est d´ ecrite approximativement par une loi normale et nous utilisons alors le test de l’´ ecart r´ eduit :
Z
n1,n2= U
n1,n2− (n
1× n
2)/2 p (n
1× n
2)(n
1+ n
2+ 1)/12 .
Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de la loi normale centr´ ee r´ eduite nous fournit une valeur critique c. Alors nous d´ ecidons :
H
1est vraie si Z
n1,n2,obs> c, H
0est vraie si Z
n1,n2,obs< c.
2.1.2. Cas o` u il y a des ex æquo.
Les observations x
1, . . . , x
n1, y
1, . . . , y
n2peuvent pr´ esenter des ex æquo. Il s’agit en parti- culier du cas o` u les lois F et G dont sont issus les deux ´ echantillons sont discr` etes. Deux proc´ edures sont alors employ´ ees.
• M´ ethode de d´ epartition des ex æquo
Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
Les valeurs absolues observ´ ees x
1, . . . , x
n1, y
1, . . . , y
n2´ etant ordonn´ ees puis regroup´ ees en h classes d’ex æquo C
j, 1 6 j 6 h, certaines classes C
jpouvant comporter un seul
´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d
jle nombre d’ex æquo de la classe
C
j. Nous avons
h
X
j=1
d
j= n
1+ n
2.
En associant ` a l’observation X
ison rang moyen R
?idans ce classement et en sommant tous les rangs de tous les X
i, on obtient la statistique :
U
n?1,n2=
n2
X
i=1
R
?i.
Sous l’hypoth` ese nulle H
0: « X et Y ont la mˆ eme distribution » et pour n
1> 15 et n
2> 15, il est d’usage d’utiliser l’approximation normale
U
n?1,n2− m
?σ
?≈ N (0, 1) o` u
m
?= 1
2 (n
1(n
1+ n
2+ 1)) et
(σ
?)
2= 1
12 (n
1n
2(n
1+ n
2+ 1)) − 1 12
n
1n
2(n
1+ n
2)(n
1+ n
2− 1)
h
X
j=1
d
3j− d
j.
Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens nous ne pouvons pas uti- liser les tables statistiques usuelles qui concernent la distribution de la variable al´ eatoire U
n1,n2.
2.2. Les ´ echantillons sont ind´ ependants : Test de la m´ ediane de Mood
On consid` ere deux ´ echantillons ind´ ependants (X
1, . . . , X
n1) et (Y
1, . . . , Y
n2).
(X
1, . . . , X
n1) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi conti- nue F et (Y
1, . . . , Y
n2) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi continue G.
Apr` es regroupement des n
1+ n
2valeurs des deux ´ echantillons, n
1× M
Nest le nombre d’observations X
iqui sont sup´ erieures ` a la m´ ediane des N = n
1+ n
2observations.
Sous l’hypoth` ese nulle H
0: « Les variables X et Y suivent la mˆ eme loi continue c’est-` a-dire G = F », la variable n
1× M
Npeut prendre les valeurs 0, 1, . . . , n
1selon la distribution hyperg´ eom´ etrique suivante :
P [n
1× M
N= k] = C
nk1
C
nN/2−k2C
NN/2.
Ainsi on a :
E [n
1× M
N] = n
1(n
1+ n
2−
N) 2N
Var [n
1× M
N] = n
1n
2(n
1+ n
2+ 1)
4(n
1+ n
2− 1 +
N)(n
1+ n
2+ 1 −
N) , o` u
N= 0 si N est pair et
N= 1 si N est impair.
Lorsque n
1et n
2sont grands, c’est-` a-dire n
1> 25 et n
2> 25, on utilise l’approximation normale :
n
1× M
N− E [n
1× M
N]
p Var [n
1× M
N] ≈ N (0, 1) avec correction de continuit´ e.
La distribution est sym´ etrique lorsque N est pair.
Pour tester l’hypoth` ese nulle H
0: « G = F » contre H
1: « G 6= F » avec un niveau de signification ´ egal ` a α, on cherche les entiers k
αet k
0αtels que P [n
1× M
N6 k
α] ≈ α/2 et P
n
1× M
N> n
1− k
α0≈ α/2, puis on rejette l’hypoth` ese nulle H
0si la r´ ealisation de la statistique du test calcul´ ee ` a l’aide de l’´ echantillon n’est pas dans l’intervalle [k
α, k
α0].
Cette statistique permet ´ egalement de r´ ealiser des tests unilat´ eraux.
2.3. Les ´ echantillons sont d´ ependants : Test de Wilcoxon
Nous consid´ erons deux variables al´ eatoires X et Y , de mˆ eme nature, observ´ ees toutes les deux sur les mˆ emes unit´ es d’un n-´ echantillon. Les observations se pr´ esentent alors sous la forme d’une suite de couples (x
1, y
1), . . . , (x
n, y
n). Ce test concerne les lois des deux variables. Pour ce faire nous testons :
Hypoth` eses :
H
0: Les deux lois sont ´ egales ou encore de fa¸con ´ equivalente L(X) = L(Y ) contre
H
1: Les deux lois ne sont pas ´ egales ou encore de fa¸con ´ equivalente L(X) 6= L(Y ).
2.3.1. Cas o` u il n’y a pas d’ex aequo.
Statistique : Pour obtenir la statistique du test not´ ee S
+en g´ en´ eral, nous devons proc´ eder ` a des ´ etapes successives :
1. Ce test suppose que la loi de la diff´ erence entre les deux variables ´ etudi´ ees est
sym´ etrique par rapport ` a 0.
2. Apr` es avoir calcul´ e les diff´ erences d
i, nous classons par ordre croissant les |d
i| non nulles, c’est-` a-dire les d
isans tenir compte des signes.
3. Nous attribuons ` a chaque |d
i| le rang correspondant.
4. Nous restituons ensuite ` a chaque rang le signe de la diff´ erence correspondante.
5. Enfin, nous calculons la somme S
+des rangs positifs (P ) et la somme S
−des rangs n´ egatifs (M ).
La somme S
+des rangs positifs (P ) permet de tester l’hypoth` ese nulle H
0. D´ ecision 2.2.
– Premier cas : Si n < 15, nous utilisons une table et nous comparons la valeur de (S
+)
`
a la valeur critique c associ´ ee au seuil α du test.
– Second cas : Si n > 15, nous utilisons l’approximation normale avec correction de continuit´ e :
P
H0S
+6 h
≈ Φ h + 0, 5 − n(n + 1)/4 p (n(n + 1)(2n + 1))/24
!
o` u Φ est la fonction de r´ epartition d’un loi normale centr´ ee r´ eduite.
2.3.2. Cas o` u il y a des ex æquo.
Il se traite de la mˆ eme mani` ere que pour la statistique de Wilcoxon pour un ´ echantillon, voir le paragraphe 1.2.
3. Les tests non param´ etriques sur k ´ echantillons : 1 facteur
3.1. Les ´ echantillons sont ind´ ependants : Test de Kruskal-Wallis
On suppose que l’on dispose de k ´ echantillons ind´ ependants et identiquement distribu´ es (X
1,1, . . . , X
1,n1), . . . , (X
k,1, . . . , X
k,nk). La distribution du i−` eme ´ echantillon est not´ ee F
i. On admet a priori que F
i(x) = G(x − α
i) o` u G est une fonction de r´ epartition inconnue mais continue de moyenne µ et les α
isont des nombres r´ eels. Ainsi on suppose que le seul param` etre qui diff` ere d’une distribution F
i` a l’autre est un param` etre de position α
i. C’est pourquoi mˆ eme lorsque vous effectuez un test de Kruskal-Wallis vous devez vous assurer que vous pouvez au moins supposer que les variances des variables sont ´ egales d’un
´
echantillon ` a l’autre ` a l’aide d’un test non param´ etrique de Levene d’´ egalit´ e des variances.
Les hypoth` eses ci-dessus impliquent que l’on peut ´ ecrire, pour tout 1 6 i 6 k la d´ ecom- position suivante :
X
i,j= µ + α
i+
i,j, 1 6 j 6 n
i,
les N =
k
X
i=1
n
ivariables al´ eatoires
i,j´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.
3.1.1. Cas o` u il n’y a pas d’ex æquo.
La variable KW
Nde Kruskal-Wallis est utilis´ ee pour tester l’hypoth` ese H
0: α
1= . . . = α
k= 0
contre
H
1: Il existe au moins un i
0tel que α
i06= 0.
On commence par calculer le rang R
i,jde X
i,jparmi les N valeurs, puis la somme des rangs associ´ ee ` a chaque ´ echantillon : R
i,•=
ni
X
j=1
R
i,jet enfin la moyenne des rangs de chaque ´ echantillon : R
i,•= R
i,•n
i.
La statistique de Krukal-Wallis KW
Nprend en compte l’´ ecart entre la moyenne des rangs de chaque ´ echantillon et la moyenne de tous les rangs, qui vaut (N + 1)/2 :
KW
N= 12 N (N + 1)
k
X
i=1
n
iR
i,•− N + 1 2
.
Sous l’hypoth` ese nulle H
0: « X
1, . . . , X
kont la mˆ eme distribution continue », qui dans notre cas est ´ equivalente ` a H
0: « α
1= . . . = α
k= 0 », il est possible de d´ eterminer la distribution de KW
Nbien que le calcul soit complexe.
– Si l’un des effectifs n
i, 1 6 i 6 k, est inf´ erieur ou ´ egal ` a 4, on utilise une table sp´ ecifique.
– Si n
i> 5, pout tout 1 6 i 6 k on utilise l’approximation KW
N≈ χ
2k−1.
Pour un seuil de signification de α, on d´ etermine c
αtel que P [KW
N> c
α] ∼ = α et l’on rejette l’hypoth` ese nulle H
0lorsque la valeur prise par KW
Nest sup´ erieure ` a c
α.
3.1.2. Cas o` u il y a des ex æquo.
• M´ ethode de d´ epartition des ex æquo
On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs
´
egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un
rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent
et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
A chaque nombre appartenant ` ` a un groupe d’ex æquo on attribue le rang moyen du groupe auquel il appartient puis on d´ etermine la somme T =
h
X
l=1
(t
3l− t
l) o` u t
ld´ esigne le nombre d’´ el´ ements du l−` eme groupe d’ex æquo. Il est d’usage de substituer ` a KW
Nla variable KW
N?d´ efinie par :
KW
N?= KW
N1 − T
N
3− N .
Comparaisons multiples
Si l’on rejette l’hypoth` ese nulle H
0: « α
1= . . . = α
k= 0 » d’absence de diff´ erence entre les distributions F
ides k ´ echantillons, on peut ˆ etre amen´ e ` a se demander quelles sont les distributions qui sont diff´ erentes.
On d´ ecide que deux distributions F
iet F
i0sont significativement diff´ erentes au seuil α si :
R
i,•− R
i0,•> p
χ
2(k − 1, 1 − α)
r N (N + 1) 12
s 1 n
i+ 1
n
i0,
o` u χ
2(k − 1, 1 − α) est le 100(1 − α) quantile de la loi du χ
2` a k − 1 degr´ es de libert´ e.
On d´ ecide qu’au seuil global α deux distributions F
iet F
i0, parmi les k(k − 1) com- paraisons que l’on va faire, sont significativement diff´ erentes si :
R
i,•− R
i0,•> u
1 − α
k(k − 1)
r N(N + 1) 12
s 1 n
i+ 1
n
i0,
o` u u
1 − α
k(k − 1)
est le 100
1 − α
k(k − 1)
quantile de la loi normale centr´ ee r´ eduite.
Il s’agit d’une application des in´ egalit´ es de Bonferroni
2. Cette proc´ edure est plus puissante que la pr´ ec´ edente.
On d´ ecide qu’au seuil global α deux distributions F
iet F
i0, parmi les k(k − 1) com- paraisons que l’on va faire, sont significativement diff´ erentes si :
2
On pourra consulter le cours sur les mod` eles d’analyse de la variance pour plus de d´ etails sur les
proc´ edures de comparaisons multiples.
R
i,•− R
i0,•> q(k, +∞, 1 − α)
r N (N + 1) 12
s 1 2
1 n
i+ 1
n
i0,
o` u q(k, +∞, 1 − α) est le 100(1 − α) quantile de la loi de l’´ etendue studentis´ ee pour k moyennes et +∞ degr´ es de libert´ e. Il s’agit d’une proc´ edure analogue ` a celle de Tukey- Kramer
2dans le cas param´ etrique et valide asymptotiquement. Elle est g´ en´ eralement plus puissante que les deux approches pr´ ec´ edentes.
3.2. Les ´ echantillons sont ind´ ependants : Test de Jonckheere- Terpstra
La statistique J
Nde Jonckheere-Terpstra permet de raffiner l’approche de la statistique KW
Nde Kruskal-Wallis : supposons que les k modalit´ es du facteur pour lequel on a r´ ealis´ e les exp´ eriences soient naturellement ordonn´ ees. C’est par exemple le cas dans la situation suivante : vous souhaitez trouver la dose optimale d’engrais ` a utiliser pour am´ eliorer un rendement. Vous allez donc r´ ealiser des exp´ eriences avec des doses de plus en plus im- portantes d’engrais et les modalit´ es de votre facteur explicatif seront donc naturellement ordonn´ ees par la quantit´ e croissante d’engrais utilis´ e.
La statistique J
Nde Jonckheere-Terpstra permet de tester l’hypoth` ese : H
0: α
1= . . . = α
k= 0
contre
H
1: α
16 . . . 6 α
k= 0 et il existe au moins un i
0tel que α
i0< α
i0+1. 3.2.1. Cas o` u il n’y a pas d’ex æquo.
La statistique J
Nest construite ` a l’aide de toutes les variables de Mann-Whitney U
i,j, associ´ ees ` a l’´ echantillon i et l’´ echantillon j , lorsque 1 6 i < j 6 k :
J
N= X
16i<j6k
U
i,j. Sous l’hypoth` ese nulle H
0: « α
1= . . . = α
k= 0 » : – L’esp´ erance et la variance de la statistique J
Nsont :
E [J
N] =
N
2−
k
X
i=1
n
2i4 ,
Var[J
N] = 1
72 N
2(3 + 2N ) −
k
X
i=1
n
2i(3 + 2n
i)
!
.
– Les valeurs critiques de la statistique J
Nsont tabul´ ees pour de faibles valeurs de k et des n
i.
– Lorsque n
i> 5, pour tout 1 6 i 6 k, on a l’approximation normale avec correction de continuit´ e :
J
N− E [J
n]
p Var [J
N] ≈ N (0, 1) .
On cherche l’entier φ
αtel que P [J
N> φ
α] ≈ α puis on rejette l’hypoth` ese nulle H
0au seuil α si la valeur prise par la statistique J
Nest sup´ erieure ou ´ egale ` a φ
α.
3.2.2. Cas o` u il y a des ex æquo.
On peut utiliser une m´ ethode de d´ epartition des ex æquo ou des tests de Mann-Whitney bas´ es sur des rangs moyens, l’inconvient de la seconde m´ ethode ´ etant qu’on ne peut uti- liser les mˆ emes tables qu’en absence d’ex æquo.
3.3. Les ´ echantillons ne sont pas ind´ ependants : Test de Fried- man
On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur ne sont pas ind´ ependants.
Individu Facteur A 1 · · · n 1 x
1,1· · · x
n,1.. . .. . .. . .. . k x
1,k· · · x
n,kOn construit alors le tableau des rangs :
Individu Facteur A Total
1 · · · n
1 r
1,1· · · r
n,1n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r
1,k· · · r
n,kn(n + 1)/2 Total r
1,•· · · r
n,•kn(n + 1)/2
Si on est en pr´ esence de r´ ep´ etitions x
i,j,kon remplace x
i,jpar la moyenne x
i,jdes valeurs pour chaque cas o` u il y a des r´ ep´ etitions.
On cherche alors ` a tester l’hypoth` ese :
H
0: Les niveaux du facteur ont tous la mˆ eme influence contre
H
1: Les niveaux du facteur n’ont pas tous la mˆ eme influence.
3.3.1. Cas o` u il n’y a pas d’ex æquo.
La statistique de Friedman F
k,nest d´ efinie par : F
k,n= 12k
n(n + 1)
n
X
i=1
R
i,•k − n + 1 2
2= 12
kn(n + 1)
n
X
i=1
R
2i,•− 3k(n + 1).
On admet que sous l’hypoth` ese nulle H
0: « Les niveaux du facteur ont tous la mˆ eme influence » les distributions pour chaque individu ne diff` erent que par un param` etre de position, ce que l’on peut v´ erifier par un test non param´ etrique de Levene par exemple.
– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W
k,nde Kendall car la statistique de Friedman F
k,n= k(n − 1)W
k,n.
– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F
k,n≈ χ
2n−1.
On rejettera l’hypoth` ese nulle H
0si la valeur prise par F
k,nest trop grande.
3.3.2. Cas o` u il y a des ex æquo.
• M´ ethode de d´ epartition des ex æquo
On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs
´
egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.
Lorsque le classement num´ ero m a h
mgroupes d’ex æquo, on lui attribue la somme T
m=
hm
X
l=1
t
3l,m− t
l,mo` u t
l,md´ esigne le nombre d’´ el´ ements du l−` eme de ces h
mgroupes.
S’il n’y a pas d’ex æquo on a ´ evidemment T
m= 0 puisque la r´ epartition des n entiers du
classement en classes de nombres ´ egaux donne h
m= n et t
l,m= 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :
F
k,n?= 12k(n − 1) n
3− n
− 1 k
k
X
m=1
T
m nX
l=1
R
l,•k − n + 1 2
2= 1
1 − 1
(n
3− n) 1 k
k
X
m=1
T
m12k n(n + 1)
n
X
l=1
R
l,•k − n + 1 2
2.
On en d´ eduit que :
F
k,n?= F
k,n1 − 1
(n
3− n) 1 k
k
X
m=1
T
m.
4. Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs
4.1. Les ´ echantillons sont ind´ ependants : Test de Friedman
On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur sont ind´ ependants.
Facteur B Facteur A 1 · · · n 1 x
1,1· · · x
n,1.. . .. . .. . .. . k x
1,k· · · x
n,kOn construit alors le tableau des rangs :
Facteur B Facteur A Total
1 · · · n
1 r
1,1· · · r
n,1n(n + 1)/2
.. . .. . .. . .. . n(n + 1)/2
k r
1,k· · · r
n,kn(n + 1)/2
Total r
1,•· · · r
n,•kn(n + 1)/2
Si on est en pr´ esence de r´ ep´ etitions x
i,j,kon remplace x
i,jpar la moyenne x
i,jdes valeurs pour chaque cas o` u il y a des r´ ep´ etitions.
On admet a priori que l’influence des couples de niveaux (A
i, B
j) des facteurs A et B , pour 1 6 i 6 n, 1 6 j 6 k, se traduit par une d´ ecomposition de la forme :
X
i,j= µ + α
i+ β
j+
i,j, 1 6 i 6 n, 1 6 j 6 k avec
n
X
i=1
α
i= 0 et
k
X
j=1
β
j= 0. Les N =
n
X
i=1
k = n × k variables al´ eatoires
i,j´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.
4.1.1. Cas o` u il n’y a pas d’ex æquo.
La variable F
k,nde Friedman est utilis´ ee pour tester l’hypoth` ese H
0: α
1= . . . = α
n= 0
contre
H
1: Il existe au moins un i
0tel que α
i06= 0.
On commence par calculer le rang R
i,jde X
i,jparmi les n valeurs de la colonne i, puis la somme des rangs associ´ ee ` a chaque colonne : R
i,•=
k
X
j=1
R
i,jet enfin la moyenne des rangs de chaque colonne : R
i,•= R
i,•k .
La statistique de Friedman F
k,nest d´ efinie par : F
k,n= 12k
n(n + 1)
n
X
i=1
R
i,•k − n + 1 2
2= 12
kn(n + 1)
n
X
i=1
R
2i,•− 3k(n + 1).
– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W
k,nde Kendall car F
k,n= k(n − 1)W
k,n.
– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F
k,n≈ χ
2n−1.
On rejettera l’hypoth` ese nulle H
0si la valeur prise par la statistique de Friedman F
k,nest trop grande.
Si l’on voulait ´ egalement tester l’influence du facteur B on aurait analys´ e les tableaux
ci-dessous avec la mˆ eme m´ ethode.
Facteur A Facteur B 1 · · · n 1 x
1,1· · · x
n,1.. . .. . .. . .. . k x
1,k· · · x
n,kFacteur A Facteur B Total 1 · · · n
1 r
1,1· · · r
n,1n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r
1,k· · · r
n,kn(n + 1)/2 Total r
1,•· · · r
n,•kn(n + 1)/2
Comme on a ´ echang´ e le rˆ ole du facteur A et du facteur B on teste maintenant : H
0: Les niveaux du facteur B ont tous la mˆ eme influence
contre
H
1: Les niveaux du facteur B n’ont pas tous la mˆ eme influence.
On ne peut pas tester l’existence d’une interaction par cette m´ ethode puisque le mod` ele utilis´ e ne comporte pas de terme d’interaction. Il existe d’autres tests pour ´ etudier l’exis- tence d’une interaction.
4.1.2. Cas o` u il y a des ex æquo.
• M´ ethode de d´ epartition des ex æquo
On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs
´
egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.
• M´ ethode des rangs moyens
Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.
Lorsque le classement num´ ero m a h
mgroupes d’ex æquo, on lui attribue la somme T
m=
hm
X
l=1
t
3l,m− t
l,mo` u t
l,md´ esigne le nombre d’´ el´ ements du l−` eme de ces h
mgroupes.
S’il n’y a pas d’ex æquo on a ´ evidemment T
m= 0 puisque la r´ epartition des n entiers du
classement en classes de nombres ´ egaux donne h
m= n et t
l,m= 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :
F
k,n?= 12k(n − 1) n
3− n
− 1 k
k
X
m=1
T
mn
X
l=1
R
l,•k − n + 1 2
2= 1
1 − 1
(n
3− n) 1 k
k
X
m=1
T
m12k n(n + 1)
n
X
l=1
R
l,•k − n + 1 2
2.
On en d´ eduit que :
F
k,n?= F
k,n1 − 1
(n
3− n) 1 k
k
X
m=1