Quelques tests non param´etriques

(1)

Quelques tests non param´etriques

¹

1. Les tests non param´ etriques sur un ´ echantillon

Dans cette section nous nous int´ eressons ` a deux tests non param´ etriques : – le test du signe et

– le test des rangs sign´ es.

Nous utiliserons de pr´ ef´ erence le test des rangs sign´ es d` es que les conditions de son utili- sation sont remplies, sa puissance ´ etant alors sup´ erieure ` a celle du test du signe.

1.1. Test du signe

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X

₁

, . . . , X

_n

d’une loi continue F dont la valeur m´ ediane est not´ ee m

_e

et la moyenne µ. Le test du signe permet de tester les hypoth` eses suivantes :

Hypoth` eses :

H

₀

: m

_e

= 0 ou de fa¸con ´ equivalente P [X

_i

> 0] = 1 2 contre

H

₁

: m

e

6= 0 ou de fa¸con ´ equivalente P [X

i

> 0] 6= 1 2 .

Remarque 1.1. La formulation de ce test est bien sˆ ur la formulation d’un test bilat´ eral.

Nous pouvons envisager les deux tests unilat´ eraux correspondants. ` A ce moment l` a, la formulation de l’hypoth` ese alternative H

₁

est diff´ erente et s’´ ecrit soit :

H

⁰₁

: P [X

_i

> 0] < 1 2 soit

1

Les r´ ef´ erences [2], [3] et [1] ayant servi ` a l’´ elaboration de ce document sont mentionn´ ees dans la

bibliographie.

(2)

H

⁰⁰₁

: P [X

_i

> 0] > 1 2 .

Remarque 1.2. Plus g´ en´ eralement ce test permet de tester l’hypoth` ese nulle H

₀

: m

_e

= m

₀

ou de fa¸con ´ equivalente P [X

_i

> 0] = p

contre

H

₁

: m

_e

6= m

₀

ou de fa¸con ´ equivalente P [X

_i

> 0] 6= p.

o` u m

₀

est un nombre r´ eel et p est une constante comprise entre 0 et 1, ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative

H

⁰₁

: m

_e

< m

₀

ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative H

⁰⁰₁

: m

_e

> m

₀

Pour cela il suffit de consid´ erer l’´ echantillon Z

1

, . . . , Z

n

avec Z

i

= X

i

− m

0

et de lui appliquer le test d´ ecrit ci-dessous.

Statistique : S

_n

d´ esigne le nombre de variables X

_i

, 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.1. Lorsque l’hypoth` ese nulle H

₀

est vraie, la variable al´ eatoire S

_n

suit exactement une loi binomiale B(n, p) de param` etres n et p.

Concr` etement cette hypoth` ese nulle H

₀

signifie que l’effectif de l’´ echantillon consid´ er´ e est faible devant celui de la population dont il est issu.

Remarque 1.3. Nous pourrons prendre comme taille limite des ´ echantillons dont les effectifs sont inf´ erieurs ` a une fraction de 1/10 de la population. Dans ce cas nous pouvons assimiler les tirages r´ ealis´ es ici ` a des tirages avec remise.

Cas le plus souvent utilis´ e : p =1/2. Nous nous proposons de tester : Hypoth` eses :

H

₀

: P [X

_i

> 0] = 1 2 contre H

₁

: P [X

_i

> 0] 6= 1

2 .

(3)

Statistique : S

_n

d´ esigne le nombre de variables X

_i

, 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.2. Lorsque l’hypoth` ese nulle H

0

est vraie, la variable al´ eatoire S

n

a les trois propri´ et´ es suivantes :

1. La variable al´ eatoire S

_n

suit une loi binomiale B(n, 1/2) de param` etres n et 1/2. De ce fait, d´ ecoule les deux propri´ et´ es suivantes :

2. E [S

_n

] = n/2.

3. Var [S

n

] = n/4.

Cette distribution binomiale est sym´ etrique. Pour n grand (n > 40), nous pouvons utiliser l’approximation normale avec correction de continuit´ e :

P

^H0

[S

_n

6 h] = P

^H0

[S

_n

> n − h] = Φ(2h + 1 − n)

√ n o` u Φ est la fonction de r´ epartition d’une loi normale centr´ ee r´ eduite.

D´ ecision 1.1. Pour un seuil α donn´ e (= α = 5% = 0, 05 en g´ en´ eral), nous cherchons le plus grand entier s

^?_α

tel que P [Y 6 s

^?_α

] 6 α/2 o` u Y suit une loi binomiale B(n, 1/2) de param` etres n et 1/2. Alors nous d´ ecidons :

H

₁

est vraie si S

_n,obs

∈]s /

^?_α

, n − s

^?_α

[ H

0

est vraie si S

n,obs

∈]s

^?_α

, n − s

^?_α

[.

Remarque 1.4. Le niveau de signification r´ eel du test est alors ´ egal ` a 2 P [Y 6 s

^?_α

] qui est g´ en´ eralement diff´ erent de α.

Remarque 1.5. Pour voir un exemple, nous renvoyons ` a la feuille de travaux dirig´ es qui sera trait´ ee lors de la premi` ere s´ eance de travaux dirig´ es.

1.2. Test des rangs sign´ es de Wilcoxon

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X

₁

, . . . , X

_n

d’une loi continue F dont la valeur m´ ediane est not´ ee m

_e

et la moyenne µ.

Hypoth` eses : Le test des rangs sign´ es permet de tester l’hypoth` ese nulle H

₀

: La loi continue F est sym´ etrique en 0

contre

H

₁

: La loi continue F n’est pas sym´ etrique en 0.

De plus, si nous savons que la loi continue F est sym´ etrique, alors le test des rangs sign´ es de Wilcoxon devient

H

₀

: µ = µ

₀

contre H

1

: µ 6= µ

0

.

Ici µ

₀

est un nombre r´ eel et ce jeu d’hypoth` eses permet alors de s’int´ eresser ` a la moyenne

de la loi continue F .

(4)

1.2.1. Cas o` u il n’y a pas d’ex æquo.

Soit x

₁

, . . . , x

_n

n r´ ealisations de l’´ echantillon pr´ ec´ edent. ` A chaque x

_i

nous attribuons le rang r

_i^a

qui correspond au rang de |x

_i

| lorsque que les n r´ ealisations sont class´ ees par ordre croissant de leurs valeurs absolues.

Statistique : Nous d´ eterminons alors la somme w des rangs r

^a_i

des seules observations positives. La statistique W

_n⁺

des rangs sign´ es de Wilcoxon est la variable al´ eatoire qui prend pour valeur la somme w. Par cons´ equent, la statistique W

_n⁺

des rangs sign´ es de Wilcoxon s’´ ecrit

W

_n⁺

= X 1 6 i 6 n

X

_i

> 0 R

^a_i

.

Propri´ et´ es 1.3. Lorsque l’hypoth` ese nulle H

₀

est vraie, la variable al´ eatoire W

_n⁺

a les trois propri´ et´ es suivantes :

1. W

_n⁺

est sym´ etrique autour de sa valeur moyenne E [W

_n⁺

] = n(n + 1)/4.

2. Var [W

_n⁺

] = n(n + 1)(2n + 1)/24.

3. Elle est tabul´ ee pour de faibles valeurs de n. Pour n > 15, nous avons l’approximation normale avec correction de continuit´ e :

P

W

_n⁺

6 w

= Φ w + 0, 5 − n(n + 1)/4 p n(n + 1)(2n + 1)/24

!

o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.

D´ ecision 1.2.

– Premier cas : Pour tester l’hypoth` ese nulle « H

₀

: La loi continue F est sym´ etrique en 0 » contre l’hypoth` ese alternative « H

₁

: La loi continue F n’est pas sym´ etrique en 0 » pour un seuil donn´ e α, nous cherchons l’entier w

_α

tel que P [W

_n⁺

6 w

_α

] ≈ α/2.

Alors nous d´ ecidons :

H

₁

est vraie si W

_n,obs⁺

∈]w /

_α

+ 1, n(n + 1)/2 − w

_α

− 1[, H

0

est vraie si W

_n,obs⁺

∈]w

α

+ 1, n(n + 1)/2 − w

α

− 1[.

– Second cas : Pour tester l’hypoth` ese nulle « H

₀

: µ = µ

₀

», nous introduisons l’´ echantillon Z

₁

, . . . , Z

_n

avec Z

_i

= X

_i

− µ, 1 6 i 6 n.

1.2.2. Cas o` u il y a des ex æquo.

Les observations x

₁

, . . . , x

_n

peuvent pr´ esenter des ex æquo et a fortiori leurs valeurs

absolues. Il s’agit en particulier du cas o` u la loi F est discr` ete. Deux proc´ edures sont alors

employ´ ees.

(5)

• M´ ethode de d´ epartition des ex æquo

Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

En associant ` a l’observation X

_i

son rang moyen R

^a_i^?

dans le classement des valeurs absolues et en sommant tous les rangs pour lesquels X

_i

> 0 nous obtenons la statistique :

W

_n^+?

= X 1 6 i 6 n

X

_i

> 0

R

^a_i^?

.

Les valeurs absolues observ´ ees |x

1

|, . . . , |x

n

| ´ etant ordonn´ ees puis regroup´ ees en classes d’ex æquo, C

₀

pour la premi` ere classe qui est constitu´ ee des nombres |x

_i

| nuls, s’il en existe, et C

_j

, 1 6 j 6 h pour les autres nombres, certaines classes C

_j

pouvant comporter un seul ´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d

j

le nombre d’ex æquo de la classe C

_j

. Nous avons

d

₀

+

h

X

j=1

d

_j

= n.

Sous l’hypoth` ese nulle H

₀

et si n > 15, il est d’usage d’utiliser l’approximation normale

W

_n^+?

− m

^?

σ

^?

≈ N (0, 1) o` u

m

^?

= 1

4 (n(n + 1) − d

₀

(d

₀

+ 1)) et

(σ

^?

)

²

= 1

24 (n(n + 1)(2n + 1) − d

₀

(d

₀

+ 1)(2d

₀

+ 1)) − 1 48

h

X

j=1

d

³_j

− d

_j

.

Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens, nous ne pouvons pas

utiliser les tables statistiques usuelles qui concernent la distribution de la variable

al´ eatoire W

_n⁺

.

(6)

2. Les tests non param´ etriques sur deux ´ echantillons

2.1. Les ´ echantillons sont ind´ ependants : Test de Mann-Whi- tney

Nous observons, de mani` ere ind´ ependante, une variable Y , continue, sur deux populations, ou sur une population divis´ ee en deux sous-populations. Nous notons L

_i

la loi de Y sur la (sous-)population d’ordre i. Nous allons pr´ esenter le test :

Hypoth` eses :

H

0

: Les deux lois L

i

sont ´ egales ou encore de fa¸con ´ equivalente : L

1

= L

2

contre

H

₁

: Les deux lois L

_i

ne sont pas ´ egales ou encore de fa¸con ´ equivalente : L

₁

6= L

₂

.

2.1.1. Cas o` u il n’y a pas d’ex aequo.

Statistique : Pour obtenir la statistique du test not´ ee U en g´ en´ eral, nous devons proc´ eder

`

a des ´ etapes successives :

1. En se pla¸cant sous l’hypoth` ese nulle H

₀

, nous classons par ordre croissant l’en- semble des observations des deux ´ echantillons (x

₁

, . . . , x

_n₁

) et (y

₁

, . . . , y

_n₂

) de taille respective n

₁

et n

₂

.

2. Nous affectons le rang correspondant.

3. Nous effectuons la somme des rangs pour chacun des deux ´ echantillons, not´ es R

₁

et R

₂

.

4. Nous en d´ eduisons les quantit´ es U

₁

et U

₂

qui se calculent ainsi : U

_n₁

= n

₁

× n

₂

+ n

₁

(n

₁

+ 1)

2 − R

₁

(2.1)

et

U

_n₂

= n

₁

× n

₂

+ n

₂

(n

₂

+ 1)

2 − R

₂

= n

₁

× n

₂

− U

₁

. (2.2) La plus petite des deux valeurs U

_n₁

et U

_n₂

, not´ ee U

_n₁_,n₂

, est utilis´ ee pour tester l’hypoth` ese nulle H

₀

.

Propri´ et´ es 2.1. Lorsque l’hypoth` ese nulle H

₀

est vraie, la variable al´ eatoire U

_n₁_,n₂

a les trois propri´ et´ es suivantes :

1. E [U

_n₁_,n₂

] = (n

₁

× n

₂

)/2.

2. Var [U

_n₁_,n₂

] = (n

₁

× n

₂

)(n

₁

+ n

₂

+ 1)/12.

(7)

3. La variable al´ eatoire U

_n₁_,n₂

est tabul´ ee pour de faibles valeurs de n. Pour n > 20, nous avons l’approximation normale :

P [U

_n₁_,n₂

6 u] = Φ u − (n

₁

× n

₂

)/2 p (n

₁

× n

₂

)(n

₁

+ n

₂

+ 1)/12

!

o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.

D´ ecision 2.1.

– Premier cas : Si les tailles n

₁

ou n

₂

sont inf´ erieures ` a 20. Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de Mann-Whitney nous fournit une valeur critique c. Alors nous d´ ecidons :

H

₁

est vraie si U

_n₁_,n₂_,obs

6 c, H

₀

est vraie si U

_n₁_,n₂_,obs

> c.

– Second cas : Si les tailles n

₁

et n

₂

sont sup´ erieures ` a 20, alors la quantit´ e est d´ ecrite approximativement par une loi normale et nous utilisons alors le test de l’´ ecart r´ eduit :

Z

_n₁_,n₂

= U

n1,n2

− (n

1

× n

2

)/2 p (n

1

× n

2

)(n

1

+ n

2

+ 1)/12 .

Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de la loi normale centr´ ee r´ eduite nous fournit une valeur critique c. Alors nous d´ ecidons :

H

₁

est vraie si Z

_n₁_,n₂_,obs

> c, H

0

est vraie si Z

n1,n2,obs

< c.

2.1.2. Cas o` u il y a des ex æquo.

Les observations x

₁

, . . . , x

_n₁

, y

₁

, . . . , y

_n₂

peuvent pr´ esenter des ex æquo. Il s’agit en particulier du cas o` u les lois F et G dont sont issus les deux ´ echantillons sont discr` etes. Deux proc´ edures sont alors employ´ ees.

• M´ ethode de d´ epartition des ex æquo

Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Les valeurs absolues observ´ ees x

₁

, . . . , x

_n₁

, y

₁

, . . . , y

_n₂

´ etant ordonn´ ees puis regroup´ ees en h classes d’ex æquo C

_j

, 1 6 j 6 h, certaines classes C

_j

pouvant comporter un seul

´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d

_j

le nombre d’ex æquo de la classe

(8)

C

_j

. Nous avons

h

X

j=1

d

_j

= n

₁

+ n

₂

.

En associant ` a l’observation X

_i

son rang moyen R

^?_i

dans ce classement et en sommant tous les rangs de tous les X

_i

, on obtient la statistique :

U

_n^?₁_,n₂

=

n2

X

i=1

R

^?_i

.

Sous l’hypoth` ese nulle H

0

: « X et Y ont la mˆ eme distribution » et pour n

1

> 15 et n

₂

> 15, il est d’usage d’utiliser l’approximation normale

U

_n^?₁_,n₂

− m

^?

σ

^?

≈ N (0, 1) o` u

m

^?

= 1

2 (n

1

(n

1

+ n

2

+ 1)) et

(σ

^?

)

²

= 1

12 (n

₁

n

₂

(n

₁

+ n

₂

+ 1)) − 1 12

n

₁

n

₂

(n

1

+ n

2

)(n

1

+ n

2

− 1)

h

X

j=1

d

³_j

− d

_j

.

Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens nous ne pouvons pas utiliser les tables statistiques usuelles qui concernent la distribution de la variable al´ eatoire U

_n₁_,n₂

.

2.2. Les ´ echantillons sont ind´ ependants : Test de la m´ ediane de Mood

On consid` ere deux ´ echantillons ind´ ependants (X

₁

, . . . , X

_n₁

) et (Y

₁

, . . . , Y

_n₂

).

(X

1

, . . . , X

n1

) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi continue F et (Y

₁

, . . . , Y

_n₂

) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi continue G.

Apr` es regroupement des n

₁

+ n

₂

valeurs des deux ´ echantillons, n

₁

× M

_N

est le nombre d’observations X

_i

qui sont sup´ erieures ` a la m´ ediane des N = n

₁

+ n

₂

observations.

Sous l’hypoth` ese nulle H

₀

: « Les variables X et Y suivent la mˆ eme loi continue c’est-` a-dire G = F », la variable n

₁

× M

_N

peut prendre les valeurs 0, 1, . . . , n

₁

selon la distribution hyperg´ eom´ etrique suivante :

P [n

₁

× M

_N

= k] = C

_n^k

1

C

n^N/2−k2

C

_N^N/2

.

(9)

Ainsi on a :

E [n

₁

× M

_N

] = n

₁

(n

₁

+ n

₂

−

_N

) 2N

Var [n

₁

× M

_N

] = n

₁

n

₂

(n

₁

+ n

₂

+ 1)

4(n

1

+ n

2

− 1 +

N

)(n

1

+ n

2

+ 1 −

N

) , o` u

N

= 0 si N est pair et

N

= 1 si N est impair.

Lorsque n

₁

et n

₂

sont grands, c’est-` a-dire n

₁

> 25 et n

₂

> 25, on utilise l’approximation normale :

n

₁

× M

_N

− E [n

₁

× M

_N

]

p Var [n

₁

× M

_N

] ≈ N (0, 1) avec correction de continuit´ e.

La distribution est sym´ etrique lorsque N est pair.

Pour tester l’hypoth` ese nulle H

₀

: « G = F » contre H

₁

: « G 6= F » avec un niveau de signification ´ egal ` a α, on cherche les entiers k

_α

et k

⁰_α

tels que P [n

₁

× M

_N

6 k

_α

] ≈ α/2 et P

n

₁

× M

_N

> n

₁

− k

_α⁰

≈ α/2, puis on rejette l’hypoth` ese nulle H

₀

si la r´ ealisation de la statistique du test calcul´ ee ` a l’aide de l’´ echantillon n’est pas dans l’intervalle [k

_α

, k

_α⁰

].

Cette statistique permet ´ egalement de r´ ealiser des tests unilat´ eraux.

2.3. Les ´ echantillons sont d´ ependants : Test de Wilcoxon

Nous consid´ erons deux variables al´ eatoires X et Y , de mˆ eme nature, observ´ ees toutes les deux sur les mˆ emes unit´ es d’un n-´ echantillon. Les observations se pr´ esentent alors sous la forme d’une suite de couples (x

₁

, y

₁

), . . . , (x

_n

, y

_n

). Ce test concerne les lois des deux variables. Pour ce faire nous testons :

Hypoth` eses :

H

₀

: Les deux lois sont ´ egales ou encore de fa¸con ´ equivalente L(X) = L(Y ) contre

H

₁

: Les deux lois ne sont pas ´ egales ou encore de fa¸con ´ equivalente L(X) 6= L(Y ).

2.3.1. Cas o` u il n’y a pas d’ex aequo.

Statistique : Pour obtenir la statistique du test not´ ee S

⁺

en g´ en´ eral, nous devons proc´ eder ` a des ´ etapes successives :

1. Ce test suppose que la loi de la diff´ erence entre les deux variables ´ etudi´ ees est

sym´ etrique par rapport ` a 0.

(10)

2. Apr` es avoir calcul´ e les diff´ erences d

_i

, nous classons par ordre croissant les |d

_i

| non nulles, c’est-` a-dire les d

i

sans tenir compte des signes.

3. Nous attribuons ` a chaque |d

i

| le rang correspondant.

4. Nous restituons ensuite ` a chaque rang le signe de la diff´ erence correspondante.

5. Enfin, nous calculons la somme S

⁺

des rangs positifs (P ) et la somme S

⁻

des rangs n´ egatifs (M ).

La somme S

⁺

des rangs positifs (P ) permet de tester l’hypoth` ese nulle H

₀

. D´ ecision 2.2.

– Premier cas : Si n < 15, nous utilisons une table et nous comparons la valeur de (S

⁺

)

`

a la valeur critique c associ´ ee au seuil α du test.

– Second cas : Si n > 15, nous utilisons l’approximation normale avec correction de continuit´ e :

P

^H0

S

⁺

6 h

≈ Φ h + 0, 5 − n(n + 1)/4 p (n(n + 1)(2n + 1))/24

!

o` u Φ est la fonction de r´ epartition d’un loi normale centr´ ee r´ eduite.

2.3.2. Cas o` u il y a des ex æquo.

Il se traite de la mˆ eme mani` ere que pour la statistique de Wilcoxon pour un ´ echantillon, voir le paragraphe 1.2.

3. Les tests non param´ etriques sur k ´ echantillons : 1 facteur

3.1. Les ´ echantillons sont ind´ ependants : Test de Kruskal-Wallis

On suppose que l’on dispose de k ´ echantillons ind´ ependants et identiquement distribu´ es (X

_1,1

, . . . , X

_1,n₁

), . . . , (X

_k,1

, . . . , X

_k,n_k

). La distribution du i−` eme ´ echantillon est not´ ee F

_i

. On admet a priori que F

_i

(x) = G(x − α

_i

) o` u G est une fonction de r´ epartition inconnue mais continue de moyenne µ et les α

_i

sont des nombres r´ eels. Ainsi on suppose que le seul param` etre qui diff` ere d’une distribution F

_i

` a l’autre est un param` etre de position α

_i

. C’est pourquoi mˆ eme lorsque vous effectuez un test de Kruskal-Wallis vous devez vous assurer que vous pouvez au moins supposer que les variances des variables sont ´ egales d’un

´

echantillon ` a l’autre ` a l’aide d’un test non param´ etrique de Levene d’´ egalit´ e des variances.

Les hypoth` eses ci-dessus impliquent que l’on peut ´ ecrire, pour tout 1 6 i 6 k la d´ ecomposition suivante :

X

_i,j

= µ + α

_i

+

_i,j

, 1 6 j 6 n

_i

,

(11)

les N =

k

X

i=1

n

_i

variables al´ eatoires

_i,j

´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.

3.1.1. Cas o` u il n’y a pas d’ex æquo.

La variable KW

_N

de Kruskal-Wallis est utilis´ ee pour tester l’hypoth` ese H

₀

: α

₁

= . . . = α

_k

= 0

contre

H

₁

: Il existe au moins un i

₀

tel que α

_i₀

6= 0.

On commence par calculer le rang R

_i,j

de X

_i,j

parmi les N valeurs, puis la somme des rangs associ´ ee ` a chaque ´ echantillon : R

_i,•

=

ni

X

j=1

R

_i,j

et enfin la moyenne des rangs de chaque ´ echantillon : R

i,•

= R

i,•

n

_i

.

La statistique de Krukal-Wallis KW

_N

prend en compte l’´ ecart entre la moyenne des rangs de chaque ´ echantillon et la moyenne de tous les rangs, qui vaut (N + 1)/2 :

KW

N

= 12 N (N + 1)

k

X

i=1

n

i

R

i,•

− N + 1 2

.

Sous l’hypoth` ese nulle H

₀

: « X

₁

, . . . , X

_k

ont la mˆ eme distribution continue », qui dans notre cas est ´ equivalente ` a H

₀

: « α

₁

= . . . = α

_k

= 0 », il est possible de d´ eterminer la distribution de KW

_N

bien que le calcul soit complexe.

– Si l’un des effectifs n

_i

, 1 6 i 6 k, est inf´ erieur ou ´ egal ` a 4, on utilise une table sp´ ecifique.

– Si n

i

> 5, pout tout 1 6 i 6 k on utilise l’approximation KW

N

≈ χ

²_k−1

.

Pour un seuil de signification de α, on d´ etermine c

_α

tel que P [KW

_N

> c

_α

] ∼ = α et l’on rejette l’hypoth` ese nulle H

₀

lorsque la valeur prise par KW

_N

est sup´ erieure ` a c

_α

.

3.1.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un

rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent

et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

(12)

• M´ ethode des rangs moyens

A chaque nombre appartenant ` ` a un groupe d’ex æquo on attribue le rang moyen du groupe auquel il appartient puis on d´ etermine la somme T =

h

X

l=1

(t

³_l

− t

_l

) o` u t

_l

d´ esigne le nombre d’´ el´ ements du l−` eme groupe d’ex æquo. Il est d’usage de substituer ` a KW

_N

la variable KW

_N^?

d´ efinie par :

KW

_N^?

= KW

_N

1 − T

N

³

− N .

Comparaisons multiples

Si l’on rejette l’hypoth` ese nulle H

₀

: « α

₁

= . . . = α

_k

= 0 » d’absence de diff´ erence entre les distributions F

_i

des k ´ echantillons, on peut ˆ etre amen´ e ` a se demander quelles sont les distributions qui sont diff´ erentes.

On d´ ecide que deux distributions F

i

et F

_i⁰

sont significativement diff´ erentes au seuil α si :

R

_i,•

− R

_i⁰_,•

> p

χ

²

(k − 1, 1 − α)

r N (N + 1) 12

s 1 n

_i

+ 1

n

_i⁰

,

o` u χ

²

(k − 1, 1 − α) est le 100(1 − α) quantile de la loi du χ

²

` a k − 1 degr´ es de libert´ e.

On d´ ecide qu’au seuil global α deux distributions F

_i

et F

_i⁰

, parmi les k(k − 1) comparaisons que l’on va faire, sont significativement diff´ erentes si :

R

i,•

− R

_i⁰_,•

> u

1 − α

k(k − 1)

r N(N + 1) 12

s 1 n

_i

+ 1

n

_i⁰

,

o` u u

1 − α

k(k − 1)

est le 100

1 − α

k(k − 1)

quantile de la loi normale centr´ ee r´ eduite.

Il s’agit d’une application des in´ egalit´ es de Bonferroni

²

. Cette proc´ edure est plus puissante que la pr´ ec´ edente.

On d´ ecide qu’au seuil global α deux distributions F

_i

et F

_i⁰

, parmi les k(k − 1) comparaisons que l’on va faire, sont significativement diff´ erentes si :

2

On pourra consulter le cours sur les mod` eles d’analyse de la variance pour plus de d´ etails sur les

proc´ edures de comparaisons multiples.

(13)

R

_i,•

− R

_i⁰_,•

> q(k, +∞, 1 − α)

r N (N + 1) 12

s 1 2

1 n

_i

+ 1

n

_i⁰

,

o` u q(k, +∞, 1 − α) est le 100(1 − α) quantile de la loi de l’´ etendue studentis´ ee pour k moyennes et +∞ degr´ es de libert´ e. Il s’agit d’une proc´ edure analogue ` a celle de Tukey- Kramer

²

dans le cas param´ etrique et valide asymptotiquement. Elle est g´ en´ eralement plus puissante que les deux approches pr´ ec´ edentes.

3.2. Les ´ echantillons sont ind´ ependants : Test de Jonckheere- Terpstra

La statistique J

_N

de Jonckheere-Terpstra permet de raffiner l’approche de la statistique KW

_N

de Kruskal-Wallis : supposons que les k modalit´ es du facteur pour lequel on a r´ ealis´ e les exp´ eriences soient naturellement ordonn´ ees. C’est par exemple le cas dans la situation suivante : vous souhaitez trouver la dose optimale d’engrais ` a utiliser pour am´ eliorer un rendement. Vous allez donc r´ ealiser des exp´ eriences avec des doses de plus en plus im- portantes d’engrais et les modalit´ es de votre facteur explicatif seront donc naturellement ordonn´ ees par la quantit´ e croissante d’engrais utilis´ e.

La statistique J

_N

de Jonckheere-Terpstra permet de tester l’hypoth` ese : H

0

: α

1

= . . . = α

k

= 0

contre

H

₁

: α

₁

6 . . . 6 α

_k

= 0 et il existe au moins un i

₀

tel que α

_i₀

< α

_i₀₊₁

. 3.2.1. Cas o` u il n’y a pas d’ex æquo.

La statistique J

N

est construite ` a l’aide de toutes les variables de Mann-Whitney U

i,j

, associ´ ees ` a l’´ echantillon i et l’´ echantillon j , lorsque 1 6 i < j 6 k :

J

_N

= X

16i<j6k

U

_i,j

. Sous l’hypoth` ese nulle H

₀

: « α

₁

= . . . = α

_k

= 0 » : – L’esp´ erance et la variance de la statistique J

_N

sont :

E [J

_N

] =

N

²

−

k

X

i=1

n

²_i

4 ,

Var[J

_N

] = 1

72 N

²

(3 + 2N ) −

k

X

i=1

n

²_i

(3 + 2n

_i

)

!

.

(14)

– Les valeurs critiques de la statistique J

_N

sont tabul´ ees pour de faibles valeurs de k et des n

i

.

– Lorsque n

_i

> 5, pour tout 1 6 i 6 k, on a l’approximation normale avec correction de continuit´ e :

J

_N

− E [J

_n

]

p Var [J

_N

] ≈ N (0, 1) .

On cherche l’entier φ

_α

tel que P [J

_N

> φ

_α

] ≈ α puis on rejette l’hypoth` ese nulle H

₀

au seuil α si la valeur prise par la statistique J

_N

est sup´ erieure ou ´ egale ` a φ

_α

.

3.2.2. Cas o` u il y a des ex æquo.

On peut utiliser une m´ ethode de d´ epartition des ex æquo ou des tests de Mann-Whitney bas´ es sur des rangs moyens, l’inconvient de la seconde m´ ethode ´ etant qu’on ne peut utiliser les mˆ emes tables qu’en absence d’ex æquo.

3.3. Les ´ echantillons ne sont pas ind´ ependants : Test de Fried- man

On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur ne sont pas ind´ ependants.

Individu Facteur A 1 · · · n 1 x

_1,1

· · · x

_n,1

.. . .. . .. . .. . k x

_1,k

· · · x

_n,k

On construit alors le tableau des rangs :

Individu Facteur A Total

1 · · · n

1 r

_1,1

· · · r

_n,1

n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r

_1,k

· · · r

_n,k

n(n + 1)/2 Total r

1,•

· · · r

n,•

kn(n + 1)/2

Si on est en pr´ esence de r´ ep´ etitions x

_i,j,k

on remplace x

_i,j

par la moyenne x

_i,j

des valeurs pour chaque cas o` u il y a des r´ ep´ etitions.

On cherche alors ` a tester l’hypoth` ese :

(15)

H

₀

: Les niveaux du facteur ont tous la mˆ eme influence contre

H

1

: Les niveaux du facteur n’ont pas tous la mˆ eme influence.

3.3.1. Cas o` u il n’y a pas d’ex æquo.

La statistique de Friedman F

_k,n

est d´ efinie par : F

_k,n

= 12k

n(n + 1)

n

X

i=1

R

i,•

k − n + 1 2

2

= 12

kn(n + 1)

n

X

i=1

R

²_i,•

− 3k(n + 1).

On admet que sous l’hypoth` ese nulle H

₀

: « Les niveaux du facteur ont tous la mˆ eme influence » les distributions pour chaque individu ne diff` erent que par un param` etre de position, ce que l’on peut v´ erifier par un test non param´ etrique de Levene par exemple.

– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W

_k,n

de Kendall car la statistique de Friedman F

_k,n

= k(n − 1)W

_k,n

.

– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F

_k,n

≈ χ

²_n−1

.

On rejettera l’hypoth` ese nulle H

₀

si la valeur prise par F

_k,n

est trop grande.

3.3.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.

Lorsque le classement num´ ero m a h

_m

groupes d’ex æquo, on lui attribue la somme T

_m

=

hm

X

l=1

t

³_l,m

− t

_l,m

o` u t

_l,m

d´ esigne le nombre d’´ el´ ements du l−` eme de ces h

_m

groupes.

S’il n’y a pas d’ex æquo on a ´ evidemment T

_m

= 0 puisque la r´ epartition des n entiers du

(16)

classement en classes de nombres ´ egaux donne h

_m

= n et t

_l,m

= 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :

F

_k,n^?

= 12k(n − 1) n

³

− n

− 1 k

k

X

m=1

T

m n

X

l=1

R

l,•

k − n + 1 2

2

= 1

1 − 1

(n

³

− n) 1 k

k

X

m=1

T

_m

12k n(n + 1)

n

X

l=1

R

l,•

k − n + 1 2

2

.

On en d´ eduit que :

F

_k,n^?

= F

_k,n

1 − 1

(n

³

− n) 1 k

k

X

m=1

T

_m

.

4. Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs

4.1. Les ´ echantillons sont ind´ ependants : Test de Friedman

On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur sont ind´ ependants.

Facteur B Facteur A 1 · · · n 1 x

_1,1

· · · x

_n,1

.. . .. . .. . .. . k x

_1,k

· · · x

_n,k

On construit alors le tableau des rangs :

Facteur B Facteur A Total

1 · · · n

1 r

_1,1

· · · r

_n,1

n(n + 1)/2

.. . .. . .. . .. . n(n + 1)/2

k r

_1,k

· · · r

_n,k

n(n + 1)/2

Total r

1,•

· · · r

n,•

kn(n + 1)/2

(17)

Si on est en pr´ esence de r´ ep´ etitions x

_i,j,k

on remplace x

_i,j

par la moyenne x

_i,j

des valeurs pour chaque cas o` u il y a des r´ ep´ etitions.

On admet a priori que l’influence des couples de niveaux (A

_i

, B

_j

) des facteurs A et B , pour 1 6 i 6 n, 1 6 j 6 k, se traduit par une d´ ecomposition de la forme :

X

_i,j

= µ + α

_i

+ β

_j

+

_i,j

, 1 6 i 6 n, 1 6 j 6 k avec

n

X

i=1

α

_i

= 0 et

k

X

j=1

β

_j

= 0. Les N =

n

X

i=1

k = n × k variables al´ eatoires

_i,j

´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.

4.1.1. Cas o` u il n’y a pas d’ex æquo.

La variable F

_k,n

de Friedman est utilis´ ee pour tester l’hypoth` ese H

₀

: α

₁

= . . . = α

_n

= 0

contre

H

₁

: Il existe au moins un i

₀

tel que α

_i₀

6= 0.

On commence par calculer le rang R

_i,j

de X

_i,j

parmi les n valeurs de la colonne i, puis la somme des rangs associ´ ee ` a chaque colonne : R

i,•

=

k

X

j=1

R

_i,j

et enfin la moyenne des rangs de chaque colonne : R

i,•

= R

_i,•

k .

La statistique de Friedman F

_k,n

est d´ efinie par : F

_k,n

= 12k

n(n + 1)

n

X

i=1

R

i,•

k − n + 1 2

2

= 12

kn(n + 1)

n

X

i=1

R

²_i,•

− 3k(n + 1).

– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W

_k,n

de Kendall car F

_k,n

= k(n − 1)W

_k,n

.

– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F

_k,n

≈ χ

²_n−1

.

On rejettera l’hypoth` ese nulle H

₀

si la valeur prise par la statistique de Friedman F

_k,n

est trop grande.

Si l’on voulait ´ egalement tester l’influence du facteur B on aurait analys´ e les tableaux

ci-dessous avec la mˆ eme m´ ethode.

(18)

Facteur A Facteur B 1 · · · n 1 x

_1,1

· · · x

_n,1

.. . .. . .. . .. . k x

_1,k

· · · x

_n,k

Facteur A Facteur B Total 1 · · · n

1 r

_1,1

· · · r

_n,1

n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r

_1,k

· · · r

_n,k

n(n + 1)/2 Total r

1,•

· · · r

n,•

kn(n + 1)/2

Comme on a ´ echang´ e le rˆ ole du facteur A et du facteur B on teste maintenant : H

₀

: Les niveaux du facteur B ont tous la mˆ eme influence

contre

H

1

: Les niveaux du facteur B n’ont pas tous la mˆ eme influence.

On ne peut pas tester l’existence d’une interaction par cette m´ ethode puisque le mod` ele utilis´ e ne comporte pas de terme d’interaction. Il existe d’autres tests pour ´ etudier l’existence d’une interaction.

4.1.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.

Lorsque le classement num´ ero m a h

_m

groupes d’ex æquo, on lui attribue la somme T

_m

=

hm

X

l=1

t

³_l,m

− t

_l,m

o` u t

_l,m

d´ esigne le nombre d’´ el´ ements du l−` eme de ces h

_m

groupes.

S’il n’y a pas d’ex æquo on a ´ evidemment T

_m

= 0 puisque la r´ epartition des n entiers du

(19)

classement en classes de nombres ´ egaux donne h

_m

= n et t

_l,m

= 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :

F

_k,n^?

= 12k(n − 1) n

³

− n

− 1 k

k

X

m=1

T

_m

n

X

l=1

R

_l,•

k − n + 1 2

2

= 1

1 − 1

(n

³

− n) 1 k

k

X

m=1

T

_m

12k n(n + 1)

n

X

l=1

R

l,•

k − n + 1 2

2

.

On en d´ eduit que :

F

_k,n^?

= F

_k,n

1 − 1

(n

³

− n) 1 k

k

X

m=1

T

m

.

Table des mati` eres

1 Les tests non param´ etriques sur un ´ echantillon 1

1.1 Test du signe . . . . 1

1.2 Test des rangs sign´ es de Wilcoxon . . . . 3

1.2.1 Cas o` u il n’y a pas d’ex æquo. . . . 4

1.2.2 Cas o` u il y a des ex æquo. . . . 4

2 Les tests non param´ etriques sur deux ´ echantillons 6 2.1 Les ´ echantillons sont ind´ ependants : Test de Mann-Whitney . . . . 6

2.1.1 Cas o` u il n’y a pas d’ex aequo. . . . 6

2.1.2 Cas o` u il y a des ex æquo. . . . 7

2.2 Les ´ echantillons sont ind´ ependants : Test de la m´ ediane de Mood . . . . . 8

2.3 Les ´ echantillons sont d´ ependants : Test de Wilcoxon . . . . 9

2.3.1 Cas o` u il n’y a pas d’ex aequo. . . . 9

2.3.2 Cas o` u il y a des ex æquo. . . . 10

3 Les tests non param´ etriques sur k ´ echantillons : 1 facteur 10 3.1 Les ´ echantillons sont ind´ ependants : Test de Kruskal-Wallis . . . . 10

3.1.1 Cas o` u il n’y a pas d’ex æquo. . . . 11

3.1.2 Cas o` u il y a des ex æquo. . . . 11

3.2 Les ´ echantillons sont ind´ ependants : Test de Jonckheere-Terpstra . . . . 13

3.2.1 Cas o` u il n’y a pas d’ex æquo. . . . 13

3.2.2 Cas o` u il y a des ex æquo. . . . 14

(20)

3.3 Les ´ echantillons ne sont pas ind´ ependants : Test de Friedman . . . . 14 3.3.1 Cas o` u il n’y a pas d’ex æquo. . . . 15 3.3.2 Cas o` u il y a des ex æquo. . . . 15 4 Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs 16 4.1 Les ´ echantillons sont ind´ ependants : Test de Friedman . . . . 16 4.1.1 Cas o` u il n’y a pas d’ex æquo. . . . 17 4.1.2 Cas o` u il y a des ex æquo. . . . 18

R´ ef´ erences

[1] B. Falissard. Comprendre et utiliser les statistiques dans les sciences de la vie. Abr´ eg´ es.

Masson, Paris, 3 ^` ^eme edition, 2005.

[2] S. Kotz, C. B. Read, and N. Balakrishnan, editors. Encyclopædia Of Statistical Sciences. Wiley-Interscience, 1st edition, 1996.

[3] G. Pupion and P.-C. Pupion. Tests non param´ etriques. Statistique math´ ematique et

probabilit´ e. Economica, Paris, 1998.