• Aucun résultat trouvé

Quelques tests non param´etriques

N/A
N/A
Protected

Academic year: 2022

Partager "Quelques tests non param´etriques"

Copied!
20
0
0

Texte intégral

(1)

Quelques tests non param´etriques

1

1. Les tests non param´ etriques sur un ´ echantillon

Dans cette section nous nous int´ eressons ` a deux tests non param´ etriques : – le test du signe et

– le test des rangs sign´ es.

Nous utiliserons de pr´ ef´ erence le test des rangs sign´ es d` es que les conditions de son utili- sation sont remplies, sa puissance ´ etant alors sup´ erieure ` a celle du test du signe.

1.1. Test du signe

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X

1

, . . . , X

n

d’une loi continue F dont la valeur m´ ediane est not´ ee m

e

et la moyenne µ. Le test du signe permet de tester les hypoth` eses suivantes :

Hypoth` eses :

H

0

: m

e

= 0 ou de fa¸con ´ equivalente P [X

i

> 0] = 1 2 contre

H

1

: m

e

6= 0 ou de fa¸con ´ equivalente P [X

i

> 0] 6= 1 2 .

Remarque 1.1. La formulation de ce test est bien sˆ ur la formulation d’un test bilat´ eral.

Nous pouvons envisager les deux tests unilat´ eraux correspondants. ` A ce moment l` a, la formulation de l’hypoth` ese alternative H

1

est diff´ erente et s’´ ecrit soit :

H

01

: P [X

i

> 0] < 1 2 soit

1

Les r´ ef´ erences [2], [3] et [1] ayant servi ` a l’´ elaboration de ce document sont mentionn´ ees dans la

bibliographie.

(2)

H

001

: P [X

i

> 0] > 1 2 .

Remarque 1.2. Plus g´ en´ eralement ce test permet de tester l’hypoth` ese nulle H

0

: m

e

= m

0

ou de fa¸con ´ equivalente P [X

i

> 0] = p

contre

H

1

: m

e

6= m

0

ou de fa¸con ´ equivalente P [X

i

> 0] 6= p.

o` u m

0

est un nombre r´ eel et p est une constante comprise entre 0 et 1, ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative

H

01

: m

e

< m

0

ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative H

001

: m

e

> m

0

Pour cela il suffit de consid´ erer l’´ echantillon Z

1

, . . . , Z

n

avec Z

i

= X

i

− m

0

et de lui appliquer le test d´ ecrit ci-dessous.

Statistique : S

n

d´ esigne le nombre de variables X

i

, 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.1. Lorsque l’hypoth` ese nulle H

0

est vraie, la variable al´ eatoire S

n

suit exactement une loi binomiale B(n, p) de param` etres n et p.

Concr` etement cette hypoth` ese nulle H

0

signifie que l’effectif de l’´ echantillon consid´ er´ e est faible devant celui de la population dont il est issu.

Remarque 1.3. Nous pourrons prendre comme taille limite des ´ echantillons dont les effectifs sont inf´ erieurs ` a une fraction de 1/10 de la population. Dans ce cas nous pouvons assimiler les tirages r´ ealis´ es ici ` a des tirages avec remise.

Cas le plus souvent utilis´ e : p =1/2. Nous nous proposons de tester : Hypoth` eses :

H

0

: P [X

i

> 0] = 1 2 contre H

1

: P [X

i

> 0] 6= 1

2 .

(3)

Statistique : S

n

d´ esigne le nombre de variables X

i

, 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.2. Lorsque l’hypoth` ese nulle H

0

est vraie, la variable al´ eatoire S

n

a les trois propri´ et´ es suivantes :

1. La variable al´ eatoire S

n

suit une loi binomiale B(n, 1/2) de param` etres n et 1/2. De ce fait, d´ ecoule les deux propri´ et´ es suivantes :

2. E [S

n

] = n/2.

3. Var [S

n

] = n/4.

Cette distribution binomiale est sym´ etrique. Pour n grand (n > 40), nous pouvons utiliser l’approximation normale avec correction de continuit´ e :

P

H0

[S

n

6 h] = P

H0

[S

n

> n − h] = Φ(2h + 1 − n)

√ n o` u Φ est la fonction de r´ epartition d’une loi normale centr´ ee r´ eduite.

D´ ecision 1.1. Pour un seuil α donn´ e (= α = 5% = 0, 05 en g´ en´ eral), nous cherchons le plus grand entier s

?α

tel que P [Y 6 s

?α

] 6 α/2 o` u Y suit une loi binomiale B(n, 1/2) de param` etres n et 1/2. Alors nous d´ ecidons :

H

1

est vraie si S

n,obs

∈]s /

?α

, n − s

?α

[ H

0

est vraie si S

n,obs

∈]s

?α

, n − s

?α

[.

Remarque 1.4. Le niveau de signification r´ eel du test est alors ´ egal ` a 2 P [Y 6 s

?α

] qui est g´ en´ eralement diff´ erent de α.

Remarque 1.5. Pour voir un exemple, nous renvoyons ` a la feuille de travaux dirig´ es qui sera trait´ ee lors de la premi` ere s´ eance de travaux dirig´ es.

1.2. Test des rangs sign´ es de Wilcoxon

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X

1

, . . . , X

n

d’une loi continue F dont la valeur m´ ediane est not´ ee m

e

et la moyenne µ.

Hypoth` eses : Le test des rangs sign´ es permet de tester l’hypoth` ese nulle H

0

: La loi continue F est sym´ etrique en 0

contre

H

1

: La loi continue F n’est pas sym´ etrique en 0.

De plus, si nous savons que la loi continue F est sym´ etrique, alors le test des rangs sign´ es de Wilcoxon devient

H

0

: µ = µ

0

contre H

1

: µ 6= µ

0

.

Ici µ

0

est un nombre r´ eel et ce jeu d’hypoth` eses permet alors de s’int´ eresser ` a la moyenne

de la loi continue F .

(4)

1.2.1. Cas o` u il n’y a pas d’ex æquo.

Soit x

1

, . . . , x

n

n r´ ealisations de l’´ echantillon pr´ ec´ edent. ` A chaque x

i

nous attribuons le rang r

ia

qui correspond au rang de |x

i

| lorsque que les n r´ ealisations sont class´ ees par ordre croissant de leurs valeurs absolues.

Statistique : Nous d´ eterminons alors la somme w des rangs r

ai

des seules observations positives. La statistique W

n+

des rangs sign´ es de Wilcoxon est la variable al´ eatoire qui prend pour valeur la somme w. Par cons´ equent, la statistique W

n+

des rangs sign´ es de Wilcoxon s’´ ecrit

W

n+

= X 1 6 i 6 n

X

i

> 0 R

ai

.

Propri´ et´ es 1.3. Lorsque l’hypoth` ese nulle H

0

est vraie, la variable al´ eatoire W

n+

a les trois propri´ et´ es suivantes :

1. W

n+

est sym´ etrique autour de sa valeur moyenne E [W

n+

] = n(n + 1)/4.

2. Var [W

n+

] = n(n + 1)(2n + 1)/24.

3. Elle est tabul´ ee pour de faibles valeurs de n. Pour n > 15, nous avons l’approxima- tion normale avec correction de continuit´ e :

P

W

n+

6 w

= Φ w + 0, 5 − n(n + 1)/4 p n(n + 1)(2n + 1)/24

!

o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.

D´ ecision 1.2.

– Premier cas : Pour tester l’hypoth` ese nulle « H

0

: La loi continue F est sym´ etrique en 0 » contre l’hypoth` ese alternative « H

1

: La loi continue F n’est pas sym´ etrique en 0 » pour un seuil donn´ e α, nous cherchons l’entier w

α

tel que P [W

n+

6 w

α

] ≈ α/2.

Alors nous d´ ecidons :

H

1

est vraie si W

n,obs+

∈]w /

α

+ 1, n(n + 1)/2 − w

α

− 1[, H

0

est vraie si W

n,obs+

∈]w

α

+ 1, n(n + 1)/2 − w

α

− 1[.

– Second cas : Pour tester l’hypoth` ese nulle « H

0

: µ = µ

0

», nous introduisons l’´ echantillon Z

1

, . . . , Z

n

avec Z

i

= X

i

− µ, 1 6 i 6 n.

1.2.2. Cas o` u il y a des ex æquo.

Les observations x

1

, . . . , x

n

peuvent pr´ esenter des ex æquo et a fortiori leurs valeurs

absolues. Il s’agit en particulier du cas o` u la loi F est discr` ete. Deux proc´ edures sont alors

employ´ ees.

(5)

• M´ ethode de d´ epartition des ex æquo

Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A cha- cune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

En associant ` a l’observation X

i

son rang moyen R

ai?

dans le classement des valeurs absolues et en sommant tous les rangs pour lesquels X

i

> 0 nous obtenons la statistique :

W

n+?

= X 1 6 i 6 n

X

i

> 0

R

ai?

.

Les valeurs absolues observ´ ees |x

1

|, . . . , |x

n

| ´ etant ordonn´ ees puis regroup´ ees en classes d’ex æquo, C

0

pour la premi` ere classe qui est constitu´ ee des nombres |x

i

| nuls, s’il en existe, et C

j

, 1 6 j 6 h pour les autres nombres, certaines classes C

j

pouvant comporter un seul ´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d

j

le nombre d’ex æquo de la classe C

j

. Nous avons

d

0

+

h

X

j=1

d

j

= n.

Sous l’hypoth` ese nulle H

0

et si n > 15, il est d’usage d’utiliser l’approximation normale

W

n+?

− m

?

σ

?

≈ N (0, 1) o` u

m

?

= 1

4 (n(n + 1) − d

0

(d

0

+ 1)) et

?

)

2

= 1

24 (n(n + 1)(2n + 1) − d

0

(d

0

+ 1)(2d

0

+ 1)) − 1 48

h

X

j=1

d

3j

− d

j

.

Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens, nous ne pouvons pas

utiliser les tables statistiques usuelles qui concernent la distribution de la variable

al´ eatoire W

n+

.

(6)

2. Les tests non param´ etriques sur deux ´ echantillons

2.1. Les ´ echantillons sont ind´ ependants : Test de Mann-Whi- tney

Nous observons, de mani` ere ind´ ependante, une variable Y , continue, sur deux populations, ou sur une population divis´ ee en deux sous-populations. Nous notons L

i

la loi de Y sur la (sous-)population d’ordre i. Nous allons pr´ esenter le test :

Hypoth` eses :

H

0

: Les deux lois L

i

sont ´ egales ou encore de fa¸con ´ equivalente : L

1

= L

2

contre

H

1

: Les deux lois L

i

ne sont pas ´ egales ou encore de fa¸con ´ equivalente : L

1

6= L

2

.

2.1.1. Cas o` u il n’y a pas d’ex aequo.

Statistique : Pour obtenir la statistique du test not´ ee U en g´ en´ eral, nous devons proc´ eder

`

a des ´ etapes successives :

1. En se pla¸cant sous l’hypoth` ese nulle H

0

, nous classons par ordre croissant l’en- semble des observations des deux ´ echantillons (x

1

, . . . , x

n1

) et (y

1

, . . . , y

n2

) de taille respective n

1

et n

2

.

2. Nous affectons le rang correspondant.

3. Nous effectuons la somme des rangs pour chacun des deux ´ echantillons, not´ es R

1

et R

2

.

4. Nous en d´ eduisons les quantit´ es U

1

et U

2

qui se calculent ainsi : U

n1

= n

1

× n

2

+ n

1

(n

1

+ 1)

2 − R

1

(2.1)

et

U

n2

= n

1

× n

2

+ n

2

(n

2

+ 1)

2 − R

2

= n

1

× n

2

− U

1

. (2.2) La plus petite des deux valeurs U

n1

et U

n2

, not´ ee U

n1,n2

, est utilis´ ee pour tester l’hypoth` ese nulle H

0

.

Propri´ et´ es 2.1. Lorsque l’hypoth` ese nulle H

0

est vraie, la variable al´ eatoire U

n1,n2

a les trois propri´ et´ es suivantes :

1. E [U

n1,n2

] = (n

1

× n

2

)/2.

2. Var [U

n1,n2

] = (n

1

× n

2

)(n

1

+ n

2

+ 1)/12.

(7)

3. La variable al´ eatoire U

n1,n2

est tabul´ ee pour de faibles valeurs de n. Pour n > 20, nous avons l’approximation normale :

P [U

n1,n2

6 u] = Φ u − (n

1

× n

2

)/2 p (n

1

× n

2

)(n

1

+ n

2

+ 1)/12

!

o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.

D´ ecision 2.1.

– Premier cas : Si les tailles n

1

ou n

2

sont inf´ erieures ` a 20. Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de Mann-Whitney nous fournit une valeur critique c. Alors nous d´ ecidons :

H

1

est vraie si U

n1,n2,obs

6 c, H

0

est vraie si U

n1,n2,obs

> c.

– Second cas : Si les tailles n

1

et n

2

sont sup´ erieures ` a 20, alors la quantit´ e est d´ ecrite approximativement par une loi normale et nous utilisons alors le test de l’´ ecart r´ eduit :

Z

n1,n2

= U

n1,n2

− (n

1

× n

2

)/2 p (n

1

× n

2

)(n

1

+ n

2

+ 1)/12 .

Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de la loi normale centr´ ee r´ eduite nous fournit une valeur critique c. Alors nous d´ ecidons :

H

1

est vraie si Z

n1,n2,obs

> c, H

0

est vraie si Z

n1,n2,obs

< c.

2.1.2. Cas o` u il y a des ex æquo.

Les observations x

1

, . . . , x

n1

, y

1

, . . . , y

n2

peuvent pr´ esenter des ex æquo. Il s’agit en parti- culier du cas o` u les lois F et G dont sont issus les deux ´ echantillons sont discr` etes. Deux proc´ edures sont alors employ´ ees.

• M´ ethode de d´ epartition des ex æquo

Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Les valeurs absolues observ´ ees x

1

, . . . , x

n1

, y

1

, . . . , y

n2

´ etant ordonn´ ees puis regroup´ ees en h classes d’ex æquo C

j

, 1 6 j 6 h, certaines classes C

j

pouvant comporter un seul

´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d

j

le nombre d’ex æquo de la classe

(8)

C

j

. Nous avons

h

X

j=1

d

j

= n

1

+ n

2

.

En associant ` a l’observation X

i

son rang moyen R

?i

dans ce classement et en sommant tous les rangs de tous les X

i

, on obtient la statistique :

U

n?1,n2

=

n2

X

i=1

R

?i

.

Sous l’hypoth` ese nulle H

0

: « X et Y ont la mˆ eme distribution » et pour n

1

> 15 et n

2

> 15, il est d’usage d’utiliser l’approximation normale

U

n?1,n2

− m

?

σ

?

≈ N (0, 1) o` u

m

?

= 1

2 (n

1

(n

1

+ n

2

+ 1)) et

?

)

2

= 1

12 (n

1

n

2

(n

1

+ n

2

+ 1)) − 1 12

n

1

n

2

(n

1

+ n

2

)(n

1

+ n

2

− 1)

h

X

j=1

d

3j

− d

j

.

Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens nous ne pouvons pas uti- liser les tables statistiques usuelles qui concernent la distribution de la variable al´ eatoire U

n1,n2

.

2.2. Les ´ echantillons sont ind´ ependants : Test de la m´ ediane de Mood

On consid` ere deux ´ echantillons ind´ ependants (X

1

, . . . , X

n1

) et (Y

1

, . . . , Y

n2

).

(X

1

, . . . , X

n1

) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi conti- nue F et (Y

1

, . . . , Y

n2

) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi continue G.

Apr` es regroupement des n

1

+ n

2

valeurs des deux ´ echantillons, n

1

× M

N

est le nombre d’observations X

i

qui sont sup´ erieures ` a la m´ ediane des N = n

1

+ n

2

observations.

Sous l’hypoth` ese nulle H

0

: « Les variables X et Y suivent la mˆ eme loi continue c’est-` a-dire G = F », la variable n

1

× M

N

peut prendre les valeurs 0, 1, . . . , n

1

selon la distribution hyperg´ eom´ etrique suivante :

P [n

1

× M

N

= k] = C

nk

1

C

nN/2−k2

C

NN/2

.

(9)

Ainsi on a :

E [n

1

× M

N

] = n

1

(n

1

+ n

2

N

) 2N

Var [n

1

× M

N

] = n

1

n

2

(n

1

+ n

2

+ 1)

4(n

1

+ n

2

− 1 +

N

)(n

1

+ n

2

+ 1 −

N

) , o` u

N

= 0 si N est pair et

N

= 1 si N est impair.

Lorsque n

1

et n

2

sont grands, c’est-` a-dire n

1

> 25 et n

2

> 25, on utilise l’approximation normale :

n

1

× M

N

− E [n

1

× M

N

]

p Var [n

1

× M

N

] ≈ N (0, 1) avec correction de continuit´ e.

La distribution est sym´ etrique lorsque N est pair.

Pour tester l’hypoth` ese nulle H

0

: « G = F » contre H

1

: « G 6= F » avec un niveau de signification ´ egal ` a α, on cherche les entiers k

α

et k

0α

tels que P [n

1

× M

N

6 k

α

] ≈ α/2 et P

n

1

× M

N

> n

1

− k

α0

≈ α/2, puis on rejette l’hypoth` ese nulle H

0

si la r´ ealisation de la statistique du test calcul´ ee ` a l’aide de l’´ echantillon n’est pas dans l’intervalle [k

α

, k

α0

].

Cette statistique permet ´ egalement de r´ ealiser des tests unilat´ eraux.

2.3. Les ´ echantillons sont d´ ependants : Test de Wilcoxon

Nous consid´ erons deux variables al´ eatoires X et Y , de mˆ eme nature, observ´ ees toutes les deux sur les mˆ emes unit´ es d’un n-´ echantillon. Les observations se pr´ esentent alors sous la forme d’une suite de couples (x

1

, y

1

), . . . , (x

n

, y

n

). Ce test concerne les lois des deux variables. Pour ce faire nous testons :

Hypoth` eses :

H

0

: Les deux lois sont ´ egales ou encore de fa¸con ´ equivalente L(X) = L(Y ) contre

H

1

: Les deux lois ne sont pas ´ egales ou encore de fa¸con ´ equivalente L(X) 6= L(Y ).

2.3.1. Cas o` u il n’y a pas d’ex aequo.

Statistique : Pour obtenir la statistique du test not´ ee S

+

en g´ en´ eral, nous devons proc´ eder ` a des ´ etapes successives :

1. Ce test suppose que la loi de la diff´ erence entre les deux variables ´ etudi´ ees est

sym´ etrique par rapport ` a 0.

(10)

2. Apr` es avoir calcul´ e les diff´ erences d

i

, nous classons par ordre croissant les |d

i

| non nulles, c’est-` a-dire les d

i

sans tenir compte des signes.

3. Nous attribuons ` a chaque |d

i

| le rang correspondant.

4. Nous restituons ensuite ` a chaque rang le signe de la diff´ erence correspondante.

5. Enfin, nous calculons la somme S

+

des rangs positifs (P ) et la somme S

des rangs n´ egatifs (M ).

La somme S

+

des rangs positifs (P ) permet de tester l’hypoth` ese nulle H

0

. D´ ecision 2.2.

– Premier cas : Si n < 15, nous utilisons une table et nous comparons la valeur de (S

+

)

`

a la valeur critique c associ´ ee au seuil α du test.

– Second cas : Si n > 15, nous utilisons l’approximation normale avec correction de continuit´ e :

P

H0

S

+

6 h

≈ Φ h + 0, 5 − n(n + 1)/4 p (n(n + 1)(2n + 1))/24

!

o` u Φ est la fonction de r´ epartition d’un loi normale centr´ ee r´ eduite.

2.3.2. Cas o` u il y a des ex æquo.

Il se traite de la mˆ eme mani` ere que pour la statistique de Wilcoxon pour un ´ echantillon, voir le paragraphe 1.2.

3. Les tests non param´ etriques sur k ´ echantillons : 1 facteur

3.1. Les ´ echantillons sont ind´ ependants : Test de Kruskal-Wallis

On suppose que l’on dispose de k ´ echantillons ind´ ependants et identiquement distribu´ es (X

1,1

, . . . , X

1,n1

), . . . , (X

k,1

, . . . , X

k,nk

). La distribution du i−` eme ´ echantillon est not´ ee F

i

. On admet a priori que F

i

(x) = G(x − α

i

) o` u G est une fonction de r´ epartition inconnue mais continue de moyenne µ et les α

i

sont des nombres r´ eels. Ainsi on suppose que le seul param` etre qui diff` ere d’une distribution F

i

` a l’autre est un param` etre de position α

i

. C’est pourquoi mˆ eme lorsque vous effectuez un test de Kruskal-Wallis vous devez vous assurer que vous pouvez au moins supposer que les variances des variables sont ´ egales d’un

´

echantillon ` a l’autre ` a l’aide d’un test non param´ etrique de Levene d’´ egalit´ e des variances.

Les hypoth` eses ci-dessus impliquent que l’on peut ´ ecrire, pour tout 1 6 i 6 k la d´ ecom- position suivante :

X

i,j

= µ + α

i

+

i,j

, 1 6 j 6 n

i

,

(11)

les N =

k

X

i=1

n

i

variables al´ eatoires

i,j

´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.

3.1.1. Cas o` u il n’y a pas d’ex æquo.

La variable KW

N

de Kruskal-Wallis est utilis´ ee pour tester l’hypoth` ese H

0

: α

1

= . . . = α

k

= 0

contre

H

1

: Il existe au moins un i

0

tel que α

i0

6= 0.

On commence par calculer le rang R

i,j

de X

i,j

parmi les N valeurs, puis la somme des rangs associ´ ee ` a chaque ´ echantillon : R

i,•

=

ni

X

j=1

R

i,j

et enfin la moyenne des rangs de chaque ´ echantillon : R

i,•

= R

i,•

n

i

.

La statistique de Krukal-Wallis KW

N

prend en compte l’´ ecart entre la moyenne des rangs de chaque ´ echantillon et la moyenne de tous les rangs, qui vaut (N + 1)/2 :

KW

N

= 12 N (N + 1)

k

X

i=1

n

i

R

i,•

− N + 1 2

.

Sous l’hypoth` ese nulle H

0

: « X

1

, . . . , X

k

ont la mˆ eme distribution continue », qui dans notre cas est ´ equivalente ` a H

0

: « α

1

= . . . = α

k

= 0 », il est possible de d´ eterminer la distribution de KW

N

bien que le calcul soit complexe.

– Si l’un des effectifs n

i

, 1 6 i 6 k, est inf´ erieur ou ´ egal ` a 4, on utilise une table sp´ ecifique.

– Si n

i

> 5, pout tout 1 6 i 6 k on utilise l’approximation KW

N

≈ χ

2k−1

.

Pour un seuil de signification de α, on d´ etermine c

α

tel que P [KW

N

> c

α

] ∼ = α et l’on rejette l’hypoth` ese nulle H

0

lorsque la valeur prise par KW

N

est sup´ erieure ` a c

α

.

3.1.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un

rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent

et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

(12)

• M´ ethode des rangs moyens

A chaque nombre appartenant ` ` a un groupe d’ex æquo on attribue le rang moyen du groupe auquel il appartient puis on d´ etermine la somme T =

h

X

l=1

(t

3l

− t

l

) o` u t

l

d´ esigne le nombre d’´ el´ ements du l−` eme groupe d’ex æquo. Il est d’usage de substituer ` a KW

N

la variable KW

N?

d´ efinie par :

KW

N?

= KW

N

1 − T

N

3

− N .

Comparaisons multiples

Si l’on rejette l’hypoth` ese nulle H

0

: « α

1

= . . . = α

k

= 0 » d’absence de diff´ erence entre les distributions F

i

des k ´ echantillons, on peut ˆ etre amen´ e ` a se demander quelles sont les distributions qui sont diff´ erentes.

On d´ ecide que deux distributions F

i

et F

i0

sont significativement diff´ erentes au seuil α si :

R

i,•

− R

i0,•

> p

χ

2

(k − 1, 1 − α)

r N (N + 1) 12

s 1 n

i

+ 1

n

i0

,

o` u χ

2

(k − 1, 1 − α) est le 100(1 − α) quantile de la loi du χ

2

` a k − 1 degr´ es de libert´ e.

On d´ ecide qu’au seuil global α deux distributions F

i

et F

i0

, parmi les k(k − 1) com- paraisons que l’on va faire, sont significativement diff´ erentes si :

R

i,•

− R

i0,•

> u

1 − α

k(k − 1)

r N(N + 1) 12

s 1 n

i

+ 1

n

i0

,

o` u u

1 − α

k(k − 1)

est le 100

1 − α

k(k − 1)

quantile de la loi normale centr´ ee r´ eduite.

Il s’agit d’une application des in´ egalit´ es de Bonferroni

2

. Cette proc´ edure est plus puissante que la pr´ ec´ edente.

On d´ ecide qu’au seuil global α deux distributions F

i

et F

i0

, parmi les k(k − 1) com- paraisons que l’on va faire, sont significativement diff´ erentes si :

2

On pourra consulter le cours sur les mod` eles d’analyse de la variance pour plus de d´ etails sur les

proc´ edures de comparaisons multiples.

(13)

R

i,•

− R

i0,•

> q(k, +∞, 1 − α)

r N (N + 1) 12

s 1 2

1 n

i

+ 1

n

i0

,

o` u q(k, +∞, 1 − α) est le 100(1 − α) quantile de la loi de l’´ etendue studentis´ ee pour k moyennes et +∞ degr´ es de libert´ e. Il s’agit d’une proc´ edure analogue ` a celle de Tukey- Kramer

2

dans le cas param´ etrique et valide asymptotiquement. Elle est g´ en´ eralement plus puissante que les deux approches pr´ ec´ edentes.

3.2. Les ´ echantillons sont ind´ ependants : Test de Jonckheere- Terpstra

La statistique J

N

de Jonckheere-Terpstra permet de raffiner l’approche de la statistique KW

N

de Kruskal-Wallis : supposons que les k modalit´ es du facteur pour lequel on a r´ ealis´ e les exp´ eriences soient naturellement ordonn´ ees. C’est par exemple le cas dans la situation suivante : vous souhaitez trouver la dose optimale d’engrais ` a utiliser pour am´ eliorer un rendement. Vous allez donc r´ ealiser des exp´ eriences avec des doses de plus en plus im- portantes d’engrais et les modalit´ es de votre facteur explicatif seront donc naturellement ordonn´ ees par la quantit´ e croissante d’engrais utilis´ e.

La statistique J

N

de Jonckheere-Terpstra permet de tester l’hypoth` ese : H

0

: α

1

= . . . = α

k

= 0

contre

H

1

: α

1

6 . . . 6 α

k

= 0 et il existe au moins un i

0

tel que α

i0

< α

i0+1

. 3.2.1. Cas o` u il n’y a pas d’ex æquo.

La statistique J

N

est construite ` a l’aide de toutes les variables de Mann-Whitney U

i,j

, associ´ ees ` a l’´ echantillon i et l’´ echantillon j , lorsque 1 6 i < j 6 k :

J

N

= X

16i<j6k

U

i,j

. Sous l’hypoth` ese nulle H

0

: « α

1

= . . . = α

k

= 0 » : – L’esp´ erance et la variance de la statistique J

N

sont :

E [J

N

] =

N

2

k

X

i=1

n

2i

4 ,

Var[J

N

] = 1

72 N

2

(3 + 2N ) −

k

X

i=1

n

2i

(3 + 2n

i

)

!

.

(14)

– Les valeurs critiques de la statistique J

N

sont tabul´ ees pour de faibles valeurs de k et des n

i

.

– Lorsque n

i

> 5, pour tout 1 6 i 6 k, on a l’approximation normale avec correction de continuit´ e :

J

N

− E [J

n

]

p Var [J

N

] ≈ N (0, 1) .

On cherche l’entier φ

α

tel que P [J

N

> φ

α

] ≈ α puis on rejette l’hypoth` ese nulle H

0

au seuil α si la valeur prise par la statistique J

N

est sup´ erieure ou ´ egale ` a φ

α

.

3.2.2. Cas o` u il y a des ex æquo.

On peut utiliser une m´ ethode de d´ epartition des ex æquo ou des tests de Mann-Whitney bas´ es sur des rangs moyens, l’inconvient de la seconde m´ ethode ´ etant qu’on ne peut uti- liser les mˆ emes tables qu’en absence d’ex æquo.

3.3. Les ´ echantillons ne sont pas ind´ ependants : Test de Fried- man

On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur ne sont pas ind´ ependants.

Individu Facteur A 1 · · · n 1 x

1,1

· · · x

n,1

.. . .. . .. . .. . k x

1,k

· · · x

n,k

On construit alors le tableau des rangs :

Individu Facteur A Total

1 · · · n

1 r

1,1

· · · r

n,1

n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r

1,k

· · · r

n,k

n(n + 1)/2 Total r

1,•

· · · r

n,•

kn(n + 1)/2

Si on est en pr´ esence de r´ ep´ etitions x

i,j,k

on remplace x

i,j

par la moyenne x

i,j

des valeurs pour chaque cas o` u il y a des r´ ep´ etitions.

On cherche alors ` a tester l’hypoth` ese :

(15)

H

0

: Les niveaux du facteur ont tous la mˆ eme influence contre

H

1

: Les niveaux du facteur n’ont pas tous la mˆ eme influence.

3.3.1. Cas o` u il n’y a pas d’ex æquo.

La statistique de Friedman F

k,n

est d´ efinie par : F

k,n

= 12k

n(n + 1)

n

X

i=1

R

i,•

k − n + 1 2

2

= 12

kn(n + 1)

n

X

i=1

R

2i,•

− 3k(n + 1).

On admet que sous l’hypoth` ese nulle H

0

: « Les niveaux du facteur ont tous la mˆ eme influence » les distributions pour chaque individu ne diff` erent que par un param` etre de position, ce que l’on peut v´ erifier par un test non param´ etrique de Levene par exemple.

– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W

k,n

de Kendall car la statistique de Friedman F

k,n

= k(n − 1)W

k,n

.

– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F

k,n

≈ χ

2n−1

.

On rejettera l’hypoth` ese nulle H

0

si la valeur prise par F

k,n

est trop grande.

3.3.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.

Lorsque le classement num´ ero m a h

m

groupes d’ex æquo, on lui attribue la somme T

m

=

hm

X

l=1

t

3l,m

− t

l,m

o` u t

l,m

d´ esigne le nombre d’´ el´ ements du l−` eme de ces h

m

groupes.

S’il n’y a pas d’ex æquo on a ´ evidemment T

m

= 0 puisque la r´ epartition des n entiers du

(16)

classement en classes de nombres ´ egaux donne h

m

= n et t

l,m

= 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :

F

k,n?

= 12k(n − 1) n

3

− n

− 1 k

k

X

m=1

T

m n

X

l=1

R

l,•

k − n + 1 2

2

= 1

1 − 1

(n

3

− n) 1 k

k

X

m=1

T

m

12k n(n + 1)

n

X

l=1

R

l,•

k − n + 1 2

2

.

On en d´ eduit que :

F

k,n?

= F

k,n

1 − 1

(n

3

− n) 1 k

k

X

m=1

T

m

.

4. Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs

4.1. Les ´ echantillons sont ind´ ependants : Test de Friedman

On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur sont ind´ ependants.

Facteur B Facteur A 1 · · · n 1 x

1,1

· · · x

n,1

.. . .. . .. . .. . k x

1,k

· · · x

n,k

On construit alors le tableau des rangs :

Facteur B Facteur A Total

1 · · · n

1 r

1,1

· · · r

n,1

n(n + 1)/2

.. . .. . .. . .. . n(n + 1)/2

k r

1,k

· · · r

n,k

n(n + 1)/2

Total r

1,•

· · · r

n,•

kn(n + 1)/2

(17)

Si on est en pr´ esence de r´ ep´ etitions x

i,j,k

on remplace x

i,j

par la moyenne x

i,j

des valeurs pour chaque cas o` u il y a des r´ ep´ etitions.

On admet a priori que l’influence des couples de niveaux (A

i

, B

j

) des facteurs A et B , pour 1 6 i 6 n, 1 6 j 6 k, se traduit par une d´ ecomposition de la forme :

X

i,j

= µ + α

i

+ β

j

+

i,j

, 1 6 i 6 n, 1 6 j 6 k avec

n

X

i=1

α

i

= 0 et

k

X

j=1

β

j

= 0. Les N =

n

X

i=1

k = n × k variables al´ eatoires

i,j

´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.

4.1.1. Cas o` u il n’y a pas d’ex æquo.

La variable F

k,n

de Friedman est utilis´ ee pour tester l’hypoth` ese H

0

: α

1

= . . . = α

n

= 0

contre

H

1

: Il existe au moins un i

0

tel que α

i0

6= 0.

On commence par calculer le rang R

i,j

de X

i,j

parmi les n valeurs de la colonne i, puis la somme des rangs associ´ ee ` a chaque colonne : R

i,•

=

k

X

j=1

R

i,j

et enfin la moyenne des rangs de chaque colonne : R

i,•

= R

i,•

k .

La statistique de Friedman F

k,n

est d´ efinie par : F

k,n

= 12k

n(n + 1)

n

X

i=1

R

i,•

k − n + 1 2

2

= 12

kn(n + 1)

n

X

i=1

R

2i,•

− 3k(n + 1).

– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W

k,n

de Kendall car F

k,n

= k(n − 1)W

k,n

.

– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F

k,n

≈ χ

2n−1

.

On rejettera l’hypoth` ese nulle H

0

si la valeur prise par la statistique de Friedman F

k,n

est trop grande.

Si l’on voulait ´ egalement tester l’influence du facteur B on aurait analys´ e les tableaux

ci-dessous avec la mˆ eme m´ ethode.

(18)

Facteur A Facteur B 1 · · · n 1 x

1,1

· · · x

n,1

.. . .. . .. . .. . k x

1,k

· · · x

n,k

Facteur A Facteur B Total 1 · · · n

1 r

1,1

· · · r

n,1

n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r

1,k

· · · r

n,k

n(n + 1)/2 Total r

1,•

· · · r

n,•

kn(n + 1)/2

Comme on a ´ echang´ e le rˆ ole du facteur A et du facteur B on teste maintenant : H

0

: Les niveaux du facteur B ont tous la mˆ eme influence

contre

H

1

: Les niveaux du facteur B n’ont pas tous la mˆ eme influence.

On ne peut pas tester l’existence d’une interaction par cette m´ ethode puisque le mod` ele utilis´ e ne comporte pas de terme d’interaction. Il existe d’autres tests pour ´ etudier l’exis- tence d’une interaction.

4.1.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.

Lorsque le classement num´ ero m a h

m

groupes d’ex æquo, on lui attribue la somme T

m

=

hm

X

l=1

t

3l,m

− t

l,m

o` u t

l,m

d´ esigne le nombre d’´ el´ ements du l−` eme de ces h

m

groupes.

S’il n’y a pas d’ex æquo on a ´ evidemment T

m

= 0 puisque la r´ epartition des n entiers du

(19)

classement en classes de nombres ´ egaux donne h

m

= n et t

l,m

= 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :

F

k,n?

= 12k(n − 1) n

3

− n

− 1 k

k

X

m=1

T

m

n

X

l=1

R

l,•

k − n + 1 2

2

= 1

1 − 1

(n

3

− n) 1 k

k

X

m=1

T

m

12k n(n + 1)

n

X

l=1

R

l,•

k − n + 1 2

2

.

On en d´ eduit que :

F

k,n?

= F

k,n

1 − 1

(n

3

− n) 1 k

k

X

m=1

T

m

.

Table des mati` eres

1 Les tests non param´ etriques sur un ´ echantillon 1

1.1 Test du signe . . . . 1

1.2 Test des rangs sign´ es de Wilcoxon . . . . 3

1.2.1 Cas o` u il n’y a pas d’ex æquo. . . . 4

1.2.2 Cas o` u il y a des ex æquo. . . . 4

2 Les tests non param´ etriques sur deux ´ echantillons 6 2.1 Les ´ echantillons sont ind´ ependants : Test de Mann-Whitney . . . . 6

2.1.1 Cas o` u il n’y a pas d’ex aequo. . . . 6

2.1.2 Cas o` u il y a des ex æquo. . . . 7

2.2 Les ´ echantillons sont ind´ ependants : Test de la m´ ediane de Mood . . . . . 8

2.3 Les ´ echantillons sont d´ ependants : Test de Wilcoxon . . . . 9

2.3.1 Cas o` u il n’y a pas d’ex aequo. . . . 9

2.3.2 Cas o` u il y a des ex æquo. . . . 10

3 Les tests non param´ etriques sur k ´ echantillons : 1 facteur 10 3.1 Les ´ echantillons sont ind´ ependants : Test de Kruskal-Wallis . . . . 10

3.1.1 Cas o` u il n’y a pas d’ex æquo. . . . 11

3.1.2 Cas o` u il y a des ex æquo. . . . 11

3.2 Les ´ echantillons sont ind´ ependants : Test de Jonckheere-Terpstra . . . . 13

3.2.1 Cas o` u il n’y a pas d’ex æquo. . . . 13

3.2.2 Cas o` u il y a des ex æquo. . . . 14

(20)

3.3 Les ´ echantillons ne sont pas ind´ ependants : Test de Friedman . . . . 14 3.3.1 Cas o` u il n’y a pas d’ex æquo. . . . 15 3.3.2 Cas o` u il y a des ex æquo. . . . 15 4 Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs 16 4.1 Les ´ echantillons sont ind´ ependants : Test de Friedman . . . . 16 4.1.1 Cas o` u il n’y a pas d’ex æquo. . . . 17 4.1.2 Cas o` u il y a des ex æquo. . . . 18

R´ ef´ erences

[1] B. Falissard. Comprendre et utiliser les statistiques dans les sciences de la vie. Abr´ eg´ es.

Masson, Paris, 3 ` eme edition, 2005.

[2] S. Kotz, C. B. Read, and N. Balakrishnan, editors. Encyclopædia Of Statistical Sciences. Wiley-Interscience, 1st edition, 1996.

[3] G. Pupion and P.-C. Pupion. Tests non param´ etriques. Statistique math´ ematique et

probabilit´ e. Economica, Paris, 1998.

Références

Documents relatifs

Preuve du théorème : les probabilités de décision d’une règle de décision vérifiant l’invariance sous le groupe G~ sont indépendantes de m, la moyenne

L'existence de deux suites de longueur 9, Tune de valeurs supérieures à la médiane au début des observations, l'autre de valeurs inférieures à la médiane vers la fin

Si la valeur absolue de la valeur de la statistique calcul´ ee sur l’´ echantillon, not´ ee t ν,obs est sup´ erieure ou ´ egale ` a c α , alors le test est significatif`. Vous

Un test bilat´ eral s’applique quand vous cherchez une diff´ erence entre deux param` etres, ou entre un param` etre et une valeur donn´ ee sans se pr´ eoccuper du signe ou du sens

On calcule les distances entre couples de points à partir des variables centrées et réduites pour faire jouer le même rôle aux deux variables (en réalité on calcule

Ce sont des modèles dans lesquels un niveau de contrainte n’est déterminé que lorsque le test au niveau précédent a été réalisé et que le résultat est

Objectifs: Savoir effectuer une estimation ponctuelle ou par intervalle de confiance, savoir poser et faire un test, pour l’un des param` etres inconnus : moyenne µ, variance σ 2

L’objectif de l’´ etude est de mettre en place un mod` ele de r´ egression logistique pour pr´ edire la probabilit´ e de que ces patients fassent une apn´ ee du sommeil et