Statistique pour petits ´echantillons

(1)

Statistique pour petits ´ echantillons

Ecole Doctorale des Sciences de la Vie et de la Sant´e Universit´e Louis Pasteur

Module de formation

Fr´ ed´ eric Bertrand et Myriam Bertrand ¹

10 et 11 janvier 2007

1

Institut de Recherche Math´ ematique Avanc´ ee, Universit´ e Louis Pasteur moe7, rue Ren´ e Descartes, 67084 Strasbourg C edex

moefbertran@math.u-strasbg.fr

moemmaumy@math.u-strasbg.fr

(2)

(3)

Premi` ere partie

Notes de cours

(4)

(5)

Chapitre 1

Quelques tests non param´ etriques. ¹

1.1. Les tests non param´ etriques sur un ´ echantillon

Dans cette section nous nous int´ eressons ` a deux tests non param´ etriques : – le test du signe et

– le test des rangs sign´ es.

Nous utiliserons de pr´ ef´ erence le test des rangs sign´ es d` es que les conditions de son utili- sation sont remplies, sa puissance ´ etant alors sup´ erieure ` a celle du test du signe.

1.1.1. Test du signe

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X ₁ , . . . , X _n d’une loi continue F dont la valeur m´ ediane est not´ ee m _e et la moyenne µ. Le test du signe permet de tester les hypoth` eses suivantes :

Hypoth` eses :

H 0 : m _e = 0 ou de fa¸con ´ equivalente P [X _i > 0] = 1 2 contre

H 1 : m e 6= 0 ou de fa¸con ´ equivalente P [X i > 0] 6= 1 2 .

Remarque 1.1.1. La formulation de ce test est bien sˆ ur la formulation d’un test bilat´ eral.

Nous pouvons envisager les deux tests unilat´ eraux correspondants. ` A ce moment l` a, la formulation de l’hypoth` ese alternative H 1 est diff´ erente et s’´ ecrit soit :

1

Les r´ ef´ erences [10], [13] et [8] ayant servi ` a l’´ elaboration de ce document sont mentionn´ ees dans la

bibliographie.

(6)

H 1

⁰

: P [X _i > 0] < 1 2 soit

H ₁

⁰⁰

: P [X _i > 0] > 1 2 .

Remarque 1.1.2. Plus g´ en´ eralement ce test permet de tester l’hypoth` ese nulle H 0 : m _e = m ₀ ou de fa¸con ´ equivalente P [X _i > 0] = p

contre

H 1 : m _e 6= m ₀ ou de fa¸con ´ equivalente P [X _i > 0] 6= p.

o` u m ₀ est un nombre r´ eel et p est une constante comprise entre 0 et 1, ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative

H

⁰

1 : m _e < m ₀

ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative H

⁰⁰

₁ : m _e > m ₀

Pour cela il suffit de consid´ erer l’´ echantillon Z ₁ , . . . , Z _n avec Z _i = X _i − m ₀ et de lui appliquer le test d´ ecrit ci-dessous.

Statistique : S _n d´ esigne le nombre de variables X _i , 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.1.1. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire S _n suit exactement une loi binomiale B (n, p) de param` etres n et p.

Concr` etement cette hypoth` ese nulle H 0 signifie que l’effectif de l’´ echantillon consid´ er´ e est faible devant celui de la population dont il est issu.

Remarque 1.1.3. Nous pourrons prendre comme taille limite des ´ echantillons dont les effectifs sont inf´ erieurs ` a une fraction de 1/10 de la population. Dans ce cas nous pouvons assimiler les tirages r´ ealis´ es ici ` a des tirages avec remise.

Cas le plus souvent utilis´ e : p =1/2. Nous nous proposons de tester : Hypoth` eses :

H 0 : P [X _i > 0] = 1 2 contre H 1 : P [X _i > 0] 6= 1

2 .

(7)

1.1 Les tests non param´ etriques sur un ´ echantillon

Statistique : S n d´ esigne le nombre de variables X i , 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.1.2. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire S _n a les trois propri´ et´ es suivantes :

1. La variable al´ eatoire S _n suit une loi binomiale B (n, 1/2) de param` etres n et 1/2. De ce fait, d´ ecoule les deux propri´ et´ es suivantes :

2. E [S _n ] = n/2.

3. Var [S _n ] = n/4.

Cette distribution binomiale est sym´ etrique. Pour n grand (n > 40), nous pouvons utiliser l’approximation normale avec correction de continuit´ e :

P H

0

[S n 6 h] = P H

0

[S n > n − h] = Φ(2h + 1 − n)

√ n o` u Φ est la fonction de r´ epartition d’une loi normale centr´ ee r´ eduite.

D´ ecision 1.1.1. Pour un seuil α donn´ e (= α = 5% = 0, 05 en g´ en´ eral), nous cherchons le plus grand entier s ^? _α tel que P [Y 6 s ^? _α ] 6 α/2 o` u Y suit une loi binomiale B (n, 1/2) de param` etres n et 1/2. Alors nous d´ ecidons :

H 1 est vraie si S n,obs ∈]s / ^? _α , n − s ^? _α [ H 0 est vraie si S _n,obs ∈]s ^? _α , n − s ^? _α [.

Remarque 1.1.4. Le niveau de signification r´ eel du test est alors ´ egal ` a 2 P [Y 6 s ^? _α ] qui est g´ en´ eralement diff´ erent de α.

Remarque 1.1.5. Pour voir un exemple, nous renvoyons ` a la feuille de travaux dirig´ es qui sera trait´ ee lors de la premi` ere s´ eance de travaux dirig´ es.

1.1.2. Test des rangs sign´ es de Wilcoxon

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X ₁ , . . . , X _n d’une loi continue F dont la valeur m´ ediane est not´ ee m e et la moyenne µ.

Hypoth` eses : Le test des rangs sign´ es permet de tester l’hypoth` ese nulle H 0 : La loi continue F est sym´ etrique en 0

contre

H 1 : La loi continue F n’est pas sym´ etrique en 0.

De plus, si nous savons que la loi continue F est sym´ etrique, alors le test des rangs sign´ es de Wilcoxon devient

H 0 : µ = µ ₀ contre H 1 : µ 6= µ ₀ .

Ici µ ₀ est un nombre r´ eel et ce jeu d’hypoth` eses permet alors de s’int´ eresser ` a la moyenne

de la loi continue F .

(8)

1.1.2.1. Cas o` u il n’y a pas d’ex æquo.

Soit x ₁ , . . . , x _n n r´ ealisations de l’´ echantillon pr´ ec´ edent. ` A chaque x _i nous attribuons le rang r ^a _i qui correspond au rang de |x _i | lorsque que les n r´ ealisations sont class´ ees par ordre croissant de leurs valeurs absolues.

Statistique : Nous d´ eterminons alors la somme w des rangs r _i ^a des seules observations positives. La statistique W _n ⁺ des rangs sign´ es de Wilcoxon est la variable al´ eatoire qui prend pour valeur la somme w. Par cons´ equent, la statistique W _n ⁺ des rangs sign´ es de Wilcoxon s’´ ecrit

W _n ⁺ = X 1 6 i 6 n

X _i > 0 R ^a _i .

Propri´ et´ es 1.1.3. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire W _n ⁺ a les trois propri´ et´ es suivantes :

1. W _n ⁺ est sym´ etrique autour de sa valeur moyenne E [W _n ⁺ ] = n(n + 1)/4.

2. Var [W _n ⁺ ] = n(n + 1)(2n + 1)/24.

3. Elle est tabul´ ee pour de faibles valeurs de n. Pour n > 15, nous avons l’approxima- tion normale avec correction de continuit´ e :

P

W _n ⁺ 6 w

= Φ w + 0, 5 − n(n + 1)/4 p n(n + 1)(2n + 1)/24

!

o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.

D´ ecision 1.1.2.

– Premier cas : Pour tester l’hypoth` ese nulle « H 0 : La loi continue F est sym´ etrique en 0 » contre l’hypoth` ese alternative « H 1 : La loi continue F n’est pas sym´ etrique en 0 » pour un seuil donn´ e α, nous cherchons l’entier w _α tel que P [W _n ⁺ 6 w _α ] ≈ α/2.

Alors nous d´ ecidons :

H 1 est vraie si W _n,obs ⁺ ∈]w / α + 1, n(n + 1)/2 − w α − 1[, H 0 est vraie si W _n,obs ⁺ ∈]w _α + 1, n(n + 1)/2 − w _α − 1[.

– Second cas : Pour tester l’hypoth` ese nulle « H 0 : µ = µ ₀ », nous introduisons l’´ echantillon Z ₁ , . . . , Z _n avec Z _i = X _i − µ, 1 6 i 6 n.

1.1.2.2. Cas o` u il y a des ex æquo.

Les observations x ₁ , . . . , x _n peuvent pr´ esenter des ex æquo et a fortiori leurs valeurs

absolues. Il s’agit en particulier du cas o` u la loi F est discr` ete. Deux proc´ edures sont alors

employ´ ees.

(9)

1.1 Les tests non param´ etriques sur un ´ echantillon

• M´ ethode de d´ epartition des ex æquo

Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A cha- cune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

En associant ` a l’observation X _i son rang moyen R ^a _i

^?

dans le classement des valeurs absolues et en sommant tous les rangs pour lesquels X _i > 0 nous obtenons la statistique :

W _n ^+? = X 1 6 i 6 n

X _i > 0

R ^a _i

^?

.

Les valeurs absolues observ´ ees |x ₁ |, . . . , |x _n | ´ etant ordonn´ ees puis regroup´ ees en classes d’ex æquo, C ₀ pour la premi` ere classe qui est constitu´ ee des nombres |x _i | nuls, s’il en existe, et C j , 1 6 j 6 h pour les autres nombres, certaines classes C j

pouvant comporter un seul ´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d _j le nombre d’ex æquo de la classe C _j . Nous avons

d ₀ +

h

X

j=1

d _j = n.

Sous l’hypoth` ese nulle H 0 et si n > 15, il est d’usage d’utiliser l’approximation normale

W _n ^+? − m ^?

σ ^? ≈ N (0, 1) o` u

m ^? = 1

4 (n(n + 1) − d ₀ (d ₀ + 1)) et

(σ ^? ) ² = 1

24 (n(n + 1)(2n + 1) − d 0 (d 0 + 1)(2d 0 + 1)) − 1 48

h

X

j=1

d ³ _j − d j

.

Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens, nous ne pouvons pas

utiliser les tables statistiques usuelles qui concernent la distribution de la variable

al´ eatoire W _n ⁺ .

(10)

1.2. Les tests non param´ etriques sur deux ´ echantil- lons

1.2.1. Les ´ echantillons sont ind´ ependants : Test de Mann-Whi- tney

Nous observons, de mani` ere ind´ ependante, une variable Y , continue, sur deux populations, ou sur une population divis´ ee en deux sous-populations. Nous notons L i la loi de Y sur la (sous-)population d’ordre i. Nous allons pr´ esenter le test :

Hypoth` eses :

H 0 : Les deux lois L i sont ´ egales ou encore de fa¸con ´ equivalente : L 1 = L 2

contre

H 1 : Les deux lois L i ne sont pas ´ egales ou encore de fa¸con ´ equivalente : L 1 6= L 2 . 1.2.1.1. Cas o` u il n’y a pas d’ex aequo.

Statistique : Pour obtenir la statistique du test not´ ee U en g´ en´ eral, nous devons proc´ eder

`

a des ´ etapes successives :

1. En se pla¸cant sous l’hypoth` ese nulle H 0 , nous classons par ordre croissant l’en- semble des observations des deux ´ echantillons (x ₁ , . . . , x _n

₁

) et (y ₁ , . . . , y _n

₂

) de taille respective n 1 et n 2 .

2. Nous affectons le rang correspondant.

3. Nous effectuons la somme des rangs pour chacun des deux ´ echantillons, not´ es R ₁ et R ₂ .

4. Nous en d´ eduisons les quantit´ es U ₁ et U ₂ qui se calculent ainsi : (1.2.1) U _n

₁

= n ₁ × n ₂ + n ₁ (n ₁ + 1)

2 − R ₁

et

(1.2.2) U n

2

= n 1 × n 2 + n ₂ (n ₂ + 1)

2 − R 2 = n 1 × n 2 − U 1 .

La plus petite des deux valeurs U n

1

et U n

2

, not´ ee U n

1

,n

2

, est utilis´ ee pour tester l’hypoth` ese nulle H 0 .

Propri´ et´ es 1.2.1. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire U _n

₁

_,n

₂

a les trois propri´ et´ es suivantes :

1. E [U _n

₁

_,n

₂

] = (n ₁ × n ₂ )/2.

2. Var [U _n

₁

_,n

₂

] = (n ₁ × n ₂ )(n ₁ + n ₂ + 1)/12.

(11)

1.2 Les tests non param´ etriques sur deux ´ echantillons

3. La variable al´ eatoire U n

1

,n

2

est tabul´ ee pour de faibles valeurs de n. Pour n > 20, nous avons l’approximation normale :

P [U _n

₁

_,n

₂

6 u] = Φ u − (n ₁ × n ₂ )/2 p (n ₁ × n ₂ )(n ₁ + n ₂ + 1)/12

!

o` u Φ est la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.

D´ ecision 1.2.1.

– Premier cas : Si les tailles n 1 ou n 2 sont inf´ erieures ` a 20. Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de Mann-Whitney nous fournit une valeur critique c. Alors nous d´ ecidons :

H 1 est vraie si U _n

₁

_,n

₂

_,obs 6 c, H 0 est vraie si U _n

₁

_,n

₂

_,obs > c.

– Second cas : Si les tailles n ₁ et n ₂ sont sup´ erieures ` a 20, alors la quantit´ e est d´ ecrite approximativement par une loi normale et nous utilisons alors le test de l’´ ecart r´ eduit :

Z _n

₁

_,n

₂

= U _n

₁

_,n

₂

− (n ₁ × n ₂ )/2 p (n ₁ × n ₂ )(n ₁ + n ₂ + 1)/12 .

Pour un seuil donn´ e α (= 5% = 0, 05 en g´ en´ eral), la table de la loi normale centr´ ee r´ eduite nous fournit une valeur critique c. Alors nous d´ ecidons :

H 1 est vraie si Z n

1

,n

2

,obs > c, H 0 est vraie si Z _n

₁

_,n

₂

_,obs < c.

1.2.1.2. Cas o` u il y a des ex æquo.

Les observations x ₁ , . . . , x _n

₁

, y ₁ , . . . , y _n

₂

peuvent pr´ esenter des ex æquo. Il s’agit en parti- culier du cas o` u les lois F et G dont sont issus les deux ´ echantillons sont discr` etes. Deux proc´ edures sont alors employ´ ees.

• M´ ethode de d´ epartition des ex æquo

Nous d´ epartageons les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et nous pouvons directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Les valeurs absolues observ´ ees x ₁ , . . . , x _n

₁

, y ₁ , . . . , y _n

₂

´ etant ordonn´ ees puis regroup´ ees en h classes d’ex æquo C _j , 1 6 j 6 h, certaines classes C _j pouvant comporter un seul

´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d _j le nombre d’ex æquo de la classe

(12)

C _j . Nous avons

h

X

j=1

d _j = n ₁ + n ₂ .

En associant ` a l’observation X _i son rang moyen R _i ^? dans ce classement et en sommant tous les rangs de tous les X i , on obtient la statistique :

U _n ^?

1

,n

2

=

n

2

X

i=1

R ^? _i .

Sous l’hypoth` ese nulle H 0 : « X et Y ont la mˆ eme distribution » et pour n ₁ > 15 et n ₂ > 15, il est d’usage d’utiliser l’approximation normale

U _n ^?

₁

_,n

₂

− m ^?

σ ^? ≈ N (0, 1) o` u

m ^? = 1

2 (n ₁ (n ₁ + n ₂ + 1)) et

(σ ^? ) ² = 1

12 (n ₁ n ₂ (n ₁ + n ₂ + 1)) − 1 12

n ₁ n ₂

(n ₁ + n ₂ )(n ₁ + n ₂ − 1)

h

X

j=1

d ³ _j − d _j .

Dans le cas o` u nous utilisons cette m´ ethode des rangs moyens nous ne pouvons pas uti- liser les tables statistiques usuelles qui concernent la distribution de la variable al´ eatoire U n

1

,n

2

.

1.2.2. Les ´ echantillons sont ind´ ependants : Test de la m´ ediane de Mood

On consid` ere deux ´ echantillons ind´ ependants (X 1 , . . . , X n

1

) et (Y 1 , . . . , Y n

2

).

(X ₁ , . . . , X _n

₁

) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi conti- nue F et (Y ₁ , . . . , Y _n

₂

) est un ´ echantillon ind´ ependant et identiquement distribu´ e d’une loi continue G.

Apr` es regroupement des n ₁ + n ₂ valeurs des deux ´ echantillons, n ₁ × M _N est le nombre d’observations X i qui sont sup´ erieures ` a la m´ ediane des N = n 1 + n 2 observations.

Sous l’hypoth` ese nulle H 0 : « Les variables X et Y suivent la mˆ eme loi continue c’est-` a-dire G = F », la variable n 1 × M N peut prendre les valeurs 0, 1, . . . , n 1 selon la distribution hyperg´ eom´ etrique suivante :

P [n ₁ × M _N = k] = C _n ^k

₁

C n ^N/2−k

2

C _N ^N/2 .

(13)

1.2 Les tests non param´ etriques sur deux ´ echantillons Ainsi on a :

E [n ₁ × M _N ] = n ₁ (n ₁ + n ₂ − _N ) 2N

Var [n ₁ × M _N ] = n ₁ n ₂ (n ₁ + n ₂ + 1)

4(n ₁ + n ₂ − 1 + _N )(n ₁ + n ₂ + 1 − _N ) , o` u _N = 0 si N est pair et _N = 1 si N est impair.

Lorsque n 1 et n 2 sont grands, c’est-` a-dire n 1 > 25 et n 2 > 25, on utilise l’approximation normale :

n ₁ × M _N − E [n ₁ × M _N ]

p Var [n 1 × M N ] ≈ N (0, 1) avec correction de continuit´ e.

La distribution est sym´ etrique lorsque N est pair.

Pour tester l’hypoth` ese nulle H 0 : « G = F » contre H 1 : « G 6= F » avec un niveau de signification ´ egal ` a α, on cherche les entiers k _α et k _α

⁰

tels que P [n ₁ × M _N 6 k _α ] ≈ α/2 et P

n 1 × M N > n 1 − k

⁰

_α

≈ α/2, puis on rejette l’hypoth` ese nulle H 0 si la r´ ealisation de la statistique du test calcul´ ee ` a l’aide de l’´ echantillon n’est pas dans l’intervalle [k _α , k

⁰

_α ].

Cette statistique permet ´ egalement de r´ ealiser des tests unilat´ eraux.

1.2.3. Les ´ echantillons sont d´ ependants : Test de Wilcoxon

Nous consid´ erons deux variables al´ eatoires X et Y , de mˆ eme nature, observ´ ees toutes les deux sur les mˆ emes unit´ es d’un n-´ echantillon. Les observations se pr´ esentent alors sous la forme d’une suite de couples (x 1 , y 1 ), . . . , (x n , y n ). Ce test concerne les lois des deux variables. Pour ce faire nous testons :

Hypoth` eses :

H 0 : Les deux lois sont ´ egales ou encore de fa¸con ´ equivalente L (X) = L (Y ) contre

H 1 : Les deux lois ne sont pas ´ egales ou encore de fa¸con ´ equivalente L (X) 6= L (Y ).

1.2.3.1. Cas o` u il n’y a pas d’ex aequo.

Statistique : Pour obtenir la statistique du test not´ ee S ⁺ en g´ en´ eral, nous devons proc´ eder ` a des ´ etapes successives :

1. Ce test suppose que la loi de la diff´ erence entre les deux variables ´ etudi´ ees est

sym´ etrique par rapport ` a 0.

(14)

2. Apr` es avoir calcul´ e les diff´ erences d i , nous classons par ordre croissant les |d i | non nulles, c’est-` a-dire les d _i sans tenir compte des signes.

3. Nous attribuons ` a chaque |d _i | le rang correspondant.

4. Nous restituons ensuite ` a chaque rang le signe de la diff´ erence correspondante.

5. Enfin, nous calculons la somme S ⁺ des rangs positifs (P ) et la somme S ⁻ des rangs n´ egatifs (M ).

La somme S ⁺ des rangs positifs (P ) permet de tester l’hypoth` ese nulle H 0 . D´ ecision 1.2.2.

– Premier cas : Si n < 15, nous utilisons une table et nous comparons la valeur de (S ⁺ )

`

a la valeur critique c associ´ ee au seuil α du test.

– Second cas : Si n > 15, nous utilisons l’approximation normale avec correction de continuit´ e :

P H

⁰

S ⁺ 6 h

≈ Φ h + 0, 5 − n(n + 1)/4 p (n(n + 1)(2n + 1))/24

!

o` u Φ est la fonction de r´ epartition d’un loi normale centr´ ee r´ eduite.

1.2.3.2. Cas o` u il y a des ex æquo.

Il se traite de la mˆ eme mani` ere que pour la statistique de Wilcoxon pour un ´ echantillon, voir le paragraphe 1.1.2.

1.3. Les tests non param´ etriques sur k ´ echantillons : 1 facteur

1.3.1. Les ´ echantillons sont ind´ ependants : Test de Kruskal- Wallis

On suppose que l’on dispose de k ´ echantillons ind´ ependants et identiquement distribu´ es (X 1,1 , . . . , X 1,n

1

), . . . , (X k,1 , . . . , X k,n

_k

). La distribution du i−` eme ´ echantillon est not´ ee F i . On admet a priori que F _i (x) = G(x − α _i ) o` u G est une fonction de r´ epartition inconnue mais continue de moyenne µ et les α _i sont des nombres r´ eels. Ainsi on suppose que le seul param` etre qui diff` ere d’une distribution F i ` a l’autre est un param` etre de position α i . C’est pourquoi mˆ eme lorsque vous effectuez un test de Kruskal-Wallis vous devez vous assurer que vous pouvez au moins supposer que les variances des variables sont ´ egales d’un

´

echantillon ` a l’autre ` a l’aide d’un test non param´ etrique de Levene d’´ egalit´ e des variances.

Les hypoth` eses ci-dessus impliquent que l’on peut ´ ecrire, pour tout 1 6 i 6 k la d´ ecom- position suivante :

X _i,j = µ + α _i + _i,j , 1 6 j 6 n _i ,

(15)

1.3 Les tests non param´ etriques sur k ´ echantillons : 1 facteur

les N =

k

X

i=1

n _i variables al´ eatoires _i,j ´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.

1.3.1.1. Cas o` u il n’y a pas d’ex æquo.

La variable KW _N de Kruskal-Wallis est utilis´ ee pour tester l’hypoth` ese H 0 : α 1 = . . . = α k = 0

contre

H 1 : Il existe au moins un i ₀ tel que α _i

₀

6= 0.

On commence par calculer le rang R _i,j de X _i,j parmi les N valeurs, puis la somme des rangs associ´ ee ` a chaque ´ echantillon : R i,• =

n

i

X

j=1

R _i,j et enfin la moyenne des rangs de chaque ´ echantillon : R i,• = R i,•

n _i .

La statistique de Krukal-Wallis KW _N prend en compte l’´ ecart entre la moyenne des rangs de chaque ´ echantillon et la moyenne de tous les rangs, qui vaut (N + 1)/2 :

KW _N = 12

N (N + 1)

k

X

i=1

n _i

R i,• − N + 1 2

.

Sous l’hypoth` ese nulle H 0 : « X ₁ , . . . , X _k ont la mˆ eme distribution continue », qui dans notre cas est ´ equivalente ` a H 0 : « α ₁ = . . . = α _k = 0 », il est possible de d´ eterminer la distribution de KW _N bien que le calcul soit complexe.

– Si l’un des effectifs n i , 1 6 i 6 k, est inf´ erieur ou ´ egal ` a 4, on utilise une table sp´ ecifique.

– Si n _i > 5, pout tout 1 6 i 6 k on utilise l’approximation KW _N ≈ χ ² _k−1 .

Pour un seuil de signification de α, on d´ etermine c _α tel que P [KW _N > c _α ] ∼ = α et l’on rejette l’hypoth` ese nulle H 0 lorsque la valeur prise par KW _N est sup´ erieure ` a c _α .

1.3.1.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un

rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent

et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

(16)

• M´ ethode des rangs moyens

A chaque nombre appartenant ` ` a un groupe d’ex æquo on attribue le rang moyen du groupe auquel il appartient puis on d´ etermine la somme T =

h

X

l=1

(t ³ _l − t l ) o` u t l d´ esigne le nombre d’´ el´ ements du l−` eme groupe d’ex æquo. Il est d’usage de substituer ` a KW _N la variable KW _N ^? d´ efinie par :

KW _N ^? = KW _N

1 − T

N ³ − N .

Comparaisons multiples

Si l’on rejette l’hypoth` ese nulle H 0 : « α ₁ = . . . = α _k = 0 » d’absence de diff´ erence entre les distributions F _i des k ´ echantillons, on peut ˆ etre amen´ e ` a se demander quelles sont les distributions qui sont diff´ erentes.

On d´ ecide que deux distributions F _i et F _i

⁰

sont significativement diff´ erentes au seuil α si :

R i,• − R _i

⁰

_,•

> p

χ ² (k − 1, 1 − α)

r N (N + 1) 12

s 1 n _i + 1

n _i

⁰

,

o` u χ ² (k − 1, 1 − α) est le 100(1 − α) quantile de la loi du χ ² ` a k − 1 degr´ es de libert´ e.

On d´ ecide qu’au seuil global α deux distributions F _i et F _i

⁰

, parmi les k(k − 1) com- paraisons que l’on va faire, sont significativement diff´ erentes si :

R i,• − R _i

⁰

_,•

> u

1 − α

k(k − 1)

r N (N + 1) 12

s 1 n _i + 1

n _i

⁰

,

o` u u

1 − α

k(k − 1)

est le 100

1 − α

k(k − 1)

quantile de la loi normale centr´ ee r´ eduite.

Il s’agit d’une application des in´ egalit´ es de Bonferroni ² . Cette proc´ edure est plus puissante que la pr´ ec´ edente.

On d´ ecide qu’au seuil global α deux distributions F i et F _i

⁰

, parmi les k(k − 1) com- paraisons que l’on va faire, sont significativement diff´ erentes si :

2

On pourra consulter le cours sur les mod` eles d’analyse de la variance pour plus de d´ etails sur les

proc´ edures de comparaisons multiples.

(17)

1.3 Les tests non param´ etriques sur k ´ echantillons : 1 facteur

R i,• − R _i

⁰

_,•

> q(k, +∞, 1 − α)

r N (N + 1) 12

s 1 2

1 n _i + 1

n _i

⁰

,

o` u q(k, +∞, 1 − α) est le 100(1 − α) quantile de la loi de l’´ etendue studentis´ ee pour k moyennes et +∞ degr´ es de libert´ e. Il s’agit d’une proc´ edure analogue ` a celle de Tukey- Kramer ² dans le cas param´ etrique et valide asymptotiquement. Elle est g´ en´ eralement plus puissante que les deux approches pr´ ec´ edentes.

1.3.2. Les ´ echantillons sont ind´ ependants : Test de Jonckheere- Terpstra

La statistique J _N de Jonckheere-Terpstra permet de raffiner l’approche de la statistique KW _N de Kruskal-Wallis : supposons que les k modalit´ es du facteur pour lequel on a r´ ealis´ e les exp´ eriences soient naturellement ordonn´ ees. C’est par exemple le cas dans la situation suivante : vous souhaitez trouver la dose optimale d’engrais ` a utiliser pour am´ eliorer un rendement. Vous allez donc r´ ealiser des exp´ eriences avec des doses de plus en plus im- portantes d’engrais et les modalit´ es de votre facteur explicatif seront donc naturellement ordonn´ ees par la quantit´ e croissante d’engrais utilis´ e.

La statistique J _N de Jonckheere-Terpstra permet de tester l’hypoth` ese : H 0 : α ₁ = . . . = α _k = 0

contre

H 1 : α ₁ 6 . . . 6 α _k = 0 et il existe au moins un i ₀ tel que α _i

₀

< α _i

₀

₊₁ . 1.3.2.1. Cas o` u il n’y a pas d’ex æquo.

La statistique J _N est construite ` a l’aide de toutes les variables de Mann-Whitney U _i,j , associ´ ees ` a l’´ echantillon i et l’´ echantillon j, lorsque 1 6 i < j 6 k :

J _N = X

16i<j6k

U _i,j . Sous l’hypoth` ese nulle H 0 : « α ₁ = . . . = α _k = 0 » : – L’esp´ erance et la variance de la statistique J _N sont :

E [J _N ] =

N ² −

k

X

i=1

n ² _i

4 ,

Var[J N ] = 1

72 N ² (3 + 2N ) −

k

X

i=1

n ² _i (3 + 2n i )

!

.

(18)

– Les valeurs critiques de la statistique J N sont tabul´ ees pour de faibles valeurs de k et des n _i .

– Lorsque n _i > 5, pour tout 1 6 i 6 k, on a l’approximation normale avec correction de continuit´ e :

J _N − E [J _n ]

p Var [J _N ] ≈ N (0, 1) .

On cherche l’entier φ _α tel que P [J _N > φ _α ] ≈ α puis on rejette l’hypoth` ese nulle H 0 au seuil α si la valeur prise par la statistique J _N est sup´ erieure ou ´ egale ` a φ _α .

1.3.2.2. Cas o` u il y a des ex æquo.

On peut utiliser une m´ ethode de d´ epartition des ex æquo ou des tests de Mann-Whitney bas´ es sur des rangs moyens, l’inconvient de la seconde m´ ethode ´ etant qu’on ne peut uti- liser les mˆ emes tables qu’en absence d’ex æquo.

1.3.3. Les ´ echantillons ne sont pas ind´ ependants : Test de Fried- man

On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur ne sont pas ind´ ependants.

Individu Facteur A 1 · · · n 1 x _1,1 · · · x _n,1

.. . .. . .. . .. . k x _1,k · · · x _n,k On construit alors le tableau des rangs :

Individu Facteur A Total

1 · · · n

1 r _1,1 · · · r _n,1 n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r _1,k · · · r _n,k n(n + 1)/2 Total r _1,• · · · r _n,• kn(n + 1)/2

Si on est en pr´ esence de r´ ep´ etitions x _i,j,k on remplace x _i,j par la moyenne x _i,j des valeurs pour chaque cas o` u il y a des r´ ep´ etitions.

On cherche alors ` a tester l’hypoth` ese :

(19)

1.3 Les tests non param´ etriques sur k ´ echantillons : 1 facteur H 0 : Les niveaux du facteur ont tous la mˆ eme influence

contre

H 1 : Les niveaux du facteur n’ont pas tous la mˆ eme influence.

1.3.3.1. Cas o` u il n’y a pas d’ex æquo.

La statistique de Friedman F _k,n est d´ efinie par : F _k,n = 12k

n(n + 1)

n

X

i=1

R i,•

k − n + 1 2

2 = 12

kn(n + 1)

n

X

i=1

R ² _i,• − 3k(n + 1).

On admet que sous l’hypoth` ese nulle H 0 : « Les niveaux du facteur ont tous la mˆ eme influence » les distributions pour chaque individu ne diff` erent que par un param` etre de position, ce que l’on peut v´ erifier par un test non param´ etrique de Levene par exemple.

– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W _k,n de Kendall car la statistique de Friedman F k,n = k(n − 1)W k,n .

– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F _k,n ≈ χ ² _n−1 .

On rejettera l’hypoth` ese nulle H 0 si la valeur prise par F _k,n est trop grande.

1.3.3.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.

Lorsque le classement num´ ero m a h _m groupes d’ex æquo, on lui attribue la somme T _m =

h

m

X

l=1

t ³ _l,m − t _l,m

o` u t _l,m d´ esigne le nombre d’´ el´ ements du l−` eme de ces h _m groupes.

S’il n’y a pas d’ex æquo on a ´ evidemment T _m = 0 puisque la r´ epartition des n entiers du

(20)

classement en classes de nombres ´ egaux donne h m = n et t l,m = 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :

F _k,n ^? = 12k(n − 1) n ³ − n

− 1 k

k

X

m=1

T _m

n

X

l=1

R l,•

k − n + 1 2

2 = 1

1 − 1

(n ³ − n) 1 k

k

X

m=1

T m

12k n(n + 1)

n

X

l=1

R l,•

k − n + 1 2

2 .

On en d´ eduit que :

F _k,n ^? = F _k,n

1 − 1

(n ³ − n) 1 k

k

X

m=1

T _m .

1.4. Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs

1.4.1. Les ´ echantillons sont ind´ ependants : Test de Friedman

On se place ici dans le cas o` u les ´ echantillons utilis´ es pour tester l’influence d’un facteur sont ind´ ependants.

Facteur B Facteur A 1 · · · n 1 x _1,1 · · · x _n,1

.. . .. . .. . .. . k x _1,k · · · x _n,k On construit alors le tableau des rangs :

Facteur B Facteur A Total

1 · · · n

1 r _1,1 · · · r _n,1 n(n + 1)/2

.. . .. . .. . .. . n(n + 1)/2

k r _1,k · · · r _n,k n(n + 1)/2

Total r _1,• · · · r _n,• kn(n + 1)/2

(21)

1.4 Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs

Si on est en pr´ esence de r´ ep´ etitions x i,j,k on remplace x i,j par la moyenne x i,j des valeurs pour chaque cas o` u il y a des r´ ep´ etitions.

On admet a priori que l’influence des couples de niveaux (A i , B j ) des facteurs A et B, pour 1 6 i 6 n, 1 6 j 6 k, se traduit par une d´ ecomposition de la forme :

X _i,j = µ + α _i + β _j + _i,j , 1 6 i 6 n, 1 6 j 6 k avec

n

X

i=1

α _i = 0 et

k

X

j=1

β _j = 0. Les N =

n

X

i=1

k = n × k variables al´ eatoires _i,j ´ etant ind´ ependantes et ayant une mˆ eme distribution inconnue et de moyenne nulle.

1.4.1.1. Cas o` u il n’y a pas d’ex æquo.

La variable F k,n de Friedman est utilis´ ee pour tester l’hypoth` ese H 0 : α ₁ = . . . = α _n = 0

contre

H 1 : Il existe au moins un i ₀ tel que α _i

₀

6= 0.

On commence par calculer le rang R i,j de X i,j parmi les n valeurs de la colonne i, puis la somme des rangs associ´ ee ` a chaque colonne : R i,• =

k

X

j=1

R _i,j et enfin la moyenne des rangs de chaque colonne : R _i,• = R i,•

k .

La statistique de Friedman F _k,n est d´ efinie par : F k,n = 12k

n(n + 1)

n

X

i=1

R _i,•

k − n + 1 2

2 = 12

kn(n + 1)

n

X

i=1

R ² _i,• − 3k(n + 1).

– Pour de petites valeurs de k on utilise une table sp´ ecifique. Il se peut que l’on vous fournisse une table du coefficient de concordance W k,n de Kendall car F k,n = k(n − 1)W _k,n .

– Pour des valeurs de k assez grandes on utilise l’approximation asymptotique suivante : F _k,n ≈ χ ² _n−1 .

On rejettera l’hypoth` ese nulle H 0 si la valeur prise par la statistique de Friedman F _k,n est trop grande.

Si l’on voulait ´ egalement tester l’influence du facteur B on aurait analys´ e les tableaux

ci-dessous avec la mˆ eme m´ ethode.

(22)

Facteur A Facteur B 1 · · · n 1 x _1,1 · · · x _n,1

.. . .. . .. . .. . k x _1,k · · · x _n,k

Facteur A Facteur B Total

1 · · · n

1 r _1,1 · · · r _n,1 n(n + 1)/2 .. . .. . .. . .. . n(n + 1)/2 k r _1,k · · · r _n,k n(n + 1)/2 Total r 1,• · · · r n,• kn(n + 1)/2

Comme on a ´ echang´ e le rˆ ole du facteur A et du facteur B on teste maintenant : H 0 : Les niveaux du facteur B ont tous la mˆ eme influence

contre

H 1 : Les niveaux du facteur B n’ont pas tous la mˆ eme influence.

On ne peut pas tester l’existence d’une interaction par cette m´ ethode puisque le mod` ele utilis´ e ne comporte pas de terme d’interaction. Il existe d’autres tests pour ´ etudier l’exis- tence d’une interaction.

1.4.1.2. Cas o` u il y a des ex æquo.

• M´ ethode de d´ epartition des ex æquo

On d´ epartage les ex æquo ` a l’aide d’une table de nombres al´ eatoires. ` A chacune des valeurs

´

egales on associe un entier au hasard puis on affecte, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation. Ainsi chacun des rangs des observations est diff´ erent et on peut directement appliquer les r´ esultats du paragraphe pr´ ec´ edent.

• M´ ethode des rangs moyens

Dans chaque classement pr´ esentant des ex æquo on attribue ` a chacun de ceux-ci le rang moyen du groupe d’ex æquo auquel il appartient et qui n’est pas n´ ecessairement un entier.

Lorsque le classement num´ ero m a h _m groupes d’ex æquo, on lui attribue la somme T _m =

h

m

X

l=1

t ³ _l,m − t _l,m

o` u t _l,m d´ esigne le nombre d’´ el´ ements du l−` eme de ces h _m groupes.

S’il n’y a pas d’ex æquo on a ´ evidemment T _m = 0 puisque la r´ epartition des n entiers du

(23)

1.4 Les tests non param´ etriques sur nk ´ echantillons : 2 facteurs

classement en classes de nombres ´ egaux donne h m = n et t l,m = 1 pour tout l. Alors la statistique de Friedman corrig´ ee est d´ efinie par :

F _k,n ^? = 12k(n − 1) n ³ − n

− 1 k

k

X

m=1

T _m

n

X

l=1

R _l,•

k − n + 1 2

2 = 1

1 − 1

(n ³ − n) 1 k

k

X

m=1

T _m 12k n(n + 1)

n

X

l=1

R l,•

k − n + 1 2

2 .

On en d´ eduit que :

F _k,n ^? = F _k,n

1 − 1

(n ³ − n) 1 k

k

X

m=1

T _m

.

(24)

(25)

Chapitre 2

Valeurs non repr´ esentatives. ¹

2.1. Valeurs extrˆ emes, valeurs non repr´ esentatives

La plupart des distributions statistiques ont la majeure partie de leurs r´ ealisations com- prises dans un intervalle d’une largeur de 6 ´ ecarts types autour de la moyenne µ. Par exemple dans le cas de la loi normale de param` etres µ et σ, la probabilit´ e d’obtenir une valeur dans un intervalle [µ − 3σ, µ + 3σ] est de 99,8 %. Il ne faut pas d´ eduire de cette propri´ et´ e que l’on n’observera jamais de r´ ealisations se trouvant en dehors de cet inter- valle dans la pratique. En effet, bien que la soit probabilit´ e de se trouver face ` a une telle situation soit faible, elle n’est pas nulle. De surcroˆıt, plus l’effectif de l’´ echantillon est important, plus ce cas de figure est susceptible de se produire.

En effet, comme vous le savez, en notant X une variable al´ eatoire d’esp´ erance µ et d’´ ecart type σ et n le nombre de r´ ealisations de X que l’on consid` ere, la fr´ equence th´ eorique de l’´ ev` enement consid´ er´ e est

n × (1 − P [−3σ 6 X − µ 6 +3σ]) .

En consid´ erant le cas d’un loi normale de moyenne µ = 0 et d’´ ecart type σ = 1, on obtient :

n × (1 − P [−3 6 X 6 +3]) = n × 0, 00270.

Ainsi pour un effectif de 400 la fr´ equence attendue est de 1, 080.

Plus g´ en´ eralement, l’in´ egalit´ e de Bienaym´ e-Tchebychev, valable pour toute variable al´ ea- toire Y admettant une variance σ _Y ² , et par cons´ equent une moyenne µ _Y , permet d’obtenir

1

Les r´ ef´ erences [12], [14] ayant servi ` a l’´ elaboration de ce document sont mentionn´ ees dans la biblio-

graphie.

(26)

la relation non param´ etrique suivante :

Φ _Y (λ) = 1 − P [µ − λσ < Y < µ + λσ] 6 1 λ ² .

Ainsi pour toute variable al´ eatoire Y dont la loi est une distribution de probabilit´ e admet- tant une variance l’´ ev` enement P [|Y − µ| > 2σ] a au plus une probabilit´ e de 1/4 = 0, 25 et l’´ ev` enement P [|Y − µ| > 3σ] a au plus une probabilit´ e de 1/9 ≈ 0, 11. On note que cette estimation est trop pessimiste pour un emploi pratique et est donc exclusivement r´ eserv´ e au cas on l’on ne connaˆıt rien sur la loi de Y .

Exemple 2.1.1.

Dans le graphique ci-contre, la valeur de la probabilit´ e Φ _Y est r´ epr´ esent´ ee sur l’axe des ordonn´ ees en fonction de la valeur de λ qui varie selon l’axe des abscisses.

Trois courbes ont ´ et´ e trac´ ees, l’une associ´ ee ` a l’in´ egalit´ e de Bienaym´ e- Tchebychev, les deux autres ´ etant les valeurs exactes des probabilit´ es Φ _Y pour une loi normale centr´ ee- r´ eduite N (0, 1) et pour une loi exponentielle de moyenne 1, E (1).

2.2. Que v´ erifier ?

Lorsque que vous rencontrez ce type de valeurs dans un ´ echantillon vous devez avoir la r´ eaction suivante :

– L’hypoth` ese qui est faite sur la loi de ma variable al´ eatoire est-elle fond´ ee ? Une alterna- tive non param´ etrique ou robuste n’est-elle pas pr´ ef´ erable dans ma situation ? Certains des ph´ enom` enes que vous ´ etudiez sont connus pour avoir des mod´ elisations qui ont d´ ej` a ´ et´ e ´ etudi´ ees. Vous devez alors vous r´ ef´ erer ` a la bibliographie pour d´ eterminer si la mod´ elisation que l’on fait est en accord avec les connaissances a priori que l’on a du ph´ enom` ene.

– Si l’on utilise un mod` ele statistique, les autres hypoth` eses sous-jacentes au mod` ele sont-elles toutes v´ erifi´ ees ?

– Les donn´ ees sont-elles fiables ? Si vous les avez r´ ecolt´ ees, les conditions exp´ erimentales

´ etaient-elles semblables ` a celles que vous avez fix´ ees ou observ´ ees lors des autres essais ?

– Ne s’agit-il pas d’une simple erreur de copie et donc alors d’une valeur aberrante ?

(27)

2.3 Que faire avec une valeur potentiellement non-repr´ esentative ?

2.3. Que faire avec une valeur potentiellement non- repr´ esentative ?

Si vous soup¸connez une valeur d’ˆ etre une valeur non repr´ esentative, il existe plusieurs proc´ edures de tests possibles. Attention, il ne faut pas abuser de ces pratiques et ne les utiliser que pour des cas l´ egitimes. De plus si vous soup¸connez plusieurs valeurs d’ˆ etre des valeurs non repr´ esentatives, on verra par la suite comment il faut proc´ eder : il ne s’agit pas simplement de r´ ep´ eter le traitement d’une seule valeur non reprs´ eentative plusieurs fois de suite. Outre les probl` emes d’´ evaluation du risque de premi` ere esp` ece, la pr´ esence d’autre valeurs non repr´ esentatives peut fausser les r´ esultats des tests.

2.3.1. Notations

Soit x = (x ₁ , . . . , x _n ) un n−´ echantillon d’une variable al´ eatoire X.

On note x ₍₁₎ , . . . , x _(n) les valeurs x ₁ , . . . , x _n ordonn´ ees dans l’ordre croissant (x ₍₁₎ 6 x ₍₂₎ 6 . . . 6 x _(n) ). On note x _(•) ce nouvel ´ echantillon.

Le classement des valeurs de x ne change ni la valeur de la moyenne de l’´ echantillon, not´ ee x, ni celle de l’´ ¯ ecart type de l’´ echantillon, not´ e s(x). En effet on montre que :

¯

x = 1 n

n

X

i=1

x _i = 1 n

n

X

i=1

x _(i) = ¯ x (•) , s(x) = 1

n − 1

n

X

i=1

(x _i − x) ¯ ² = 1 n − 1

n

X

i=1

x _(i) − x ¯ (•)

2 = s(x (•) ).

On appelle variation d’un ´ echantillon x la quantit´ e VA(x) : VA(x) =

n

X

i=1

(x _i − x) ¯ ²

= (n − 1) s ² (x) = (n − 1) s ² (x (•) ) = VA(x (•) ).

La variation n’est pas affect´ ee par le classement des valeurs dans l’ordre croissant.

On appelle somme des carr´ es d’un ´ echantillon x la quantit´ e SC(x) : SC(x) =

n

X

i=1

x ² _i =

n

X

i=1

x ² _(i) = SC(x (•) ).

La somme des carr´ es n’est pas affect´ ee par le classement des valeurs dans l’ordre croissant.

On consid` erera syst´ ematiquement dans ce cours que X suit une loi normale. Il est

possible de r´ ealiser les mˆ emes types de tests pour des variables al´ eatoires qui suivent des

(28)

lois autres que la loi normale ; il faut alors utiliser d’autres valeurs critiques que celles qui vous ont ´ et´ e fournies.

2.3.2. Test de Grubbs pour une seule valeur non repr´ esentative

On construit les trois statistiques suivantes :

T = max (T 1 , T n ) , avec

T ₁ = (¯ x − x ₍₁₎ )

s ,

T _n = (x _(n) − x) ¯

s ,

o` u ¯ x est la moyenne de l’´ echantillon x = (x ₁ , . . . , x _n ) et s est son ´ ecart type, donc corrig´ e.

On utilise T ₁ ou T _n si l’on suspecte la pr´ esence d’une valeur non repr´ esentative dans une direction donn´ ee et T si l’on n’a pas d’id´ ee a priori sur la direction dans laquelle il pourrait y avoir une valeur non repr´ esentative. En effet T ₁ mesure la d´ eviation de la plus petite valeur de l’´ echantillon par rapport ` a la moyenne standardis´ ee par l’´ ecart type corrig´ e de l’´ echantillon. De mˆ eme T _n mesure la d´ eviation de la plus grande valeur de l’´ echantillon par rapport ` a la moyenne standardis´ ee par l’´ ecart type corrig´ e de l’´ echantillon.

On compare alors la valeur de T ₁ , T _n ou T avec la valeur de r´ ef´ erence correspondante de la table ad´ equate (Table de Grubbs). Ainsi pour T ₁ et T _n on prendra la valeur du (1 − α) % quantile et pour T celle du (1 − α/2) % quantile.

Exemple 2.3.1.

x _i x _(i) 0,26787 -7,61567 3,01367 -4,60385 -0,27047 -1,11060 -7,61567 -0,82072 -4,60385 -0,27047 0,54445 -0,10821 -0,10821 0,26787

1,99539 0,54445

-1,11060 1,99539

-0,82072 3,01367

(29)

2.3 Que faire avec une valeur potentiellement non-repr´ esentative ?

T 1 = 2, 85558 et T 10 = 0, 79458 donc T = 2, 85558. La valeur de T est sup´ erieure ` a celle de la table pour α = 5 % (2,290). On a donc d´ etect´ e une valeur non repr´ esentative. On en d´ eduit que x ₍₁₎ = −7, 61567 ou que x ₍₁₀₎ = 3, 01367 est une valeur non repr´ esentative avec un risque de premi` ere esp` ece de 5 %. On aurait pu proc´ eder uniquement au test de x ₍₁₎ ou respectivement de x ₍₁₀₎ ` a l’aide de la statistique T ₁ ou respectivement de T ₁₀ . Pour un risque de premi` ere esp` ece de 5 %, la valeur critique ` a utiliser avec les statistiques T ₁ et T 10 est de 2,176. On en d´ eduit que x ₍₁₎ = −7, 61567 est une valeur non repr´ esentative avec un risque de premi` ere esp` ece de 5 %.

. . . .

2.3.3. Test de Dixon pour une seule valeur non repr´ esentative

La statistique du test de Dixon pour d´ etecter une valeur non repr´ esentative parmi les grandes valeurs de l’´ echantillon, r _1,0 , est le rapport entre l’´ ecart entre les deux observa- tions les plus grandes et l’´ etendue de l’´ echantillon.

r _1,0 = x _(n) − x _(n−1) x _(n) − x ₍₁₎ .

La statistique du test de Dixon pour d´ etecter une valeur non repr´ esentative parmi les pe- tites valeurs de l’´ echantillon, r

⁰

_1,0 , est le rapport entre l’´ ecart entre les deux observations les plus petites et l’´ etendue de l’´ echantillon.

r _1,0

⁰

= x ₍₂₎ − x ₍₁₎ x _(n) − x ₍₁₎ .

En posant r = max(r 1,0 , r

⁰

_1,0 ), on obtient une statistique de test, r, permettant de tester la pr´ esence d’une valeur non rep´ esentative dans l’une des deux directions. On compare alors la valeur de r _1,0 , r

⁰

_1,0 ou r avec la valeur de r´ ef´ erence, au niveau α, de la table.

On note qu’il s’agit du test le plus simple ` a r´ ealiser en pratique puisqu’il ne n´ ecessite que peu de calculs.

Exemple 2.3.2.

On reprend les donn´ ees de l’exemple ci-dessus. On a alors :

x ₍₁₎ = −7, 61567,

x ₍₂₎ = −4, 60385,

x ₍₉₎ = 1, 99539,

x ₍₁₀₎ = 3, 01367,

x ₍₁₀₎ − x ₍₁₎ = 10, 62934.

(30)

On calcule :

r _1,0 = 0, 09580, r

⁰

_1,0 = 0, 28335, r = 0, 28335.

La valeur critique, pour α = 5 % et n = 10, est de 0,412 pour r _1,0 et r

⁰

_1,0 . Celle pour r est

´

egale ` a 0,469.

On constate qu’aucune des r´ ealisations des statistiques de test n’est sup´ erieure ` a la valeur critique au seuil α = 5 % qui lui est associ´ ee. Les tests ne sont donc pas significatifs. Ainsi pour ces proc´ edures de tests il n’y a pas de valeurs non repr´ esentatives.

Cette conclusion n’est pas la mˆ eme que celle du test de Grubbs. Afin de savoir quel cr´ edit on peut lui accorder on devrait calculer le risque de deuxi` eme esp` ece associ´ e ` a une telle d´ ecision. Malheusement sa d´ etermination n’est pas ais´ ee et on ne pourra le faire ici.

. . . .

On note que le test de Dixon propos´ e ci-avant ne parvient pas ` a d´ etecter ni la valeur non- repr´ esentative x ₍₁₀₎ de la partie sup´ erieure de l’´ echantillon, ni la valeur non-repr´ esentative x ₍₁₎ de la partie inf´ erieure de l’´ echantillon. Ceci peut ˆ etre dˆ u ` a un effet masquant li´ e aux valeurs de x ₍₁₎ , x ₍₂₎ et x ₍₉₎ .

On introduit alors les statistiques r _j,k suivantes qui permettent de ne pas tenir compte des j − 1 valeurs les plus fortes, x (n−1) , . . . , x (n−j+1) , et des k valeurs les plus faibles de l’´ echantillon, x ₍₁₎ , . . . , x _(k+1) , lors du test de la valeur x _(n) . En effet si celles-ci sont elles aussi non repr´ esentatives, cela peut fausser le r´ esultat du test.

r j,k = x _(n) − x (n−j)

x _(n) − x _(k+1) .

Sym´ etriquement, on introduit les statistiques r _j,k

⁰

pour la d´ etermination de la repr´ esentati- vit´ e de x ₍₁₎ sans tenir compte des valeurs les plus fortes ou les plus faibles.

r

⁰

_j,k = x _(j+1) − x ₍₁₎ x (n−k) − x ₍₁₎ . Quelles valeurs choisir pour les valeurs de j et de k ?

Dixon a formul´ e les recommandations d’utilisation suivantes. Si l’effectif n de l’´ echantillon est inf´ erieur ou ´ egal ` a 7, il faut utiliser j = 1 et k = 0. Si 8 6 n 6 14, il faut utiliser j = 2 et k = 1. Enfin si n > 15, il faut utiliser j = 2 et k = 2.

Exemple 2.3.3.

L’effectif de l’´ echantillon utilis´ e dans les exemples ci-dessus est de 10. On calcule donc r _2,1

et r _2,1

⁰

:

(31)

2.3 Que faire avec une valeur potentiellement non-repr´ esentative ?

r 2,1 = x ₍₁₀₎ − x ₍₈₎ x ₍₁₀₎ − x ₍₂₎

= 3, 01367 − 0, 54445

3, 01367 − (−4, 60385) = 0, 32415, r _2,1

⁰

= x ₍₃₎ − x ₍₁₎

x ₍₉₎ − x ₍₁₎

= −1, 11060 − (−7, 61567)

1, 99539 − (−7, 61567) = 0, 67683.

Les valeurs critiques du test sont : pour α = 10 %, 0,551, pour α = 5 %, 0,612, et pour α = 1 %, 0,726. Ainsi, mˆ eme au seuil α = 10 %, le test bas´ e sur r _2,1 n’est pas significatif : x ₍₁₀₎ n’est pas une valeur non-repr´ esentative. Par contre, aux seuils α = 10 % et α = 5 %, le test bas´ e sur r _2,1

⁰

est significatif. Ainsi apr` es avoir ´ elimin´ e l’effet masquant de x ₍₂₎ , on peut ` a nouveau mettre en ´ evidence la non repr´ esentativit´ e de x ₍₁₎ .

. . . .

L’exemple que l’on vient de traiter pose le probl` eme pratique suivant : en utilisant r ou r

⁰

_1,0 les tests ne sont pas significatifs. Tandis qu’en utilisant r

⁰

_2,1 , le test est significatif.

Cette situation ne serait-elle pas due au fait que la valeur x ₍₂₎ n’est pas, elle non plus, repr´ esentative. Or si, comme dans cet exemple, l’on soup¸conne non pas la pr´ esence d’une valeur non repr´ esentative mais de plusieurs, il existe d’autres proc´ edures de tests ` a appli- quer qui seront d´ etaill´ ees ` a la section 2.4 et ` a la section 2.6.

2.3.4. Test bas´ e sur l’´ etendue

La statistique du test bas´ e sur l’´ etendue de l’´ echantillon est : u = x _(n) − x ₍₁₎

s .

o` u l’on rappelle que l’´ etendue e d’un ´ echantillon est la longueur de l’intervalle s´ eparant la plus petite valeur de la plus grande valeur de l’´ echantillon, entre d’autres termes, e = x _(n) − x ₍₁₎ . Ce test permet de d´ etecter une valeur non repr´ esentative dans l’une quelconque des directions, c’est-` a-dire ` a la fois une valeur trop faible ou trop forte. Il est n´ eanmoins plus naturel de s’en sevir pour tester la paire de valeurs potentiellement non repr´ esentative (x ₍₁₎ , x _(n) ) puisque l’on compare l’´ etendue e de l’´ echantillon ` a son ´ ecart type s.

Exemple 2.3.4.

En reprenant les donn´ ees ci-dessus, on calcule u pour cet exemple : u = 3, 01367 − (−7, 61567)

3, 10974 = 3, 41808.

(32)

Les valeurs critiques pour α = 5 % et α = 10 % sont respectivement 3,68 et 3,57. Ainsi

`

a aucun de ces niveaux le test n’est significatif. La paire (x ₍₁₎ , x _(n) ) n’est pas constitu´ ee de valeurs toutes les deux non repr´ esentatives, ce qui est bien coh´ erent avec les r´ esultats pr´ ec´ edents.

. . . .

2.4. Test simultan´ e de k valeurs non repr´ esentatives

Le nombre k est ici fix´ e avant la proc´ edure de test. Le cas o` u k serait ´ egalement ` a d´ eterminer sera abord´ e aux sections 2.5 et 2.6.

2.4.1. Test de Grubbs pour k valeurs non repr´ esentatives dans une direction donn´ ee.

La statistique expos´ ee ci-apr` es a ´ et´ e propos´ ee par Grubbs en 1950 pour k = 2 puis ´ etendue par Tietjen and Moore en 1972 au cas 1 < k < n. ` A la fois la queue de la distribution (valeurs fortes ou valeurs faibles) dans laquelle on proc` ede au test et le nombre de valeurs test´ ees k doivent ˆ etre fix´ es ` a l’avance. On note L _k les statistiques associ´ ees ` a la d´ etection de valeurs non repr´ esentatives parmi les fortes valeurs de l’´ echantillon et L ^? _k celles associ´ ees

`

a la recherche parmi les faibles valeurs de l’´ echantillon.

L _k =

n−k

X

i=1

x _(i) − x ¯ n−k

2 (n − 1)s ²

o` u ¯ x n−k est la moyenne des n − k plus petites valeurs de l’´ echantillon, c’est-` a-dire ¯ x n−k = 1

n − k

n−k

X

i=1

x _(i) et s ² est toujours la variance corrig´ ee de l’´ echantillon de taille n.

L ^? _k =

n

X

i=k+1

x _(i) − x ¯ ^? _n−k 2

(n − 1)s ²

o` u ¯ x ^? _n−k est la moyenne des n − k plus grandes valeurs de l’´ echantillon, c’est-` a-dire

¯

x ^? _n−k = 1 n − k

n

X

i=k+1

x _(i) .

Ainsi dans chacun des deux cas on fait le rapport de la somme des carr´ es des d´ eviations ` a la

moyenne de l’´ echantillon priv´ e des k valeurs que l’on suspecte d’ˆ etre non repr´ esentatives

par la somme des carr´ es des d´ eviations ` a la moyenne de l’´ echantillon tout entier. Ces

(33)

2.4 Test simultan´ e de k valeurs non repr´ esentatives

rapports sont toujours inf´ erieurs ou ´ egaux ` a 1. Une valeur proche de 0 indiquera que la pr´ esence des valeurs test´ ees augmente de mani` ere cons´ equente la variation de l’´ echantillon.

On comparera la r´ ealisation du test au quantile ` a α %.

Exemple 2.4.1.

On reprend toujours les mˆ emes donn´ ees. Les r´ esultats des tests de Dixon ont confirm´ e le fait que x ₍₁₎ est une valeur non repr´ esentative et ont amen´ e ` a envisager que x ₍₂₎ en

´

etait aussi une. On cherche ` a tester deux valeurs, donc k = 2, dans la partie inf´ erieure de l’´ echantillon et on calcule ainsi L ^? ₂ .

¯

x ^? ₈ = 1 8

10 X

i=3

x _(i) = 0, 43892

L ^? ₂ =

10 X

i=3

x _(i) − x ¯ ^? ₈ 2

9s ²

= 13, 8826

87, 0345 = 0, 15951.

On compare ce r´ esultat avec les valeurs critiques (associ´ ees aux quantiles inf´ erieurs de la distribution cette fois-ci) pour un niveau de α = 1% et de α = 5%. Apr` es lecture dans la table on trouve respectivement 0, 142 et 0, 233. Puisque L ^? ₂ = 0, 160 < 0, 233 le test est significatif au niveau α = 5%. Il ne l’est pas au niveau α = 1% car L ^? ₂ = 0, 160 > 0, 142.

Ainsi avec un risque de premi` ere esp` ece de 5%, on peut conclure que les deux valeurs x ₍₁₎ = −7, 61567 et x ₍₂₎ = −4, 60385 sont non-repr´ esentatives.

. . . .

2.4.2. Test de Grubbs pour deux valeurs non repr´ esentatives, une de chaque cˆ ot´ e

On utilise la mˆ eme id´ ee que celle sur laquelle repose les statistiques de test L _k et L ^? _k . On compare la variation totale de l’´ echantillon o` u l’on a retir´ e les deux valeurs x ₍₁₎ et x _(n) ` a celle de l’´ echantillon complet en faisant le rapport suivant :

S _1,n ² S ² =

n−1

X

i=2

x _(i) − x ¯ _1,n 2

(n − 1)s ²

o` u ¯ x 1,n est la moyenne des n − 2 valeurs centrales de l’´ echantillon initial, c’est-` a-dire

¯

x _1,n = 1 n − 2

n−1

X

i=2

x _(i) .

(34)

Exemple 2.4.2.

On continue avec les mˆ emes donn´ ees :

¯

x _1,10 = 1 8

9 X

i=2

x _(i) = −0, 513268

S _1,n ² S ² =

9 X

i=2

x _(i) − x ¯ _1,10 2

9s ²

= 25, 4295

87, 0345 = 0, 292177.

La valeur critique pour α = 10 % est de 0,246. Le test n’est donc pas significatif ` a ce niveau. Le minimum et le maximum de l’´ echantillon ne sont pas tous les deux des valeurs non repr´ esentatives.

. . . .

Il est bien entendu possible de g´ en´ eraliser cette approche au cas o` u l’on consid´ ererait 2k valeurs, k de chaque cˆ ot´ e de l’´ echantillon. Malheureusement vous ne disposez pas des valeurs critiques associ´ ees ` a ces tests.

2.4.3. Test de Tietjen-Moore pour k valeurs non repr´ esentatives de l’un ou des deux cˆ ot´ es

L` a encore on reprend l’id´ ee qui a permis de construire L _k . On construit r l’´ echantillon form´ e des valeurs absolues des d´ eviations par rapport ` a la moyenne :

r _i = |x _i − x|. ¯

Puis on classe cet ´ echantillon : r ₍₁₎ , . . . , r _(n) . En conservant l’ordre ainsi obtenu on multiplie chaque r _(i) par le signe de x _(i) − x ¯ et on note z _(i) les valeurs ainsi construites. Les statistiques E k sont alors :

E _k =

n−k

X

i=1

z _(i) − z ¯ n−k

2 n

X

i=1

z _(i) − z ¯ 2

,

o` u ¯ z est la moyenne de z ₍₁₎ , . . . , z _(n) et ¯ z n−k est la moyenne de z ₍₁₎ , . . . , z (n−k) .

Les z _(i) sont simplement les d´ eviations par rapport ` a la moyenne ¯ z ordonn´ ees par valeur

absolue croissante.

Statistique pour petits ´echantillons

Statistique pour petits ´ echantillons

Ecole Doctorale des Sciences de la Vie et de la Sant´e Universit´e Louis Pasteur

Module de formation

Fr´ ed´ eric Bertrand et Myriam Bertrand 1

10 et 11 janvier 2007

Institut de Recherche Math´ ematique Avanc´ ee, Universit´ e Louis Pasteur moe7, rue Ren´ e Descartes, 67084 Strasbourg C edex

moefbertran@math.u-strasbg.fr

moemmaumy@math.u-strasbg.fr

Premi` ere partie

Notes de cours

Chapitre 1

Quelques tests non param´ etriques. 1

1.1. Les tests non param´ etriques sur un ´ echantillon

Dans cette section nous nous int´ eressons ` a deux tests non param´ etriques : – le test du signe et

– le test des rangs sign´ es.

Nous utiliserons de pr´ ef´ erence le test des rangs sign´ es d` es que les conditions de son utili- sation sont remplies, sa puissance ´ etant alors sup´ erieure ` a celle du test du signe.

1.1.1. Test du signe

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X 1 , . . . , X n d’une loi continue F dont la valeur m´ ediane est not´ ee m e et la moyenne µ. Le test du signe permet de tester les hypoth` eses suivantes :

Hypoth` eses :

H 0 : m e = 0 ou de fa¸con ´ equivalente P [X i > 0] = 1 2 contre

H 1 : m e 6= 0 ou de fa¸con ´ equivalente P [X i > 0] 6= 1 2 .

Remarque 1.1.1. La formulation de ce test est bien sˆ ur la formulation d’un test bilat´ eral.

Nous pouvons envisager les deux tests unilat´ eraux correspondants. ` A ce moment l` a, la formulation de l’hypoth` ese alternative H 1 est diff´ erente et s’´ ecrit soit :

Les r´ ef´ erences [10], [13] et [8] ayant servi ` a l’´ elaboration de ce document sont mentionn´ ees dans la

bibliographie.

H 1

: P [X i > 0] < 1 2 soit

H 1

: P [X i > 0] > 1 2 .

Remarque 1.1.2. Plus g´ en´ eralement ce test permet de tester l’hypoth` ese nulle H 0 : m e = m 0 ou de fa¸con ´ equivalente P [X i > 0] = p

contre

H 1 : m e 6= m 0 ou de fa¸con ´ equivalente P [X i > 0] 6= p.

o` u m 0 est un nombre r´ eel et p est une constante comprise entre 0 et 1, ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative

H

1 : m e < m 0

ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative H

1 : m e > m 0

Pour cela il suffit de consid´ erer l’´ echantillon Z 1 , . . . , Z n avec Z i = X i − m 0 et de lui appliquer le test d´ ecrit ci-dessous.

Statistique : S n d´ esigne le nombre de variables X i , 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.1.1. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire S n suit exactement une loi binomiale B (n, p) de param` etres n et p.

Concr` etement cette hypoth` ese nulle H 0 signifie que l’effectif de l’´ echantillon consid´ er´ e est faible devant celui de la population dont il est issu.

Remarque 1.1.3. Nous pourrons prendre comme taille limite des ´ echantillons dont les effectifs sont inf´ erieurs ` a une fraction de 1/10 de la population. Dans ce cas nous pouvons assimiler les tirages r´ ealis´ es ici ` a des tirages avec remise.

Cas le plus souvent utilis´ e : p =1/2. Nous nous proposons de tester : Hypoth` eses :

H 0 : P [X i > 0] = 1 2 contre H 1 : P [X i > 0] 6= 1

2 .

1.1 Les tests non param´ etriques sur un ´ echantillon

Statistique : S n d´ esigne le nombre de variables X i , 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.1.2. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire S n a les trois propri´ et´ es suivantes :

1. La variable al´ eatoire S n suit une loi binomiale B (n, 1/2) de param` etres n et 1/2. De ce fait, d´ ecoule les deux propri´ et´ es suivantes :

2. E [S n ] = n/2.

3. Var [S n ] = n/4.

Cette distribution binomiale est sym´ etrique. Pour n grand (n > 40), nous pouvons utiliser l’approximation normale avec correction de continuit´ e :

P H

[S n 6 h] = P H

[S n > n − h] = Φ(2h + 1 − n)

√ n o` u Φ est la fonction de r´ epartition d’une loi normale centr´ ee r´ eduite.

D´ ecision 1.1.1. Pour un seuil α donn´ e (= α = 5% = 0, 05 en g´ en´ eral), nous cherchons le plus grand entier s ? α tel que P [Y 6 s ? α ] 6 α/2 o` u Y suit une loi binomiale B (n, 1/2) de param` etres n et 1/2. Alors nous d´ ecidons :

H 1 est vraie si S n,obs ∈]s / ? α , n − s ? α [ H 0 est vraie si S n,obs ∈]s ? α , n − s ? α [.

Remarque 1.1.4. Le niveau de signification r´ eel du test est alors ´ egal ` a 2 P [Y 6 s ? α ] qui est g´ en´ eralement diff´ erent de α.

Remarque 1.1.5. Pour voir un exemple, nous renvoyons ` a la feuille de travaux dirig´ es qui sera trait´ ee lors de la premi` ere s´ eance de travaux dirig´ es.

1.1.2. Test des rangs sign´ es de Wilcoxon

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X 1 , . . . , X n d’une loi continue F dont la valeur m´ ediane est not´ ee m e et la moyenne µ.

Hypoth` eses : Le test des rangs sign´ es permet de tester l’hypoth` ese nulle H 0 : La loi continue F est sym´ etrique en 0

contre

H 1 : La loi continue F n’est pas sym´ etrique en 0.

De plus, si nous savons que la loi continue F est sym´ etrique, alors le test des rangs sign´ es de Wilcoxon devient

H 0 : µ = µ 0 contre H 1 : µ 6= µ 0 .

Ici µ 0 est un nombre r´ eel et ce jeu d’hypoth` eses permet alors de s’int´ eresser ` a la moyenne

de la loi continue F .

1.1.2.1. Cas o` u il n’y a pas d’ex æquo.

Soit x 1 , . . . , x n n r´ ealisations de l’´ echantillon pr´ ec´ edent. ` A chaque x i nous attribuons le rang r a i qui correspond au rang de |x i | lorsque que les n r´ ealisations sont class´ ees par ordre croissant de leurs valeurs absolues.

W n + = X 1 6 i 6 n

X i > 0 R a i .

Propri´ et´ es 1.1.3. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire W n + a les trois propri´ et´ es suivantes :

1. W n + est sym´ etrique autour de sa valeur moyenne E [W n + ] = n(n + 1)/4.

2. Var [W n + ] = n(n + 1)(2n + 1)/24.

3. Elle est tabul´ ee pour de faibles valeurs de n. Pour n > 15, nous avons l’approxima- tion normale avec correction de continuit´ e :

P

W n + 6 w

Fr´ ed´ eric Bertrand et Myriam Bertrand ¹

Quelques tests non param´ etriques. ¹

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X ₁ , . . . , X _n d’une loi continue F dont la valeur m´ ediane est not´ ee m _e et la moyenne µ. Le test du signe permet de tester les hypoth` eses suivantes :

H 0 : m _e = 0 ou de fa¸con ´ equivalente P [X _i > 0] = 1 2 contre

: P [X _i > 0] < 1 2 soit

H ₁

: P [X _i > 0] > 1 2 .

Remarque 1.1.2. Plus g´ en´ eralement ce test permet de tester l’hypoth` ese nulle H 0 : m _e = m ₀ ou de fa¸con ´ equivalente P [X _i > 0] = p

H 1 : m _e 6= m ₀ ou de fa¸con ´ equivalente P [X _i > 0] 6= p.

o` u m ₀ est un nombre r´ eel et p est une constante comprise entre 0 et 1, ou encore, dans la version unilat´ erale, contre l’hypoth` ese alternative

1 : m _e < m ₀

₁ : m _e > m ₀

Pour cela il suffit de consid´ erer l’´ echantillon Z ₁ , . . . , Z _n avec Z _i = X _i − m ₀ et de lui appliquer le test d´ ecrit ci-dessous.

Statistique : S _n d´ esigne le nombre de variables X _i , 1 6 i 6 n, qui prennent une valeur positive.

Propri´ et´ es 1.1.1. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire S _n suit exactement une loi binomiale B (n, p) de param` etres n et p.

H 0 : P [X _i > 0] = 1 2 contre H 1 : P [X _i > 0] 6= 1

Propri´ et´ es 1.1.2. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire S _n a les trois propri´ et´ es suivantes :

1. La variable al´ eatoire S _n suit une loi binomiale B (n, 1/2) de param` etres n et 1/2. De ce fait, d´ ecoule les deux propri´ et´ es suivantes :

2. E [S _n ] = n/2.

3. Var [S _n ] = n/4.

D´ ecision 1.1.1. Pour un seuil α donn´ e (= α = 5% = 0, 05 en g´ en´ eral), nous cherchons le plus grand entier s ^? _α tel que P [Y 6 s ^? _α ] 6 α/2 o` u Y suit une loi binomiale B (n, 1/2) de param` etres n et 1/2. Alors nous d´ ecidons :

H 1 est vraie si S n,obs ∈]s / ^? _α , n − s ^? _α [ H 0 est vraie si S _n,obs ∈]s ^? _α , n − s ^? _α [.

Remarque 1.1.4. Le niveau de signification r´ eel du test est alors ´ egal ` a 2 P [Y 6 s ^? _α ] qui est g´ en´ eralement diff´ erent de α.

Soit un ´ echantillon ind´ ependant et identiquement distribu´ e X ₁ , . . . , X _n d’une loi continue F dont la valeur m´ ediane est not´ ee m e et la moyenne µ.

H 0 : µ = µ ₀ contre H 1 : µ 6= µ ₀ .

Ici µ ₀ est un nombre r´ eel et ce jeu d’hypoth` eses permet alors de s’int´ eresser ` a la moyenne

Soit x ₁ , . . . , x _n n r´ ealisations de l’´ echantillon pr´ ec´ edent. ` A chaque x _i nous attribuons le rang r ^a _i qui correspond au rang de |x _i | lorsque que les n r´ ealisations sont class´ ees par ordre croissant de leurs valeurs absolues.

W _n ⁺ = X 1 6 i 6 n

X _i > 0 R ^a _i .

Propri´ et´ es 1.1.3. Lorsque l’hypoth` ese nulle H 0 est vraie, la variable al´ eatoire W _n ⁺ a les trois propri´ et´ es suivantes :

1. W _n ⁺ est sym´ etrique autour de sa valeur moyenne E [W _n ⁺ ] = n(n + 1)/4.

2. Var [W _n ⁺ ] = n(n + 1)(2n + 1)/24.

W _n ⁺ 6 w

– Premier cas : Pour tester l’hypoth` ese nulle « H 0 : La loi continue F est sym´ etrique en 0 » contre l’hypoth` ese alternative « H 1 : La loi continue F n’est pas sym´ etrique en 0 » pour un seuil donn´ e α, nous cherchons l’entier w _α tel que P [W _n ⁺ 6 w _α ] ≈ α/2.

H 1 est vraie si W _n,obs ⁺ ∈]w / α + 1, n(n + 1)/2 − w α − 1[, H 0 est vraie si W _n,obs ⁺ ∈]w _α + 1, n(n + 1)/2 − w _α − 1[.

– Second cas : Pour tester l’hypoth` ese nulle « H 0 : µ = µ ₀ », nous introduisons l’´ echantillon Z ₁ , . . . , Z _n avec Z _i = X _i − µ, 1 6 i 6 n.

Les observations x ₁ , . . . , x _n peuvent pr´ esenter des ex æquo et a fortiori leurs valeurs

En associant ` a l’observation X _i son rang moyen R ^a _i

dans le classement des valeurs absolues et en sommant tous les rangs pour lesquels X _i > 0 nous obtenons la statistique :

W _n ^+? = X 1 6 i 6 n

X _i > 0

R ^a _i

Les valeurs absolues observ´ ees |x ₁ |, . . . , |x _n | ´ etant ordonn´ ees puis regroup´ ees en classes d’ex æquo, C ₀ pour la premi` ere classe qui est constitu´ ee des nombres |x _i | nuls, s’il en existe, et C j , 1 6 j 6 h pour les autres nombres, certaines classes C j

pouvant comporter un seul ´ el´ ement, si cet ´ el´ ement n’a pas d’ex æquo, notons d _j le nombre d’ex æquo de la classe C _j . Nous avons

d ₀ +

d _j = n.

W _n ^+? − m ^?

σ ^? ≈ N (0, 1) o` u

m ^? = 1

4 (n(n + 1) − d ₀ (d ₀ + 1)) et

(σ ^? ) ² = 1

d ³ _j − d j

al´ eatoire W _n ⁺ .

1. En se pla¸cant sous l’hypoth` ese nulle H 0 , nous classons par ordre croissant l’en- semble des observations des deux ´ echantillons (x ₁ , . . . , x _n

) et (y ₁ , . . . , y _n

3. Nous effectuons la somme des rangs pour chacun des deux ´ echantillons, not´ es R ₁ et R ₂ .

4. Nous en d´ eduisons les quantit´ es U ₁ et U ₂ qui se calculent ainsi : (1.2.1) U _n

= n ₁ × n ₂ + n ₁ (n ₁ + 1)

2 − R ₁

= n 1 × n 2 + n ₂ (n ₂ + 1)