Supposons que l’on veuille effectuer un test statistique d’hypoth`eses portant surθ

(1)

Universit´e de Strasbourg S´egolen Geffray

M1 - Magist`ere geffray@math.unistra.fr

Statistique - ´etudes de cas Ann´ee 2015/2016

Sujet 10: tests de comparaison de 2 variances ou plus

• Quelques rappels sur la définition mathématique des tests d’hypothèses:

Soit X une variable aléatoire à valeurs dans un ensembleX, de loiP_θ oùθ ∈Θ. Supposons que l’on veuille effectuer un test statistique d’hypothèses portant surθ. On formule deux hypothèses contradictoires notées H₀ etH₁ dont on suppose que l’une et seulement l’une est vraie. Math-

´

ematiquement, formuler H₀ et H₁ revient à choisir deux sous-ensembles disjoints de Θ notés Θ0 et de Θ1 de sorte que l’hypothèse H0 s’écrit alors {θ0 ∈ Θ0} tandis que l’hypothèse H1

s’écrit {θ₁ ∈ Θ₁}. Soit (X₁, ..., X_n) un échantillon i.i.d. issu d’une variable parente X et soit (x₁, ..., x_n)∈ Xⁿ une réalisation de (X₁, ..., X_n). Construire un test de H₀ contre H₁ revient à construire une région critiqueRde telle sorte que l’on rejetteH0 lorsque (x1, ..., xn)∈Ret que l’on s’assure que le risque de 1ère espèce est inférieur ou égal à α.

Dans ce cadre, on parle de fonction de risque de 1ère espèce définie sur Θ0 pour θ →α(θ) =Pθ((X₁, ..., X_n)∈ R).

On appelle taille du test la probabilit´e maximale de rejeter H₀ alors que H₀ est vraie:

sup

θ∈Θ0

{P^θ((X₁, ..., X_n)∈ R)}. On dit qu’un test est de niveau α si sa taille est ´egale `a α ie si

sup

θ∈Θ₀

{Pθ((X₁, ..., X_n)∈ R)}=α .

On parle de fonction de risque de 2nde esp`ece d´efinie sur Θ₁ pour θ→β(θ) = P^θ((X1, ..., Xn)∈ R)/ .

On parle de fonction puissance d´efinie sur Θ₁ pour

θ →1−β(θ) =Pθ((X₁, ..., X_n)∈ R).

• Test de comparaison de 2 variances:

Soient X et Y deux variables aléatoires indépendantes. On souhaite tester l’égalité de leurs variances respectives. Formellement, on souhaite tester l’hypothèse nulleH0: Var(X) = Var(Y) au niveau α. Soit (X₁, . . . , X_n_X) un échantillon i.i.d. distribué comme la variable X. Soit (Y₁, . . . , Y_n_Y) un échantillon i.i.d. distribué comme la variableY, indépendant de (X₁, . . . , X_n_X).

Soit

S_n⁰²

X = 1

n_X −1

nX

X

i=1

X_n_X −X_i2

(2)

un estimateur de Var(X) avec Xn_X = 1 n_X

nX

X

i=1

Xi. Soit

S_n⁰²_Y = 1 n_Y −1

nY

X

i=1

YnY −Yi

2

un estimateur de Var(Y) avec Y_n_Y = 1 n_Y

nY

X

i=1

Y_i. Notons ´egalement

S_n⁰²_X_+n_Y = (n_X −1)S_n⁰²

X + (n_Y −1)S_n⁰²

Y

n_X +n_Y −2

= 1

n_X +n_Y −2

nX

X

i=1

X_n_X −X_i2

+

nY

X

i=1

Y_n_Y −Y_i2

! . 1er cas: n_X ≥30 etn_Y ≥30

Soit la statistique de test:

TnX,nY = S_n⁰²

X −S_n⁰²

Y

S_n⁰²_X_+n_Yq

2 nX + _n²

Y

.

Sous H0, la statique Tn_X,n_Y converge en loi vers une variable de loi N(0,1). LorsqueH0 n’est pas satisfaite, la statistique T_n_X_,n_Y diverge presque-sˆurement vers ∞.

• Lorsque H1: Var(X)6= Var(Y), la r´egion critique est R=n

(x₁, . . . , x_n_X)∈Rⁿ^X,(y₁, . . . , y_n_Y)∈Rⁿ^Y :|t_n_X_,n_Y|> F_N⁻¹_(0,1)(1−α/2)o .

• Lorsque H₁: Var(X)>Var(Y), la r´egion critique est R=

n

(x1, . . . , xn_X)∈Rⁿ^X,(y1, . . . , yn_Y)∈Rⁿ^Y :tn_X,n_Y > F_N⁻¹_(0,1)(1−α) o

.

• Lorsque H₁: Var(X)<Var(Y), la r´egion critique est R=n

(x₁, . . . , x_n_X)∈Rⁿ^X,(y₁, . . . , y_n_Y)∈Rⁿ^Y :t_n_X_,n_Y < F_N⁻¹_(0,1)(α)o .

2`eme cas(test de Fisher ou de Fisher-Snedecor): X ∼ N(E[X],Var(X)) etY ∼ N(E[Y],Var(Y)).

T_n_X_,n_Y = S_n⁰²

X

S_n⁰²_Y .

Sous H₀, la statique T_n_X_,n_Y suit la loi F(n_X, n_Y) dite de Fisher à n_X et n_Y degrés de liberté.

Heuristiquement, lorsque H₀ est vraie, le rapport T_n_X_,n_Y ne doit pas trop s’´eloigner de 1.

• Lorsque H₁: Var(X)6= Var(Y), la r´egion critique est R=n

(x₁, . . . , x_n_X)∈Rⁿ^X,(y₁, . . . , y_n_Y)∈Rⁿ^Y :t_n_X_,n_Y > F_F⁻¹_(n

X,nY)(1−α/2) ou t_n_X_,n_Y < F_F⁻¹_(n

X,nY)(α/2)o .

• Lorsque H₁: Var(X)>Var(Y), la r´egion critique est R=n

(x₁, . . . , x_n_X)∈Rⁿ^X,(y₁, . . . , y_n_Y)∈Rⁿ^Y :t_n_X_,n_Y > F_F⁻¹_(n

X,nY)(1−α)o .

(3)

• Lorsque H₁: Var(X)<Var(Y), la r´egion critique est R=n

(x₁, . . . , x_n_X)∈Rⁿ^X,(y₁, . . . , y_n_Y)∈Rⁿ^Y :t_n_X_,n_Y < F_F⁻¹_(n

X,nY)(α)o .

• Test de comparaison de K variances:

SoientX^(k), pourk= 1, . . . , K, des variables aléatoires indépendantes oùX^(k) ∼ N(E[X^(k)],Var(X^(k))), pour k = 1, . . . , K. On souhaite tester l’égalité de leurs variances respectives. Formellement,

on souhaite tester au niveau αl’hypoth`ese nulle H₀: Var X^(k)

=σ² pourk = 1, . . . , K contre l’hypoth`ese alternative H₁: ∃k₁ 6= k₂ ∈ {1, . . . , K} tels que Var X^(k¹⁾

6= Var X^(k²⁾

. Pour k = 1, . . . , K, soit (X₁^(k), . . . , X_n^(k)

k) un ´echantillon i.i.d. distribu´e comme la variableX^(k). Pour k = 1, . . . , K, soit

S_k,n⁰²

k = 1 n_k−1

nk

X

i=1

X^(k)_n

k −X_i^(k)2

un estimateur de Var X^(k) avec

X^(k)_n

k = 1 nk

n_k

X

i=1

X_i^(k).

1er cas: Test de Bartlett.

Tn1,...,n_K =

(n−K)h log

1 n−K

PK

k=1(n_k−1)S_k,n⁰²

k

− _n−K¹ PK

k=1(n_k−1) log S_k,n⁰²

k

i

1 + _3(K−1)¹ PK

k=1 1

nK−1 − _n−K¹

en notant n=

K

X

k=1

n_k. SousH₀, la statistique T_n₁_,...,n_K suit la loi χ²(K−1). Notons t_n₁_,...,n_K la r´ealisation de T_n₁_,...,n_K. La r´egion critique est:

R =n

(x₁, . . . , x_n_k)_k=1,...,K : t_n₁_,...,n_K > F_χ⁻¹2(K−1)(1−α)o .

La fonction bartlett.testdu logiciel R impl´emente ce test.

2`eme cas: Test de Levene.

Introduisons:

Z_i^(k) =

X_i^(k)−X^(k)_n

k

Z^(k)_n_k = 1 n_k

nk

X

i=1

Z_i^(k)

Z_n = 1 n

K

X

k=1 nk

X

i=1

Z_i^(k)= 1 n

K

X

k=1

n_kZ^(k)_n

k. Soit la statistique de test:

Tn1,...,nK = n−K K−1

PK k=1

Z^(k)_n

k −Z_n2

PK k=1

Pnk

i=1

Z_i^(k)−Z^(k)_n

k

2.

(4)

Sous H₀, la statistique T_n₁_,...,n_K suit la loi de Fisher F(K − 1, n −K). Notons t_n₁_,...,n_K la r´ealisation de T_n₁_,...,n_K. La r´egion critique est:

R=n

(x₁, . . . , x_n_k)_k=1,...,K : t_n₁_,...,n_K > F_F⁻¹_{(K−1,n−K)}(1−α)o .

La fonction leveneTest du package cardu logiciel R impl´emente ce test ainsi que la fonction levene.test du packagelawstat.

(5)

Exercice 1.

1. Illustrer de manière empirique à partir de données simulées le comportement de la taille du test.

2. Illustrer de manière empirique à partir de données simulées le comportement de la fonction puissance.

3. Tests paramétriques: Illustrer de manière empirique à partir de données simulées la ro- bustesse ou au contraire la sensibilité du test aux hypothèses sous-jacentes.

4. Tests non-paramétriques: faire varier la loi servant à générer les données ainsi que la valeur de son/ses paramètre(s).

Vous veillerez `a faire varier tour `a tour:

• le risque de 1`ere esp`ece α,

• la taille de l’´echantillonn,

• la variabilité du phénomène.

Le test de Levene a la réputation d’être robuste aux écarts à la normalité. Qu’en pensez-vous?