Exercices Probabilit´es & Statistiques T. D. n

(1)

Exercices Probabilit´ es & Statistiques

T. D. n V II. R´ evision tests d’hypoth` ese

Exercice n ° 1.

Une technique de dosage de sels nutritifs permet de fabriquer des ´ echantillons calibr´ es d’eau de mer avec un

´ ecart-type de 8 mg/l . Un nouveau proc´ ed´ e de fabrication sera adopt´ e s’il assure une r´ eduction substantielle de la variabilit´ e. Dix mesures sont r´ ealis´ ees sur des ´ echantillons fabriqu´ es avec la nouvelle m´ ethode :

725, 722, 727, 718, 723, , 731 , 719, 724, 726, 725 mg/l.

1. Peut-on adopter la nouvelle technique?

2. D´ eterminer un intervalle de confiance de la variance.

Exercice n°2.

On a doser des m´ etaux lourds sur des ´ echantillons de poissons. On souhaite ici comparer deux ´ echantillons de taille variable et provenant de deux sites A et B. Les r´ esultats (µg/g) sont les suivants :

n x obs s ² _obs A 11 3.92 0.3443 B 9 4.18 0.4760

1. Peut-on affirmer qu’il y a une diff´ erence entre les variances des deux sites?.

2. Peut-on conclure ` a une diff´ erence de contamination entre les sites?

3. Donner une estimation par intervalle de confiance de la moyenne pour chaque site.

1

(2)

Corrections

Les valeurs num´ eriques des quantiles sont d´ etermin´ ees ` a l’aide du logiciel R en utilisant les fonctions :

qt(p,df ): renvoie le quantile d’ordre p d’une loi de Student avec df degr´ es de libert´ e

qf(p,df 1,df 2): renvoie le quantile d’ordre p d’une loi de Fisher avec (df1, df2) degr´ es de libert´ e

qchisq(p,df ): renvoie le quantile d’ordre p d’une loi du χ ² avec df degr´ es de libert´ e

qnorm(p,mu,sigma): renvoie le quantile d’ordre p d’une loi N de moyenne mu et d’´ ecart-type sigma

Correction Exercice n°1.

Q1- Soit X la variable repr´ esentant les mesures (mg/l). On supposera que X N µ, σ ²

, les param` etres de la gaussienne ´ etant inconnus. On suppose l’´ echantillon {X ₁ , · · · , X ₁₀ } i.i.d et de mˆ eme loi m` ere que X. On utilise les estimateurs classiques : pour estimer la moyenne populationnelle µ, on utilise la moyenne empirique X = _n ¹ P n

i=1 X i et pour estimer la variance σ ² , l’estimateur sans biais S _n−1 ² = _n−1 ¹ P

i X i − X 2

, avec n = 10.

On sait que la variable

Z = (n − 1) S _n−1 ²

σ ² χ ² _n−1 .

On veut tester l’hypoth` ese H ₀ : σ ² = σ ² ₀ contre l’alternative H ₁ : σ ² < σ ₀ ² avec σ ² ₀ = 8 ² mg/l. Sous H ₀ , la variable

Z = 9S ₉ ²

σ ² ₀ χ ² ₉ .

Sous H ₁ , la variable S ₉ ² et donc Z prendront des valeurs plus petites puisque les valeurs des X _i seront moins dispers´ ees (exp´ erience plus pr´ ecise). On est amen´ e ` a construire un test unilat´ eral avec zone de rejet ` a gauche.

Fixons le niveau du test ` a α = 0.05. La borne de rejet du test est donn´ ee par le quantile d’ordre α du χ ² ₉ , c’est ` a dire z _9;0.05 = 3.325. La zone de rejet de H ₀ est donc donn´ ee par

RH ₀ = [0; 3.325[.

On a observ´ e les valeurs x _obs = 724 mg/l, s ² _obs = ¹³⁰ ₉ mg ² /l ² et on en d´ eduit z _obs = ¹³⁰ ₈

2

= 2.03. On constate que z _obs ∈ RH ₀ : l’hypoth` ese H ₀ est rejet´ ee. Avec une probabilit´ e de 0.95, la nouvelle m´ ethode est donc meilleure que l’ancienne.

Q2- On sait que Z χ ² ₉ . On peut calculer la probabilit´ e que Z soit comprise entre deux quantiles d’ordre fix´ e :

P z _9;α/2 ≤ Z ≤ z _9;1−α/2

= 1 − α.

Si on fixe le risque α = 0.05, on obtient z _9;0.025 = 2.70 et z _9;0.975 = 19.02. L’IC _0.95 est donc le suivant 2.70 ≤ 9S ₉ ²

σ ² ≤ 19.02 9S ₉ ²

19.02 ≤ σ ² ≤ 9S ₉ ² 2.70 .

Les bornes de cet intervalle sont al´ eatoires et d´ ependent de la valeur prise par S ₉ ² . On a observ´ e s ² _obs = ¹³⁰ ₉ et donc 6.83 = 130

19.02 ≤ σ ² ≤ 130

2.70 = 48.14.

Il y a donc 95 % de chance d’avoir un ´ ecart-type compris entre ces deux valeurs.

Correction Exercice n ° 2.

Q1- On admet que les dosages sur chaque site sont les r´ ealisations d’une gaussienne N µ _A , σ _A ²

pour le site A et N µ _B , σ _B ²

pour le site B. On va tester l’hypoth` ese H ₀ : σ ² _A = σ _B ² contre l’alternative H ₁ : σ ² _A 6= σ ² _B . Il

2

(3)

s’agit donc ici d’un test bilat´ eral. Pour cela, on consid` ere les estimateurs sans biais S _A ² = _n ¹

A

−1

P

i X _i − X _A 2

et S _B ² = _n ¹

B

−1

P

j X j − X B

2 . La statistique de test sera une variable qui suit une loi de Fisher-Snedecor de param` etres (n _A − 1, n _B − 1) soit

Z = σ ² _B S ² _A

σ _B ² S _B ² F (n _B − 1, n _A − 1) . Sous H ₀ , Z = ^S _S

^A²2

B

suit ´ egalement une loi F (n _B − 1, n _A − 1) car σ _A ² = σ ² _B . Sous H ₁ , ce rapport prendra des valeurs plus grandes ou plus petites que sous H ₀ . le test est bilat´ eral : la zone de rejet de H ₀ se situe donc ` a droite et ` a gauche. Pour un niveau de test α, elle est de la forme

RH 0 = [0; f _α/2 (n B − 1, n A − 1) [∪]f _1−α/2 (n B − 1, n A − 1) ; +∞[

o` u les valeurs seuils f _α/2 (n B − 1, n A − 1) et f _1−α/2 (n B − 1, n A − 1) sont les quantiles d’ordre α/2 et 1 − α/2 de la distribution F (n _B − 1, n _A − 1). Dans notre cas, α = 0.05, f _0.025 (8, 10) = 0.233 et f _0.975 (8, 10) = 3.855. La zone de rejet de H 0 devient

RH 0 = [0; 0.233[∪]3.855; +∞[.

On a observ´ e

z _obs = s ² _A

s ² _B = 0.3443

0.4760 = 1.38,

en supposant que les variances observ´ ees sont calcul´ ees dans leur version sans biais. On constate que z _obs ∈ RH ₀ , l’hypoth` ese nulle n’est pas rejet´ ee. L’hypoth` ese d’´ egalit´ e des variances est acceptable. Pour information, la valeur seuil observ´ ee est telle que

P (Z ≤ z _obs ) = 0.38.

Q2- On vient de montrer que l’hypoth` ese σ _A ² = σ ² _B ´ etait acceptable. Dans ces conditions, un estimateur sans biais de la variance commune entre les deux s´ eries peut s’exprimer sous la forme

S ² = (n A − 1) S _A ² + (n B − 1) S _B ² n _A + n _B − 2 . Dans ce cas, la variable

Z = X A − X B − (µ A − µ B ) r

S ²

1 n

A

+ _n ¹

B

T _n+p−2 .

On veut ici tester l’hypoth` ese H ₀ : µ _A = µ _B contre l’alternative H ₀ : µ _A 6= µ _B . C’est un test bilat´ eral. Sous H ₀ , la variable Z suivra donc une loi de Student T n+p−2 . Sous H 1 ,celle-ci aura tendance ` a prendre des valeurs soient plus petites soient plus grande que sous H 0 . La zone de non-rejet de H 0 sera donc de la forme

RH ₀ =

t _n

_A

_+n

_B

_−2;α/2 ; t _n

_A

_+n

_B

_{−2;1−α/2}

o` u les seuils sont les quantiles d’ordre indiqu´ e pour un niveau de test α fix´ e. Dans notre cas, α = 0.05, et t 18;0.025 = −2.1, t 18;0.025 = 2.1, la loi ´ etant sym´ etrique, la zone de non-rejet devient

RH 0 = [−2.1; 2.1] . On a mesur´ e

s ² _obs = 10 × 0.3443 + 8 × 0.4760

18 = 0.403,

on en d´ eduit que sous H 0

z _obs = x _A − x _B r

s ² _obs

1 n

A

+ _n ¹

B

= 3.92 − 4.18 q

0.403 × ₁₁ ¹ + ¹ ₉

= −0.911.

Cette valeur observ´ ee appartient ` a RH ₀ . L’hypoth` ese nulle n’est pas rejet´ ee. On peut donc admettre que les deux sites ont des niveaux de pollution ´ equivalents en moyenne. Ce test de comparaison de deux esp´ erances ` a

3

(4)

partir de deux moyennes empiriques est appel´ e test d’homog´ en´ eit´ e de Student. La condition restrictive d’´ egalit´ e des variances n´ ecessite, la plupart du temps, une v´ erification pr´ eliminaire ` a l’aide d’un test de Fisher-Snedecor.

Q3- On peut compl´ eter le test pr´ ec´ edent en donnant un intervalle de confiance pour des moyenne µ A et µ B . On sait que dans le cas de population gaussienne dont les param` etres sont estim´ es ` a partir des ´ echantillons, les IC 1−α sont donn´ es par

IC 1−α =



X − s

S _n−1 ²

n t _{n−1;1−α/2} ; X − s

S ² _n−1

n t _n−1;α/2



 .

Dans le cas de la population A, pour α = 0.05, IC _A =

"

3.92 −

r 0.3443

11 t _10;0.975 ; 3.92 −

r 0.3443

11 t _10;0.025

#

=

"

3.92 −

r 0.3443

11 × 2.23; 3.92 +

r 0.3443 11 × 2.23

#

= [3.525; 4.314] .

Il y a donc 95 % de chance d’avoir une moyenne populationnelle µ A telle que 3.525 ≤ µ _A ≤ 4.314.

Dans le cas de la population B, pour α = 0.05, IC _B =

"

4.18 −

r 0.4760

9 t 8;0.975 ; 4.18 −

r 0.4760 9 t 8;0.025

#

=

"

4.18 −

r 0.4760

9 × 2.3; 4.18 +

r 0.4760 9 × 2.3

#

= [3.65; 4.71] .

Il y a donc 95 % de chance d’avoir une moyenne populationnelle µ _B telle que 3.65 ≤ µ _B ≤ 4.71.

On voit qu’il y a un fort recouvrement des intervalles sur les sites A et B. Ces r´ esultats confortent l’issue du test pr´ ec´ edent.

4

Exercices Probabilit´es & Statistiques T. D. n

Exercices Probabilit´ es & Statistiques

T. D. n V II. R´ evision tests d’hypoth` ese

Exercice n ° 1.

Une technique de dosage de sels nutritifs permet de fabriquer des ´ echantillons calibr´ es d’eau de mer avec un

´ ecart-type de 8 mg/l . Un nouveau proc´ ed´ e de fabrication sera adopt´ e s’il assure une r´ eduction substantielle de la variabilit´ e. Dix mesures sont r´ ealis´ ees sur des ´ echantillons fabriqu´ es avec la nouvelle m´ ethode :

725, 722, 727, 718, 723, , 731 , 719, 724, 726, 725 mg/l.

1. Peut-on adopter la nouvelle technique?

2. D´ eterminer un intervalle de confiance de la variance.

Exercice n°2.

On a doser des m´ etaux lourds sur des ´ echantillons de poissons. On souhaite ici comparer deux ´ echantillons de taille variable et provenant de deux sites A et B. Les r´ esultats (µg/g) sont les suivants :

n x obs s 2 obs A 11 3.92 0.3443 B 9 4.18 0.4760

1. Peut-on affirmer qu’il y a une diff´ erence entre les variances des deux sites?.

2. Peut-on conclure ` a une diff´ erence de contamination entre les sites?

3. Donner une estimation par intervalle de confiance de la moyenne pour chaque site.

1

Corrections

Les valeurs num´ eriques des quantiles sont d´ etermin´ ees ` a l’aide du logiciel R en utilisant les fonctions :

 qt(p,df ): renvoie le quantile d’ordre p d’une loi de Student avec df degr´ es de libert´ e

 qf(p,df 1,df 2): renvoie le quantile d’ordre p d’une loi de Fisher avec (df1, df2) degr´ es de libert´ e

 qchisq(p,df ): renvoie le quantile d’ordre p d’une loi du χ 2 avec df degr´ es de libert´ e

 qnorm(p,mu,sigma): renvoie le quantile d’ordre p d’une loi N de moyenne mu et d’´ ecart-type sigma

Correction Exercice n°1.

Q1- Soit X la variable repr´ esentant les mesures (mg/l). On supposera que X N µ, σ 2

, les param` etres de la gaussienne ´ etant inconnus. On suppose l’´ echantillon {X 1 , · · · , X 10 } i.i.d et de mˆ eme loi m` ere que X. On utilise les estimateurs classiques : pour estimer la moyenne populationnelle µ, on utilise la moyenne empirique X = n 1 P n

i=1 X i et pour estimer la variance σ 2 , l’estimateur sans biais S n−1 2 = n−1 1 P

i X i − X 2

, avec n = 10.

On sait que la variable

Z = (n − 1) S n−1 2

σ 2 χ 2 n−1 .

On veut tester l’hypoth` ese H 0 : σ 2 = σ 2 0 contre l’alternative H 1 : σ 2 < σ 0 2 avec σ 2 0 = 8 2 mg/l. Sous H 0 , la variable

Z = 9S 9 2

σ 2 0 χ 2 9 .

Sous H 1 , la variable S 9 2 et donc Z prendront des valeurs plus petites puisque les valeurs des X i seront moins dispers´ ees (exp´ erience plus pr´ ecise). On est amen´ e ` a construire un test unilat´ eral avec zone de rejet ` a gauche.

Fixons le niveau du test ` a α = 0.05. La borne de rejet du test est donn´ ee par le quantile d’ordre α du χ 2 9 , c’est ` a dire z 9;0.05 = 3.325. La zone de rejet de H 0 est donc donn´ ee par

RH 0 = [0; 3.325[.

On a observ´ e les valeurs x obs = 724 mg/l, s 2 obs = 130 9 mg 2 /l 2 et on en d´ eduit z obs = 130 8

= 2.03. On constate que z obs ∈ RH 0 : l’hypoth` ese H 0 est rejet´ ee. Avec une probabilit´ e de 0.95, la nouvelle m´ ethode est donc meilleure que l’ancienne.

Q2- On sait que Z χ 2 9 . On peut calculer la probabilit´ e que Z soit comprise entre deux quantiles d’ordre fix´ e :

P z 9;α/2 ≤ Z ≤ z 9;1−α/2

= 1 − α.

Si on fixe le risque α = 0.05, on obtient z 9;0.025 = 2.70 et z 9;0.975 = 19.02. L’IC 0.95 est donc le suivant 2.70 ≤ 9S 9 2

σ 2 ≤ 19.02 9S 9 2

19.02 ≤ σ 2 ≤ 9S 9 2 2.70 .

Les bornes de cet intervalle sont al´ eatoires et d´ ependent de la valeur prise par S 9 2 . On a observ´ e s 2 obs = 130 9 et donc 6.83 = 130

19.02 ≤ σ 2 ≤ 130

2.70 = 48.14.

Il y a donc 95 % de chance d’avoir un ´ ecart-type compris entre ces deux valeurs.

Correction Exercice n ° 2.

Q1- On admet que les dosages sur chaque site sont les r´ ealisations d’une gaussienne N µ A , σ A 2

pour le site A et N µ B , σ B 2

pour le site B. On va tester l’hypoth` ese H 0 : σ 2 A = σ B 2 contre l’alternative H 1 : σ 2 A 6= σ 2 B . Il

2

s’agit donc ici d’un test bilat´ eral. Pour cela, on consid` ere les estimateurs sans biais S A 2 = n 1

−1

P

i X i − X A 2

et S B 2 = n 1

−1

P

j X j − X B

2

. La statistique de test sera une variable qui suit une loi de Fisher-Snedecor de param` etres (n A − 1, n B − 1) soit

Z = σ 2 B S 2 A

σ B 2 S B 2 F (n B − 1, n A − 1) . Sous H 0 , Z = S S

suit ´ egalement une loi F (n B − 1, n A − 1) car σ A 2 = σ 2 B . Sous H 1 , ce rapport prendra des valeurs plus grandes ou plus petites que sous H 0 . le test est bilat´ eral : la zone de rejet de H 0 se situe donc ` a droite et ` a gauche. Pour un niveau de test α, elle est de la forme

RH 0 = [0; f α/2 (n B − 1, n A − 1) [∪]f 1−α/2 (n B − 1, n A − 1) ; +∞[

o` u les valeurs seuils f α/2 (n B − 1, n A − 1) et f 1−α/2 (n B − 1, n A − 1) sont les quantiles d’ordre α/2 et 1 − α/2 de la distribution F (n B − 1, n A − 1). Dans notre cas, α = 0.05, f 0.025 (8, 10) = 0.233 et f 0.975 (8, 10) = 3.855. La zone de rejet de H 0 devient

RH 0 = [0; 0.233[∪]3.855; +∞[.

On a observ´ e

z obs = s 2 A

s 2 B = 0.3443

0.4760 = 1.38,

en supposant que les variances observ´ ees sont calcul´ ees dans leur version sans biais. On constate que z obs ∈ RH 0 , l’hypoth` ese nulle n’est pas rejet´ ee. L’hypoth` ese d’´ egalit´ e des variances est acceptable. Pour information, la valeur seuil observ´ ee est telle que

P (Z ≤ z obs ) = 0.38.

Q2- On vient de montrer que l’hypoth` ese σ A 2 = σ 2 B ´ etait acceptable. Dans ces conditions, un estimateur sans biais de la variance commune entre les deux s´ eries peut s’exprimer sous la forme

S 2 = (n A − 1) S A 2 + (n B − 1) S B 2 n A + n B − 2 . Dans ce cas, la variable

Z = X A − X B − (µ A − µ B ) r

S 2

n x obs s ² _obs A 11 3.92 0.3443 B 9 4.18 0.4760

qt(p,df ): renvoie le quantile d’ordre p d’une loi de Student avec df degr´ es de libert´ e

qf(p,df 1,df 2): renvoie le quantile d’ordre p d’une loi de Fisher avec (df1, df2) degr´ es de libert´ e

qchisq(p,df ): renvoie le quantile d’ordre p d’une loi du χ ² avec df degr´ es de libert´ e

qnorm(p,mu,sigma): renvoie le quantile d’ordre p d’une loi N de moyenne mu et d’´ ecart-type sigma

Q1- Soit X la variable repr´ esentant les mesures (mg/l). On supposera que X N µ, σ ²

, les param` etres de la gaussienne ´ etant inconnus. On suppose l’´ echantillon {X ₁ , · · · , X ₁₀ } i.i.d et de mˆ eme loi m` ere que X. On utilise les estimateurs classiques : pour estimer la moyenne populationnelle µ, on utilise la moyenne empirique X = _n ¹ P n

i=1 X i et pour estimer la variance σ ² , l’estimateur sans biais S _n−1 ² = _n−1 ¹ P

Z = (n − 1) S _n−1 ²

σ ² χ ² _n−1 .

On veut tester l’hypoth` ese H ₀ : σ ² = σ ² ₀ contre l’alternative H ₁ : σ ² < σ ₀ ² avec σ ² ₀ = 8 ² mg/l. Sous H ₀ , la variable

Z = 9S ₉ ²

σ ² ₀ χ ² ₉ .

Sous H ₁ , la variable S ₉ ² et donc Z prendront des valeurs plus petites puisque les valeurs des X _i seront moins dispers´ ees (exp´ erience plus pr´ ecise). On est amen´ e ` a construire un test unilat´ eral avec zone de rejet ` a gauche.

Fixons le niveau du test ` a α = 0.05. La borne de rejet du test est donn´ ee par le quantile d’ordre α du χ ² ₉ , c’est ` a dire z _9;0.05 = 3.325. La zone de rejet de H ₀ est donc donn´ ee par

RH ₀ = [0; 3.325[.

On a observ´ e les valeurs x _obs = 724 mg/l, s ² _obs = ¹³⁰ ₉ mg ² /l ² et on en d´ eduit z _obs = ¹³⁰ ₈

= 2.03. On constate que z _obs ∈ RH ₀ : l’hypoth` ese H ₀ est rejet´ ee. Avec une probabilit´ e de 0.95, la nouvelle m´ ethode est donc meilleure que l’ancienne.

Q2- On sait que Z χ ² ₉ . On peut calculer la probabilit´ e que Z soit comprise entre deux quantiles d’ordre fix´ e :

P z _9;α/2 ≤ Z ≤ z _9;1−α/2

Si on fixe le risque α = 0.05, on obtient z _9;0.025 = 2.70 et z _9;0.975 = 19.02. L’IC _0.95 est donc le suivant 2.70 ≤ 9S ₉ ²

σ ² ≤ 19.02 9S ₉ ²

19.02 ≤ σ ² ≤ 9S ₉ ² 2.70 .

Les bornes de cet intervalle sont al´ eatoires et d´ ependent de la valeur prise par S ₉ ² . On a observ´ e s ² _obs = ¹³⁰ ₉ et donc 6.83 = 130

19.02 ≤ σ ² ≤ 130

Q1- On admet que les dosages sur chaque site sont les r´ ealisations d’une gaussienne N µ _A , σ _A ²

pour le site A et N µ _B , σ _B ²

pour le site B. On va tester l’hypoth` ese H ₀ : σ ² _A = σ _B ² contre l’alternative H ₁ : σ ² _A 6= σ ² _B . Il

s’agit donc ici d’un test bilat´ eral. Pour cela, on consid` ere les estimateurs sans biais S _A ² = _n ¹

i X _i − X _A 2

et S _B ² = _n ¹

. La statistique de test sera une variable qui suit une loi de Fisher-Snedecor de param` etres (n _A − 1, n _B − 1) soit

Z = σ ² _B S ² _A

σ _B ² S _B ² F (n _B − 1, n _A − 1) . Sous H ₀ , Z = ^S _S

RH 0 = [0; f _α/2 (n B − 1, n A − 1) [∪]f _1−α/2 (n B − 1, n A − 1) ; +∞[

z _obs = s ² _A

s ² _B = 0.3443

en supposant que les variances observ´ ees sont calcul´ ees dans leur version sans biais. On constate que z _obs ∈ RH ₀ , l’hypoth` ese nulle n’est pas rejet´ ee. L’hypoth` ese d’´ egalit´ e des variances est acceptable. Pour information, la valeur seuil observ´ ee est telle que

P (Z ≤ z _obs ) = 0.38.

Q2- On vient de montrer que l’hypoth` ese σ _A ² = σ ² _B ´ etait acceptable. Dans ces conditions, un estimateur sans biais de la variance commune entre les deux s´ eries peut s’exprimer sous la forme

S ² = (n A − 1) S _A ² + (n B − 1) S _B ² n _A + n _B − 2 . Dans ce cas, la variable

S ²

+ _n ¹

T _n+p−2 .

RH ₀ =

t _n

_+n

_−2;α/2 ; t _n

_+n

_{−2;1−α/2}

s ² _obs = 10 × 0.3443 + 8 × 0.4760

z _obs = x _A − x _B r

s ² _obs

+ _n ¹

0.403 × ₁₁ ¹ + ¹ ₉

Cette valeur observ´ ee appartient ` a RH ₀ . L’hypoth` ese nulle n’est pas rejet´ ee. On peut donc admettre que les deux sites ont des niveaux de pollution ´ equivalents en moyenne. Ce test de comparaison de deux esp´ erances ` a

S _n−1 ²

n t _{n−1;1−α/2} ; X − s

S ² _n−1

n t _n−1;α/2

Dans le cas de la population A, pour α = 0.05, IC _A =

11 t _10;0.975 ; 3.92 −

11 t _10;0.025

Il y a donc 95 % de chance d’avoir une moyenne populationnelle µ A telle que 3.525 ≤ µ _A ≤ 4.314.

Dans le cas de la population B, pour α = 0.05, IC _B =

Il y a donc 95 % de chance d’avoir une moyenne populationnelle µ _B telle que 3.65 ≤ µ _B ≤ 4.71.