Licence SVT 2 eme ` ann´ ee Probabilit´ es & Statistiques
T. D. n V . Tests d’hypoth` ese
Exercice n°1.
On sait que, ` a chaque naissance, la probabilit´ e p d’observer un gar¸con est tr` es proche de 1/2 . Pour estimer pr´ ecis´ ement cette probabilit´ e, on recherche son intervalle de confiance pour un coefficient de s´ ecurit´ e de 99.99 % ` a partir de la proportion de gar¸ cons observ´ ee sur n naissances. Quelle valeur donner ` a n pour avoir une estimation
`
a 0.001 pr` es ? Exercice n ° 2.
Un fabriquant de cˆ ables oc´ eanographiques donne une charge de rupture > 55 kg pour un ´ ecart-type de 5 kg.
Un chercheur a effectu´ e des tests sur 9 lots de cˆ ables choisis au hasard. Les r´ esultats de ruptures sont les suivants : 48.0, 48.2, 49.3, 53.5, 54.7, 56.4, 57.8, 58.5, 60.5 .
1. V´ erifier, au risque de 5%, si le cahier des charges du fabriquant est respect´ e.
2. On suppose maintenant que l’´ ecart-type est inconnu. Elaborer un test permettant de v´ erifer les affirmations du fabriquant. Qu’en d´ eduire par rapport au test pr´ ec´ edent?
Exercice n°3.
On cherche ` a doser la quantit´ e d’un polluant A dans un ´ echantillon d’un litre d’eau. Ce produit A fait l’objet d’une r´ eglementation particuli` ere. On d´ esigne par X la variable al´ eatoire repr´ esentant la quantit´ e A , exprim´ ee en mg/l, que l’on peut trouver dans un ´ echantillon. On admet que X suit une loi normale d’esp´ erance µ et de variance σ 2 . Pour que l’eau soit conforme ` a la r` eglementation en vigueur, la valeur de µ ne doit pas d´ epasser 50 mg/l. Un chercheur a effectu´ e des dosages de A sur 9 pr´ el` evements choisis au hasard, dans un mˆ eme site. Les r´ esultats sont les suivants : 60.5 − 58.5 − 57.8 − 56.4 − 54.7 − 53.5 − 49.3 − 48.2 − 48.0
1. V´ erifier si la r` eglementation est respect´ ee.
2. Donner, pour le site, un intervalle de confiance de µ.
Exercice n ° 4.
Pour comparer l’influence de deux r´ egimes alimentaires A et B sur le d´ eveloppement de bars juv´ eniles, un biol- ogiste a mesur´ e le poids de poissons ´ elev´ es dans les conditions A pour les uns, dans les conditions B pour les autres.
Il a obtenu les r´ esultats suivants. Pour le r´ egime A (9 poissons mˆ ales) 100, 94, 119, 111, 113, 84, 102, 107, 99 g et pour le r´ egime B (8 poissons mˆ ales) : 107, 115, 99, 111, 114, 127, 145, 140 g. Le poids d’un poisson choisi au hasard dans un ´ elevage est une variable al´ eatoire que l’on d´ esignera par X dans le cas A et par Y dans le cas B . On admet que X et Y sont de loi normale.
1. Montrer qu’il n’y a aucune raison de penser que X et Y ont des variances diff´ erentes. Pour la suite, on notera σ 2 , la valeur commune de ces deux variances.
2. En utilisant l’ensemble des r´ esultats, donner une estimation de σ 2 ; on d´ esigne par ˆ S 2 l’estimateur utilis´ e.
Calculer l’esp´ erance et la variance de ˆ S 2 et en d´ eduire les qualit´ es de cet estimateur.
3. En utilisant l’ensemble des r´ esultats et avec un minimum de justifications, donner un intervalle de confiance de σ 2 .
4. Montrer que le r´ egime B est plus favorable au d´ eveloppement des bars que le r´ egime A.
Correction des exercices
Les valeurs num´ eriques des quantiles sont d´ etermin´ ees ` a l’aide du logiciel R en utilisant les fonctions :
qt(p,df ): renvoie le quantile d’ordre p d’une loi de Student avec df degr´ es de libert´ e
qf(p,df 1,df 2): renvoie le quantile d’ordre p d’une loi de Fisher avec (df1, df2) degr´ es de libert´ e
qchisq(p,df ): renvoie le quantile d’ordre p d’une loi du χ 2 avec df degr´ es de libert´ e
qnorm(p,mu,sigma): renvoie le quantile d’ordre p d’une loi N de moyenne mu et d’´ ecart-type sigma
Correction exercice n ° 1.
Soit X la variable “genre masculin”. Elle suit une loi de Bernouilli de param` etre p. Soit un ´ echantillon de taille n de la mˆ eme loi que X. Pour estimer la proportion de gar¸ con, un estimateur naturel consiste ` a calculer la moyenne de l’´ echantillon compos´ e de 0 (genre fille observ´ e) et de 1 (genre gar¸ con observ´ e). Soit
P n = X 1 + · · · + X n n
cet estimateur. D’apr` es le th´ eor` eme de Moivre-laplace si n est suffisamment grand, alors P n N
p, p (1 − p) n
.
On sait alors construire un intervalle de confiance de la forme p obs −
r p 0 (1 − p 0 )
n z 1−α/2 ≤ p ≤ p obs −
r p 0 (1 − p 0 ) n z α/2
o` u l’on a remplac´ e p par p 0 = 0.5 dans les bornes de l’intervalle et on prendra p obs = p 0 = 0.5 ´ egalement. Les valeurs z k sont les quantiles d’ordre k de la N (0, 1). On souhaite un niveau de confiance de 99.99 % soit un risque tr` es faible α = 0.0001. Les quantiles d’ordre α/2 et 1 − α/2 sont dans ce cas ´ egaux ` a z = ±3.89. On souhaite
´ egalement une estimation ` a 10 −3 pr` es, cet ` a dire que l’on veut
| p 0 − p |< 10 −3 3.89 ×
r 0.5 × (1 − 0.5)
n < 10 −3 n > 1945 2 = 3783025.
Correction exercice n ° 2.
Q1 - Nous supposerons que les donn´ ees de l’exercice sont des r´ ealisations d’un ´ echantillon {X 1 , · · · , X n } de taille n = 9 de variables al´ eatoires i.i.d gaussiennes de moyenne µ inconnue et de variance fix´ ee σ 2 = 5 2 kg 2 . Posons µ 0 = 55 kg. On va ici tester l’hypoth` ese H 0 : µ = µ 0 contre l’hypoth` ese alternative H 0 : µ < µ 0 . Ce qui nous int´ eresse dans ce probl` eme ce sont les cables d´ efectueux. On se place dans le cas le plus optimiste pour le fabriquant : celui d’une hypoth` ese nulle a minima. On va estimer µ avec
X = 1 n
n
X
i=1
X i
la moyenne empirique de l’´ echantillon. Sous H 0 , on sait que X N
µ 0 , σ n 2
et que sa version centr´ ee-r´ eduite est telle que
Z = X − µ 0
√ σ n
N (0, 1) .
Sous H 1 , X prendra des valeurs inf´ erieures ` a µ = µ 0 , la variable Z aura tendance ` a prendre des valeurs n´ egatives.
On a donc affaire ` a un test unilat´ eral avec une zone de rejet de H 0 ` a gauche. Fixons le risque de premi` ere esp` ece α = 0.05 que l’on souhaite le plus petit possible. La zone de rejet de H 0 , not´ ee RH 0 correspond donc ` a l’intervalle
RH 0 =] − ∞; z α [
o` u la borne seuil z α est le quantile d’ordre α de la gaussienne centr´ ee-r´ eduite. Au risque de 5 % (α = 0.05), cette zone de rejet devient
RH 0 =] − ∞; −1.645[.
On a mesur´ e x obs = 54.1 ` a patir des donn´ ees de l’´ enonc´ e et on en d´ eduit z obs = x obs − µ 0
√ σ n
= 54.1 − 55
√ 5 9
= −0.54.
On constate que z obs ∈ RH 0 . L’hypoth` ese nulle n’est pas rejet´ ee. Avec une probabilit´ e de 95 %, le cahier des charges est respect´ e.
Q2 - On se retouve dans le cas d’un ´ echantillon de variables gaussiennes dont aucune information sur les param` etres populationnels n’est fournie. Il faut donc estimer moyenne et variance avec leurs estimateurs empiriques
X = 1 n
n
X
i=1
X i ,
S n−1 2 = 1 n − 1
n
X
i=1
X i − X 2
o` u l’on a choisi une version sans biais de l’estimateur de la variance. A la diff´ erence du test pr´ ec´ edent, le fait que l’on ne nous indique plus une valeur d’´ ecart-type implique que deux sources de variabilit´ e issues de ` a la fois de l’estimation de la moyenne et de la variance avec l’´ echantillon propos´ e, vont venir modifier la distribution de la variable
Z = X − µ 0 q S n−1 2
n
.
Sous H 0 , cette variable ne suit plus une gaussienne centr´ ee r´ eduite mais une loi de Student ` a n − 1 degr´ es de libert´ e
Z T n−1 .
Sous H 1 , X prendra des valeurs inf´ erieures ` a µ = µ 0 , la variable Z aura tendance ` a prendre des valeurs n´ egatives, comme pr´ ec´ edemment. On a donc affaire ` a un test unilat´ eral avec une zone de rejet de H 0 ` a gauche. Avec α = 0.05, la zone de rejet de H 0 , not´ ee RH 0 correspond donc ` a l’intervalle
RH 0 =] − ∞; z n−1;α [
o` u la borne seuil z n−1;α est le quantile d’ordre α de la loi de Student de param` etre n − 1. Comme n − 1 = 8, cette zone de rejet devient
RH 0 =] − ∞; −1.86[.
On a mesur´ e s 2 obs = 21.885 et
z 0 obs = x obs − µ 0 q s 2 obs
n
= 54.1 − 55 q 21.885
9
= −0.577,
et on en d´ eduit imm´ ediatement que z obs 0 ∈ RH 0 . L’hypoth` ese nulle n’est pas rejet´ ee. Avec une probabilit´ e de 95 %, le cahier des charges est respect´ e, comme dans le test pr´ ec´ edent.
Ce qui diff` ere concerne essentiellement l’´ etalement de la distribution (Fig. 1). La loi de Student est plus ´ etal´ ee
que la loi normale parce que la statistique de test Z cumule deux sources d’incertitude lorsqu’on estime moyenne
et variance populationnelles. On peut calculer la p-value (valeur seuil observ´ ee) dans le cas gaussien
−4 −2 0 2 4 0.0
0.1 0.2 0.3 0.4
z N ( µ = 0 , σ
2= 1 ) + T
8RH
0RH
0P ( Z ≤ z
α) = α
●
z
αE ( Z ) = 0
●
z
8;αP ( Z ≤ z
8;α) = α
Figure 1: Loi normale centr´ ee r´ eduite et loi de Student ` a 8 degr´ es de libert´ e (pointill´ es). La probabilit´ e de rejeter H 0 est la mˆ eme dans le cas de la loi de Student (surface rouge fonc´ e) que dans le cas gaussien (surface rouge clair) mais l’´ etalement plus important de la loi de Student implique de prendre un quantile z 8;α plus ´ eloign´ e.
et dans le cas de la loi de Student
α 0 obs = P Z ≤ z obs 0
= 0.289.
Ces valeurs sont ´ eloign´ ees de la borne seuil ` a 5 % et finalement assez proche.
Correction exercice n ° 3.
Q1 - On se trouve dans le mˆ eme cas de figure que dans la seconde question de l’exercice pr´ ec´ edent. Nous supposerons l’´ echantillon i.i.d., de variables gaussiennes dont aucune information sur les param` etres populationnels n’est fournie. Il faut donc estimer moyenne et variance avec leurs estimateurs empiriques
X = 1 n
n
X
i=1
X i ,
S n−1 2 = 1 n − 1
n
X
i=1
X i − X 2
o` u l’on choisira une version sans biais de l’estimateur de la variance. Fixons µ 0 = 50 mg, la valeur ` a ne pas d´ epasser. On veut tester l’hypoth` ese H 0 : µ = µ 0 contre l’alternative H 1 : µ > µ 0 . La statistique de test est la variable al´ eatoire
Z = X − µ 0 q S n−1 2
n
.
Sous H 0 , cette variable suit une loi de Student ` a n − 1 d´ egr´ es de libert´ e Z T n−1 .
Sous H 1 , X prendra des valeurs sup´ erieures ` a µ = µ 0 et la variable Z aura tendance ` a prendre des valeurs positives.
On a donc affaire ` a un test unilat´ eral avec une zone de rejet de H 0 ` a droite. Avec α = 0.05, la zone de rejet de H 0 , not´ ee RH 0 correspond donc ` a l’intervalle
RH 0 =]z n−1;1−α ; +∞[
o` u la borne seuil z n−1;1−α est le quantile d’ordre 1 − α de la loi de Student de param` etre n − 1. Dans cet exercice, α = 0.05, n − 1 = 8, z 8;0.95 = 1.86 et cette zone de rejet devient
RH 0 =]1.86; +∞[.
On a mesur´ e x obs = 54.1 et s 2 obs = 21.885, ce qui nous permet de calculer z obs = x obs − µ 0
q s 2 obs n
= 54.1 − 50 q 24.62
9
= 2.629,
et on en d´ eduit imm´ ediatement que z obs ∈ RH 0 . L’hypoth` ese nulle est rejet´ ee. Avec une probabilit´ e de 95 %, la r´ eglementation n’est pas respect´ ee.
Q2 - On veut un intervalle de confiance de la moyenne d’une population gaussienne ou moyenne et variance sont estim´ ees avec un ´ echantillon de petite taille (n = 9). On sait que cet intervalle est de la forme
IC 1−α =
X − s
S n−1 2
n z n−1;1−α/2 ; X − s
S n−1 2
n z n−1;α/2
o` u z n−1;1−α/2 = z 8;0.975 = 2.30 et z n−1;α/2 = z 8;0.025 = −2.30 si α = 0.05. Avec les valeurs calcul´ ees sur l’´ echantillon, on obtient alors
IC 0.95 =
x obs − s
s 2 obs
n z 8;0.975 ; x obs − s
s 2 obs n z 8;0.025
=
"
54.1 −
r 21.885
9 × 2.30; 54.1 +
r 21.885 9 × 2.30
#
= [50.50; 57.69] .
Avec un ´ echantillon r´ ealis´ e dans les mˆ emes conditions que celui dont nous disposons, il y aurait 95 % de chance de trouver 50.50 ≤ µ ≤ 57.69, ce qui corrobore les r´ esultats du test pr´ ec´ edent (µ 0 ∈ / IC 0.95 ).
Correction exercice n ° 4.
Q1 - Pour le r´ egime A, on dispose d’un ´ echantillon {X 1 , · · · , X 9 } de variables que nous supposerons i.i.d. et de mˆ eme loi m` ere que la variable X N µ A , σ 2 A
. pour le r´ egime B , on a un ´ echantillon {Y 1 , · · · , Y 8 } de variables que nous supposerons ´ egalement i.i.d. et de mˆ eme loi m` ere que la variable Y N µ B , σ B 2
. Aucun param` etre populationnel n’est connu. Il faut donc les estimer. Soit
X = 1 9
9
X
i=1
X i et on a observ´ e x obs = 103.222,
S A 2 = 1 8
9
X
i=1
X i − X 2
et on a observ´ e s 2 A = 112.944,
Y = 1 8
8
X
j=1
Y j et on a observ´ e y obs = 119.750,
S B 2 = 1 7
8
X
j=1
Y j − Y 2
et on a observ´ e s 2 B = 260.786.
On souhaite ´ etablir un test permettant de confronter l’hypoth` ese H 0: σ A 2 = σ B 2 contre l’alternative H 1: σ 2 A 6= σ B 2 . On sait que, pour le r´ egime A, la variable al´ eatoire
Z A = 8S A 2 σ 2 A suit une loi χ 2 8 . Pour le r´ egime B,
Z B = 7S B 2
χ 2 7 .
La statistique de test que nous allons utiliser est donn´ ee par la variable Z = 8 × Z B
7 × Z A
= σ A 2 S B 2
σ B 2 S A 2 F (7, 8) que l’on sait suivre une loi de Fisher-Snedecor de param` etres (7, 8)(Fig 2).
0 1 2 3 4 5 6
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
z
F ( 7 , 8 )
RH
0RH
0RH
0P ( Z ≤ z
α2( 7 , 8 )) = α 2
P ( Z ≥ z
1−α2( 7, 8 )) = α 2
●
z
α2( 7, 8 )
●