5. STATISTIQUES | 1
Chapitre 5 Statistiques
Leçon 14 Estimation
➢ La moyenne ( )x , la variance
( )
s2 , l’écart type ( )s et la proportion ( )pˆ de l’échantillon sont appelés la valeur statistique.➢ L’espérance (la moyenne ( ) ), la variance
( )
2 , l’écart type ( ) et la proportion ( )p de la population sont appelés le paramètre.➢ L’estimation est estimer les paramètres : ,2, p à l’aide la statistique.
L’estimation concerne : estimation ponctuelle et estimation par intervalle.
1. Estimation ponctuelle
L’estimation ponctuelle est estimer le paramètre à l’aide une seule statistique :
▪ Le meilleur estimateur de l’espérance est la moyenne de l’échantillon :
== n
i
xi
x n
1
1
▪ Le meilleur estimateur de la variance 2 est la variance de l’échantillon :
( )
=− −
= n
i
i x
n x s
1 2 2
1 1
▪ Le meilleur estimateur de la proportion p est la proportion de l’échantillon (fréquence) :
n pˆ = k ,
Exemple 1 : Dans un échantillon de 10 élèves, l’âge observée est de :15 16 15 17 16 19 18 17 18 17. L’âge moyen de l’ensemble des élèves est donc : D’après la formule :
=
= n
i
xi
x n
1
1
On a : 16,8
10 186 10
17 18 17 18 19 16 17 15 16
15+ + + + + + + + + = =
= x
Dans un échantillon de 10 élèves, l’âge moyen de la population est : 17 ans.
Exemple 2 : On interroge au hasard, dans une population de 50 élèves. Sur ces 50 élèves, 35 aiment les mathématiques.
Le pourcentage d’élèves aimés les mathématiques dans la population est donc : D’après la formule :
n pˆ =k
On a : 0,7 50 ˆ =35=
p soit 70% d’élèves aimés les mathématiques dans la population.
5. STATISTIQUES | 2
2. Estimation par intervalle Définition
L’estimation par intervalle associe à un échantillon aléatoire, un intervalle
ˆ1;ˆ2
qui recouvre avec une certaine probabilité.Cet intervalle est appelé l’intervalle de confiance du paramètre car la probabilité de dont la valeur est inconnue se trouve compris entre 1 et2 est égale à (1−)100%, le niveau de confiance. est appelé le coefficient de
risque.
Un intervalle de confiance indique la précision d’une estimation car pour un risque donné, l’intervalle est d’autant plus grand que la précision est faible.
1) Intervalle de confiance d’une espérance
En fonction de la nature de la variable aléatoire continue X , de la taille de l’échantillon n et de la connaissance que nous avons sur le paramètre 2, l’établissement de l’intervalle de confiance autour de sera différent.
• Quelque soit la valeur de n, si X →N(,) et la variance 2 est connue, Etablir l’intervalle de confiance autour de l’espérance revient à établir la valeur de i pour une valeur du niveau de confiance (1−)100% donnée par l’expérimentateur.
L’intervalle de confiance de l’espérance pour un coefficient de risque (une marge d’erreur) est donc :
n Z x n
Z
x
2 2
+
−
. , espérance (moyenne) de la population
x
. , moyenne de l’échantillon
5. STATISTIQUES | 3
. , écart type de la population (2 variance de la population)
n
. , taille de l’échantillon
2
. Z, valeur statistique Z indiquée sur la table de valeur
Exemple : Pour des masses suivent une loi normale, une balance donne une pesée avec un écart type de 2,51. Les résultats des 10 pesées d’un même corps sont : 10,2 9,7 10,1 10,3 10,1 9,8 9,9 10,4 10,3 9,8.
On veut connaître le poids moyen de ce corps dans la population avec un niveau de confiance de 95%.
Solution
Avec 1 0,95 0,05 0,025 1,96
2
−
=
=
=
−
= Z Z
(d’après le table de valeur)
= 1010
1 xi
x
06 , 10 10
6 , 100 10
8 , 9 3 , 10 4 , 10 9 , 9 8 , 9 1 , 10 3 , 10 2 , 10 7 , 9 2 ,
10 + + + + + + + + + = =
= x
Et donc
10 51 , 962 , 1 06 , 10 10
51 , 962 , 1 06 ,
10 − +
8,5011,62
d’où le poids moyen de ce corps est compris 8,50 et 11,62 avec une probabilité de 95%.
• Quelque soit la valeur de n30, si X →N(,) et la variance 2 est inconnue,
L’intervalle de confiance de l’espérance pour un coefficient de risque
est donc :
( ) ( )
n n s
t x n
n s t
x 1 1
2 2
− +
−
− avec
( )=
− −
= n
i
i x
n x s
1
2
1 1
. , espérance de la population
x
. , moyenne de l’échantillon
s
. , écart type de l’échantillon (s2 variance de l’échantillon)
n
. , taille de l’échantillon
2
. t, valeur statistique t indiquée sur la table de valeur
Exemple : Pour des masses suivent une loi normale, une balance donne des 10 pesées d’un même corps : 10,2 9,7 10,1 10,3 10,1 9,8 9,9 10,4 10,3 9,8.
5. STATISTIQUES | 4
On veut connaître le poids moyen de ce corps dans la population avec un niveau de confiance de 95%.
Solution
Avec 1 0,95 0,05 ( 1) 0,025 9 2,262
2
=
=
−
=
−
= t n t
(d’après la table de valeur)
= 1010
1 xi
x
06 , 10 10
6 , 100 10
8 , 9 3 , 10 4 , 10 9 , 9 8 , 9 1 , 10 3 , 10 2 , 10 7 , 9 2 ,
10 + + + + + + + + + = =
= x
( )
(10,2 10,06) (9,7 10,06) (9,8 10,06) 0,245
9 1
1 1
2 2
2 1
2
=
− + +
− +
−
=
− −
=
=
s
x n x
s
n
i i
Et donc
10 245 , 2620 , 2 06 , 10 10
245 , 2620 , 2 06 ,
10 − +
9,88510,235
d’où le poids moyen de ce corps est compris entre 9,885 et 10,235 avec une probabilité de 95%.
• Quelque soit la valeur de n30, si X →N(,) et la variance 2est inconnue
L’intervalle de confiance de l’espérance pour un coefficient de risque
est donc :
n Z s x n
Z s x
2 2
+
− avec
( )=
− −
= n
i
i x
n x s
1
2
1 1
2) Intervalle de confiance d’une variance 2
L’intervalle de confiance de la variance 2 pour un coefficient de risque est donc :
( )
( ) ( )
2 2 1
2 2
2 2
2 1
1 1
−
−
−
− n s
n s
n avec
( )=
− −
= n
i
i x
n x s
1 2 2
1 1
Exemple : Voici le volume en cm3 de 10 boîtes d’un même corps : 324 321 325 330 329 325 320 322 326 321.
On veut connaître la variance de ce corps dans la population avec un coefficient de confiance de 95%.
Solution
Avec ( )
( )
=
=
=
=
=
−
=
− 9 2,700
023 , 19 9 05
, 0 95 , 0
1 2
975 , 0 2
2 1
2 025 , 0 2
2
(d’après la table de valeur)
5. STATISTIQUES | 5
== n
i
xi
x n
1
1 324,3
10
321 326 322 320 325 329 330 325 321
324+ + + + + + + + + =
=
( ) (324 324,3) (2 321 324,3)2 (321 324,3)2 104,1
1
2 = − + − + + − =
−=
n
i
i x
x
( ) 104,1 11,567
9 1 1
1
1
2 − 2 = =
= −
= n
i
i x
n x s
Et donc ( )
( ) ( )
2 2 1
2 2
2 2
2 1
1 1
−
−
−
− n s
n s n
700 , 2
567 , 11 9 023
, 19
567 , 11
9 2
5,472238,557
d’où la variance de ce corps dans la population est comprise entre
557 , 38 et 472 ,
5 avec une probabilité de 95%. 3) Intervalle de confiance d’une proportion p
L’intervalle de confiance de la fréquence p pour un coefficient de risque est donc :
( ) ( )
n p Z p
p n p
p Z p
p ˆ 1 ˆ
ˆ ˆ ˆ 1 ˆ
2 2
+ −
−
−
vraie seulement si n est grand et np,n(1−p)5
Exemple : On interroge au hasard, dans une population de 144 élèves. Sur ces 144 élèves, 54 ont de la calculatrice.
La probabilité d’élèves ayant de la calculatrice avec un coefficient de confiance de 95% est donc :
Avec 1 0,95 0,05 0,025 1,96
2
−
=
=
=
−
= Z Z
(d’après la table de valeur)
375 , 144 0 ˆ = 54 = p
Et donc
144 625 , 0 375 , 96 0 , 1 375 , 144 0
625 , 0 375 , 96 0 , 1 375 ,
0
+
− p
0,296 p0,454
Ainsi la probabilité d’élèves ayant de la calculatrice est comprise entre 0,296 et 0,454 avec une probabilité de 0,95.
3. Taille d’un échantillon
1) Taille d’un échantillon pour estimer une espérance
Pour estimer une espérance de la population avec un niveau de confiance (1−)100% à une marge d’erreur e, la taille d'échantillon se calcule avec la formule suivante :
5. STATISTIQUES | 6
2
2
= e
n Z
avec
Z n
e
2
=
Exemple : L’intervalle de confiance de la moyenne d’un échantillon de 50 personnes avec un niveau de confiance 95% est de 23,52,88.
On veut connaître la taille de l’échantillon pour que l’intervalle de confiance donne le résultat correct à 1 près.
Solution Avec e1 =2,88
1 0,95 0,05 0,025 1,96
2
−
=
=
=
−
= Z Z
(d’après la table de valeur)
35 , 96 10
, 1
50 88 , 2 50
96 , 1 88 ,
2 2 = = =
=
n
Z e
Et donc 414,709 415
1 35 , 10 96 ,
1 2
2
2
2 =
=
= e
n Z
2) Taille d’un échantillon pour estimer une proportion p
Pour estimer une proportion p de la population avec un niveau de confiance (1−)100% à une marge d’erreur e, la taille d'échantillon se calcule avec la formule suivante :
(1 ˆ) 2 2
ˆ
−
= e
p Z p
n avec ( )
n p Z p
e ˆ 1 ˆ
2
= −
Et
2 2
4
1
= e
n Z est la taille la plus grande pour estimer p tel que
4
1 est la valeur maximale de pˆ(1− pˆ).
Exemple : Déterminer la taille d’échantillon pour calculer une proportion avec un niveau de confiance de 96% et une marge d’erreur à 0,08.
Solution Avec e=0,08
1 0,96 0,04 0,02 2,054
2
−
=
=
=
−
= Z Z
(d’après la table de valeur)
Et donc 164,804 165
08 , 0
054 , 2 4 1 4
1 2 2 2
=
=
= e n Z
5. STATISTIQUES | 7
Leçon 15 Tests d'hypothèses statistiques I. Généralités sur les tests.
1) Hypothèses soumises au test.
- Les statistiques développent des techniques et des méthodes qui permettent d'analyser les données issues de l'observation, afin de cerner les
caractéristiques de la population concernée et d'identifier un modèle capable d'engendrer ces données.
- Dans ce cadre, on est amené à faire des hypothèses, c'est-à-dire à émettre des assertions concernant ces caractéristiques ou ce modèle.
- Une hypothèse est dite paramétrique si elle se rapporte aux paramètres d'une loi. Elle est dite non paramétrique dans les autres cas.
- Une hypothèse paramétrique est dite simple si elle est associée à une valeur unique. Elle est dite multiple dans les autres cas.
- Le plus souvent, la situation se résume en une alternative constituée de deux hypothèses H0 et H1, qui s'excluent mutuellement et qui sont appelées
respectivement l'hypothèse nulle, ou fondamentale, et l'hypothèse alternative, ou contraire.
2) Test.
a) Définition.
Les hypothèses à confronter, H0 et H1, étant identifiées, leur validité est soumise à l'épreuve à l'aide d'un test d'hypothèses.
- Un test d'hypothèses est une règle de décision qui permet, sur la base des données observées et avec des risques d'erreur déterminés, d'accepter ou de refuser une hypothèse statistique.
b) Hypothèse nulle H0 et hypothèse alternative H1
- L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière s’appelle l’hypothèse nulle et est notée H0.
- N’importe quelle autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse alternative (ou contre-hypothèse) et est notée H1.
c) Seuil de signification du test
Le risque, consenti à l’avance et que nous notons de rejeter à tort l’hypothèse nulle H0 alors qu’elle est vraie, s’appelle le seuil de signification du test et s’énonce en probabilité ainsi :
(
rejeter H H vraie)
α P 0
= 0 .
A ce seuil de signification, on fait correspondre sur la distribution
5. STATISTIQUES | 8
d’échantillonnage de la statistique une région de rejet de l’hypothèse nulle (appelée également région critique).
La statistique qui convient pour le test est donc une variable aléatoire dont la valeur observée sera utilisée pour décider du « rejet » ou du « non- rejet » de H0 .
La distribution d’échantillonnage de cette statistique sera déterminée en supposant que l’hypothèse H0 est vraie.
Sur la distribution d’échantillonnage correspondra une région
complémentaire, dite région d’acceptation de H0 (ou région de non-rejet) de probabilité 1−.
d) Région d’acceptation et région critique Région d’acceptation
La région d’acceptation ou encore appelée zone d’acceptation est la région complémentaire de la région critique. Elle correspond à l’intervalle dans lequel le modèle proposé pour décrire la situation est accepté.
Région critique (ou région de refus)
La région critique, ou encore appelée zone de rejet est égale à l’ensemble des valeurs de la variable de décision qui conduisent à écarter H0 au profit de H1.
La région critique correspond donc aux intervalles dans lesquels les
différences sont trop grandes pour être le fruit du hasard d’échantillonnage.
Exemple de formulation d’un test :
Supposons que nous affirmions que la valeur d’un paramètre d’une population est égale à la valeur 0
. On s’intéresse au changement possible du paramètre . Les hypothèses
H0 et H1 soient alors une des trois possibilités suivantes:
0 1
0 0
: :
= H
H b)
0 1
0 0
: :
= H
H c)
0 1
0 0
: :
= H H
Exemple : Une machine produit des boules métalliques dont les fluctuations de diamètre dues au procédé de fabrication correspondent à un écart-type de
cm 004 ,
0 .
5. STATISTIQUES | 9
On veut tester si la machine est bien réglée.
Solution
➢ Si on suppose l’hypothèse :
004 , 0 :
004 , 0 :
1 0
=
H H
. Lorsqu’on accepte H0 ( =0,004) signifie que cette machine est bien réglée.
. Lorsqu’on rejette H0 ( 0,004) signifie que cette machine est male réglée.
➢ Si on suppose l’hypothèse :
004 , 0 :
004 , 0 :
1 0
=
H H
. Lorsqu’on accepte H0 ( =0,004) signifie que cette machine est bien réglée.
. Lorsqu’on rejette H0 ( 0,004) signifie que cette machine est male réglée.
➢ Si on suppose l’hypothèse :
004 , 0 :
004 , 0 :
1 0
=
H H
. Lorsqu’on accepte H0 ( =0,004) signifie que 0,004 ou 0,004. Pour ce cas on ne peut conclure que cette machine est bien réglée ou non.
II. Test d’hypothèse sur une seule population
Différentes étapes doivent être suivies pour tester une hypothèse (1) définir l’hypothèse nulle (notée H0) à contrôler,
(2) définir le niveau de signification du test ou région critique notée (3) choisir un test statistique ou une statistique pour contrôlerH0
(4) calculer, à partir des données fournies par l’échantillon, la valeur de la statistique
(5) définir la distribution de la statistique sous l’hypothèse « H0 est réalisée »,
(6) prendre une décision concernant l’hypothèse posée 1. Test sur une espérance
Pour tester une espérance dont la taille d’un échantillon n30 avec un seuil de signification .
Si H0:=0 alors on applique la statistique :
n Z x
0
= −
Remarque : Pour le cas est inconnu, on utilise s.
5. STATISTIQUES | 10
➢ Si H1:0 alors la région critique H0 est la région Z −Z
➢ Si H1:0 alors la région critique H0 est la région Z Z
➢ Si H1:0 alors la région critique H0 est la région Z−Z2 ou
2
Z Z
Exemple : Une machine produit des bijoux dont le temps nominal est égal à 0,52 minutes. Les fluctuations de temps dues au procédé de fabrication correspondent à un écart-type de 0,15 minutes.
Sur la base d'un échantillon aléatoire de taille n=75, on veut tester si cette machine met le temps inférieur au temps nominal pour un seuil de signification 0,05 sachant que le temps moyen mis sur l'échantillon est de 0,49 minutes.
Solution
1. : 0,52 52 , 0 :
1 0
=
H H
2. =0,05
3. n=7530
4. On applique la statistique
n Z x−0
=
1,73
75 15 , 0
52 , 0 49 ,
0 0 − =−
− =
= n Z x
5. D’après la table de valeur Z =Z0,05=−1,64
Z
− critique 0
région H régiond'acceptation H0
Z
n 0
acceptatio d'
région H régioncritiqueH0
2
Z n 0
acceptatio d'
région H
critique 0
région H
critique 0
région H
2
− Z
5. STATISTIQUES | 11
En effet
52 , 0 :
52 , 0 :
1 0
=
H
H et Z−Z , −1,73−−1,64 =−1,64
Donc la région critique H0 est la région Z−1,64
6. Lorsque Z =−1,73 est dans la région critique H0, l’hypothèse H0 est rejetée. On peut donc conclure que cette machine met le temps inférieur au temps nominal à un niveau de confiance 95%.
2. Test sur une espérance
Pour tester une espérance dont la taille d’un échantillon n30 avec un seuil de signification .
Si H0:=0 alors on applique la statistique :
n s Z = x−0
➢ Si H1:0 alors la région critique H0 est la région T−t
(
n−1)
➢ Si H1:0 alors la région critique H0 est la région T t
(
n−1)
➢ Si H1:0 alors la région critique H0 est la région T −t2(n−1) ou T t2(n−1)
Exemple : Lors d’une enquête sur la durée de vie portant 5 lampes, on obtient les résultats suivants (vie en heure) : 32 41 42 49 53.
64 ,
−1 critique 0
région H régiond'acceptationH0
(
−1)
−t n critique 0
région H régiond'acceptation H0
(
n−1)
t n 0
acceptatio d'
région H régioncritiqueH0
( 1)
2 n− t n 0
acceptatio d'
région H
critique 0
région H
critique 0
région H
( 1)
2 −
−t n
5. STATISTIQUES | 12
Peut-on affirmer que la durée de vie d’une lampe est de 50 heures pour un seuil de signification =0,05 ?
Solution
1. : 50
50 :
1 0
=
H H
2. =0,05
3. n=530
4. On applique la statistique
n s T x−0
=
5. 43,4
5
53 49 42 41
32+ + + + =
= x
( ) (32 43,4) (53 43,4) 8,08
4 1 1
1 2 2
1
2 = − + + − =
− −
=
=
n
i
i x
n x s
Donc 1,83
5 08 , 8
50 4 ,
0 =43 − =−
= −
n s T x
6. D’après la table de valeur t2(n−1)=t0,025( )4 =2,776 En effet
50 :
50 :
1 0
=
H
H et T =−1,83
Donc la région d’acception H0 est la région −2,776T 2,776
7. Lorsque T =−1,83 est dans la région d’acceptation H0. On peut donc conclure que l’affirmation est vraie avec un seuil de signification
05 , 0 .
III. Test d’hypothèse sur deux populations
1. Test de comparaison de deux espérances 1,2. Cas deux échantillons ont la taille n1,n2 30
➢ Si on suppose H0:1−2=d0 avec le seuil de signification On applique la statistique :
776 , 2 n 0
acceptatio d'
région H
critique 0
région H
critique 0
région H
776 ,
−2
5. STATISTIQUES | 13
( )
2 2 2 1
2 1
0 2 1
n n
d x Z x
+
−
= −
Remarque : pour le cas est inconnu, on utilise s.
➢ Si H1:1−2d0 alors la région critique H0 est la région Z −Z
➢ Si H1:1−2d0 alors la région critique H0 est la région Z Z
➢ Si H1:1−2 d0 alors la région critique H0 est la région Z−Z2 ou
2
Z Z
Exemple :Soit deux usines A et B de mêmes lampes de tailles nA=nB =40. La moyenne de la durée de vie et l'écart-type de l’usine A sont respectifs : 647 heures et 27 heures.
La moyenne de la durée de vie et l'écart-type de l’usine B sont respectifs : 638 heures et 31 heures.
On veut tester que les lampes de l’usine A sont en bonne qualité que les lampes de l’usine B pour un seuil de signification 0,05.
Solution
1. H0:A−B =0 0
1: A− B
H
2. =0,05
3. nA =nB =40, on applique la statistique ( )
2 2 2 1
2 1
0 2 1
n n
d x Z x
+
−
= − Z
− critique 0
région H régiond'acceptation H0
Z
n 0
acceptatio d'
région H régioncritiqueH0
2
Z n 0
acceptatio d'
région H
critique 0
région H
critique 0
région H
2
− Z
5. STATISTIQUES | 14
( )
38 , 1 40 31 40 27
0 638 647
2
2 =
+
−
= − Z
4. Z =Z0,05=−1,645 la région critique H0 est la région Z1,64
5. Z =1,38 appartient à la région d’acceptation H0 c montre que on accepte H0.
Donc l’affirmation que les lampes de A sont en bonne qualité que les lampes de B est fausse.
2. Test de comparaison de deux espérances 1,2. Cas deux échantillons ont la taille n1,n2 30 et 12 =22
➢ Si on suppose H1:1−2 d0 avec le seuil de signification On applique la statistique :
( )
( ) ( )
+
− +
− +
−
−
= −
2 1
2 1 2
1
2 2 2 2 1 1
0 2 1
2 1 1
n n
n n n
n
s n s n
d x
T x à v=n1+n2−2 degrés de liberté.
Pour un risque d’erreur fixé on a donc :
➢ Si on suppose H1:1−2d0, la région critique H0 est la région
( )
vt T−
➢ Si H1:1−2d0 alors la région critique H0 est la région Tt
( )
v➢ Si H1:1−2 d0 alors la région critique H0 est la région T −t2( )v ou ( )v
t T 2
Exemple : Le revenu moyenne mensuelle et l’écart-type de 15 marchands du marché A sont respectifs 3,5 millions kips et 0,5 millions kips.
( )
v t n 0acceptatio d'
région H régioncritiqueH0
( )v t2 n 0
acceptatio d'
région H
critique 0
région H
critique 0
région H
( )v t2
−
( )
vt
− critique 0
région H régiond'acceptation H0