9
Estimation
Leçon
Niveau BTS
Prérequis probabilités, loi normale
Références [39], [40]
13.1
Estimation
13.1.1 Introduction
Lorsque l’on cherche à déterminer le poids moyen des français, il est bien sûr hors de question de peser tous les français. Par contre, en choisissant judicieusement un petit nombre de personnes, il est possible d’en obtenir une estimation.
On pratique beaucoup ces estimations dans les milieux industriels plutôt que d’étudier la popula-tion entière soit parce que cela prendrait trop de temps, soit parce que cela reviendrait trop cher, soit encore parce que cela serait illogique (contrôle qualité détruisant les pièces. . .).
13.1.2 Loi des grands nombres
Théorème 13.1— Loi des grands nombres. On considère une expérience aléatoire avec un événement
Ade probabilité p. Si on répète n fois et de manière aléatoire cette expérience on regarde la fréquence
d’apparition fnde l’événement A. On obtient, avec une probabilité aussi grande que l’on veut, une
fréquence fn (pour n expériences indépendantes) aussi proche que l’on veut de p, lorsque n est
suffisamment grand.
Exemple 13.2 Lors de 300 lancers de dés, on observe les résultats suivants :
Faces 1 2 3 4 5 6
Effectif 49 50 51 49 50 51
Fréquence 0,163 0, 166 0,17 0,163 0,166 0,17
On observe que les fréquences sont proches des probabilités pour obtenir une des faces d’un dé qui
est de 16.
13.1.3 Estimation ponctuelle
On prélève un échantillon au hasard sur la population dont on cherche à faire l’étude.
Définition 13.3 — Estimation ponctuelle de la fréquence. Pour estimer la fréquence p inconnue d’un caractère dans une population, on prélève un échantillon et on calcule la fréquence d’apparition de ce caractère dans l’échantillon. Cette fréquence d’apparition est une estimation ponctuelle de la fréquence p.
Exemple 13.4 Une usine produit des vis cruciformes. On souhaite estimer la moyenne des longueurs
des vis dans la production de la journée qui s’élève à 10000 pièces. On prélève un échantillon de 150 vis et on relève 3 pièces défectueuses. On peut alors donner une estimation de la fréquence p de vis défectueuses dans le production journalière :
f = 3
donc p= 0,02.
Définition 13.5 — Estimation ponctuelle de la moyenne. Pour estimer la moyenne m inconnue d’une population, on prélève un échantillon et on calcule la moyenne de cet échantillon. Cette moyenne d’échantillon est une estimation ponctuelle de la moyenne m.
Exemple 13.6 On reprend les données de l’exemple de l’usine. On choisit un échantillon de 150 vis
et on obtient une moyenne de m= 4,57 cm. On en déduit donc que la longueur moyenne des vis de
la production journalière est x= 4,57 cm.
Définition 13.7 — Estimation ponctuelle de l’écart-type. Pour estimer l’écart-type σ inconnu d’une population, on prélève un échantillon et on calcule l’écart-type σ0 de cet échantillon. Le nombre
q n
n−1σ0 est une estimation ponctuelle de l’écart-type σ.
Exemple 13.8 On reprend les données de l’exemple de l’usine. La mesure de la longueur des vis
produites dans l’échantillon précédent de 150 pièces conduit à relever un écart-type de 3 mm. La meilleure estimation possible de l’écart-type de la production journalière n’est pas de 3 mm comme dans le cas précédent pour la moyenne, mais de
σ = 3
r150
149 '3,01 mm.
13.1.4 Estimation par intervalle de confiance
Moyenne On considère une population de moyenne m inconnue et d’écart-type σ qu’on suppose connue. Si n est assez grand, la variable aléatoire X qui à chaque échantillon de n éléments associe sa moyenne suit approximativement la loi N m,√σ
n
.
On peut donc, à l’aide de N (0, 1), trouver un intervalle [a , b] tel que P (a ≤ X ≤ b) = 0,95 pr exemple.
Définition 13.9 Cet intervalle est appelé intervalle de confiance de la moyenne m avec le coefficient de confiance 0,95.
On a de manière plus générale :
Théorème 13.10 L’intervalle[x − t√σ
n, x+ t σ
√
n] est l’intervalle de confiance de la moyenne
mde la population avec le coefficient de confiance2Π(t)−1 où x est la moyenne de l’échan-tillon considéré etΠ(t) la valeur en t de la fonction de répartition de N (0, 1).
R 13.11 On ne peut déterminer un intervalle de confiance que si on connaît déjà l’écart-type σ.
Exemple 13.12 On suppose que la durée de vie, exprimée en heures, d’une ampoule
élec-trique d’un certain type, suit la loi normale de moyenne M inconnue et d’écart type σ = 20. Une étude sur un échantillon de 16 ampoules donne une moyenne de vie égale à 3000 heures. On va déterminer un intervalle de confiance de M au seuil de risque de 10%. On a :
2Π(t) − 1 = 1 − 0,1 ⇔ Π(t) = 0,95 ⇔ t = 1,645. Un intervalle de confiance de M est donc :
3000 − 1,645√16;3000 + 1,64520 √1620 = [2992 , 3008].
Fréquence On considère une population qui contient avec une fréquence p des individus ayant un certain caractère. Si n est assez grand, la variable aléatoire F qui à chaque échantillon de
néléments associe la fréquence d’apparition des individus ayant ce caractère suit
approxima-tivement la loi N p;qp(1−p)n
.
De manière analogue au cas pour une moyenne il est possible de déterminer un intervalle de confiance de la fréquence p avec un coefficient de confiance choisi.
Théorème 13.13 L’intervalle[f − tqf(1−f) n−1 , f+ t
q
f(1−f)
n−1 ] est l’intervalle de confiance de
la fréquence p avec le coefficient de confiance2Π(t) − 1 où f est la fréquence des individus ayant le caractère dans l’échantillon considéré.
Exemple 13.14 Un sondage dans une commune révèle que sur les 500 personnes interrogées,
42% sont mécontentes de l’organisation des transport. On veut déterminer, au seuil de risque 1%, un intervalle de confiance du pourcentage p de personnes mécontentes dans la commune. On a f = 0,42, n = 500, 2Π(t) − 1 = 0,99 donc t = 2,575. Un intervalle de confiance du pourcentage p est donc :
" 0,42 − 2,58r0,42 × 0,58499 ; 0,42 + 2,58r0,42 × 0,58499 # = [0,36 , 0,48] = [36% , 47%].
13.2
Tests d’hypothèses
Chaque test se déroule en 5 étapes :
1. Détermination de la variable aléatoire de décision et de ses paramètres.
2. Choix des deux hypothèses : l’hypothèse nulle H0et de l’hypothèse alternative H1,
3. L’hypothèse nulle étant considérée comme vraie et compte tenu de l’hypothèse alternative, détermination de la zone critique selon le niveau de risque α donné,
4. Rédaction d’une règle de décision
Ces quatre premières étapes est la construction du test de validité d’hypothèse et :
5. Calcul des caractéristiques d’un échantillon particulier puis application de la règle de décision Cette dernière étape est l’utilisation du test d’hypothèse.
13.2.1 Test bilatéral relatif à une moyenne
Exemple 13.15 Une machine produit des rondelles dont l’épaisseur est une variable aléatoire X
d’écart-type 0,3 mm. La machine a été réglée pour obtenir des épaisseurs de 5 mm. Un contrôle portant sur un échantillon de 100 rondelles a donné5,07 mm comme moyenne des épaisseurs de ces 100 rondelles. Peut-on affirmer que la machine est bien réglée au seuil de risque de5% ?
1. Variable aléatoire de décision Soit m l’espérance mathématique de X, c’est-à-dire la moyenne des épaisseurs de toutes les rondelles produites par la machine ainsi réglée. On considère la variable aléatoire M qui, à chaque échantillon de taille 100, associe sa moyenne. La talle des échantillons étant suffisamment grande, on considère que M suit la loi Nm,√1000,3 ,
2. Choix des hypothèses On estime que la machine est bien réglée, si la moyenne de toutes les rondelles produites par la machine est 5 mm. C’est donc l’hypothèse m = 5 que nous al-lons tester. On l’appelle l’hypothèse nulle H0. Sinon, on choisit comme hypothèse alternative,
l’hypothèse H1: « m 6= 5 ». Recherchons comment la moyenne me, d’un échantillon de 100
rondelles peut confirmer ou non l’hypothèse H0.
3. Zone critique Dans le cas où l’hypothèse H0 est vraie, la variable aléatoire M suit la loi
N (5; 0,03). On cherche alors le réel d tel que
P(5 − d ≤ M ≤ 5 + d) = 0,95. (13.1)
La variable aléatoire T = M−5
0,03 suit la loi normale centrée réduite N (0, 1), on a alors :
(13.1) ⇔ P (5 − d ≤ 0,03T + 5 ≤ 5 + d) = 0,95 ⇔ P −0,03d ≤ T ≤ 0,03d = 0,95 ⇔ 2Π0,03d − 1 = 0,95 ⇔ Π0,03d = 0,975. On trouve alors d
0,03 = 1,96 soit d = 0,0588 ' 0,06. L’intervalle de confiance est donc
l’intervalle :[5 − 0,06 , 5 + 0,06] = [4,94 , 5,06].
La probabilité qu’un échantillon ait une moyenne située hors de cet intervalle étant 0,05, on peut considérer que cet événement est rare. Ainsi, la moyenne de notre échantillon me = 5,07
nous amène à douter de la validité de l’hypothèse H0.
Il se peut, malgré tout, que la machine soit bien réglée et que notre échantillon fasse partie des5% de ceux ayant une moyenne hors de l’intervalle trouvé. C’est pourquoi cette région est appelée zone critique.
4. Règle de décision Si la moyenne de l’échantillon n’est pas située dans la zone critique, on accepte H0, sinon, on refuse H0et on accepte H1.
5. Conclusion Puisque 5,07 appartient à la zone critique, on décide de rejeter l’hypothèse H0et
d’accepter l’hypothèse alternative H1: « m 6= 5 » (la machine n’est pas bien réglée).
R 13.16 Dans un test de validité d’hypothèse, le seuil de risque α est la probabilité de rejeter H0alors qu’elle est
vraie.
13.2.2 Test unilatéral relatif à une moyenne
Exemple 13.17 La durée de vie (en heures) des ampoules électriques produites par une usine est
une variable aléatoire X d’écart type 120. Le fabricant annonce qu’en moyenne, les ampoules ont une durée de vie de 1120 heures. On demande de rédiger une règle de décision pour vérifier l’affirmation du fabricant, au seuil de risque de5%, en testant un échantillon de 36 ampoules.
1. Variable aléatoire de décision Soit m l’espérance mathématique de X, c’est-à-dire la moyenne des durées de vie de toutes les ampoules produites. On considère la variable aléatoire M qui, à chaque échantillon de 36 ampoules associe la moyenne de durée de vie des 36 ampoules. La taille des échantillons étant suffisamment grande, on considère M suit la loi N m;√36120,
c’est-à-dire N (m; 20).
2. Choix des hypothèses Soit l’hypothèse nulle H0: « m= 1120 » (l’affirmation du fabricant est
vraie). Dans l’exemple précédent, les rondelles devaient avoir une épaisseur moyenne de5 mm et cette mesure ne supportait ni excès, ni déficit. Ici, l’acheteur ne se plaindra que si la durée de vie des ampoules est inférieure à1120 heures ; dans le cas où la moyenne me, de l’échantillon
est supérieure à 1120, l’hypothèse du fabricant se trouve immédiatement confirme. L’hypo-thèse alternative H1est donc m <1120 (l’affirmation du fabricant est fausse).
3. Zone critique La zone critique se trouve donc d’un seul côté de la moyenne. On dit alors que le test est unilatéral par opposition au test bilatéral effectué au paragraphe précédent. Dans le cas où H0est vraie, la variable aléatoire M suit la loi N (1120; 20). On cherche alors le réel d
tel que
P(M < 1120 − d) = 0,05. (13.2) La variable aléatoire T = M−1120
20 suit la loi normale centrée réduite N (0, 1), on a alors :
(13.2) ⇔ P (20T + 1120 < 1120 − d) = 0,05 ⇔ PT <−20d= 0,05 ⇔ PT > 20d= 0,05 ⇔ 1 − PT ≤ d 20 = 0,05 ⇔ Πd 20 = 0,95. On trouve alors d
20 = 1,645 soit d = 32,9 ≈ 33. La zone critique est donc l’intervalle
]−∞ , 1120 − 33] = ]−∞ , 1087].
La zone critique est l’intervalle]−∞ , 1087] : 5% seulement des échantillons de taille 36 ont en moyenne une durée de vie inférieure à 1087 heures.
4. Règle de décision Si la moyenne mede l’échantillon observé est inférieure à 1087, on rejette
l’hypothèse H0et on accepte l’hypothèse alternative H1(l’affirmation du fabricant est fausse).
Si la moyenne mede l’échantillon observé est supérieure à1087, on accepte l’hypothèse H0.
13.2.3 Test unilatéral relatif à une fréquence
R 13.18 On donne ici un exemple de test unilatéral relatif à une fréquence, mais d’autres cas peuvent amener à envisager des tests bilatéraux relatifs à une fréquence.
Exemple 13.19 Un joueur doit choisir au hasard une carte dans un jeu de 32 cartes. Il obtient
certains avantages s’il découvre un roi. On constate qu’il a retourné 134 fois un roi sur 800 essais. Peut-on présumer, au seuil de risque de1%, que ce joueur est un tricheur ?
1. Variable aléatoire de décision Soit p la fréquence de rois que le joueur découvraient s’il jouait une infinité de fois. Soit F la variable aléatoire qui, à chaque échantillon de 800 essais, asso-cie la fréquence d’apparition du roi. La taille des échantillons étant suffisamment grande, on considère F suit la loi N p;qp(1−p)800
. F sera la variable aléatoire de décision.
2. Choix des hypothèses Si le joueur n’est pas un tricheur, la valeur de p est 324 = 0,125. Donc, l’hypothèse nulle H0 est « p = 0,125 » (le joueur n’est pas un tricheur). Si p < 0,125, on
considéra que le joueur n’est pas un tricheur non plus, donc : l’hypothèse alternative H1 est
« p >0,125 » (le joueur est un tricheur).
3. Zone critique Dans le cas où l’hypothèse H0 est vraie, la variable aléatoire F suit la loi
N
0,125;q0,125×0,875800 soit N (0,125; 0,0117). On cherche alors le réel d tel que
P(F > 0,125 + d) = 0,01 (13.3)
La variable aléatoire T = F−0,125
0,0117 suit la loi normale centrée réduite N (0, 1), on a alors :
(13.3) ⇔ P (0,0117T + 0,125 > 0,125 + d) = 0,01 ⇔ P T > 0,0117d = 0,01
⇔ 1 − PT ≤ 0,0117d = 0,01 ⇔ Π0,0117d = 0,99.
On trouve alors d
0,0117 = 2,33 soit d = 0,027261 ≈ 0,027. La zone critique est donc
l’inter-valle[0,125 + 0,027 , +∞[ = [0,152 , +∞[.
Donc la zone critique est]0,152 , +∞].
4. Règle de décision Si la fréquence de l’échantillon est supérieure à 0,152, on rejette l’hypo-thèse H0 et on accepte l’hypothèse H1: l’hypothèse H0n’est pas validée. Si la fréquence de
l’échantillon est inférieure0,152, on accepte l’hypothèse H0: l’hypothèse H0est validée.
5. Conclusion L’échantillon observé a une fréquence égale à 134800 = 0,1675. D’après la règle de décision, puisque 0,1675 > 0,152, on accepte l’hypothèse H1 et on décide que le joueur est
[1] Problème des sept ponts de Königsberg, Wikipédia, l’encyclopédie libre.
[2] C. LE BOT, Théorie des graphes, 2006, http://blog.christophelebot.fr/
wp-content/uploads/2007/03/theorie_graphes.pdf.
[3] Coloration des graphes, Apprendre-en-ligne, http://www.apprendre-en-ligne. net/graphes-ancien/coloration/sommets.html
[4] O. GARET, Exemples de problèmes de graphes, http://iecl.univ-lorraine. fr/~Olivier.Garet/cours/graphes/graphes-documents_d_
accompagnement.pdf.
[5] E. SIGWARD& al., Odyssée Mathématiques Terminale ES/L, Hatier, 2012.
[6] Graphes probabilistes, Terminale ES spécialité.http://mathadoctes.free.fr/TES/ graphe/f4_graphe.PDF
[7] G. COSTANTINI, Probabilités (discrètes), Cours de Première S, URL : http://
bacamaths.net.
[8] P. RIBEREAU, Cours 5 Probabilités : Notion, probas conditionnelles et indépendance, URL :
http://www.math.univ-montp2.fr/
[9] P. DUVAL, Probabilités, TS. URL : http://lcs.werne.lyc14.ac-caen.fr/ ~duvalp
[10] G. COSTANTINI, Probabilités : Généralités, conditionnement, indépendance, Cours de
Pre-mière S. URL :http://bacamaths.net.
[11] M. LENZEN, Leçon no3 : Coefficients binomiaux, dénombrement des combinaisons, formule
du binôme. Applications., 2011, URL :http://www.capes-de-maths.com/index. php?page=leconsNEW
[12] G. CONNAN, Une année de mathématiques en Terminale S, Ch. 14, 2009-2010, URL :http: //tehessin.tuxfamily.org
[13] G. COSTANTINI, Loi binomiale, URL :http://bacamaths.net
[14] C. SUQUET, Intégration et Probabilités Elémentaires, 2009-2010. URL : http://math. univ-lille1.fr/~ipeis/
[15] L. LUBRANO& al., Mathématiques, BTS Industriels - Groupement B et C, Dunod, 2011.
[16] G. COSTANTINI, Lois de probabilités continues. URL :http://bacamaths.net.
[17] J.-P. GOULARD, Lois de probabilités continues, TS, 2014-2015.
http://blog.crdp-versailles.fr/jpgoualard/public/
TS-2014-2015-cours-loiscontinues.pdf.
[18] Probabilités 3 : Loi uniforme sur [a; b], Lycée de Font Romeu. http://www. lewebpedagogique.com/cerdagne/files/2013/02/02-Loi-uniforme. pdf
[19] Loi uniforme sur[a; b], IREM de Toulouse. URL :http://www.irem.ups-tlse.fr/ spip/IMG/pdf_LOI_UNIFORME.pdf
[21] C. SUQUET, Initiation à la Statistique, 2010. http://math.univ-lille1.fr/
~suquet/Polys/IS.pdf.
[22] J.-F. DELMAS, Modélisation stochastique, Cours de M2, 2009. URL :http://cermics. enpc.fr/~delmas/Enseig/mod-stoch.pdf
[23] L.-M. BONNEVAL, Chaînes de Markov au lycée, APMEP no503, 2013. URL : http:// publimath.irem.univ-mrs.fr/biblio/AAA13018.htm
[24] Marche aléatoire, IREM de Franche-Comte. URL : http://www-irem. univ-fcomte.fr/download/irem/document/ressources/lycee/marche/
marche-aleatoire.pdf.
[25] Marches sur Z, culturemath.ens.fr, URL : http://culturemath.ens.fr/maths/ pdf/proba/marchesZ.pdf
[26] Contributeurs à Wikipedia, Marche aléatoire, Wikipédia, l’encyclopédie libre, 2014.
[27] Marche au hasard dans les rues de Toulouse, URL : http://mappemonde.mgm.fr/ actualites/M_toulouse2.html
[28] R. NOEL, Statistiques descriptives, http://amphimaths.chez-alice.fr/N1/ stats_desc_poly.pdf
[29] J. LEVY, Séries statistiques, URL :http://jellevy.yellis.net.
[30] P. BRACHET, Statistiques : résumé de cours et méthodes, Première S. http://www.
xm1math.net/seconde/seconde_chap9_cours.pdf.
[31] Contributeurs de Wikipédia, Série statistique à deux variables, Wikipédia.
[32] G. COSTANTINI, Séries statistiques à deux variables. URL :http://bacamaths.net. [33] A. GUICHET, Prépa ECS - Lycée Touchard, Chap 1. 1.2. URL :http://alainguichet.
mathematex.net/ecs-touchard/wiki.
[34] Y. DUCEL & B. SAUSSEREAU, Partie I : Du théorème de Moivre-Laplace (TML) au
Théorème-Limite Central (TLC), Journée académique « Terminale », Besançon, octobre 2012. http://bsauss.perso.math.cnrs.fr/IREM_FC_GrouProbaStat/ Terminale-I_JourneeOctobre-2012_DIAPORAMA_120929/DIAPORAMA-I_
JourneeTerminale_octobre-2012.pdf.
[35] R. BARRA& al., Transmath 2nde, Nathan, 2010.
[36] P. MILAN, Statistiques et estimation, Terminale S.
[37] IREM Aix-Marseille, Groupe Proba-Stats, Estimation : intervalle de fluctuation et de confiance, Mars 2012. http://www.irem.univ-mrs.fr/IMG/pdf/estimation_ nouveau_programme2012.pdf
[38] Intervalle de fluctuation, intervalle de confiance, Animation nouveaux programmes de mathématiques Terminale STI2D - Académie de Créteil, jeudi 3 mai 2012.
http://maths.ac-creteil.fr/IMG/pdf/intervalles__fluctuation_ confiance_sti2d-stl_1_.pdf
[39] N. DAVAL, Statistiques inférentielles : estimation. BTS Domotique. URL : http:// mathematiques.daval.free.fr