Chapitre 12
Statistique inf´ erentielle
Cours de math´ ematiques de BCPST Deuxi` eme ann´ ee
Table des mati` eres
1 Estimation 2
1.1 Notion d’estimateur . . . 2
1.2 Notion de biais . . . 3
1.3 Estimateur de la moyenne . . . 4
1.4 Estimateur de la variance . . . 5
2 Intervalle de confiance 7 2.1 Objectif . . . 7
2.2 Th´eor`eme central limite (Deuxi`eme forme) . . . 8
2.3 Cons´equence . . . 8
3 Test de conformit´e de la moyenne 13 3.1 Principe . . . 13
3.2 Test . . . 14
4 Exercices du td 17
Chapitre 12: Statistique inf´erentielle Estimation
Dans tout ce chapitre, n d´esignera un entier naturel non nul.
Les statistiques consistent `a extraire de l’information pertinente d’une s´erie statistique. Contrai- rement aux probabilit´es o`u on mod´elise une exp´erience puis on calcule la probabilit´e de certains
´ev´enements, en statistiques, on observe plusieurs r´esultats d’une exp´erience al´eatoire puis on cherche
`
a en d´eduire un mod`ele qui permet d’expliquer au mieux ces observations.
On distingue deux types de statistiques :
• Les statistiques descriptives.
Si on s’int´eresse `a n individus et qu’on en d´eduit de l’information pour ces n individus, on parle de statistique descriptive.
• Les statistiques inf´erentielles.
Si on s’int´eresse `a n individus et qu’on en d´eduit de l’information pour un ensemble plus grand d’individus, on parle de statistique inf´erentielles. Les math´ematiques permettent alors de justifier au mieux cette g´en´eralisation. On suppose donc que le caract`ere ´etudi´e de l’ensemble de la population est une variable al´eatoireX suivant une certaine loi. A partir de l’´echantillon observ´e, on souhaite obtenir le maximum d’information sur cette loi.
En BCPST1, on s’int´eresse aux statistiques descriptives. Cette ann´ee, on va faire des statistiques inf´erentielles. En statistiques inf´erentielles, deux objectifs sont poursuivis :
1. Faire des pr´evisions (estimation donn´ee avec un encadrement et un taux de confiance associ´e).
C’est par exemple le cas si on mesure le taux de cholest´erol sur 200 femmes ˆag´ees de 50 ans.
On cherche alors `a avoir une id´ee du taux de cholest´erol moyen pour une femme de 50 ans. On peut aussi interroger 1000 personnes d’une ville et leur demander si elles vont voter pour un candidat donn´e. On cherche alors `a pr´edire combien de personne voteront pour ce candidat.
2. Prendre des d´ecisions au vu des donn´ees. C’est par exemple le cas si on mesure le taux de cholest´erol sur 200 femmes ˆag´ees de 50 ans avant et apr`es un traitement m´edical. On veut savoir si le traitement m´edical est efficace ou non. On va donc estimer des param`etres et essayer d’estimer si la diff´erence entre ces param`etres est dues au traitement m´edical ou au hasard.
1 Estimation
1.1 Notion d’estimateur
Soit X une variable al´eatoire. Unn-´echantillon de X est unn-uplet (X1;X2;· · ·;Xn) de variables al´eatoires mutuellement ind´ependantes et de mˆeme loi que X.
D´efinition 1
* Remarque :
On utilise les notations de la pr´ec´edente d´efinition. Dans tout ce chapitre, X peut-ˆetre une variable al´eatoire prenant un nombre fini de valeurs, une variable al´eatoire discr`ete, une variable al´eatoire `a densit´e ou une variable al´eatoire d’un type plus g´en´eral.
, Exemple :
On utilise les notations de la pr´ec´edente d´efinition. On peut par exemple choisir au hasard un fran¸cais et noterXsa taille en centim`etre. On va interroger au hasardnfran¸cais.X1sera la taille en centim`etre du premier interrog´e,X2 du second, ..., Xn du dernier.
Chapitre 12: Statistique inf´erentielle Estimation
Soient X une variable al´eatoire dont la loi d´epend d’un param`etre θ et (X1;X2;· · ·;Xn) un n-´echantillon de X.
On appelle estimateur de θ toute variable al´eatoire Tn fonction de (X1;X2;· · ·;Xn) donnant des informations sur θ. Tn peut donc s’´ecrire sous la forme f(X1;X2;· · ·;Xn) avec f une fonction num´erique d´efinie sur (X1;X2;· · ·;Xn) (Ω).
D´efinition 2
* Remarque :
On utilise les notations de la pr´ec´edente d´efinition.
1. A partir d’un ´echantillon, un estimateur donne une valeur. Cette valeur est l’estimation du param`etre.
2. On se rend compte que la d´efinition d’un estimateur n’impose aucune contrainte entre ce dernier et le param`etre estim´e. Il existe des estimateurs plus int´eressants que d’autres,certains n’ont aucun int´erˆet !
3. Ce que l’on attend d’un estimateur Tn, c’est la suite (Tn)n∈N converge (convergence `a d´efinir rigoureusement !) vers θ. Ainsi, quand n sera grand,Tn donnera une valeur approch´ee de θ.
4. Dans ce cours, on s’int´eressera uniquement uniquement `a des estimateurs de l’esp´erance (si X admet une esp´erance) ou de la variance de X (siX admet une variance). On essaye donc,
`
a partir d’un ´echantillon, de donner une estimation fiable de l’esp´erance et de la variance de X.
5. Il est possible que la loi de X d´epende de plusieurs param`etres. θ est l’un de ces param`etres.
θ n’est pas une variable al´eatoire, il est fix´e (mais pas connu !).
1.2 Notion de biais
Soient X une variable al´eatoire dont la loi d´epend d’un param`etre θ et (X1;X2;· · ·;Xn) un n-´echantillon de X. Soit Tn un estimateur deθ.
• On appelle erreur d’estimation de Tn la variableTn−θ.
• L’esp´erance de cette variable al´eatoire (en cas d’existence) est appel´ee biais de Tn, on le noteb(Tn). On a donc, sous r´eserve d’existence, l’´egalit´e suivante :
b(Tn) = E(Tn)−θ.
• On dit queTn est un estimateur sans biais de θ siTn son biais est nul, autrement dit si Tn admet une esp´erance et que cette esp´erance vaut θ. Sinon, on dit que l’estimateur est biais´e.
D´efinition 3
* Remarque :
On utilise les notations de la pr´ec´edente d´efinition. Mˆeme si Tn est sans biais, il est possible que
Chapitre 12: Statistique inf´erentielle Estimation
l’erreur entre l’estimation et le param`etre `a estimer soit tr`es importante car le biais ne donne qu’une information sur l’esp´erance (les ´ecarts peuvent se compenser). Pour en savoir plus, on introduit le concept de risque quadratique.
Soient X une variable al´eatoire dont la loi d´epend d’un param`etre θ et (X1;X2;· · ·;Xn) un n-´echantillon de X. Soit Tn un estimateur deθ.
• Le moment d’ordre 2 de Tn−θ (en cas d’existence) est appel´e risque quadratique deTn, on le note r(Tn). On a donc, sous r´eserve d’existence, l’´egalit´e suivante :
r(Tn) = E (Tn−θ)2 .
• SiTn est un estimateur sans biais alors son risque quadratique est sa variance.
D´efinition 4
* Remarque :
On utilise les notations de la pr´ec´edente d´efinition. Notre objectif va ˆetre d’obtenir des estimateurs sans biais et avec le risque quadratique le plus faible possible.
1.3 Estimateur de la moyenne
Soient X une variable al´eatoire et (X1;X2;· · ·;Xn) un n-´echantillon de X. On pose : Xn= X1+· · ·+Xn
n .
Xn est appel´e la moyenne empirique de X.
D´efinition 5
Soient X une variable al´eatoire admettant une esp´erance m et (X1;X2;· · ·;Xn) un n-
´echantillon de X. On note Xn la moyenne empirique de X.
• Xn est un estimateur sans biais dem.
• Si X admet une variance σ2 alors le risque quadratique de cet estimateur vaut σ2
n . Proposition 6
* Remarque :
On utilise les notations de la pr´ec´edente proposition. On a donc lim
n−→+∞ r Xn
= 0. Xn est donc un bon estimateur de m. On peut dire de lui qu’il a les qualit´es suivantes :
1. Il est sans biais.
Chapitre 12: Statistique inf´erentielle Estimation
2. Il est asymptotiquement efficace car son risque quadratique tend vers 0.
3. Il est fortement convergent d’apr`es la loi faible des grands nombres.
4. La loi de l’erreur d’approximation est approximativement gaussienne quandnest grand d’apr`es le th´eor`eme central limite.
6 Un peu de python:
Listing 1 – estimationesperance.py i m p o r t n u m p y as np
def e x p o(mu):
r e t u r n -np.log(1 -np.r a n d o m.r a n d()) /mu
def m o y e m p i r i q u e(n,mu):
s=0
for i in r a n g e(n):
s+=e x p o(mu) r e t u r n (s/n)
def e r r e u r(n,mu):
s=0
for i in r a n g e( 1 0 0 ) :
s+=abs(m o y e m p i r i q u e(n,mu) -1/mu) r e t u r n (s/ 1 0 0 )
En utilisant ce programme, on a obtenu : In [ 1 9 ] : e r r e u r(5 ,2)
Out[ 1 9 ] : 0 . 2 0 4 0 5 4 8 5 0 1 0 9 0 3 3 1
In [ 2 0 ] : e r r e u r(500 ,2)
Out[ 2 0 ] : 0 . 0 1 5 7 5 6 3 1 2 6 4 7 5 3 1 4 8 1
In [ 2 1 ] : e r r e u r( 5 0 0 0 , 2 )
Out[ 2 1 ] : 0 . 0 0 5 6 2 2 8 3 6 9 8 4 7 2 1 9 0 7 3
1.4 Estimateur de la variance
Soient X une variable al´eatoire et (X1;X2;· · ·;Xn) un n-´echantillon de X. On pose : Sn2 = X12+· · ·+Xn2
n − Xn2
. Sn2 est appel´e la variance empirique de X.
D´efinition 7
Chapitre 12: Statistique inf´erentielle Estimation
Soient X une variable al´eatoire admettant une esp´erance m et une variance σ2 et (X1;X2;· · ·;Xn) un n-´echantillon de X. On note Sn2 la variance empirique de X et Sn02 l’estimateur corrig´e de la variance X. Sn2 n’est pas un estimateur sans biais de la variance de X. On a :
E Sn2
−σ2 =−σ2 n . Proposition 8
* Remarque :
On utilise les notations de la pr´ec´edente proposition.
1. Sn2 n’est pas un estimateur sans biais de la variance de X mais on note tout de mˆeme que :
n−→+∞lim b Sn2
= 0.
2. La plupart des tableurs utilisent donc Sn02, l’estimateur corrig´e de la variance X, pour estimer la variance X. Il est d´efini par :
Sn02 = n n−1Sn2.
On prouve ais´ement que Sn02 est un estimateur sans biais de la variance de X.
3. On peut prouver que le risque quadratique de l’ estimateurSn2vaut (n−1)×((n−1)µ4−(n−3)σ4)
n3 .
6 Un peu de python:
Listing 2 – estimationvariance.py i m p o r t n u m p y as np
def e x p o(mu):
r e t u r n -np.log(1 -np.r a n d o m.r a n d()) /mu
def m o y e m p i r(n,mu):
s=0
for i in r a n g e(n):
s+=e x p o(mu) r e t u r n (s/n)
def v a r i a n c c(n,mu):
s=0
for i in r a n g e(n):
s+=e x p o(mu) * * 2
r e t u r n (s/n-(m o y e m p i r(n,mu) ) * * 2 )
def e r r e u r(n,mu):
s=0
for i in r a n g e( 1 0 0 ) :
s+=abs(v a r i a n c e m p i r(n,mu) -(1/mu) * * 2 )
Chapitre 12: Statistique inf´erentielle Intervalle de confiance
r e t u r n (s/ 1 0 0 )
def v a r i a n c e m p i r c(n,mu):
s=0
for i in r a n g e(n):
s+=e x p o(mu) * * 2
r e t u r n ((s/n-(m o y e m p i r(n,mu) ) * * 2 ) * (n/(n- 1 ) ) )
def e r r e u r c(n,mu):
s=0
for i in r a n g e( 1 0 0 ) :
s+=abs(v a r i a n c e m p i r c(n,mu) -(1/mu) * * 2 ) r e t u r n (s/ 1 0 0 )
En utilisant ce programme, on a obtenu : In [ 3 4 ] : e r r e u r c(5 ,2)
Out[ 3 4 ] : 0 . 4 5 3 7 2 9 1 8 1 0 0 0 0 9 5 8 5
In [ 3 5 ] : e r r e u r c(50 ,2)
Out[ 3 5 ] : 0 . 1 4 8 2 1 5 5 8 9 4 6 8 1 6 6 7 4
In [ 3 6 ] : e r r e u r c(500 ,2)
Out[ 3 6 ] : 0 . 0 3 8 4 1 3 1 3 8 9 8 7 3 9 5 7 7 6
In [ 3 7 ] : e r r e u r(5 ,2)
Out[ 3 7 ] : 0 . 5 3 8 9 7 6 1 7 1 5 8 4 7 8 2 3 9
In [ 3 8 ] : e r r e u r(50 ,2)
Out[ 3 8 ] : 0 . 1 4 8 9 0 8 7 4 1 0 5 6 3 0 5 2 5
In [ 3 9 ] : e r r e u r(500 ,2)
Out[ 3 9 ] : 0 . 0 4 0 6 1 7 6 1 3 0 2 8 8 5 4 3 3 2
2 Intervalle de confiance
2.1 Objectif
Soient X une variable al´eatoire admettant une esp´erance m et (X1;X2;· · ·;Xn) un n-´echantillon de X. On a vu que Xn, la moyenne empirique de X, est un bon estimateur de m. On veut, dans cette partie, expliciter deux valeurs A et B d´elimitant un intervalle [A;B] dans lequel m est situ´e avec une probabilit´e fix´ee. A et B, contrairement `a m qui est fix´e (mais non connu), seront des variables al´eatoires (puisqu’elles d´ependent des r´esultats exp´erimentaux obtenus). Ce n’est pas le mˆeme probl`eme que celui rencontr´e en Terminale quand on affirmait que P(m −1,96σ 6 X 6 m+ 1,96σ) ≈ 95% si X suit une loi normale de param`etre (m, σ2). Ici, m n’est pas connu et les bornes encadrant sont des variables al´eatoires.
Chapitre 12: Statistique inf´erentielle Intervalle de confiance
2.2 Th´ eor` eme central limite (Deuxi` eme forme)
Th´eor`eme central limite (Deuxi`eme forme)
Soient m un r´eel et σ un r´eel strictement positif. Soit (Xn)n∈N? une suite de variables al´eatoires de mˆeme loi, mutuellement ind´ependante admettant une moyenne m et un
´ecart-typeσ. Pour tout entier strictement positif n, on pose :
Mn=
(X1+· · ·+Xn)
n −m
σ0
√n
avecσ0 = vu ut1
n Xn k=1
Xk− X1+· · ·+Xn n
2
.
Pour tout (a, b) dans (R∪ {−∞,+∞})2 tels que a < b, on a :
n−→lim+∞(P(a6Mn 6b)) =P (a6N 6b) avecN une variable al´eatoire suivant une loi normale centr´ee r´eduite.
Th´eor`eme 9
* Remarque :
On utilise les notations du pr´ec´edent th´eor`eme. On va utiliser cette deuxi`eme forme lorsqu’on ne connaˆıt pas la variance des (Xn)n∈N?. Typiquement, lorsqu’on fait une analyse statistique, on ne connaˆıt pas, a priori, `a l’avance la variance. On le calcule donc au fur et `a mesure des exp´eriences, c’est ce qu’on a not´eσ0. On l’appelle l’´ecart-type empirique de la suite (Xn)n∈N?.
2.3 Cons´ equence
Soient X une variable al´eatoire et F sa fonction de r´epartition. On suppose F continue et strictement croissante. Pour toutp de ]0,1[, on appelle quantile d’ordre p de la loi de X l’unique r´eel a tel que :
F(a) =p.
D´efinition 10
, Exemple :
Voici la table de la loi normale centr´ee r´eduite :
Chapitre 12: Statistique inf´erentielle Intervalle de confiance
BCPST 952 Variables aléatoires à densité Lycée du Parc
F) Table de la loi normale centrée réduite
On tabule ici les valeurs de la fonction de répartitionΦde la loi normale centrée réduiteN(0,1). Par dénition,
φ(x) = 1
√2π Z x
−∞
e−t2/2dt
Les décimales se lisent sur les lignes, et on ajoute les centièmes rangés en colonnes. Par exemple, la valeur de Φ(1,93) est donnée à l'intersection de la ligne 1,9 et de la colonne 0,03, et l'on peut lire Φ(1,93) = 0,9732, à 10−4 près. Au delà de la valeurx = 3,9, la valeur de Φ(x) est presque égale à 1 (toujours à10−4 près), elle n'est donc plus tabulée. Enn, pour les valeurs négatives de x, on utilise la relation Φ(−x) = 1−Φ(x)
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 .5 .5039 .5079 .5119 .5159 .5199 .5239 .5279 .5318 .5358
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7703 .7734 .7764 .7793 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 8849 .8869 .8888 .8906 .8925 .8943 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9986 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998
3.6 .9998 .9998 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999
3.7 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999
3.8 9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999
3.9 .10000 .10000 .10000 .10000 .10000 .10000 .10000 .10000 .10000 .10000
2014-2015 Soit un r´eelx. Pour ´evaluer Φ(x) (avec Φ la fonction de r´C. Courant epartition d’une variable al´page 11eatoire suivant une loi normale centr´ee r´eduite), on proc`ede ainsi :
• Si xappartient `a [0,4[, une tr`es bonne approximation de Φ(x) se trouve `a l’intersection de la ligne donn´ee par l’unit´e et la premi`ere d´ecimale dexet de la colonne donn´ee par la deuxi`eme d´ecimale de x. Φ(1,83) vaut `a peu pr`es 0,9664.
• Si x est sup´erieur `a 4, on approxime Φ(x) par un.
• Si x est n´egatif, on utilise la relation liant Φ(x) et Φ(−x) (cf chapitre ”Variables `a densit´e”).
Chapitre 12: Statistique inf´erentielle Intervalle de confiance
En utilisant cette table, on trouve que le quantile d’ordre 0.9 vaut ..., celui d’ordre 0.95 vaut ..., celui d’ordre 0.975 vaut ... et enfin, celui d’ordre 0.995 vaut ...
Soient X une variable al´eatoire admettant une esp´erance met une variance non nulle et (X1;X2;· · ·;Xn) unn-´echantillon deX. Pour tout entier strictement positifn, on pose :
Xn = X1+· · ·+Xn
n et Sn= vu ut1
n Xn k=1
Xk−Xn2
.
• Pour tout α de ]0,1[, on a alors :
n−→lim+∞
P
Xn−u1−α
2
Sn
√n < m < Xn+u1−α
2
Sn
√n
= 1−α avec u1−α
2 le quantile d’ordre 1−α2 de la loi normale centr´ee r´eduite.
• On dit que, pour tout α de ]0,1[,
Xn−u1−α
2
Sn
√n, Xn+u1−α
2
Sn
√n
est un inter- valle de confiance de m avec un niveau de confiance de 1−α.
Proposition 11
* Remarque :
On utilise les notations de la pr´ec´edente proposition.
1. Soit α un ´el´ement de ]0,1[. Dans la pratique, on se permettra de prendre pour intervalle de confiance de m avec un niveau de confiance de 1−α l’intervalle suivant :
Xn−u1−α
2
Sn
√n, Xn+u1−α
2
Sn
√n
lorsque n sera sup´erieur `a 30. Sin est trop petit, on utilisera d’autres lois (par exemple la loi de Student si les Xi suivent une loi normale).
2. On comprend queSnest un indice de dispersion. Plus il est grand, plus l’intervalle de confiance
´
enonc´e est large (et donc peu pr´ecis).
3. On qualifie l’intervalle de confiance de sym´etrique car, si n est grand, on a : P
m < Xn−u1−α
2
Sn
√n
=P
m > Xn+u1−α
2
Sn
√n
= α 2.
M´ethode:
On nous donne un ´echantillon d’une variable al´eatoire X et on nous demande un intervalle de confiance de m avec un niveau de confiance de 1−α (α ´el´ement donn´e de ]0,1[). On proc`ede alors ainsi :
1. A partir des mesures, on calcule Sn(ω) et Xn(ω). (On utilise les notations de la pr´ec´edente proposition. )
Chapitre 12: Statistique inf´erentielle Intervalle de confiance
2. On d´etermine le r´eel u tel que ϕ(u) = 1− α
2 en notant ϕ la fonction de r´epartition de la loi normale centr´ee r´eduite. Quelques valeurs classiques :
Niveau de confiance 80% 90% 95% 99%
Valeur de u1−α
2 1,29 1,65 1,96 2,58 3. On a trouv´e notre intervalle, c’est
Xn(ω)−u1−α
2
Sn(ω)
√n , Xn(ω) +u1−α
2
Sn(ω)
√n
.
, Exemple :
Un boulanger souhaite savoir s’il r´eussit `a fabriquer ses pains de 500g `a vue ou s’il a encore besoin de peser sa pˆate. Il faut donc un test sur sa production de 200 pains de la journ´ee et obtient des moyennes et variances empiriques suivants :
Mn = 505g et Sn2 = 1500g2
Il peut alors ´evaluer l’intervalle de confiance de niveau 95% adapt´e `a cette situation. D’apr`es ce qu’on vient de dire, il y a 95% de chance que le poids en gramme de son pain appartienne `a l’intervalle
suivant :
Mn−u Sn
√200, Mn+u Sn
√200
avec u = 1,96 (valeur obtenue dans une table d’une loi normale centr´ee r´eduite). Notons I cette intervalle, on a donc :
I =
"
505−1,96×
√1500
√200 ; 505 + 1,96×
√1500
√200
#
= [505−5,37; 505 + 5,37]
= [499,63; 510,37]
6 Un peu de python:
Listing 3 – intervalleconfiance.py i m p o r t n u m p y as np
def e x p o(mu):
r e t u r n( -np.log(1 -np.r a n d o m.r a n d( ) ) /mu)
def E(n, mu):
s=0
for i in r a n g e(n):
s+=e x p o(mu)
Chapitre 12: Statistique inf´erentielle Intervalle de confiance
r e t u r n(s/n)
def S(n, mu):
s=0
a=E(n, mu)
for i in r a n g e(n):
s+=(e x p o(mu) -a) * * 2 r e t u r n(np.s q r t(s/n))
def c o m p t e u r(n, mu, u):
c=0
for i in r a n g e( 5 0 0 ) :
a=E(n, mu) -u*S(n, mu)/np.s q r t(n) b=E(n, mu)+u*S(n, mu)/np.s q r t(n) if a<1/mu<b:
c+=1 r e t u r n(c/ 5 0 0 )
def t e s t(u):
r e t u r n([c o m p t e u r(3 , 5 , u) , c o m p t e u r(10 , 5 , u) , c o m p t e u r(50 , 5 , u) , c o m p t e u r(200 , 5 , u)])
En utilisant ce programme, on a obtenu : In [ 1 5 3 ] : t e s t( 1 . 2 9 )
Out[ 1 5 3 ] : [0.732 , 0.788 , 0.772 , 0 . 7 8 8 ]
In [ 1 5 4 ] : t e s t( 1 . 2 9 )
Out[ 1 5 4 ] : [0.734 , 0.806 , 0.81 , 0 . 8 5 2 ]
In [ 1 5 5 ] : t e s t( 1 . 6 5 )
Out[ 1 5 5 ] : [0.804 , 0.878 , 0.884 , 0 . 9 0 8 ]
In [ 1 5 6 ] : t e s t( 1 . 9 6 )
Out[ 1 5 6 ] : [0.856 , 0.896 , 0.924 , 0 . 9 5 4 ]
In [ 1 5 7 ] : t e s t( 2 . 5 8 )
Out[ 1 5 7 ] : [0.916 , 0.972 , 0.974 , 0 . 9 8 4 ] In [ 1 5 8 ] : t e s t(5)
Out[ 1 5 8 ] : [0.978 , 0.998 , 1.0 , 1 . 0 ]
Chapitre 12: Statistique inf´erentielle Test de conformit´e de la moyenne
3 Test de conformit´ e de la moyenne
3.1 Principe
On consid`ere une population dans laquelle les individus poss`edent un certain caract`ere X (X est une variable al´eatoire) et dont la valeur de la moyenne m est inconnue.
• L’hypoth`ese selon laquelle m vaut une valeur fix´e µs’appelle l’hypoth`ese nulle et est not´ee H0. H0 est l’hypoth`ese ”m=µ”.
• N’importe quelle autre hypoth`ese qui diff`ere de l’hypoth`ese H0 s’appelle l’hy- poth`ese alternative et est not´eeH1.H1 est l’hypoth`ese ”m 6=µ”.
• Le risque de premi`ere esp`ece est la probabilit´e de rejeter l’hypoth`ese H0 alors qu’elle est vraie, c’est donc P(H0est vraie)(Rejeter H0).
• Le risque de seconde esp`ece est la probabilit´e de accepter l’hypoth`ese H0 alors qu’elle est fausse, c’est donc P(H0est fausse)(AccepterH0).
D´efinition 12
Principe :
On va alors ´etudier un ´echantillon de la population et, `a partir des r´esultats obtenus, rejeter ou non l’hypoth`ese formul´ee. L’objectif est de fournir une r`egle permettant, `a partir des r´esultats obtenus sur l’´echantillon, de faire un choix entre ces deux hypoth`eses. C’est l’hypoth`eseH0qui est soumise au test et toute la d´emarche du test s’effectue en supposant cette hypoth`ese vraie. Nous allons donc ´etablir des r`egles de d´ecision qui vont nous conduire `a accepter ou `a rejeter l’hypoth`ese H0 en minimisant les risques de premi`ere esp`ece et,si possible, de seconde esp`ece. On suit donc les ´etapes suivantes :
1. On dispose de valeurs observ´ees (x1, . . . , xn) d’un n-´echantillon de la variableX.
2. On ´enonce clairement les propri´et´es de base du mod`ele pour pouvoir travailler : par exemple,
”On suppose X a une esp´erance et qu’elle vaut µ”. En effectuant cette hypoth`ese, le n-
´
echantillon obtenu est la r´ealisation de (X1;X2;· · ·;Xn) qui sontn variable al´eatoire de mˆeme loi queX (et donc en particulier d’esp´eranceµ) et ind´ependante. On ´enonce donc l’hypoth`ese nulle H0 qui est l’hypoth`ese qui va ˆetre soumise au test. C’est par exemple ”m =µ”’.
3. On ´elabore un test num´erique : cela signifie qu’on va expliciter une variable num´erique T, fonction de (X1, . . . , Xn), un intervalle (ou une partie) I de R, telles que, si on suppose H0 vraie alors :
P(T ∈I)>1−α
avec α un ´el´ement de ]0,1[ fix´e par l’´enonc´e, c’est le risque du test (1−α est appel´e niveau de confiance du test). Typiquement, α vaut 5% ou 1%.
4. Grˆace aux mesures, on ´evalue la valeur t queT prend. Deux possibilit´es se pr´esentent :
• Soit t n’appartient pas `a I, on ”rejette” H0. Le risque de se tromper est alors au plus de α car si H0 est vraie alors P(T 6∈I)6α.
• Soit t appartient pas `a I : on ”accepte” H0. Cela ne signifie pas pour autant que H0 est vraie !
* Remarque :
On expose ici le principe des tests de conformit´e de la moyenne. On peut, bien sˆur, en statistique, faire d’autres types de test. Au programme des BCPST2 ne figurent que les tests de conformit´e de la moyenne.
Chapitre 12: Statistique inf´erentielle Test de conformit´e de la moyenne
3.2 Test
Soient X une variable al´eatoire admettant une esp´erance m inconnue et une variance non nulle et (X1;X2;· · ·;Xn) un n-´echantillon deX. Pour tout entier strictement positif n, on pose :
Xn = X1+· · ·+Xn
n et Sn= vu ut1
n Xn k=1
Xk−Xn2
.
Soitµ un r´eel. L’hypoth`ese nulle, H0, est l’hypoth`ese ”m=µ”. L’hypoth`ese alternative, H1, est l’hypoth`ese ”m6=µ”.
• Si H0 est vraie et si n est sup´erieur `a 30 alors on a :
P
Xn−µ Sn
√n
> u1−α
2
≈α
avec u1−α
2 le quantile d’ordre 1−α2 de la loi normale centr´ee r´eduite.
• Soit ω un r´esultat obtenu. Si Xn(ω)−µ Sn(ω)
√n
appartient `a
−u1−α
2, u1−α
2
, on dit que
la moyenne de X vaut bien µet qu’ on accepteH0. Sinon, on dit que la moyenne de X ne vaut pas, a priori,µ. On refuse H0 et le risque de se tromper est deα.
Proposition 13
* Remarque :
On utilise les notations de la pr´ec´edente proposition. On souhaite que la quantit´e
Xn(ω)−µ Sn(ω)
√n
soit petite quand on pr´esent une valeur µ pour la moyenne de X. Si n est grand (sup´erieur `a 30), on approximeP
Xn−µ Sn
√n
> u1−α
2
parα. Ainsi, le risque de premi`ere esp`ece (refuserH0 alors qu’elle est vraie) vaut approximativement α. Plus α va ˆetre grand, plus le test va ˆetre s´electif : on va avoir plus souvent tendance `a refuser H0 mais, lorsque celle-ci va ˆetre accept´ee, elle aura plus de sens. On peut faire le parall`ele avec un concours si on le souhaite !
M´ethode:
On nous donne un n-´echantillon (avec n > 30) d’une variable al´eatoire X, une valeur µ suppos´ee pour la moyenne et un taux de risque α. On nous demande si la moyenne de X vaut bien µ. On proc`ede alors ainsi :
1. A partir des mesures, on calcule Sn(ω) et Xn(ω). (On utilise les notations de la pr´ec´edente proposition. )
Chapitre 12: Statistique inf´erentielle Test de conformit´e de la moyenne
2. A partir de la table de la loi normale centr´ee r´eduite, on explicite u1−α
2 le quantile d’ordre 1− α2 de la loi normale centr´ee r´eduite.
3. Si Xn(ω)−µ Sn(ω)
√n
appartient `a
−u1−α
2, u1−α
2
, on dit que la moyenne deXvaut bienµ, on accepte
H0. Sinon, on dit que la moyenne de X ne vaut pas, a priori, µ. On refuseH0 et le risque de se tromper est de α.
M´ethode:
On nous donne un n-´echantillon (avec n > 30) d’une variable al´eatoire X et une valeur µ, on nous demande quel est le risque α de supposer que la moyenne de X existe et vaut µ. On proc`ede alors ainsi :
1. A partir des mesures, on calcule Sn(ω) et Xn(ω). (On utilise les notations de la pr´ec´edente proposition. )
2. On cherche le plus petit r´eel u tel que Xn(ω)−µ Sn(ω)
√n
appartienne `a [−u, u].
3. A partir de la table de la loi normale centr´ee r´eduite, on cherche α tel que u1−α
2 soit u.
Xn(ω)−µ Sn(ω)
√n
appartient alors `a
−u1−α
2, u1−α
2
, on accepte doncH0etαest le risque de premi`ere
esp`ece.
, Exemple :
On reprend l’exemple du boulanger qui a fabriqu´e 200 pains et obtenu des moyennes et variances empiriques suivants :
Mn= 505g et Sn2 = 1500g2. On fait l’hypoth`ese que sa moyenne th´eorique est de 500 g.
• Si on fait un test `a 5% de confiance, on a d´ej`a calcul´e l’intervalle I adapt´e `a ce taux de confiance, on avait obtenu :
I = [499,63; 510,37].
Comme 500 ∈ I, on ne peut pas conclure sur le fait qu’il soit raisonnable de penser que sa moyenne th´eorique soit bien de 500 g.
• Si on recommence avec un test `a 10% de confiance, l’intervalleJ adapt´e `a ce taux de confiance est :
J =
"
505−1,65×
√1500
√200 ; 505 + 1,65×
√1500
√200
#
= [500,5; 509,5]
Comme 500 6∈ J, on peut conclure (avec un risque de 10% de se tromper) qu’il n’est pas raisonnable de penser que sa moyenne th´eorique est de 500 g.
-) Exercice 1 :
On mod´elise la dur´ee de vie d’un t´el´ephone portable d’une certaine marque par une loi g´eom´etrique
Chapitre 12: Statistique inf´erentielle Test de conformit´e de la moyenne
surN de param`etre p. On cherche `a d´eterminerp. On demande pour cela `a 1000 personnes la dur´ee en ann´ee durant laquelle ils ont utilis´e leur dernier portable, voici ce qu’on a obtenu :
Ann´ees 0 1 2 3 4 5 6 7
Effectif 68 56 189 260 180 120 80 47
1. D´eterminer un intervalle de confiance au risque 0,05 pour la dur´ee moyenne d’utilisation du portable. Arrondir au milli`eme.
2. D´eterminer un intervalle de confiance pourp.
3. Le constructeur affirme que ses t´el´ephones durent en moyenne 4 ans. Qu’en pensez-vous ?
Chapitre 12: Statistique inf´erentielle Exercices du td
4 Exercices du td
Exercices ` a chercher
. Exercice 1 :
Pour ´evaluer rapidement les r´esultats obtenus par ses 200 ´el`eves, un professeur d´ecide de corriger quelques copies tir´ees au hasard. Il admet que les notes suivent une loi normale de variance 4.
1. Le professeur corrige un ´echantillon de 32 copies et trouve une moyenne de 11. Quel est l’intervalle de confiance `a 95% de la moyenne des 200 copies ?
2. Combien de copies le professeur doit-il corriger s’il veut situer la moyenne dans un intervalle de confiance d’amplitude 2 avec un risque 5% ?
. Exercice 2 :
Contrairement aux id´ees re¸cues, l’´epinard n’est pas l’aliment le plus riche en fer. La lentille, par exemple, en apporte davantage. Pour v´erifier ces propos, on a proc´ed´e `a des analyses de fer sur10
´echantillons d’´epinard et 10 ´echantillons de lentilles. Les r´esultats (teneur en fer en mg pour 100g de produit frais) sont indiqu´es dans le tableau suivant :
Echantillon´ 1 2 3 4 5 6 7 8 9 10
Epinard´ 2.64 2.75 2.82 2.72 2.66 2.59 2.83 2.7 2.67 2.62 Lentille 9.02 9.08 8.82 8.94 8.95 9.11 9.14 9.02 9.04 8.85
1. Calculer la teneur moyenne en fer, la valeur m´ediane et l’´ecart-type pour les ´epinards et les lentilles.
2. D´eterminer un intervalle de confiance de `a 95% pour la moyenne pour les ´epinards et les lentilles.
3. R´ealiser un graphique qui permet d’illustrer le propos initial.
Exercices ` a faire pendant la classe
- Exercice 3 :
On souhaite comparer les tailles d’une mˆeme type de plants de tomates effectu´es sur des sols de diff´erentes natures.
On d´esigne par A, B, C, D les populations constitu´ees par les plants sur le sol de type respectifs 1,2,3,4. Elles sont constitu´ees chacune de plus de 10 000 plants. Pour tout entier naturel non nul i, on noteXi la variable statistique :taille de l’individu (en mm) i `a 5 mois apr`es plantation.
1. Les donn´ees sur la populationAsont d´ej`a connues. On sait que la moyenne et l’´ecart type de XA (pour toute la population A) sont : µA = 570 et σA= 152. On mesure au hasard dans A un ´echantillon de 250 individus et on note M la moyenne de cette ´echantillon.
(a) Donner un intervalle de confiance deM de niveau de confiance 0,95.
(b) Quelle devrait ˆetre la taille minimale de l’´echantillon `a consid´erer pour que M soit une estimation de µA `a 10mm pr`es pr`es avec une confiance de 0,99 ?
Chapitre 12: Statistique inf´erentielle Exercices du td
2. Dans la populationB, la taille moyenne empirique d’un´echantillon EB de 250 individus est mB = 555.Peut-on dire a priori qu’il y a une diff´erence significative entre les tailles moyennes des deux cat´egoriesA et B?
3. La taille moyenne µC dans la population C n’est pas connue. Pour l’estimer, on a choisi au hasard un ´echantillonEC. Le tableau suivant repr´esente la distibution statistique surEC de la taille en mm.
x 100−300 300−400 400−500 500−600 600−700 700−900
ni 10 19 30 38 31 22
Donner une estimation de la taille moyenne µC de la population C avec la confiance 0,95%
et dire si on peut dire, avec une confiance de 95% s’il y a une diff´erence significative de taille entre les populations A etC.
4. Concernant le population D, quelqu’un de bien intentionn´e avait d´ej`a fait les caluls avant nous. La personne en question a obtenu une moyenne mD = 507, un ´ecart-type sD = 170 et un intervalle de confiance `a 95% de la moyenne th´eorique µD : ID = [480,534]. Peut-on affirmer qu’il y a une diff´erence de taille moyenne entre les populations C etD?