Echantillonnage et Estimation Echantillonnage et Estimation
Chapitre 5
1
Echantillonnage
Echantillonnage
Population
• Une Population est toute collection d’objets à étudier ayant des propriétés communes
appelés des individus ou unités statistiques
• Une population peut être infinie, ou finie de taille N.
• La statistique traite des propriétés des populations plus que celles d’individus particuliers.
3
Échantillon
• L’étude de tous les individus d’une population finie s’appelle un recensement. Lorsque l’on observe qu’une partie de la population, on parle de sondage.
• La partie étudiée s’appelle l’échantillon.
• Il existe plusieurs méthode de construction d’un échantillon, dont la plus simple est celle de
l’échantillonnage aléatoire simple correspondant à des tirages équiprobables et indépendants les uns des autres.
• Sa taille est notée n<<N
• Dans ces conditions, les observations deviennent des v.a. ainsi que les résumés numérique usuels: ils convient donc d’en chercher les lois de probabilité avant de tenter d’extrapoler (inférés) à la population.
4
Échantillon
• Si on prélève au hasard n individu dans une
population finie de taille N et on veut étudier une caractéristique Xde la population.
• Xest une v.a. appelée v.a. mère ou parente.
• À chaque individu itiré, on associe une v.a. Xi dont on observe une seule réalisation xi. Alors les Xisont des v.a. ayant toutes la même distribution, celle de X.
• On suppose que les Xisont mutuellement indépendantes (ou au moins, indépendantes deux à deux).
5
Échantillon
• On a donc la double conception suivante: Les valeurs observées (x1,x2,…,xn) constituent n réalisations indépendantes d’une v.a. Xou encore, une réalisation unique du n-uple (X1,X2,…,Xn) où les Xi sont nv.a.
indépendantes et de même loi.
• On note par la suite un échantillon le n-uple (X1,X2,…,Xn) .
Les statistiques
• La théorie de l’échantillonnage se propose d’étudier les propriétés du n-uple (X1,X2,…,Xn) et des caractéristiques le résumant, les
statistiques, à partir de la distribution
supposée connue de la variable parente X, et d’étudier en particulier ce qui se passe lorsque la taille de l’échantillon est élevée.
7
Les statistiques
• Il est d’usage dans la pratique de résumer les nvaleurs d’un échantillon x1,x2,…,xn par quelques caractéristiques simples telles que moyenne, plus grande valeur, etc.
• Ces caractéristiques sont elles-mêmes des réalisations de v.a. issues de X1,X2,…,Xn.
• Une statistique T est une v.a. fonction mesurable de X1,X2,…,Xn
T=f (X1,X2,…,Xn )
8
Les statistiques
• Exemples:
• La moyenne empirique d’un échantillon (X1,X2,…,Xn) est:
• Sa variance empirique est:
∑
== n
i
Xi
X n
1
1
( )
∑
=−
= n
i
i X
n X S
1 2 1 2
9
La distribution de la moyenne
• Pour une réalisation (x1,x2,…,xn), la statistique prendra la valeur
• Cette valeur est la moyenne arithmétique.
• Pour une autre réalisation, dans les mêmes conditions, un deuxième échantillon donnera pour réalisation et prendra alors la valeur
X
∑
=
= n
i
xi
x n
1
1
∑
== ′
′ n
i
xi
x n
1
1
X
) , , ,
(x1′ x2′ … xn′
Propriétés
1. L’espérance mathématique, notée , de est égale à la moyenne m de la population:
En effet, on a:
11
µX X X = m
µ ( )
( )
∑
∑
∑
=
=
=
=
=
=
=
n
i
i n
i i
n
i X i
X n E
X nE
n X E X E
1 1
1
1 1
µ 1
( ) nm m
m n m
n m+ + + = =
=1 1
…
Propriétés
2. La variance de , notée , est égale à où σ2est la variance de la population et nla taille de l’échantillon.
En effet, on a:
où les v.a. Xisont indépendantes
12
X σX2
n σ2
( )
=
=
∑
= n
i
X Xi
Var n X
Var
1
2 1
σ
( )
n nX n n Var
n
i
i
2 2
2 1
2
1
1 = σ = σ
=
∑
=
Remarques
• La moyenne et la variance de sont calculées pour le cas d’un échantillon de variables
aléatoires indépendantes et identiquement distribuées (échantillon tiré avec remise d’une population finie ou échantillon tiré avec ou sans remise d’une population infinie).
• Si l’échantillon est tiré sans remise d’une population finie, les variables ne sont plus indépendantes. Dans ce cas, on a toujours
13
X
( )
X mX = E =
µ
mais on trouve un autre résultat pour la variance
En effet, la population étant de taille N, il y a échantillons de taille n et
avec et
( )
12
−
= −
N n N X n
Var σ
n
C
N( )
( )
( )
+
=
=
=
=
∑ ∑
∑
∑
= =
=
=
≠
n
i
n
j i
j i i
n
i i n
i X i
j i
X X Cov X
n Var
X n Var
n X Var X Var
1 , 1
2
1 2
1 2
1 ,
1 σ 1
( )
Xi =σ2Var Cov
(
Xi,Xj)
=E[
(Xi −m)(
Xj −m) ]
15
(
X X)
E[ (
X m) (
X m) ]
Cov i, j = i − j −
( )( k )
(
i l j k)
N
l N
k
l m x m P X x X x
x − − = =
=
∑∑
= =
;
1 1
( )( k ) ( i l)
(
j k i l)
N
l N
k
l m x m P X x P X x X x
x − − = = =
=
∑∑
= =
/
1 1
( )
(x m)(x m)N X N
X
Cov k
N
k l
l j
i
k l
−
− −
=
∑
≠=1
1 ,
1 , 1
( )( )
pour k lN l N
k pour
m x m x
N
l N
k
k
l ≠
−
=
−
=
∑∑
−= = 1
1 1 0
1 1
On a donc:
( )( k )
(
j k i l)
N
l N
k
l P X x X x
m N x m
x − − = =
=
∑∑
= =
1 /
1 1
16
Comme ( ) ( ) ( )( ),
1 , 1
2 2
1
∑
∑
∑
≠=
=
=
−
− +
−
=
− N
k l
k l
N
i i N
i i
k l
m x m x m
x m
x
( ) 2 0
1
=
∑
−= N
i
i m
x
( ) 2,
1
2 Nσ
m x
N
i
i− =
∑
=
et
on obtient
( ) (
2)
1 1
, 1 Nσ
N X N
X
Cov i j −
= −
et donc
( )
−
− −
=
− + −
=
∑
≠=
) 1 1 ( 1
1
1 2 2
2 1
,
2 2
2 nn
n N n n N
X n Var
N
k l
k l
σ σ σ σ
( )
12
−
= −
N n N X n
Var σ
D’où
−1
− N
n
N s’appelle facteur d’exhaustivité
Propriété:
• On peut affirmer, en vertu des propriétés de la loi normale, que lorsque la population a une
distribution normale, la distribution
d’échantillonnage de la moyenne est aussi normale.
• Le théorème de la limite centrale nous permet d’affirmer, d’autre part, que quelle que soit la
distribution de la population, la distribution de est normale N(0,1) lorsque nest grand
(en pratique ceci est vrai dès que n>30).
17
n m X σ /
−
La distribution de la variance
• La variance empirique d’un échantillon aléatoire (X1,X2,…,Xn) est défini par:
• Pour une réalisation (x1,x2,…,xn), la statistique S2 prendra la valeur Pour une autre réalisation, dans les mêmes conditions, un
deuxième échantillon donnera pour réalisation et S2 prendra alors la valeur
( )
∑
=−
= n
i
i X
n X S
1 2 1 2
( ).
1
1
∑
2= n −
i
i x
n x
) , , ,
(x1′ x2′ … xn′
( )
∑
= n −
i
i x
n 1 x
' 2
1 '
∑
=
= n
i
xi
x n
1
1 ' où '
Propriétés
19
( )
2 1σ2n S n
E = −
( )
3[ ( )
4( )
4]
2 = −1 n−1 µ − n−3σ n
S n Var
( )
2 32 1
, µ
n S n
X
Cov = −
1-
2-
3-
Propriétés
4. Si la distribution de la population est
normale, la variable aléatoire suit une loi du χ2 à n-1 degrés de liberté:
En effet, on a:
20 2
2
σ nS
) 1 (
~ 2
2
2 n−
nS χ σ
( )
( )( )
∑ ∑
= =
− − −
=
−
= n
i
n
i i
i X X m n X m
nS X
1 1
2 2 2
2 2
2
2 1 1
σ σ
σ
2
1
2
/
−
−
−
=
∑
= n
m X m
n X
i i
σ σ
Propriétés (suite de 4°)
Le premier terme est une somme de n carrés de variables N(0,1) et suit donc une loi du χ2 à n degrés de liberté. Le second terme est une variable qui suit une loi du χ2 à 1 degré de liberté. Donc, le degré de est n-1
(on a une relation entre et Xi: ).
21 2
2
σ nS
X ∑
( )
=
=
n −
i
i X
X
1
0
Propriétés (suite de 4°)
• On vérifié que En effet, on a
où kest l’espérance mathématique d’une variable aléatoire qui suit une loi du χ2à k degrés de liberté (dans ce cas k=n-1).
( )
2 1σ2n S n
E = −
( )
2 2 2( 1)2 2
2 2 2
2 = = −
=
= n
k n n E nS
n nS
E n S
E σ σ
σ σ
σ σ
Propriétés (suite de 4°)
• De même, on trouve:
où 2kest la variance d’une variable aléatoire qui suit une loi du χ2 à k degrés de liberté (dans notre cas k=n-1).
23
( )
2 2 2( 1)4 2
4 2
2 2
4 2
2 2
2 = = −
=
= n
k n n Var nS
n nS Var n
S
Var σ σ
σ σ
σ σ
Propriétés (suite de 4°)
• On peut affirmer de plus que la v.a. suit
une loi de Student à n-1 degrés de liberté.
En effet, comme et , le
rapport .
24
1
2
−
− n
S m X
) 1 , 0 ( / ~N
n m X σ
− 2 ~ 2( 1)
2 n−
nS χ σ
) 1 (
~ 1 )
1 (
/
2 2
2 −
−
= −
−
−
n T n
S m X
n nS
n m X
σ σ
La distribution des fréquences
• La probabilité de réalisation d’un événement est supposée être égale à p.
• On considère les échantillons de taille n extraits, avec remise, d’une population de taille N.
• A chaque échantillon extrait correspond une fréquence fn de réalisation de l’événement considéré.
25
Propriétés
1. μfn=E(fn)=p
En effet, la variable aléatoire X=n fn~B(n,p) et
2.
En effet,
( ) ( )
np pX n nE n
E X f E n
fn = = =
=
= 1 1
µ
( ) ( )
n p f p
Var n = 1−
( ) ( )
n p p p
n np X n Var n
Var X f
Var n (1 )
) 1 1 ( 1
2 2
= −
−
=
=
=
Propriétés
3. Si le tirage se fait sans remise, on a toujours E(fn)=p. Mais la variance dans ce cas, vaut:
• En effet,
Comme X suit une loi hypergéométrique et
On en déduit la formule de Var(fn) au dessus.
27
( )
1) 1 (
−
−
= −
N n N n
p f p
Var n
( )
12Var(X).n n
Var X f
Var n =
=
) 1 1 ( )
( np p
N n X N
Var −
−
= −
Propriétés
4. Pour une taille nde l’échantillon assez grande (en pratique n≥30), on a
28
) 1 , 0 ( ) ~
1
( N
n p p
p
f fn
f f n
n n
−
= −
−
σ
µ
La distribution des différences de moyennes
• On considère 2 populations P1 et P2 de taille N1et N2, de moyennes m1 et m2 et de
variances σ2
Xet σ2
Yrespectivement.
• On s’intéresse, dans de nombreux problèmes à la différence m1-m2.
• On extrait de la population P1 un échantillon (x1,x2,…,xn1) de taille n1et de la population P2 un échantillon (y1,y2,…,yn2) de taille n2.
• On note
29
∑
== 1
1 1
1 n
i
Xi
X n
∑
=
= 2
2 1
1 n
j
Yj
Y n et
Propriétés
1.
En effet,
2.
En effet,
car et sont indépendantes. On a donc le résultat pour un tirage exhaustif (avec remise)
2
1
m
Y
m
X−
= −
µ
( X Y ) ( ) ( ) E X E Y m1 m
2
Y E
X−
= − = − = −
µ
2 2 2 1
2 1 1
Y X
Y
X n σ n σ
σ − = +
(
X Y)
Var( )
X Var( )
YY Var
X2− = − = +
σ
X Y
Propriétés
• (suite 2°) Dans le cas d’un tirage non exhaustif (sans remise), il faut tenir compte du
coefficient d’exhaustivité car
3. En supposant n1 et n2grands, on peut dire que et suivent toutes deux des lois normales. Comme elles sont indépendantes,
suit aussi une loi normale. On conclut donc que
31
( )
1 11 1 1 2
−
= −
N n N X n
Var σX
( )
2 1
2 2 2
2
−
= −
N n N Y n
Var σY
et
X Y
Y X −
( ) ( ) ( )~ ( )0,1
2 2
1 2
2
1 N
n n
m m Y X Y
X
Y Y X
X Y X
σ σ σ
µ
+
−
−
= −
−
−
−
−
Exercice
On choisit au hasard six nombres parmi les nombres entiers de 1 à 9, chacun de ces nombres a la même probabilité d’être choisi.
Calculer la moyenne et l’écart-type de la distribution d’échantillonnage des moyennes dans les 2 cas:
1. Tirage sans remise.
2. Tirage avec remise.
32
Solution
1. La moyenne de la population est Sa variance σ2vaut:
L’écart-type est σ=2,58.
Il y a façons de choisir six nombres parmi les 9.
Chacun de ces 84 échantillons possibles a une moyenne où xi (i=1,2,…,6)
représente un des 9 nombres.
33
9 5 9 2
1+ + + =
= ⋯
m
( ) ( ) ( )
[
1 5 2 5 9 5]
6,679
1 2 2 2
2= − + − +⋯+ − =
σ
6 84
9 = C
∑
=
= 6
1
1
i
xi
x n
• Par exemple l’échantillon (3, 8, 7, 2, 5, 1) a pour moyenne .
• On obtient ainsi 84 moyennes et la moyenne de la distribution d’échantillonnage des
moyennes vaut .
• La variance de la distribution
d’échantillonnage des moyennes est
• D’où
33 ,
= 4 x
µX µX =m =5
417 , 1 0 9
6 9 6
67 , 6 1
2
2 =
−
= −
−
= −
N n N
X n σ σ
645 ,
= 0 σX
2. Il y a 96= 531441 façons de choisir six nombres parmi les 9. Chacun de ces échantillons a une moyenne où xi(i=1,2,…,6)
représente, comme précédemment, un des 9 nombres.
• Par exemple, l’échantillon (4, 3, 4, 5, 7, 8) donne pour moyenne . On obtient de cette manière 531441 moyennes et la moyenne
distribution d’échantillonnage des moyennes vaut .
• La variance de la distribution d’échantillonnage des moyennes est:
• D’où
35
∑
=
= 6
1
1
i
xi
x n
17 ,
= 5 x
µX
=5
=m µX
11 , 6 1
67 ,
2 6
2 = = =
X n σ σ 05
,
=1 σX
36
Annexe 1:
Tirage sans remise (sans répétitions)
Non exhaustif
Les v.a. sont dépendantes
Loi utilisée hypergéométrique
Tirage avec remise (avec répétitions)
Exhaustif
Les v.a. sont indépendantes
Loi utilisée binomiale Tirage d’un échantillon
37
( ) a b n a X
E = +
On a vu que pour une loi hypergéométrique H(n,a,b)
( ) ( )
(
+) (
2 + +− −1)
= a b a b n b a X nab
et Var
Mais, a+b=N alors,
( )
Nn a X
E = et
( ) ( )
(
1)
2 −
= −
N N
n N X nab
Var
La probabilité de tirer une boule blanche sera:
N
p= a et
N b N
a N N q a
p= = − = − =
− 1
1
( )
X npE =
⇒
( ) ( )
( ) ( )
(
1)
) 1
1 ( −
− −
− =
= −
N n p N
N np n npq N
X et Var