• Aucun résultat trouvé

EchantillonnageEchantillonnage Echantillonnage et EstimationEchantillonnage et Estimation

N/A
N/A
Protected

Academic year: 2021

Partager "EchantillonnageEchantillonnage Echantillonnage et EstimationEchantillonnage et Estimation"

Copied!
19
0
0

Texte intégral

(1)

Echantillonnage et Estimation Echantillonnage et Estimation

Chapitre 5

1

Echantillonnage

Echantillonnage

(2)

Population

• Une Population est toute collection d’objets à étudier ayant des propriétés communes

appelés des individus ou unités statistiques

• Une population peut être infinie, ou finie de taille N.

• La statistique traite des propriétés des populations plus que celles d’individus particuliers.

3

Échantillon

L’étude de tous les individus d’une population finie s’appelle un recensement. Lorsque l’on observe qu’une partie de la population, on parle de sondage.

La partie étudiée s’appelle l’échantillon.

Il existe plusieurs méthode de construction d’un échantillon, dont la plus simple est celle de

l’échantillonnage aléatoire simple correspondant à des tirages équiprobables et indépendants les uns des autres.

Sa taille est notée n<<N

Dans ces conditions, les observations deviennent des v.a. ainsi que les résumés numérique usuels: ils convient donc d’en chercher les lois de probabilité avant de tenter d’extrapoler (inférés) à la population.

4

(3)

Échantillon

• Si on prélève au hasard n individu dans une

population finie de taille N et on veut étudier une caractéristique Xde la population.

Xest une v.a. appelée v.a. mère ou parente.

• À chaque individu itiré, on associe une v.a. Xi dont on observe une seule réalisation xi. Alors les Xisont des v.a. ayant toutes la même distribution, celle de X.

• On suppose que les Xisont mutuellement indépendantes (ou au moins, indépendantes deux à deux).

5

Échantillon

• On a donc la double conception suivante: Les valeurs observées (x1,x2,…,xn) constituent n réalisations indépendantes d’une v.a. Xou encore, une réalisation unique du n-uple (X1,X2,…,Xn) où les Xi sont nv.a.

indépendantes et de même loi.

• On note par la suite un échantillon le n-uple (X1,X2,…,Xn) .

(4)

Les statistiques

• La théorie de l’échantillonnage se propose d’étudier les propriétés du n-uple (X1,X2,…,Xn) et des caractéristiques le résumant, les

statistiques, à partir de la distribution

supposée connue de la variable parente X, et d’étudier en particulier ce qui se passe lorsque la taille de l’échantillon est élevée.

7

Les statistiques

• Il est d’usage dans la pratique de résumer les nvaleurs d’un échantillon x1,x2,…,xn par quelques caractéristiques simples telles que moyenne, plus grande valeur, etc.

• Ces caractéristiques sont elles-mêmes des réalisations de v.a. issues de X1,X2,…,Xn.

• Une statistique T est une v.a. fonction mesurable de X1,X2,…,Xn

T=f (X1,X2,…,Xn )

8

(5)

Les statistiques

Exemples:

• La moyenne empirique d’un échantillon (X1,X2,…,Xn) est:

• Sa variance empirique est:

=

= n

i

Xi

X n

1

1

( )

=

= n

i

i X

n X S

1 2 1 2

9

La distribution de la moyenne

• Pour une réalisation (x1,x2,…,xn), la statistique prendra la valeur

• Cette valeur est la moyenne arithmétique.

• Pour une autre réalisation, dans les mêmes conditions, un deuxième échantillon donnera pour réalisation et prendra alors la valeur

X

=

= n

i

xi

x n

1

1

=

= ′

n

i

xi

x n

1

1

X

) , , ,

(x1 x2 xn

(6)

Propriétés

1. L’espérance mathématique, notée , de est égale à la moyenne m de la population:

En effet, on a:

11

µX X X = m

µ ( )

( )

=

=

=

=

=

=

=

n

i

i n

i i

n

i X i

X n E

X nE

n X E X E

1 1

1

1 1

µ 1

( ) nm m

m n m

n m+ + + = =

=1 1

Propriétés

2. La variance de , notée , est égale à où σ2est la variance de la population et nla taille de l’échantillon.

En effet, on a:

où les v.a. Xisont indépendantes

12

X σX2

n σ2

( )

 

= 

=

= n

i

X Xi

Var n X

Var

1

2 1

σ

( )

n n

X n n Var

n

i

i

2 2

2 1

2

1

1 = σ = σ

=

=

(7)

Remarques

• La moyenne et la variance de sont calculées pour le cas d’un échantillon de variables

aléatoires indépendantes et identiquement distribuées (échantillon tiré avec remise d’une population finie ou échantillon tiré avec ou sans remise d’une population infinie).

• Si l’échantillon est tiré sans remise d’une population finie, les variables ne sont plus indépendantes. Dans ce cas, on a toujours

13

X

( )

X m

X = E =

µ

mais on trouve un autre résultat pour la variance

En effet, la population étant de taille N, il y a échantillons de taille n et

avec et

( )

1

2

= −

N n N X n

Var σ

n

C

N

( )

( )

( )

+

=

=

=

=

∑ ∑

= =

=

=

n

i

n

j i

j i i

n

i i n

i X i

j i

X X Cov X

n Var

X n Var

n X Var X Var

1 , 1

2

1 2

1 2

1 ,

1 σ 1

( )

Xi =σ2

Var Cov

(

Xi,Xj

)

=E

[

(Xi m)

(

Xj m

) ]

(8)

15

(

X X

)

E

[ (

X m

) (

X m

) ]

Cov i, j = i j

( )( k )

(

i l j k

)

N

l N

k

l m x m P X x X x

x = =

=

∑∑

= =

;

1 1

( )( k ) ( i l)

(

j k i l

)

N

l N

k

l m x m P X x P X x X x

x = = =

=

∑∑

= =

/

1 1

( )

(x m)(x m)

N X N

X

Cov k

N

k l

l j

i

k l

=

=1

1 ,

1 , 1

( )( )

pour k l

N l N

k pour

m x m x

N

l N

k

k

l



=

=

∑∑

= = 1

1 1 0

1 1

On a donc:

( )( k )

(

j k i l

)

N

l N

k

l P X x X x

m N x m

x = =

=

∑∑

= =

1 /

1 1

16

Comme ( ) ( ) ( )( ),

1 , 1

2 2

1

=

=

=

+

=

N

k l

k l

N

i i N

i i

k l

m x m x m

x m

x

( ) 2 0

1

=

= N

i

i m

x

( ) 2,

1

2 Nσ

m x

N

i

i =

=

et

on obtient

( ) (

2

)

1 1

, 1 Nσ

N X N

X

Cov i j

=

et donc

( )

=





+

=

=

) 1 1 ( 1

1

1 2 2

2 1

,

2 2

2 nn

n N n n N

X n Var

N

k l

k l

σ σ σ σ

( )

1

2

=

N n N X n

Var σ

D’où

1

N

n

N s’appelle facteur d’exhaustivité

(9)

Propriété:

• On peut affirmer, en vertu des propriétés de la loi normale, que lorsque la population a une

distribution normale, la distribution

d’échantillonnage de la moyenne est aussi normale.

• Le théorème de la limite centrale nous permet d’affirmer, d’autre part, que quelle que soit la

distribution de la population, la distribution de est normale N(0,1) lorsque nest grand

(en pratique ceci est vrai dès que n>30).

17

n m X σ /

La distribution de la variance

• La variance empirique d’un échantillon aléatoire (X1,X2,…,Xn) est défini par:

• Pour une réalisation (x1,x2,…,xn), la statistique S2 prendra la valeur Pour une autre réalisation, dans les mêmes conditions, un

deuxième échantillon donnera pour réalisation et S2 prendra alors la valeur

( )

=

= n

i

i X

n X S

1 2 1 2

( ).

1

1

2

= n

i

i x

n x

) , , ,

(x1 x2 xn

( )

= n

i

i x

n 1 x

' 2

1 '

=

= n

i

xi

x n

1

1 ''

(10)

Propriétés

19

( )

2 1σ2

n S n

E = −

( )

3

[ ( )

4

( )

4

]

2 = −1 n−1 µ − n−3σ n

S n Var

( )

2 3

2 1

, µ

n S n

X

Cov = −

1-

2-

3-

Propriétés

4. Si la distribution de la population est

normale, la variable aléatoire suit une loi du χ2 à n-1 degrés de liberté:

En effet, on a:

20 2

2

σ nS

) 1 (

~ 2

2

2 n

nS χ σ

( )

( )

( )

∑ ∑

= =

=

= n

i

n

i i

i X X m n X m

nS X

1 1

2 2 2

2 2

2

2 1 1

σ σ

σ

2

1

2

/ 



=

= n

m X m

n X

i i

σ σ

(11)

Propriétés (suite de 4°)

Le premier terme est une somme de n carrés de variables N(0,1) et suit donc une loi du χ2 à n degrés de liberté. Le second terme est une variable qui suit une loi du χ2 à 1 degré de liberté. Donc, le degré de est n-1

(on a une relation entre et Xi: ).

21 2

2

σ nS

X

( )

=

=

n

i

i X

X

1

0

Propriétés (suite de 4°)

• On vérifié que En effet, on a

kest l’espérance mathématique d’une variable aléatoire qui suit une loi du χ2à k degrés de liberté (dans ce cas k=n-1).

( )

2 1σ2

n S n

E =

( )

2 2 2( 1)

2 2

2 2 2

2 = =



=





= n

k n n E nS

n nS

E n S

E σ σ

σ σ

σ σ

(12)

Propriétés (suite de 4°)

• De même, on trouve:

où 2kest la variance d’une variable aléatoire qui suit une loi du χ2 à k degrés de liberté (dans notre cas k=n-1).

23

( )

2 2 2( 1)

4 2

4 2

2 2

4 2

2 2

2 = =



=





= n

k n n Var nS

n nS Var n

S

Var σ σ

σ σ

σ σ

Propriétés (suite de 4°)

• On peut affirmer de plus que la v.a. suit

une loi de Student à n-1 degrés de liberté.

En effet, comme et , le

rapport .

24

1

2

n

S m X

) 1 , 0 ( / ~N

n m X σ

2 ~ 2( 1)

2 n

nS χ σ

) 1 (

~ 1 )

1 (

/

2 2

2

=

n T n

S m X

n nS

n m X

σ σ

(13)

La distribution des fréquences

• La probabilité de réalisation d’un événement est supposée être égale à p.

• On considère les échantillons de taille n extraits, avec remise, d’une population de taille N.

• A chaque échantillon extrait correspond une fréquence fn de réalisation de l’événement considéré.

25

Propriétés

1. μfn=E(fn)=p

En effet, la variable aléatoire X=n fn~B(n,p) et

2.

En effet,

( ) ( )

np p

X n nE n

E X f E n

fn = = =

=

= 1 1

µ

( ) ( )

n p f p

Var n = 1

( ) ( )

n p p p

n np X n Var n

Var X f

Var n (1 )

) 1 1 ( 1

2 2

=

=

=

=

(14)

Propriétés

3. Si le tirage se fait sans remise, on a toujours E(fn)=p. Mais la variance dans ce cas, vaut:

En effet,

Comme X suit une loi hypergéométrique et

On en déduit la formule de Var(fn) au dessus.

27

( )

1

) 1 (

=

N n N n

p f p

Var n

( )

12Var(X).

n n

Var X f

Var n =

 

= 

) 1 1 ( )

( np p

N n X N

Var

=

Propriétés

4. Pour une taille nde l’échantillon assez grande (en pratique n≥30), on a

28

) 1 , 0 ( ) ~

1

( N

n p p

p

f fn

f f n

n n

= −

σ

µ

(15)

La distribution des différences de moyennes

• On considère 2 populations P1 et P2 de taille N1et N2, de moyennes m1 et m2 et de

variances σ2

Xet σ2

Yrespectivement.

• On s’intéresse, dans de nombreux problèmes à la différence m1-m2.

• On extrait de la population P1 un échantillon (x1,x2,…,xn1) de taille n1et de la population P2 un échantillon (y1,y2,…,yn2) de taille n2.

• On note

29

=

= 1

1 1

1 n

i

Xi

X n

=

= 2

2 1

1 n

j

Yj

Y n et

Propriétés

1.

En effet,

2.

En effet,

car et sont indépendantes. On a donc le résultat pour un tirage exhaustif (avec remise)

2

1

m

Y

m

X

= −

µ

( X Y ) ( ) ( ) E X E Y m

1

m

2 Y

E

X

= − = − = −

µ

2 2 2 1

2 1 1

Y X

Y

X n σ n σ

σ = +

(

X Y

)

Var

( )

X Var

( )

Y

Y Var

X2 = − = +

σ

X Y

(16)

Propriétés

• (suite 2°) Dans le cas d’un tirage non exhaustif (sans remise), il faut tenir compte du

coefficient d’exhaustivité car

3. En supposant n1 et n2grands, on peut dire que et suivent toutes deux des lois normales. Comme elles sont indépendantes,

suit aussi une loi normale. On conclut donc que

31

( )

1 1

1 1 1 2

=

N n N X n

Var σX

( )

2 1

2 2 2

2

=

N n N Y n

Var σY

et

X Y

Y X

( ) ( ) ( )~ ( )0,1

2 2

1 2

2

1 N

n n

m m Y X Y

X

Y Y X

X Y X

σ σ σ

µ

+

=

Exercice

On choisit au hasard six nombres parmi les nombres entiers de 1 à 9, chacun de ces nombres a la même probabilité d’être choisi.

Calculer la moyenne et l’écart-type de la distribution d’échantillonnage des moyennes dans les 2 cas:

1. Tirage sans remise.

2. Tirage avec remise.

32

(17)

Solution

1. La moyenne de la population est Sa variance σ2vaut:

L’écart-type est σ=2,58.

Il y a façons de choisir six nombres parmi les 9.

Chacun de ces 84 échantillons possibles a une moyenne où xi (i=1,2,…,6)

représente un des 9 nombres.

33

9 5 9 2

1+ + + =

=

m

( ) ( ) ( )

[

1 5 2 5 9 5

]

6,67

9

1 2 2 2

2= + ++ =

σ

6 84

9 = C

=

= 6

1

1

i

xi

x n

• Par exemple l’échantillon (3, 8, 7, 2, 5, 1) a pour moyenne .

• On obtient ainsi 84 moyennes et la moyenne de la distribution d’échantillonnage des

moyennes vaut .

• La variance de la distribution

d’échantillonnage des moyennes est

• D’où

33 ,

= 4 x

µX µX =m =5

417 , 1 0 9

6 9 6

67 , 6 1

2

2 =

=

=

N n N

X n σ σ

645 ,

= 0 σX

(18)

2. Il y a 96= 531441 façons de choisir six nombres parmi les 9. Chacun de ces échantillons a une moyenne où xi(i=1,2,…,6)

représente, comme précédemment, un des 9 nombres.

• Par exemple, l’échantillon (4, 3, 4, 5, 7, 8) donne pour moyenne . On obtient de cette manière 531441 moyennes et la moyenne

distribution d’échantillonnage des moyennes vaut .

• La variance de la distribution d’échantillonnage des moyennes est:

• D’où

35

=

= 6

1

1

i

xi

x n

17 ,

= 5 x

µX

=5

=m µX

11 , 6 1

67 ,

2 6

2 = = =

X n σ σ 05

,

=1 σX

36

Annexe 1:

Tirage sans remise (sans répétitions)

Non exhaustif

Les v.a. sont dépendantes

Loi utilisée hypergéométrique

Tirage avec remise (avec répétitions)

Exhaustif

Les v.a. sont indépendantes

Loi utilisée binomiale Tirage d’un échantillon

(19)

37

( ) a b n a X

E = +

On a vu que pour une loi hypergéométrique H(n,a,b)

( ) ( )

(

+

) (

2 + + 1

)

= a b a b n b a X nab

et Var

Mais, a+b=N alors,

( )

N

n a X

E = et

( ) ( )

(

1

)

2

=

N N

n N X nab

Var

La probabilité de tirer une boule blanche sera:

N

p= a et

N b N

a N N q a

p= = = =

1

1

( )

X np

E =

( ) ( )

( ) ( )

(

1

)

) 1

1 (

=

=

N n p N

N np n npq N

X et Var

Références

Documents relatifs

Même question pour deux variables aléatoires de même loi..

[r]

ISFA - L3 Actuariat [email protected] Probabilités math.univ-lyon1.fr/homes-www/lerouvillois/. Éléments de correction TD 3

En pratique : on peut considérer cette suite de variables indépendantes comme les résultats de lancers successifs d’une pièce telle que la probabilité de tomber sur face est p, et

Déterminer le nombre minimal de clients qu’il faut interroger pour estimer la proportion p de clients qui trouvent le temps d’attente aux caisses raisonnable avec une

D´eterminer l’intervalle de fluctuation `a 95% de la proportion de personnes ayant les yeux bleus dans un ´echantillon de 50 personnes.. Peut-on attribuer au micro-climat une

D´eterminer les intervalles de confiance au niveau de confiance de 0,95 des proportions de patients d´eclarant ressentir une diminution de l’intensit´e de leurs migraines, dans

Propri´ et´ e On consid`ere la variable al´eatoire X qui ` a tout ´echantillon de taille n associe le nombre d’individus poss´edant le caract`ere ´etudi´e.. Exemple : Dans