• Aucun résultat trouvé

Chapitre 2. Échantillonnage

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre 2. Échantillonnage"

Copied!
23
0
0

Texte intégral

(1)

Chapitre 2. Échantillonnage

Pierre Duchesne

August 1, 2017

(2)

I En théorie des probabilités, une question intéressante pourrait être de la forme: Si on lance une pièce de

monnaie régulière à 1000 reprises, quelle est la probabilité d’observer 503 faces?

I En statistique, la question intéressante serait plutôt: Si on lance une pièce de monnaie à 1000 reprises et que l’on observe 503 faces, est-ce que la pièce est régulière?

(3)

Les deux disciplines s’intéressent à un caractère étudié qui serait ici:

X =nombre de faces en 1000 lancers de la pièce.

Ainsi, en probabilités, on suppose que l’on connaît tous les paramètres qui définissent la loi de probabilité. Dans ce cas-ci, X ∼Bin(1000,12).

En statistique, on ne connaît pas tous les paramètres. On aurait iciX ∼Bin(1000,p)avec 0≤p≤1.

(4)

Typiquement, nous pouvons dire qu’il y a deux grands problèmes dans le domaine de la statistique:

1. Théorie de l’estimation: le problème du statisticien consiste à attribuer une valeur à un paramètre inconnu;

2. Théorie des tests d’hypothèses: le statisticien cherche à vérifier une conjecture sur le paramètre inconnu.

Les deux théories ci-dessus forment ce que l’on appelle l’inférence statistique.

(5)

I Lorsque l’on effectue de l’inférence statistique, nous devons disposer d’information sur le caractère à l’étude, et ceci s’obtient au moyen d’un échantillon.

I Dans l’exemple du lancer de la pièce, on pourrait avoir comme échantillon la chaîne décrivant les 1000 résultats:

PFPP . . . F, avecF pour face, etP pour pile.

I Alternativement, on pourrait poser:

Xi =

1, siF au tiragei, 0, sinon.

I On aurait alors dans la chaîne de caractères précédente:

X1=0,X2=1,X3=X4=0, . . . ,X1000=1.

(6)

Chapitre 2.1 Échantillonnage dans une population infinie

Considérons une populationfiniepour laquelle on étudie le caractèreX suivant:

X =nombre d’enfants dans la famille.

Dans notre exemple, la populationP est composée de cinq familles.

unité nb d’enfants

1 0

2 1

3 1

4 2

5 3

(7)

unité nb d’enfants

1 0

2 1

3 1

4 2

5 3

Ainsi la loi de probabilité deX est:

unité nb d’enfants

0 1/5

1 2/5

2 1/5

3 1/5

(8)

Supposons maintenant que l’on prélève un échantillon de taille n=2 dans la population finie.

Deux plans d’échantillonnage sont possibles:

I Échantillonnage aléatoire simpleavecremise;

I Échantillonnage aléatoire simplesansremise.

Le tirage aléatoire simple sans remise est sans doute plus naturel, mais le tirage avec remise offre des propriétés plus intéressantes (et surtout plus commodes mathématiquement).

(9)

Échantillonnage avec remise

ConsidéronsX1etX2les variables aléatoires pour chacun des deux tirages.

Nous avons queX1a la même loi que la loi du caractère étudié X:

unité nb d’enfants

0 1/5

1 2/5

2 1/5

3 1/5

De même,X2a la même loi que la loi du caractère étudiéX. De plus,X1etX2sont indépendantes.

(10)

Échantillonnage sans remise

Considérons encoreX1etX2les variables aléatoires pour chacun des deux tirages.

Encore ici,X1est une variable aléatoire dont la loi est identique à celle deX.

Cependant, à prime abord, la loi deX2n’est plus aussi évidente.

En effet, dans un échantillonnage sans remise, la valeur que prendraX2dépend maintenant de la valeur qui aura été prise parX1.

(11)

Afin de prendre la loi deX2, une façon de procéder est de trouver la loi conjointe du couple(X1,X2), que l’on note pX1,X2(x1,x2).

pX1,X2(x1,x2) =P(X1=x1,X2=x2) =P(X1=x1)P(X2=x2|X1=x1).

(12)

unité nb d’enfants

1 0

2 1

3 1

4 2

5 3

On trouve:

x1\x2 0 1 2 3 pX1(x1) 0 0/20 2/20 1/20 1/20 4/20 = 1/5 1 2/20 2/20 2/20 2/20 8/20 = 2/5 2 1/20 2/20 0/20 1/20 4/20 = 1/5 3 1/20 2/20 1/20 0 4/20 = 1/5 pX2(x2) 1/5 2/5 1/5 1/5 20/20 = 1

(13)

On remarque queX1est de même loi queX, et il en va de même deX2, qui a même loi queX.

Cependant,X1etX2sont dépendantes, et on peut montrer que:

cov(X1,X2) =− 26 100.

Ainsi les tirages avec remise, quoique moins naturels, ont des propriétés mathématiques plus intéressantes.

Si la population était de taille infinie (en pratique si la population est très grande), tirer au hasard avec ou sans remise revient à toute fin pratique au même.

(14)

Échantillon aléatoire

On va donc considérer à partir de maintenant que l’on a affaire à des populations infinies.

SoitX un caractère étudié dans une populationP. Alors E:X1,X2, . . . ,Xn est un échantillon aléatoire de taillensi X1,X2, . . . ,Xnsont indépendantes et chacune de même loi que X.

Un caractèreX est une v.a. et on appelleraµX =E(X)la moyenne de la population ou encore la moyenne théorique. De même,σX2 =E{(X −µX)2}est la variance de la population ou encore la variance théorique.

(15)

Moments théoriques

En général, sik est un entier, nous noterons:

αk =E(Xk) =moment théorique d’ordrek, µk =E{(X−µX)k}=moment théorique centré d’ordrek. On note queα1X, et queµ1=0, etµ22X.

(16)

Chapitre 2.2 Statistiques et moments expérimentaux

Une statistique est une variable aléatoire qui n’est fonction que d’un échantillon aléatoireE:X1,X2, . . . ,Xndans une population P.

Plus précisément, soitX est un caractère étudié dans une populationP. SiE:X1,X2, . . . ,Xn associé àX, alors une statistiqueT =t(X1, . . . ,Xn)oùt :Rn→Rest une fonction entièrement connue.

(17)

Exemples:Soit un échantillon aléatoireE :X1,X2, . . . ,Xn associé àX.

1. La fonctiont(x1, . . . ,nn) = 1nPn

i=1xi donne lieu à la statistiqueT = 1nPn

i=1Xi, appelée lamoyenne échantillonnale.

2. La fonctiont(x1, . . . ,nn) =max1≤i≤nxi−min1≤i≤nxi. La statistique estT =max1≤i≤nXi−min1≤i≤nXi et permet d’introduirel’étendue.

3. La fonctiont(x1, . . . ,nn) = 1nP

xik permet d’introduire les moments expérimentauxT = 1nPn

i=1Xik (oùk est un entier).

4. La fonctiont(x1, . . . ,nn) = 1nP

(xi−µX)k permet d’introduire lesmoments expérimentaux centrés T = 1nPn

i=1(Xi−µX)k (oùk est un entier etµX est présumé connu).

(18)

Lorsquek =2, la statistiqueT = n1P

(Xi−µX)2est appelée la variance échantillonnale. On pose:

ˆ σ2= 1

n

X(Xi−µX)2.

C’est une statistique en autant queµX est connue. SiµX est inconnueσˆ2n’est plus une statistique et on introduit plutôt:

S2= 1 n−1

X(Xi−X¯)2.

On appelleS2la variance échantillonnale corrigée.

(19)

Variance échantillonnale corrigée

On rappelle que:

E{[X−µX]2} = E{X2−2µXX+µ2X},

= E(X2)−2µ2X2X,

= E(X2)− {E(X)}2.

(20)

Les mêmes étapes donnent:

S2 = 1 n1

n

X

i=1

{Xi X¯}2,

= 1

n1

n

X

i=1

{Xi22X X¯ i+ ¯X2},

= 1

n1 ( n

X

i=1

Xi22X¯

n

X

i=1

Xi+nX¯2 )

,

= 1

n1 ( n

X

i=1

Xi22nX¯2+nX¯2 )

,

= 1

n1 ( n

X

i=1

Xi2nX¯2 )

,

= n (

1Xn

X2X¯2 )

.

(21)

En résumé:σ2=E{[X −µX]2}=E(X2)− {E(X)}2est fonction du premier moment théorique et du second moment théorique (élevé au carré).

De même,S2= n−1n 1

n

Pn

i=1Xi2−X¯2 est fonction du premier moment échantillonnal et du second moment échantillonal (élevé au carré).

(22)

Espérance et variance de X ¯ , σ ˆ

2

et S

2

Soit un échantillon aléatoireE :X1,X2, . . . ,Xnassocié àX. SoitX¯ = 1nPn

i=1Xi. Alors:

E( ¯X) = µX, var( ¯X) = σ2

n . Soitσˆ2= 1nPn

i=1(Xi−µX)2. Posonsµk =E{(X−µX)k}. Alors:

E(ˆσ2) = σ2, var(ˆσ2) = µ4−µ22

n ,

= µ4−σ4 .

(23)

Espérance et variance de X ¯ , σ ˆ

2

et S

2

(suite)

Soit un échantillon aléatoireE :X1,X2, . . . ,Xnassocié àX. SoitS2= n−11 Pn

i=1(Xi−X¯)2. Alors:

E(S2) = σ2, var(S2) =

n n−1

2(

µ4−µ22

n −2(µ4−2µ22

n2 ) +µ4−3µ22 n3

)

Le résultat précédent sur la variance est général. Si on suppose queX est de loi normale,X ∼ N(µX, σ2), alors

var(S2) = 2σ4 n−1.

Références

Documents relatifs

60% de la superficie de chaque unité foncière doit être maintenue sous forme d'espaces verts, sans aucune emprise au sol de construction telle que définie dans

 un espace naturel situé sur le domaine public maritime (pointe sableuse et milieu marin), dont la protection relève du présent arrêté, délimitée par plusieurs

•  C’est inéluctable : on aura à prendre en charge de plus en plus souvent des infections dûes à des bactéries résistantes. •  Il n’y aura pas

plafond de 3 m, une cheminée, un beau parquet ancien, une cuisine américaine aménagée et équipée, une salle de bains avec baignoire et WC broyeur. Fenêtres double

indépendante aménagée et équipée (plaques vitrocéramiques, micro-onde), d'une salle d'eau.. composée d'une machine à laver et

Quartier Champs-Elysées-Grand Palais, Avenue Franklin Roosevelt dans un bel immeuble Art déco au 2ème étage avec ascenseur et gardienne, grand studio en parfait. état, très

Dans une première étape, les ions cuivre de la solution vont réagir avec des ions iodure, puis dans un second temps le diiode formé par la réaction précédente sera titré par

Ayant retenu vos bons conseils, l’oncle Picsou sort de sa poche 2011 pièces d’argent (5 francs Semeuse) parmi lesquelles il y a une