C
HAPITRE2 - É
CHANTILLONNAGE Julie Scholler - Bureau B246octobre 2018
I. Échantillon et statistique
Échantillonnage
Principe
• étude d’observations répétées issues d’un certain phénomène de nature aléatoire
• consiste à prédire, à partir d’une population connue les caractéristiques des échantillons qui en seront prélevés Exemple de situations classiques
• les sondages
I. Échantillon et statistique
Sondage
• événement aléatoire : choix des individus interrogés
• issue ω
• Xi : valeur du caractère étudié du ie individu
• xi = Xi(ω) : valeur observée sur le ie individu après choix des interrogés
• (X1,X2, . . . ,Xn) : vecteur aléatoire des valeurs du caractère sur les individus interrogés
• (x1, . . . ,xn) = (X1(ω), . . . ,Xn(ω)) : résultats du sondage
I. Échantillon et statistique
Échantillon et statistique d’échantillon
Échantillon aléatoire de taille n
• une suite de n variables aléatoires indépendantes et de même loi (i.i.d.)
Cette loi commune est appelée loi mère de l’échantillon.
Soit un n-échantillon X1,X2, . . . ,Xn. Statistique
• toute variable aléatoire Tn = h(X1,X2, . . . ,Xn), fonction de X1,X2, . . . ,Xn
I. Échantillon et statistique
Exemples de statistique
Soit un n-échantillon X1,X2, . . . ,Xn. Moyenne empirique
• la statistique, notée Xn (ou X), définie par Xn = 1
n
n
X
i=1
Xi
Variance de l’échantillon
• la statistique, notée Sn2 (ou S2), définie par Sn2 = 1
n
n
X
i=1
Xi − X2
I. Échantillon et statistique
On note µ et σ2 l’espérance et la variance de la loi mère.
Propriétés de la moyenne empirique
E
Xn = µ et VXn = σ2 n
Loi des grands nombres
Soit (Xn)n une suite de variables aléatoires indépendantes entre elles et de même loi. Alors on a
∀ε > 0, lim
n→+∞P
X1 + X2 +· · ·+ Xn
n − E(X) > ε
= 0 On dit que X converge presque sûrement vers E(X).
I. Échantillon et statistique
On note µ et σ2 l’espérance et la variance de la loi mère.
Propriété de la variance empirique
E
Sn2 = n− 1 n σ2
Variance empirique corrigée
• la statistique, notée Scor2 ,n (ou Scor2 ), définie par Scor2 = 1
n− 1
n
X
i=1
Xi − X2
I. Échantillon et statistique
Statistiques d’ordre
Maximum empirique
• la statistique, notée X(n), définie par
X(n) := max{X1,X2, . . . ,Xn} Minimum empirique
• la statistique, notée X(1), définie par
X(1) := min{X1,X2, . . . ,Xn}
On note F la fonction de répartition de la loi mère commune.
Fonctions de répartition Pour tout réel x, on a :
FX(n)(x) = (F(x))n et FX(1)(x) = 1− (1− F(x))n
I. Échantillon et statistique
Statistiques d’ordre k
• la variable aléatoire, notée X(k), définie par X(k) := hk(X1, . . . ,Xn)
où, pour tout k ∈ J1;nK, hk est la fonction de Rn dans R qui à (x1, . . . ,xn) renvoie la ke valeur parmi x1, . . . ,xn quand elles sont classées par ordre croissant.
On note F la fonction de répartition de la loi mère commune.
Fonctions de répartition
Pour tout entier k ∈ J1;nK et pour tout réel x, on a : FX(k)(x) =
n
X
j=k
n k
!
(F(x))j (1− F(x))n−j
II. Loi mère gaussienne
Cas particulier d’une loi mère normale
Loi mère
X ∼ N (µ;σ) Moyenne empirique
X = 1 n
n
X
i=1
Xi ∼ N
µ; σ
√n
Variance empirique
...
II. Loi mère gaussienne
Loi du χ
2(Khi-deux)
• ν un entier strictement positif
• Z1,Z2, . . . ,Zν de variables aléatoires i.i.d. de loi N (0 ; 1) Alors la variable
ν
X
i=1
Zi2 suit une loi appelée loi du Khi-deux à ν degrés de liberté. On écrit
ν
X
i=1
Zi2 ∼ χ2(ν).
Densité de la loi du Khi-deux à ν degré de liberté :
fν(x) =
1
2ν2Γ ν2xν2−1e−x2 si x > 0
0 sinon
II. Loi mère gaussienne
Densités de lois du χ
20 2 4 6 8 10
0.00.20.40.60.81.0
χ2(1) χ2(2) χ2(3) χ2(4) χ2(5)
II. Loi mère gaussienne
Densités de lois du χ
20 10 20 30 40 50 60
0.000.050.100.15
χ2(5) χ2(10) χ2(20) χ2(30) χ2(50)
II. Loi mère gaussienne
Espérance et variance du loi du χ2 Soit X ∼ χ2(ν) avec ν ∈ N∗
Alors on a
E(X) = ν et V (X) = 2ν Somme de χ2
• ν1 et ν2 dans N∗
• T1 ∼ χ2(ν1) et T2 ∼ χ2(ν2)
• T1 et T2 indépendantes Alors on a
T1 +T2 ∼ χ2(ν1 + ν2)
II. Loi mère gaussienne
Loi de la variance empirique corrigée
Soit un n-échantillon X1,X2, . . . ,Xn de loi mère N (µ;σ). Alors (n − 1)Scor2
σ2 ∼ χ2(n − 1) Corollaire
E
Scor2 = σ2 et VScor2 = 2σ4 n − 1
II. Loi mère gaussienne
Lien entre moyenne empirique et variance empirique
Théorème
Si la loi mère est gaussienne, X et Scor2 sont des variables aléatoires indépendantes.
II. Loi mère gaussienne
Loi de Student
• Z ∼ N (0 ; 1)
• Q ∼ χ2(ν) avec ν ∈ N∗
• Z et Q indépendantes entre elles Alors la variable aléatoire T définie par
T = Z qQ
ν
suit une loi de Student à ν degré de liberté, notée t(ν).
II. Loi mère gaussienne
Densités : loi normale et lois de Student
-4 -2 0 2 4
0.00.10.20.30.4
t(1) t(2) t(3) t(4)
II. Loi mère gaussienne
Propriétés des loi de Student
Espérance d’une loi de Student
La loi de Student à 1 degré de liberté n’admet pas d’espérance.
Si ν > 2 et T ∼ t(ν), on a E(T) = 0.
Variance d’une loi de Student
Les lois de Student à 1 et 2 degré de liberté n’admettent pas de variance.
Si ν > 3 et T ∼ t(ν), on a V(T) = ν
ν − 2(> 1).
II. Loi mère gaussienne
Loi de Student
• Z ∼ N (0 ; 1), Q ∼ χ2(ν) avec ν ∈ N∗, Z et Q indépendantes entre elles ⇒ T = Z
qQ ν
∼ t(ν)
Soit un n-échantillon X1,X2, . . . ,Xn de loi mère N (µ;σ).
• X ∼ N
µ; σ
√n
et (n− 1)Scor2
σ2 ∼ χ2(n − 1) Conséquence
X −µ q
Scor2 /n
∼ t(n −1)
III. Loi mère quelconque
3. Cas d’une loi mère quelconque
Théorème central limite (Xn)n∈
N : suite de variables aléatoires i.i.d. d’espérance µ et de variance σ2
Alors on a
Xn − µ σ/√
n
−−−−→Loi
n→+∞ N (0 ; 1) Application
X1,X2, . . . ,Xn : n-échantillon aléatoire de loi mère quelconque, d’espérance µ et de variance σ2
Alors, quand n est assez grand, on a Xn ∼
approx N
µ; σ
√n
III. Loi mère quelconque
Application : loi mère de Bernoulli
X1,X2, . . . ,Xn : n-échantillon aléatoire de loi mère Ber(p) Si n > 30, np > 5, n(1−p) > 5, alors on a
Xn ∼
approx N
p ; s
p(1 −p) n
III. Loi mère quelconque
III. Loi mère quelconque
« [Aamjiwnaang est] une réserve de 850 âmes vivotant à l’ombre de Sarnia, dans la région des grands lacs. [...] Depuis le début des années 90, il naît dans la communauté de moins en moins de garçons... Aujourd’hui, le phénomène a pris une telle ampleur que l’on compte dans le village trois équipes de base-ball féminines pour une seule masculine !
Alertés par les habitants inquiets, les autorités canadiennes ont envoyé sur place Constanze A. Mackenzie, une scientifique de l’université d’Ottawa. Elle a épluché les registres régionaux du département des affaires indiennes où sont enregistrés les naissances et les décès des habitants de la réserve. Et il a fallu se rendre à l’évidence. Depuis 1993, la proportion d’enfants mâles d’Aamjiwnaang n’a cessé de dégringoler. »
Science et Vie junior, n◦198, mars 2006
III. Loi mère quelconque
Les données
• Sexe ratio au canada : 51.2%
• entre 1989 et 1998 : 400 naissances à Aamjiwnaang dont 199 garçons
• entre 1999 et 2003 : 132 naissances dont 46 garçons
Environmental Health Perspectives, Declining sex ratio in a first nation community Constanze A. Mackenzie, Ada Lockridge, Margaret Keith
Octobre 2005
III. Loi mère quelconque
III. Loi mère quelconque
Euro coin accused of unfair flipping
New Scientist, 4 january 2002 by Debora MacKenzie
The introduction of the Euro, the largest currency switch in history, has proceeded with few problems – until now. Polish statisticians say the one Euro coin, at least in Belgium, does not have an equal chance of landing "heads" or "tails". They allege that, when spun on a smooth surface, the coin comes up heads more often.
The observation is not to be taken lightly on a sports-mad continent where important decisions can turn on the flip of a coin. But the accusation of bias has been countered by statistical analysis from, of all places, Euro-sceptic Britain. The UK is one of only three EU countries that have not adopted the common currency.
III. Loi mère quelconque
Tomasz Gliszczynski and Waclaw Zawadowski, statistics teachers at the Akademia Podlaska in Siedlce, received Belgian Euro coins from Poles returning from jobs in Belgium and immediately set their students spinning them. Gliszczynski says spinning is a more sensitive way of revealing if a coin is weighted than the more usual method of tossing in the air.
The students had already spun the Polish two-zloty piece more than 10,000 times to show it was biased. But for the Belgian Euro, they have so far managed only 250 spins.
Of these, 140, or 56.0 per cent, came up heads. Glyszczynski attributes such assymetry to a heavier embossed image on one side of the coin. All Euros have a national image on the "heads" side and a common design on the "tails". Belgium portrays its portly king, Albert, on the heads side.
III. Loi mère quelconque
Not significant
But Howard Grubb, an applied statistician at the University of Rea- ding, notes that, "with a sample of only 250, anything between 43.8 per cent and 56.2 per cent on one side or the other cannot be said to be biased".
This is because random variation can produce such scatter even if the coin is truly unbiased. With a larger number of spins, such randomness would even out and results would approach 50 :50.
The range of 6.2 per cent on either side of 50 per cent is expected to cover the results, even with a fair coin, in 95 of every 100 experiments. Nonetheless, Grubb cautions, the Polish result is at the outside of this range, and would be expected in only about 7 of every 100 experiments with a fair coin, leaving a glimmer of hope for their hypothesis. Clearly, more research is needed.
III. Loi mère quelconque
Gliszczynski plans to continue his experiments – aimed mainly at teaching his students statistics – with the German Euro, which has an eagle on its heads side, and present them at a conference in February.
New Scientist carried out its own experiments with the Belgian Euro in its Brussels office. Heads came up five per cent less often than tails. This looks like the opposite of the Polish result but in fact – in terms of statistical significance – it is the same one.
www.newscientist.com/article/dn1748-euro-coin-accused-of-unfair-flipping/