C
HAPITRE1 - É
CHANTILLONNAGE Julie Scholler - Bureau B246septembre 2020
I. Échantillon et statistique
Échantillonnage
Principe
• étude d’observations répétées issues d’un certain phénomène de nature aléatoire
• consiste à prédire, à partir d’une population connue les caractéristiques des échantillons qui en seront prélevés Exemple de situations classiques
• les sondages
I. Échantillon et statistique
Sondage
• événement aléatoire : choix des individus interrogés
• issue ω
• Xi : valeur du caractère étudié du ie individu
• xi = Xi(ω) : valeur observée sur le ie individu après choix des interrogés
• (X1,X2, . . . ,Xn) : vecteur aléatoire des valeurs du caractère sur les individus interrogés
• (x1, . . . ,xn) = (X1(ω), . . . ,Xn(ω)) : résultats du sondage
I. Échantillon et statistique
Échantillon aléatoire et indépendance
Échantillon aléatoire de taille n
• une liste de n variables aléatoires indépendantes et de même loi (i.i.d., indépendantes et identiquement distribuées)
Indépendance de plus de 2 variables aléatoires ? On lance deux pièces (une de 1e et une de 2e).
• X1 = 1 si la pièce de 1e donne face et 0 sinon
• X2 = 1 si la pièce de 2e donne face et 0 sinon
• Y = 1 si les deux pièces renvoient le même côté X1, X2 et Y sont-elles indépendantes ?
I. Échantillon et statistique
Rappels : Indépendance de deux variables aléatoires
Soit (X,Y) un couple de variables aléatoires.
Les variables aléatoires X et Y sont indépendantes entre elles si et seulement si
• pour toute partie A de X(Ω)
• et pour toute partie B de Y(Ω)
les événements [X ∈ A] et [Y ∈ B] sont indépendants c’est-à-dire
∀A ⊂ X(Ω),∀B ⊂ Y(Ω),
P [X ∈ A] ∩[Y ∈ B] = P(X ∈ A) P(Y ∈ B)
I. Échantillon et statistique
Indépendance de n variables aléatoires
Soient X1, . . . ,Xn n variables aléatoires.
Indépendance deux à deux
pour tous entiers i 6= j dans J1;nK, les variables aléatoires Xi et Xj
sont indépendantes.
Indépendance mutuelle
pour tout n-uplet (A1, . . . ,An) tel que, pour tout i ∈ J1,nK, Ai ⊂ Xi(Ω), on a
P
n
\
i=1
[Xi ∈ Ai]
!
=
n
Y
i=1
P(Xi ∈ Ai).
I. Échantillon et statistique
Échantillon et statistique d’échantillon
Échantillon aléatoire de taille n
• une liste de n variables aléatoires mutuellement
indépendantes et de même loi (i.i.d., indépendantes et identiquement distribuées)
Cette loi commune est appelée loi mère de l’échantillon.
Soit un n-échantillon X1,X2, . . . ,Xn. Statistique
• toute variable aléatoire Tn = h(X1,X2, . . . ,Xn), fonction de X1,X2, . . . ,Xn
I. Échantillon et statistique
Premier exemple de statistique
Soit un n-échantillon X1,X2, . . . ,Xn. Moyenne empirique
• la statistique, notée Xn (ou X), définie par Xn = 1
n
n
X
i=1
Xi
On note µ et σ2 l’espérance et la variance de la loi mère.
Propriétés de la moyenne empirique
E
Xn = µ et VXn = σ2 n
I. Échantillon et statistique
Loi des grands nombres
Soit (Xn)n une suite de variables aléatoires indépendantes entre elles et de même loi. Alors on a
∀ε > 0, lim
n→+∞P
X1 + X2 +· · ·+ Xn
n − E(X) > ε
= 0
On dit que X converge presque sûrement vers E(X).
Inégalité de Bienaymé–Tchebychev
pour toute variable aléatoire Y admettant une espérance et une variance, on a :
∀ε > 0, P(|Y − E(Y)| > ε) 6 V(Y) ε2
I. Échantillon et statistique
Soit un n-échantillon X1,X2, . . . ,Xn. Variance de l’échantillon
• la statistique, notée Sn2 (ou S2), définie par Sn2 = 1
n
n
X
i=1
Xi − X2
On note µ et σ2 l’espérance et la variance de la loi mère.
Propriété de la variance empirique
E
Sn2 = n− 1 n σ2
Variance empirique corrigée
• la statistique, notée Scor2 ,n (ou Scor2 ), définie par Scor2 = 1
n− 1
n
X
i=1
Xi − X2
I. Échantillon et statistique
Statistiques d’ordre
Maximum empirique
• la statistique, notée X(n), définie par
X(n) := max{X1,X2, . . . ,Xn}
Minimum empirique
• la statistique, notée X(1), définie par
X(1) := min{X1,X2, . . . ,Xn}
On note F la fonction de répartition de la loi mère commune.
Fonctions de répartition Pour tout réel x, on a :
FX(n)(x) = (F(x))n et FX(1)(x) = 1− (1− F(x))n
I. Échantillon et statistique
Le contenu de cette page n’est pas à connaître.
Statistiques d’ordre k
• la variable aléatoire, notée X(k), définie par X(k) := hk(X1, . . . ,Xn)
où, pour tout k ∈ J1;nK, hk est la fonction de Rn dans R qui à (x1, . . . ,xn) renvoie la ke valeur parmi x1, . . . ,xn quand elles sont classées par ordre croissant.
On note F la fonction de répartition de la loi mère commune.
Fonctions de répartition
Pour tout entier k ∈ J1;nK et pour tout réel x, on a : FX(k)(x) =
n
X
j=k
n k
!
(F(x))j (1− F(x))n−j
II. Loi mère gaussienne
Loi mère normale et moyenne empirique
Loi mère : X ∼ N (µ;σ) Moyenne empirique : X = 1
n
n
X
i=1
Xi ∼ ?
Le maraîcher vend ses fraises en bar- quette de 25 fraises.
On suppose que les poids des fraises d’une barquette sont indépendants entre eux.
X : variable aléatoire représentant le poids d’une fraise cueillie X ∼ N(3,0.8)
• Quelle est la probabilité que la barquette fasse plus de 70g ?
• Quelle est la probabilité que la fraise la plus légère de la barquette fasse au moins 2g ?
II. Loi mère gaussienne
Quelques propriétés des lois normales
Stabilité par transformation affine
Soit X ∼ N(µ;σ). Pour tous réels a et b, on a aX + b ∼ N (aµ + b;|a|σ)
Stabilité par addition indépendante
Soient X ∼ N(µX ;σX) et Y ∼ N(µY ;σY) indépendantes entre elles. On a
Z = X +Y ∼ N
µX + µY ; q
σX2 + σY2
II. Loi mère gaussienne
Moyenne empirique
X = 1 n
n
X
i=1
Xi ∼ N
µ; σ
√n
Intervalle de fluctuation Soit X ∼ N(µ ;σ). On a
P
µ −z1−α
2σ 6 X 6 µ+ z1−α
2σ ' 1− α
L’intervalle hµ − z1−α
2σ;µ+ z1−α
2
i
est appelé intervalle de fluctuation.
II. Loi mère gaussienne
Loi mère normale et variance empirique
Loi mère
X ∼ N (µ;σ) Variance empirique
Sn2 = 1 n
n
X
i=1
Xi − X2 ∼ ?
Yi := Xi −X ∼ ?
II. Loi mère gaussienne
Loi du χ
2(Khi-deux)
• ν un entier strictement positif
• Z1,Z2, . . . ,Zν de variables aléatoires i.i.d. de loi N (0 ; 1) Alors la variable
ν
X
i=1
Zi2 suit une loi appelée loi du Khi-deux à ν degrés de liberté. On écrit
ν
X
i=1
Zi2 ∼ χ2(ν).
Densité de la loi du Khi-deux à ν degré de liberté :
fν(x) =
1
2ν2Γ ν2xν2−1e−x2 si x > 0
0 sinon
II. Loi mère gaussienne
Densités de lois du χ
20.00 0.25 0.50 0.75 1.00
0 2 4 6
lois
χ2(1) χ2(2) χ2(3) χ2(4) χ2(5)
II. Loi mère gaussienne
Densités de lois du χ
20.00 0.05 0.10 0.15
0 20 40 60
lois
χ2(05) χ2(10) χ2(20) χ2(30) χ2(50)
II. Loi mère gaussienne
Espérance et variance du loi du χ2 Soit X ∼ χ2(ν) avec ν ∈ N∗
Alors on a
E(X) = ν et V (X) = 2ν Somme de χ2
• ν1 et ν2 dans N∗
• T1 ∼ χ2(ν1) et T2 ∼ χ2(ν2)
• T1 et T2 indépendantes Alors on a
T1 +T2 ∼ χ2(ν1 + ν2)
II. Loi mère gaussienne
Loi de la variance empirique corrigée
Soit un n-échantillon X1,X2, . . . ,Xn de loi mère N (µ;σ). Alors (n − 1)Scor2
σ2 ∼ χ2(n − 1) Corollaire
E
Scor2 = σ2 et VScor2 = 2σ4 n − 1
II. Loi mère gaussienne
Lien entre moyenne empirique et variance empirique
Théorème
Si la loi mère est gaussienne, X et Scor2 sont des variables aléatoires indépendantes.
Démonstration au second semestre.
II. Loi mère gaussienne
Loi mère
X ∼ N (µ;σ) Moyenne empirique
Xn ∼ N
µ; σ
√n
donc X − µ
√σ n
∼ N (0 ; 1)
X − µ qScor2
n
∼ ?
II. Loi mère gaussienne
Loi de Student
• Z ∼ N (0 ; 1)
• Q ∼ χ2(ν) avec ν ∈ N∗
• Z et Q indépendantes entre elles Alors la variable aléatoire T définie par
T = Z qQ
ν
suit une loi de Student à ν degré de liberté, notée t(ν).
II. Loi mère gaussienne
Densités de lois de Student
0.0 0.1 0.2 0.3
-4 -2 0 2 4
lois
t(1) t(2) t(3) t(4) t(5)
II. Loi mère gaussienne
Densités de lois de Student
0.0 0.1 0.2 0.3 0.4
-4 -2 0 2 4
lois
t(01) t(02) t(05) t(10) t(20) t(30) t(50)
II. Loi mère gaussienne
II. Loi mère gaussienne
Propriétés des loi de Student
Densité d’une loi de Student
Si T ∼ t(ν), alors, ∀t ∈ R, il existe C ∈ R, tel que
fT(t) = C 1 + t2 ν
!−ν+12
Espérance d’une loi de Student
La loi de Student à 1 degré de liberté n’admet pas d’espérance.
Si ν > 2 et T ∼ t(ν), on a E(T) = 0.
Variance d’une loi de Student
Les lois de Student à 1 et 2 degré de liberté n’admettent pas de variance.
Si ν > 3 et T ∼ t(ν), on a V(T) = ν
ν − 2(> 1).
II. Loi mère gaussienne
Convergence de X pour ν = 1
0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500
−10
−5 0 5 10
−10
−5 0 5 10
II. Loi mère gaussienne
Convergence de X pour ν = 3
0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500
−3
−2
−1 0 1
−3
−2
−1 0 1
II. Loi mère gaussienne
Loi de Student
• Z ∼ N (0 ; 1), Q ∼ χ2(ν) avec ν ∈ N∗, Z et Q indépendantes entre elles ⇒ T = Z
qQ ν
∼ t(ν)
Soit un n-échantillon X1,X2, . . . ,Xn de loi mère N (µ;σ).
• X ∼ N
µ; σ
√n
et (n− 1)Scor2
σ2 ∼ χ2(n − 1) Conséquence
X −µ q
Scor2 /n
∼ t(n −1)
III. Loi mère quelconque
3. Cas d’une loi mère quelconque
Loi de X, et a fortiori de Scor2 : difficile à identifier
Cas particuliers de loi mère
• Ber(p) : nX ∼ Bin(n,p)
• P(λ) : nX ∼ P(nλ)
Loi de Scor2 ?
Et en dehors de certaines lois classiques ?
III. Loi mère quelconque
Théorème central limite
(Xn)n∈
N : variables aléatoires indépendantes de même espérance µ et de même écart type σ
n
P
i=1
Xi − nµ
√nσ
−−−−→Loi
n→+∞ N(0 ; 1)
c’est-à-dire pour tous réels a et b tels que a < b, on a :
n→+∞lim P
a 6 Pn
i=1 Xi −nµ σ√
n 6 b
= P(a 6 Z 6 b) avec Z ∼ N(0 ; 1).
En pratique
Si n est assez grand (n > 30 suffit souvent), on a
n
X
i=1
Xi ∼
approx N nµ;√ nσ
III. Loi mère quelconque
Application du TCL à la moyenne empirique
Théorème central limite (Xn)n∈
N : suite de variables aléatoires i.i.d. d’espérance µ et de variance σ2
Alors on a
Xn − µ σ/√
n
−−−−→Loi
n→+∞ N (0 ; 1)
Application
X1,X2, . . . ,Xn : n-échantillon aléatoire de loi mère quelconque, d’espérance µ et de variance σ2
Alors, quand n est assez grand, on a Xn ∼
approx N
µ; σ
√n
III. Loi mère quelconque
Application : loi mère de Bernoulli
X1,X2, . . . ,Xn : n-échantillon aléatoire de loi mère Ber(p) Si n > 30, np > 5, n(1−p) > 5, alors on a
Xn ∼
approx N
p ; s
p(1 −p) n
III. Loi mère quelconque
III. Loi mère quelconque
« [Aamjiwnaang est] une réserve de 850 âmes vivotant à l’ombre de Sarnia, dans la région des grands lacs. [...] Depuis le début des années 90, il naît dans la communauté de moins en moins de garçons... Aujourd’hui, le phénomène a pris une telle ampleur que l’on compte dans le village trois équipes de base-ball féminines pour une seule masculine !
Alertés par les habitants inquiets, les autorités canadiennes ont envoyé sur place Constanze A. Mackenzie, une scientifique de l’université d’Ottawa. Elle a épluché les registres régionaux du département des affaires indiennes où sont enregistrés les naissances et les décès des habitants de la réserve. Et il a fallu se rendre à l’évidence. Depuis 1993, la proportion d’enfants mâles d’Aamjiwnaang n’a cessé de dégringoler. »
Science et Vie junior, n◦198, mars 2006
III. Loi mère quelconque
Les données
• Poportion de garçons à la naissance au Canada : 51.2%
• entre 1989 et 1998 : 400 naissances à Aamjiwnaang dont 49.75% de garçons
• entre 1999 et 2003 : 132 naissances dont 34.84% de garçons
Environmental Health Perspectives, Declining sex ratio in a first nation community Constanze A. Mackenzie, Ada Lockridge, Margaret Keith
Octobre 2005
III. Loi mère quelconque