CM-Thème 1

(1)

C

HAPITRE

1 - É

CHANTILLONNAGE Julie Scholler - Bureau B246

septembre 2020

I. Échantillon et statistique

Échantillonnage

Principe

• étude d’observations répétées issues d’un certain phénomène de nature aléatoire

• consiste à prédire, à partir d’une population connue les caractéristiques des échantillons qui en seront prélevés Exemple de situations classiques

• les sondages

(2)

Sondage

• événement aléatoire : choix des individus interrogés

• issue ω

• X_i : valeur du caractère étudié du i^e individu

• xi = Xi(ω) : valeur observée sur le i^e individu après choix des interrogés

• (X₁,X₂, . . . ,X_n) : vecteur aléatoire des valeurs du caractère sur les individus interrogés

• (x₁, . . . ,x_n) = (X₁(ω), . . . ,X_n(ω)) : résultats du sondage

Échantillon aléatoire et indépendance

Échantillon aléatoire de taille n

• une liste de n variables aléatoires indépendantes et de même loi (i.i.d., indépendantes et identiquement distribuées)

Indépendance de plus de 2 variables aléatoires ? On lance deux pièces (une de 1e et une de 2e).

• X₁ = 1 si la pièce de 1e donne face et 0 sinon

• X₂ = 1 si la pièce de 2e donne face et 0 sinon

• Y = 1 si les deux pièces renvoient le même côté X1, X2 et Y sont-elles indépendantes ?

(3)

Rappels : Indépendance de deux variables aléatoires

Soit (X,Y) un couple de variables aléatoires.

Les variables aléatoires X et Y sont indépendantes entre elles si et seulement si

• pour toute partie A de X(Ω)

• et pour toute partie B de Y(Ω)

les événements [X ∈ A] et [Y ∈ B] sont indépendants c’est-à-dire

∀A ⊂ X(Ω),∀B ⊂ Y(Ω),

P [X ∈ A] ∩[Y ∈ B] = P(X ∈ A) P(Y ∈ B)

Indépendance de n variables aléatoires

Soient X₁, . . . ,X_n n variables aléatoires.

Indépendance deux à deux

pour tous entiers i 6= j dans J1;nK, les variables aléatoires Xi et Xj

sont indépendantes.

Indépendance mutuelle

pour tout n-uplet (A₁, . . . ,A_n) tel que, pour tout i ∈ J1,nK, A_i ⊂ X_i(Ω), on a

P

n

\

i=1

[X_i ∈ A_i]

!

=

n

Y

i=1

P(X_i ∈ A_i).

(4)

Échantillon et statistique d’échantillon

Échantillon aléatoire de taille n

• une liste de n variables aléatoires mutuellement

indépendantes et de même loi (i.i.d., indépendantes et identiquement distribuées)

Cette loi commune est appelée loi mère de l’échantillon.

Soit un n-échantillon X₁,X₂, . . . ,X_n. Statistique

• toute variable aléatoire Tn = h(X1,X2, . . . ,Xn), fonction de X₁,X₂, . . . ,X_n

Premier exemple de statistique

Soit un n-échantillon X₁,X₂, . . . ,X_n. Moyenne empirique

• la statistique, notée X_n (ou X), définie par X_n = 1

n

X

i=1

X_i

On note µ et σ² l’espérance et la variance de la loi mère.

Propriétés de la moyenne empirique

E

X_n = µ et VX_n = σ² n

(5)

Loi des grands nombres

Soit (X_n)_n une suite de variables aléatoires indépendantes entre elles et de même loi. Alors on a

∀ε > 0, lim

n→+∞P

X₁ + X₂ +· · ·+ X_n

n − E(X) > ε

= 0

On dit que X converge presque sûrement vers E(X).

Inégalité de Bienaymé–Tchebychev

pour toute variable aléatoire Y admettant une espérance et une variance, on a :

∀ε > 0, P(|Y − E(Y)| > ε) 6 V(Y) ε²

Soit un n-échantillon X1,X2, . . . ,Xn. Variance de l’échantillon

• la statistique, notée S_n² (ou S²), définie par S_n² = 1

n

X

i=1

X_i − X²

On note µ et σ² l’espérance et la variance de la loi mère.

Propriété de la variance empirique

E

S_n² = n− 1 n σ²

Variance empirique corrigée

• la statistique, notée S_cor² _,n (ou S_cor² ), définie par S_cor² = 1

n− 1

n

X

i=1

X_i − X²

(6)

Statistiques d’ordre

Maximum empirique

• la statistique, notée X_(n), définie par

X_(n) := max{X₁,X₂, . . . ,X_n}

Minimum empirique

• la statistique, notée X₍₁₎, définie par

X₍₁₎ := min{X₁,X₂, . . . ,X_n}

On note F la fonction de répartition de la loi mère commune.

Fonctions de répartition Pour tout réel x, on a :

F_X_(n)(x) = (F(x))ⁿ et F_X₍₁₎(x) = 1− (1− F(x))ⁿ

Le contenu de cette page n’est pas à connaître.

Statistiques d’ordre k

• la variable aléatoire, notée X_(k), définie par X_(k) := h_k(X₁, . . . ,X_n)

où, pour tout k ∈ J1;nK, h_k est la fonction de Rⁿ dans R qui à (x₁, . . . ,x_n) renvoie la k^e valeur parmi x₁, . . . ,x_n quand elles sont classées par ordre croissant.

On note F la fonction de répartition de la loi mère commune.

Fonctions de répartition

Pour tout entier k ∈ J1;nK et pour tout réel x, on a : F_X_(k)(x) =

n

X

j=k

n k

!

(F(x))^j (1− F(x))^n−j

(7)

II. Loi mère gaussienne

Loi mère normale et moyenne empirique

Loi mère : X ∼ N (µ;σ) Moyenne empirique : X = 1

n

X

i=1

X_i ∼ ?

Le maraîcher vend ses fraises en barquette de 25 fraises.

On suppose que les poids des fraises d’une barquette sont indépendants entre eux.

X : variable aléatoire représentant le poids d’une fraise cueillie X ∼ N(3,0.8)

• Quelle est la probabilité que la barquette fasse plus de 70g ?

• Quelle est la probabilité que la fraise la plus légère de la barquette fasse au moins 2g ?

Quelques propriétés des lois normales

Stabilité par transformation affine

Soit X ∼ N(µ;σ). Pour tous réels a et b, on a aX + b ∼ N (aµ + b;|a|σ)

Stabilité par addition indépendante

Soient X ∼ N(µ_X ;σ_X) et Y ∼ N(µ_Y ;σ_Y) indépendantes entre elles. On a

Z = X +Y ∼ N

µ_X + µ_Y ; q

σ_X² + σ_Y²

(8)

Moyenne empirique

X = 1 n

n

X

i=1

X_i ∼ N

µ; σ

√n

Intervalle de fluctuation Soit X ∼ N(µ ;σ). On a

P

µ −z₁₋^α

2σ 6 X 6 µ+ z₁₋^α

2σ ' 1− α

L’intervalle ^hµ − z₁₋^α

2σ;µ+ z₁₋^α

2

i

est appelé intervalle de fluctuation.

Loi mère normale et variance empirique

Loi mère

X ∼ N (µ;σ) Variance empirique

S_n² = 1 n

n

X

i=1

X_i − X² ∼ ?

Y_i := X_i −X ∼ ?

(9)

Loi du χ

²

(Khi-deux)

• ν un entier strictement positif

• Z₁,Z₂, . . . ,Z_ν de variables aléatoires i.i.d. de loi N (0 ; 1) Alors la variable

ν

X

i=1

Z_i² suit une loi appelée loi du Khi-deux à ν degrés de liberté. On écrit

ν

X

i=1

Z_i² ∼ χ²(ν).

Densité de la loi du Khi-deux à ν degré de liberté :

f_ν(x) =







1

2^ν²Γ ^ν₂x^ν²⁻¹e⁻^x² si x > 0

0 sinon

Densités de lois du χ

²

0.00 0.25 0.50 0.75 1.00

0 2 4 6

lois

χ²(1) χ²(2) χ²(3) χ²(4) χ²(5)

(10)

Densités de lois du χ

²

0.00 0.05 0.10 0.15

0 20 40 60

lois

χ²(05) χ²(10) χ²(20) χ²(30) χ²(50)

Espérance et variance du loi du χ² Soit X ∼ χ²(ν) avec ν ∈ N^∗

Alors on a

E(X) = ν et V (X) = 2ν Somme de χ²

• ν₁ et ν₂ dans N^∗

• T₁ ∼ χ²(ν₁) et T₂ ∼ χ²(ν₂)

• T₁ et T₂ indépendantes Alors on a

T₁ +T₂ ∼ χ²(ν₁ + ν₂)

(11)

Loi de la variance empirique corrigée

Soit un n-échantillon X₁,X₂, . . . ,X_n de loi mère N (µ;σ). Alors (n − 1)S_cor²

σ² ∼ χ²(n − 1) Corollaire

E

S_cor² = σ² et VS_cor² = 2σ⁴ n − 1

Lien entre moyenne empirique et variance empirique

Théorème

Si la loi mère est gaussienne, X et S_cor² sont des variables aléatoires indépendantes.

Démonstration au second semestre.

(12)

Loi mère

X ∼ N (µ;σ) Moyenne empirique

X_n ∼ N

µ; σ

√n

donc X − µ

√σ n

∼ N (0 ; 1)

X − µ qS_cor²

n

∼ ?

Loi de Student

• Z ∼ N (0 ; 1)

• Q ∼ χ²(ν) avec ν ∈ N^∗

• Z et Q indépendantes entre elles Alors la variable aléatoire T définie par

T = Z qQ

ν

suit une loi de Student à ν degré de liberté, notée t(ν).

(13)

Densités de lois de Student

0.0 0.1 0.2 0.3

-4 -2 0 2 4

lois

t(1) t(2) t(3) t(4) t(5)

Densités de lois de Student

0.0 0.1 0.2 0.3 0.4

-4 -2 0 2 4

lois

t(01) t(02) t(05) t(10) t(20) t(30) t(50)

(14)

Propriétés des loi de Student

Densité d’une loi de Student

Si T ∼ t(ν), alors, ∀t ∈ R, il existe C ∈ R, tel que

f_T(t) = C 1 + t² ν

!−^ν+1₂

Espérance d’une loi de Student

La loi de Student à 1 degré de liberté n’admet pas d’espérance.

Si ν > 2 et T ∼ t(ν), on a E(T) = 0.

Variance d’une loi de Student

Les lois de Student à 1 et 2 degré de liberté n’admettent pas de variance.

Si ν > 3 et T ∼ t(ν), on a V(T) = ν

ν − 2(> 1).

(15)

Convergence de X pour ν = 1

0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500

−10

−5 0 5 10

−10

−5 0 5 10

Convergence de X pour ν = 3

0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500

−3

−2

−1 0 1

−3

−2

−1 0 1

(16)

Loi de Student

• Z ∼ N (0 ; 1), Q ∼ χ²(ν) avec ν ∈ N^∗, Z et Q indépendantes entre elles ⇒ T = Z

qQ ν

∼ t(ν)

Soit un n-échantillon X₁,X₂, . . . ,X_n de loi mère N (µ;σ).

• X ∼ N

µ; σ

√n

et (n− 1)S_cor²

σ² ∼ χ²(n − 1) Conséquence

X −µ q

S_cor² /n

∼ t(n −1)

III. Loi mère quelconque

3. Cas d’une loi mère quelconque

Loi de X, et a fortiori de S_cor² : difficile à identifier

Cas particuliers de loi mère

• Ber(p) : nX ∼ Bin(n,p)

• P(λ) : nX ∼ P(nλ)

Loi de S_cor² ?

Et en dehors de certaines lois classiques ?

(17)

Théorème central limite

(X_n)_n∈

N : variables aléatoires indépendantes de même espérance µ et de même écart type σ

n

P

i=1

X_i − nµ

√nσ

−−−−→Loi

n→+∞ N(0 ; 1)

c’est-à-dire pour tous réels a et b tels que a < b, on a :

n→+∞lim P

a 6 P_n

i=1 X_i −nµ σ√

n 6 b

= P(a 6 Z 6 b) avec Z ∼ N(0 ; 1).

En pratique

Si n est assez grand (n > 30 suffit souvent), on a

n

X

i=1

X_i ∼

approx N nµ;√ nσ

Application du TCL à la moyenne empirique

Théorème central limite (X_n)_n∈

N : suite de variables aléatoires i.i.d. d’espérance µ et de variance σ²

Alors on a

X_n − µ σ/√

n

−−−−→Loi

n→+∞ N (0 ; 1)

Application

X₁,X₂, . . . ,X_n : n-échantillon aléatoire de loi mère quelconque, d’espérance µ et de variance σ²

Alors, quand n est assez grand, on a X_n ∼

approx N

µ; σ

√n

(18)

Application : loi mère de Bernoulli

X₁,X₂, . . . ,X_n : n-échantillon aléatoire de loi mère Ber(p) Si n > 30, np > 5, n(1−p) > 5, alors on a

X_n ∼

approx N



p ; s

p(1 −p) n





(19)

« [Aamjiwnaang est] une réserve de 850 âmes vivotant à l’ombre de Sarnia, dans la région des grands lacs. [...] Depuis le début des années 90, il naît dans la communauté de moins en moins de garçons... Aujourd’hui, le phénomène a pris une telle ampleur que l’on compte dans le village trois équipes de base-ball féminines pour une seule masculine !

Alertés par les habitants inquiets, les autorités canadiennes ont envoyé sur place Constanze A. Mackenzie, une scientifique de l’université d’Ottawa. Elle a épluché les registres régionaux du département des affaires indiennes où sont enregistrés les naissances et les décès des habitants de la réserve. Et il a fallu se rendre à l’évidence. Depuis 1993, la proportion d’enfants mâles d’Aamjiwnaang n’a cessé de dégringoler. »

Science et Vie junior, n^◦198, mars 2006

Les données

• Poportion de garçons à la naissance au Canada : 51.2%

• entre 1989 et 1998 : 400 naissances à Aamjiwnaang dont 49.75% de garçons

• entre 1999 et 2003 : 132 naissances dont 34.84% de garçons

Environmental Health Perspectives, Declining sex ratio in a first nation community Constanze A. Mackenzie, Ada Lockridge, Margaret Keith

Octobre 2005

(20)