• Aucun résultat trouvé

CM-Thème 1

N/A
N/A
Protected

Academic year: 2022

Partager "CM-Thème 1"

Copied!
20
0
0

Texte intégral

(1)

C

HAPITRE

1 - É

CHANTILLONNAGE Julie Scholler - Bureau B246

septembre 2020

I. Échantillon et statistique

Échantillonnage

Principe

étude d’observations répétées issues d’un certain phénomène de nature aléatoire

consiste à prédire, à partir d’une population connue les caractéristiques des échantillons qui en seront prélevés Exemple de situations classiques

les sondages

(2)

I. Échantillon et statistique

Sondage

événement aléatoire : choix des individus interrogés

issue ω

Xi : valeur du caractère étudié du ie individu

xi = Xi(ω) : valeur observée sur le ie individu après choix des interrogés

(X1,X2, . . . ,Xn) : vecteur aléatoire des valeurs du caractère sur les individus interrogés

(x1, . . . ,xn) = (X1(ω), . . . ,Xn(ω)) : résultats du sondage

I. Échantillon et statistique

Échantillon aléatoire et indépendance

Échantillon aléatoire de taille n

une liste de n variables aléatoires indépendantes et de même loi (i.i.d., indépendantes et identiquement distribuées)

Indépendance de plus de 2 variables aléatoires ? On lance deux pièces (une de 1e et une de 2e).

X1 = 1 si la pièce de 1e donne face et 0 sinon

X2 = 1 si la pièce de 2e donne face et 0 sinon

Y = 1 si les deux pièces renvoient le même côté X1, X2 et Y sont-elles indépendantes ?

(3)

I. Échantillon et statistique

Rappels : Indépendance de deux variables aléatoires

Soit (X,Y) un couple de variables aléatoires.

Les variables aléatoires X et Y sont indépendantes entre elles si et seulement si

pour toute partie A de X(Ω)

et pour toute partie B de Y(Ω)

les événements [X ∈ A] et [YB] sont indépendants c’est-à-dire

∀A ⊂ X(Ω),∀B ⊂ Y(Ω),

P [X ∈ A] ∩[Y ∈ B] = P(X ∈ A) P(Y ∈ B)

I. Échantillon et statistique

Indépendance de n variables aléatoires

Soient X1, . . . ,Xn n variables aléatoires.

Indépendance deux à deux

pour tous entiers i 6= j dans J1;nK, les variables aléatoires Xi et Xj

sont indépendantes.

Indépendance mutuelle

pour tout n-uplet (A1, . . . ,An) tel que, pour tout i ∈ J1,nK, AiXi(Ω), on a

P

n

\

i=1

[XiAi]

!

=

n

Y

i=1

P(XiAi).

(4)

I. Échantillon et statistique

Échantillon et statistique d’échantillon

Échantillon aléatoire de taille n

une liste de n variables aléatoires mutuellement

indépendantes et de même loi (i.i.d., indépendantes et identiquement distribuées)

Cette loi commune est appelée loi mère de l’échantillon.

Soit un n-échantillon X1,X2, . . . ,Xn. Statistique

toute variable aléatoire Tn = h(X1,X2, . . . ,Xn), fonction de X1,X2, . . . ,Xn

I. Échantillon et statistique

Premier exemple de statistique

Soit un n-échantillon X1,X2, . . . ,Xn. Moyenne empirique

la statistique, notée Xn (ou X), définie par Xn = 1

n

n

X

i=1

Xi

On note µ et σ2 l’espérance et la variance de la loi mère.

Propriétés de la moyenne empirique

E

Xn = µ et VXn = σ2 n

(5)

I. Échantillon et statistique

Loi des grands nombres

Soit (Xn)n une suite de variables aléatoires indépendantes entre elles et de même loi. Alors on a

∀ε > 0, lim

n→+∞P

X1 + X2 +· · ·+ Xn

n − E(X) > ε

= 0

On dit que X converge presque sûrement vers E(X).

Inégalité de Bienaymé–Tchebychev

pour toute variable aléatoire Y admettant une espérance et une variance, on a :

∀ε > 0, P(|Y − E(Y)| > ε) 6 V(Y) ε2

I. Échantillon et statistique

Soit un n-échantillon X1,X2, . . . ,Xn. Variance de l’échantillon

la statistique, notée Sn2 (ou S2), définie par Sn2 = 1

n

n

X

i=1

XiX2

On note µ et σ2 l’espérance et la variance de la loi mère.

Propriété de la variance empirique

E

Sn2 = n− 1 n σ2

Variance empirique corrigée

la statistique, notée Scor2 ,n (ou Scor2 ), définie par Scor2 = 1

n− 1

n

X

i=1

XiX2

(6)

I. Échantillon et statistique

Statistiques d’ordre

Maximum empirique

la statistique, notée X(n), définie par

X(n) := max{X1,X2, . . . ,Xn}

Minimum empirique

la statistique, notée X(1), définie par

X(1) := min{X1,X2, . . . ,Xn}

On note F la fonction de répartition de la loi mère commune.

Fonctions de répartition Pour tout réel x, on a :

FX(n)(x) = (F(x))n et FX(1)(x) = 1− (1− F(x))n

I. Échantillon et statistique

Le contenu de cette page n’est pas à connaître.

Statistiques d’ordre k

la variable aléatoire, notée X(k), définie par X(k) := hk(X1, . . . ,Xn)

où, pour tout k ∈ J1;nK, hk est la fonction de Rn dans R qui à (x1, . . . ,xn) renvoie la ke valeur parmi x1, . . . ,xn quand elles sont classées par ordre croissant.

On note F la fonction de répartition de la loi mère commune.

Fonctions de répartition

Pour tout entier k ∈ J1;nK et pour tout réel x, on a : FX(k)(x) =

n

X

j=k

n k

!

(F(x))j (1− F(x))n−j

(7)

II. Loi mère gaussienne

Loi mère normale et moyenne empirique

Loi mère : X ∼ N (µ;σ) Moyenne empirique : X = 1

n

n

X

i=1

Xi ∼ ?

Le maraîcher vend ses fraises en bar- quette de 25 fraises.

On suppose que les poids des fraises d’une barquette sont indépendants entre eux.

X : variable aléatoire représentant le poids d’une fraise cueillie X ∼ N(3,0.8)

Quelle est la probabilité que la barquette fasse plus de 70g ?

Quelle est la probabilité que la fraise la plus légère de la barquette fasse au moins 2g ?

II. Loi mère gaussienne

Quelques propriétés des lois normales

Stabilité par transformation affine

Soit X ∼ N(µ;σ). Pour tous réels a et b, on a aX + b ∼ N (aµ + b;|a|σ)

Stabilité par addition indépendante

Soient X ∼ N(µX ;σX) et Y ∼ N(µY ;σY) indépendantes entre elles. On a

Z = X +Y ∼ N

µX + µY ; q

σX2 + σY2

(8)

II. Loi mère gaussienne

Moyenne empirique

X = 1 n

n

X

i=1

Xi ∼ N

µ; σ

n

Intervalle de fluctuation Soit X ∼ N(µ ;σ). On a

P

µz1−α

2σ 6 X 6 µ+ z1−α

2σ ' 1− α

L’intervalle hµz1−α

2σ;µ+ z1−α

2

i

est appelé intervalle de fluctuation.

II. Loi mère gaussienne

Loi mère normale et variance empirique

Loi mère

X ∼ N (µ;σ) Variance empirique

Sn2 = 1 n

n

X

i=1

XiX2 ∼ ?

Yi := XiX ∼ ?

(9)

II. Loi mère gaussienne

Loi du χ

2

(Khi-deux)

ν un entier strictement positif

Z1,Z2, . . . ,Zν de variables aléatoires i.i.d. de loi N (0 ; 1) Alors la variable

ν

X

i=1

Zi2 suit une loi appelée loi du Khi-deux à ν degrés de liberté. On écrit

ν

X

i=1

Zi2χ2(ν).

Densité de la loi du Khi-deux à ν degré de liberté :

fν(x) =

1

2ν2Γ ν2xν2−1ex2 si x > 0

0 sinon

II. Loi mère gaussienne

Densités de lois du χ

2

0.00 0.25 0.50 0.75 1.00

0 2 4 6

lois

χ2(1) χ2(2) χ2(3) χ2(4) χ2(5)

(10)

II. Loi mère gaussienne

Densités de lois du χ

2

0.00 0.05 0.10 0.15

0 20 40 60

lois

χ2(05) χ2(10) χ2(20) χ2(30) χ2(50)

II. Loi mère gaussienne

Espérance et variance du loi du χ2 Soit Xχ2(ν) avec ν ∈ N

Alors on a

E(X) = ν et V (X) = 2ν Somme de χ2

ν1 et ν2 dans N

T1χ21) et T2χ22)

T1 et T2 indépendantes Alors on a

T1 +T2χ21 + ν2)

(11)

II. Loi mère gaussienne

Loi de la variance empirique corrigée

Soit un n-échantillon X1,X2, . . . ,Xn de loi mère N (µ;σ). Alors (n − 1)Scor2

σ2χ2(n − 1) Corollaire

E

Scor2 = σ2 et VScor2 = 2σ4 n − 1

II. Loi mère gaussienne

Lien entre moyenne empirique et variance empirique

Théorème

Si la loi mère est gaussienne, X et Scor2 sont des variables aléatoires indépendantes.

Démonstration au second semestre.

(12)

II. Loi mère gaussienne

Loi mère

X ∼ N (µ;σ) Moyenne empirique

Xn ∼ N

µ; σ

n

donc Xµ

σ n

∼ N (0 ; 1)

Xµ qScor2

n

∼ ?

II. Loi mère gaussienne

Loi de Student

Z ∼ N (0 ; 1)

Qχ2(ν) avec ν ∈ N

Z et Q indépendantes entre elles Alors la variable aléatoire T définie par

T = Z qQ

ν

suit une loi de Student à ν degré de liberté, notée t(ν).

(13)

II. Loi mère gaussienne

Densités de lois de Student

0.0 0.1 0.2 0.3

-4 -2 0 2 4

lois

t(1) t(2) t(3) t(4) t(5)

II. Loi mère gaussienne

Densités de lois de Student

0.0 0.1 0.2 0.3 0.4

-4 -2 0 2 4

lois

t(01) t(02) t(05) t(10) t(20) t(30) t(50)

(14)

II. Loi mère gaussienne

II. Loi mère gaussienne

Propriétés des loi de Student

Densité d’une loi de Student

Si Tt(ν), alors, ∀t ∈ R, il existe C ∈ R, tel que

fT(t) = C 1 + t2 ν

!ν+12

Espérance d’une loi de Student

La loi de Student à 1 degré de liberté n’admet pas d’espérance.

Si ν > 2 et Tt(ν), on a E(T) = 0.

Variance d’une loi de Student

Les lois de Student à 1 et 2 degré de liberté n’admettent pas de variance.

Si ν > 3 et Tt(ν), on a V(T) = ν

ν − 2(> 1).

(15)

II. Loi mère gaussienne

Convergence de X pour ν = 1

0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500

−10

−5 0 5 10

−10

−5 0 5 10

II. Loi mère gaussienne

Convergence de X pour ν = 3

0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500

−3

−2

−1 0 1

−3

−2

−1 0 1

(16)

II. Loi mère gaussienne

Loi de Student

Z ∼ N (0 ; 1), Qχ2(ν) avec ν ∈ N, Z et Q indépendantes entre elles ⇒ T = Z

qQ ν

t(ν)

Soit un n-échantillon X1,X2, . . . ,Xn de loi mère N (µ;σ).

X ∼ N

µ; σ

n

et (n− 1)Scor2

σ2χ2(n − 1) Conséquence

Xµ q

Scor2 /n

t(n −1)

III. Loi mère quelconque

3. Cas d’une loi mère quelconque

Loi de X, et a fortiori de Scor2 : difficile à identifier

Cas particuliers de loi mère

Ber(p) : nX ∼ Bin(n,p)

P(λ) : nX ∼ P(nλ)

Loi de Scor2 ?

Et en dehors de certaines lois classiques ?

(17)

III. Loi mère quelconque

Théorème central limite

(Xn)n∈

N : variables aléatoires indépendantes de même espérance µ et de même écart type σ

n

P

i=1

Xi

−−−−→Loi

n→+∞ N(0 ; 1)

c’est-à-dire pour tous réels a et b tels que a < b, on a :

n→+∞lim P

a 6 Pn

i=1 Xi σ

n 6 b

= P(a 6 Z 6 b) avec Z ∼ N(0 ; 1).

En pratique

Si n est assez grand (n > 30 suffit souvent), on a

n

X

i=1

Xi

approx N nµ;

III. Loi mère quelconque

Application du TCL à la moyenne empirique

Théorème central limite (Xn)n∈

N : suite de variables aléatoires i.i.d. d’espérance µ et de variance σ2

Alors on a

Xnµ σ/

n

−−−−→Loi

n→+∞ N (0 ; 1)

Application

X1,X2, . . . ,Xn : n-échantillon aléatoire de loi mère quelconque, d’espérance µ et de variance σ2

Alors, quand n est assez grand, on a Xn

approx N

µ; σ

n

(18)

III. Loi mère quelconque

Application : loi mère de Bernoulli

X1,X2, . . . ,Xn : n-échantillon aléatoire de loi mère Ber(p) Si n > 30, np > 5, n(1p) > 5, alors on a

Xn

approx N

p ; s

p(1p) n

III. Loi mère quelconque

(19)

III. Loi mère quelconque

« [Aamjiwnaang est] une réserve de 850 âmes vivotant à l’ombre de Sarnia, dans la région des grands lacs. [...] Depuis le début des années 90, il naît dans la communauté de moins en moins de garçons... Aujourd’hui, le phénomène a pris une telle ampleur que l’on compte dans le village trois équipes de base-ball féminines pour une seule masculine !

Alertés par les habitants inquiets, les autorités canadiennes ont envoyé sur place Constanze A. Mackenzie, une scientifique de l’université d’Ottawa. Elle a épluché les registres régionaux du département des affaires indiennes où sont enregistrés les naissances et les décès des habitants de la réserve. Et il a fallu se rendre à l’évidence. Depuis 1993, la proportion d’enfants mâles d’Aamjiwnaang n’a cessé de dégringoler. »

Science et Vie junior, n198, mars 2006

III. Loi mère quelconque

Les données

Poportion de garçons à la naissance au Canada : 51.2%

entre 1989 et 1998 : 400 naissances à Aamjiwnaang dont 49.75% de garçons

entre 1999 et 2003 : 132 naissances dont 34.84% de garçons

Environmental Health Perspectives, Declining sex ratio in a first nation community Constanze A. Mackenzie, Ada Lockridge, Margaret Keith

Octobre 2005

(20)

III. Loi mère quelconque

Références

Documents relatifs

2- Sachant que la consommation journalière moyenne observée dans l’échantillon est de 12 cigarettes, donner un intervalle de con…ance bilatéral à 90% pour m:?. 3- Quelle est

Caluler la probabilité pour ette mahine de tomber en panne plus d'une fois au ours d'un mois de trente jours2. Le par est omposé de n = 200 mahines et la probabilité pour une de

Démontrer que la somme de n variables aléatoires indépendantes deux à deux suivant la loi de Poisson de paramètre λ est une loi de Poisson dont on précisera le

Exercice 3 Supposons que le fait qu’il pleuve ou pas aujourd’hui soit dé- terminé par le temps qu’il a fait les deux jours précédents.. Dans ce qui suit

[r]

Si on demande de vérifier que c’est une loi de couple de variables il faut vérifier ces deux conditions:.. Méthode pour trouver les lois marginales quand on connait la loi du

et suffisantes pour les déviations modérées par rapport aux ensembles fermés des sommes de variables aléatoires vectorielles indépendantes de..

a une valeur probable bien déterminée, qui est une intégrale de DANIELL. Il est alors seulement très probable que deux points choisis dans un même compartiment de