• Aucun résultat trouvé

CM-Thème 1

N/A
N/A
Protected

Academic year: 2022

Partager "CM-Thème 1"

Copied!
20
0
0

Texte intégral

(1)

C

HAPITRE

1 - É

CHANTILLONNAGE Julie Scholler - Bureau B246

septembre 2020

I. Échantillon et statistique

Échantillonnage

Principe

étude d’observations répétées issues d’un certain phénomène de nature aléatoire

consiste à prédire, à partir d’une population connue les caractéristiques des échantillons qui en seront prélevés Exemple de situations classiques

les sondages

(2)

I. Échantillon et statistique

Sondage

événement aléatoire : choix des individus interrogés

issue ω

Xi : valeur du caractère étudié du ie individu

xi = Xi(ω) : valeur observée sur le ie individu après choix des interrogés

(X1,X2, . . . ,Xn) : vecteur aléatoire des valeurs du caractère sur les individus interrogés

(x1, . . . ,xn) = (X1(ω), . . . ,Xn(ω)) : résultats du sondage

I. Échantillon et statistique

Échantillon aléatoire et indépendance

Échantillon aléatoire de taille n

une liste de n variables aléatoires indépendantes et de même loi (i.i.d., indépendantes et identiquement distribuées)

Indépendance de plus de 2 variables aléatoires ? On lance deux pièces (une de 1e et une de 2e).

X1 = 1 si la pièce de 1e donne face et 0 sinon

X2 = 1 si la pièce de 2e donne face et 0 sinon

Y = 1 si les deux pièces renvoient le même côté X1, X2 et Y sont-elles indépendantes ?

(3)

I. Échantillon et statistique

Rappels : Indépendance de deux variables aléatoires

Soit (X,Y) un couple de variables aléatoires.

Les variables aléatoires X et Y sont indépendantes entre elles si et seulement si

pour toute partie A de X(Ω)

et pour toute partie B de Y(Ω)

les événements [X ∈ A] et [YB] sont indépendants c’est-à-dire

∀A ⊂ X(Ω),∀B ⊂ Y(Ω),

P [X ∈ A] ∩[Y ∈ B] = P(X ∈ A) P(Y ∈ B)

I. Échantillon et statistique

Indépendance de n variables aléatoires

Soient X1, . . . ,Xn n variables aléatoires.

Indépendance deux à deux

pour tous entiers i 6= j dans J1;nK, les variables aléatoires Xi et Xj

sont indépendantes.

Indépendance mutuelle

pour tout n-uplet (A1, . . . ,An) tel que, pour tout i ∈ J1,nK, AiXi(Ω), on a

P

n

\

i=1

[XiAi]

!

=

n

Y

i=1

P(XiAi).

(4)

I. Échantillon et statistique

Échantillon et statistique d’échantillon

Échantillon aléatoire de taille n

une liste de n variables aléatoires mutuellement

indépendantes et de même loi (i.i.d., indépendantes et identiquement distribuées)

Cette loi commune est appelée loi mère de l’échantillon.

Soit un n-échantillon X1,X2, . . . ,Xn. Statistique

toute variable aléatoire Tn = h(X1,X2, . . . ,Xn), fonction de X1,X2, . . . ,Xn

I. Échantillon et statistique

Premier exemple de statistique

Soit un n-échantillon X1,X2, . . . ,Xn. Moyenne empirique

la statistique, notée Xn (ou X), définie par Xn = 1

n

n

X

i=1

Xi

On note µ et σ2 l’espérance et la variance de la loi mère.

Propriétés de la moyenne empirique

E

Xn = µ et VXn = σ2 n

(5)

I. Échantillon et statistique

Loi des grands nombres

Soit (Xn)n une suite de variables aléatoires indépendantes entre elles et de même loi. Alors on a

∀ε > 0, lim

n→+∞P

X1 + X2 +· · ·+ Xn

n − E(X) > ε

= 0

On dit que X converge presque sûrement vers E(X).

Inégalité de Bienaymé–Tchebychev

pour toute variable aléatoire Y admettant une espérance et une variance, on a :

∀ε > 0, P(|Y − E(Y)| > ε) 6 V(Y) ε2

I. Échantillon et statistique

Soit un n-échantillon X1,X2, . . . ,Xn. Variance de l’échantillon

la statistique, notée Sn2 (ou S2), définie par Sn2 = 1

n

n

X

i=1

XiX2

On note µ et σ2 l’espérance et la variance de la loi mère.

Propriété de la variance empirique

E

Sn2 = n− 1 n σ2

Variance empirique corrigée

la statistique, notée Scor2 ,n (ou Scor2 ), définie par Scor2 = 1

n− 1

n

X

i=1

XiX2

(6)

I. Échantillon et statistique

Statistiques d’ordre

Maximum empirique

la statistique, notée X(n), définie par

X(n) := max{X1,X2, . . . ,Xn}

Minimum empirique

la statistique, notée X(1), définie par

X(1) := min{X1,X2, . . . ,Xn}

On note F la fonction de répartition de la loi mère commune.

Fonctions de répartition Pour tout réel x, on a :

FX(n)(x) = (F(x))n et FX(1)(x) = 1− (1− F(x))n

I. Échantillon et statistique

Le contenu de cette page n’est pas à connaître.

Statistiques d’ordre k

la variable aléatoire, notée X(k), définie par X(k) := hk(X1, . . . ,Xn)

où, pour tout k ∈ J1;nK, hk est la fonction de Rn dans R qui à (x1, . . . ,xn) renvoie la ke valeur parmi x1, . . . ,xn quand elles sont classées par ordre croissant.

On note F la fonction de répartition de la loi mère commune.

Fonctions de répartition

Pour tout entier k ∈ J1;nK et pour tout réel x, on a : FX(k)(x) =

n

X

j=k

n k

!

(F(x))j (1− F(x))n−j

(7)

II. Loi mère gaussienne

Loi mère normale et moyenne empirique

Loi mère : X ∼ N (µ;σ) Moyenne empirique : X = 1

n

n

X

i=1

Xi ∼ ?

Le maraîcher vend ses fraises en bar- quette de 25 fraises.

On suppose que les poids des fraises d’une barquette sont indépendants entre eux.

X : variable aléatoire représentant le poids d’une fraise cueillie X ∼ N(3,0.8)

Quelle est la probabilité que la barquette fasse plus de 70g ?

Quelle est la probabilité que la fraise la plus légère de la barquette fasse au moins 2g ?

II. Loi mère gaussienne

Quelques propriétés des lois normales

Stabilité par transformation affine

Soit X ∼ N(µ;σ). Pour tous réels a et b, on a aX + b ∼ N (aµ + b;|a|σ)

Stabilité par addition indépendante

Soient X ∼ N(µX ;σX) et Y ∼ N(µY ;σY) indépendantes entre elles. On a

Z = X +Y ∼ N

µX + µY ; q

σX2 + σY2

(8)

II. Loi mère gaussienne

Moyenne empirique

X = 1 n

n

X

i=1

Xi ∼ N

µ; σ

n

Intervalle de fluctuation Soit X ∼ N(µ ;σ). On a

P

µz1−α

2σ 6 X 6 µ+ z1−α

2σ ' 1− α

L’intervalle hµz1−α

2σ;µ+ z1−α

2

i

est appelé intervalle de fluctuation.

II. Loi mère gaussienne

Loi mère normale et variance empirique

Loi mère

X ∼ N (µ;σ) Variance empirique

Sn2 = 1 n

n

X

i=1

XiX2 ∼ ?

Yi := XiX ∼ ?

(9)

II. Loi mère gaussienne

Loi du χ

2

(Khi-deux)

ν un entier strictement positif

Z1,Z2, . . . ,Zν de variables aléatoires i.i.d. de loi N (0 ; 1) Alors la variable

ν

X

i=1

Zi2 suit une loi appelée loi du Khi-deux à ν degrés de liberté. On écrit

ν

X

i=1

Zi2χ2(ν).

Densité de la loi du Khi-deux à ν degré de liberté :

fν(x) =

1

2ν2Γ ν2xν2−1ex2 si x > 0

0 sinon

II. Loi mère gaussienne

Densités de lois du χ

2

0.00 0.25 0.50 0.75 1.00

0 2 4 6

lois

χ2(1) χ2(2) χ2(3) χ2(4) χ2(5)

(10)

II. Loi mère gaussienne

Densités de lois du χ

2

0.00 0.05 0.10 0.15

0 20 40 60

lois

χ2(05) χ2(10) χ2(20) χ2(30) χ2(50)

II. Loi mère gaussienne

Espérance et variance du loi du χ2 Soit Xχ2(ν) avec ν ∈ N

Alors on a

E(X) = ν et V (X) = 2ν Somme de χ2

ν1 et ν2 dans N

T1χ21) et T2χ22)

T1 et T2 indépendantes Alors on a

T1 +T2χ21 + ν2)

(11)

II. Loi mère gaussienne

Loi de la variance empirique corrigée

Soit un n-échantillon X1,X2, . . . ,Xn de loi mère N (µ;σ). Alors (n − 1)Scor2

σ2χ2(n − 1) Corollaire

E

Scor2 = σ2 et VScor2 = 2σ4 n − 1

II. Loi mère gaussienne

Lien entre moyenne empirique et variance empirique

Théorème

Si la loi mère est gaussienne, X et Scor2 sont des variables aléatoires indépendantes.

Démonstration au second semestre.

(12)

II. Loi mère gaussienne

Loi mère

X ∼ N (µ;σ) Moyenne empirique

Xn ∼ N

µ; σ

n

donc Xµ

σ n

∼ N (0 ; 1)

Xµ qScor2

n

∼ ?

II. Loi mère gaussienne

Loi de Student

Z ∼ N (0 ; 1)

Qχ2(ν) avec ν ∈ N

Z et Q indépendantes entre elles Alors la variable aléatoire T définie par

T = Z qQ

ν

suit une loi de Student à ν degré de liberté, notée t(ν).

(13)

II. Loi mère gaussienne

Densités de lois de Student

0.0 0.1 0.2 0.3

-4 -2 0 2 4

lois

t(1) t(2) t(3) t(4) t(5)

II. Loi mère gaussienne

Densités de lois de Student

0.0 0.1 0.2 0.3 0.4

-4 -2 0 2 4

lois

t(01) t(02) t(05) t(10) t(20) t(30) t(50)

(14)

II. Loi mère gaussienne

II. Loi mère gaussienne

Propriétés des loi de Student

Densité d’une loi de Student

Si Tt(ν), alors, ∀t ∈ R, il existe C ∈ R, tel que

fT(t) = C 1 + t2 ν

!ν+12

Espérance d’une loi de Student

La loi de Student à 1 degré de liberté n’admet pas d’espérance.

Si ν > 2 et Tt(ν), on a E(T) = 0.

Variance d’une loi de Student

Les lois de Student à 1 et 2 degré de liberté n’admettent pas de variance.

Si ν > 3 et Tt(ν), on a V(T) = ν

ν − 2(> 1).

(15)

II. Loi mère gaussienne

Convergence de X pour ν = 1

0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500

−10

−5 0 5 10

−10

−5 0 5 10

II. Loi mère gaussienne

Convergence de X pour ν = 3

0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500

−3

−2

−1 0 1

−3

−2

−1 0 1

(16)

II. Loi mère gaussienne

Loi de Student

Z ∼ N (0 ; 1), Qχ2(ν) avec ν ∈ N, Z et Q indépendantes entre elles ⇒ T = Z

qQ ν

t(ν)

Soit un n-échantillon X1,X2, . . . ,Xn de loi mère N (µ;σ).

X ∼ N

µ; σ

n

et (n− 1)Scor2

σ2χ2(n − 1) Conséquence

Xµ q

Scor2 /n

t(n −1)

III. Loi mère quelconque

3. Cas d’une loi mère quelconque

Loi de X, et a fortiori de Scor2 : difficile à identifier

Cas particuliers de loi mère

Ber(p) : nX ∼ Bin(n,p)

P(λ) : nX ∼ P(nλ)

Loi de Scor2 ?

Et en dehors de certaines lois classiques ?

(17)

III. Loi mère quelconque

Théorème central limite

(Xn)n∈

N : variables aléatoires indépendantes de même espérance µ et de même écart type σ

n

P

i=1

Xi

−−−−→Loi

n→+∞ N(0 ; 1)

c’est-à-dire pour tous réels a et b tels que a < b, on a :

n→+∞lim P

a 6 Pn

i=1 Xi σ

n 6 b

= P(a 6 Z 6 b) avec Z ∼ N(0 ; 1).

En pratique

Si n est assez grand (n > 30 suffit souvent), on a

n

X

i=1

Xi

approx N nµ;

III. Loi mère quelconque

Application du TCL à la moyenne empirique

Théorème central limite (Xn)n∈

N : suite de variables aléatoires i.i.d. d’espérance µ et de variance σ2

Alors on a

Xnµ σ/

n

−−−−→Loi

n→+∞ N (0 ; 1)

Application

X1,X2, . . . ,Xn : n-échantillon aléatoire de loi mère quelconque, d’espérance µ et de variance σ2

Alors, quand n est assez grand, on a Xn

approx N

µ; σ

n

(18)

III. Loi mère quelconque

Application : loi mère de Bernoulli

X1,X2, . . . ,Xn : n-échantillon aléatoire de loi mère Ber(p) Si n > 30, np > 5, n(1p) > 5, alors on a

Xn

approx N

p ; s

p(1p) n

III. Loi mère quelconque

(19)

III. Loi mère quelconque

« [Aamjiwnaang est] une réserve de 850 âmes vivotant à l’ombre de Sarnia, dans la région des grands lacs. [...] Depuis le début des années 90, il naît dans la communauté de moins en moins de garçons... Aujourd’hui, le phénomène a pris une telle ampleur que l’on compte dans le village trois équipes de base-ball féminines pour une seule masculine !

Alertés par les habitants inquiets, les autorités canadiennes ont envoyé sur place Constanze A. Mackenzie, une scientifique de l’université d’Ottawa. Elle a épluché les registres régionaux du département des affaires indiennes où sont enregistrés les naissances et les décès des habitants de la réserve. Et il a fallu se rendre à l’évidence. Depuis 1993, la proportion d’enfants mâles d’Aamjiwnaang n’a cessé de dégringoler. »

Science et Vie junior, n198, mars 2006

III. Loi mère quelconque

Les données

Poportion de garçons à la naissance au Canada : 51.2%

entre 1989 et 1998 : 400 naissances à Aamjiwnaang dont 49.75% de garçons

entre 1999 et 2003 : 132 naissances dont 34.84% de garçons

Environmental Health Perspectives, Declining sex ratio in a first nation community Constanze A. Mackenzie, Ada Lockridge, Margaret Keith

Octobre 2005

(20)

III. Loi mère quelconque

Références

Documents relatifs

2- Sachant que la consommation journalière moyenne observée dans l’échantillon est de 12 cigarettes, donner un intervalle de con…ance bilatéral à 90% pour m:?. 3- Quelle est

Caluler la probabilité pour ette mahine de tomber en panne plus d'une fois au ours d'un mois de trente jours2. Le par est omposé de n = 200 mahines et la probabilité pour une de

Si on demande de vérifier que c’est une loi de couple de variables il faut vérifier ces deux conditions:.. Méthode pour trouver les lois marginales quand on connait la loi du

Exercice 3 Supposons que le fait qu’il pleuve ou pas aujourd’hui soit dé- terminé par le temps qu’il a fait les deux jours précédents.. Dans ce qui suit

[r]

Démontrer que la somme de n variables aléatoires indépendantes deux à deux suivant la loi de Poisson de paramètre λ est une loi de Poisson dont on précisera le

et suffisantes pour les déviations modérées par rapport aux ensembles fermés des sommes de variables aléatoires vectorielles indépendantes de..

a une valeur probable bien déterminée, qui est une intégrale de DANIELL. Il est alors seulement très probable que deux points choisis dans un même compartiment de