• Aucun résultat trouvé

4.1 DISTRIBUTIONS ÉCHANTILLONALES

N/A
N/A
Protected

Academic year: 2022

Partager "4.1 DISTRIBUTIONS ÉCHANTILLONALES"

Copied!
30
0
0

Texte intégral

(1)

cours 22

4.1 DISTRIBUTIONS

ÉCHANTILLONALES

(2)

Aujourd’hui, nous allons voir

Distributions échantillonnales

(3)

Les statistiques

Étant donné une population, on peut s’intéresser à toute sorte de chose la concernant.

Définition

X : P ! M

Soit P une population, une variable statistique sur P est une fonction qui attribue à chaque individu un élément d’un

ensemble .

X M

(4)

Définition

On dira d’une variable statistique qu’elle est

quantitative si l’ensemble des valeurs qu’elle peut prendre est un ensemble de nombres.

On discernera deux cas en fonction de l’ensemble d’arrivé de la fonction.

Définition

On dira d’une variable statistique qu’elle est

qualitative si l’ensemble des modalités qu’elle peut prendre n’est pas un ensemble de nombres.

Exemple

L’âge, poids, taille, etc.

Exemple

Le sexe, la couleur des cheveux, fumeur, etc.

(5)

Variables statistiques

Quantitatives Qualitatives

Discrètes Continues Nominales Ordinales

(6)

Mesures de tendance centrale

Si par exemple, on s’intéresse au poids des chevreuils du Québec, avoir disons 3 000 000 de poids est beaucoup d’informations!

On s’intéresse donc à certaines mesures plus simples pour d’écrire une variable statistique.

Moyenne: µ = 1

n

Xn

k=1

xi

Mode: La donnée qui apparait le plus souvent

Médiane: Si les données sont placées en ordre, c’est la donnée qui divise les données en deux.

(7)

Variance: 2 = 1 n

Xn

k=1

(xi µ)2

Écart moyen: EM = 1

n

Xn

k=1

|xi µ|

Étendue: xmax xmin

Mesures de dispersion

(8)

Statistique descriptive.

En statistique descriptive, on considère des variables statistiques sur des populations

0 25 50 75 100

Avril Mai Juin Juillet

Avril Mai Juin Juillet

0 25 50 75 100 0

25 50 75 100

Avril Mai Juin Juillet 0

50 100

Avril Mai Juin Juillet

7 % 8 % 10 % 11 %

29 %

35 %

0 15 30

0 4 8 12 16

On recueille l’information et on la présente.

(9)

Inférence statistique

Dans les faits, allez chercher l’information pour toute une population est très difficile, voire impossible.

C’est pour cette raison qu’on observe plutôt un échantillon.

Mais comment fait-on pour déterminer si notre échantillon représente bien la population?

Avec les probabilités.

(10)

Population Échantillon

Taille N n

Moyenne Variance Écart type Proportion

µ x¯

2

s s2

p

(11)

Exemple

Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.

AB DC E

12 30 4

= 2

= 2

= 1

5 (2 + 1 + 0 + 3 + 4) µ

= 1

5 ((2 2)2 + (1 2)2 + (0 2)2 + (3 2)2 + (4 2)2)

2

(12)

Exemple

AB DC E

12 30 4

= 2 = 2

Si on prend un échantillon avec remise de taille 2

µ 2

AA AB AC AD AE

BA BB BC BD BE

CA CB CC CD CE

DA DB DC DD DE

EA EB EC ED EE

¯

x x¯ x¯ x¯ x¯

2 1,5

1 2,5

3

2 1,5

1

2,5

0,5 0

0,5 1

1,5 2

2,5 2 1,5

3 3,5

3 2,5

2 3,5

4

Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.

(13)

Exemple

AB DC E

12 30 4

= 2

= 2 µ

2

Considérons l’expérience aléatoire de piger un échantillon au hasard

X¯ : moyenne de l’échantillon

AA AB AC AD AE

BA BB BC BD BE

CA CB CC CD CE

DA DB DC DD DE

EA EB EC ED EE

¯

x x¯ x¯ x¯ x¯

2 1,5

1 2,5

3

2 1,5

1

2,5

0,5 0

0,5 1

1,5 2

2,5 2 1,5

3 3,5

3 2,5

2 3,5

4

Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.

(14)

{0, 0,5, 1, 1,5, 2, 2,5, 3, 3,5, 4}

Exemple

AA AB AC AD AE

BA BB BC BD BE

CA CB CC CD CE

DA DB DC DD DE

EA EB EC ED EE

¯

x x¯ x¯ x¯ x¯

2 1,5

1 2,5

3

2 1,5

1

2,5

0,5 0

0,5 1

1,5 2

2,5 2 1,5

3 3,5

3 2,5

2 3,5

4 X¯ : moyenne de l’échantillon

L’ensemble de réalisation est

1 2 3 4 5 4 3 2 1

Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.

(15)

Exemple

{0, 0,5, 1, 1,5, 2, 2,5, 3, 3,5, 4}

1 2 3 4 5 4 3 2 1

¯

xi f (¯xi)

0 1/25

0,5 2/25

1 3/25

1,5 4/25

2 5/25

4 1/25

3,5 2/25

3 3/25

2,5 4/25

E( ¯X) =

X9

i=1

¯

xif (¯xi) = 2

Var( ¯X) =

X9

i=1

¯

x2i f (¯xi) µ2X¯ = 1

Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.

(16)

Définition

L’exemple précédant illustre les définitions suivantes

Étant donnée une variable aléatoire quantitative d’une population de taille . Considérons l’expérience aléatoire qui consiste à piger un

échantillon de taille .N n

La variable aléatoire

X¯ : la moyenne de l’échantillon

On nomme la distribution de cette variable aléatoire, la distribution échantillonnale de la moyenne X¯

(17)

Échantillon avec remise

Étant donnée une population de taille ainsi qu’une variable statistique . On aimerait avoir un lien entre la moyenne et l’écart type de et l’espérance et l’écart type de la variable aléatoire .

n X

X

Soit la moyenne de et la variance de µ X 2 X

X¯ = X1 + X2 + · · · + Xn

n

On peut voir l’expérience aléatoire de piger un échantillon de taille comme une suite d’expérience consistant à piger un individu. n

Xi : la valeur de la variable statistique.

(18)

Échantillon avec remise

Soit la moyenne de et la variance de µ X 2 X

X¯ = X1 + X2 + · · · + Xn

n

Xi : la valeur de la variable statistique.

Mais E(Xi) = µ Var(Xi) = 2

(19)

= E

✓ X1 + X2 + · · · + Xn

n

◆ E( ¯X)

= 1

n E(X1 + X2 + · · · + Xn)

= 1

n E(X1) + E(X2) + · · · + E(Xn)

= 1

n µ + µ + · · · + µ

= nµ n

= µ

(20)

E( ¯X) = µ Var( ¯X) = Var

✓ X1 + X2 + · · · + Xn

n

= 1

n2 Var (X1 + X2 + · · · + Xn)

= 1

n2 Var(X1) + Var(X2) + · · · + Var(Xn)

= 1 n2

2 + 2 + · · · + 2

= n 2

n2 =

2

n

(21)

E( ¯X) = µ Var( ¯X) =

2

n

Ici on peut remarquer que plus la taille de l’échantillon est grande plus la variance de diminue X¯

µ

X

(22)

Théorème

(Théorème central limite) X1, X2, . . . , Xn

Soit des variables aléatoires indépendantes ayant toutes la même distribution de probabilité.

S =

Xn

k=1

Xk

À priori, on ne connait pas la distribution de la variable statistique X et donc on ne connait pas non plus la distribution de la variable

aléatoire X¯

alors quand n ! 1

Y = S E(S)

pVar(S) ⇠ N (0, 1)

(23)

À l’aide du théorème central limite, on peut déduire que si

E( ¯X) = µ Var( ¯X) =

2

n = X2¯ X¯ =

r 2

n

X¯ µ

X¯ ⇠ N (0, 1)

et ce peut importe la distribution de X X a comme moyenne et variance µ 2

(24)

Faites les exercices suivants

#4.1 à 4.3

(25)

Échantillon sans remise

Soit la moyenne de et la variance de µ X 2 X

X¯ = X1 + X2 + · · · + Xn

n

Xi : la valeur de la variable statistique.

Ici puisque les variables aléatoires suivent des lois hypergéométriques Xi

on aura plutôt

E( ¯X) = µ Var( ¯X) =

2

n

✓ N n N 1

(26)

Échantillon sans remise

E( ¯X) = µ Var( ¯X) =

2

n

✓ N n N 1

On a donc un facteur de correction pour tenir en compte le fait que l’échantillon est fait sans remise

Or, très souvent, la taille de l’échantillon est très petite en comparaison à la taille de la population.

N = 10 000 n = 100

N n

N 1 = 9 900

9 999 = 0, 9901 ⇡ 1

(27)

La distribution d’échantillonnage suit donc une loi normale X¯ µ

X¯ ⇠ N (0, 1)

Si l’échantillon est avec remise

Si l’échantillon est sans remise

<latexit sha1_base64="K9l/BbgmOET4XSTn+WgDfXYOZIM=">AAADIHicjVJLbtRAEH1x+ITwyRCWbCwiJNiM7CwAIUWKYMMySExmpDgM7Z6eoRX/0t2OZFk+A3fgDmxhyw6xJCeAHUegusZBQISgLbdfv6pXrqqutMq0dVH0ZSVYvXDx0uW1K+tXr12/sTG4ublvy9pINZJlVppJKqzKdKFGTrtMTSqjRJ5mapwePfX28YkyVpfFC9dU6jAXi0LPtRSOqOngfmL1IhfTNkmFCSfdTmKPjWuTuRGyXdpebndt0XXTwVY0jHiF50Hcg63dx6evdsbNbK8cfEeCGUpI1MihUMARziBg6TlAjAgVcYdoiTOENNsVOqyTtiYvRR6C2CPaF3Q66NmCzj6mZbWkv2T0GlKGuEuakvwMYf+3kO01R/bs32K3HNPn1tA37WPlxDq8JvZfujPP/9X5WhzmeMQ1aKqpYsZXJ/soNXfFZx7+UpWjCBVxHs/IbghLVp71OWSN5dp9bwXbv7KnZ/1Z9r41vvVZKpxw1OZn9i3foSZ7xb1sCDna+ZZoJOI/B+A82N8exg+G8XOajSdYrjXcxh3cowl4iF08wx5GlM0bvMN7fAjeBh+DT8HnpWuw0mtu4bcVnP4Ab8ewJw==</latexit>

X¯ =

r 2

n

<latexit sha1_base64="H56Q2qFpysOctZ3ORCoFFLs1CFw=">AAADPHicjVJNaxRBEK2MXzF+rfHoZTAI8eAyk4PJRYhGwZNEcJOFTFx6Or2bJvNld09gGeYX+R/yF8STqFcRRQTx4NnXtRNRg2gP0/P6Vb2aqupKq0xbF0Vv5oJTp8+cPTd/fuHCxUuXr/SuLm7ZsjZSDWSZlWaYCqsyXaiB0y5Tw8ookaeZ2k4PNrx9+1AZq8viqZtWajcXk0KPtRQO1Kj3MLF6kotRk6TChMP2bmKfG9ckYyNkM7M9W2mbok0yNXbLM/7x7aLFFreJ0ZN9d6sd9ZaifsQrPAniDiytP/jw8t63xdebZe8rJbRHJUmqKSdFBTngjARZPDsUU0QVuF1qwBkgzXZFLS1AW8NLwUOAPcA+wWmnYwucfUzLaom/ZHgNlCHdhKaEnwH2fwvZXnNkz/4tdsMxfW5TfNMuVg7W0T7Yf+mOPf9X52txNKY1rkGjpooZX53sotTcFZ95+EtVDhEqcB7vwW6AJSuP+xyyxnLtvreC7R/Z07P+LDvfmj51WSo65KjTn9k3fIca9op7OQVy2PmWMBLxnwNwEmyt9OM7/fgJZuM+zdY8XacbtIwJWKV1ekSbNEA2L+gVvaV3wVHwPvgcfJm5BnOd5hr9toLvPwBWEby+</latexit>

X¯ =

s 2

n

✓ N n N 1

(28)

Faites les exercices suivants

#4.4

(29)

Aujourd’hui, nous avons vu

La distribution d’échantillonnage suit donc une loi normale X¯ µ

X¯ ⇠ N (0, 1)

Si l’échantillon est avec remise

Si l’échantillon est sans remise

<latexit sha1_base64="K9l/BbgmOET4XSTn+WgDfXYOZIM=">AAADIHicjVJLbtRAEH1x+ITwyRCWbCwiJNiM7CwAIUWKYMMySExmpDgM7Z6eoRX/0t2OZFk+A3fgDmxhyw6xJCeAHUegusZBQISgLbdfv6pXrqqutMq0dVH0ZSVYvXDx0uW1K+tXr12/sTG4ublvy9pINZJlVppJKqzKdKFGTrtMTSqjRJ5mapwePfX28YkyVpfFC9dU6jAXi0LPtRSOqOngfmL1IhfTNkmFCSfdTmKPjWuTuRGyXdpebndt0XXTwVY0jHiF50Hcg63dx6evdsbNbK8cfEeCGUpI1MihUMARziBg6TlAjAgVcYdoiTOENNsVOqyTtiYvRR6C2CPaF3Q66NmCzj6mZbWkv2T0GlKGuEuakvwMYf+3kO01R/bs32K3HNPn1tA37WPlxDq8JvZfujPP/9X5WhzmeMQ1aKqpYsZXJ/soNXfFZx7+UpWjCBVxHs/IbghLVp71OWSN5dp9bwXbv7KnZ/1Z9r41vvVZKpxw1OZn9i3foSZ7xb1sCDna+ZZoJOI/B+A82N8exg+G8XOajSdYrjXcxh3cowl4iF08wx5GlM0bvMN7fAjeBh+DT8HnpWuw0mtu4bcVnP4Ab8ewJw==</latexit>

X¯ =

r 2

n

<latexit sha1_base64="H56Q2qFpysOctZ3ORCoFFLs1CFw=">AAADPHicjVJNaxRBEK2MXzF+rfHoZTAI8eAyk4PJRYhGwZNEcJOFTFx6Or2bJvNld09gGeYX+R/yF8STqFcRRQTx4NnXtRNRg2gP0/P6Vb2aqupKq0xbF0Vv5oJTp8+cPTd/fuHCxUuXr/SuLm7ZsjZSDWSZlWaYCqsyXaiB0y5Tw8ookaeZ2k4PNrx9+1AZq8viqZtWajcXk0KPtRQO1Kj3MLF6kotRk6TChMP2bmKfG9ckYyNkM7M9W2mbok0yNXbLM/7x7aLFFreJ0ZN9d6sd9ZaifsQrPAniDiytP/jw8t63xdebZe8rJbRHJUmqKSdFBTngjARZPDsUU0QVuF1qwBkgzXZFLS1AW8NLwUOAPcA+wWmnYwucfUzLaom/ZHgNlCHdhKaEnwH2fwvZXnNkz/4tdsMxfW5TfNMuVg7W0T7Yf+mOPf9X52txNKY1rkGjpooZX53sotTcFZ95+EtVDhEqcB7vwW6AJSuP+xyyxnLtvreC7R/Z07P+LDvfmj51WSo65KjTn9k3fIca9op7OQVy2PmWMBLxnwNwEmyt9OM7/fgJZuM+zdY8XacbtIwJWKV1ekSbNEA2L+gVvaV3wVHwPvgcfJm5BnOd5hr9toLvPwBWEby+</latexit>

X¯ =

s 2

n

✓ N n N 1

(30)

Devoir:

4.1 à 4.4

Références

Documents relatifs

Notre observation initiale sur la base de l’échantillon est donc probablement vraie à l’extérieur de l’échantillon (avec cependant 1 % de risque de nous

D´emontrer la proposition.. D´

Les sommes des deux entiers contenus dans tous les dominos, horizontaux ou verticaux, constitués de deux cases adjacentes sont toutes différentes.. Déterminer en fonction de n la

[r]

Une étude statistique sur ces poissons de la zone 1 a montré que la variable aléatoire X suit une loi normale de moyenne µ et d’écart type σ = 30.. Par lecture graphique, donner

persion avec l’augmentation de la teneur moyenne le nombre des points dé- comptés dans une bande horizontale de 1 cm de largeur par exemple est. dans la partie

Pour étudier les phénomènes de l’indépendance des statistiques polynomiales (qui peut être réduit au phénomène plus général des statistiques équidistribuées),

ABCD est un tétraèdre tel que ABC, ABD, ACD sont des triangles rectangles en A avec AB= AC = AD = 4.. Calculer le volume