4.1 DISTRIBUTIONS ÉCHANTILLONALES

(1)

cours 22

4.1 DISTRIBUTIONS

ÉCHANTILLONALES

(2)

Aujourd’hui, nous allons voir

✓

Distributions échantillonnales

(3)

Les statistiques

Étant donné une population, on peut s’intéresser à toute sorte de chose la concernant.

Définition

X : P ! M

Soit P une population, une variable statistique sur P est une fonction qui attribue à chaque individu un élément d’un

ensemble .

X M

(4)

Définition

On dira d’une variable statistique qu’elle est

quantitative si l’ensemble des valeurs qu’elle peut prendre est un ensemble de nombres.

On discernera deux cas en fonction de l’ensemble d’arrivé de la fonction.

Définition

On dira d’une variable statistique qu’elle est

qualitative si l’ensemble des modalités qu’elle peut prendre n’est pas un ensemble de nombres.

Exemple

L’âge, poids, taille, etc.

Exemple

Le sexe, la couleur des cheveux, fumeur, etc.

(5)

Variables statistiques

Quantitatives Qualitatives

Discrètes Continues Nominales Ordinales

(6)

Mesures de tendance centrale

Si par exemple, on s’intéresse au poids des chevreuils du Québec, avoir disons 3 000 000 de poids est beaucoup d’informations!

On s’intéresse donc à certaines mesures plus simples pour d’écrire une variable statistique.

Moyenne: _µ ₌ ¹

n

Xn

k=1

x_i

Mode: La donnée qui apparait le plus souvent

Médiane: Si les données sont placées en ordre, c’est la donnée qui divise les données en deux.

(7)

Variance: ² ₌ ¹ n

Xn

k=1

(x_i µ)²

Écart moyen: _EM ₌ ¹

n

Xn

k=1

|x_i µ|

Étendue: ^x^max ^x^min

Mesures de dispersion

(8)

Statistique descriptive.

En statistique descriptive, on considère des variables statistiques sur des populations

0 25 50 75 100

Avril Mai Juin Juillet

0 25 50 75 100 0

25 50 75 100

Avril Mai Juin Juillet 0

50 100

Avril Mai Juin Juillet

7 % 8 % 10 % 11 %

29 %

35 %

0 15 30

0 4 8 12 16

On recueille l’information et on la présente.

(9)

Inférence statistique

Dans les faits, allez chercher l’information pour toute une population est très difficile, voire impossible.

C’est pour cette raison qu’on observe plutôt un échantillon.

Mais comment fait-on pour déterminer si notre échantillon représente bien la population?

Avec les probabilités.

(10)

Population Échantillon

Taille N n

Moyenne Variance Écart type Proportion

µ x¯

2

⇡

s s²

p

(11)

Exemple

Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.

AB DC E

12 30 4

= 2

= 1

5 (2 + 1 + 0 + 3 + 4) µ

= 1

5 ((2 2)² + (1 2)² + (0 2)² + (3 2)² + (4 2)²)

2

(12)

Exemple

AB DC E

12 30 4

= 2 = 2

Si on prend un échantillon avec remise de taille 2

µ ²

AA AB AC AD AE

BA BB BC BD BE

CA CB CC CD CE

DA DB DC DD DE

EA EB EC ED EE

¯

x x¯ x¯ x¯ x¯

2 1,5

1 2,5

3

2 1,5

1

2,5

0,5 0

0,5 1

1,5 2

2,5 2 1,5

3 3,5

3 2,5

2 3,5

4

(13)

Exemple

AB DC E

12 30 4

= 2

= 2 µ

2

Considérons l’expérience aléatoire de piger un échantillon au hasard

X¯ : moyenne de l’échantillon

AA AB AC AD AE

BA BB BC BD BE

CA CB CC CD CE

DA DB DC DD DE

EA EB EC ED EE

¯

x x¯ x¯ x¯ x¯

2 1,5

1 2,5

3

2 1,5

1

2,5

0,5 0

0,5 1

1,5 2

2,5 2 1,5

3 3,5

3 2,5

2 3,5

4

(14)

{0, 0,5, 1, 1,5, 2, 2,5, 3, 3,5, 4}

Exemple

AA AB AC AD AE

BA BB BC BD BE

CA CB CC CD CE

DA DB DC DD DE

EA EB EC ED EE

¯

x x¯ x¯ x¯ x¯

2 1,5

1 2,5

3

2 1,5

1

2,5

0,5 0

0,5 1

1,5 2

2,5 2 1,5

3 3,5

3 2,5

2 3,5

4 X¯ : moyenne de l’échantillon

L’ensemble de réalisation est

1 2 3 4 5 4 3 2 1

(15)

Exemple

{0, 0,5, 1, 1,5, 2, 2,5, 3, 3,5, 4}

1 2 3 4 5 4 3 2 1

¯

x_i f (¯x_i)

0 _1/25

0,5 _2/25

1 ^3/25

1,5 _4/25

2 _5/25

4 ^1/25

3,5 ^2/25

3 ^3/25

2,5 4/25

E( ¯X) =

X9

i=1

¯

x_if (¯x_i) = 2

Var( ¯X) =

X9

i=1

¯

x²_i f (¯x_i) µ²_X_¯ = 1

(16)

Définition

L’exemple précédant illustre les définitions suivantes

Étant donnée une variable aléatoire quantitative d’une population de taille . Considérons l’expérience aléatoire qui consiste à piger un

échantillon de taille .^N n

La variable aléatoire

X¯ : la moyenne de l’échantillon

On nomme la distribution de cette variable aléatoire, la distribution échantillonnale de la moyenne _X^¯

(17)

Échantillon avec remise

Étant donnée une population de taille ainsi qu’une variable statistique . On aimerait avoir un lien entre la moyenne et l’écart type de et l’espérance et l’écart type de la variable aléatoire .

n X

X¯

X

Soit la moyenne de et la variance de µ X ² X

X¯ = X₁ + X₂ + · · · + X_n

n

On peut voir l’expérience aléatoire de piger un échantillon de taille comme une suite d’expérience consistant à piger un individu. ⁿ

X_i : la valeur de la variable statistique.

(18)

Échantillon avec remise

X¯ = X₁ + X₂ + · · · + X_n

n

Mais _E_(X_i_{) =} _µ _Var(X_i_{) =} ²

(19)

= E

✓ X₁ + X₂ + · · · + X_n

n

◆ E( ¯X)

= 1

n E(X₁ + X₂ + · · · + X_n)

= 1

n E(X₁) + E(X₂) + · · · + E(X_n)

= 1

n µ + µ + · · · + µ

= nµ n

= µ

(20)

E( ¯X) = µ Var( ¯X) = Var

✓ X₁ + X₂ + · · · + X_n

n

◆

= 1

n² Var (X₁ + X₂ + · · · + X_n)

= 1

n² Var(X₁) + Var(X₂) + · · · + Var(X_n)

= 1 n²

2 + ² + · · · + ²

= n ²

n² =

2

n

(21)

E( ¯X) = µ Var( ¯X) =

2

n

Ici on peut remarquer que plus la taille de l’échantillon est grande plus la variance de diminue _X^¯

µ

X¯

X

(22)

Théorème

(Théorème central limite) X₁, X₂, . . . , X_n

Soit des variables aléatoires indépendantes ayant toutes la même distribution de probabilité.

S =

Xn

k=1

X_k

À priori, on ne connait pas la distribution de la variable statistique X et donc on ne connait pas non plus la distribution de la variable

aléatoire _X^¯

alors quand n ! 1

Y = S E(S)

pVar(S) ⇠ N (0, 1)

(23)

À l’aide du théorème central limite, on peut déduire que si

E( ¯X) = µ Var( ¯X) =

2

n = _X²_¯ _X^¯ =

r 2

n

X¯ µ

X¯ ⇠ N (0, 1)

et ce peut importe la distribution de _X X a comme moyenne et variance µ ²

(24)

Faites les exercices suivants

#4.1 à 4.3

(25)

Échantillon sans remise

X¯ = X₁ + X₂ + · · · + X_n

n

Ici puisque les variables aléatoires suivent des lois hypergéométriques ^Xⁱ

on aura plutôt

E( ¯X) = µ Var( ¯X) =

2

n

✓ N n N 1

◆

(26)

Échantillon sans remise

E( ¯X) = µ Var( ¯X) =

2

n

✓ N n N 1

◆

On a donc un facteur de correction pour tenir en compte le fait que l’échantillon est fait sans remise

Or, très souvent, la taille de l’échantillon est très petite en comparaison à la taille de la population.

N = 10 000 n = 100

N n

N 1 = 9 900

9 999 = 0, 9901 ⇡ 1

(27)

La distribution d’échantillonnage suit donc une loi normale X¯ µ

X¯ ⇠ N (0, 1)

Si l’échantillon est avec remise

Si l’échantillon est sans remise

<latexit sha1_base64="K9l/BbgmOET4XSTn+WgDfXYOZIM=">AAADIHicjVJLbtRAEH1x+ITwyRCWbCwiJNiM7CwAIUWKYMMySExmpDgM7Z6eoRX/0t2OZFk+A3fgDmxhyw6xJCeAHUegusZBQISgLbdfv6pXrqqutMq0dVH0ZSVYvXDx0uW1K+tXr12/sTG4ublvy9pINZJlVppJKqzKdKFGTrtMTSqjRJ5mapwePfX28YkyVpfFC9dU6jAXi0LPtRSOqOngfmL1IhfTNkmFCSfdTmKPjWuTuRGyXdpebndt0XXTwVY0jHiF50Hcg63dx6evdsbNbK8cfEeCGUpI1MihUMARziBg6TlAjAgVcYdoiTOENNsVOqyTtiYvRR6C2CPaF3Q66NmCzj6mZbWkv2T0GlKGuEuakvwMYf+3kO01R/bs32K3HNPn1tA37WPlxDq8JvZfujPP/9X5WhzmeMQ1aKqpYsZXJ/soNXfFZx7+UpWjCBVxHs/IbghLVp71OWSN5dp9bwXbv7KnZ/1Z9r41vvVZKpxw1OZn9i3foSZ7xb1sCDna+ZZoJOI/B+A82N8exg+G8XOajSdYrjXcxh3cowl4iF08wx5GlM0bvMN7fAjeBh+DT8HnpWuw0mtu4bcVnP4Ab8ewJw==</latexit>

X¯ =

r 2

n

<latexit sha1_base64="H56Q2qFpysOctZ3ORCoFFLs1CFw=">AAADPHicjVJNaxRBEK2MXzF+rfHoZTAI8eAyk4PJRYhGwZNEcJOFTFx6Or2bJvNld09gGeYX+R/yF8STqFcRRQTx4NnXtRNRg2gP0/P6Vb2aqupKq0xbF0Vv5oJTp8+cPTd/fuHCxUuXr/SuLm7ZsjZSDWSZlWaYCqsyXaiB0y5Tw8ookaeZ2k4PNrx9+1AZq8viqZtWajcXk0KPtRQO1Kj3MLF6kotRk6TChMP2bmKfG9ckYyNkM7M9W2mbok0yNXbLM/7x7aLFFreJ0ZN9d6sd9ZaifsQrPAniDiytP/jw8t63xdebZe8rJbRHJUmqKSdFBTngjARZPDsUU0QVuF1qwBkgzXZFLS1AW8NLwUOAPcA+wWmnYwucfUzLaom/ZHgNlCHdhKaEnwH2fwvZXnNkz/4tdsMxfW5TfNMuVg7W0T7Yf+mOPf9X52txNKY1rkGjpooZX53sotTcFZ95+EtVDhEqcB7vwW6AJSuP+xyyxnLtvreC7R/Z07P+LDvfmj51WSo65KjTn9k3fIca9op7OQVy2PmWMBLxnwNwEmyt9OM7/fgJZuM+zdY8XacbtIwJWKV1ekSbNEA2L+gVvaV3wVHwPvgcfJm5BnOd5hr9toLvPwBWEby+</latexit>

X¯ =

s 2

n

✓ N n N 1

◆

(28)

Faites les exercices suivants

#4.4

(29)

Aujourd’hui, nous avons vu

La distribution d’échantillonnage suit donc une loi normale X¯ µ

X¯ ⇠ N (0, 1)

Si l’échantillon est avec remise

Si l’échantillon est sans remise

<latexit sha1_base64="K9l/BbgmOET4XSTn+WgDfXYOZIM=">AAADIHicjVJLbtRAEH1x+ITwyRCWbCwiJNiM7CwAIUWKYMMySExmpDgM7Z6eoRX/0t2OZFk+A3fgDmxhyw6xJCeAHUegusZBQISgLbdfv6pXrqqutMq0dVH0ZSVYvXDx0uW1K+tXr12/sTG4ublvy9pINZJlVppJKqzKdKFGTrtMTSqjRJ5mapwePfX28YkyVpfFC9dU6jAXi0LPtRSOqOngfmL1IhfTNkmFCSfdTmKPjWuTuRGyXdpebndt0XXTwVY0jHiF50Hcg63dx6evdsbNbK8cfEeCGUpI1MihUMARziBg6TlAjAgVcYdoiTOENNsVOqyTtiYvRR6C2CPaF3Q66NmCzj6mZbWkv2T0GlKGuEuakvwMYf+3kO01R/bs32K3HNPn1tA37WPlxDq8JvZfujPP/9X5WhzmeMQ1aKqpYsZXJ/soNXfFZx7+UpWjCBVxHs/IbghLVp71OWSN5dp9bwXbv7KnZ/1Z9r41vvVZKpxw1OZn9i3foSZ7xb1sCDna+ZZoJOI/B+A82N8exg+G8XOajSdYrjXcxh3cowl4iF08wx5GlM0bvMN7fAjeBh+DT8HnpWuw0mtu4bcVnP4Ab8ewJw==</latexit>

X¯ =

r 2

n

<latexit sha1_base64="H56Q2qFpysOctZ3ORCoFFLs1CFw=">AAADPHicjVJNaxRBEK2MXzF+rfHoZTAI8eAyk4PJRYhGwZNEcJOFTFx6Or2bJvNld09gGeYX+R/yF8STqFcRRQTx4NnXtRNRg2gP0/P6Vb2aqupKq0xbF0Vv5oJTp8+cPTd/fuHCxUuXr/SuLm7ZsjZSDWSZlWaYCqsyXaiB0y5Tw8ookaeZ2k4PNrx9+1AZq8viqZtWajcXk0KPtRQO1Kj3MLF6kotRk6TChMP2bmKfG9ckYyNkM7M9W2mbok0yNXbLM/7x7aLFFreJ0ZN9d6sd9ZaifsQrPAniDiytP/jw8t63xdebZe8rJbRHJUmqKSdFBTngjARZPDsUU0QVuF1qwBkgzXZFLS1AW8NLwUOAPcA+wWmnYwucfUzLaom/ZHgNlCHdhKaEnwH2fwvZXnNkz/4tdsMxfW5TfNMuVg7W0T7Yf+mOPf9X52txNKY1rkGjpooZX53sotTcFZ95+EtVDhEqcB7vwW6AJSuP+xyyxnLtvreC7R/Z07P+LDvfmj51WSo65KjTn9k3fIca9op7OQVy2PmWMBLxnwNwEmyt9OM7/fgJZuM+zdY8XacbtIwJWKV1ekSbNEA2L+gVvaV3wVHwPvgcfJm5BnOd5hr9toLvPwBWEby+</latexit>

X¯ =

s 2

n

✓ N n N 1

◆

(30)

Devoir:

_{4.1 à 4.4}