cours 22
4.1 DISTRIBUTIONS
ÉCHANTILLONALES
Aujourd’hui, nous allons voir
✓
Distributions échantillonnalesLes statistiques
Étant donné une population, on peut s’intéresser à toute sorte de chose la concernant.
Définition
X : P ! M
Soit P une population, une variable statistique sur P est une fonction qui attribue à chaque individu un élément d’un
ensemble .
X M
Définition
On dira d’une variable statistique qu’elle estquantitative si l’ensemble des valeurs qu’elle peut prendre est un ensemble de nombres.
On discernera deux cas en fonction de l’ensemble d’arrivé de la fonction.
Définition
On dira d’une variable statistique qu’elle estqualitative si l’ensemble des modalités qu’elle peut prendre n’est pas un ensemble de nombres.
Exemple
L’âge, poids, taille, etc.Exemple
Le sexe, la couleur des cheveux, fumeur, etc.Variables statistiques
Quantitatives Qualitatives
Discrètes Continues Nominales Ordinales
Mesures de tendance centrale
Si par exemple, on s’intéresse au poids des chevreuils du Québec, avoir disons 3 000 000 de poids est beaucoup d’informations!
On s’intéresse donc à certaines mesures plus simples pour d’écrire une variable statistique.
Moyenne: µ = 1
n
Xn
k=1
xi
Mode: La donnée qui apparait le plus souvent
Médiane: Si les données sont placées en ordre, c’est la donnée qui divise les données en deux.
Variance: 2 = 1 n
Xn
k=1
(xi µ)2
Écart moyen: EM = 1
n
Xn
k=1
|xi µ|
Étendue: xmax xmin
Mesures de dispersion
Statistique descriptive.
En statistique descriptive, on considère des variables statistiques sur des populations
0 25 50 75 100
Avril Mai Juin Juillet
Avril Mai Juin Juillet
0 25 50 75 100 0
25 50 75 100
Avril Mai Juin Juillet 0
50 100
Avril Mai Juin Juillet
7 % 8 % 10 % 11 %
29 %
35 %
0 15 30
0 4 8 12 16
On recueille l’information et on la présente.
Inférence statistique
Dans les faits, allez chercher l’information pour toute une population est très difficile, voire impossible.
C’est pour cette raison qu’on observe plutôt un échantillon.
Mais comment fait-on pour déterminer si notre échantillon représente bien la population?
Avec les probabilités.
Population Échantillon
Taille N n
Moyenne Variance Écart type Proportion
µ x¯
2
⇡
s s2
p
Exemple
Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.AB DC E
12 30 4
= 2
= 2
= 1
5 (2 + 1 + 0 + 3 + 4) µ
= 1
5 ((2 2)2 + (1 2)2 + (0 2)2 + (3 2)2 + (4 2)2)
2
Exemple
AB DC E
12 30 4
= 2 = 2
Si on prend un échantillon avec remise de taille 2
µ 2
AA AB AC AD AE
BA BB BC BD BE
CA CB CC CD CE
DA DB DC DD DE
EA EB EC ED EE
¯
x x¯ x¯ x¯ x¯
2 1,5
1 2,5
3
2 1,5
1
2,5
0,5 0
0,5 1
1,5 2
2,5 2 1,5
3 3,5
3 2,5
2 3,5
4
Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.
Exemple
AB DC E
12 30 4
= 2
= 2 µ
2
Considérons l’expérience aléatoire de piger un échantillon au hasard
X¯ : moyenne de l’échantillon
AA AB AC AD AE
BA BB BC BD BE
CA CB CC CD CE
DA DB DC DD DE
EA EB EC ED EE
¯
x x¯ x¯ x¯ x¯
2 1,5
1 2,5
3
2 1,5
1
2,5
0,5 0
0,5 1
1,5 2
2,5 2 1,5
3 3,5
3 2,5
2 3,5
4
Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.
{0, 0,5, 1, 1,5, 2, 2,5, 3, 3,5, 4}
Exemple
AA AB AC AD AE
BA BB BC BD BE
CA CB CC CD CE
DA DB DC DD DE
EA EB EC ED EE
¯
x x¯ x¯ x¯ x¯
2 1,5
1 2,5
3
2 1,5
1
2,5
0,5 0
0,5 1
1,5 2
2,5 2 1,5
3 3,5
3 2,5
2 3,5
4 X¯ : moyenne de l’échantillon
L’ensemble de réalisation est
1 2 3 4 5 4 3 2 1
Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.
Exemple
{0, 0,5, 1, 1,5, 2, 2,5, 3, 3,5, 4}
1 2 3 4 5 4 3 2 1
¯
xi f (¯xi)
0 1/25
0,5 2/25
1 3/25
1,5 4/25
2 5/25
4 1/25
3,5 2/25
3 3/25
2,5 4/25
E( ¯X) =
X9
i=1
¯
xif (¯xi) = 2
Var( ¯X) =
X9
i=1
¯
x2i f (¯xi) µ2X¯ = 1
Regardons une population de 5 personnes et considérons la variable statistique: le nombre de cellulaires dans les 5 dernières années.
Définition
L’exemple précédant illustre les définitions suivantes
Étant donnée une variable aléatoire quantitative d’une population de taille . Considérons l’expérience aléatoire qui consiste à piger un
échantillon de taille .N n
La variable aléatoire
X¯ : la moyenne de l’échantillon
On nomme la distribution de cette variable aléatoire, la distribution échantillonnale de la moyenne X¯
Échantillon avec remise
Étant donnée une population de taille ainsi qu’une variable statistique . On aimerait avoir un lien entre la moyenne et l’écart type de et l’espérance et l’écart type de la variable aléatoire .
n X
X¯
X
Soit la moyenne de et la variance de µ X 2 X
X¯ = X1 + X2 + · · · + Xn
n
On peut voir l’expérience aléatoire de piger un échantillon de taille comme une suite d’expérience consistant à piger un individu. n
Xi : la valeur de la variable statistique.
Échantillon avec remise
Soit la moyenne de et la variance de µ X 2 X
X¯ = X1 + X2 + · · · + Xn
n
Xi : la valeur de la variable statistique.
Mais E(Xi) = µ Var(Xi) = 2
= E
✓ X1 + X2 + · · · + Xn
n
◆ E( ¯X)
= 1
n E(X1 + X2 + · · · + Xn)
= 1
n E(X1) + E(X2) + · · · + E(Xn)
= 1
n µ + µ + · · · + µ
= nµ n
= µ
E( ¯X) = µ Var( ¯X) = Var
✓ X1 + X2 + · · · + Xn
n
◆
= 1
n2 Var (X1 + X2 + · · · + Xn)
= 1
n2 Var(X1) + Var(X2) + · · · + Var(Xn)
= 1 n2
2 + 2 + · · · + 2
= n 2
n2 =
2
n
E( ¯X) = µ Var( ¯X) =
2
n
Ici on peut remarquer que plus la taille de l’échantillon est grande plus la variance de diminue X¯
µ
X¯
X
Théorème
(Théorème central limite) X1, X2, . . . , XnSoit des variables aléatoires indépendantes ayant toutes la même distribution de probabilité.
S =
Xn
k=1
Xk
À priori, on ne connait pas la distribution de la variable statistique X et donc on ne connait pas non plus la distribution de la variable
aléatoire X¯
alors quand n ! 1
Y = S E(S)
pVar(S) ⇠ N (0, 1)
À l’aide du théorème central limite, on peut déduire que si
E( ¯X) = µ Var( ¯X) =
2
n = X2¯ X¯ =
r 2
n
X¯ µ
X¯ ⇠ N (0, 1)
et ce peut importe la distribution de X X a comme moyenne et variance µ 2
Faites les exercices suivants
#4.1 à 4.3
Échantillon sans remise
Soit la moyenne de et la variance de µ X 2 X
X¯ = X1 + X2 + · · · + Xn
n
Xi : la valeur de la variable statistique.
Ici puisque les variables aléatoires suivent des lois hypergéométriques Xi
on aura plutôt
E( ¯X) = µ Var( ¯X) =
2
n
✓ N n N 1
◆
Échantillon sans remise
E( ¯X) = µ Var( ¯X) =
2
n
✓ N n N 1
◆
On a donc un facteur de correction pour tenir en compte le fait que l’échantillon est fait sans remise
Or, très souvent, la taille de l’échantillon est très petite en comparaison à la taille de la population.
N = 10 000 n = 100
N n
N 1 = 9 900
9 999 = 0, 9901 ⇡ 1
La distribution d’échantillonnage suit donc une loi normale X¯ µ
X¯ ⇠ N (0, 1)
Si l’échantillon est avec remise
Si l’échantillon est sans remise
<latexit sha1_base64="K9l/BbgmOET4XSTn+WgDfXYOZIM=">AAADIHicjVJLbtRAEH1x+ITwyRCWbCwiJNiM7CwAIUWKYMMySExmpDgM7Z6eoRX/0t2OZFk+A3fgDmxhyw6xJCeAHUegusZBQISgLbdfv6pXrqqutMq0dVH0ZSVYvXDx0uW1K+tXr12/sTG4ublvy9pINZJlVppJKqzKdKFGTrtMTSqjRJ5mapwePfX28YkyVpfFC9dU6jAXi0LPtRSOqOngfmL1IhfTNkmFCSfdTmKPjWuTuRGyXdpebndt0XXTwVY0jHiF50Hcg63dx6evdsbNbK8cfEeCGUpI1MihUMARziBg6TlAjAgVcYdoiTOENNsVOqyTtiYvRR6C2CPaF3Q66NmCzj6mZbWkv2T0GlKGuEuakvwMYf+3kO01R/bs32K3HNPn1tA37WPlxDq8JvZfujPP/9X5WhzmeMQ1aKqpYsZXJ/soNXfFZx7+UpWjCBVxHs/IbghLVp71OWSN5dp9bwXbv7KnZ/1Z9r41vvVZKpxw1OZn9i3foSZ7xb1sCDna+ZZoJOI/B+A82N8exg+G8XOajSdYrjXcxh3cowl4iF08wx5GlM0bvMN7fAjeBh+DT8HnpWuw0mtu4bcVnP4Ab8ewJw==</latexit>
X¯ =
r 2
n
<latexit sha1_base64="H56Q2qFpysOctZ3ORCoFFLs1CFw=">AAADPHicjVJNaxRBEK2MXzF+rfHoZTAI8eAyk4PJRYhGwZNEcJOFTFx6Or2bJvNld09gGeYX+R/yF8STqFcRRQTx4NnXtRNRg2gP0/P6Vb2aqupKq0xbF0Vv5oJTp8+cPTd/fuHCxUuXr/SuLm7ZsjZSDWSZlWaYCqsyXaiB0y5Tw8ookaeZ2k4PNrx9+1AZq8viqZtWajcXk0KPtRQO1Kj3MLF6kotRk6TChMP2bmKfG9ckYyNkM7M9W2mbok0yNXbLM/7x7aLFFreJ0ZN9d6sd9ZaifsQrPAniDiytP/jw8t63xdebZe8rJbRHJUmqKSdFBTngjARZPDsUU0QVuF1qwBkgzXZFLS1AW8NLwUOAPcA+wWmnYwucfUzLaom/ZHgNlCHdhKaEnwH2fwvZXnNkz/4tdsMxfW5TfNMuVg7W0T7Yf+mOPf9X52txNKY1rkGjpooZX53sotTcFZ95+EtVDhEqcB7vwW6AJSuP+xyyxnLtvreC7R/Z07P+LDvfmj51WSo65KjTn9k3fIca9op7OQVy2PmWMBLxnwNwEmyt9OM7/fgJZuM+zdY8XacbtIwJWKV1ekSbNEA2L+gVvaV3wVHwPvgcfJm5BnOd5hr9toLvPwBWEby+</latexit>
X¯ =
s 2
n
✓ N n N 1
◆
Faites les exercices suivants
#4.4
Aujourd’hui, nous avons vu
La distribution d’échantillonnage suit donc une loi normale X¯ µ
X¯ ⇠ N (0, 1)
Si l’échantillon est avec remise
Si l’échantillon est sans remise
<latexit sha1_base64="K9l/BbgmOET4XSTn+WgDfXYOZIM=">AAADIHicjVJLbtRAEH1x+ITwyRCWbCwiJNiM7CwAIUWKYMMySExmpDgM7Z6eoRX/0t2OZFk+A3fgDmxhyw6xJCeAHUegusZBQISgLbdfv6pXrqqutMq0dVH0ZSVYvXDx0uW1K+tXr12/sTG4ublvy9pINZJlVppJKqzKdKFGTrtMTSqjRJ5mapwePfX28YkyVpfFC9dU6jAXi0LPtRSOqOngfmL1IhfTNkmFCSfdTmKPjWuTuRGyXdpebndt0XXTwVY0jHiF50Hcg63dx6evdsbNbK8cfEeCGUpI1MihUMARziBg6TlAjAgVcYdoiTOENNsVOqyTtiYvRR6C2CPaF3Q66NmCzj6mZbWkv2T0GlKGuEuakvwMYf+3kO01R/bs32K3HNPn1tA37WPlxDq8JvZfujPP/9X5WhzmeMQ1aKqpYsZXJ/soNXfFZx7+UpWjCBVxHs/IbghLVp71OWSN5dp9bwXbv7KnZ/1Z9r41vvVZKpxw1OZn9i3foSZ7xb1sCDna+ZZoJOI/B+A82N8exg+G8XOajSdYrjXcxh3cowl4iF08wx5GlM0bvMN7fAjeBh+DT8HnpWuw0mtu4bcVnP4Ab8ewJw==</latexit>
X¯ =
r 2
n
<latexit sha1_base64="H56Q2qFpysOctZ3ORCoFFLs1CFw=">AAADPHicjVJNaxRBEK2MXzF+rfHoZTAI8eAyk4PJRYhGwZNEcJOFTFx6Or2bJvNld09gGeYX+R/yF8STqFcRRQTx4NnXtRNRg2gP0/P6Vb2aqupKq0xbF0Vv5oJTp8+cPTd/fuHCxUuXr/SuLm7ZsjZSDWSZlWaYCqsyXaiB0y5Tw8ookaeZ2k4PNrx9+1AZq8viqZtWajcXk0KPtRQO1Kj3MLF6kotRk6TChMP2bmKfG9ckYyNkM7M9W2mbok0yNXbLM/7x7aLFFreJ0ZN9d6sd9ZaifsQrPAniDiytP/jw8t63xdebZe8rJbRHJUmqKSdFBTngjARZPDsUU0QVuF1qwBkgzXZFLS1AW8NLwUOAPcA+wWmnYwucfUzLaom/ZHgNlCHdhKaEnwH2fwvZXnNkz/4tdsMxfW5TfNMuVg7W0T7Yf+mOPf9X52txNKY1rkGjpooZX53sotTcFZ95+EtVDhEqcB7vwW6AJSuP+xyyxnLtvreC7R/Z07P+LDvfmj51WSo65KjTn9k3fIca9op7OQVy2PmWMBLxnwNwEmyt9OM7/fgJZuM+zdY8XacbtIwJWKV1ekSbNEA2L+gVvaV3wVHwPvgcfJm5BnOd5hr9toLvPwBWEby+</latexit>
X¯ =
s 2
n
✓ N n N 1
◆