4.2 ESTIMATION D’UNE MOYENNE

(1)

cours 23

4.2 ESTIMATION D’UNE

MOYENNE

(2)

Au dernier cours, nous avons vu

La distribution d’échantillonnage suit donc une loi normale X¯ µ

X¯ ⇠ N (0, 1)

Si l’échantillon est avec remise

Si l’échantillon est sans remise

<latexit sha1_base64="K9l/BbgmOET4XSTn+WgDfXYOZIM=">AAADIHicjVJLbtRAEH1x+ITwyRCWbCwiJNiM7CwAIUWKYMMySExmpDgM7Z6eoRX/0t2OZFk+A3fgDmxhyw6xJCeAHUegusZBQISgLbdfv6pXrqqutMq0dVH0ZSVYvXDx0uW1K+tXr12/sTG4ublvy9pINZJlVppJKqzKdKFGTrtMTSqjRJ5mapwePfX28YkyVpfFC9dU6jAXi0LPtRSOqOngfmL1IhfTNkmFCSfdTmKPjWuTuRGyXdpebndt0XXTwVY0jHiF50Hcg63dx6evdsbNbK8cfEeCGUpI1MihUMARziBg6TlAjAgVcYdoiTOENNsVOqyTtiYvRR6C2CPaF3Q66NmCzj6mZbWkv2T0GlKGuEuakvwMYf+3kO01R/bs32K3HNPn1tA37WPlxDq8JvZfujPP/9X5WhzmeMQ1aKqpYsZXJ/soNXfFZx7+UpWjCBVxHs/IbghLVp71OWSN5dp9bwXbv7KnZ/1Z9r41vvVZKpxw1OZn9i3foSZ7xb1sCDna+ZZoJOI/B+A82N8exg+G8XOajSdYrjXcxh3cowl4iF08wx5GlM0bvMN7fAjeBh+DT8HnpWuw0mtu4bcVnP4Ab8ewJw==</latexit>

X¯ =

r 2

n

<latexit sha1_base64="H56Q2qFpysOctZ3ORCoFFLs1CFw=">AAADPHicjVJNaxRBEK2MXzF+rfHoZTAI8eAyk4PJRYhGwZNEcJOFTFx6Or2bJvNld09gGeYX+R/yF8STqFcRRQTx4NnXtRNRg2gP0/P6Vb2aqupKq0xbF0Vv5oJTp8+cPTd/fuHCxUuXr/SuLm7ZsjZSDWSZlWaYCqsyXaiB0y5Tw8ookaeZ2k4PNrx9+1AZq8viqZtWajcXk0KPtRQO1Kj3MLF6kotRk6TChMP2bmKfG9ckYyNkM7M9W2mbok0yNXbLM/7x7aLFFreJ0ZN9d6sd9ZaifsQrPAniDiytP/jw8t63xdebZe8rJbRHJUmqKSdFBTngjARZPDsUU0QVuF1qwBkgzXZFLS1AW8NLwUOAPcA+wWmnYwucfUzLaom/ZHgNlCHdhKaEnwH2fwvZXnNkz/4tdsMxfW5TfNMuVg7W0T7Yf+mOPf9X52txNKY1rkGjpooZX53sotTcFZ95+EtVDhEqcB7vwW6AJSuP+xyyxnLtvreC7R/Z07P+LDvfmj51WSo65KjTn9k3fIca9op7OQVy2PmWMBLxnwNwEmyt9OM7/fgJZuM+zdY8XacbtIwJWKV1ekSbNEA2L+gVvaV3wVHwPvgcfJm5BnOd5hr9toLvPwBWEby+</latexit>

X¯ =

s 2

n

✓ N n N 1

◆

(3)

Pour connaître la distribution d’une variable statistique X on doit faire un recensement.

Or les recensements sont souvent très couteux en temps et en argent.

On se retrouve alors dans la situation ou l’on ne connaît

ni la variance ² ni la moyenne µ

On va donc devoir trouver une façon de les estimer.

(4)

Estimateur

Pour estimer les paramètres d’une variable statistique, on prend un échantillon.

On nomme un estimé une valeur qui estime un paramètre

Exemple

Si on prend un échantillon et qu’on calcul sa moyenne

¯

x est un estimé de µ

On nomme estimateur la variable aléatoire associée à l’estimé

Exemple

L’estimateur de l’exemple précédant est _X^¯

(5)

Définition

Y

Étant donné un paramètre dont on cherche une estimation. Si est un estimé d’estimateur , alors on dira que l’estimateur est sans biais si

↵ y

E(Y ) = ↵

↵ Y

Sans biais

Y₁

Avec biais

(6)

Au dernier cours on a vu que est un estimateur sans biais de la moyenne

X¯

E( ¯X) = µ

Mais on aimerait aussi avoir un estimateur de la variance.

Lorsqu’on a un échantillon et qu’on calcule sa variance comme on le ferait avec la population on fait

1 n

Xn

k=1

(x_i x)¯ ²

Regardons si l’estimateur associé est sans biais Y ² = 1

n

Xn

k=1

(X_i X¯ )²

(7)

= E

✓ P(X_i X¯ )² n

◆ E(Y ²)

= 1 n E

Xn

i=1

(X_i X¯ )²

!

= 1 n E

Xn

i=1

(X_i² 2X_iX¯ + ¯X²)

!

= 1 n E

Xn

i=1

X_i² 2 ¯X

Xn

i=1

X_i + ¯X²

Xn

i=1

1

!

= 1 n E

Xn

i=1

X_i² 2 ¯X(nX¯ ) + ¯X²n

!

X¯ = 1 n

Xn

i=1

X_i

nX¯ =

Xn

i=1

X_i

(8)

E(X_i) = µ

Var(X_i) = ² Var(X_i) = E(X_i²) E(X_i)²

2 = E(X_i²) µ² E(Y ²)

= 1 n E

Xn

i=1

X_i² nX¯ ²

!

= 1

n E

Xn

i=1

X_i²

!

E(nX¯ ²)

!

= 1 n

Xn

i=1

E(X_i²) nE( ¯X²)

!

= 1 n E

Xn

i=1

X_i² 2 ¯X(nX¯ ) + ¯X²n

!

E(X_i²) = ² + µ²

= 1 n

Xn

i=1

( ² + µ²) nE( ¯X²)

!

(9)

E( ¯X) = µ Var( ¯X) =

2

n

Var( ¯X) = E( ¯X²) E( ¯X)²

2

n = E( ¯X²) µ² E(Y ²) = 1

n

Xn

i=1

( ² + µ²) nE( ¯X²)

!

E( ¯X²) =

2

n + µ²

= 1 n

Xn

i=1

( ² + µ²) n

✓ ₂

n + µ²

◆!

(10)

= ²

2

n

= n ² ²

n = n 1

n

2

E(Y ²) = 1 n

Xn

i=1

( ² + µ²) n

✓ ₂

n + µ²

◆!

= 1 n

✓

n( ² + µ²) n

✓ ₂

n + µ²

◆◆

= ( ² + µ²)

✓ ₂

n + µ²

◆

(11)

= n 1 n

E(Y ²) 2 6= ²

Donc l’estimateur n’est pas sans biais!

Par contre, tout ce travail n’a pas été futile!

Il nous montre comment avoir un estimateur sans biais.

S² =

✓ n n 1

◆

Y ²

E(S²) = E

✓✓ n n 1

◆

Y ²

◆

=

✓ n n 1

◆

E Y ²

=

✓ n n 1

◆ ✓ n 1 n

◆

2 = ²

(12)

Tout ça pour ça S² =

✓ n n 1

◆

Y ² =

✓ n n 1

◆ 1 n

Xn

i=1

(X_i X¯ )²

= 1

n 1

Xn

i=1

(X_i X¯ )²

et donc l’estimé de la variance est

s² = 1 n 1

Xn

i=1

(x_i x)¯ ²

(13)

s² X

µ

2 S²

¯

x X¯

estimé

Paramètre de estimateur

Est-ce que ces estimé sont bons?

En fait on pourrait être très malchanceux et avoir sélectionné un échantillon très peu représentatif de la population.

(14)

X¯

¯ x µ

µ 2 [¯x a, x¯ + a]

Lorsqu’on obtient un échantillon

Mais la probabilité que est nulle!_x_¯ ₌ _µ

On va donc prendre un intervalle autour de qui va englober ^x^¯ µ Si l’intervalle est trop grand, ce n’est pas précis.

S’il est trop petit, on peut manquer .µ

(15)

Pour trouver le bon intervalle, on va fonctionner à l’envers.

On commence par choisir un niveau de confiance.

Habituellement, on prend 90%, 95% ou 99%.

X¯

µ 1 ↵

a b

P (a  X¯  b) = 1 ↵

= 0, 95

(16)

P (a  X¯  b) = 1 ↵

On est donc certain avec un niveau de confiance 1 ↵ que notre échantillon est situé entre et a b

µ

¯ x

¯

x 2



µ b a

2 , µ + b a 2



¯

x b a

2 , x¯ + b a 2 donc si on prend comme intervalle de confiance

(17)

1 ↵

↵

↵ 2

0 Z

Z ⇠ N (0, 1)

z ^↵₂ z ^↵₂

1 ↵ = P ( z ^↵₂  Z  z ^↵₂ )

(18)

Dans ce qui suit, nous allons trouver l’intervalle de confiance selon les différentes informations que nous avons.

Nous regarderons les cas suivants

Taille de l’échantillon

Distribution de X suit une loi normal ou pas

n < 30 n 30

La variance de X ² est connue ou pas

(19)

Si la taille de l’échantillon est plus grande ou égale à 30

le théorème central limite nous assure que la variable aléatoire

avec

X¯ ⇠ N (µ, _X²_¯ )

2¯

X =

2

n

si l’échantillon est avec remise

2¯

X =

✓ N n N 1

◆ ₂ n

si l’échantillon est sans remise

Et ce, peu importe la distribution de la population X

(20)

Si la taille de l’échantillon est plus grande ou égale à 30 X¯ ⇠ N (µ, _X²_¯ ) ²_¯

X =

2

n

2¯

X =

✓ N n N 1

◆ ₂ n si on est dans cette situation et qu’on connaît la variance de la

population ² Z = X¯ µ

q 2

n

⇠ N (0, 1)

= P

0

@ z ^↵₂  X¯ µ q 2

n

 z ^↵₂

1 A

= P z ^↵₂

r 2

n  X¯ µ  z ^↵₂

r 2

n

! 1 ↵

(21)

= P z ^↵₂

r 2

n  X¯ µ  z ^↵₂

r 2

n

! 1 ↵

= P z ^↵₂

r 2

n + µ  X¯  z ^↵₂

r 2

n + µ

!

On peut donc prendre comme intervalle de confiance µ 2

"

¯

x z ^↵₂

r 2

n , x¯ + z ^↵₂

r 2

n

#

µ 2

"

¯

x z ^↵₂

s 2

n

✓ N n N 1

◆

, x¯ + z ^↵₂

s 2

n

✓ N n N 1

◆#

et si l’échantillon est sans remise.

(22)

et si l’échantillon est sans remise.

mais qu’on ne connait pas la variance de la population.

µ 2

"

¯

x z ^↵₂

s s² n

✓ N n N 1

◆

, x¯ + z ^↵₂

s s² n

✓ N n N 1

◆#

µ 2

"

¯

x z ^↵₂

r s²

n , x¯ + z ^↵₂

r s² n

#

il suffit de remplacer par dans ce qu’on vient de faire_s

(23)

Il arrive souvent pour des raisons spécifiques d’une population qu’il soit très difficile d’avoir un échantillon très grand.

Que faire dans le cas ou n < 30

Si en plus on n’a aucune idée de la distribution de la population X on ne peut pas faire grand-chose.

De plus, dans ce cas on connait rarement ²

Par contre si on a de bonnes raisons de croire que la distribution de la population suit une loi normale alors

X¯ µ q S²

n

⇠ T_n ₁ une loi de Student

(24)

Loi de Student de degré de liberté

(x) =

Z ₁

0

t^x ¹e ^t dt ou

X ⇠ T_n ₁

f_n ₁(x) = 1 p2⇡

n 2 n 1

2

✓

1 + x² n 1

◆ ⁿ₂ a comme fonction de densité

on ne rentrera pas dans les détails avec cette loi mais on utilisera sa table

n 1

(25)

Donc si n < 30 et X ⇠ N (µ, ²)

on utilisera comme intervalle de confiance

µ 2

"

¯

x t ^↵₂

r s²

n , x¯ + t ^↵₂

r s² n

#

ou la valeur de sera prise dans la loi de Student. ^t ^↵₂

(26)

α 25 % 20 % 15 % 10 % 5 % 2,5 % 1 % 0,5 % 0,25 % 0,1 % 0,05 %

1-α 75 % 80 % 85 % 90 % 95 % 97,5 % 99 % 99,5 % 99,75 % 99,9 % 99,95 %

k

1 1,000 1,376 1,963 3,078 6,314 12,71 31,82 63,66 127,3 318,3 636,6 2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60 3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92 4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610 5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869 6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959 7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408 8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041 9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781 10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587 11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437 12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318 13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221 14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140 15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073 16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015 17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965 18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922 19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883 20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850 21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819 22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792 23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,767 24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745 25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725 26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707 27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690 28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674 29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,659 30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646 40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551 50 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496 60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,460 80 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,416 100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,390 120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 2,860 3,160 3,373

∞ ∞ 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291

Si on a un échantillon de taille 20

X ⇠ T₁₉

P ( t ^↵₂  X  t ^↵₂ ) = 95%

1 ↵ = 0, 95

↵ = 0, 05

↵

2 = 0, 025 ici _t ^↵

2 = 2, 093

(27)

µ 2

"

¯

x t ^↵

2

r s²

n , x¯ + t ^↵

2

r s² n

# µ 2

"

¯

x z ^↵

2

r s²

n , x¯ + z ^↵

2

r s² n

# µ 2

"

¯

x z ^↵₂

r 2

n , x¯ + z ^↵₂

r 2

n

# Avec remise

X ⇠ N(µ, ²) n 30 connue oui

non

non oui

oui

oui non

oui

non oui

oui non

non

(28)

µ 2

"

¯

x z ^↵₂

s s² n

✓ N n N 1

◆

, x¯ + z ^↵₂

s s² n

✓ N n N 1

◆#

µ 2

"

¯

x t ^↵

2

s s² n

✓ N n N 1

◆

, x¯ + t ^↵

2

s s² n

✓ N n N 1

◆#

µ 2

"

¯

x z ^↵₂

s 2

n

✓ N n N 1

◆

, x¯ + z ^↵₂

s 2

n

✓ N n N 1

◆#

sans remise

(29)

Si on veut, on peut voir tout ça de manière condensée

µ 2

"

¯

x c ^↵₂

r b²

n , x¯ + c ^↵₂

r b² n

#

µ 2

"

¯

x c ^↵₂

s b² n

✓ N n N 1

◆

, x¯ + c ^↵₂

s b² n

✓ N n N 1

◆#

c = z, t b = , s

en fonction du contexte.

sans remise avec remise

(30)

¯

x c ^↵₂

r b²

n x¯ + c ^↵₂

r b² n

¯ x

µ c ^↵₂

r b² n

On nomme l’erreur d’estimation maximale, ou marge d’erreur

c ^↵

2

r b²

n c = z, t b = , s

en fonction du contexte.

avec

(31)

Faites les exercices suivants

# 4.10 à 4.19

(32)

Devoir:

# 4.10 à 4.19