Théorie de l estimation

(1)

Théorie de l’estimation

Michaël Genin

Université de Lille 2

EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected]

Sources : G. Marot, A. Duhamel, G. Saporta.

(2)

Plan

1 Introduction à la théorie de l’estimation Problématique

Définition d’un échantillon aléatoire

2 Estimation ponctuelle Notion d’estimateur Propriétés d’un estimateur

Estimation d’une moyenne, variance, proportion

3 Estimation par intervalles de confiance Définitions

Intervalle de confiance d’une moyenne (n<30) Intervalle de confiance d’une moyenne (n⩾30) Intervalle de confiance d’une proportion

4 Résumé

(3)

Introduction à la théorie de l’estimation

Notations préliminaires

Trois concepts diﬀérents à distinguer en théorie de l’estimation :

lesparamètres de la populationcomme la moyenneµdont la valeur est inconnue et certaine

⇒symbolisés par deslettres grecques

lesrésultats de l’échantillonnagecomme la moyenne ¯x dont la valeur est connue et certaine

⇒symbolisés par desminuscules(cf. stat desc.)

lesvariables aléatoires des paramètres, comme la moyenne aléatoireX¯ dont la valeur est incertaine puisqu’aléatoire mais dont la loi de proba est souvent connue

⇒symbolisés par desmajuscules

(4)

Introduction à la théorie de l’estimation Problématique

Problématique

On s’intéresse à un caractèreX au sein d’une populationP (ex : Taille)

On modéliseX par unev.a.(ex : à un français tiré au hasard, on associe sa taille) Dans la populationP,X suit une loi (distribution).

Résumer une loi→Moyenne (µ) et Variance (σ²) dans la plupart des cas.

On cherche donc à connaîtreµetσ²dansP.

Problème

Dans la plupart des cas, impossible de considérerP dans son ensemble On utilise unéchantillondenindividus deP

Hypothèse forte :On considère que l’échantillon est tiréau hasard(i.e.chaque individu a la même probabilité d’être tiré).

(5)

Introduction à la théorie de l’estimation Définition d’un échantillon aléatoire

Définition d’un échantillon aléatoire

Définition

SoitX un caractère étudié sur une populationP etE une expérience aléatoire qui consiste à tirer un individu au hasard dansP.

On associe àE lav.a.X d’une certaine loi.

On réalisenfois la même expérienceE, dans des conditions indépendantes.

nexpériences−→nv.a.X_i de même loi

L’ensemble{X1,X2, ...,Xn}den v.a. i.i.d.de même loi queX estun échantillon aléatoire.

(6)

Définition d’un échantillon aléatoire

Population Caractère étudié : X

Moyenne :µ Variance : σ²

Echantillon Al´eatoire de taillen {X1, X2, . . . , Xn}

nvariables aléatoires indépendantes de même loi queX

Echantillon 1 {x¹₁, x¹₂, . . . , x¹_n} Réalisation de{X1, X2, . . . , Xn} nréalisations indépendantes deX

(7)

Définition d’un échantillon aléatoire

Rappel :On cherche à connaîtreµetσ² dans la population.

La théorie de l’estimation permet d’extrapoler (inférence statistique) les caractéristiques d’un échantillon à la population.

En d’autres termes : l’estimation consiste à déterminer les caractéristiques (µ,σ², ...) inconnues de la population à partir des données d’un échantillon.

2 types d’estimation : Estimation ponctuelle

Estimation par intervalle de confiance

(8)

Estimation ponctuelle Notion d’estimateur

Notion d’estimateur - Exemple introductif

Population Caractère étudié :X

Moyenne :µ Variance : σ²

Echantillon 1 {x¹₁, x¹₂, . . . , x¹_n}

Population

Caractère étudié : Taille (X) Moyenne :µ Variance :σ²

Xi: v.a. qui associe `a un individuisa taille

x¹_i: taille obs. de l’individui dans l’´echantillon 1

Objectif : estimerµetσ²

(9)

Notion d’estimateur - Exemple introductif

Considérons la moyenne et la variance calculées sur l’échantillon (moyenne et variance empirique) :

¯ x = 1

n

∑n

i=1

xi s_ech² =1 n

∑n

i=1

(xi−x¯)²

(10)

Notion d’estimateur - Exemple introductif

Moyenne : µ Variance : σ²

Echantillon Al´eatoire de taille n {X1, X₂, . . . , X_n}

Population

Caractère étudié : Taille (X) Moyenne : µ Variance :σ²

Variance obs. : s²_ech¹ Moyenne obs. : ¯x¹

(11)

Notion d’estimateur - Exemple introductif

¯ x = 1

n

∑n

i=1

xi s_ech² =1 n

∑n

i=1

(xi−x¯)²

A chaque échantillon de taillen, les valeurs dex¯ et des²sont susceptibles d’être diﬀérentes.

(12)

Notion d’estimateur - Exemple introductif

Moyenne :µ Variance :σ²

Population

Caractère étudié : Taille (X) Moyenne : µ Variance : σ²

Echantillon 2 {x²₁, x²₂, . . . , x²_n}

Echantillon 3 {x³₁, x³₂, . . . , x³_n}

Echantillon k {x^k₁, x^k₂, . . . , x^k_n} . . .

Variance obs. :s²_ech² Variance obs. :s²_ech³ Variance obs. :s²_ech^k Moyenne obs. : ¯x² Moyenne obs. : ¯x³ Moyenne obs. : ¯x^k Variance obs. :s²_ech¹

Moyenne obs. : ¯x¹

(13)

Notion d’estimateur - Exemple introductif

¯ x = 1

n

∑n

i=1

xi s_ech² =1 n

∑n

i=1

(xi−x¯)²

¯

x et de s²sont desréalisationsdesv.a. X¯ etS_ech² X¯ = 1

n

∑n

i=1

Xi S_ech² = 1 n

∑n

i=1

(Xi−X)¯ ² et lesXi={X1,X2, ...,Xn} un échantillonaléatoire.

(14)

Notion d’estimateur - Exemple introductif

Echantillon Al´eatoire de taillen {X1, X₂, . . . , X_n}

Population

Moyenne obs. : ¯x¹ X¯=¹_nPn

i=1X_i S²_ech=_n¹Pn

i=1 Xi−X¯2

(15)

Notion d’estimateur - Exemple introductif

¯ x = 1

n

∑n

i=1

xi s_ech² =1 n

∑n

i=1

(xi−x¯)²

¯

x et de s²sont desréalisationsdesv.a. X¯ etS_ech² X¯ = 1

n

∑n i=1

X_i S_ech² = 1 n

∑n i=1

(X_i−X)¯ ²

et lesX_i={X₁,X₂, ...,X_n} un échantillonaléatoire.

Remarques

Lorsquen−→ ∞,X¯ etS_ech² se rapprochent versµetσ². X¯ etS²sont des estimateursqui convergent versµetσ²

(16)

Notion d’estimateur - Définition

Définition

Soit{X₁,X₂, ...,X_n}un échantillon aléatoire de taillen. LesX_i sonti.i.d.selon une loi de probabilité de paramètreθ.

On appelleestimateurde θtoutev.a.fonction desX_i : T =f(X1,X2, ...,Xn)

Sur un échantillon tiré{x1,x2, ...,xn},T fournit une réalisation qui est une estimation ponctuelledeθ :

θˆ=f(x1,x2, ...,xn)

Exemple :

T = ¯X =_n¹∑n

i=1X_i (Estimateur) ˆ

µ= ¯x= ¹_n∑n

i=1xi (Estimation)

(17)

Estimation ponctuelle Propriétés d’un estimateur

Propriétés d’un estimateur

Convergence

Un estimateur est ditconvergentsi :

nlim→∞T =θ

Biais

Lebiaisd’un estimateur est défini par :

B(T) =E[T−θ]

Un estimateur est ditsans biaissiB(T) =0⇔E[T] =θ

La variance deT,V[T] permet de renseigner la précision de l’estimateur.

Plus elle est faible, plus l’estimateur sera précis.

(18)

Propriétés d’un estimateur

Qualités d’un bon estimateur

Un estimateur eﬃcace doit être de préférence : Convergent

Sans biais

De variance minimale Remarques

Si deux estimateursT₁etT₂ d’un paramètreθ sont convergents et sans biais, on choisira l’estimateur qui a la variance la plus faible

On peut préférer un estimateur biaisé d’une faible variance à un estimateur non biaisé.

(19)

Propriétés d’un estimateur

T₁ T₂

E[T₁] =θ E[T₂] =θ+B(T)

(20)

Propriétés d’un estimateur

T₁

T₂

E[T1] =E[T2] =θ

(21)

Estimation ponctuelle Estimation d’une moyenne, variance, proportion

Estimation d’une moyenne

Théorème

La variable aléatoireX¯ définie par X¯ = 1

n

∑n i=1

X_i

est unestimateur convergent et sans biaisdeµ

Exercice : prouver queX¯ est un estimateur non biaisé deµ.

E[ ¯X] =E [

1 n

∑n

i=1

Xi

]

= 1 nE

[ _n

∑

i=1

Xi

]

= 1 n

∑n

i=1

E[Xi] =µ

La moyenne empirique calculée sur un échantillon est une bonne estimation de la moyenne dans la population.

ˆ µ= ¯x

(22)

Estimation d’une moyenne

Théorème

La variable aléatoireX¯ définie par X¯ = 1

n

∑n

i=1

Xi

est unestimateur convergent et sans biaisdeµ Exercice : montrer queV[X¯]

=^σ_n² V[ ¯X] =V

[ 1 n

∑n i=1

X_i ]

= 1 n²

∑n i=1

V[X_i]

| {z }

=σ²

= σ² n

A retenir

E[ ¯X] =µ V[ ¯X] = σ² n

(23)

Estimation d’une variance

Théorème

La variable aléatoireS_ech² définie par

S_ech² = 1 n

∑n i=1

(X_i−µ)²,

est un estimateur convergent et sans biais deσ²uniquement siµest connue.

Exercice : Montrer queS_ech² est un estimateur non biaisé deσ²uniquementsiµ est connue.

Correction :1 - Si µest connue : E[

S_ech² ]

=E [

1 n

∑n

i=1

(Xi−µ)² ]

=E [

1 n

∑n

i=1

X_i²−2µ n

∑n

i=1

Xi+1 n

∑n

i=1

µ² ]

E[ S_ech² ]

=1 n

∑n i=1

E[ X_i²]

−2µ n

∑n i=1

E[Xi]

| {z }

=µ

+µ²= 1 n

∑n i=1

E[ X_i²]

−µ²

(24)

Estimation d’une variance

Correction :1 - Si µest connue (suite) Or par définition :

σ²=V[X] =E[X²]−E[X]²=E[X²]−µ² Donc

E[X²] =σ²+µ² Finalement :

E[ S_ech² ]

=1 n

∑n i=1

E[ X_i²]

−µ² E[

S_ech² ]

=1 n

∑n i=1

(σ²+µ²)

−µ² E[

S_ech² ]

=σ²+µ²−µ²=σ²

Donc siµest connue alorsS_ech² est un estimateur sans biais deσ².

(25)

Estimation d’une variance

Correction :1 - Si µest connue (suite) Solution beaucoup plus simple :

E[ S_ech² ]

=E [

1 n

∑n i=1

(X_i−µ)² ]

= 1 n

∑n i=1

E[

(X_i−µ)²]

=1 n

∑n i=1

V[X_i] =σ²

(26)

Estimation d’une variance

Correction :2 - Si µest inconnue

On estimeµpar son estimateur sans biais :X¯. Donc : S_ech² = 1

n

∑n i=1

(Xi−X)¯ ²

E[ S_ech² ]

=E [

1 n

∑n i=1

(Xi−X¯)² ]

=E [

1 n

∑n i=1

X_i²−X¯² ]

= 1 n

∑n i=1

E[ X_i²]

−E[X¯²] Par définition :

{ σ²=V[X] =E[X²]−E[X]²=E[X²]−µ² V[ ¯X] = ^σ_n² =E[ ¯X²]−E[ ¯X]²=E[ ¯X²]−µ²

Donc {

E[X²] =σ²+µ² E[ ¯X²] = ^σ_n² +µ²

(27)

Estimation d’une variance

Correction :2 - Si µest inconnue E[

S_ech² ]

=1 n

∑n i=1

E[ X_i²]

−E[X¯²] E[

S_ech² ]

=1 n

∑n

i=1

(σ²+µ²)

− (σ²

n +µ² )

E[ S_ech² ]

=σ²+µ²−σ² n −µ² E[

S_ech² ]

=n−1 n σ²

Donc lorsqueµest inconnue mais estimée parX¯, la quantité

S_ech² = 1 n

∑n

i=1

(Xi−X)¯ ², est un estimateur biaisé deσ²(sous-estimation).

(28)

Estimation d’une variance

En pratique, la moyenneµest très souvent inconnue et estimée par X. Dans ce¯ cas :

Théorème

La variable aléatoireS²définie par

S²= 1 n−1

∑n i=1

(X_i−X¯)²

est unestimateur convergent et sans biaisdeσ² Remarques

Remarquons que

S²= n n−1S_ech²

Sinest grand, les deux estimateurs donnent des résultats très proches.

(29)

Estimation d’une variance

Vocabulaire

Ecart-type de l’échantillon

sech= vu ut1

n

∑n

i=1

(xi−x¯)²

Déviation standard (anglicisme)

s= vu ut 1

n−1

∑n

i=1

(xi−x¯)²

(30)

Estimation d’une proportion

Soitπune proportion d’un caractère dans une population que nous cherchons à estimer.

(Exemple : proportion de femmes dans la population française).

SoitK une v.a. discrète distribuée selon une loi binomialeB(n, π).

(Exemple :K associe à un échantillon de taille nle nombre de femmes.

Théorème

La fréquence observée dans un échantillon de taillenconstitue le meilleur estimateur deπ(Loi des grands nombres)

F =K n F est donc un estimateur convergent et sans biais.

(31)

Estimation par intervalles de confiance Définitions

Introduction

L’estimation ponctuelle d’un paramètre (moyenne, variance, proportion) peut varier d’un échantillon à l’autre.

Population

Moyenne obs. : ¯x¹ X¯=¹_nPn

i=1Xi

S²_ech=_n¹Pn

i=1 Xi−X¯2

(32)

Introduction

L’estimation ponctuelle d’un paramètre (moyenne, variance, proportion) peut varier d’un échantillon à l’autre. On dit qu’elle ne prend pas en compte les fluctuations d’échantillonnage.

Comment avoir confiance en cette estimation ponctuelle ?

Il est nécessaire de lui associer un intervalle qui contient, avec une certaine probabilité, la vraie valeur du paramètre dans la population.

⇒Estimation par intervalle de confiance

(33)

Définition

L’estimation par intervalle de confiancedeθ consiste à associer à un échantillon un intervalle aléatoire[θb1,θb2]qui contientθavec une certaine probabilité. Cet intervalle est appeléintervalle de confiance deθ

On appellerisque d’erreurla probabilitéαque l’intervalle de confiance ne contienne pas la vraie valeur deθ.

On appelleniveau de confiancela probabilité 1−αque l’intervalle de confiance contienne la vraie valeur deθ.

P(θb₁< θ <θb₂) =1−α

SoitT l’estimateur d’un paramètreθ. Posonsθb₁=T−ϵetθb₂=T +ϵ.

P(θ∈[θb1,θb2]) =P(T −ϵ < θ <T+ϵ) =1−α P(θ∈[θb1,θb2]) =P(θ−ϵ <T < θ+ϵ) =1−α

(34)

Définition

θ+"

θ−" θ

Loi de l’estimateurT

α 2 α

2 1−α

P(θ−"< T <θ+") = 1−α

(35)

Définition

Pour déterminer cette probabilité, il est nécessaire de connaître la loi de probabilité de l’estimateurT.

On l’appelle ladistribution d’échantillonnagede T.

Dans le cas des estimateurs d’une moyenne (X¯) et d’une proportion (F), le théorème central-limite va nous permettre de déterminer les distributions d’échantillonnage deX¯ etF.

(36)

Rappel

Théorème "Central - Limite" (T.C.L.)

Théorèmetrès important en statistique

Idée :convergence en loi de la somme dev.a. i.i.d.vers la loi normale.

Utile dans l’approximation d’une loi par une loi normale (Binomiale, Poisson,...)

Utile, essentiel dans la théorie de l’estimation

(37)

Rappel

Théorème "Central - Limite" (T.C.L.)

Contexte : Epreuves répétées caractérisées par une suiteX1,X2, ...,Xndev.a. i.i.d..

E[Xi] =µetV[Xi] =σ². SoitSn=∑n

i=1Xi etZnla variable centrée-réduite : Zn= Sn−nµ

σ√ n

Théorème

∀x, la fonction de répartitionFn(x) =P(Zn≤x)est telle que

nlim→∞Fn(x) = Φ avecΦfonction de répartition deN(0,1)

(38)

Distribution d’échantillonnage de X ¯

Théorème (Grands échantillons)

SoitX unev.a. continue de moyenneµet de varianceσ². En utilisant le T.C.L., on montre que :

X¯ −→

n→∞N (

µ, σ

√n )

ou encore X¯ −µ σ/√

n −→

n→∞N(0,1) Quelque soit la loi deX. En pratique, valable pourn⩾30.

Siσ²est inconnue, on l’estime par s² : X¯ −→

n→∞N (

µ, s

√n )

(39)

Distribution d’échantillonnage de X ¯

Théorème (Petits échantillons)

On suppose queX ∼ N(µ, σ²). Alors : Siσ²est connue alorsX¯ ∼ N

( µ, σ

√n )

Siσ²est inconnue et estimée pars²alors : X¯ −µ

s/√

n ∼ Tn−1d.d.l.

En pratique, on considère un petit échantillon lorsquen<30.

(40)

Distribution d’échantillonnage de F

Théorème

Soitπla proportion d’un caractère dans une population. D’après leT.C.L. on montre que :

F_n−→

→∞N (

π,

√π(1−π) n

)

En pratique, cette approximation est valable lorsque : n⩾30 etmin{nπ,n(1−π)}>5

(41)

Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n<30)

IC d’un moyenne - Petits échantillons (n < 30)

On considère queX ∼ N(µ, σ) Intervalle de confiance d’une moyenne

σ²connue (rare)

IC

¹µ⁻^α= [

¯

x−z₁₋_α/2 σ

√n; ¯x+z₁₋_α/2 σ

√n ]

σ²inconnue mais estimée pars²

IC

¹_µ⁻^α= [

¯

x−t₁₋_α/2;n₋₁ s

√n; ¯x+t₁₋_α/2;n₋₁ s

√n ]

(42)

IC d’un moyenne - Petits échantillons (n < 30)

Démonstration

On cherche(cµ₁,cµ₂)tel queP(cµ₁< µ <µc₂) =1−α(définition IC).

On supposeσconnu doncX¯ ∼ N(µ,√^σn).

PosonsX¯^∗= _σ/^X^¯⁻√^µ

n ∼ N(0,1) Posonsz₁₋^α

2 tel que P( ¯X^∗<z1−^α2) =1−^α₂

z1−α/2

−z1−α/2 0

N(0,1)

α 2 α

2 1−α

Par symétrique de la courbe :P(−z₁₋^α

2 <X¯^∗<z₁₋^α

2) =1−α

P(−z1−^α₂ <

X¯ −µ σ/√

n <z1−^α₂) =1−α P(−X¯ −z₁₋^α

2σ/√

n<−µ <−X¯ +z₁₋^α

2σ/√

n) =1−α P( ¯X−z1−^α₂σ/√

| {z n} b

µ1

< µ <X¯ −z1−^α₂σ/√

| {z n} b

µ2

) =1−α

(43)

IC d’un moyenne - Petits échantillons (n < 30)

Autre Démonstration

On cherche(cµ₁,cµ₂)tel queP(cµ₁< µ <µc₂) =1−α(définition IC).

On supposeσconnu doncX¯ ∼ N(µ,√^σn).

On sait queP(cµ₁< µ <cµ₂) =1−α=P(µ−ϵ <X¯ < µ+ϵ). Posons X¯^∗=^X^¯⁻_σ^µ ∼ N(0,1)Donc

P(µ−ϵ <X¯ < µ+ϵ) =P

(µ−ϵ−µ σ/√

n <X¯^∗< µ+ϵ−µ σ/√

n )

=1−α P(µ−ϵ <X¯ < µ+ϵ) =P

( −ϵ σ/√

n <X¯^∗< ϵ σ/√

n )

= Φ( ϵ σ/√

n)−Φ( −ϵ σ/√

n) P(µ−ϵ <X¯ < µ+ϵ) =2Φ( ϵ

σ/√

n)−1=1−α DoncΦ(_σ/^ϵ√n) =1−^α₂. Posonsz₁₋^α

2/Φ(z₁₋^α

2) =1−^α₂. Donc _σ/^ϵ√n=z₁₋^α

2 ⇔ϵ=z₁₋^α

2σ/√

n

(44)

IC d’un moyenne - Petits échantillons (n < 30)

Autre Démonstration

En remplaçant dans la définition d’un intervalle de confianceT parX¯ etθparµ: P

(

X¯ −z₁₋_α/2 σ

√n < µ <X¯ −z₁₋_α/2 σ

√n )

=1−α

Donc l’intervalle de confiance au niveau de confiance 1−αd’une moyenne sur un échantillon de taillenest donné par :

IC

¹_µ⁻^α= [

¯

x−z₁₋_α/2 σ

√n; ¯x+z₁₋_α/2 σ

√n ]

(45)

IC d’un moyenne - Petits échantillons (n < 30)

Exemple

On suppose que le taux de cholestérol dans une population est distribué selon un loi normale de paramètres inconnusµetσ.

De cette population est extrait un échantillon de 20 personnes. La moyenne empirique du taux de cholestérol est dex¯=1.8 et l’écart-type empirique (déviation standard) est égal às=0.1.

Donner un intervalle de confiance de la moyenne du taux de cholestérol dans la population au niveau de confiance 95%

Donner un interprétation des bornes de l’IC

(46)

IC d’un moyenne - Petits échantillons (n < 30)

Exemple

Nous sommes dans le cadre d’un petit échantillonn=20<30 La distribution normale du taux de cholestérol dans la population est supposée.

La variance dans la populationσ²est inconnue mais estimée pars²

IC

^95%_µ = [

¯

x−t₁₋_α/2;n₋₁ s

√n; ¯x+t₁₋_α/2;n₋₁ s

√n ] t₁₋_α/2;n₋₁=t_0.975;19=2.093

IC

^95%_µ = [1.75;1.85]

(47)

Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

Intervalle de confiance d’une moyenne

σ²connue (rare)

IC

¹_µ⁻^α= [

¯

x−z₁₋_α/2 σ

√n; ¯x+z₁₋_α/2 σ

√n ]

σ²inconnue mais estimée pars²

IC

¹µ⁻^α= [

¯

x−z₁₋_α/2 s

√n; ¯x+z₁₋_α/2 s

√n ]

(48)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

Exemple

On désire estimer la taille moyenne (cm) des hommes en France. On sait que son écart-typeσ=14.

On tire un échantillon de 100 français. La moyenne empirique de la taille sur l’échantillon est¯x=175.

Calculer un intervalle de confiance la taille moyenne des français au seuil de confiance :

90 % 95 % 99 %

(49)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

Exemple

1. Seul de confiance 1−α=0.90

IC

^90%_µ = [

¯

x−z₁₋_α/2 σ

√n; ¯x+z₁₋_α/2 σ

√n ]

Déterminerz₁₋_α/2=z₁₋_0.1/2=z₁₋_0.05=z_0.95

Table de la loi Normale centrée réduite : trouverz0.95 tel que Φ(z0.95) =0.95

(50)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

z0.95

−z0.95 0

N(0,1)

5%

5% 90%

(51)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

On trouve quez_0.95≈1.64. Donc l’intervalle de confiance a pour valeur :

IC

^90%µ = [

175−1.64 14

√100;175+1.64 14

√100 ]

IC

^90%_µ = [172.7;177.3]

La taille moyenne des français a 90% de chances de se trouver dans l’intervalle [172.7;177.3]

(52)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

On cherche la valeur dez1−α/2=z1−0.05/2=z1−0.025=z0.975

z0.975≈1.96 Donc l’intervalle de confiance a pour valeur :

IC

^95%µ = [

175−1.96 14

√100;175+1.96 14

√100 ]

IC

^95%_µ = [172.3;177.7]

(53)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

On cherche la valeur dez1−α/2=z1−0.01/2=z1−0.005=z0.995

z0.995≈2.58 Donc l’intervalle de confiance a pour valeur :

IC

^99%µ = [

175−2.58 14

√100;175+2.58 14

√100 ]

IC

^99%_µ = [171.4;178.6]

(54)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

Remarque par rapport à l’exemple :

IC

^90%_µ = [172.7;177.3]

IC

^95%µ = [172.3;177.7]

IC

^99%_µ = [171.4;178.6]

Plus le seul de confiance est élevé, plus la taille de l’IC est importante.

(55)

IC d’un moyenne - Grands échantillons (n ⩾ 30)

Retour à l’exemple :

Avec un échantillon de 100 français, l’intervalle de confiance à 95% est de :

IC

^95%_µ = [172.3;177.7]

Considérons que nous avons un échantillon de 1000 français, sur lequel la moyenne empirique est la même (¯x=175).

IC

^95%µ = [174.7;175.3]

Plus la taille de l’échantillon est importante, plus la taille de l’IC se réduit.

→la précision de l’estimation est fonction de la taille de l’échantillon.

(56)

Estimation par intervalles de confiance Intervalle de confiance d’une proportion

Intervalle de confiance d’une proportion

Soitπla proportion d’un caractère dans une population.

On noteπˆ=k/nla proportion observée sur un échantillon de taillen.

Intervalle de confiance d’une proportion Sin⩾30 etmin{nˆπ,n(1−ˆπ)}>5

IC

¹_π⁻^α= [

ˆ

π−z₁₋_α/2

√π(1ˆ −π)ˆ

n ; ˆπ+z₁₋_α/2

√π(1ˆ −π)ˆ n

]

(57)

Intervalle de confiance d’une proportion

Exemple

Quelques jours avant une élection très importante opposant le candidatAet le candidatB, on réalise un sondage sur 100 individus.

On obtient 54% d’intention de vote pour le candidatAcontre 46% pour le candidatB.

Calculer un intervalle de confiance à 95% de la proportion de personnes favorables àAdans la population.

Que dire de cet intervalle ? De la taille de l’échantillon ?

(58)

Intervalle de confiance d’une proportion

Exemple

Soitπla proportion de votants pour le candidatAdans la population.

Soitˆπla proportion de votants pour le candidatAdans l’échantillon de taille 100.ˆπ=0.54

n⩾30,nˆπ=54>5,n(1−π) =ˆ 46>5

IC

^95%_π = [

ˆ

π−z₁₋_α/2

√ˆπ(1−π)ˆ

n ; ˆπ+z₁₋_α/2

√π(1ˆ −π)ˆ n

]

z₁₋_α/2=z0.975=1.96

IC

^95%π = [0.4423;0.6377]

(59)

Intervalle de confiance d’une proportion

Exemple

L’intervalle de confiance est relativement grand. On ne peut conclure quant au fait que le candidatAgagne les élections.

La taille de l’échantillon n’est pas assez importante pour avoir une précision permettant de se prononcer sur la victoire deA

Vers le nombre de sujets nécessaire...

Quelle serait la taille minimale de l’échantillon pour avoir un idée sûre à 95% du résultat du vote ?

(60)

Intervalle de confiance d’une proportion

Exemple

IC

^95%π = [

ˆ

π±z1−α/2

√π(1ˆ −π)ˆ n

]

ˆ π=0.54

Il faudrait une précision de l’IC≤0.03 pour pouvoir tirer une conclusion.

z₁₋_α/2

√π(1ˆ −π)ˆ n ≤0.03 ˆ

π(1−π)ˆ

n ≤

( 0.03 z1−α/2

)2

n≥ π(1ˆ −ˆπ) ( 0.03

z_1−α/2

)2 = 0.54×0.46 (_0.03

1.96

)2 ≈1061