Théorie de l’estimation
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected]
Sources : G. Marot, A. Duhamel, G. Saporta.
Plan
1 Introduction à la théorie de l’estimation Problématique
Définition d’un échantillon aléatoire
2 Estimation ponctuelle Notion d’estimateur Propriétés d’un estimateur
Estimation d’une moyenne, variance, proportion
3 Estimation par intervalles de confiance Définitions
Intervalle de confiance d’une moyenne (n<30) Intervalle de confiance d’une moyenne (n⩾30) Intervalle de confiance d’une proportion
4 Résumé
Introduction à la théorie de l’estimation
Notations préliminaires
Trois concepts différents à distinguer en théorie de l’estimation :
lesparamètres de la populationcomme la moyenneµdont la valeur est inconnue et certaine
⇒symbolisés par deslettres grecques
lesrésultats de l’échantillonnagecomme la moyenne ¯x dont la valeur est connue et certaine
⇒symbolisés par desminuscules(cf. stat desc.)
lesvariables aléatoires des paramètres, comme la moyenne aléatoireX¯ dont la valeur est incertaine puisqu’aléatoire mais dont la loi de proba est souvent connue
⇒symbolisés par desmajuscules
Introduction à la théorie de l’estimation Problématique
Problématique
On s’intéresse à un caractèreX au sein d’une populationP (ex : Taille)
On modéliseX par unev.a.(ex : à un français tiré au hasard, on associe sa taille) Dans la populationP,X suit une loi (distribution).
Résumer une loi→Moyenne (µ) et Variance (σ2) dans la plupart des cas.
On cherche donc à connaîtreµetσ2dansP.
Problème
Dans la plupart des cas, impossible de considérerP dans son ensemble On utilise unéchantillondenindividus deP
Hypothèse forte :On considère que l’échantillon est tiréau hasard(i.e.chaque individu a la même probabilité d’être tiré).
Introduction à la théorie de l’estimation Définition d’un échantillon aléatoire
Définition d’un échantillon aléatoire
Définition
SoitX un caractère étudié sur une populationP etE une expérience aléatoire qui consiste à tirer un individu au hasard dansP.
On associe àE lav.a.X d’une certaine loi.
On réalisenfois la même expérienceE, dans des conditions indépendantes.
nexpériences−→nv.a.Xi de même loi
L’ensemble{X1,X2, ...,Xn}den v.a. i.i.d.de même loi queX estun échantillon aléatoire.
Introduction à la théorie de l’estimation Définition d’un échantillon aléatoire
Définition d’un échantillon aléatoire
Population Caract`ere ´etudi´e : X
Moyenne :µ Variance : σ2
Echantillon Al´eatoire de taillen {X1, X2, . . . , Xn}
nvariables al´eatoires ind´ependantes de mˆeme loi queX
Echantillon 1 {x11, x12, . . . , x1n} R´ealisation de{X1, X2, . . . , Xn} nr´ealisations ind´ependantes deX
Introduction à la théorie de l’estimation Définition d’un échantillon aléatoire
Définition d’un échantillon aléatoire
Rappel :On cherche à connaîtreµetσ2 dans la population.
La théorie de l’estimation permet d’extrapoler (inférence statistique) les caractéristiques d’un échantillon à la population.
En d’autres termes : l’estimation consiste à déterminer les caractéristiques (µ,σ2, ...) inconnues de la population à partir des données d’un échantillon.
2 types d’estimation : Estimation ponctuelle
Estimation par intervalle de confiance
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Exemple introductif
Population Caract`ere ´etudi´e :X
Moyenne :µ Variance : σ2
Echantillon Al´eatoire de taillen {X1, X2, . . . , Xn}
nvariables al´eatoires ind´ependantes de mˆeme loi queX
Echantillon 1 {x11, x12, . . . , x1n}
Population
Caract`ere ´etudi´e : Taille (X) Moyenne :µ Variance :σ2
Xi: v.a. qui associe `a un individuisa taille
x1i: taille obs. de l’individui dans l’´echantillon 1
Objectif : estimerµetσ2
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Exemple introductif
Considérons la moyenne et la variance calculées sur l’échantillon (moyenne et variance empirique) :
¯ x = 1
n
∑n
i=1
xi sech2 =1 n
∑n
i=1
(xi−x¯)2
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Exemple introductif
Population Caract`ere ´etudi´e : X
Moyenne : µ Variance : σ2
Echantillon Al´eatoire de taille n {X1, X2, . . . , Xn}
nvariables al´eatoires ind´ependantes de mˆeme loi queX
Echantillon 1 {x11, x12, . . . , x1n}
Population
Caract`ere ´etudi´e : Taille (X) Moyenne : µ Variance :σ2
Xi: v.a. qui associe `a un individuisa taille
Variance obs. : s2ech1 Moyenne obs. : ¯x1
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Exemple introductif
Considérons la moyenne et la variance calculées sur l’échantillon (moyenne et variance empirique) :
¯ x = 1
n
∑n
i=1
xi sech2 =1 n
∑n
i=1
(xi−x¯)2
A chaque échantillon de taillen, les valeurs dex¯ et des2sont susceptibles d’être différentes.
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Exemple introductif
Population Caract`ere ´etudi´e : X
Moyenne :µ Variance :σ2
Echantillon Al´eatoire de taillen {X1, X2, . . . , Xn}
nvariables al´eatoires ind´ependantes de mˆeme loi queX
Echantillon 1 {x11, x12, . . . , x1n}
Population
Caract`ere ´etudi´e : Taille (X) Moyenne : µ Variance : σ2
Xi: v.a. qui associe `a un individuisa taille
Echantillon 2 {x21, x22, . . . , x2n}
Echantillon 3 {x31, x32, . . . , x3n}
Echantillon k {xk1, xk2, . . . , xkn} . . .
Variance obs. :s2ech2 Variance obs. :s2ech3 Variance obs. :s2echk Moyenne obs. : ¯x2 Moyenne obs. : ¯x3 Moyenne obs. : ¯xk Variance obs. :s2ech1
Moyenne obs. : ¯x1
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Exemple introductif
Considérons la moyenne et la variance calculées sur l’échantillon (moyenne et variance empirique) :
¯ x = 1
n
∑n
i=1
xi sech2 =1 n
∑n
i=1
(xi−x¯)2
A chaque échantillon de taillen, les valeurs dex¯ et des2sont susceptibles d’être différentes.
¯
x et de s2sont desréalisationsdesv.a. X¯ etSech2 X¯ = 1
n
∑n
i=1
Xi Sech2 = 1 n
∑n
i=1
(Xi−X)¯ 2 et lesXi={X1,X2, ...,Xn} un échantillonaléatoire.
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Exemple introductif
Population Caract`ere ´etudi´e : X
Moyenne : µ Variance : σ2
Echantillon Al´eatoire de taillen {X1, X2, . . . , Xn}
nvariables al´eatoires ind´ependantes de mˆeme loi queX
Echantillon 1 {x11, x12, . . . , x1n}
Population
Caract`ere ´etudi´e : Taille (X) Moyenne : µ Variance :σ2
Xi: v.a. qui associe `a un individuisa taille
Echantillon 2 {x21, x22, . . . , x2n}
Echantillon 3 {x31, x32, . . . , x3n}
Echantillon k {xk1, xk2, . . . , xkn} . . .
Variance obs. :s2ech2 Variance obs. :s2ech3 Variance obs. :s2echk Moyenne obs. : ¯x2 Moyenne obs. : ¯x3 Moyenne obs. : ¯xk Variance obs. :s2ech1
Moyenne obs. : ¯x1 X¯=1nPn
i=1Xi S2ech=n1Pn
i=1 Xi−X¯2
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Exemple introductif
Considérons la moyenne et la variance calculées sur l’échantillon (moyenne et variance empirique) :
¯ x = 1
n
∑n
i=1
xi sech2 =1 n
∑n
i=1
(xi−x¯)2
A chaque échantillon de taillen, les valeurs dex¯ et des2sont susceptibles d’être différentes.
¯
x et de s2sont desréalisationsdesv.a. X¯ etSech2 X¯ = 1
n
∑n i=1
Xi Sech2 = 1 n
∑n i=1
(Xi−X)¯ 2
et lesXi={X1,X2, ...,Xn} un échantillonaléatoire.
Remarques
Lorsquen−→ ∞,X¯ etSech2 se rapprochent versµetσ2. X¯ etS2sont des estimateursqui convergent versµetσ2
Estimation ponctuelle Notion d’estimateur
Notion d’estimateur - Définition
Définition
Soit{X1,X2, ...,Xn}un échantillon aléatoire de taillen. LesXi sonti.i.d.selon une loi de probabilité de paramètreθ.
On appelleestimateurde θtoutev.a.fonction desXi : T =f(X1,X2, ...,Xn)
Sur un échantillon tiré{x1,x2, ...,xn},T fournit une réalisation qui est une estimation ponctuelledeθ :
θˆ=f(x1,x2, ...,xn)
Exemple :
T = ¯X =n1∑n
i=1Xi (Estimateur) ˆ
µ= ¯x= 1n∑n
i=1xi (Estimation)
Estimation ponctuelle Propriétés d’un estimateur
Propriétés d’un estimateur
Convergence
Un estimateur est ditconvergentsi :
nlim→∞T =θ
Biais
Lebiaisd’un estimateur est défini par :
B(T) =E[T−θ]
Un estimateur est ditsans biaissiB(T) =0⇔E[T] =θ
La variance deT,V[T] permet de renseigner la précision de l’estimateur.
Plus elle est faible, plus l’estimateur sera précis.
Estimation ponctuelle Propriétés d’un estimateur
Propriétés d’un estimateur
Qualités d’un bon estimateur
Un estimateur efficace doit être de préférence : Convergent
Sans biais
De variance minimale Remarques
Si deux estimateursT1etT2 d’un paramètreθ sont convergents et sans biais, on choisira l’estimateur qui a la variance la plus faible
On peut préférer un estimateur biaisé d’une faible variance à un estimateur non biaisé.
Estimation ponctuelle Propriétés d’un estimateur
Propriétés d’un estimateur
T1 T2
E[T1] =θ E[T2] =θ+B(T)
Estimation ponctuelle Propriétés d’un estimateur
Propriétés d’un estimateur
T1
T2
E[T1] =E[T2] =θ
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une moyenne
Théorème
La variable aléatoireX¯ définie par X¯ = 1
n
∑n i=1
Xi
est unestimateur convergent et sans biaisdeµ
Exercice : prouver queX¯ est un estimateur non biaisé deµ.
E[ ¯X] =E [
1 n
∑n
i=1
Xi
]
= 1 nE
[ n
∑
i=1
Xi
]
= 1 n
∑n
i=1
E[Xi] =µ
La moyenne empirique calculée sur un échantillon est une bonne estimation de la moyenne dans la population.
ˆ µ= ¯x
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une moyenne
Théorème
La variable aléatoireX¯ définie par X¯ = 1
n
∑n
i=1
Xi
est unestimateur convergent et sans biaisdeµ Exercice : montrer queV[X¯]
=σn2 V[ ¯X] =V
[ 1 n
∑n i=1
Xi ]
= 1 n2
∑n i=1
V[Xi]
| {z }
=σ2
= σ2 n
A retenir
E[ ¯X] =µ V[ ¯X] = σ2 n
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une variance
Théorème
La variable aléatoireSech2 définie par
Sech2 = 1 n
∑n i=1
(Xi−µ)2,
est un estimateur convergent et sans biais deσ2uniquement siµest connue.
Exercice : Montrer queSech2 est un estimateur non biaisé deσ2uniquementsiµ est connue.
Correction :1 - Si µest connue : E[
Sech2 ]
=E [
1 n
∑n
i=1
(Xi−µ)2 ]
=E [
1 n
∑n
i=1
Xi2−2µ n
∑n
i=1
Xi+1 n
∑n
i=1
µ2 ]
E[ Sech2 ]
=1 n
∑n i=1
E[ Xi2]
−2µ n
∑n i=1
E[Xi]
| {z }
=µ
+µ2= 1 n
∑n i=1
E[ Xi2]
−µ2
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une variance
Correction :1 - Si µest connue (suite) Or par définition :
σ2=V[X] =E[X2]−E[X]2=E[X2]−µ2 Donc
E[X2] =σ2+µ2 Finalement :
E[ Sech2 ]
=1 n
∑n i=1
E[ Xi2]
−µ2 E[
Sech2 ]
=1 n
∑n i=1
(σ2+µ2)
−µ2 E[
Sech2 ]
=σ2+µ2−µ2=σ2
Donc siµest connue alorsSech2 est un estimateur sans biais deσ2.
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une variance
Correction :1 - Si µest connue (suite) Solution beaucoup plus simple :
E[ Sech2 ]
=E [
1 n
∑n i=1
(Xi−µ)2 ]
= 1 n
∑n i=1
E[
(Xi−µ)2]
=1 n
∑n i=1
V[Xi] =σ2
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une variance
Correction :2 - Si µest inconnue
On estimeµpar son estimateur sans biais :X¯. Donc : Sech2 = 1
n
∑n i=1
(Xi−X)¯ 2
E[ Sech2 ]
=E [
1 n
∑n i=1
(Xi−X¯)2 ]
=E [
1 n
∑n i=1
Xi2−X¯2 ]
= 1 n
∑n i=1
E[ Xi2]
−E[X¯2] Par définition :
{ σ2=V[X] =E[X2]−E[X]2=E[X2]−µ2 V[ ¯X] = σn2 =E[ ¯X2]−E[ ¯X]2=E[ ¯X2]−µ2
Donc {
E[X2] =σ2+µ2 E[ ¯X2] = σn2 +µ2
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une variance
Correction :2 - Si µest inconnue E[
Sech2 ]
=1 n
∑n i=1
E[ Xi2]
−E[X¯2] E[
Sech2 ]
=1 n
∑n
i=1
(σ2+µ2)
− (σ2
n +µ2 )
E[ Sech2 ]
=σ2+µ2−σ2 n −µ2 E[
Sech2 ]
=n−1 n σ2
Donc lorsqueµest inconnue mais estimée parX¯, la quantité
Sech2 = 1 n
∑n
i=1
(Xi−X)¯ 2, est un estimateur biaisé deσ2(sous-estimation).
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une variance
En pratique, la moyenneµest très souvent inconnue et estimée par X. Dans ce¯ cas :
Théorème
La variable aléatoireS2définie par
S2= 1 n−1
∑n i=1
(Xi−X¯)2
est unestimateur convergent et sans biaisdeσ2 Remarques
Remarquons que
S2= n n−1Sech2
Sinest grand, les deux estimateurs donnent des résultats très proches.
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une variance
Vocabulaire
Ecart-type de l’échantillon
sech= vu ut1
n
∑n
i=1
(xi−x¯)2
Déviation standard (anglicisme)
s= vu ut 1
n−1
∑n
i=1
(xi−x¯)2
Estimation ponctuelle Estimation d’une moyenne, variance, proportion
Estimation d’une proportion
Soitπune proportion d’un caractère dans une population que nous cherchons à estimer.
(Exemple : proportion de femmes dans la population française).
SoitK une v.a. discrète distribuée selon une loi binomialeB(n, π).
(Exemple :K associe à un échantillon de taille nle nombre de femmes.
Théorème
La fréquence observée dans un échantillon de taillenconstitue le meilleur estimateur deπ(Loi des grands nombres)
F =K n F est donc un estimateur convergent et sans biais.
Estimation par intervalles de confiance Définitions
Introduction
L’estimation ponctuelle d’un paramètre (moyenne, variance, proportion) peut varier d’un échantillon à l’autre.
Population Caract`ere ´etudi´e : X
Moyenne : µ Variance : σ2
Echantillon Al´eatoire de taillen {X1, X2, . . . , Xn}
nvariables al´eatoires ind´ependantes de mˆeme loi queX
Echantillon 1 {x11, x12, . . . , x1n}
Population
Caract`ere ´etudi´e : Taille (X) Moyenne : µ Variance :σ2
Xi: v.a. qui associe `a un individuisa taille
Echantillon 2 {x21, x22, . . . , x2n}
Echantillon 3 {x31, x32, . . . , x3n}
Echantillon k {xk1, xk2, . . . , xkn} . . .
Variance obs. :s2ech2 Variance obs. :s2ech3 Variance obs. :s2echk Moyenne obs. : ¯x2 Moyenne obs. : ¯x3 Moyenne obs. : ¯xk Variance obs. :s2ech1
Moyenne obs. : ¯x1 X¯=1nPn
i=1Xi
S2ech=n1Pn
i=1 Xi−X¯2
Estimation par intervalles de confiance Définitions
Introduction
L’estimation ponctuelle d’un paramètre (moyenne, variance, proportion) peut varier d’un échantillon à l’autre. On dit qu’elle ne prend pas en compte les fluctuations d’échantillonnage.
Comment avoir confiance en cette estimation ponctuelle ?
Il est nécessaire de lui associer un intervalle qui contient, avec une certaine probabilité, la vraie valeur du paramètre dans la population.
⇒Estimation par intervalle de confiance
Estimation par intervalles de confiance Définitions
Définition
L’estimation par intervalle de confiancedeθ consiste à associer à un échantillon un intervalle aléatoire[θb1,θb2]qui contientθavec une certaine probabilité. Cet intervalle est appeléintervalle de confiance deθ
On appellerisque d’erreurla probabilitéαque l’intervalle de confiance ne contienne pas la vraie valeur deθ.
On appelleniveau de confiancela probabilité 1−αque l’intervalle de confiance contienne la vraie valeur deθ.
P(θb1< θ <θb2) =1−α
SoitT l’estimateur d’un paramètreθ. Posonsθb1=T−ϵetθb2=T +ϵ.
P(θ∈[θb1,θb2]) =P(T −ϵ < θ <T+ϵ) =1−α P(θ∈[θb1,θb2]) =P(θ−ϵ <T < θ+ϵ) =1−α
Estimation par intervalles de confiance Définitions
Définition
θ+"
θ−" θ
Loi de l’estimateurT
α 2 α
2 1−α
P(θ−"< T <θ+") = 1−α
Estimation par intervalles de confiance Définitions
Définition
Pour déterminer cette probabilité, il est nécessaire de connaître la loi de probabilité de l’estimateurT.
On l’appelle ladistribution d’échantillonnagede T.
Dans le cas des estimateurs d’une moyenne (X¯) et d’une proportion (F), le théorème central-limite va nous permettre de déterminer les distributions d’échantillonnage deX¯ etF.
Estimation par intervalles de confiance Définitions
Rappel
Théorème "Central - Limite" (T.C.L.)
Théorèmetrès important en statistique
Idée :convergence en loi de la somme dev.a. i.i.d.vers la loi normale.
Utile dans l’approximation d’une loi par une loi normale (Binomiale, Poisson,...)
Utile, essentiel dans la théorie de l’estimation
Estimation par intervalles de confiance Définitions
Rappel
Théorème "Central - Limite" (T.C.L.)
Contexte : Epreuves répétées caractérisées par une suiteX1,X2, ...,Xndev.a. i.i.d..
E[Xi] =µetV[Xi] =σ2. SoitSn=∑n
i=1Xi etZnla variable centrée-réduite : Zn= Sn−nµ
σ√ n
Théorème
∀x, la fonction de répartitionFn(x) =P(Zn≤x)est telle que
nlim→∞Fn(x) = Φ avecΦfonction de répartition deN(0,1)
Estimation par intervalles de confiance Définitions
Distribution d’échantillonnage de X ¯
Théorème (Grands échantillons)
SoitX unev.a. continue de moyenneµet de varianceσ2. En utilisant le T.C.L., on montre que :
X¯ −→
n→∞N (
µ, σ
√n )
ou encore X¯ −µ σ/√
n −→
n→∞N(0,1) Quelque soit la loi deX. En pratique, valable pourn⩾30.
Siσ2est inconnue, on l’estime par s2 : X¯ −→
n→∞N (
µ, s
√n )
Estimation par intervalles de confiance Définitions
Distribution d’échantillonnage de X ¯
Théorème (Petits échantillons)
On suppose queX ∼ N(µ, σ2). Alors : Siσ2est connue alorsX¯ ∼ N
( µ, σ
√n )
Siσ2est inconnue et estimée pars2alors : X¯ −µ
s/√
n ∼ Tn−1d.d.l.
En pratique, on considère un petit échantillon lorsquen<30.
Estimation par intervalles de confiance Définitions
Distribution d’échantillonnage de F
Théorème
Soitπla proportion d’un caractère dans une population. D’après leT.C.L. on montre que :
Fn−→
→∞N (
π,
√π(1−π) n
)
En pratique, cette approximation est valable lorsque : n⩾30 etmin{nπ,n(1−π)}>5
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n<30)
IC d’un moyenne - Petits échantillons (n < 30)
On considère queX ∼ N(µ, σ) Intervalle de confiance d’une moyenne
σ2connue (rare)
IC
1µ−α= [¯
x−z1−α/2 σ
√n; ¯x+z1−α/2 σ
√n ]
σ2inconnue mais estimée pars2
IC
1µ−α= [¯
x−t1−α/2;n−1 s
√n; ¯x+t1−α/2;n−1 s
√n ]
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n<30)
IC d’un moyenne - Petits échantillons (n < 30)
Démonstration
On cherche(cµ1,cµ2)tel queP(cµ1< µ <µc2) =1−α(définition IC).
On supposeσconnu doncX¯ ∼ N(µ,√σn).
PosonsX¯∗= σ/X¯−√µ
n ∼ N(0,1) Posonsz1−α
2 tel que P( ¯X∗<z1−α2) =1−α2
z1−α/2
−z1−α/2 0
N(0,1)
α 2 α
2 1−α
Par symétrique de la courbe :P(−z1−α
2 <X¯∗<z1−α
2) =1−α
P(−z1−α2 <
X¯ −µ σ/√
n <z1−α2) =1−α P(−X¯ −z1−α
2σ/√
n<−µ <−X¯ +z1−α
2σ/√
n) =1−α P( ¯X−z1−α2σ/√
| {z n} b
µ1
< µ <X¯ −z1−α2σ/√
| {z n} b
µ2
) =1−α
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n<30)
IC d’un moyenne - Petits échantillons (n < 30)
Autre Démonstration
On cherche(cµ1,cµ2)tel queP(cµ1< µ <µc2) =1−α(définition IC).
On supposeσconnu doncX¯ ∼ N(µ,√σn).
On sait queP(cµ1< µ <cµ2) =1−α=P(µ−ϵ <X¯ < µ+ϵ). Posons X¯∗=X¯−σµ ∼ N(0,1)Donc
P(µ−ϵ <X¯ < µ+ϵ) =P
(µ−ϵ−µ σ/√
n <X¯∗< µ+ϵ−µ σ/√
n )
=1−α P(µ−ϵ <X¯ < µ+ϵ) =P
( −ϵ σ/√
n <X¯∗< ϵ σ/√
n )
= Φ( ϵ σ/√
n)−Φ( −ϵ σ/√
n) P(µ−ϵ <X¯ < µ+ϵ) =2Φ( ϵ
σ/√
n)−1=1−α DoncΦ(σ/ϵ√n) =1−α2. Posonsz1−α
2/Φ(z1−α
2) =1−α2. Donc σ/ϵ√n=z1−α
2 ⇔ϵ=z1−α
2σ/√
n
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n<30)
IC d’un moyenne - Petits échantillons (n < 30)
Autre Démonstration
En remplaçant dans la définition d’un intervalle de confianceT parX¯ etθparµ: P
(
X¯ −z1−α/2 σ
√n < µ <X¯ −z1−α/2 σ
√n )
=1−α
Donc l’intervalle de confiance au niveau de confiance 1−αd’une moyenne sur un échantillon de taillenest donné par :
IC
1µ−α= [¯
x−z1−α/2 σ
√n; ¯x+z1−α/2 σ
√n ]
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n<30)
IC d’un moyenne - Petits échantillons (n < 30)
Exemple
On suppose que le taux de cholestérol dans une population est distribué selon un loi normale de paramètres inconnusµetσ.
De cette population est extrait un échantillon de 20 personnes. La moyenne empirique du taux de cholestérol est dex¯=1.8 et l’écart-type empirique (déviation standard) est égal às=0.1.
Donner un intervalle de confiance de la moyenne du taux de cholestérol dans la population au niveau de confiance 95%
Donner un interprétation des bornes de l’IC
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n<30)
IC d’un moyenne - Petits échantillons (n < 30)
Exemple
Nous sommes dans le cadre d’un petit échantillonn=20<30 La distribution normale du taux de cholestérol dans la population est supposée.
La variance dans la populationσ2est inconnue mais estimée pars2
IC
95%µ = [¯
x−t1−α/2;n−1 s
√n; ¯x+t1−α/2;n−1 s
√n ] t1−α/2;n−1=t0.975;19=2.093
IC
95%µ = [1.75;1.85]Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
Intervalle de confiance d’une moyenne
σ2connue (rare)
IC
1µ−α= [¯
x−z1−α/2 σ
√n; ¯x+z1−α/2 σ
√n ]
σ2inconnue mais estimée pars2
IC
1µ−α= [¯
x−z1−α/2 s
√n; ¯x+z1−α/2 s
√n ]
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
Exemple
On désire estimer la taille moyenne (cm) des hommes en France. On sait que son écart-typeσ=14.
On tire un échantillon de 100 français. La moyenne empirique de la taille sur l’échantillon est¯x=175.
Calculer un intervalle de confiance la taille moyenne des français au seuil de confiance :
90 % 95 % 99 %
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
Exemple
1. Seul de confiance 1−α=0.90
IC
90%µ = [¯
x−z1−α/2 σ
√n; ¯x+z1−α/2 σ
√n ]
Déterminerz1−α/2=z1−0.1/2=z1−0.05=z0.95
Table de la loi Normale centrée réduite : trouverz0.95 tel que Φ(z0.95) =0.95
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
z0.95
−z0.95 0
N(0,1)
5%
5% 90%
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
On trouve quez0.95≈1.64. Donc l’intervalle de confiance a pour valeur :
IC
90%µ = [175−1.64 14
√100;175+1.64 14
√100 ]
IC
90%µ = [172.7;177.3]La taille moyenne des français a 90% de chances de se trouver dans l’intervalle [172.7;177.3]
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
2. Seul de confiance 1−α=0.95
On cherche la valeur dez1−α/2=z1−0.05/2=z1−0.025=z0.975
z0.975≈1.96 Donc l’intervalle de confiance a pour valeur :
IC
95%µ = [175−1.96 14
√100;175+1.96 14
√100 ]
IC
95%µ = [172.3;177.7]La taille moyenne des français a 95% de chances de se trouver dans l’intervalle [172.3;177.7]
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
3. Seul de confiance 1−α=0.99
On cherche la valeur dez1−α/2=z1−0.01/2=z1−0.005=z0.995
z0.995≈2.58 Donc l’intervalle de confiance a pour valeur :
IC
99%µ = [175−2.58 14
√100;175+2.58 14
√100 ]
IC
99%µ = [171.4;178.6]La taille moyenne des français a 99% de chances de se trouver dans l’intervalle [171.4;178.6]
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
Remarque par rapport à l’exemple :
IC
90%µ = [172.7;177.3]IC
95%µ = [172.3;177.7]IC
99%µ = [171.4;178.6]Plus le seul de confiance est élevé, plus la taille de l’IC est importante.
Estimation par intervalles de confiance Intervalle de confiance d’une moyenne (n⩾30)
IC d’un moyenne - Grands échantillons (n ⩾ 30)
Retour à l’exemple :
Avec un échantillon de 100 français, l’intervalle de confiance à 95% est de :
IC
95%µ = [172.3;177.7]Considérons que nous avons un échantillon de 1000 français, sur lequel la moyenne empirique est la même (¯x=175).
IC
95%µ = [174.7;175.3]Plus la taille de l’échantillon est importante, plus la taille de l’IC se réduit.
→la précision de l’estimation est fonction de la taille de l’échantillon.
Estimation par intervalles de confiance Intervalle de confiance d’une proportion
Intervalle de confiance d’une proportion
Soitπla proportion d’un caractère dans une population.
On noteπˆ=k/nla proportion observée sur un échantillon de taillen.
Intervalle de confiance d’une proportion Sin⩾30 etmin{nˆπ,n(1−ˆπ)}>5
IC
1π−α= [ˆ
π−z1−α/2
√π(1ˆ −π)ˆ
n ; ˆπ+z1−α/2
√π(1ˆ −π)ˆ n
]
Estimation par intervalles de confiance Intervalle de confiance d’une proportion
Intervalle de confiance d’une proportion
Exemple
Quelques jours avant une élection très importante opposant le candidatAet le candidatB, on réalise un sondage sur 100 individus.
On obtient 54% d’intention de vote pour le candidatAcontre 46% pour le candidatB.
Calculer un intervalle de confiance à 95% de la proportion de personnes favorables àAdans la population.
Que dire de cet intervalle ? De la taille de l’échantillon ?
Estimation par intervalles de confiance Intervalle de confiance d’une proportion
Intervalle de confiance d’une proportion
Exemple
Soitπla proportion de votants pour le candidatAdans la population.
Soitˆπla proportion de votants pour le candidatAdans l’échantillon de taille 100.ˆπ=0.54
n⩾30,nˆπ=54>5,n(1−π) =ˆ 46>5
IC
95%π = [ˆ
π−z1−α/2
√ˆπ(1−π)ˆ
n ; ˆπ+z1−α/2
√π(1ˆ −π)ˆ n
]
z1−α/2=z0.975=1.96
IC
95%π = [0.4423;0.6377]Estimation par intervalles de confiance Intervalle de confiance d’une proportion
Intervalle de confiance d’une proportion
Exemple
L’intervalle de confiance est relativement grand. On ne peut conclure quant au fait que le candidatAgagne les élections.
La taille de l’échantillon n’est pas assez importante pour avoir une précision permettant de se prononcer sur la victoire deA
Vers le nombre de sujets nécessaire...
Quelle serait la taille minimale de l’échantillon pour avoir un idée sûre à 95% du résultat du vote ?
Estimation par intervalles de confiance Intervalle de confiance d’une proportion
Intervalle de confiance d’une proportion
Exemple
IC
95%π = [ˆ
π±z1−α/2
√π(1ˆ −π)ˆ n
]
ˆ π=0.54
Il faudrait une précision de l’IC≤0.03 pour pouvoir tirer une conclusion.
z1−α/2
√π(1ˆ −π)ˆ n ≤0.03 ˆ
π(1−π)ˆ
n ≤
( 0.03 z1−α/2
)2
n≥ π(1ˆ −ˆπ) ( 0.03
z1−α/2
)2 = 0.54×0.46 (0.03
1.96
)2 ≈1061