ESIEA4èmeAnnée01-03-2012 FrédéricBertrand L’estimationparintervalles

(1)

L’estimation par intervalles

Frédéric Bertrand ¹

1

IRMA, Université de Strasbourg Strasbourg, France

ESIEA 4ème Année 01-03-2012

(2)

Introduction Principe Estimation de la moyenneµd’une variable gaussienne Estimation de la variance d’une variable gaussienne Estimation d’une proportion

Ce chapitre s’appuie essentiellement sur trois livres :

1

Le livre de Pascal Ardilly, administrateur de l’INSEE,

« Les techniques de sondage », Éditions Technip, 2006.

2

Le livre de Jean-Jacques Droesbeke, professeur à l’Université Libre de Bruxelles,

« Éléments de statistiques »,

Université de Bruxelles, Ellipses, 2001.

3

Le livre de Gilbert Saporta, professeur au CNAM à Paris

« Probabilités, Analyse de données et Statistique »,

Éditions Technip, 2006.

(3)

Sommaire

1 Introduction

2 Principe

3 Estimation de la moyenne µ d’une variable gaussienne

4 Estimation de la variance d’une variable gaussienne

5 Estimation d’une proportion

(4)

Il est souvent plus réaliste et plus intéressant de fournir un renseignement du type

a < θ < b plutôt que d’écrire sèchement

θ b _n = c.

Définition

Fournir un tel intervalle ]a; b[ s’appelle donner une estimation

par intervalle de confiance de θ ou une estimation ensembliste

de θ.

(5)

Sommaire

1 Introduction

2 Principe

3 Estimation de la moyenne µ d’une variable gaussienne

4 Estimation de la variance d’une variable gaussienne

5 Estimation d’une proportion

(6)

La méthode des intervalles de confiance est la suivante : Soit θ b _n un estimateur de θ dont nous connaîssons la loi de probabilité pour chaque valeur de θ.

Définition

Étant donné une valeur θ ₀ de θ, nous déterminons un intervalle de probabilité de niveau 1 − α pour b θ _n , c’est-à-dire deux bornes θ 1 et θ 2 telles que

P h

θ ₁ < θ b n < θ ₂ |θ = θ ₀ i

= 1 − α.

(7)

Remarque

Ces bornes dépendent évidemment de θ ₀ .

Remarque

Nous choisissons dans la plupart des cas un intervalle à risque

symétrique α/2 et α/2.

(8)

Nous adoptons la règle de décision suivante.

Soit θ b n (x ₁ , . . . , x n ) = θ b n (obs) la valeur observée de θ b n : si b θ n (obs) ∈]θ ₁ ; θ 2 [, nous conservons θ 0 comme valeur possible du paramètre θ ;

si b θ n (obs) 6∈]θ ₁ ; θ ₂ [, nous éliminons θ ₀ .

Nous répétons cette opération pour toutes les valeurs de θ.

Définition

]a; b[ est qualifié d’un intervalle de confiance de niveau (1 − α) (coefficient de confiance).

Remarque

]a; b[ est un intervalle aléatoire car il dépend de θ b _n (obs).

(9)

]a, b[ s’obtient par : (

a = θ ⁻¹ ₂ ( θ b n (obs)) b = θ ⁻¹ ₁ (b θ n (obs)) .

Remarque

Si nous augmentons 1 − α, nous augmentons la longueur de l’intervalle de probabilité.

Remarque

Si n augmente, comme θ b n est supposé convergent, Var h θ b n

i

diminue donc ]θ 1 ; θ 2 [ diminue.

(10)

La varianceσ²de la populationUest connue La varianceσ²de la populationUest inconnue

Sommaire

1 Introduction

2 Principe

3 Estimation de la moyenne µ d’une variable gaussienne

4 Estimation de la variance d’une variable gaussienne

5 Estimation d’une proportion

(11)

b µ _n est le meilleur estimateur de µ et µ b _n suit une loi N

µ; σ ² n

.

Définition

L’intervalle de probabilité de µ b _n à 1 − α est : µ − u _1−α/2 σ

√ n < µ b n < µ + u _1−α/2 σ

√ n ,

où u p est le quantile d’ordre p pour la loi gaussienne centrée et

réduite.

(12)

Définition

L’intervalle de confiance de µ b n à 1 − α est :

µ b n (x ₁ , . . . , x n ) − u _1−α/2 σ

√ n < µ < b µ n (x ₁ , . . . , x n ) + u _1−α/2 σ

√ n ,

où u _1−α/2 = 1, 96 si 1 − α = 0, 95.

(13)

Nous utilisons le fait que T n−1 = √

n − 1 µ b n − µ S n

suit une loi de Student à (n − 1) degrés de liberté.

Définition

L’intervalle de probabilité pour T n−1 à 1 − α est :

−t _{n−1;1−α/2} < √

n − 1 µ b n − µ S n

< t _{n−1;1−α/2} ,

où t _{n−1;1−α/2} est le quantile d’ordre 1 − α/2 pour la loi de

Student à (n − 1) degrés de liberté.

(14)

Définition

L’intervalle de confiance pour µ à 1 − α est :

b µ _n (obs)−t _{n−1;1−α/2} S n (obs)

√ n − 1 < µ < µ b _n (obs)+t _{n−1;1−α/2} S n (obs)

√ n − 1 ,

ou bien

b µ n (obs)−t _{n−1;1−α/2} S _n,c (obs)

√ n < µ < µ b n (obs)+t _{n−1;1−α/2} S _n,c (obs)

√ n ·

Le théorème de la limite centrée a pour conséquence que les

intervalles précédents sont valables pour estimer µ d’une loi

quelconque lorsque la taille n de l’échantillon est assez grande.

(15)

Sommaire

1 Introduction

2 Principe

3 Estimation de la moyenne µ d’une variable gaussienne

4 Estimation de la variance d’une variable gaussienne

5 Estimation d’une proportion

(16)

La moyenne de la population est connue La moyenneµde la populationUest inconnue

Nous utilisons le fait que

1

S _n ^∗2 = 1 n

n

X

i=1

(X _i − µ) ² est le meilleur estimateur de la variance σ ² lorsque la moyenne µ est connue,

2

nS _n ^∗2

σ ² suit une loi du khi-deux à n degrés de liberté comme

la somme de n carrés de loi N (0; 1) indépendantes.

(17)

Définition

k ₁ et k ₂ sont les bornes de l’intervalle de probabilité d’une loi χ ² (n) si :

P

k ₁ < n S _n ^∗2 σ ² < k ₂

= 1 − α.

Définition

L’intervalle de confiance pour σ ² à 1 − α est : n S ^∗2 _n (x ₁ , . . . , x _n )

k ₂ < σ ² < n S _n ^∗2 (x ₁ , . . . , x _n )

k ₁ ·

(18)

La moyenne de la population est connue La moyenneµde la populationUest inconnue

Nous utilisons le fait que

1

S _n ² = 1 n

n

X

i=1

(X _i − µ b _n ) ² ,

2

nS _n ²

σ ² suit une loi du khi-deux à (n − 1) degrés de liberté

comme la somme de (n − 1) carrés de loi N (0; 1)

indépendantes.

(19)

Définition

l ₁ et l ₂ sont les bornes de l’intervalle de probabilité d’un χ ² (n − 1) si :

P

l ₁ < nS _n ² σ ² < l ₂

= 1 − α.

Définition

L’intervalle de confiance pour σ ² est alors : nS _n ² (x ₁ , . . . , x _n )

l ₂ < σ ² < nS _n ² (x ₁ , . . . , x _n )

l ₁ ·

(20)

Sommaire

1 Introduction

2 Principe

3 Estimation de la moyenne µ d’une variable gaussienne

4 Estimation de la variance d’une variable gaussienne

5 Estimation d’une proportion

(21)

Étant donné une population INFINIE (ou finie si le tirage s’effectue avec remise) où une proportion π _A des individus possède un certain caractère A, il s’agit de trouver un intervalle de confiance pour π A à partir de π b n,A , proportion trouvée dans un échantillon de taille n.

ESIEA4èmeAnnée01-03-2012 FrédéricBertrand L’estimationparintervalles

L’estimation par intervalles

Frédéric Bertrand 1

IRMA, Université de Strasbourg Strasbourg, France

ESIEA 4ème Année 01-03-2012

Ce chapitre s’appuie essentiellement sur trois livres :

Le livre de Pascal Ardilly, administrateur de l’INSEE,

« Les techniques de sondage », Éditions Technip, 2006.

Le livre de Jean-Jacques Droesbeke, professeur à l’Université Libre de Bruxelles,

« Éléments de statistiques »,

Université de Bruxelles, Ellipses, 2001.

Le livre de Gilbert Saporta, professeur au CNAM à Paris

« Probabilités, Analyse de données et Statistique »,

Éditions Technip, 2006.

Sommaire

1 Introduction

2 Principe

3 Estimation de la moyenne µ d’une variable gaussienne

4 Estimation de la variance d’une variable gaussienne

5 Estimation d’une proportion

Il est souvent plus réaliste et plus intéressant de fournir un renseignement du type

a < θ < b plutôt que d’écrire sèchement

θ b n = c.

Définition

Fournir un tel intervalle ]a; b[ s’appelle donner une estimation

par intervalle de confiance de θ ou une estimation ensembliste

de θ.

Sommaire

1 Introduction

2 Principe

3 Estimation de la moyenne µ d’une variable gaussienne

4 Estimation de la variance d’une variable gaussienne

5 Estimation d’une proportion

La méthode des intervalles de confiance est la suivante : Soit θ b n un estimateur de θ dont nous connaîssons la loi de probabilité pour chaque valeur de θ.

Définition

Étant donné une valeur θ 0 de θ, nous déterminons un intervalle de probabilité de niveau 1 − α pour b θ n , c’est-à-dire deux bornes θ 1 et θ 2 telles que

P h

θ 1 < θ b n < θ 2 |θ = θ 0 i

= 1 − α.

Remarque

Ces bornes dépendent évidemment de θ 0 .

Remarque

Nous choisissons dans la plupart des cas un intervalle à risque

symétrique α/2 et α/2.

Nous adoptons la règle de décision suivante.

Soit θ b n (x 1 , . . . , x n ) = θ b n (obs) la valeur observée de θ b n : si b θ n (obs) ∈]θ 1 ; θ 2 [, nous conservons θ 0 comme valeur possible du paramètre θ ;

si b θ n (obs) 6∈]θ 1 ; θ 2 [, nous éliminons θ 0 .

Nous répétons cette opération pour toutes les valeurs de θ.

Définition

]a; b[ est qualifié d’un intervalle de confiance de niveau (1 − α) (coefficient de confiance).

Remarque

]a; b[ est un intervalle aléatoire car il dépend de θ b n (obs).

]a, b[ s’obtient par : (

a = θ −1 2 ( θ b n (obs)) b = θ −1 1 (b θ n (obs)) .

Remarque

Si nous augmentons 1 − α, nous augmentons la longueur de l’intervalle de probabilité.

Remarque

Si n augmente, comme θ b n est supposé convergent, Var h θ b n

i

diminue donc ]θ 1 ; θ 2 [ diminue.

Sommaire

1 Introduction

2 Principe

3 Estimation de la moyenne µ d’une variable gaussienne

4 Estimation de la variance d’une variable gaussienne

5 Estimation d’une proportion

b µ n est le meilleur estimateur de µ et µ b n suit une loi N

µ; σ 2 n

.

Définition

L’intervalle de probabilité de µ b n à 1 − α est : µ − u 1−α/2 σ

√ n < µ b n < µ + u 1−α/2 σ

√ n ,

où u p est le quantile d’ordre p pour la loi gaussienne centrée et

réduite.

Définition

L’intervalle de confiance de µ b n à 1 − α est :

µ b n (x 1 , . . . , x n ) − u 1−α/2 σ

√ n < µ < b µ n (x 1 , . . . , x n ) + u 1−α/2 σ

√ n ,

Frédéric Bertrand ¹

θ b _n = c.

La méthode des intervalles de confiance est la suivante : Soit θ b _n un estimateur de θ dont nous connaîssons la loi de probabilité pour chaque valeur de θ.

Étant donné une valeur θ ₀ de θ, nous déterminons un intervalle de probabilité de niveau 1 − α pour b θ _n , c’est-à-dire deux bornes θ 1 et θ 2 telles que

θ ₁ < θ b n < θ ₂ |θ = θ ₀ i

Ces bornes dépendent évidemment de θ ₀ .

Soit θ b n (x ₁ , . . . , x n ) = θ b n (obs) la valeur observée de θ b n : si b θ n (obs) ∈]θ ₁ ; θ 2 [, nous conservons θ 0 comme valeur possible du paramètre θ ;

si b θ n (obs) 6∈]θ ₁ ; θ ₂ [, nous éliminons θ ₀ .

]a; b[ est un intervalle aléatoire car il dépend de θ b _n (obs).

a = θ ⁻¹ ₂ ( θ b n (obs)) b = θ ⁻¹ ₁ (b θ n (obs)) .

b µ _n est le meilleur estimateur de µ et µ b _n suit une loi N

µ; σ ² n

L’intervalle de probabilité de µ b _n à 1 − α est : µ − u _1−α/2 σ

√ n < µ b n < µ + u _1−α/2 σ

µ b n (x ₁ , . . . , x n ) − u _1−α/2 σ

√ n < µ < b µ n (x ₁ , . . . , x n ) + u _1−α/2 σ

où u _1−α/2 = 1, 96 si 1 − α = 0, 95.

−t _{n−1;1−α/2} < √

< t _{n−1;1−α/2} ,

où t _{n−1;1−α/2} est le quantile d’ordre 1 − α/2 pour la loi de

b µ _n (obs)−t _{n−1;1−α/2} S n (obs)

√ n − 1 < µ < µ b _n (obs)+t _{n−1;1−α/2} S n (obs)

b µ n (obs)−t _{n−1;1−α/2} S _n,c (obs)

√ n < µ < µ b n (obs)+t _{n−1;1−α/2} S _n,c (obs)

S _n ^∗2 = 1 n

(X _i − µ) ² est le meilleur estimateur de la variance σ ² lorsque la moyenne µ est connue,

nS _n ^∗2

σ ² suit une loi du khi-deux à n degrés de liberté comme

k ₁ et k ₂ sont les bornes de l’intervalle de probabilité d’une loi χ ² (n) si :

k ₁ < n S _n ^∗2 σ ² < k ₂

L’intervalle de confiance pour σ ² à 1 − α est : n S ^∗2 _n (x ₁ , . . . , x _n )

k ₂ < σ ² < n S _n ^∗2 (x ₁ , . . . , x _n )

k ₁ ·

S _n ² = 1 n

(X _i − µ b _n ) ² ,

nS _n ²

σ ² suit une loi du khi-deux à (n − 1) degrés de liberté

l ₁ et l ₂ sont les bornes de l’intervalle de probabilité d’un χ ² (n − 1) si :

l ₁ < nS _n ² σ ² < l ₂

L’intervalle de confiance pour σ ² est alors : nS _n ² (x ₁ , . . . , x _n )

l ₂ < σ ² < nS _n ² (x ₁ , . . . , x _n )

l ₁ ·