• Aucun résultat trouvé

II- Estimation et prévision par intervalle Définition Pour un nombre

N/A
N/A
Protected

Academic year: 2022

Partager "II- Estimation et prévision par intervalle Définition Pour un nombre"

Copied!
5
0
0

Texte intégral

(1)

STATISTIQUE, cours de Mme PRADEL

II- Estimation et prévision par intervalle

Définition

Pour un nombre η fixé entre 0 et 1, à toute réalisation (x1, ... xn) de l'échantillon on associe un intervalle I(x1, ..., xn) de telle façon que pour toute valeur θ du paramètre, la probabilité que l'intervalle aléatoire I(X1, ..., Xn) contienne θ soit supérieure ou égale à η :

∀ θ, Ρθ{I(X1, ..., Xn) ∋ θ} ≥ η

• Le nombre η est le niveau de confiance de l'intervalle.

• I(X1, ... Xn) est un intervalle de confiance de niveau η.

• Parmi les intervalles de confiance de niveau η, on recherchera ceux de longueur minimum.

Une méthode générale d'estimation par intervalle

On choisit une statistique "bon" estimateur de θ, à partir de laquelle on construit une fonction des observations et de θ, notée Z(X1, ..., Xn,θ), dont la loi est entièrement connue lorsque θ est donné.

Pour chaque θ, on calcule un intervalle Wθ = [a, b] pour Z, de probabilité η

∀ θ Pθ{Z ∈ Wθ}=η

soit ∀ θ Pθ{a(θ) ≤ Z(X1, ..., Xn,θ) ≤ b(θ)} = η

En résolvant ces inégalités par rapport à θ, si a(θ) et b(θ) sont des fonctions monotones de θ, on obtient un intervalle aléatoire qui a la probabilité η de recouvrir θ :

a(θ) ≤ Z(X1, ..., Xn) ≤ b(θ) ⇔ A(X1, ..., Xn) ≤ θ ≤ B(X1, ... Xn)

soit ∀ θ Pθ{A(X1, ... Xn) ≤ θ ≤ B(X1, ..., Xn)} = Pθ{a(θ) ≤ Z ≤ b(θ)} = η L'intervalle [A(X1, ..., Xn), B(X1, ..., Xn)] est l'intervalle I(X1, ..., Xn) cherché.

Remarque

Si, la loi de Z étant discrète, il n'est pas possible d'obtenir un intervalle de probabilité exactement égale à η, on choisit Wθ de façon que sa probabilité soit supérieure à η, et la plus voisine possible de η (de façon à ce que sa longueur soit la plus petite possible).

Représentation graphique

Le graphique est fait dans le cas où Z est uniquement fonction des X1, ..., Xn.

« Résoudre les inégalités » a(θ) ≤ Z ≤ b(θ) par rapport à θ pour Z = z observé revient alors à trouver l'ensemble des θ tels que a(θ) ≤ z ≤ b(θ).

Remarquer que lorsque les bornes a(θ) et b(θ) sont croissantes en θ comme sur notre exemple, c’est la courbe des b(θ) qui conduit à la borne inférieure A(Z) de l’intervalle de confiance, et celle des a(θ) qui conduit à la borne supérieure B(Z).

z

θ Z

b(θ)

a(θ)

A(z) θ B(z)

(2)

Notes de cours, estimation et prévision par intervalle p. 2 Remarque

Quand on aura vu la théorie des tests, pour chaque θo on prendra pour intervalle [a(θ0), b(θ0)] la région

d'acceptation de θ0 pour tester θ = θ0 contre θ ≠ θ0 au seuil 1 - η. L'intervalle de confiance apparaît alors comme l'ensemble des valeurs de θ qui auraient été acceptées au vu de l'échantillon observé au seuil (1-η).

Intervalle de confiance pour une proportion (paramètre d'une loi de BERNOULLI).

X1, ..., Xn est un n-échantillon d’une loi de Bernoulli B(1, p). Le "meilleur" estimateur de p est

n X F

n

i i n

=

= 1 L'intervalle V(p) = [a(p), b(p)] pour Fn , de probabilité η, est tel que : P{a(p) ≤ Fn ≤ b(p)} = η

Si n est assez grand (c’est-à-dire np(1-p) >15) :

( )

 

 −

# n

p p p

N

Fn 1

, .

L’intervalle de longueur minimum de probabilité η est centré autour de l’espérance mathématique p.

En lisant dans la table de la loi normale centrée réduite on lit t tel que P{U ≤ t} = η, et on en déduit :

( ) =η





t

n p p

p t F

P n

1

D'où l'intervalle

( ) ( )



 

 − − + −

= n

p t p n p

p t p p p

W( ) 1 ; 1

La résolution numérique des inégalités conduit à A(fn) < p < B(fn) où les deux bornes sont les racines d’une équation du second degré en p : (n + tη2 ) p2 - (2nFn + tη2) p + nFn2 ≤ 0.

En construisant point par point les courbes représentatives de

( ) ( )

n p t p

p p

a = − 1− et

( ) ( )

n p t p

p p

b

+

= 1 ,

(ce sont des portions d'ellipses) on peut en déduire graphiquement pour fn donné les limites de l'intervalle de confiance I(x1... xn). On dispose d'abaques donnant ces courbes pour quelques valeurs de η, et quelques valeurs de n. On lit dans ce cas directement sur l'abaque l'intervalle correspondant du fn observé.

Si on ne dispose pas d'abaque, on peut simplifier les calculs en remplaçant dans l'expression de a et b l’élément

( )

n p

p1− par une valeur approchée (seule la méthode approchée est au programme de licence).

a) On remplace p(1-p) par son estimateur Fn (1-Fn) :

η









− ≤

≤ −

t

n F I F

p t F

P p

n n

n

p ( )

:

η

≅







 −

+

− ≤

n

F t F

F n p

F t F

F P

p p n n(1 n) n n(1 n) :

( )





 −

− +

= n

F t F

n F F t F

F X

X

I n n n n n n(1 n)

), 1 ,..., (

1 de niveau de confiance voisin de η.

b) On remplace p(1-p) par sa valeur maximum 1/4.

p Fn

b(p)

a(p) fn

A(fn) p B(fn) 1 0

(3)

Notes de cours, estimation et prévision par intervalle p. 3 η

≥







− ≤

t

n p t F

P

p p n

25 , : 0

η

≥





 − ≤ ≤ +

p F t n

t n F P

p: p n 0,5 n 0,5

( )

= + 

t n n F t F X X

I 1,..., n n 0,5, n 0,5 de niveau de confiance supérieur ou égal à η.

Intervalle de confiance pour l'espérance mathématique d'une loi normale

1°) Lorsque la variance σ2 est connue

L’estimateur de m est X qui suit une loi ( , )

2

m n

N σ . L'intervalle Vm = [a(m), b(m)] pour X, de probabilité η est tel que P{a(m) ≤ X ≤ b(m)} = η.

On lit dans la table de la loi normale N(0,1) pour n donné le nombre u tel que

σ =η









− ≤

u

n m u X P

soit ∀m, σ σ =η

+

u n m n X

u m P

on en déduit l'intervalle de confiance η pour m :



 

 − +

= X u n

u n X

I σ σ

;

Pour η = 95%, par exemple, u = 1.96

Puisque a(m) et b(m) sont ici des fonctions linéaires de m, leurs représentations sont des droites et la résolution des inéquations est faite directement sans nécessiter de graphique.

2°) Lorsque la variance σ2 est inconnue

En posant

( )

1 ,

1

2

2

=

n X X S

n

t on sait que X m S n

/

suit une loi de STUDENT à n-1 degrés de liberté.

On lit dans la table de la loi de Student, pour η fixé, le nombre t tel que F t X m S n t

− ≤ − ≤





= η L'intervalle de confiance pour m est donc I X t S

n X t S

= − + n



 , 

Intervalle de prévision d’une variable aléatoire X

Comme pour la prévision ponctuelle, on traite le cas où la variable à prévoir n'est pas corrélée avec les observations qui en ont été faites.

On désire calculer un intervalle de probabilité η donnée pour Yo ≈ N(m ; σ2)

• si m et σ2 sont connus : intervalle de probabilité, dont les bornes sont non aléatoires

• si m et σ2 sont estimés : intervalle de prévision, dont les bornes seront aléatoires.

(4)

Notes de cours, estimation et prévision par intervalle p. 4

La seule intervention de l’information dans la prévision sera de permettre l’estimation des paramètres définissant la loi de Yo.

Prévision d’une variable normale Yo ≈ N(m ; σ2) )

1

; 0 ( m N U Yo− ≈

= σ

Pour un niveau de confiance η, P{U≤uη} = η σ η η

η =





 − ≤

Y m u

u

P oP

{

muησYom+uησ

}

=η

L’intervalle de probabilité η peut ainsi être interprété comme un intervalle de prévision de niveau η pour Yo Espérance et variances inconnues pour Yo ≈ N(m ; σ2)

Les paramètres m et σ2 sont estimés à partir d’un n-échantillon de la loi N(m ; σ2), par 1 ,

) ( et

1 1

2 2

1

=

=

Y S Yn Y

Y n

n n i

i

La variable U ne peut plus être utilisée, mais si on cherche à remplacer m et σ2 par leurs estimateurs, on peut définir une variable de loi connue :

(a) l’indépendance de Yo et de l’échantillon (Y1,.., Yn) entraîne que :

( )

0;1 1 1

; 0

2

2 N

n Y U Y

N n Y

Yo o

+

= −

⇒

 

 +

σ σ σ

(b) la variance empirique S2 est indépendante de Yo comme de la moyenne empirique : )

1 ) (

1

( 2

2

2 ≈ −

S n

n χ

σ indépendante de U

(c) la variable Z suit un Student à (n-1) degrés de liberté : )

1 1 (

1

≈ +

= − T n

S n Y Z Yo

Pour un niveau de confiance η, on lit dans la table de la loi de Student la valeur tη ayant la probabilité η d’être dépassée en valeur absolue par une variable de Student à (n-1) degrés de liberté. On en déduit l’intervalle de prévision de niveau η pour Yo.

η η

η =





 − + ≤ ≤ + +

S n t Y n Y

S t Y

P o 1

1 1 1

Prévision de la variable expliquée dans le cas d’un modèle linéaire standard normal Le modèle postulé ici est :

Yo ≈ N(a xo + b ; σ2)

Pour i = 1,…, n : Yi ≈ i.i.d. N(a xi + b ; σ2) indépendantes de Yo.

On suppose également que les xi ne sont pas toutes égales, et que a et b sont des réels quelconques a priori.

Le principe des calculs faits dans le cas précédent est encore valable, mais ici l’espérance mathématique de Yo

dépend de deux paramètres, qui sont estimés par la méthode des MCO (meilleur estimateur dans le cas d’un modèle linéaire standard comme c’est ici le cas). On sait alors que :

( ) ( )

( )

ˆˆ , , ˆ

( )

ˆ , ov

( )

ˆ,ˆ 12, 2 22

2 11

2V V b V c a b V

a V

b b E a a E

σ σ

σ = =

=

=

=

où les coefficients V11, V12 et V22 sont des fonctions des (x1,…, xn), et la variance σ2 est estimée par la variance résiduelle :

(5)

Notes de cours, estimation et prévision par intervalle p. 5

( )

2 ˆ ˆ

ˆ 2 1

2 2

=

=

=

n b x a Y n

SCR

n

i

i i

σ

(a) E

(

Yoaˆxobˆ

)

=axo+baxob=0 et

( ) ( ) ( ) ( ) [

11 22 12

]

2 2 2

2 ˆ ˆ 2 covˆ,ˆ 1 2

ˆx bˆ xV a Vb x ab x V V xV

a Y

V oo − =σ + o + + o =σ + o + + o l’indépendance de Yo et de l’échantillon (Y1,.., Yn) entraîne que :

[ ]

( ) ( )

0;1

2 1

ˆ ˆ 2

1

; ˆ 0 ˆ

12 22

11 12 2

22 11 2

2 N

V x V V x

b x a U Y

V x V V x N

b x a Y

o o

o o o

o o

o

+ + +

= −

⇒ +

+ +

− σ σ

(b) la variance résiduelle est indépendante de Yo comme des estimateurs MCO de a et b, et elle n’a plus que n-2 degrés de liberté :

) 2 ˆ (

) 2

( 2

2 2

− ≈

n χ n

σ

σ indépendante de U

(c) la variable Z suit un Student à (n-2) degrés de liberté (voir définitions des lois dans lois03.pdf) )

2 2 (

1 ˆ

ˆ ˆ

12 22 11

2

+ + +

= T n

V x V V x

b x a Z Y

o o

o o

σ

Pour un niveau de confiance η, on lit dans la table de la loi de Student la valeur tη ayant la probabilité η d’être dépassée en valeur absolue par une variable de Student à (n-2) degrés de liberté. On en déduit l’intervalle de prévision de niveau η pour Yo.

{

aˆx +bˆtησˆ 1+x2V11+V22+2xV12 Y aˆx +bˆ+tησˆ 1+x2V11+V22 +2xV12

}

=η

P o o o o o o o

Si on note σˆa2=σˆ2V11, σˆb2=σˆ2V22 et σˆab =σˆ2V12 les variances et covariances estimées des estimateurs MCO de a et b, on peut aussi écrire :

{

axo+btη σ +xoσa+σb + xoσabYoaxo+b+tη σ +xoσa+σb + xoσab

}

=η P ˆ ˆ ˆ2 2ˆ2 ˆ2 2 ˆ ˆ ˆ ˆ2 2ˆ2 ˆ2 2 ˆ

Ces différentes estimations sont fournies par les logiciels de régression utilisés pour le calcul des MCO, excepté peut-être pour la covariance estimée des estimateurs de a et b (il faut alors expressément en demander

l’affichage).

Références

Documents relatifs

Dénition Une expérience aléatoire est un processus qui peut être répété, dont le résultat n'est pas connu à l'avance, mais dont l'ensemble des résultats possibles est

Définition Une expérience aléatoire est un processus qui peut être répété, dont le résultat n’est pas connu à l’avance, mais dont l’ensemble des résultats possibles

Il faut donc pour chaque simulation compter le nombre de 1 dans la liste pour cela on utilisera la fonction somme (accessible dans le menu y … 9 MATH 5 ) sur Texas ou Sum

Le but du problème est de déterminer quelle hauteur x de piquet choisir pour que le volume de la tente soit maximum.. •À quel intervalle x

Pour l’observation d’un échantillon donné, il correspond un nombre, réalisation de la statistique « moyenne des yn » : on calcule alors un intervalle numérique, réalisation

Le lancer d’un dé équilibré à 6 faces constitue une expérience aléatoire : il existe 6 résultats possibles, dont aucun n’est prévisible de façon certaine.. On peut

Lorsque l’on répète un « très grand »nombre de fois la même expérience aléatoire sur Ω, la distribution de fréquences obtenues se stabilise autour d’une distribution

On peut éventuellement faire un programme de calcul sur la calculatrice..  Propriété de durée de vie