II - Estimation et Prévision Ponctuelles

(1)

7

II - Estimation et Prévision Ponctuelles

II.1. Rappels sur l'estimation

• Modèle

(

l

^,

c

, Θ) ou(

l

^,

k

^,

c

, Θ)

Paramètre θ scalaire (Θ = R) ou vectoriel (Θ= R

^K

)

• Estimateur : θ*= f(y

₁

,…, y

_N

; x

₁

,…, x

_N

)

• Biais = θ - E

_θ

(θ *)

θ* est dit sans biais si quel que soit θ : E

_θ

(θ*) = θ

L'estimateur θ* est fonction de variables aléatoires, il est lui aussi aléatoire.

E_θdésigne l'espérance mathématique selon une loi associée à la valeur θdu paramètre.

Le biais n'est défini que si θ* admet une espérance mathématique finie.

Exemple :

Soient y₁, y₂,..., y_Ni.i.d. loi de Poisson de paramètre λ(loi des événements rares et indépendants : par exemple, y_i= nombre de propositions d’embauche reçues durant le i-ème mois).

Y = N^N, P= l'ensemble des lois de Poisson, Θ= {réels > 0}

Soit l'estimateur λ* = Σy_n/N, moyenne empirique des y_n. Pour tout λ, E_λ[λ*] = Σ Ε_λ[y_i]/n = n λ/ n = λ.

⇒ l’estimateur λ* est sans biais Var[λ*] = Σ V_λ[y_i]/n²= n λ/n²= λ/n.

Le risque quadratique moyen est RQM = 0 + λ/n = λ/n

(2)

8

II.1 Rappels sur l'estimation (suite…)

• Risque Quadratique Moyen RQM = E

_θ

||θ - θ*||

²

RQM = ||biais||

²

+ ΣV(θ

_i^∗

) Si θ est scalaire, le RQM est

minimum si θ * est sans biais et de variance minimum (cela n’est plus vrai pour θ vectoriel).

θ est non aléatoire, θ* est aléatoire. E_θet V_θdésignent l’espérance et la variance calculées pour une loi associée à la valeur θ.

Pour un paramètre scalaire :

RQM = E_θ[θ-θ*]²= E_θ[θ - E_θ(θ*) + E_θ(θ*) -θ*]²

RQM = E_θ{ [θ - E_θ(θ*)]²+ [E_θ(θ*) -θ*]²+ 2 [θ - E_θ(θ*)] [E_θ(θ*) -θ*] }

• E_θ{ [θ - E_θ(θ*)]²} = [θ - E_θ(θ*)]²(car tout est certain dans l’expression) E_θ{ [θ - E_θ(θ*)]²} = biais²

• E_θ{[E_θ(θ*) -θ*]²} = V_θ[θ*] (définition de la variance)

• E_θ{[θ - E_θ(θ*)] [E_θ(θ*) -θ*] } = [θ - E_θ(θ*)] E_θ{ E_θ(θ*) -θ*}

E_θ{[θ - E_θ(θ*)] [E_θ(θ*) -θ*] } = [θ - E_θ(θ*)] [ E_θ(θ*) - E_θ( θ*)] = 0 RQM = biais²+ V_θ[θ*]

Si θest vectoriel, de dimension K, le risque quadratique moyen est défini par RQM = E_θ(θ-θ*)'(θ-θ*) = E_θΣ_k(θ_k-θ_k*)²= Σ_kE_θ(θ_k-θ_k*)²

RQM = Σ_k[ biais_k²+ V_θ(θ_k*)]

RQM = || biais||²+ Σ_kV_θ[θ_k*]

En anglais, RQM se traduit par MSE = Mean Square Error

(3)

9

II.1 Rappels sur l'estimation (suite…)

• Convergence

(en probabilité, presque sûre ou en moyenne quadratique) θ* est convergent si il « tend » vers la vraie valeur θ du

paramètre lorsque N tend vers l’infini (limite « en probabilité » ou « presque sûre » ou « en moyenne quadratique »)

• Condition suffisante de convergence

 Pour que θ * soit convergent, il suffit que : E

_θ

( θ *) → θ et V

_θ

( θ *) → 0.

L’estimateur est une fonction des observations : à chaque taille N d’échantillon, il correspond un estimateur θ_Ν^∗. Nous avons donc une suite de variables

aléatoires. La convergence d’une suite de variables aléatoires est définie de différentes manières. Nous considérons ici la convergence en probabilité.

Convergence en probabilité :

P[ θ_Ν^∗ -θ< ε] tend vers 1 quel que soit ε> 0.

(4)

10

II. 2 Méthodes d'estimation

II.2.a. Maximum de vraisemblance dans un modèle paramétrique Vraisemblance du paramètre = loi de probabilité des observations, considérée comme fonction du paramètre :

f(y

₁

,y

₂

,…y

_N

;θ) = l (θ)

[ ( ) ^θ ]

θ

l

Max

Estimateur du maximum de vraisemblance = solution de

Exemple : n-échantillon de loi de Bernoulli (indicatrice d'un événement, vaut 1 si l’événement est réalisé et 0 sinon)

Y≈B(1;p) P(Y = y) = p^y(1- p)^1-y pour y = 1 ou 0

Le maximum de vraisemblance a la même solution que le maximum de la logvraisemblance. Les dérivées de la logvraisemblance sont :

observée fréquence

ˆ 1

1

=

∑

= n

i yi

y n p

[ ] ( ) (

¹¹

)

⁰

1 1

1

2 2 2

2 <



 





− + −

−

∂ =

∂

−

= −



 





−

− −

∂ =

∂

p y p

n y p

L

p p

p y n p y p

n y p L

La dérivée par rapport à p est nulle pour

La dérivée seconde est négative : la solution correspond à un maximum

( ) ⁼ [ ( ) ⁻ ] ⁼

^∑⁼

^{( )} ⁻

⁻

^∑

⁼

=

∏

ⁿ − ⁿ ⁿ^N ⁿ ⁿ^N ⁿ

N

N y N y

i

y

p

y

p p

y y

y

¹

,

²

,..., ; 1

¹

1

¹

1

l

1

( ) ( ) N ( p )

n y n N

N p n y n p

y y

y

^N

 −



 



 ∑

− =

∑ +

= = ln 1

ln 1

; 1 ,..., , ln l

¹ ²

( ^y ^y ^y ^p ) ^N [ ^y ( ) ^p ( ) ^y ^{( )} ^p ]

L

¹

,

²

,...,

^N

; = ln + 1 − ln 1 −

(5)

11

II.2.b. Méthode des moments

Moments fonction de θ

Pour la loi L(y;θ), moments :

^m1= E_θ[y], m₂= Eθ[y²] θfonction des moments

Moments empiriques:

[ ]

[ ^y ^y ]

m

y m y

N N N N

2 2

1 1 2

1 1 1

ˆ ...

+ +

=

+ +

=

Estimateur de θ

( )

( _m _m )

g

m g m

, ˆ ˆ ˆ

2 2 1

2

2 1 1

1

=

= θ θ

( )

( _m _m )

g

m g m

2 2 1

2

2 1 1

1

, ,

=

= θ

( ) θ

( _θ ^θ _θ )

θ

2 1 2 2

2 1 1

1

f , f ,

=

= m m

Observation d’un N-échantillon (y

₁

,..,y

_N

)

Exemple : Un assureur étudie la distribution du coût d'un certain sinistre pour un certain type d'assuré. Un modèle classique attribue à ce coût Y une loi Gamma, de densité :

f ( y ; a , r ) =

^a^r^Γ¹^{( )}^r

y

^r⁻¹

e

⁻^y^a

si y > 0 0 sinon

 



où r et a sont des paramètres strictement positifs.

On peut montrer (car 2Y/a suit un chi-deux à 2r degrés de liberté) que m₁= E(Y) = r a

V = V(Y) = r a²

On en déduit : ^a⁼ ^{V Y}

( )

E Y

( )

et r=

[

E Y

( ) ]

²

V Y

( )

Les moments empiriques sont, pour un échantillon de taille n m ˆ ₁ = ¹n y_i

i=1

∑

n et ˆ V = ¹n y_i²

i=1

∑

n ⁻ ^m^ˆ¹²

L'estimateur par la méthode des moments est donc : a =ˆ V ˆ

m ˆ ₁ et ˆ r =

[ ]

m ˆ ₁ ² V ˆ

(6)

12

Exemple 1 : coût de sinistres

loi gamma, paramètres a et r positifs



 

 >

= Γ

− −

sinon

0 0 si

) 1 ( )

,

; (

1

e

/

y

r y r a

a y f

a r y

r







=

⇔ =

mV r

Vm a

2

( )

 ( )

 



=

= V ra Y

V

ra m Y

E

: :

2

Moments empiriques ⇒ estimateur de a et r :

(

^y ^m

)

V

y m

i N N i

i N

N i

ˆ ˆ ˆ

2 1

1 1 1

−

=

Σ Σ

=







=

= mV r

Vm a

ˆˆ ˆ

2

Remarques :

• Il est possible d’utiliser les moments centrés et les moments non centrés. Ici, la variance est plus pratique à utiliser que le moment non centré d’ordre 2. Le principe de la méthode est inchangé.

• Les moments centrés et non centrés sont liés par des relations. En ce qui concerne la variance :

( ) ( ) [ ( ) ]

( ^y ^y ) ^y ( ) ^y

Y Y E

E Y

V

N

i i

N N

i i

N

2 1

1 2 1

1 2

2 2

: empirique Variance

: ) (théorique Variance

−

=

−

=

∑

= =

(7)

13

Exemple 2 : durées d’attente

loi uniforme sur [0, θ], paramètre θ positif



 

 < <

=

sinon

0 0 si 1 )

;

( y θ θ ^y θ

f

m

= 2

⇔ θ

( ) _Y ₌ : _m ₌ θ ₂ E

Moyenne empirique ⇒ estimateur de θ :

m

^N

y

_i

N

Σ

i₌

=

1

ˆ

1

θ ˆ = 2 m ˆ

Noter que l’estimateur des moments est ici différent de l’estimateur du maximum de vraisemblance : la vraisemblance de θest ici :

( ) { }

( ) { _x _x }

x x

N N N N

,..., Max

si 1

sinon 0

et ,...,

si 1

1 1

>

=

>

= θ θ θ

θ θ θ

θ l l

Cette vraisemblance est une fonction décroissante de θ. Son maximum est atteint pour le plus petit θpossible, c’est à dire Max(x₁,…, x_N) (le maximum de

vraisemblance est atteint sur le bord du support de la vraisemblance, la dérivée n’y est pas nulle). L’estimateur du maximum de vraisemblance est donc :

{ _x _x

_N

}

MV

Max ,...,

ˆ =

₁

θ

(8)

14

II.2.c. Ajustement par les Moindres Carrés Ordinaires

Dans la famille des fonctions : f(x ; θ), θ ∈ Θ, la fonction "la plus proche" des valeurs observées (y

₁

, x

₁

),(y

₂

, x

₂

),..,( y

_N

, x

_N

), est celle correspondant à la solution de :

( )

[ ]

 



 

 ∑ −

= N

i

y

i

x

i

Min

1

;

2

f θ

( ) ^; ^θ ^ˆ

θ

f

ˆ x

y

i

=

i

θ

ˆ

est la valeur ajustée par les MCO

Les fonctions utilisées pour de tels ajustements sont :

fonctions exponentielles , droites (ou fonctions affines), etc…

Nous traiterons en particulier l’ajustement MCO à une droite.

La fonction solution est dite ajustée par les MCO.

La valeur optimale de θest l’estimateur MCO de θ.

Les erreurs sont les résidus MCO

et la valeur minimum atteinte est la somme des carrés des résidus, notée SCR

( ^; ^θ ^ˆ )

ˆ

_t

y

_t

f x

_t

u = −

θ

^ˆ

(9)

15

(i) Cas du modèle linéaire sans constante

le modèle

( ) ( )

[ y

1

a x

¹ ²

... y a x

²

]

Min

_N _N

a

− + + −

x x y x

x

x y x y

a

i i

i i i

N

N N

2 2

12 1 1

...

ˆ ...

Σ Σ

+ =

+ +

= +

c’est :

la famille de fonctions : {y = ax, a réel}

L'estimateur MCO de a est solution de :

( ) 0 certaines,

,..., 1 ,

=

= +

=

E u x

N u i

a x y

i i

i i i

La condition nécessaired'ordre 1 s'écrit en dérivant la fonction objectif par rapport à a :

∂

∂^a

[ (

^y¹⁻ ^ax¹

)

²+...+

(

y_n −ax_n

)

²

]

^{= −2}^x¹

⁽

^y¹ ⁻^ax¹

⁾

^−...⁻²^xⁿ

⁽

^yⁿ ⁻^axⁿ

⁾

⁼ ⁰

d'où on tire :

a =ˆ x₁y₁+...+x_ny_n x₁²+...+x_n² =

x_iy_i

∑

i

x_i²

∑

i

Propriétés de cet estimateur : on peut écrire â sous la forme suivante

a =ˆ

x_iy_i

∑

i

x_i²

∑

i ⁼

x_i

(

ax_i+u_i

)

∑

i

x_i²

∑

i ⁼^a⁺

x_iu_i

∑

i

x_i²

∑

i

D'où l'on tire facilement que E(â) = a

L'estimateur MCO dans un modèle linéaire est donc sans biais.

Pour calculer sa variance, il faut faire des hypothèses supplémentaires sur les variances et covariances des perturbations.

La solution trouvée correspond bien à un minimum.

∂²

∂^a²

[ (

^y¹ ⁻^ax¹

)

²+...+

(

y_n −ax_n

)

²

]

⁼ ²^x¹²^+...⁺²^xⁿ² ^>⁰

Condition suffisante d'ordre 2 :

(10)

16

(ii) Cas du modèle linéaire avec constante le modèle :

( ) ( )

[ y

1

a x

¹

b

²

... y a x b

²

]

Min

_N _N

a

− − + + − −

( ) ( ) ( x ^x )

y y x x

a

n i i i i

−

= −

Σ Σ

ˆ

2

c’est :

la famille de fonctions : {y = ax + b ; a, b réels}

L'estimateur MCO de (a, b) est solution de :

( ) 0 ,

constantes non

certaines,

,..., 1 ,

=

= +

+

=

E u x

N u i

x b a y

i i

i i i

x a y b ˆ = − ˆ et

où x

¹

Σ x y

¹

Σ y

_i

N i i i

N

=

La condition nécessaired'ordre 1 s'écrit en dérivant la fonction objectif par rapport à a et b:

( ) ( )

[ ] ⁽ ⁾ ⁽ ⁾

( ) ( )

[ ^... ] ² ⁽ ⁾ ^... ² ⁽ ⁾ ⁰

0 2

...

2 ...

1 1 2

2 1 1

1 1 1 2

2 1 1

=

−

=

−

− + +

−

=

−

=

−

− + +

−

x b y a x b

y a x b

y a b

x b y a b x

a x x y x b

y a x b

y a a

N N N N

N N N N N

∂ ∂

d'où on tire :



 



= +

∑

i i

i i i

i i

bN y a x

x y b x

a x

²

La matrice des dérivées secondes est de format 2*2. Son déterminant est >0, ainsi que sa trace (somme des termes diagonaux). Elle est donc définie positive. La solution trouvée correspond bien à un minimum.

( ) ( )

[ ]

( ) ( )

[ ]

( ) ( )

[ y a x b y ^a ^x ^b ] ^N

b

b x a x

b y a x

b y a

b x a x

b y a x

a y

N N

i i

N N

i i

N N

2 ...

2 2

1 1 2 2

2 2

1 1 2

2 2 2

1 1 2 2

=

−

− +

+

−

∂ −

=

−

− +

+

−

∂ −

∂

=

−

− +

+

−

∂ −

∑

∂

Facultatif : la Condition suffisante d'ordre 2 fait intervenir les dérivées secondes

( )



 



= +

−

 =

 

 ∑ − ∑

y b

x a

y y x

x x

a x

_i

i i

i i N

N1 2 2 1

(11)

17

Une étude de Monte Carlo

• Sont données 22 valeurs d’une variable X : x

₁

, x

₂

,…, x

₂₂

• Nous tirons un échantillon de taille 22 d’une loi Normale N(0 ; 1), et nous calculons les valeurs y

_i

:

y

_i

= ax

_i

+ b + u

_i

.

Nous obtenons un échantillon de taille 22 de Y, suivant un modèle linéaire avec constante.

• Répétons l’expérience : le paramètre (a, b) est

toujours le même, ainsi que les x

_i

, mais les y

_i

varient d’un tirage à l’autre, ainsi que les estimations de a et de b

On vérifie expérimentalement le caractère certain des x et de (a, b) et le caractère aléatoire des y et des estimations faites.

On vérifie que les valeurs y et leurs ajustements sont de même moyenne empirique

(12)

Le calcul des estimateurs et de leurs propriétés est plus facile quand on utilise les notations et calculs matriciels.

y= Xβ+u dans R^N modèle LS : E(y) = Xβ

V (y) = σ²I_N

estimateur MCO solution des équations normales : X’Xβ = X’y

β* = (X’X)^-1X’y

E(β*) = (X’X)^-1X’E(y) = (X’X)^-1X’Xβ= β : estimateur sans biais V(β*) = (X’X)^-1X’V(y) X(X’X)^-1= σ²(X’X)^-1, d’où les formules.

18

Cas du modèle linéaire avec constante (suite)

Proposition. Dans le cadre du modèle linéaire défini ci-dessus, l’estimateur MCO est sans biais

( ) Â â Ê ( ) ^B ^b

E ˆ = , ˆ =

( )( )

∑

= − = ^N= − −

i

i i

N i

i

iy Nxy x x y y

x

1 1

La condition suffisante d'ordre 2 qui porte sur la matrice des dérivées secondes se démontre aussi plus simplement et le raisonnement est généralisable au cas de plus de deux régresseurs

( )

' 0 '

' : pour tout donc

; ' 2 2

) ,

( ²

1

1 1

2

≥

=













=

∑

=

= X X b b X Xb Xb Xb Xb

N x

x x

b a

H _N

i i

N i

i N

i i

Formules à rappeler :

( )

( ) _^^













−

= −













=

∑ ∑

∑

∑ ∑

∑

=

−

=

N i

i N

i i

N i

i N

i i

N i

i N i

i N

i i

x x

x N

x x N X

X N

x

x x

X X

1 2 1

1

2 1

1

1 1

2

' 1 , '

(13)

19

Modèle linéaire standard = modèle linéaire plus hypothèse sur les variances et covariances des u

_i

: V(u

_i

) = σ

²

, et cov(u

_i

, u

_j

) = 0 si i est différent de j.

Calcul des Variances-covariances

• Dans le modèle sans constante :

( )

A x x V

Y A x

i i i i

i i

i 2

2

2 : ˆ

ˆ Σ = Σ

= Σ σ

• Dans le modèle avec constante :

( ) ( ) ( )

( )

( ) (

x ^x

)

B x A

x x B x

x V A x

V

i i

i i i i i i

−

− Σ

=

− Σ

= Σ

−

= Σ

2 2

2 2 2 2

2

, ˆ cov ˆ

ˆ , ˆ

σ

σ σ

^V ( ) β ^ˆ ⁼ σ

²

( ^X ^' ^X )

⁻¹

Dans le cas du modèle sans constante, X= (x) a une seule colonne, et X’Xest le scalaire Σx_i².

Dans le cas du modèle avec constante, X= (x e) et X’Xest une matrice 2*2. La variance de â est σ²fois l’élément 1ère ligne, 1ère colonne de (X’X)^-1, etc : les formules s’en déduisent immédiatement.

(14)

Pour θscalaire, θ₁est meilleur que θ₂si V(θ₁) ≤V(θ₂)

Pour θ ∈R^κ, θ₁est meilleur que θ₂si la propriété est vraie pour toute combinaison linéaire de leurs composantes :

Pour tout c de R^κ: V(c’θ₁) ≤ V(c’θ₂) c ’est-à-dire c’V(θ₁)c ≤ c’V(θ₂)c ou encore c’[ V(θ₁) - V(θ₂) ] c ≤ 0

(en math, on dit que la matrice V(θ₁) - V(θ₂) est semi-définie négative) Par exemple, pour K = 2 :

quel que soit x_t, la meilleure estimation de E(y_t) = ax_t+ b

est sont les estimations MCO de a et b.

20

Théorème de GAUSS-MARKOV

Sous les hypothèses du modèle linéaire standard, l'estimateur MCO est le meilleur estimateur de (a, b) parmi les estimateurs linéaires et sans biais (BLUE)

• BLUE = Best Linear Unbiased Estimator

• "meilleur" veut dire que pour toute combinaison θ = a x

_o

+ b, l’estimateur de variance minimum est :

x b a ˆ

_o

ˆ

ˆ = +

θ

E yˆ

( )

_t =a xˆ _t +b ˆ où ˆ a et ˆ b

(15)

21

II.3. Prévision

La prévision de la variable aléatoire y, notée y*, est calculée en fonction de l'information disponible.

• On suppose ici que y est sans corrélation avec les observations déjà faites.

• On note m l'espérance mathématique de y

Exemple : modèle linéaire y_t= a x_t+ u_t x_tcertaines, E(u_t) = 0, a réel pour x donnée, on suppose que y = a x + u, où y est sans corrélation avec les valeurs déjà observées.

La meilleure prévision de y serait a x si on connaissait a.

Puisque a est inconnu, on prend comme prévision de y la variable y* = â x

Problème : est-ce bien la meilleure prévision?

Réponse : oui, si les perturbations vérifient les conditions standard d'ordre 2 = homoscédasticité et non-corrélation les unes avec les autres (Th. de Gauss- Markov)

Dans ce cas, E(â) = a et V(â) = σ²/ Σx_t² erreur = y - y* = a x + u - â x = u + (a - â) x

E(erreur) = E(u) + E(a - â) x = 0

V(erreur) = V(u) + V(â) x²+ 2 cov(u, â) = σ²+ σ² x²/ Σx_t²+ 0

(16)

22

II.3. Prévision

• Erreur quadratique moyenne (MSE)

MSE = E(y - y*)

²

= V(y) + E(m - y*)

²

• Prévision théorique : m connue, y* = m

• Prévision empirique : m inconnue, y* = m* est l'estimateur de m qui minimise le Risque

Quadratique Moyen E ( m - y*)

²

Dans le cas du modèle linéaire précédent, nous avons : E(â) = a et V(â) = σ²/ Σx_t² erreur = y - y* = a x + u - â x = u + (a - â) x

E(erreur) = E(u) + E(a - â) x = 0 : on dit que la prévision est sans biais.

V(erreur) = V(u) + V(â) x²+ 2 cov(u, â) = V(u) + V(â) x² L’erreur quadratique moyenne est

MSE = σ²+ σ² x²/ Σx_t²

Une partie est due à l’incertitude sur y qui est aléatoire, la deuxième partie est due à l’incertitude sur la loi de y, c’est-à-dire sur le paramètre a.

(17)

23

Exemple 1

• No u s observons, sur un échantillon de 100 étudiants à la recherche d’un emploi au sortir de leur DEA, une durée moyenne d’inactivité de 15,65 semaines.

• On suppose que la durée d’inactivité suit une loi exponentielle de paramètre θ

• Sortant du même DEA, vous cherchez un emploi : quelle prévision faites-vous du temps qui vous sera nécessaire pour que votre

recherche aboutisse ?

Nous disposons d’un échantillon de taille 100 d’une variable exponentielle de densité f(x) = 1/a exp(-x/a) pour x > 0. Le meilleur estimateur de a est la moyenne empirique de l’échantillon.

Si vous supposez que la durée de votre recherche a la même loi que celle des étudiants déjà observés et qu’elle est indépendante des observations passées, alors la meilleure prévision de la durée y de votre recherche est cette estimation de a.

Prévision optimale â = Σx_i/100

Erreur de prévision : y – â = y – a + a – â MSE = E(y – a)²+ E(a – â)²= V(y) + V(â) MSE = a²+ a²/100

application numérique : vous prévoyez y* = 15,65 semaines de recherche

(18)

24

Exemple 2

• Nous sommes dans le cadre d’un modèle linéaire standard où

• Quelle est la prévision de y

_o

pour un individu indépendant des N observés et pour lequel nous connaissons x

_o

?

• Quelle sera l’erreur quadratique moyenne correspondante ?

( )

u

(

u u

)

ⁱ ^j

V E u x

N u i

x b y a

j i i

i i

i i i

≠

=

= +

+

=

pour 0 ,

cov , 0

, constantes non

certaines,

,..., 1 ,

σ2

Nous reprenons ici les termes du modèle utilisé pour la simulation faite.

La meilleure prévision serait E(y_o) = ax_o+b si nous connaissions a et b. L’erreur correspondante serait de variance σ².

Pour utiliser les observations précédentes, nous devons supposer que le paramètre est toujours le même pour le nouvel individu (notament x_one doit pas être trop éloigné des valeurs déjà observées).

Le modèle étant linéaire standard, le théorème de Gauss-Markov nous dit que la meilleure estimation (linéaire) de a et b sont données par l’estimation MCO.

(19)

25

Exemple 2 (suite)

• Nous devons également supposer que le paramètre n’a pas changé pour le nouvel individu

•

La prévision optimale est obtenue à partir des estimateurs MCO :

( ) ( ) u ( u u ) ^j ^N

V E u

b u a x

y

j o o

o

o o o

,.., 1 pour 0

, cov , 0

,

2

= =

=

+ +

=

σ

ˆ ˆ

ˆ a x b

y

_o

=

_o

+

•

Cette prévision est sans biais :

(

^ˆ

)

⁰

) ˆ ( ˆ ˆ ˆ

ˆ

− =

− +

=

−

− + +

− = y y E

b b x a u a

x b u a x b

y a y

o o

o o o

o o o o

(20)

26

Exemple 2 (suite)

• L’erreur quadratique moyenne est :

Application numérique :

( ) ( )

( ) ( ) ( )

( )

^ˆ

( )

^ˆ ² ^cov

( )

^ˆ^,^ˆ ⁰

) ˆ ( ˆ , cov ˆ 2

ˆ) (

) ˆ ˆ ˆ (

ˆ) (

2 2

+ +

=

− +

−

− + + + −

=

− +

=

− +

=

b x a

b V a x V MSE

b x b

a u a

b b x a E a

E u MSE

b x b

a u a

E b x b

a u a

E MSE

o o

o o o o

σ

( )

_^











−

=

= +

=

−

24524639 ,

0 02327467

, 0

02327467 ,

0 00271137

, 0 '

connue).

(supposée 1

12

; 173 , 2 909 , ˆ 0

1 2

X X

x

y_i x_i _o

σ

077 , 1 08 , ˆ 13

=

= MSE y

_o

La MSE est en fait la variance de l’erreur de prévision, puisque cette erreur est d’espérance nulle.

Faire bien attention de repérer dans ces expressions ce qui est aléatoire et ce qui ne l’est pas : les variables aléatoires sont la perturbation u_oet les estimateurs.

Si on fait un nouveau tirage des y_i, MSE n’est pas changée (les paramètres ne changent pas et les x_isont fixées), mais la prévision change avec les estimations de a et b.

II - Estimation et Prévision Ponctuelles