• Aucun résultat trouvé

Module 3 Corrélation, analyse de la variance et utilisation du modèle de régression en prévision

N/A
N/A
Protected

Academic year: 2022

Partager "Module 3 Corrélation, analyse de la variance et utilisation du modèle de régression en prévision "

Copied!
11
0
0

Texte intégral

(1)

L3MS2_M2.doc 1/11

Module 3 Corrélation, analyse de la variance et utilisation du modèle de régression en prévision

Dans ce module nous établissons deux ratios, le coefficient de corrélation linéaire (unité 1) et le coefficient de détermination (unité 2) qui permettent de tester (unités 3, 4 et 5) la validité globale du modèle estimé. L’unité 6 montre l’utilisation du modèle de régression en prévision.

1 – Le coefficient de corrélation linéaire

Le coefficient de corrélation linéaire est le coefficient mesurant le degré de covariation linéaire, c’est- à-dire la manière dont varient ensemble les variables.

( )

Y X X

/ Y

X , Y r Cov

σ

= σ

Les propriétés : −1<r <1

Plus r se rapproche de 1, plus l’intensité de la covariation linéaire est forte.

Plus r se s’éloigne de 1, plus l’intensité de la covariation linéaire est faible.

r est sans dimension

r est symétrique : rY/X =rX/Y

r n’est pas affecté par un changement de variable : rY/X =ry/x

= β

t 2 t t

t t

x y x ˆ

=

t 2 t t

2 t t

t t

y x

y x r

Relation entre βˆ et r :

( )

( )

Y

X 2

t t t

2 t

t 2 t t

2 t

t 2 t t

2 t t

t t

s ˆs Y n Y

1

X n X

1 ˆ y x ˆ y x

y x

r =β

− β

= β

=

=

Y X

s ˆ s r =β

2 - Le coefficient de détermination

On sait d’après la définition de la droite des moindres carrés que : t

t

t yˆ e

y = + D’où yt2 =yˆt2+et2+2ett

=

+

+

t t

t t t

2 t t

2 t 2

t yˆ e 2 e yˆ

y

Or yˆt =βˆxt d’où :

(2)

L3MS2_M2.doc 2/11

( )

( )

( )



 

 −β

β

=





β

− β

=

β

=

=

t 2 t t

t t

t t

t t t

t t t t

t t t t

t t

ˆ x x ˆ y

x ˆx ˆ y

ˆx yˆ y

yˆ yˆ y yˆ

e

Or,

∑ ∑ ∑

=

= β

= β

t t t

t t

2 t t

t t

2 t t

t t

0 yˆ e 0

ˆ x y x x

y x ˆ

= +

t 2 t t

2 t t

2

t yˆ e

y Cette équation est appelée équation de l’analyse de la variance. En effet :

( )

= −

t

2 t t

2t Y Y

y est la variance de Yt (à n près)

( )

= −

t

2 t t

2t Yˆ Y

yˆ est la variance de Yˆt (à n près) et

t 2t

e est à n près la variance de et puisqu’en effet :

( )

0 1 1

1 1

=

=

=

=

=

yˆ y

n yˆ n y

yˆ n y

n e e

t t t

t t

t t t

t

On écrit alors cette relation :

Variance totale = Variance expliquée par la régression + variance résiduelle VT = VE + VR

En divisant les deux membres de l’équation par

t 2t

y on a :

+

=

t 2 t t

2 t

t 2 t t

2 t

t 2 t t

2 t

y e y

yˆ y

y

+

=

t 2 t t

2t

t 2 t t

2t

y e y

yˆ 1

On appelle coefficient de détermination le rapport de la somme expliquée à la somme totale et on le note r².

(3)

L3MS2_M2.doc 3/11

=

=

t 2 t t

2t

t 2 t t

2t 2

y e 1 y yˆ

r ou encore

VT VR VT

r2 = VE =1−

Ce coefficient de détermination s’interprète comme un pourcentage. En effet, par construction : 1

r 0≤ 2

Par exemple, r2=0,80 signifie que 80% de la variance totale (la variance de Yt) est expliquée par la régression.

Dans le cas de la régression linéaire, on peut montrer que :

( )

2

2 r

r = En effet :

( )

2

( )

2

Y X

t 2 t t

2 2 t

t 2 t t

2 t

t 2 t t

2

2 t r

s ˆ s y x ˆ y ˆx y

r  =

β

= β

= β

=

=

3 - Test du coefficient de corrélation linéaire

Comme

x y

s rs ˆ=

β

l’absence de relation entre X et Y

(

β=0

)

se traduit par un coefficient de corrélation linéaire nul. On peut donc utiliser le test de Student du paramètre β pour tester la signification du coefficient de corrélation.

On sait que :

( )

x n 2 T

(

n 2

)

e ˆ

t 2 t t

2 t

≡ β −

β

Si H0:β=0 est vraie, alors :

( )

2

2

2 2

− β

n T n

e ˆ x

t t t

t

Comme

β

=

t 2t t

2t

y x r ˆ

Et que

∑ ∑

=

=

t 2 t 2 t

2 t t

2t t

2t

2 e 1 r y

y e 1 r

(4)

L3MS2_M2.doc 4/11

On a :

) n ( T n

r r

n y r

y r n

e ˆ x

t t t

t

t t t

t

2 2

1

2 1

2

2

2 2

2

2 2

− −

=

− −

=

− β

0 : H / 0 :

H0 ρ= 1 ρ≠ avec ρ la vraie valeur de r.

Remarque : ne pas confondre ρ (la lettre grecque Rho) qui désigne la vraie valeur de r avec la probabilité p.





 <

= −





 <

< −

=

2 1 p 2

2 1 p 2 2

p

t r 1

2 n ob r Pr

t r 1

2 n t r

ob Pr p 1

Règle de décision :





≠ ρ

− ≥

= ρ

− <

valide èle mod p

espèce de

rique au , rejetée H

t r n si r

valide non èle mod p

espèce de

rique au , acceptée H

t r n si r

p ere p ere

0 1

1 2

0 1

1 2

0 1 2

2

0 1 2

2

4 - Tableau de l’analyse de la variance :

Considérons l’hypothèse : 0

: H0 β=

On sait que la variance totale se décompose en variance expliquée et variance résiduelle (VT=VE+VR). Soit :

= +

t 2 t t

2 t t

2

t yˆ e

y

2 t

2 t 2

t 2 t 2

t 2

t yˆ e

y

ε ε

ε + σ

= σ

σ

∑ ∑

Or :

e

(

n 2

)

ˆ2 2

(

n 2

)

2 2

t 2t

− χ σ ≡

− σ

σ = ε

ε ε

=

β =β

t 2 t 2 t

2 t 2 t

2

t ˆ x ˆ x

yˆ d’où

(5)

L3MS2_M2.doc 5/11

D’où :

2 t

2t 2 2 t

2t x

ˆ yˆ

ε

ε =β σ

σ

Or,

( )

x N

( )

0,1

ˆ

t 2 t

σ ≡ β

− β

ε

Si x N

( )

0,1

ˆ alors

0 t

2 t

σ ≡ β

=

β ε

Donc, x

( )

1

ˆ

2 2

t 2 t 2

χ σ ≡

β

ε

On peut donc écrire qu’à la relation :

2 t

2t

2 t

2t

2 t

2t yˆ e

y

ε ε

ε + σ

= σ σ

On peut associer :

χ2

( )

1 +χ2

(

n2

)

=χ2

( )

n1

Et de ce fait :

( )

( )

F

(

1;n 2

)

2 n 2 n

1 1

2 2

− − χ

⇒ χ avec F la loi de Fisher-Snedecor à ν1=1etν2=n−2 degrés de

liberté.

D’où le tableau de l’analyse de la variance : Origine des

variations

Somme des carrés des écarts

Degré de liberté

Variance ou carrés moyens

F Variance

expliquée

β

=

=

t 2 t 2 t

2 1 t

ˆ x yˆ

Q 1 =

t 2 t

1

1

Q VRVE F

(

1;n2

)

Variance

résiduelle =

t 2

2 et

Q n-2

2 n

e 2 n

Q t

2 2 t

= −

Variance

totale =

t 2

3 yt

Q n-1

Le test sur β est alors le suivant : on se fixe un risque de première espèce p, c’est-à-dire la probabilité de rejeter l’hypothèse alors qu’elle est vraie. Ce risque correspond à la valeur seuil F1-p qui conduit à la règle de décision :

(6)

L3MS2_M2.doc 6/11

( ) ( )

( ) ( )









− ≥

− <

p espèce de

rique au rejetée H

F n

e y si

p espèce de

rique au acceptée H

F n

e y si

ere p

t t

t t

p ere

t t

t t

1 2

1 2

0 2 1

2

0 2 1

2

Par ailleurs, on sait que la loi de Student se construit de la façon suivante :

( ) ( )

( )

2 2 1 2 0

2

≡ χ

n n

, n N

T

On sait aussi qu’il existe une relation entre la loi de Fisher et la loi de Student : la loi de Fisher se construit à partir du carré de la loi de Student. D’où :

(

1,n2

)

T2

( )

n2

F

A partir de ce résultat, on peut déduire le test sur le coefficient de détermination.

5- Test du coefficient de détermination

On a vu que :

( )

2

2 1

2

2 2

2

− −

=

− β

n T n

r n r

e ˆ x

t t t

t

D’où

( ) ( ) (

n 2

) (

F1,n 2

)

e yˆ 2 n r 1 2 r n e ˆ x

t 2t t

2 t 2

2

t 2t t

2 t 2

=

− −

=

− β

Si on pose alors : 0 : H / 0 :

H0 ρ2 = 1 ρ2 avec ρ2 le coefficient de détermination théorique, la règle de décision est la suivante :

( ) ( )

( ) ( )





− −

<

− −

p espèce de

rique au rejetée H

n , F n

r si r

p espèce de

rique au acceptée H

n , F n

r si r

ere p

p ere

1 2

1 2

1

1 2

1 2

1

0 2 1

2

0 2 1

2

6- Utilisation du modèle de régression en prévision

On peut utiliser le modèle estimé en prévision de deux façons :

- prévoir la valeur moyenne de la variable endogène pour une valeur donnée de la variable exogène Xt. Cette valeur moyenne est l’espérance mathématique des valeurs possibles de Y0 (Yt à prévoir) associées à X0 (valeur donnée de Xt) c'est-à-dire E

[

Y0 X0

]

(§6.1)

(7)

L3MS2_M2.doc 7/11

- vérifier qu’une prévision ponctuelle donnée

(

X0,Y0

)

est compatible avec la relation linéaire estimée (§6.2)

6.1 - Intervalle de confiance d’une valeur moyenne de Y connaissant une valeur donnée de X :

Soit X0 la valeur donnée de X.

Soit X0 appartient à l’ensemble

{

1,2,...,n

}

, soit X0 appartient à l’ensemble

{

n+1,n+2,...,n+h

}

avec h l’horizon de la prévision Le modèle s’écrit :

0 0

0 X

Y =α+β +ε

Le modèle estimé s’écrit : 0

0 ˆ ˆX

Yˆ =α+β

La valeur moyenne de Y connaissant une valeur donnée de X est notée : E

[

Y0/X0

]

=α+βX0.

On pose Yˆ0 l’estimateur linéaire sans biais de E

[

Y0/X0

]

=α+βX0.

Comme αˆ,βˆ suivent une loi normale, Yˆ0 suit une loi normale, d’où :

( ) ( )



≡  0 0

0 N EYˆ ; VYˆ Yˆ

On montre que :

[ ]

[ ] ( )













 + −

σ

= β + α

=

ε

t

xt

X X Yˆ n

V

X Yˆ

E

2 2 2 0

0

0 0

1

Démonstration :

[ ] [ ]

[ ]

0 0

0 0

0 0 0

0

X E X

X E

X / Y E

β + α

=

ε + β + α

=

ε + β + α

=

=

3 2 1

[ ] [ ]

[ ]

α +

[ ]

β +

( )

αβ

=

β + α

=

,ˆ ˆ Cov X ˆ 2 V X ˆ V

ˆX ˆ V Yˆ V

0 2

0 0 0

Or, on a vu que :

( )

β =

σε

t 2 t 2

x V ˆ

(8)

L3MS2_M2.doc 8/11

( )







 + σ

= σ

=

α

∑ ∑

ε ε

t 2 t 2 2

t 2 t t

2 t 2

x X n 1 x

n X ˆ

V

En effet, par définition :

( )

2 2 t

2 2 t

2 t 2

t 2 2 t

t

X n X

X X n 2 X n X

X X 2 X X

X X x

=

− +

=

− +

=

=

D’où :

+ = +

= 2

t 2 2

t 2 2 t 2

t 2 t

x X n 1 x

n X n x x

n X

( )

2

t 2

xt

ˆ X , ˆ

Cov αβ = − σε

[ ]

( )









 −

+ σ

=









 + −

+ σ

=

σ σ −

+









 + σ

=

ε ε

ε ε ε

t 2 t

2 0 2

t 2 t

0 2 0 2 2

2

t 2 t 0 t

2 t 2 2 0 t

2 t 2 2

0

x X X n 1

x

X X 2 X X n 1

x X X 2 x X x X n Yˆ 1

V

( )









α+β σ + −

ε

t 2 t

2 0 0

0 x

X X n

; 1 X N

On peut également démontrer, avec une démonstration analogue à celle du module 1 que l’estimateur trouvé est un estimateur sans biais et de variance minimale.

On peut construire un intervalle de confiance de la valeur moyenne de Y/X.

Le problème est le suivant : on cherche a et b tels que 1p=Prob

[

a<E

[

Y0 X0

]

<b

]

ou

[

a X b

]

ob Pr

p= <α+β <

0

1 c'est-à-dire on veut déterminer un intervalle de confiance de la valeur moyenne de Y X

On sait que :

(9)

L3MS2_M2.doc 9/11

(

n 22

)

ˆ2 χ2

(

n2

)

σ σ

ε

ε Comme σε est inconnu, on utilise la loi de Student.

( )

( )

( )

( )

2 n 2 ˆ n

x X X n 1

X Yˆ

2 n T

2 2 t

2 t

2 0

0 0

σ −

− σ + − σ

β + α

=

ε ε

ε

( ) ( )

( )

+ − σ

β + α

= −

ε

t 2 t

2 0

0 0

x X X n ˆ 1

X Yˆ

2 n T

( )

 

 < − <

=

ρ

ρ

1 2 2

2

1 p Prob t Tn t

Rappel :

1 2 2

p

p t

t =−

2 p p

1−

p 2

t t1p 2

( )

(

Tn 2

)

f −

(

n 2

)

T − 2

p

0

(10)

L3MS2_M2.doc 10/11

( ) ( )

( ) ( )

















 ± σ + −

=

















 ± σ + −

∈ β + α

=

ε ε

t 2 t

2 0 2

p 0 0 0

t 2 t

2 0 2

p 0 0

x X X n ˆ 1 t Yˆ X

/ Y E ob Pr

x X X n ˆ 1 t Yˆ X

ob Pr p 1

Ceci est l’intervalle de confiance de E

[

Y0/X0

]

6.2 Vérification de la compatibilité entre la prévision ponctuelle et la relation linéaire estimée

Soit un couple de valeurs

(

X0,Y0

)

, deux cas sont possibles : soit X0,Y0 appartiennent à l’ensemble

{

1,2,...,n

}

, soit X0,Y0appartiennent à

{

n+1,n+2,...,n+h

}

avec h horizon de la prévision.

On se demande si le point du nuage de régression obtenu par ce couple de valeurs peut être considéré comme appartenant à la droite de régression estimée. Donc, on va accepter ou rejeter la compatibilité d’une prévision ponctuelle avec la relation estimée.

:

H0 compatibilité entre la prévision et la droite estimée. C'est-à-dire : E

[

Y0/X0

]

=une certaine valeur (dans un exercice, cette valeur sera fixée).

On démontre que :

( ) ( )

( )

+ − + σ

β + α

= −

ε

t 2 t

2 0

0 0

x X X n 1 1 ˆ

X Yˆ

2 n T

D’où :

( )

 

 < − <

=

1 2

2

2

1 p Prob tp Tn t p

( ) ( )

















 α+β ± σ + + −

=

ε

t t

p x

X X ˆ n

t X Yˆ

ob Pr

p 2

2 0 2

0 0

1 1

1

On écrit :

( ) ( )

















+ − + σ

±

=

ε

t t

p x

X X ˆ n

t X / Y E Yˆ ob Pr

p 2

2 0 2

0 0 0

1 1 1

(11)

L3MS2_M2.doc 11/11

Règle de décision :

( ) ( )

( ) ( )

















α+β ± σ + + −









α+β ± σ + + −

ε ρ

ε ρ

p espèce de

risque au rejetée H

x X X ˆ n

t X Yˆ

si

p espèce de

risque au acceptée H

x X X ˆ n

t X Yˆ

si

ere

t t

ere

t t

1 1 1

1 1 1

2 0 2 0 2

0 0

2 0 2 0 2

0 0

Si H0 est acceptée, il y a compatibilité entre la prévision ponctuelle et la relation linéaire estimée.

Références

Documents relatifs

Type: Droite linéaire Sens: positive Type: Droite linéaire.

On reprend les données Eval-Cours.stw. On veut estimer la variable Qual-Glob en utilisant comme prédicteurs les 5 autres variables. Déterminer l'équation

guer plusieurs notions fondamentales concernant la liaison en probabilité, notions qui dans le modèle particulier de Galton se trouvent soit confondues soit

Représentation tridimentionnelle de l’ACP de la matrice de corrélation de l’échelle d’humeur dépressive (gros points à l’intérieur de la sphère), la projection de

L'intérêt essentiel de ce coefficient est de per- mettre l'utilisation des méthodes d'analyse des variables aléatoires pour étudier les similarités entre points de R Qompte tenu de

Alternative: review and practise adjectives used to describe character using ActiveTeach p.048 Grammar practice Plenary Review adjectives for describing character and agreements

En 1846, Auguste Bravais publia dans les Mémoires de l'Institut de France une commu- nication intitulée : « Analyse mathématique sur les probabili- tés des erreurs de situation d'un

Pour pouvoir obtenir des procédures de décision qui permettent d’accorder la même confiance à toutes les décisions, il faudra accepter parmi l’ensemble des décisions