• Aucun résultat trouvé

Module 3 Corrélation, analyse de la variance et utilisation du modèle de régression en prévision

N/A
N/A
Protected

Academic year: 2022

Partager "Module 3 Corrélation, analyse de la variance et utilisation du modèle de régression en prévision "

Copied!
11
0
0

Texte intégral

(1)

L3MS2_M2.doc 1/11

Module 3 Corrélation, analyse de la variance et utilisation du modèle de régression en prévision

Dans ce module nous établissons deux ratios, le coefficient de corrélation linéaire (unité 1) et le coefficient de détermination (unité 2) qui permettent de tester (unités 3, 4 et 5) la validité globale du modèle estimé. L’unité 6 montre l’utilisation du modèle de régression en prévision.

1 – Le coefficient de corrélation linéaire

Le coefficient de corrélation linéaire est le coefficient mesurant le degré de covariation linéaire, c’est- à-dire la manière dont varient ensemble les variables.

( )

Y X X

/ Y

X , Y r Cov

σ

= σ

Les propriétés : −1<r <1

Plus r se rapproche de 1, plus l’intensité de la covariation linéaire est forte.

Plus r se s’éloigne de 1, plus l’intensité de la covariation linéaire est faible.

r est sans dimension

r est symétrique : rY/X =rX/Y

r n’est pas affecté par un changement de variable : rY/X =ry/x

= β

t 2 t t

t t

x y x ˆ

=

t 2 t t

2 t t

t t

y x

y x r

Relation entre βˆ et r :

( )

( )

Y

X 2

t t t

2 t

t 2 t t

2 t

t 2 t t

2 t t

t t

s ˆs Y n Y

1

X n X

1 ˆ y x ˆ y x

y x

r =β

− β

= β

=

=

Y X

s ˆ s r =β

2 - Le coefficient de détermination

On sait d’après la définition de la droite des moindres carrés que : t

t

t yˆ e

y = + D’où yt2 =yˆt2+et2+2ett

=

+

+

t t

t t t

2 t t

2 t 2

t yˆ e 2 e yˆ

y

Or yˆt =βˆxt d’où :

(2)

L3MS2_M2.doc 2/11

( )

( )

( )



 

 −β

β

=





β

− β

=

β

=

=

t 2 t t

t t

t t

t t t

t t t t

t t t t

t t

ˆ x x ˆ y

x ˆx ˆ y

ˆx yˆ y

yˆ yˆ y yˆ

e

Or,

∑ ∑ ∑

=

= β

= β

t t t

t t

2 t t

t t

2 t t

t t

0 yˆ e 0

ˆ x y x x

y x ˆ

= +

t 2 t t

2 t t

2

t yˆ e

y Cette équation est appelée équation de l’analyse de la variance. En effet :

( )

= −

t

2 t t

2t Y Y

y est la variance de Yt (à n près)

( )

= −

t

2 t t

2t Yˆ Y

yˆ est la variance de Yˆt (à n près) et

t 2t

e est à n près la variance de et puisqu’en effet :

( )

0 1 1

1 1

=

=

=

=

=

yˆ y

n yˆ n y

yˆ n y

n e e

t t t

t t

t t t

t

On écrit alors cette relation :

Variance totale = Variance expliquée par la régression + variance résiduelle VT = VE + VR

En divisant les deux membres de l’équation par

t 2t

y on a :

+

=

t 2 t t

2 t

t 2 t t

2 t

t 2 t t

2 t

y e y

yˆ y

y

+

=

t 2 t t

2t

t 2 t t

2t

y e y

yˆ 1

On appelle coefficient de détermination le rapport de la somme expliquée à la somme totale et on le note r².

(3)

L3MS2_M2.doc 3/11

=

=

t 2 t t

2t

t 2 t t

2t 2

y e 1 y yˆ

r ou encore

VT VR VT

r2 = VE =1−

Ce coefficient de détermination s’interprète comme un pourcentage. En effet, par construction : 1

r 0≤ 2

Par exemple, r2=0,80 signifie que 80% de la variance totale (la variance de Yt) est expliquée par la régression.

Dans le cas de la régression linéaire, on peut montrer que :

( )

2

2 r

r = En effet :

( )

2

( )

2

Y X

t 2 t t

2 2 t

t 2 t t

2 t

t 2 t t

2

2 t r

s ˆ s y x ˆ y ˆx y

r  =

β

= β

= β

=

=

3 - Test du coefficient de corrélation linéaire

Comme

x y

s rs ˆ=

β

l’absence de relation entre X et Y

(

β=0

)

se traduit par un coefficient de corrélation linéaire nul. On peut donc utiliser le test de Student du paramètre β pour tester la signification du coefficient de corrélation.

On sait que :

( )

x n 2 T

(

n 2

)

e ˆ

t 2 t t

2 t

≡ β −

β

Si H0:β=0 est vraie, alors :

( )

2

2

2 2

− β

n T n

e ˆ x

t t t

t

Comme

β

=

t 2t t

2t

y x r ˆ

Et que

∑ ∑

=

=

t 2 t 2 t

2 t t

2t t

2t

2 e 1 r y

y e 1 r

(4)

L3MS2_M2.doc 4/11

On a :

) n ( T n

r r

n y r

y r n

e ˆ x

t t t

t

t t t

t

2 2

1

2 1

2

2

2 2

2

2 2

− −

=

− −

=

− β

0 : H / 0 :

H0 ρ= 1 ρ≠ avec ρ la vraie valeur de r.

Remarque : ne pas confondre ρ (la lettre grecque Rho) qui désigne la vraie valeur de r avec la probabilité p.





 <

= −





 <

< −

=

2 1 p 2

2 1 p 2 2

p

t r 1

2 n ob r Pr

t r 1

2 n t r

ob Pr p 1

Règle de décision :





≠ ρ

− ≥

= ρ

− <

valide èle mod p

espèce de

rique au , rejetée H

t r n si r

valide non èle mod p

espèce de

rique au , acceptée H

t r n si r

p ere p ere

0 1

1 2

0 1

1 2

0 1 2

2

0 1 2

2

4 - Tableau de l’analyse de la variance :

Considérons l’hypothèse : 0

: H0 β=

On sait que la variance totale se décompose en variance expliquée et variance résiduelle (VT=VE+VR). Soit :

= +

t 2 t t

2 t t

2

t yˆ e

y

2 t

2 t 2

t 2 t 2

t 2

t yˆ e

y

ε ε

ε + σ

= σ

σ

∑ ∑

Or :

e

(

n 2

)

ˆ2 2

(

n 2

)

2 2

t 2t

− χ σ ≡

− σ

σ = ε

ε ε

=

β =β

t 2 t 2 t

2 t 2 t

2

t ˆ x ˆ x

yˆ d’où

(5)

L3MS2_M2.doc 5/11

D’où :

2 t

2t 2 2 t

2t x

ˆ yˆ

ε

ε =β σ

σ

Or,

( )

x N

( )

0,1

ˆ

t 2 t

σ ≡ β

− β

ε

Si x N

( )

0,1

ˆ alors

0 t

2 t

σ ≡ β

=

β ε

Donc, x

( )

1

ˆ

2 2

t 2 t 2

χ σ ≡

β

ε

On peut donc écrire qu’à la relation :

2 t

2t

2 t

2t

2 t

2t yˆ e

y

ε ε

ε + σ

= σ σ

On peut associer :

χ2

( )

1 +χ2

(

n2

)

=χ2

( )

n1

Et de ce fait :

( )

( )

F

(

1;n 2

)

2 n 2 n

1 1

2 2

− − χ

⇒ χ avec F la loi de Fisher-Snedecor à ν1=1etν2=n−2 degrés de

liberté.

D’où le tableau de l’analyse de la variance : Origine des

variations

Somme des carrés des écarts

Degré de liberté

Variance ou carrés moyens

F Variance

expliquée

β

=

=

t 2 t 2 t

2 1 t

ˆ x yˆ

Q 1 =

t 2 t

1

1

Q VRVE F

(

1;n2

)

Variance

résiduelle =

t 2

2 et

Q n-2

2 n

e 2 n

Q t

2 2 t

= −

Variance

totale =

t 2

3 yt

Q n-1

Le test sur β est alors le suivant : on se fixe un risque de première espèce p, c’est-à-dire la probabilité de rejeter l’hypothèse alors qu’elle est vraie. Ce risque correspond à la valeur seuil F1-p qui conduit à la règle de décision :

(6)

L3MS2_M2.doc 6/11

( ) ( )

( ) ( )









− ≥

− <

p espèce de

rique au rejetée H

F n

e y si

p espèce de

rique au acceptée H

F n

e y si

ere p

t t

t t

p ere

t t

t t

1 2

1 2

0 2 1

2

0 2 1

2

Par ailleurs, on sait que la loi de Student se construit de la façon suivante :

( ) ( )

( )

2 2 1 2 0

2

≡ χ

n n

, n N

T

On sait aussi qu’il existe une relation entre la loi de Fisher et la loi de Student : la loi de Fisher se construit à partir du carré de la loi de Student. D’où :

(

1,n2

)

T2

( )

n2

F

A partir de ce résultat, on peut déduire le test sur le coefficient de détermination.

5- Test du coefficient de détermination

On a vu que :

( )

2

2 1

2

2 2

2

− −

=

− β

n T n

r n r

e ˆ x

t t t

t

D’où

( ) ( ) (

n 2

) (

F1,n 2

)

e yˆ 2 n r 1 2 r n e ˆ x

t 2t t

2 t 2

2

t 2t t

2 t 2

=

− −

=

− β

Si on pose alors : 0 : H / 0 :

H0 ρ2 = 1 ρ2 avec ρ2 le coefficient de détermination théorique, la règle de décision est la suivante :

( ) ( )

( ) ( )





− −

<

− −

p espèce de

rique au rejetée H

n , F n

r si r

p espèce de

rique au acceptée H

n , F n

r si r

ere p

p ere

1 2

1 2

1

1 2

1 2

1

0 2 1

2

0 2 1

2

6- Utilisation du modèle de régression en prévision

On peut utiliser le modèle estimé en prévision de deux façons :

- prévoir la valeur moyenne de la variable endogène pour une valeur donnée de la variable exogène Xt. Cette valeur moyenne est l’espérance mathématique des valeurs possibles de Y0 (Yt à prévoir) associées à X0 (valeur donnée de Xt) c'est-à-dire E

[

Y0 X0

]

(§6.1)

(7)

L3MS2_M2.doc 7/11

- vérifier qu’une prévision ponctuelle donnée

(

X0,Y0

)

est compatible avec la relation linéaire estimée (§6.2)

6.1 - Intervalle de confiance d’une valeur moyenne de Y connaissant une valeur donnée de X :

Soit X0 la valeur donnée de X.

Soit X0 appartient à l’ensemble

{

1,2,...,n

}

, soit X0 appartient à l’ensemble

{

n+1,n+2,...,n+h

}

avec h l’horizon de la prévision Le modèle s’écrit :

0 0

0 X

Y =α+β +ε

Le modèle estimé s’écrit : 0

0 ˆ ˆX

Yˆ =α+β

La valeur moyenne de Y connaissant une valeur donnée de X est notée : E

[

Y0/X0

]

=α+βX0.

On pose Yˆ0 l’estimateur linéaire sans biais de E

[

Y0/X0

]

=α+βX0.

Comme αˆ,βˆ suivent une loi normale, Yˆ0 suit une loi normale, d’où :

( ) ( )



≡  0 0

0 N EYˆ ; VYˆ Yˆ

On montre que :

[ ]

[ ] ( )













 + −

σ

= β + α

=

ε

t

xt

X X Yˆ n

V

X Yˆ

E

2 2 2 0

0

0 0

1

Démonstration :

[ ] [ ]

[ ]

0 0

0 0

0 0 0

0

X E X

X E

X / Y E

β + α

=

ε + β + α

=

ε + β + α

=

=

3 2 1

[ ] [ ]

[ ]

α +

[ ]

β +

( )

αβ

=

β + α

=

,ˆ ˆ Cov X ˆ 2 V X ˆ V

ˆX ˆ V Yˆ V

0 2

0 0 0

Or, on a vu que :

( )

β =

σε

t 2 t 2

x V ˆ

(8)

L3MS2_M2.doc 8/11

( )







 + σ

= σ

=

α

∑ ∑

ε ε

t 2 t 2 2

t 2 t t

2 t 2

x X n 1 x

n X ˆ

V

En effet, par définition :

( )

2 2 t

2 2 t

2 t 2

t 2 2 t

t

X n X

X X n 2 X n X

X X 2 X X

X X x

=

− +

=

− +

=

=

D’où :

+ = +

= 2

t 2 2

t 2 2 t 2

t 2 t

x X n 1 x

n X n x x

n X

( )

2

t 2

xt

ˆ X , ˆ

Cov αβ = − σε

[ ]

( )









 −

+ σ

=









 + −

+ σ

=

σ σ −

+









 + σ

=

ε ε

ε ε ε

t 2 t

2 0 2

t 2 t

0 2 0 2 2

2

t 2 t 0 t

2 t 2 2 0 t

2 t 2 2

0

x X X n 1

x

X X 2 X X n 1

x X X 2 x X x X n Yˆ 1

V

( )









α+β σ + −

ε

t 2 t

2 0 0

0 x

X X n

; 1 X N

On peut également démontrer, avec une démonstration analogue à celle du module 1 que l’estimateur trouvé est un estimateur sans biais et de variance minimale.

On peut construire un intervalle de confiance de la valeur moyenne de Y/X.

Le problème est le suivant : on cherche a et b tels que 1p=Prob

[

a<E

[

Y0 X0

]

<b

]

ou

[

a X b

]

ob Pr

p= <α+β <

0

1 c'est-à-dire on veut déterminer un intervalle de confiance de la valeur moyenne de Y X

On sait que :

(9)

L3MS2_M2.doc 9/11

(

n 22

)

ˆ2 χ2

(

n2

)

σ σ

ε

ε Comme σε est inconnu, on utilise la loi de Student.

( )

( )

( )

( )

2 n 2 ˆ n

x X X n 1

X Yˆ

2 n T

2 2 t

2 t

2 0

0 0

σ −

− σ + − σ

β + α

=

ε ε

ε

( ) ( )

( )

+ − σ

β + α

= −

ε

t 2 t

2 0

0 0

x X X n ˆ 1

X Yˆ

2 n T

( )

 

 < − <

=

ρ

ρ

1 2 2

2

1 p Prob t Tn t

Rappel :

1 2 2

p

p t

t =−

2 p p

1−

p 2

t t1p 2

( )

(

Tn 2

)

f −

(

n 2

)

T − 2

p

0

(10)

L3MS2_M2.doc 10/11

( ) ( )

( ) ( )

















 ± σ + −

=

















 ± σ + −

∈ β + α

=

ε ε

t 2 t

2 0 2

p 0 0 0

t 2 t

2 0 2

p 0 0

x X X n ˆ 1 t Yˆ X

/ Y E ob Pr

x X X n ˆ 1 t Yˆ X

ob Pr p 1

Ceci est l’intervalle de confiance de E

[

Y0/X0

]

6.2 Vérification de la compatibilité entre la prévision ponctuelle et la relation linéaire estimée

Soit un couple de valeurs

(

X0,Y0

)

, deux cas sont possibles : soit X0,Y0 appartiennent à l’ensemble

{

1,2,...,n

}

, soit X0,Y0appartiennent à

{

n+1,n+2,...,n+h

}

avec h horizon de la prévision.

On se demande si le point du nuage de régression obtenu par ce couple de valeurs peut être considéré comme appartenant à la droite de régression estimée. Donc, on va accepter ou rejeter la compatibilité d’une prévision ponctuelle avec la relation estimée.

:

H0 compatibilité entre la prévision et la droite estimée. C'est-à-dire : E

[

Y0/X0

]

=une certaine valeur (dans un exercice, cette valeur sera fixée).

On démontre que :

( ) ( )

( )

+ − + σ

β + α

= −

ε

t 2 t

2 0

0 0

x X X n 1 1 ˆ

X Yˆ

2 n T

D’où :

( )

 

 < − <

=

1 2

2

2

1 p Prob tp Tn t p

( ) ( )

















 α+β ± σ + + −

=

ε

t t

p x

X X ˆ n

t X Yˆ

ob Pr

p 2

2 0 2

0 0

1 1

1

On écrit :

( ) ( )

















+ − + σ

±

=

ε

t t

p x

X X ˆ n

t X / Y E Yˆ ob Pr

p 2

2 0 2

0 0 0

1 1 1

(11)

L3MS2_M2.doc 11/11

Règle de décision :

( ) ( )

( ) ( )

















α+β ± σ + + −









α+β ± σ + + −

ε ρ

ε ρ

p espèce de

risque au rejetée H

x X X ˆ n

t X Yˆ

si

p espèce de

risque au acceptée H

x X X ˆ n

t X Yˆ

si

ere

t t

ere

t t

1 1 1

1 1 1

2 0 2 0 2

0 0

2 0 2 0 2

0 0

Si H0 est acceptée, il y a compatibilité entre la prévision ponctuelle et la relation linéaire estimée.

Références

Documents relatifs

Il en est de même dans ce cours de celle concernant le sens de causalité entre deux variables ainsi que l’absence de tendances communes pouvant conduire à une

Remarque : le nombre de degrés de liberté de l’interaction faisant intervenir la quantité (ν – 1), il en résulte qu’il est nécessaire de disposer d’au moins deux résultats

Résumé : Dans le cadre de cette étude, une expérimentation a été menée en vue de la détermination des constantes harmoniques de la marée et du niveau moyen de la mer au niveau

On parle alors de modèle linéaire gaussien.. Ecrire le modèle de

2) Présenter en annexe 1, le nuage des points correspondant aux deux variables étudiées. 1pt 3) Calculer le coefficient de corrélation linéaire (r) entre les deux variables. 2pts

Dans le présent article nous préconisons, pour les méthodes de prévision retenues, l'estimation des paramètres par maximum de vraisemblance. Il est évident que la détermination

Evaluation des performances analytiques du module de biochimie de routine du système Unicel DXC 860i® (Beckman Coulter) et Etude de la corrélation des résultats avec le Dimension

J. Détermination des probabilités de transition partielles des rayonnements γ de 329 keV du Ce140 par une méthode de corrélation angulaire.. LE JOURNAL DE PHYSIQUE.. DÉTERMINATION