L3MS2_M2.doc 1/11
Module 3 Corrélation, analyse de la variance et utilisation du modèle de régression en prévision
Dans ce module nous établissons deux ratios, le coefficient de corrélation linéaire (unité 1) et le coefficient de détermination (unité 2) qui permettent de tester (unités 3, 4 et 5) la validité globale du modèle estimé. L’unité 6 montre l’utilisation du modèle de régression en prévision.
1 – Le coefficient de corrélation linéaire
Le coefficient de corrélation linéaire est le coefficient mesurant le degré de covariation linéaire, c’est- à-dire la manière dont varient ensemble les variables.
( )
Y X X
/ Y
X , Y r Cov
σ
= σ
Les propriétés : −1<r <1
Plus r se rapproche de 1, plus l’intensité de la covariation linéaire est forte.
Plus r se s’éloigne de 1, plus l’intensité de la covariation linéaire est faible.
r est sans dimension
r est symétrique : rY/X =rX/Y
r n’est pas affecté par un changement de variable : rY/X =ry/x
∑
∑
= β
t 2 t t
t t
x y x ˆ
∑
∑
∑
=
t 2 t t
2 t t
t t
y x
y x r
Relation entre βˆ et r :
( )
( )
YX 2
t t t
2 t
t 2 t t
2 t
t 2 t t
2 t t
t t
s ˆs Y n Y
1
X n X
1 ˆ y x ˆ y x
y x
r =β
−
− β
= β
=
=
∑
∑
∑
∑
∑
∑
∑
Y X
s ˆ s r =β
2 - Le coefficient de détermination
On sait d’après la définition de la droite des moindres carrés que : t
t
t yˆ e
y = + D’où yt2 =yˆt2+et2+2etyˆt
∑
=∑
+∑
+∑
t t
t t t
2 t t
2 t 2
t yˆ e 2 e yˆ
y
Or yˆt =βˆxt d’où :
L3MS2_M2.doc 2/11
( )
( )
( )
−β
β
=
β
− β
=
β
−
=
−
=
∑
∑
∑
∑
∑
∑
t 2 t t
t t
t t
t t t
t t t t
t t t t
t t
ˆ x x ˆ y
x ˆx ˆ y
ˆx yˆ y
yˆ yˆ y yˆ
e
Or,
∑ ∑ ∑
∑
∑
=
⇒
= β
−
⇒
= β
t t t
t t
2 t t
t t
2 t t
t t
0 yˆ e 0
ˆ x y x x
y x ˆ
∑
∑
∑
= +t 2 t t
2 t t
2
t yˆ e
y Cette équation est appelée équation de l’analyse de la variance. En effet :
( )
∑
∑
= −t
2 t t
2t Y Y
y est la variance de Yt (à n près)
( )
∑
∑
= −t
2 t t
2t Yˆ Y
yˆ est la variance de Yˆt (à n près) et
∑
t 2t
e est à n près la variance de et puisqu’en effet :
( )
0 1 1
1 1
=
−
=
−
=
−
=
=
∑
∑
∑
∑
yˆ y
n yˆ n y
yˆ n y
n e e
t t t
t t
t t t
t
On écrit alors cette relation :
Variance totale = Variance expliquée par la régression + variance résiduelle VT = VE + VR
En divisant les deux membres de l’équation par
∑
t 2t
y on a :
∑
∑
∑
∑
∑
∑
+
=
t 2 t t
2 t
t 2 t t
2 t
t 2 t t
2 t
y e y
yˆ y
y
∑
∑
∑
∑
+
=
t 2 t t
2t
t 2 t t
2t
y e y
yˆ 1
On appelle coefficient de détermination le rapport de la somme expliquée à la somme totale et on le note r².
L3MS2_M2.doc 3/11
∑
∑
∑
∑
−
=
=
t 2 t t
2t
t 2 t t
2t 2
y e 1 y yˆ
r ou encore
VT VR VT
r2 = VE =1−
Ce coefficient de détermination s’interprète comme un pourcentage. En effet, par construction : 1
r 0≤ 2≤
Par exemple, r2=0,80 signifie que 80% de la variance totale (la variance de Yt) est expliquée par la régression.
Dans le cas de la régression linéaire, on peut montrer que :
( )
22 r
r = En effet :
( )
2( )
2Y X
t 2 t t
2 2 t
t 2 t t
2 t
t 2 t t
2
2 t r
s ˆ s y x ˆ y ˆx y
yˆ
r =
β
= β
= β
=
=
∑
∑
∑
∑
∑
∑
3 - Test du coefficient de corrélation linéaire
Comme
x y
s rs ˆ=
β
l’absence de relation entre X et Y
(
β=0)
se traduit par un coefficient de corrélation linéaire nul. On peut donc utiliser le test de Student du paramètre β pour tester la signification du coefficient de corrélation.On sait que :
( )
x n 2 T(
n 2)
e ˆ
t 2 t t
2 t
−
≡ β −
−
β
∑
∑
Si H0:β=0 est vraie, alors :
( )
22
2 2
−
≡
− β
∑
∑
n T n
e ˆ x
t t t
t
Comme
∑
∑
β
=
t 2t t
2t
y x r ˆ
Et que
∑ ∑
∑
∑
−
=
⇔
−
=
t 2 t 2 t
2 t t
2t t
2t
2 e 1 r y
y e 1 r
L3MS2_M2.doc 4/11
On a :
) n ( T n
r r
n y r
y r n
e ˆ x
t t t
t
t t t
t
2 2
1
2 1
2
2
2 2
2
2 2
−
≡
− −
=
− −
=
− β
∑
∑
∑
∑
0 : H / 0 :
H0 ρ= 1 ρ≠ avec ρ la vraie valeur de r.
Remarque : ne pas confondre ρ (la lettre grecque Rho) qui désigne la vraie valeur de r avec la probabilité p.
<
−
= −
<
−
< −
=
−
−
−
2 1 p 2
2 1 p 2 2
p
t r 1
2 n ob r Pr
t r 1
2 n t r
ob Pr p 1
Règle de décision :
⇒
≠ ρ
⇒
⇒
− ≥
−
⇒
= ρ
⇒
⇒
− <
−
−
−
valide èle mod p
espèce de
rique au , rejetée H
t r n si r
valide non èle mod p
espèce de
rique au , acceptée H
t r n si r
p ere p ere
0 1
1 2
0 1
1 2
0 1 2
2
0 1 2
2
4 - Tableau de l’analyse de la variance :
Considérons l’hypothèse : 0
: H0 β=
On sait que la variance totale se décompose en variance expliquée et variance résiduelle (VT=VE+VR). Soit :
∑
∑
∑
= +t 2 t t
2 t t
2
t yˆ e
y
2 t
2 t 2
t 2 t 2
t 2
t yˆ e
y
ε ε
ε + σ
= σ
⇔
∑
σ∑ ∑
Or :
• e
(
n 2)
ˆ2 2(
n 2)
2 2
t 2t
− χ σ ≡
− σ
σ = ε
ε ε
∑
•
∑
=∑
β =β∑
t 2 t 2 t
2 t 2 t
2
t ˆ x ˆ x
yˆ d’où
L3MS2_M2.doc 5/11
D’où :
2 t
2t 2 2 t
2t x
ˆ yˆ
ε
ε =β σ
σ
∑
∑
Or,
( )
x N( )
0,1ˆ
t 2 t
σ ≡ β
− β
ε
∑
Si x N
( )
0,1ˆ alors
0 t
2 t
σ ≡ β
=
β ε
∑
Donc, x
( )
1ˆ
2 2
t 2 t 2
χ σ ≡
β
ε
∑
On peut donc écrire qu’à la relation :
2 t
2t
2 t
2t
2 t
2t yˆ e
y
ε ε
ε + σ
= σ σ
∑
∑
∑
On peut associer :
• χ2
( )
1 +χ2(
n−2)
=χ2( )
n−1Et de ce fait :
( )
( )
F(
1;n 2)
2 n 2 n
1 1
2 2
−
≡
− − χ
⇒ χ avec F la loi de Fisher-Snedecor à ν1=1etν2=n−2 degrés de
liberté.
D’où le tableau de l’analyse de la variance : Origine des
variations
Somme des carrés des écarts
Degré de liberté
Variance ou carrés moyens
F Variance
expliquée
∑
∑
β
=
=
t 2 t 2 t
2 1 t
ˆ x yˆ
Q 1 =
∑
t 2 t
1 yˆ
1
Q VRVE ≡F
(
1;n−2)
Variance
résiduelle =
∑
t 2
2 et
Q n-2
2 n
e 2 n
Q t
2 2 t
= −
−
∑
Variance
totale =
∑
t 2
3 yt
Q n-1
Le test sur β est alors le suivant : on se fixe un risque de première espèce p, c’est-à-dire la probabilité de rejeter l’hypothèse alors qu’elle est vraie. Ce risque correspond à la valeur seuil F1-p qui conduit à la règle de décision :
L3MS2_M2.doc 6/11
( ) ( )
( ) ( )
⇒
− ≥
⇒
− <
−
−
∑
∑
∑
∑
p espèce de
rique au rejetée H
F n
e y si
p espèce de
rique au acceptée H
F n
e y si
ere p
t t
t t
p ere
t t
t t
1 2
1 2
0 2 1
2
0 2 1
2
Par ailleurs, on sait que la loi de Student se construit de la façon suivante :
( ) ( )
( )
2 2 1 2 0
2
−
−
≡ χ
−
n n
, n N
T
On sait aussi qu’il existe une relation entre la loi de Fisher et la loi de Student : la loi de Fisher se construit à partir du carré de la loi de Student. D’où :
(
1,n−2)
≡T2( )
n−2F
A partir de ce résultat, on peut déduire le test sur le coefficient de détermination.
5- Test du coefficient de détermination
On a vu que :
( )
22 1
2
2 2
2
−
≡
− −
=
− β
∑
∑
n T n
r n r
e ˆ x
t t t
t
D’où
( ) ( ) (
n 2) (
F1,n 2)
e yˆ 2 n r 1 2 r n e ˆ x
t 2t t
2 t 2
2
t 2t t
2 t 2
−
≡
−
=
− −
=
− β
∑
∑
∑
∑
Si on pose alors : 0 : H / 0 :
H0 ρ2 = 1 ρ2 ≠ avec ρ2 le coefficient de détermination théorique, la règle de décision est la suivante :
( ) ( )
( ) ( )
−
≥
− −
−
<
− −
−
−
p espèce de
rique au rejetée H
n , F n
r si r
p espèce de
rique au acceptée H
n , F n
r si r
ere p
p ere
1 2
1 2
1
1 2
1 2
1
0 2 1
2
0 2 1
2
6- Utilisation du modèle de régression en prévision
On peut utiliser le modèle estimé en prévision de deux façons :
- prévoir la valeur moyenne de la variable endogène pour une valeur donnée de la variable exogène Xt. Cette valeur moyenne est l’espérance mathématique des valeurs possibles de Y0 (Yt à prévoir) associées à X0 (valeur donnée de Xt) c'est-à-dire E
[
Y0 X0]
(§6.1)L3MS2_M2.doc 7/11
- vérifier qu’une prévision ponctuelle donnée
(
X0,Y0)
est compatible avec la relation linéaire estimée (§6.2)6.1 - Intervalle de confiance d’une valeur moyenne de Y connaissant une valeur donnée de X :
Soit X0 la valeur donnée de X.
Soit X0 appartient à l’ensemble
{
1,2,...,n}
, soit X0 appartient à l’ensemble{
n+1,n+2,...,n+h}
avec h l’horizon de la prévision Le modèle s’écrit :
0 0
0 X
Y =α+β +ε
Le modèle estimé s’écrit : 0
0 ˆ ˆX
Yˆ =α+β
La valeur moyenne de Y connaissant une valeur donnée de X est notée : E
[
Y0/X0]
=α+βX0.On pose Yˆ0 l’estimateur linéaire sans biais de E
[
Y0/X0]
=α+βX0.Comme αˆ,βˆ suivent une loi normale, Yˆ0 suit une loi normale, d’où :
( ) ( )
≡ 0 0
0 N EYˆ ; VYˆ Yˆ
On montre que :
[ ]
[ ] ( )
+ −
σ
= β + α
=
ε
∑
t
xt
X X Yˆ n
V
X Yˆ
E
2 2 2 0
0
0 0
1
Démonstration :
[ ] [ ]
[ ]
0 0
0 0
0 0 0
0
X E X
X E
X / Y E
β + α
=
ε + β + α
=
ε + β + α
=
=
3 2 1
[ ] [ ]
[ ]
α +[ ]
β +( )
αβ=
β + α
=
,ˆ ˆ Cov X ˆ 2 V X ˆ V
ˆX ˆ V Yˆ V
0 2
0 0 0
Or, on a vu que :
( )
β =∑
σεt 2 t 2
x V ˆ
L3MS2_M2.doc 8/11
( )
+ σ
= σ
=
α
∑ ∑
∑
ε ε
t 2 t 2 2
t 2 t t
2 t 2
x X n 1 x
n X ˆ
V
En effet, par définition :
( )
2 2 t
2 2 t
2 t 2
t 2 2 t
t
X n X
X X n 2 X n X
X X 2 X X
X X x
−
=
− +
=
− +
=
−
=
∑
∑
∑
∑
∑
∑
∑
D’où :
∑
∑
∑
∑
∑
+ = += 2
t 2 2
t 2 2 t 2
t 2 t
x X n 1 x
n X n x x
n X
( )
2t 2
xt
ˆ X , ˆ
Cov αβ = − σε
∑
[ ]
( )
−
+ σ
=
+ −
+ σ
=
σ σ −
+
+ σ
=
⇒
∑
∑
∑
∑
∑
ε ε
ε ε ε
t 2 t
2 0 2
t 2 t
0 2 0 2 2
2
t 2 t 0 t
2 t 2 2 0 t
2 t 2 2
0
x X X n 1
x
X X 2 X X n 1
x X X 2 x X x X n Yˆ 1
V
( )
α+β σ + −
≡
⇒ ε
∑
t 2 t
2 0 0
0 x
X X n
; 1 X N
Yˆ
On peut également démontrer, avec une démonstration analogue à celle du module 1 que l’estimateur trouvé est un estimateur sans biais et de variance minimale.
On peut construire un intervalle de confiance de la valeur moyenne de Y/X.
Le problème est le suivant : on cherche a et b tels que 1−p=Prob
[
a<E[
Y0 X0]
<b]
ou[
a X b]
ob Pr
p= <α+β <
− 0
1 c'est-à-dire on veut déterminer un intervalle de confiance de la valeur moyenne de Y X
On sait que :
L3MS2_M2.doc 9/11
(
n 22)
ˆ2 ≡χ2(
n−2)
σ σ
−
ε
ε Comme σε est inconnu, on utilise la loi de Student.
( )
( )
( )
( )
2 n 2 ˆ n
x X X n 1
X Yˆ
2 n T
2 2 t
2 t
2 0
0 0
σ −
− σ + − σ
β + α
−
=
−
ε ε
ε
∑
( ) ( )
( )
∑
+ − σ
β + α
= −
−
⇔
ε
t 2 t
2 0
0 0
x X X n ˆ 1
X Yˆ
2 n T
( )
< − <
=
− ρ
ρ −
1 2 2
2
1 p Prob t Tn t
Rappel :
1 2 2
p
p t
t =− −
2 p p
1−
p 2
t t1−p 2
( )
(
Tn 2)
f −
(
n 2)
T − 2
p
0
L3MS2_M2.doc 10/11
( ) ( )
( ) ( )
± σ + −
∈
=
± σ + −
∈ β + α
=
−
∑
∑
ε ε
t 2 t
2 0 2
p 0 0 0
t 2 t
2 0 2
p 0 0
x X X n ˆ 1 t Yˆ X
/ Y E ob Pr
x X X n ˆ 1 t Yˆ X
ob Pr p 1
Ceci est l’intervalle de confiance de E
[
Y0/X0]
6.2 Vérification de la compatibilité entre la prévision ponctuelle et la relation linéaire estimée
Soit un couple de valeurs
(
X0,Y0)
, deux cas sont possibles : soit X0,Y0 appartiennent à l’ensemble{
1,2,...,n}
, soit X0,Y0appartiennent à{
n+1,n+2,...,n+h}
avec h horizon de la prévision.On se demande si le point du nuage de régression obtenu par ce couple de valeurs peut être considéré comme appartenant à la droite de régression estimée. Donc, on va accepter ou rejeter la compatibilité d’une prévision ponctuelle avec la relation estimée.
:
H0 compatibilité entre la prévision et la droite estimée. C'est-à-dire : E
[
Y0/X0]
=une certaine valeur (dans un exercice, cette valeur sera fixée).On démontre que :
( ) ( )
( )
∑
+ − + σ
β + α
= −
−
ε
t 2 t
2 0
0 0
x X X n 1 1 ˆ
X Yˆ
2 n T
D’où :
( )
< − <
=
− 1− 2
2
2
1 p Prob tp Tn t p
( ) ( )
α+β ± σ + + −
∈
=
− ε
∑
t t
p x
X X ˆ n
t X Yˆ
ob Pr
p 2
2 0 2
0 0
1 1
1
On écrit :
( ) ( )
+ − + σ
±
∈
=
− ε
∑
t t
p x
X X ˆ n
t X / Y E Yˆ ob Pr
p 2
2 0 2
0 0 0
1 1 1
L3MS2_M2.doc 11/11
Règle de décision :
( ) ( )
( ) ( )
α+β ± σ + + −
∉
α+β ± σ + + −
∈
∑
∑
ε ρ
ε ρ
p espèce de
risque au rejetée H
x X X ˆ n
t X Yˆ
si
p espèce de
risque au acceptée H
x X X ˆ n
t X Yˆ
si
ere
t t
ere
t t
1 1 1
1 1 1
2 0 2 0 2
0 0
2 0 2 0 2
0 0
Si H0 est acceptée, il y a compatibilité entre la prévision ponctuelle et la relation linéaire estimée.