Chapitre 2 : Modèle de régression linéaire multiple.

(1)

Chapitre 2 : Modèle de régression linéaire multiple.

Le modèle de régression linéaire multiple est une généralisation du modèle de régression linaire simple. Ce dernier s’inscrit dans un cadre restreint où la variable endogène est expliquée par une seule variable explicative (en générale dans le but de simplification).

Cependant, un phénomène est généralement expliqué par un ensemble de variables exogènes.

En effet, l’introduction de p variables dans le cadre de la régression multiple afin d’expliquer une variable endogène (y) améliore l’estimation et réduit le résidu.

1. La forme générale du modèle

La forme générale du modèle multiple est donnée comme suit : pour La variable à expliquer à la date t.

La première variable explicative à la date t.

La deuxième variable explicative à la date t.

La k^ème variable explicative à la date t.

, , … les paramètres du modèle.

Le résidu du modèle.

La forme matricielle du modèle :

Afin de rendre l’écriture du modèle plus pratique, nous utilisons l’écriture matricielle

( ) _{( )} _{( )} _{( )}

( + (

, ( ) ( +

La première colonne de la matrice X est constitué de chiffre 1 ce qui correspond au terme constant . Puis les autres colonnes sont constituées des variables explicatives.

(2)

1.1 Hypothèses de la régression linéaire multiple Le modèle est linéaire sur ses variables explicatives.

1.1.1 Les hypothèses stochastiques

 Les observations doivent être indépendantes.

 ( ) .

 La variance de l’erreur est constante ( ) .

 Les erreurs sont non corrélées.

 ( ) l’erreur est indépendante des variables explicatives.

1.1.2 Les hypothèses structurelles

 Absence de colinéarité entre les variables explicatives, ce qui implique que la matrice ( ) est stable, et qu’elle est inversible.

 ( ) tend vers une matrice finie non régulière.

 le nombre d’observation doit être supérieurs au nombre de variables explicatives.

2. Estimation et propriété des estimateurs :

Soit le modèle multiple a k variables explicatives suivant :

L’estimation du vecteur est effectuée par la méthode des moindres carrés ordinaires qui consiste à minimiser le carré des résidus.

( , , … ) ∑( )

Le minimum de la fonction est atteint par la différenciation de cette fonction par rapport à .

( )

̂ donc ̂ ( )

La réalisation de cette solution est sous contrainte que la matrice carrée est inversible.

Donc le modèle estimé s’écrit :

̂ ̂ ̂ ̂ ̂

Le résidu mesure l’écart entre la valeur observée et la valeur estimé ̂

Remarque : il faut distinguer entre l’erreur de spécification qui est un terme inconnu et le résidu qui est un terme estimé.

Exemple : On suppose qu’une entreprise cherche à déterminer l’impact des ruptures de production sur la hausse du cout de production, pour cela elle utilise deux variables explicatives (X1 : la fréquence des coupures d’électricité par mois et X2 : la fréquence des pannes de machines par mois).

(3)

Y X1 X2

1 3 4

1 3 2

2 5 2

3 7 1

3 8 1

1. Donner la forme générale du modèle.

2. Donner la forme matricielle du modèle

3. Estimer les paramètres du modèle sachant que ( ) (

)

Solution :

1. La forme générale du modèle : la variable rupture de production est expliquée par deux variables exogènes X1 et X2 donc c’est un modèle de régression multiple

( ) _{( )} _{( )} _{( )}

2 La forme matricielle du modèle (

, (, (

) (

, (

) ( , 3 Estimation des paramètres :

On doit estimer la relation : ̂ ̂ ̂ ̂ On a : ̂ ( )

( *

( ) (

) (

* (

) Donc ̂ ̂ ̂ ̂

3. La matrice des variances covariances des coefficients de régression Ω_a L’estimation sans biais de la variance est la quantité

∑

( ̂) n Le nombre d’observation ; le nombre de variables explicatives.

(4)

D’après l’hypothèse de la variance de l’erreur est constante et celle que les erreurs sont non corrélées :

(

( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( )) (

)

̂ ( ) ( ) Donc ̂ ( )

En remplaçant la variance de l’erreur par son estimateur : ̂̂ ̂( )

Les variances des coefficients de régression se trouvent à la première diagonale de la matrice ̂̂.

Exemple : on suppose le modèle de régression suivant : ̂ tandis que la matrice (

) et ( ) (

)

Calculer l’écart-type des coefficients de régression

Y ̂

8,2 5 7,5 6

7,98 5,11 8,23 5,38

0,22 -0,11 -0,73 0,64

0,05 0,14 0,55 1,35

0 2,09

̂ ^∑

̂̂ ̂( ) (

)

Nous calculons les valeurs en diagonale ̂ donc ̂ ̂ donc ̂ ̂ donc ̂

(5)

4 La construction des tests statistiques

Afin de valider le modèle et de passer à l’étape de la prévision, il est nécessaire d’effectuer un ensemble de tests statistiques. En effet, nous allons construire deux principaux tests ; test de significativité partielle du modèle et test de significativité globale du modèle.

4.1 Test de significativité partielle du modèle (test de Student)

Il s’agit d’effectuer un test de significativité sur chacune des variables explicatives du modèle, notamment la constante. Le test est basé sur les deux hypothèses suivantes :

H₀: H1 :

Sous l’hypothèse H₀ nous calculons la statistique de student ^|^{̂ |}

et nous comparons avec la statistique de Student T_tabeléavec degrès de liberté

Si ^⁄ nous rejetons H₀ et nous acceptons H₁ donc le coefficient est significativement différent de 0. Dans le cas contraire c-a-d ^⁄ nous acceptons H₀ dans ce cas le coefficient n’est pas significatif.

Intervalle de confiance pour les paramètres estimé

Il est toute a fait intéressant de déterminer un intervalle de confiance pour les paramètres estimés et qui sont significativement différents de 0.

̂ ̂ ( ^⁄ ̂) ̂ ( ^⁄ ̂)

4.2 Test de significativité globale du modèle (Test de Fisher)

Le test de Fisher informe sur la significativité globale du modèle. Ce test a comme principe que la régression est significative si la variabilité expliquée est significativement différente de 0. Il est basé sur deux hypothèses :

H0 :

H₁ : Il existe au moins un coefficient

Sous l’hypothèse H0 on calcule la statistique ^⁄

⁄

Le coefficient de détermination _∑ ^∑₍_̅)

Nous comparons la statistique de Fisher calculée avec la statistique de Fisher tablé ( ) ( ) de degré de liberté. et

(6)

Si ( ) nous rejetons H0 et nous acceptons H₁ donc le modèle est globalement significatif.

Exemple : Reprenant l’exemple précédent, le test de significativité partielle est donné comme suit :

H₀: H1 :

| ̂ |

| |

^⁄ ; ^⁄ donc nous rejetons H0 et nous acceptons H1, le coefficient est significativement différent de 0.

| |

; ^⁄ donc nous rejetons H₀ et nous acceptons H₁, le coefficient est significativement différent de 0.

| |

^⁄ donc nous acceptons H0, le coefficient n’est pas significatif.

 Le test de significativité globale du modèle :

 H₀:

 H1 : Il existe au moins un coefficient

∑ . ∑( ̅) donc

⁄ ⁄

⁄

donc nous acceptons H₀ ; le modèle n’est pas significatif. Dans ce cas, nous devons supprimer les variables qui ne sont pas significatives et ajouter d’autres variables explicatives.

5 L’analyse de la variance

L’équation fondamentale de l’analyse de la variance est donnée comme suit :

∑( ̅) ∑( ̂ ̅) ∑( ̂) c’est-à-dire :

Source de variation Somme des carrés Degré de

liberté

Carrés moyen

Résidu Total

∑( ̂ ̅)

∑ ∑( ̂) ∑( ̅)

K

⁄

(7)

5.1 Le coefficient de détermination

Afin de mesurer la qualité d’ajustement du modèle, nous définissons le coefficient de détermination ou le coefficient de corrélation multiple . Ce paramètre indique la proportion expliquée de la variable endogène par les variables explicatives, sa valeur est comprise entre 0 et 1. Si la valeur de est proche de 1, le modèle dispose d’une bonne qualité d’ajustement.

Tandis que si sa valeur est proche de 0, cela indique un faible ajustement du modèle, autrement dit que les variables explicatives n’expliquent pas bien la variable endogène.

^∑_∑^{( ̂}₍^̅)_̅)

ou donc ^∑_∑⁽₍^̂_̅)⁾

Si l’hypothèse de non-régression n’est pas satisfaite, la loi de n’est pas une forme simple, ce qui suggère de calculer le coefficient de détermination ajusté.

̅̅̅̅ ( )

Avec n : nombre d’observation et k : nombre de variables.

Remarque : Si ̅̅̅̅ cela indique l’absence d’erreur liée à l’introduction des variables explicatives dans le modèle. Donc le modèle est bien spécifié.

6 La prévision dans le modèle multiple Soit le modèle générale suivant :

̂ pour

La prévision pour ̂ est donnée par : ̂ L’erreur de la prévision notée ̂

La variance de l’erreur de prévision est donnée comme suit : ( ) ( )

avec : la valeur de la matrice des variables explicative à En effet, l’intervalle de confiance pour la prévision est donné :

̂ ( ^⁄ √ ( )) ̂ ( ^⁄ √ ( ))

Exemple : en reprenant le même exemple précédent toute en supposant la significativité de l’ensemble des paramètres :

1. Etablir le tableau d’analyse de la variance.

2. Calculer le coefficient de détermination et le coefficient de détermination ajusté.

(8)

3. Faite une prévision pour la valeur X₁=5 et X₂=4. Donner un intervalle de confiance pour cette prévision au seuil de significativité de 5%.

Solution

1. Le tableau d’analyse de la variance

Source de variation Somme des carrés Degré de

liberté

Carrés moyen

Résidu

Total

∑( ̂ ̅) ∑ ∑(

̂)

∑( ̅) 2

⁄ ⁄ ⁄

2. Le calcule de et de ̅̅̅̅

̅̅̅̅ ( ) ( )

Le est loin du ̅̅̅̅ ce qui indique que le modèle contient des erreurs liées à l’introduction des variables explicatives. En effet, pour corriger ce problème il faut introduire d’autres variables explicatives plus significatives.

3. Les prévisions ̂

̂ ( ) ( )

L’intervalle de confiance pour la prévision :

On calcule d’abord la variance de la prévision ( ) ( )

( ) (( ) (

) (

) ) donc

( 2,92) ; ( 2,92)]

(9)

Exercice Récapitulatif :

Afin d’étudier l’impact de la charge fiscale(X1) et des dépenses publiques (X2) sur la croissance économique en Algérie sur la période 2002-2017. On considère le modèle de régression linéaire suivant :

( ) (

+ ( ̂) (

+ ;∑( ̅) ; ;

1. Interpréter économiquement les paramètres estimés.

2. L’effet de la charge fiscale est-il significatif sur la croissance économique au seuil de signification de 95%.

3. Calculer le coefficient de détermination ajusté. Interpréter.

4. Tester la significativité globale du modèle

5. Construisez le test d’hypothèse ( contre l’hypothèse ) au seuil de signification de 95%.

Solution

1. Interprétation des paramètres

il représente la valeur autonome de la croissance économique. Ou la valeur de la croissance qui est indépendante de la charge fiscale et des dépenses publiques.

représente le degré de variation de la croissance suite à une variation unitaire de la charge fiscale (impact négatif).

représente le degré de variation de la croissance suite à une variation unitaire des dépenses publiques.

2. Test de significativité partielle de Student Hypothèses : contre ^| ^|

D’abord on calcule ( ) donc ^{| |}

donc on rejette et on accepte ⇒ est significativement ≠0. Donc la charge fiscale a un effet significatif sur la croissance économique.

3. Le calcule de coefficient de détermination

(10)

∑

( ) ( )

̅ ( ) ( )

L’interprétation : ̅ : Le coefficient de détermination ajusté, c’est le corrigé de degré de liberté de l’estimation. ̅ Le coefficient de détermination est proche du coefficient de détermination ajusté, la prise en compte du degré de liberté du modèle estimé n’a pas induit d’erreur dans le modèle (le rapport du nombre d’observations au nombre de variable est satisfaisant).

4. Le test de significativité globale du modèle : H0 :

H₁ : Il existe au moins un coefficient

⁄ ⁄

⁄

donc nous rejetons H0 et nous acceptons H1 ; le modèle est globalement pas significatif.

5. Test d’hypothèses

contre l’hypothèse ^| ^|

√ ^{| |}

donc on rejette et on accepte ⇒ .