Master1èreAnnée04-02-2008 FrédéricBertrandetMyriamMaumy Régressionlinéairemultiple

(1)

Introduction Présentation du modèle Méthode des moindes carrés Propriétés des moindres carrés Tests

Régression linéaire multiple

Frédéric Bertrand et Myriam Maumy ¹

1

IRMA, Université Louis Pasteur Strasbourg, France

Master 1ère Année 04-02-2008

(2)

Régression linéaire simple Exemple

Affiner le modèle

Problème : Étude de la concentration d’ozone dans l’air.

Modèle : La température (v.a. X ) et la concentration d’ozone (v.a. Y ) sont liées de manière linéaire :

Y = β 0 + β 1 X + ε.

Observations : n = 10 mesures de la température et de la concentration d’ozone.

But : Estimer β 0 et β 1 afin de prédire la concentration

d’ozone connaissant la température.

(3)

Affiner le modèle

(4)

Affiner le modèle

Souvent la régression linéaire est trop simpliste. Il faut alors utiliser d’autres modèles plus réalistes mais parfois plus complexes :

Utiliser d’autres fonctions que les fonctions affines comme les fonctions polynômiales, exponentielles,

logarithmiques. . .

Considérer plusieurs variables explicatives.

Exemple : La température et la vitesse du vent

(5)

Régression linéaire multiple Vision pratique

Le principe de la régression linéaire multiple est simple : Déterminer la variable expliquée Y .

Exemple : La concentration d’ozone.

Déterminer (p − 1) variables explicatives X ₁ , . . ., X _p−1 Exemple : X ₁ température, X ₂ vitesse du vent. . . Il ne reste plus qu’à appliquer un modèle linéaire :

Y = β ₀ + β ₁ X ₁ + · · · + β _p−1 X _p−1 + ε

(6)

Régression linéaire multiple Vision pratique

Dans un échantillon de n individus, on mesure y _i , x _i,1 , . . ., x _i,p−1 pour i = 1 . . . n.

Observations Y X ₁ . . . X _p−1 1 y ₁ x _1,1 . . . x _1,p−1 2 y ₂ x _2,1 . . . x 2,p−1

.. . .. . .. . .. . .. . n y _n x _n,1 . . . x _n,p−1

Remarque : Les variables x _i,j sont fixes tandis que les

variables y _i sont aléatoires.

(7)

Méthode Version matricielle Les calculs Casp=2

Exemple avec le logiciel R

But :

Estimer les paramètres β ₀ , . . ., β p−1 du modèle de régression et ce de manière optimale.

Méthode : La méthode des moindres carrés. Cette méthode revient à minimiser la quantité suivante :

n

X

i=1

y _i −

β ˆ ₀ + ˆ β ₁ x _i,1 + · · · + ˆ β p−1 x i,p−1

2 .

(8)

Le système peut se réécrire :





 y ₁

.. . y _n





 =







1 x _1,1 · · · x _1,p−1 .. . .. . .. . .. . 1 x _n,1 · · · x _n,p−1











 β ₀

.. . β _p−1





 +





 ε ₁

.. . ε _n







y = X β + ε

Vecteur des résidus : ε = y − y ˆ = y − X β. ˆ

Remarque : Les variables y et X sont mesurées tandis que l’estimateur β ˆ est à déterminer.

La méthode des moindres carrés consiste à trouver le vecteur

β ˆ qui minimise kεk ² = ^t εε.

(9)

kεk ² = ^t y − X ^ β

y − X ^ β

= ^t yy − ^t β ˆ ^t Xy − ^t yX β ˆ + ^t β ˆ ^t XX β ˆ

= ^t yy − 2 ^t β ˆ ^t Xy + ^t β ˆ ^t XX β ˆ

car ^t β ˆ ^t Xy est un scalaire. Donc il est égal à sa transposée.

La dérivée par rapport à β ˆ est alors égale à :

−2 ^t Xy + 2 ^t XX β. ˆ

(10)

• Problème : On cherche β ˆ qui annule cette dérivée. Donc on doit résoudre l’équation suivante :

t XX β ˆ = ^t Xy.

• Solution : On trouve après avoir inversé la matrice ^t XX (il faut naturellement vérifier que ^t XX est carrée et inversible c’est-à-dire qu’aucune des colonnes qui compose cette matrice ne soit proportionnelle aux autres colonnes)

β ˆ = ( ^t XX) ^−1t Xy.

(11)

Retrouvons les résultats de la régression linéaire simple (p = 2)

t XX =

n P x _i P x _i P

x _i ²

; ^t Xy = P

y _i P x _i y _i

.

Donc :

( ^t XX) ⁻¹ = 1 n P

x _i ² − ( P x _i ) ²

P

x _i ² − P x _i

− P

x _i n

= 1

P (x _i − x ¯ ) ² P

x _i ² /n −¯ x

−¯ x 1

.

(12)

Finalement on retrouve bien :

β ˆ = β ˆ ₀

β ˆ ₁

=





 y ¯ P

x _i ² − x ¯ P x _i y _i P (x _i − x ¯ ) ²

P x _i y _i − n¯ x y ¯ P (x _i − x ¯ ) ²







ce qui correspond aux estimateurs de la régression linéaire

simple que nous avons déjà rencontrés dans le cours 1.

(13)

> a <- lm(max03 T12 + VX)

> summary(a) Call :

lm(formula = max03 T12 + VX) Residuals :

Min 1Q Median 3Q Max

-47.860 -10.561 5.119 10.645 26.506 Coefficients :

Estimate Std. Error t value Pr(>|t|) (Intercept) 36.6520 26.5324 1.381 0.210 T12 2.6623 1.4202 1.875 0.103

VX 0.5431 0.7775 0.699 0.507

Residual standard error : 24.78 on 7 degrees of freedom Multiple R-Squared : 0.3351, Adjusted R-squared : 0.1452 F-statistic : 1.764 on 2 and 7 DF, p-value : 0.2396

(14)

“à la Pythagore”

Coefficient de détermination

Résultats préliminaires :

• P y ˆ _i ² = P y ˆ _i y _i ou (forme matricielle) ^t ˆ yˆ y = ^t yˆ y

• P y ˆ _i = P y _i

Propriété des moindres carrés : P (y _i − ¯ y) ² = P

(ˆ y _i − y ¯ ) ² + P

(y _i − ˆ y _i ) ²

SC _tot = SC _reg + SC _res

(15)

(16)

Le coefficient de détermination est défini par : R ² = SC reg

SC _tot .

Intuitivement ce coefficient de détermination quantifie la capacité du modèle à expliquer les variations de Y .

• Si R ² est proche de 1 alors le modèle est proche de la réalité.

• Si R ² est proche de 0 alors le modèle explique très mal la

réalité. Il faut alors trouver un meilleur modèle.

(17)

Hypothèses pour les tests Hypothèses pour les tests Estimation deσ² Tests d’hypothèses

On fait les hypothèses suivantes : y = Xβ + ε

où le vecteur aléatoire ε suit une loi multinormale qui vérifie les hypothèses suivantes :

E [ε] = 0 Var [ε] = σ ² I _n ,

où σ ² est la variance de la population et I _n est la matrice

identité de taille n.

(18)

Ceci implique que : E[y] = Xβ Var [y] = σ ² I _n .

On peut alors démontrer, sous ces hypothèses :

• E [ ˆ β] = β. Ce qui signifie que β ˆ est un estimateur sans biais

• Var [ ˆ β] = σ ² ( ^t XX) ⁻¹ .

Il reste un problème : Estimer la variance σ ² qui est a priori

une quantité inconnue.

(19)

Un estimateur sans biais de la variance σ ² est défini par : s ² =

P (y _i − y ˆ _i ) ²

n − p = SC _res

n − p = SC _tot − SC _reg n − p , où

n est le nombre d’individus/d’observations, p est le nombre de variables explicatives.

On appelle la quantité (n − p) le nombre de degrés de liberté.

(20)

But : Tester l’hypothèse nulle

H ₀ : β _j = b _j pour j = 0, . . . , p − 1 contre l’hypothèse alternative

H ₁ : β _j 6= b _j pour j = 0, . . . , p − 1.

(21)

Méthode :

• Calculer la statistique

t _obs =

β ˆ _j − b _j s( ˆ β _j )

où s ² ( ˆ β _j ) est l’élément diagonal d’indice j de s ² ( ^t XX) ⁻¹ .

• Si l’hypothèse nulle H ₀ est vraie, alors t _obs suit une loi de

Student avec (n − p) degrés de liberté.

(22)

Master1èreAnnée04-02-2008 FrédéricBertrandetMyriamMaumy Régressionlinéairemultiple

Régression linéaire multiple

Frédéric Bertrand et Myriam Maumy 1

IRMA, Université Louis Pasteur Strasbourg, France

Master 1ère Année 04-02-2008

Problème : Étude de la concentration d’ozone dans l’air.

Modèle : La température (v.a. X ) et la concentration d’ozone (v.a. Y ) sont liées de manière linéaire :

Y = β 0 + β 1 X + ε.

Observations : n = 10 mesures de la température et de la concentration d’ozone.

But : Estimer β 0 et β 1 afin de prédire la concentration

d’ozone connaissant la température.

Souvent la régression linéaire est trop simpliste. Il faut alors utiliser d’autres modèles plus réalistes mais parfois plus complexes :

Utiliser d’autres fonctions que les fonctions affines comme les fonctions polynômiales, exponentielles,

logarithmiques. . .

Considérer plusieurs variables explicatives.

Exemple : La température et la vitesse du vent

Le principe de la régression linéaire multiple est simple : Déterminer la variable expliquée Y .

Exemple : La concentration d’ozone.

Déterminer (p − 1) variables explicatives X 1 , . . ., X p−1 Exemple : X 1 température, X 2 vitesse du vent. . . Il ne reste plus qu’à appliquer un modèle linéaire :

Y = β 0 + β 1 X 1 + · · · + β p−1 X p−1 + ε

Dans un échantillon de n individus, on mesure y i , x i,1 , . . ., x i,p−1 pour i = 1 . . . n.

Observations Y X 1 . . . X p−1 1 y 1 x 1,1 . . . x 1,p−1 2 y 2 x 2,1 . . . x 2,p−1

.. . .. . .. . .. . .. . n y n x n,1 . . . x n,p−1

Remarque : Les variables x i,j sont fixes tandis que les

variables y i sont aléatoires.

But :

Estimer les paramètres β 0 , . . ., β p−1 du modèle de régression et ce de manière optimale.

Méthode : La méthode des moindres carrés. Cette méthode revient à minimiser la quantité suivante :

n

X

i=1

y i −

β ˆ 0 + ˆ β 1 x i,1 + · · · + ˆ β p−1 x i,p−1

2

.

Le système peut se réécrire :





 y 1

.. . y n





 =







1 x 1,1 · · · x 1,p−1 .. . .. . .. . .. . 1 x n,1 · · · x n,p−1











 β 0

.. . β p−1





 +





 ε 1

.. . ε n







y = X β + ε

Vecteur des résidus : ε = y − y ˆ = y − X β. ˆ

Remarque : Les variables y et X sont mesurées tandis que l’estimateur β ˆ est à déterminer.

La méthode des moindres carrés consiste à trouver le vecteur

β ˆ qui minimise kεk 2 = t εε.

kεk 2 = t y − X ^ β

y − X ^ β

= t yy − t β ˆ t Xy − t yX β ˆ + t β ˆ t XX β ˆ

= t yy − 2 t β ˆ t Xy + t β ˆ t XX β ˆ

car t β ˆ t Xy est un scalaire. Donc il est égal à sa transposée.

La dérivée par rapport à β ˆ est alors égale à :

−2 t Xy + 2 t XX β. ˆ

• Problème : On cherche β ˆ qui annule cette dérivée. Donc on doit résoudre l’équation suivante :

t XX β ˆ = t Xy.

• Solution : On trouve après avoir inversé la matrice t XX (il faut naturellement vérifier que t XX est carrée et inversible c’est-à-dire qu’aucune des colonnes qui compose cette matrice ne soit proportionnelle aux autres colonnes)

β ˆ = ( t XX) −1t Xy.

Frédéric Bertrand et Myriam Maumy ¹

Déterminer (p − 1) variables explicatives X ₁ , . . ., X _p−1 Exemple : X ₁ température, X ₂ vitesse du vent. . . Il ne reste plus qu’à appliquer un modèle linéaire :

Y = β ₀ + β ₁ X ₁ + · · · + β _p−1 X _p−1 + ε

Dans un échantillon de n individus, on mesure y _i , x _i,1 , . . ., x _i,p−1 pour i = 1 . . . n.

Observations Y X ₁ . . . X _p−1 1 y ₁ x _1,1 . . . x _1,p−1 2 y ₂ x _2,1 . . . x 2,p−1

.. . .. . .. . .. . .. . n y _n x _n,1 . . . x _n,p−1

Remarque : Les variables x _i,j sont fixes tandis que les

variables y _i sont aléatoires.

Estimer les paramètres β ₀ , . . ., β p−1 du modèle de régression et ce de manière optimale.

y _i −

β ˆ ₀ + ˆ β ₁ x _i,1 + · · · + ˆ β p−1 x i,p−1

 y ₁

.. . y _n

1 x _1,1 · · · x _1,p−1 .. . .. . .. . .. . 1 x _n,1 · · · x _n,p−1

 β ₀

.. . β _p−1

 ε ₁

.. . ε _n

β ˆ qui minimise kεk ² = ^t εε.

kεk ² = ^t y − X ^ β

= ^t yy − ^t β ˆ ^t Xy − ^t yX β ˆ + ^t β ˆ ^t XX β ˆ

= ^t yy − 2 ^t β ˆ ^t Xy + ^t β ˆ ^t XX β ˆ

car ^t β ˆ ^t Xy est un scalaire. Donc il est égal à sa transposée.

−2 ^t Xy + 2 ^t XX β. ˆ

t XX β ˆ = ^t Xy.

• Solution : On trouve après avoir inversé la matrice ^t XX (il faut naturellement vérifier que ^t XX est carrée et inversible c’est-à-dire qu’aucune des colonnes qui compose cette matrice ne soit proportionnelle aux autres colonnes)

β ˆ = ( ^t XX) ^−1t Xy.

n P x _i P x _i P

x _i ²

; ^t Xy = P

y _i P x _i y _i

( ^t XX) ⁻¹ = 1 n P

x _i ² − ( P x _i ) ²

x _i ² − P x _i

x _i n

P (x _i − x ¯ ) ² P

x _i ² /n −¯ x

β ˆ = β ˆ ₀

β ˆ ₁

x _i ² − x ¯ P x _i y _i P (x _i − x ¯ ) ²

P x _i y _i − n¯ x y ¯ P (x _i − x ¯ ) ²

• P y ˆ _i ² = P y ˆ _i y _i ou (forme matricielle) ^t ˆ yˆ y = ^t yˆ y

• P y ˆ _i = P y _i

Propriété des moindres carrés : P (y _i − ¯ y) ² = P

(ˆ y _i − y ¯ ) ² + P

(y _i − ˆ y _i ) ²

SC _tot = SC _reg + SC _res

Le coefficient de détermination est défini par : R ² = SC reg

SC _tot .

• Si R ² est proche de 1 alors le modèle est proche de la réalité.

• Si R ² est proche de 0 alors le modèle explique très mal la

E [ε] = 0 Var [ε] = σ ² I _n ,

où σ ² est la variance de la population et I _n est la matrice

Ceci implique que : E[y] = Xβ Var [y] = σ ² I _n .

• Var [ ˆ β] = σ ² ( ^t XX) ⁻¹ .

Il reste un problème : Estimer la variance σ ² qui est a priori

Un estimateur sans biais de la variance σ ² est défini par : s ² =

P (y _i − y ˆ _i ) ²

n − p = SC _res

n − p = SC _tot − SC _reg n − p , où