IRMA, Univ ersité de Str asbourg Fr ance Master 1 2017

(1)

Introduction Présentationdumodèle Méthodedesmoindrescarrésordinaires Propriétésdesmoindrescarrés Hypothèsesetestimation Analysedelavariance:TestdeFisher AutrestestsetIC

Rég ression linéaire m ultiple Frédér ic Ber trand et Myr iam Maum y-Ber trand 1

1

IRMA, Univ ersité de Str asbourg Fr ance Master 1 2017

FrédéricBertrandetMyriamMaumy-BertrandRégressionlinéairemultiple Introduction Présentationdumodèle Méthodedesmoindrescarrésordinaires Propriétésdesmoindrescarrés Hypothèsesetestimation Analysedelavariance:TestdeFisher AutrestestsetIC

Régressionlinéairesimple Exemple Affinerlemodèle

Ex emple :Issu du livre « Statistiques av ec R », P.A. Cor nillon, et al. ,Deuxième édition, 2010 Pr ob lème : Étude de la concentr ation d’oz one dans l’air . Modèle : La tempér ature à 12 heures (v .a. X 1 )et la concentr ation d’oz one (v .a. Y )sont liées de manière linéaire : Y = β 0 + β 1 X 1 + ε. Obser vations : n = 112 obser vations de la tempér ature à 12 heures et de la concentr ation d’oz one . But : Estimer β 0 et β 1 afin de prédire la concentr ation d’oz one connaissant la tempér ature à 12 heures .

Régressionlinéairesimple Exemple Affinerlemodèle FrédéricBertrandetMyriamMaumy-BertrandRégressionlinéairemultiple

Régressionlinéairesimple Exemple Affinerlemodèle

Affiner le modèle Souv ent la rég ression linéaire est trop simpliste .Il faut alors utiliser d’autres modèles plus réalistes mais parf ois plus comple xes : Utiliser d’autres fonctions que les fonctions affines comme les fonctions polynômiales ,e xponentielles , logar ithmiques. .. Considérer plusieurs var iab les explicativ es . Ex emple : La tempér ature à 12 heures et la vitesse du vent.

FrédéricBertrandetMyriamMaumy-BertrandRégressionlinéairemultiple

(2)

Régressionlinéairemultiple Visionpratique

Rég ression linéaire m ultiple Le pr incipe de la rég ression linéaire m ultiple est simple : Déter miner la var iab le expliquée Y . Ex emple : La concentr ation d’oz one . Déter miner ( p − 1 ) var iab les explicativ es X 1 ,. .., X p − 1 Ex emple : X 1 tempér ature à 12 heures , X 2 vitesse du vent, .. . Il ne reste plus qu’à appliquer un modèle linéaire : Y = β 0 + β 1 X 1 + ·· · + β p − 1 X p − 1 + ε.

Régressionlinéairemultiple Visionpratique

Dans un échantillon de n individus ,nous mesurons y i , x i , 1 ,. .., x i , p − 1 pour i = 1 ,. .. , n . Obser vations Y X 1 .. . X p − 1 1 y 1 x 1 , 1 .. . x 1 , p − 1 2 y 2 x 2 , 1 .. . x 2 , p − 1

. . . . . . . . . . . . . . .

n y n x n , 1 .. . x n , p − 1 Remarque Les var iab les x i , j sont fix es tandis que les var iab les Y i sont aléatoires .

Méthode Versionmatricielle Lescalculs Casp=2 ExempleaveclelogicielR

Prob lème Il faut estimer les par amètres β 0 ,. .., β p − 1 du modèle de rég ression et ce de manière optimale . Solution Utiliser la méthode des moindres carrés .Cette méthode re vient à minimiser la quantité suiv ante : min β

0

,...,β

p−1

n X i = 1 y i − β 0 + β 1 x i , 1 + ·· · + β p − 1 x i , p − 1 2 .

Le système peut se réécr ire :   

y 1 . . . y n

  

=

  

1 x 1 , 1 ·· · x 1 , p − 1

. . . . . . . . . . . .

1 x n , 1 ·· · x n , p − 1

  

  

β 0 . . .

β p − 1

  

+

  

ε 1 . . . ε n

  

y = X β + ε Vecteur des résidus : b e = y − b y = y − X b β .

(3)

Remarque Les var iab les y et X sont mesurées tandis que l’estimateur b β est à déter miner . La méthode des moindres carrés ordinaires consiste à trouv er le vecteur b β qui minimise k ε k 2 = t εε .

Les calculs k ε k 2 = t y − X b β y − X b β = t yy − t b β t Xy − t yX b β + t b β t XX b β = t yy − 2 t b β t Xy + t b β t XX b β car t b β t Xy est un scalaire .Donc il est égal à sa transposée . La dér ivée par rappor tà b β est alors égale à : − 2 t Xy + 2 t XX b β .

Prob lème Nous cherchons b β qui ann ule cette dér ivée .Donc nous de vons résoudre l’équation suiv ante : t XX b β = t Xy . Solution Nous trouv ons après av oir in versé la matr ice t XX (il faut naturellement vér ifier que t XX est carrée et in versib le c’est-à-dire qu’aucune des colonnes qui compose cette matr ice ne soit propor tionnelle aux autres colonnes) b β = ( t XX ) − 1 t Xy .

Remarque Retrouv ons les résultats de la rég ression linéaire simple ( p = 2) t XX = n P x i P x i P x 2 i ; t Xy = P y i P x i y i . Donc : ( t XX ) − 1 = 1 n P x 2 i − ( P x i ) 2 P x 2 i − P x i − P x i n

= 1 P ( x i − x n ) 2 P x 2 i / n − x n − x n 1

.

(4)

Suite et fin de la remarque Finalement nous retrouv ons bien : b β = b β 0 b β 1 ! =      

Y n P x 2 i − x n P x i Y i P ( x i − x n ) 2 P x i Y i − nx n Y n P ( x i − x n ) 2

     

ce qui correspond aux estimateurs de la rég ression linéaire simple que nous av ons déjà rencontrés dans le cours 6.

Ex emple av ec le logiciel R Reprenons l’e xemple traité en déb ut de ce chapitre . Introduisons comme var iab les explicativ es la tempér ature à 12 heures et la vitesse du vent. Utilisons pour cela R . > modele1 <- lm(max03 ∼ T12 + Vx12) > summary(modele1) Call: lm(formula = max03 ∼ T12 + Vx12) Residuals: Min 1Q Median 3Q Max -33.08 -12.00 -1.20 10.67 45.67

Suite de l’e xemple av ec le logiciel R Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -14.4242 9.3943 -1.535 0.12758 T12 5.0202 0.4140 12.125 < 2e-16 * Vx12 2.0742 0.5987 3.465 0.00076 * Residual standard error: 16.75 on 109 degrees of freedom Multiple R-squared: 0.6533, Adjusted R-squared: 0.6469 F-statistic: 102.7 on 2 and 109 DF, p-value: < 2.2e-16

Test de nor malité Pour lire la p valeur du test de Fisher et celles des tests de Student, il faut s’assurer aupar av ant que les résidus suiv ent une loi nor male .P our cela, vous allez réaliser un test de nor malité, celui de Shapiro-Wilk av ec R . > residus<-residuals(modele1) > shapiro.test(residus) Shapiro-Wilk normality test data: residus W = 0.9854, p-value = 0.2624

(5)

Conclusion du test de nor malité La p -v aleur ( p -v alue = 0,2624) du test de Shapiro-Wilk étant str ictement supér ieure à α = 5 % ,le test n’est pas significatif . Nous décidons de ne pas rejete ret donc d’accepter H 0 au seuil α = 5 % .Le risque d’erreur associé à cette décision est un risque d’erreur de seconde espèce β .Dans le cas présent, vous ne pouv ez pas l’év aluer . Inter prétation Il ne nous reste plus qu’à inter préter la sor tie de summary(modele1) .

Suite de l’inter prétation La p -v aleur ( p -v alue < 2.2e-16) du test de Fisher étant infér ieure ou égale à α = 5 % ,le test est significatif .Nous rejetons H 0 et nous décidons que H 1 est vr aie av ec un risque de première espèce α = 5 % .Donc il y a au moins une des deux var iab les qui joue le rôle de var iab le explicativ e. La p -v aleur ( p -v alue < 2e-16) du test de Student, associée à « T12 » étant infér ieure ou égale à α = 5 % ,le test est significatif .Nous rejetons H 0 et nous décidons que H 1 est vr aie av ec un risque de première espèce α = 5 % . Nous pouv ons faire la même conclusion pour la var iab le vitesse du vent à 12 heures .

«àlaPythagore» Coefficientdedétermination

Résultats préliminaires

1

P ˆ y 2 i = P ˆ y i y i ou (for me matr icielle) t ˆ y ˆ y = t y ˆ y

2

P ˆ y i = P y i Propr iété des moindres carrés ordinaires P ( y i − y n ) 2 = P (ˆ y i − y n ) 2 + P ( y i − ˆ y i ) 2 sc tot = sc reg + sc res

Représentation gr aphique de la relation fondamentale

(6)

Rappel sur le coefficient de déter mination Nous rappelons que le coefficient de détermination est défini par : R 2 = sc reg sc tot · Intuitiv ement ce coefficient de déter mination quantifie la capacité du modèle à expliquer les var iations de Y . Si R 2 est proche de 1 alors le modèle est proche de la réalité. Si R 2 est proche de 0 alors le modèle explique très mal la réalité. Il faut alors trouv er un meilleur modèle .

Hypothèsespourlestests Estimationdeσ2

Les hypothèses indispensab les pour réaliser les tests Nous faisons les hypothèses suiv antes : y = X β + ε où le vecteur aléatoire ε suit une loi m ultinor male qui vér ifie les hypothèses suiv antes : E [ ε ] = 0 Var [ ε ] = σ 2 I n , où σ 2 est la var iance de la population et I n est la matr ice identité de taille n .

Conséquences Les hypothèses précédentes impliquent E [ y ] = X β Var [ y ] = σ 2 I n . Nous pouv ons alors démontrer , sous ces hypothèses : E h b β i = β .Ce qui signifie que le vecteur b β est un estimateur sans biais de β . Var h b β i = σ 2 ( t XX ) − 1 . Prob lème La var iance σ 2 est inconn ue .Donc il faut estimer σ 2 !

Constr uction d’un estimateur de σ 2 Un estimateur sans biais de la var iance σ 2 est défini par : CM res = P ( Y i − b Y i ) 2 n − p = SC res n − p = SC tot − SC reg n − p où n est le nombre d’individus/d’obser vations , p est le nombre de var iab les explicativ es . Nous rappelons que la quantité ( n − p ) est le nombre de degrés de liber té associé à SC res .

(7)

Test de Fisher Tester l’h ypothèse nulle : H 0 : β 1 = β 2 = ·· · = β p − 1 = 0 contre l’h ypothèse alter nativ e : H 1 : ∃ au moins un j pour lequel β j 6 = 0 où j var ie de 1 à p − 1 . Remarque Si l’h ypothèse nulle H 0 est vér ifiée alors le modèle s’écr it : Y i = β 0 + ε i .

Tab leau de l’analyse de la var iance Source de sc ddl cm F obs var iation Rég ression sc reg = n X i = 1 (ˆ y i − y ) 2 p − 1 sc reg p − 1 cm reg cm res Résiduelle sc res = n X i = 1 ( y i − ˆ y i ) 2 n − p sc res n − p Totale sc tot = n X i = 1 ( y i − y ) 2 n − 1

Méthode

1

Calculer la statistique F obs = CM reg CM res ·

2

Lire la valeur cr itique F 1 − α, p − 1 , n − p où F 1 − α, p − 1 , n − p est le ( 1 − α ) -quantile d’une loi de Fisher av ec ( p − 1 ) et ( n − p ) deg rés de liber té, car si l’h ypothèse nulle H 0 est vr aie , alors F obs suit une loi de Fisher av ec ( p − 1 ) et ( n − p ) deg rés de liber té.

3

Comparer la statistique c’est-à-dire la valeur obser vée à la valeur cr itique .

Règle de décision Nous décidons de rejeter l’h ypothèse nulle H 0 et d’accepter l’h ypothèse alter nativ e H 1 ,au seuil α = 5 % ,si | F obs | > F 1 − α, p − 1 , n − p . Nous décidons de ne pas rejeter l’h ypothèse nulle H 0 et donc de l’accepter si | F obs | < F 1 − α, p − 1 , n − p .

(8)

LestestsdeStudent Intervallesdeconfiance TestdeFisherpartiel

Tests de Student Tester l’h ypothèse nulle H 0 : β j = b j pour j = 0 ,. .. , p − 1 contre l’h ypothèse alter nativ e H 1 : β j 6 = b j pour un cer tain j entre 0 et p − 1 .

Méthode

1

Calculer la statistique t obs = b β j − b j s ( b β j ) où s 2 ( b β j ) est l’élément diagonal d’indice j de CM res ( t XX ) − 1 .

2

Lire la valeur cr itique t n − p ; 1 − α/ 2 où t n − 2 ; 1 − α/ 2 est le ( 1 − α / 2 ) -quantile d’une loi de Student av ec ( n − p ) deg rés de liber té, car si l’h ypothèse nulle H 0 est vr aie ,alors t obs suit une loi de Student av ec ( n − p ) deg rés de liber té.

3

Comparer la statistique c’est-à-dire la valeur obser vée à la valeur cr itique .

Règle de décision Nous décidons de rejeter l’h ypothèse nulle H 0 et d’accepter l’h ypothèse alter nativ e H 1 ,au seuil α = 5 % ,si | t obs | > t n − p ; 1 − α/ 2 . Nous décidons de ne pas rejeter l’h ypothèse nulle H 0 et donc de l’accepter si | t obs | < t n − p ; 1 − α/ 2 .

Cas par ticulier Tester l’h ypothèse nulle H 0 : β j = 0 pour j = 0 ,. .. , p − 1 contre l’h ypothèse alter nativ e H 1 : β j 6 = 0 pour un cer tain j entre 0 et p − 1.

(9)

Méthode

1

Calculer la statistique t obs = ˆ β j s ( ˆ β j ) ·

2

Lire la valeur cr itique t n − p ; 1 − α/ 2 où t n − p ; 1 − α/ 2 est le ( 1 − α / 2 ) -quantile d’une loi de Student av ec ( n − p ) deg rés de liber té, car si l’h ypothèse nulle H 0 est vr aie ,alors t obs suit une loi de Student av ec ( n − p ) deg rés de liber té.

3

Comparer la valeur obser vée et la valeur cr itique .

Règle de décision Nous décidons de rejeter l’h ypothèse nulle H 0 et d’accepter l’h ypothèse alter nativ e H 1 ,au seuil α = 5 % ,si | t obs | > t n − p ; 1 − α/ 2 . Nous décidons de ne pas rejeter l’h ypothèse nulle H 0 et donc de l’accepter si | t obs | < t n − p ; 1 − α/ 2 .

IC pour β j Un inter valle de confiance au niv eau ( 1 − α ) où α est la probabilité d’erreur pour β j est défini par i b β j − t n − p ; 1 − α/ 2 × s ( b β j ); b β j + t n − p ; 1 − α/ 2 × s ( b β j ) h . Remarque Cet inter valle de confiance est constr uit de telle sor te qu’il contienne le par amètre inconn u β j av ec une probabilité de ( 1 − α ) .

Test de Fisher par tiel La nullité d’un cer tain nombre r de par amètres dans un modèle de p par amètres . l’h ypothèse nulle H 0 : modèle réduit av ec ( p − r ) par amètres contre l’h ypothèse alter nativ e H 1 : modèle complet av ec p par amètres .

(10)

Ex emples Tester la nullité d’un par amètre ,par ex emple : β 1 . H 0 : Y i = β 0 + β 2 x i 2 + ·· · + β p x ip + ε i contre H 1 : Y i = β 0 + β 1 x i 1 + β 2 x i 2 + ·· · + β p x ip + ε i . Tester la nullité de plusieurs par amètres ,par ex emple les pairs : β 2 j . H 0 : Y i = β 1 x i 1 + β 3 x i 3 + ·· · + β p − 1 x ip − 1 + ε i contre H 1 : Y i = β 0 + β 1 x i 1 + β 2 x i 2 + ·· · + β p x ip + ε i av ec p pair .

Méthode

1

Calculer les valeurs estimées ˆ y i en utilisant la méthode des moindres carrés pour chacun des 2 modèles définis par H 0 et H 1 ,notées : ˆ y i ( H 0 ) et ˆ y i ( H 1 ) .

2

Calculer ensuite SC res ( H 0 ) et SC res ( H 1 ) .

3

Calculer la statistique F obs = SC res ( H 0 ) − SC res ( H 1 ) SC res ( H 1 ) × n − p r ·

Méthode -Suite et fin

4

Lire la valeur cr itique F 1 − α, r , n − p où F 1 − α, r , n − p est le ( 1 − α ) -quantile d’une loi de Fisher av ec r et ( n − p ) deg rés de liber té, car si l’h ypothèse nulle H 0 est vr aie ,alors F obs suit une loi de Fisher av ec r et ( n − p ) deg rés de liber té.

5

Comparer la valeur obser vée et la valeur cr itique .

Règle de décision Nous décidons de rejeter l’h ypothèse nulle H 0 et par conséquent d’accepter l’h ypothèse alter nativ e H 1 ,au seuil α = 5 % ,si F obs > F 1 − α, r , n − p . Nous décidons de ne pas rejeter l’h ypothèse nulle H 0 et donc de l’accepter si F obs < F 1 − α, r , n − p .