Introduction à la régression cours n°2

(1)

Introduction à la régression cours n°2

ENSM.SE – axe MSA

(2)

Analyse de variance (ANOVA)

SST n-1

Total

SSE/(n-p-1) SSE

n-p-1 Error

SSR/p SSR

p Regression

MS SS

DF Source

sum of squares

degrees of freedom mean squares

source de variation

(3)

Sum of squares

SSR =

SSE =

SST =

!

i=1 n

(y^_i - y_ )?

!

i=1 n

(y_i - y^_i)?

!

i=1 n

(y_i - y_ )?

(4)

Exercice

Représenter graphiquement les vecteurs Y, et de sorte que les quantités SSR, SSE et SST soient apparentes. Indiquer

tous les angles droits et en déduire des relations.

Donner la dimension des e.v. auxquels appartiennent les vecteurs :

Y^ _Y^_

Y-Y_

, Y^ -Y_

et Y-Y^

(5)

Formule d’ANOVA

SST = SSR + SSE

Coefficient de détermination :

R² = SSR/SST = 1 – SSE/SST

Utilisations de R²

Coefficient de détermination ajusté :

R²-^adj= 1 - MSE/MST

(6)

Exemple 2

Réponse = pourcentage d'un rendement maximal de blé

Prédicteur = quantité de pluies printanières (en m).

54 observations

(7)

Exemple 1

0.050 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

pluie en m r

e n d e m e n t ( s a n s u n i t é )

(8)

modèle rend= β

₀

+ β

_pluie

pluie

0.050 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

modèle β

0 + β

pluie pluie

pluie en m

rendement (sans unité)

(9)

Exemple 2 – modèle de degré 1

Modèle rendement ! "₀ + "_pluie pluie

Source DF SS MS

Regression 1 1.279 1.279

Error 52 0.141 0.003

Total 53 1.420

R? 0.901 R?-adj 0.899

(10)

rend= β

₀

+ β

_pluie

pluie + β

_pluie^2

pluie²

0.050 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

modèle β 0 + β

pluie pluie+ β

pluie² pluie²

pluie en m

rendement (sans unité)

(11)

Exemple 2 – modèle de degré 2

Modèle rendement ! "₀ + "_pluie pluie + "_pluie^2 pluie?

Source DF SS MS

Regression 2 1.298 0.649

Error 51 0.122 0.002

Total 53 1.420

R? 0.914 R?-adj 0.911

(12)

Questions de prédicteurs

prédicteurs qualitatifs

codage des niveaux

prédicteurs corrélés

problème d’identifiabilité

interaction de prédicteurs

 notion liée à la réponse

 sans rapport avec la corrélation

(13)

Exemple 1

Rappel étape précédente : passer au logarithme et modèle de degré 1.

Autres prédicteurs :

 Surface

 Catégorie

 Prestataire

(14)

Interaction CA*prestataire

8.0 8.5 9.0 9.5 10.0 10.5 11.0

1234567

log(CA)

log(cartons)

prestataire O prestataire C

(15)

1234567

8.0 9.0 10.0 11.0

8.0 9.0 10.0 11.0 8.0 9.0 10.0 11.0

1234567

log(CA)

log(cartons)

6 7 8 9

Given : log(surface)

(16)

8.0 9.0 10.0 11.0

1234567

8.0 9.0 10.0 11.0

log(CA)

log(cartons)

hyper

super

Given : Catégorie

(17)

8.0 9.0 10.0 11.0

1234567

8.0 9.0 10.0 11.0

log(CA)

log(cartons)

prestataire C

prestataire O

Given : Prestataire

(18)

Le modèle linéaire

Y vecteur des réponses

X matrice du plan d’expériences

β vecteurs des paramètres

ε vecteurs des écarts au modèle : Y = Xβ + ε

(19)

Hypothèses sur les résidus

ε₁, …, ε_n sont des réalisations de v.a.

E₁, …, E_n

Les E_i sont indépendantes

Les E_i sont de loi N(0,σ²)

(20)

Estimation de β

Estimation par Maximum de vraisemblance

résultat = moindres carrés !

adaptation à des hypothèses différentes sur la loi des résidus

à voir : régression logistique

(21)

Propriétés de

E( ) = β

Cov( ) = σ² (X’ X)^-1

 est BLUE

A un facteur près, cov( ) ne dépend que du plan d’expériences, pas des résultats.

! ^

!^

!^ !^

!^

(22)

Exercice

Soit un modèle de dimension 1 avec un seul prédicteur :

y = β₀ + β₁ x + ε

Déterminer cov( )

Les expériences sont menées avec x∈[-1,1].

Déterminer les niveaux des variables de façon à estimer « au mieux » β.

!^