Universit´ e de Nice L1MASS, ann´ ee 2015-2016
D´ epartement de Math´ ematiques Statistique
Cours 06 R´ egression lin´ eaire
1 Nuage et droite
Dans ce chapitre nous abordons la question de la comparaison de deux (ou plusieurs caract` eres) x et y, pour un mˆ eme individu en consid´ erant les propri´ et´ es du nuage des points M
i= (x
i, y
i). La commande plot(x,y,pch=3) permet de repr´ esenter ce nuage ; si on a plus de deux caract` eres pour un mˆ eme individu on peut repr´ esenter les nuages de caract` eres deux-` a-deux au moyen de la commande
pairs(~x+y+z,data=MonTableau, main="Matrice des nuages deux ` a deux") en d´ efinissant au pr´ ealable MonTableau par MonTableau=data.frame(x,y,z).
14 16 18 20 22
141822
x
y
x
14 16 18 20 22
1422
1422
y
14 16 18 20 22 160 180 200
160200
z Matrice des nuages deux à deux
14 16 18 20 22
141822
x
y
Le centre de gravit´ e du nuage est la moyenne de ses points. Pour le nuages des x et y c’est donc le point (¯ x, y) =(mean(x),mean(y)). Nous abordons ici la question de choisir un ¯ mod` ele lin´ eaire dans le cas o` u ce nuage semble s’´ etirer le long d’une droite, comme c’est le cas dans les exemples ci-dessus.
2 R´ esidus
Choisir un mod` ele lin´ eaire de y sur x revient ` a choisir a et b tels que pour tout (x
i, y
i), y
i= ax
i+ b + ϵ
i. On dit qu’on r´ egresse les y
isur les x
i, et les ϵ
isont les r´ esidus pour cette r´ egression ˆ y = ax + b, ou encore Res= ϵ, et Res=y-(a*x+b). Le choix des a at b est tel que Res est n´ ecessairement de moyenne mean(Res) ´ egale
`
a 0. On a choisi de repr´ esenter les r´ esidus de la r´ egression des z sur les x car ils sont plus grands que ceux de la r´ egression des y sur les x : cette diff´ erence se voit aussi sur leurs histogramme et leurs boite ` a moustaches.
14 16 18 20 22
160190
x
z
14 16 18 20 22
−20020
x
Res_z2x
−2 −1 0 1 2
−20−1001020
Q−Q−plot gaussien des Res_z2x
Theoretical Quantiles
Sample Quantiles
Histogram of Res_z2x
Res_z2x
Frequency
−20 −10 0 10 20
02040
1 2
−20020
−2 −1 0 1 2
−2−101
Q−Q−plot gaussien des Res_y2x
Theoretical Quantiles
Sample Quantiles
Sous R la commande lm permet de produire cette r´ egression (choix de a et b), comme dans l’exemple suivant : DteReg y sur x=lm(y~x,data=MonTableau), qui permets ensuite d’obtenir la repr´ esentation de la droite de r´ egression au moyen d’une commande telle que abline(coef(DteReg y sur x),col="blue").
1
Les valeurs pr´ edites par le mod` ele lin´ eaire : y2x[i]= ˆ y
i= ax
i+ b. Elles sont donn´ ees par la commande y2x= fitted (DteReg y sur x) dans le premier exemple du cours.
Les r´ esidus : Res[i]= ϵ
i= y
i− y ˆ
iLes a et b sont choisis de mani` ere ` a minimiser la somme des carr´ es des r´ esidus ∑
ni=1
ϵ
2i. Soit φ(a, b) cette somme : φ(a, b) =
∑
ni=1
ϵ
2i=
∑
ni=1
(y
i− ax
i− b)
2=
∑
ni=1
y
i2+ a
2∑
ni=1
x
2i+ nb
2− 2a
∑
ni=1
x
iy
i− 2b
∑
ni=1
y
i+ 2ab
∑
ni=1
x
i.
Pour que cette fonction soit minimale, il faut qu’elle le soit tant du point de vue de a que de b, et donc les deux d´ eriv´ ees (partielles) doivent ˆ etre nulles
∂φ∂a= 0 =
∂φ∂b; ce qui nous donne les deux ´ equations 0 =
∂φ∂a= 2a ∑
ni=1
x
2i− 2 ∑
ni=1
x
iy
i+ 2b ∑
ni=1
x
iet 0 =
∂φ∂b= 2nb − 2 ∑
ni=1
y
i+ a ∑
ni=1
x
i. Notons ¯ x =
n1∑
ni=1
x
iet ¯ y =
1 n
∑
ni=1
y
iles moyennes des x et des y. La deuxi` eme ´ equation donne alors b = ¯ y − a¯ x , et la premi` ere ´ equation 0 = a ∑
ni=1
x
2i− ∑
ni=1
x
iy
i+ (¯ y − a¯ x)n¯ x = a( ∑
ni=1
x
2i− n¯ x
2) − ( ∑
ni=1
x
iy
i− n¯ x¯ y), d’o` u a =
∑
ni=1
x
iy
i− n¯ x¯ y
∑
ni=1