cours 28
5.2 RÉGRESSION
LINÉAIRE
Il arrive souvent qu’on recueille plusieurs données sur une même population.
Âge, taille, poids, années d’études, salaire, etc.
On se demande souvent s’il y a des liens entre ces variables statistiques.
Concentrons-nous sur deux variables statistiques et d’une même population. X Y
Pour chaque individu de la population ou d’un échantillon, associons- lui le couple de ses valeurs pour ces deux variables.
(xi, yi)
Associons à chacun de ces couples un point du plan.
X Y
(xi, yi)
xi yi
S’il y a un lien entre les variables, on s’attend à voir un « pattern » entre les points
X Y
X Y
X
Y On aimerait trouver la courbe qui
épouse le mieux les données.
Mais on va se contenter de trouver la droite qui épouse le mieux les données.
X Y
¯ x
¯ y
S’il y a un lien linéaire, on s’attend à avoir beaucoup de points ici
et très peu ici
X Y
¯ x
¯ y
Ou vice versa
X Y
¯ x
¯ y
Or on a un problème si a une grande variance et une petiteX Y
C’est pour cette raison qu’on va travailler avec les variables centrées réduites.
en divisant par l’écart type échantillonnal, car on travaille habituellement avec des échantillons.
ZY = Y y¯ sy ZX = X x¯
sx
zyi > 0 zyi > 0 zxi > 0
zxi > 0 zxi < 0
zxi < 0
zyi < 0 zyi < 0
zxi zyi > 0
zxi zyi > 0 zxi zyi < 0 zxi zyi < 0
on utilise n-1 car on utilise On défini le coefficient de corrélation
=
Xn
i=1
zxi zyi n 1 r
Plus est grand positivement plus les points se retrouvent dans la région bleue r
Plus est grand négativement plus les points se retrouvent dans la région rose r
Plus est près de 0, plus les points sont autant dans le bleu que dans le rouge.
r
s
et non
Essayons de trouver une manière plus conviviale de trouver r
=
Xn
i=1
(xi x)(y¯ i y¯) (n 1)sxsy
=
Xn
i=1
✓ xi x¯ sx
◆ ✓ yi y¯ sy
◆
n 1
=
Xn
i=1
(xiyi yix¯ xiy¯ + ¯xy¯) (n 1)sxsy
=
Xn
i=1
xiyi
Xn
i=1
yix¯
Xn
i=1
xiy¯ +
Xn
i=1
¯ xy¯ (n 1)sxsy
=
Xn
i=1
zxi zyi n 1 r
=
Xn
i=1
xiyi
Xn
i=1
yix¯
Xn
i=1
xiy¯ +
Xn
i=1
¯ xy¯ (n 1)sxsy
=
Xn
i=1
xiyi x¯
Xn
i=1
yi y¯
Xn
i=1
xi + ¯xy¯
Xn
i=1
1 (n 1)sxsy
=
Xn
i=1
xiyi nx¯y¯ (n 1)sxsy r
=
Xn
i=1
xiyi xn¯ y¯ yn¯ x¯ + ¯xyn¯ (n 1)sxsy
Exemple
=
Xn
i=1
xiyi nx¯y¯ (n 1)sxsy
r Coefficient de corrélation
On prend 10 poissons et on mesure leurs longueurs et leurs diamètres.
¯
x = 178, 5
sy¯ = 0, 214 sx¯ = 14, 608
p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 L
D
172 156 170 200 171 171 201 170 186 188
1,16 1,1 0,69 1,45 1,04 1,18 1,14 1,1 1,07 0,76
¯
y = 1, 069
r = 1916, 08 (10)(178, 5)(1, 069)
(9)(14, 608)(0, 214) = 0, 2813 X10
i=1
xiyi = 1916, 08
X Y
Essayons de trouver une bonne droite qui épouse bien les données Idéalement on aimerait minimiser les distances à la droite
Mais c’est algébriquement plus simple de minimiser les distances verticales
X
Y (xi, yi)
(xi, yˆi)
ˆ
yi = axi + b y = ax + b
|yi yˆi|
On veut donc que les soient le plus petit possible À la place, on va minimiser
Xn
i=1
(yi yˆi)2
la somme des carrés.
ˆ
yi = axi + b y = ax + b
À la place, on va minimiser
Xn
i=1
(yi yˆi)2 la somme des carrés.
Xn
i=1
(yi yˆi)2 =
Xn
i=1
(yi (axi + b))2 f (a, b) =
On peut voir cette expression comme une fonction qui dépend de a et de b
Et on cherche son minimum.
Avez vous déjà vu ça trouver des minimums?
Dérivée!!!
f (a, b) est une fonction à deux variables donc ce n’est pas une courbe mais une surface.
On va donc chercher les points critiques
@f (a, b)
@a = 0 @f (a, b)
@b = 0 et
On pourra conclure que ce point critique est automatiquement le minimum.
Xn
i=1
(yi (axi + b))2 =
Xn
i=1
(yi axi b)2
=
Xn
i=1
(yi2 + a2x2i + b2 2ayixi 2byi + 2abxi)
=
Xn
i=1
yi2 + a2
Xn
i=1
x2i + b2
Xn
i=1
1 2a
Xn
i=1
yixi 2b
Xn
i=1
yi + 2ab
Xn
i=1
xi
=
Xn
i=1
yi2 + a2
Xn
i=1
x2i + b2n 2a
Xn
i=1
yixi 2bny¯ + 2abnx¯
Xn
i=1
(yi (axi + b))2
=
Xn
i=1
yi2 + a2
Xn
i=1
x2i + b2n 2a
Xn
i=1
yixi 2bny¯ + 2abnx¯
= f (a, b)
@f (a, b)
@b = 2bn 2ny¯ + 2anx¯ = 0
b = ¯y ax¯
2bn = 2ny¯ 2anx¯
Xn
i=1
(yi (axi + b))2
=
Xn
i=1
yi2 + a2
Xn
i=1
x2i + b2n 2a
Xn
i=1
yixi 2bny¯ + 2abnx¯
= f (a, b) b = ¯y ax¯
@f (a, b)
@a = 2a
Xn
i=1
x2i 2
Xn
i=1
yixi + 2bnx¯
Xn
i=1
(yi (axi + b))2 = f (a, b) b = ¯y ax¯
@f (a, b)
@a = 2a
Xn
i=1
x2i 2
Xn
i=1
yixi + 2bnx¯
2a
Xn
i=1
x2i 2
Xn
i=1
yixi + 2(¯y ax)n¯ x¯ = 0
a
Xn
i=1
x2i
Xn
i=1
yixi + (¯y ax)n¯ x¯ = 0
b = ¯y ax¯ a
Xn
i=1
x2i
Xn
i=1
yixi + (¯y ax)n¯ x¯ = 0
1
a
Xn
i=1
x2i anx¯2 =
Xn
i=1
xiyi nx¯y¯ a
Xn
i=1
x2i nx¯2
!
=
=
n
Xn
i=1
xiyi n2x¯y¯ n
Xn
i=1
x2i n2x¯2
=
n
Xn
i=1
xiyi
Xn
i=1
xi
Xn
i=1
yi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
=
Xn
i=1
xiyi nx¯y¯ Xn
i=1
x2i nx¯2 a
b = ¯y ax¯
1
=
n
Xn
i=1
xiyi
Xn
i=1
xi
Xn
i=1
yi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
a
= ¯y
0 BB BB B@
n
Xn i=1
xiyi
Xn i=1
xi
Xn i=1
yi
n
Xn i=1
x2i
Xn i=1
xi
!2
1 CC CC CA
¯ x
= ¯y
0 BB BB B@
nx¯
Xn i=1
xiyi x¯
Xn i=1
xi
Xn i=1
yi
n
Xn i=1
x2i
Xn i=1
xi
!2
1 CC CC CA b
1
=
n
Xn
i=1
xiyi
Xn
i=1
xi
Xn
i=1
yi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
a
= ¯y
0 BB BB B@
nx¯
Xn i=1
xiyi x¯
Xn i=1
xi
Xn i=1
yi
n
Xn i=1
x2i
Xn i=1
xi
!2
1 CC CC CA
=
ny¯
Xn
i=1
x2i y¯
Xn
i=1
xi
!2
nx¯
Xn
i=1
xiyi x¯
Xn
i=1
xi
Xn
i=1
yi
!
n
Xn
i=1
x2i
Xn
i=1
xi
!2
b
1
=
n
Xn
i=1
xiyi
Xn
i=1
xi
Xn
i=1
yi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
a
=
ny¯
Xn
i=1
x2i y¯
Xn
i=1
xi
!2
nx¯
Xn
i=1
xiyi x¯
Xn
i=1
xi
Xn
i=1
yi
!
n
Xn
i=1
x2i
Xn
i=1
xi
!2
=
ny¯
Xn
i=1
x2i nx¯
Xn
i=1
xiyi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
b
1
=
n
Xn
i=1
xiyi
Xn
i=1
xi
Xn
i=1
yi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
a
=
ny¯
Xn
i=1
x2i nx¯
Xn
i=1
xiyi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
b
=
Xn
i=1
yi
Xn
i=1
x2i
Xn
i=1
xi
Xn
i=1
xiyi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
1
=
n
Xn
i=1
xiyi
Xn
i=1
xi
Xn
i=1
yi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
a
b
Donc la droite de régression est y = ax + b
=
Xn
i=1
yi
Xn
i=1
x2i
Xn
i=1
xi
Xn
i=1
xiyi
n
Xn
i=1
x2i
Xn
i=1
xi
!2
Xn
i=1
(yi (axi + b))2 = f (a, b) b = ¯y ax¯
s2x =
Xn
i=1
(xi x)¯ 2 n 1 (n 1)s2x =
Xn
i=1
(xi x)¯ 2 =
Xn
i=1
(x2i 2xix¯ + ¯x2)
=
Xn
i=1
x2i 2¯x
Xn
i=1
xi + ¯x2
Xn
i=1
1
=
Xn
i=1
x2i 2nx¯2 + nx¯2 =
Xn
i=1
x2i nx¯2 a
Xn
i=1
x2i
Xn
i=1
yixi + (¯y ax)n¯ x¯ = 0
2
Xn
i=1
(yi (axi + b))2 = f (a, b) b = ¯y ax¯
(n 1)s2x =
Xn
i=1
(xi x)¯ 2 =
Xn
i=1
x2i nx¯2
Xn
i=1
x2i = (n 1)s2x + nx¯2 a
Xn
i=1
x2i
Xn
i=1
yixi + (¯y ax)n¯ x¯ = 0
a⇣
(n 1)s2x + nx¯2⌘ Xn
i=1
yixi + (¯y ax)n¯ x¯ = 0
2
Xn
i=1
(yi (axi + b))2 = f (a, b) b = ¯y ax¯ a
Xn
i=1
x2i
Xn
i=1
yixi + (¯y ax)n¯ x¯ = 0
a⇣
(n 1)s2x + nx¯2⌘ Xn
i=1
yixi + (¯y ax)n¯ x¯ = 0
a(n 1)s2x
Xn
i=1
yixi + ny¯x¯ = 0
2
Xn
i=1
(yi (axi + b))2 = f (a, b) b = ¯y ax¯ a(n 1)s2x
Xn
i=1
yixi + ny¯x¯ = 0
r =
Xn
i=1
xiyi nx¯y¯
(n 1)sxsy r(n 1)sxsy =
Xn
i=1
xiyi nx¯y¯
Xn
i=1
xiyi = r(n 1)sxsy + nx¯y¯
a(n 1)s2x r(n 1)sxsy + nx¯y¯ + ny¯x¯ = 0
2
Xn
i=1
(yi (axi + b))2 = f (a, b) b = ¯y ax¯ a(n 1)s2x
Xn
i=1
yixi + ny¯x¯ = 0
a(n 1)s2x r(n 1)sxsy = 0 a(n 1)s2x = r(n 1)sxsy
a = r(n 1)sxsy
(n 1)s2x a = rsy sx
2
a(n 1)s2x r(n 1)sxsy + nx¯y¯ + ny¯x¯ = 0
Xn
i=1
(yi (axi + b))2 = f (a, b)
b = ¯y ax¯ a = rsy
sx = ¯y rsy
sx x¯ Donc la droite de régression est
y =
✓ rsy sx
◆
x +
✓
¯
y rsy sx x¯
◆ y = ax + b
2
Donc la droite de régression est y =
✓ rsy sx
◆
x +
✓
¯
y rsy sx x¯
◆
En posant x = ¯x
f (¯x) =
✓ rsy sx
◆
¯
x +
✓
¯
y rsy sx x¯
◆
= ¯y f (x) =
(¯x, y¯)
Donc la droite de régression passe par le point
2
3
Pour le fun! yi = axi + b 0BB B@
x1 1 x2 1 ... ... xn 1
1 CC CA
✓a b
◆
=
0 BB B@
y1 y2
... yn
1 CC CA
XD = Y
XT XD = XT Y
=
0
@
P x2i P
xi P xi n
1 A
=
✓x1 x2 · · · xn
1 1 · · · 1
◆
0 BB B@
x1 1 x2 1 ... ... xn 1
1 CC CA XT X
XT Y =
✓x1 x2 · · · xn
1 1 · · · 1
◆
0 BB B@
y1 y2
... yn
1 CC
CA =
0
@
P xiyi P yi
1 A
3
Pour le fun! yi = axi + bXD = Y XT XD = XT Y
=
0
@
P x2i P
xi P xi n
1
XT X A XT Y=
0
@
P xiyi P yi
1 A
D = (XT X) 1XT Y
= 1
n P
x2i (P
xi)2
✓ n P
xi P xi P
x2i
◆ ✓PPxiyi yi
◆
3
Pour le fun! yi = axi + b D = (XT X) 1XT Y= 1
n P
x2i (P
xi)2
✓ n P
xi P xi P
x2i
◆ ✓PPxiyi yi
◆
= 1
n P
x2i (P
xi)2
0
@ n P
xiyi P
xi P yi P x2i P
yi P
xi P
xiyi 1 A
=
0 B@
n P
xiyi P
xi P yi n P
x2i (P
xi)2 P x2i P
yi P
xi P
xiyi n P
x2i (P
xi)2
1
CA =
✓a b
◆ Exactement ce qu’on a eu plus tôt!!!
X Y
¯ x
¯ y
Lorsqu’on a une variable statistique on s’attend à s’écarter de la moyenneY
yi y¯
Or une partie de cet écart est dû au lien entre les variables Y = aX + b
yi yˆi
ˆ
yi y¯
On introduit donc le coefficient de détermination qui permet de mesurer quelle partie de la variation est expliquée par le lien entre les
variables.
Xn
i=1
(ˆyi y¯)2 Xn
i=1
(yi y¯)2
Variations expliquées: yˆi y¯
=
Xn
i=1
((axi + b) (ax¯ + b))2 Xn
i=1
(yi y¯)2
=
Xn
i=1
(axi ax)¯ 2 Xn
i=1
(yi y¯)2 Variations totales: yi y¯
Xn
i=1
(ˆyi y¯)2 Xn
i=1
(yi y¯)2
=
Xn
i=1
(axi ax)¯ 2 Xn
i=1
(yi y¯)2
=
a2
Xn
i=1
(xi x)¯ 2 Xn
i=1
(yi y¯)2
= a2(n 1)s2x
(n 1)s2y = a2 s2x s2y
=
✓ rsy sx
◆2
s2x
s2y = r2
Donc le coefficient de détermination est tous simplement
r2 =
Xn
i=1
xiyi nx¯y¯ (n 1)sxsy où r