5.2 RÉGRESSION LINÉAIRE

(1)

cours 28

5.2 RÉGRESSION

LINÉAIRE

(2)

Il arrive souvent qu’on recueille plusieurs données sur une même population.

Âge, taille, poids, années d’études, salaire, etc.

On se demande souvent s’il y a des liens entre ces variables statistiques.

Concentrons-nous sur deux variables statistiques et d’une même population. ^X ^Y

Pour chaque individu de la population ou d’un échantillon, associons- lui le couple de ses valeurs pour ces deux variables.

(x_i, y_i)

Associons à chacun de ces couples un point du plan.

(3)

X Y

(x_i, y_i)

x_i y_i

S’il y a un lien entre les variables, on s’attend à voir un « pattern » entre les points

(4)

X Y

(5)

X Y

(6)

X

Y On aimerait trouver la courbe qui

épouse le mieux les données.

Mais on va se contenter de trouver la droite qui épouse le mieux les données.

(7)

X Y

¯ x

¯ y

S’il y a un lien linéaire, on s’attend à avoir beaucoup de points ici

et très peu ici

(8)

X Y

¯ x

¯ y

Ou vice versa

(9)

X Y

¯ x

¯ y

Or on a un problème si a une grande variance et une petite_X Y

(10)

C’est pour cette raison qu’on va travailler avec les variables centrées réduites.

en divisant par l’écart type échantillonnal, car on travaille habituellement avec des échantillons.

Z_Y = Y y¯ s_y Z_X = X x¯

s_x

(11)

z_y_i > 0 z_y_i > 0 z_x_i > 0

z_x_i > 0 z_x_i < 0

z_x_i < 0

z_y_i < 0 z_y_i < 0

z_x_i z_y_i > 0

z_x_i z_y_i > 0 z_x_i z_y_i < 0 z_x_i z_y_i < 0

(12)

on utilise n-1 car on utilise On défini le coefficient de corrélation

=

Xn

i=1

z_x_i z_y_i n 1 r

Plus est grand positivement plus les points se retrouvent dans la région bleue ^r

Plus est grand négativement plus les points se retrouvent dans la région rose ^r

Plus est près de 0, plus les points sont autant dans le bleu que dans le rouge.

r

s

et non

Essayons de trouver une manière plus conviviale de trouver ^r

(13)

=

Xn

i=1

(x_i x)(y¯ _i y¯) (n 1)s_xs_y

=

Xn

i=1

✓ x_i x¯ s_x

◆ ✓ y_i y¯ s_y

◆

n 1

=

Xn

i=1

(x_iy_i y_ix¯ x_iy¯ + ¯xy¯) (n 1)s_xs_y

=

Xn

i=1

x_iy_i

Xn

i=1

y_ix¯

Xn

i=1

x_iy¯ +

Xn

i=1

¯ xy¯ (n 1)s_xs_y

=

Xn

i=1

z_x_i z_y_i n 1 r

(14)

=

Xn

i=1

x_iy_i

Xn

i=1

y_ix¯

Xn

i=1

x_iy¯ +

Xn

i=1

¯ xy¯ (n 1)s_xs_y

=

Xn

i=1

x_iy_i x¯

Xn

i=1

y_i y¯

Xn

i=1

x_i + ¯xy¯

Xn

i=1

1 (n 1)s_xs_y

=

Xn

i=1

x_iy_i nx¯y¯ (n 1)s_xs_y r

=

Xn

i=1

x_iy_i xn¯ y¯ yn¯ x¯ + ¯xyn¯ (n 1)s_xs_y

(15)

Exemple

=

Xn

i=1

x_iy_i nx¯y¯ (n 1)s_xs_y

r Coefficient de corrélation

On prend 10 poissons et on mesure leurs longueurs et leurs diamètres.

¯

x = 178, 5

s_y_¯ = 0, 214 s_x_¯ = 14, 608

p₁ p₂ p₃ p₄ p₅ p₆ p₇ p₈ p₉ p₁₀ L

D

172 156 170 200 171 171 201 170 186 188

1,16 1,1 0,69 1,45 1,04 1,18 1,14 1,1 1,07 0,76

¯

y = 1, 069

r = 1916, 08 (10)(178, 5)(1, 069)

(9)(14, 608)(0, 214) = 0, 2813 X10

i=1

x_iy_i = 1916, 08

(16)

X Y

Essayons de trouver une bonne droite qui épouse bien les données Idéalement on aimerait minimiser les distances à la droite

Mais c’est algébriquement plus simple de minimiser les distances verticales

(17)

X

Y (x_i, y_i)

(x_i, yˆ_i)

ˆ

y_i = ax_i + b y = ax + b

|y_i yˆ_i|

On veut donc que les soient le plus petit possible À la place, on va minimiser

Xn

i=1

(y_i yˆ_i)²

la somme des carrés.

(18)

ˆ

y_i = ax_i + b y = ax + b

À la place, on va minimiser

Xn

i=1

(y_i yˆ_i)² la somme des carrés.

Xn

i=1

(y_i yˆ_i)² =

Xn

i=1

(y_i (ax_i + b))² f (a, b) =

On peut voir cette expression comme une fonction qui dépend de a et de b

Et on cherche son minimum.

Avez vous déjà vu ça trouver des minimums?

Dérivée!!!

(19)

f (a, b) est une fonction à deux variables donc ce n’est pas une courbe mais une surface.

On va donc chercher les points critiques

@f (a, b)

@a = 0 @f (a, b)

@b = 0 et

On pourra conclure que ce point critique est automatiquement le minimum.

(20)

Xn

i=1

(y_i (ax_i + b))² =

Xn

i=1

(y_i ax_i b)²

=

Xn

i=1

(y_i² + a²x²_i + b² 2ay_ix_i 2by_i + 2abx_i)

=

Xn

i=1

y_i² + a²

Xn

i=1

x²_i + b²

Xn

i=1

1 2a

Xn

i=1

y_ix_i 2b

Xn

i=1

y_i + 2ab

Xn

i=1

x_i

=

Xn

i=1

y_i² + a²

Xn

i=1

x²_i + b²n 2a

Xn

i=1

y_ix_i 2bny¯ + 2abnx¯

(21)

Xn

i=1

(y_i (ax_i + b))²

=

Xn

i=1

y_i² + a²

Xn

i=1

x²_i + b²n 2a

Xn

i=1

= f (a, b)

@f (a, b)

@b = 2bn 2ny¯ + 2anx¯ = 0

b = ¯y ax¯

2bn = 2ny¯ 2anx¯

(22)

Xn

i=1

(y_i (ax_i + b))²

=

Xn

i=1

y_i² + a²

Xn

i=1

x²_i + b²n 2a

Xn

i=1

= f (a, b) b = ¯y ax¯

@f (a, b)

@a = 2a

Xn

i=1

x²_i 2

Xn

i=1

y_ix_i + 2bnx¯

(23)

Xn

i=1

(y_i (ax_i + b))² = f (a, b) b = ¯y ax¯

@f (a, b)

@a = 2a

Xn

i=1

x²_i 2

Xn

i=1

y_ix_i + 2bnx¯

2a

Xn

i=1

x²_i 2

Xn

i=1

y_ix_i + 2(¯y ax)n¯ x¯ = 0

a

Xn

i=1

x²_i

Xn

i=1

y_ix_i + (¯y ax)n¯ x¯ = 0

(24)

b = ¯y ax¯ a

Xn

i=1

x²_i

Xn

i=1

y_ix_i + (¯y ax)n¯ x¯ = 0

1

a

Xn

i=1

x²_i anx¯² =

Xn

i=1

x_iy_i nx¯y¯ a

Xn

i=1

x²_i nx¯²

!

=

n

Xn

i=1

x_iy_i n²x¯y¯ n

Xn

i=1

x²_i n²x¯²

=

n

Xn

i=1

x_iy_i

Xn

i=1

x_i

Xn

i=1

y_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

=

Xn

i=1

x_iy_i nx¯y¯ Xn

i=1

x²_i nx¯² a

(25)

b = ¯y ax¯

1

=

n

Xn

i=1

x_iy_i

Xn

i=1

x_i

Xn

i=1

y_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

a

= ¯y

0 BB BB B@

n

Xn i=1

x_iy_i

Xn i=1

x_i

Xn i=1

y_i

n

Xn i=1

x²_i

Xn i=1

x_i

!2

1 CC CC CA

¯ x

= ¯y

0 BB BB B@

nx¯

Xn i=1

x_iy_i x¯

Xn i=1

x_i

Xn i=1

y_i

n

Xn i=1

x²_i

Xn i=1

x_i

!2

1 CC CC CA b

(26)

1

=

n

Xn

i=1

x_iy_i

Xn

i=1

x_i

Xn

i=1

y_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

a

= ¯y

0 BB BB B@

nx¯

Xn i=1

x_iy_i x¯

Xn i=1

x_i

Xn i=1

y_i

n

Xn i=1

x²_i

Xn i=1

x_i

!2

1 CC CC CA

=

ny¯

Xn

i=1

x²_i y¯

Xn

i=1

x_i

!2

nx¯

Xn

i=1

x_iy_i x¯

Xn

i=1

x_i

Xn

i=1

y_i

!

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

b

(27)

1

=

n

Xn

i=1

x_iy_i

Xn

i=1

x_i

Xn

i=1

y_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

a

=

ny¯

Xn

i=1

x²_i y¯

Xn

i=1

x_i

!2

nx¯

Xn

i=1

x_iy_i x¯

Xn

i=1

x_i

Xn

i=1

y_i

!

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

=

ny¯

Xn

i=1

x²_i nx¯

Xn

i=1

x_iy_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

b

(28)

1

=

n

Xn

i=1

x_iy_i

Xn

i=1

x_i

Xn

i=1

y_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

a

=

ny¯

Xn

i=1

x²_i nx¯

Xn

i=1

x_iy_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

b

=

Xn

i=1

y_i

Xn

i=1

x²_i

Xn

i=1

x_i

Xn

i=1

x_iy_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

(29)

1

=

n

Xn

i=1

x_iy_i

Xn

i=1

x_i

Xn

i=1

y_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

a

b

Donc la droite de régression est y = ax + b

=

Xn

i=1

y_i

Xn

i=1

x²_i

Xn

i=1

x_i

Xn

i=1

x_iy_i

n

Xn

i=1

x²_i

Xn

i=1

x_i

!2

(30)

Xn

i=1

(y_i (ax_i + b))² = f (a, b) b = ¯y ax¯

s²_x =

Xn

i=1

(x_i x)¯ ² n 1 (n 1)s²_x =

Xn

i=1

(x_i x)¯ ² =

Xn

i=1

(x²_i 2x_ix¯ + ¯x²)

=

Xn

i=1

x²_i 2¯x

Xn

i=1

x_i + ¯x²

Xn

i=1

1

=

Xn

i=1

x²_i 2nx¯² + nx¯² =

Xn

i=1

x²_i nx¯² a

Xn

i=1

x²_i

Xn

i=1

y_ix_i + (¯y ax)n¯ x¯ = 0

2

(31)

Xn

i=1

(y_i (ax_i + b))² = f (a, b) b = ¯y ax¯

(n 1)s²_x =

Xn

i=1

(x_i x)¯ ² =

Xn

i=1

x²_i nx¯²

Xn

i=1

x²_i = (n 1)s²_x + nx¯² a

Xn

i=1

x²_i

Xn

i=1

y_ix_i + (¯y ax)n¯ x¯ = 0

a⇣

(n 1)s²_x + nx¯²⌘ Xⁿ

i=1

y_ix_i + (¯y ax)n¯ x¯ = 0

2

(32)

Xn

i=1

(y_i (ax_i + b))² = f (a, b) b = ¯y ax¯ a

Xn

i=1

x²_i

Xn

i=1

y_ix_i + (¯y ax)n¯ x¯ = 0

a⇣

(n 1)s²_x + nx¯²⌘ Xⁿ

i=1

y_ix_i + (¯y ax)n¯ x¯ = 0

a(n 1)s²_x

Xn

i=1

y_ix_i + ny¯x¯ = 0

2

(33)

Xn

i=1

(y_i (ax_i + b))² = f (a, b) b = ¯y ax¯ a(n 1)s²_x

Xn

i=1

y_ix_i + ny¯x¯ = 0

r =

Xn

i=1

x_iy_i nx¯y¯

(n 1)s_xs_y r(n 1)s_xs_y =

Xn

i=1

x_iy_i nx¯y¯

Xn

i=1

x_iy_i = r(n 1)s_xs_y + nx¯y¯

a(n 1)s²_x r(n 1)s_xs_y + nx¯y¯ + ny¯x¯ = 0

2

(34)

Xn

i=1

(y_i (ax_i + b))² = f (a, b) b = ¯y ax¯ a(n 1)s²_x

Xn

i=1

y_ix_i + ny¯x¯ = 0

a(n 1)s²_x r(n 1)s_xs_y = 0 a(n 1)s²_x = r(n 1)s_xs_y

a = r(n 1)s_xs_y

(n 1)s²_x a = rs_y s_x

2

a(n 1)s²_x r(n 1)s_xs_y + nx¯y¯ + ny¯x¯ = 0

(35)

Xn

i=1

(y_i (ax_i + b))² = f (a, b)

b = ¯y ax¯ a = rs_y

s_x = ¯y rs_y

s_x x¯ Donc la droite de régression est

y =

✓ rs_y s_x

◆

x +

✓

¯

y rs_y s_x x¯

◆ y = ax + b

2

(36)

Donc la droite de régression est y =

✓ rs_y s_x

◆

x +

✓

¯

y rs_y s_x x¯

◆

En posant ^x ^{= ¯}^x

f (¯x) =

✓ rs_y s_x

◆

¯

x +

✓

¯

y rs_y s_x x¯

◆

= ¯y f (x) =

(¯x, y¯)

Donc la droite de régression passe par le point

2

(37)

3

Pour le fun! ^yi = ax_i + b 0

BB B@

x₁ 1 x₂ 1 ... ... x_n 1

1 CC CA

✓a b

◆

=

0 BB B@

y₁ y₂

... y_n

1 CC CA

XD = Y

X^T XD = X^T Y

=

0

@

P x²_i P

x_i P x_i n

1 A

=

✓x₁ x₂ · · · x_n

1 1 · · · 1

◆

0 BB B@

x₁ 1 x₂ 1 ... ... x_n 1

1 CC CA X^T X

X^T Y =

✓x₁ x₂ · · · x_n

1 1 · · · 1

◆

0 BB B@

y₁ y₂

... y_n

1 CC

CA =

0

@

P x_iy_i P y_i

1 A

(38)

3

Pour le fun! ^yi = ax_i + b

XD = Y X^T XD = X^T Y

=

0

@

P x²_i P

x_i P x_i n

1

X^T X A X^T Y=

0

@

P x_iy_i P y_i

1 A

D = (X^T X) ¹X^T Y

= 1

n P

x²_i (P

x_i)²

✓ n P

x_i P x_i P

x²_i

◆ ✓PPx_iy_i y_i

◆

(39)

3

Pour le fun! ^yi = ax_i + b D = (X^T X) ¹X^T Y

= 1

n P

x²_i (P

x_i)²

✓ n P

x_i P x_i P

x²_i

◆ ✓PPx_iy_i y_i

◆

= 1

n P

x²_i (P

x_i)²

0

@ n P

x_iy_i P

x_i P y_i P x²_i P

y_i P

x_i P

x_iy_i 1 A

=

0 B@

n P

x_iy_i P

x_i P y_i n P

x²_i (P

x_i)² P x²_i P

y_i P

x_i P

x_iy_i n P

x²_i (P

x_i)²

1

CA =

✓a b

◆ Exactement ce qu’on a eu plus tôt!!!

(40)

X Y

¯ x

¯ y

Lorsqu’on a une variable statistique on s’attend à s’écarter de la moyenne^Y

y_i y¯

Or une partie de cet écart est dû au lien entre les variables Y = aX + b

y_i yˆ_i

ˆ

y_i y¯

(41)

On introduit donc le coefficient de détermination qui permet de mesurer quelle partie de la variation est expliquée par le lien entre les

variables.

Xn

i=1

(ˆy_i y¯)² Xn

i=1

(y_i y¯)²

Variations expliquées: ^y^ˆi y¯

=

Xn

i=1

((ax_i + b) (ax¯ + b))² Xn

i=1

(y_i y¯)²

=

Xn

i=1

(ax_i ax)¯ ² Xn

i=1

(y_i y¯)² Variations totales: y_i y¯

(42)

Xn

i=1

(ˆy_i y¯)² Xn

i=1

(y_i y¯)²

=

Xn

i=1

(ax_i ax)¯ ² Xn

i=1

(y_i y¯)²

=

a²

Xn

i=1

(x_i x)¯ ² Xn

i=1

(y_i y¯)²

= a²(n 1)s²_x

(n 1)s²_y = a² s²_x s²_y

=

✓ rs_y s_x

◆2

s²_x

s²_y = r²

Donc le coefficient de détermination est tous simplement

r² =

Xn

i=1

x_iy_i nx¯y¯ (n 1)s_xs_y où r

(43)

Devoir:

5.12 et 5.13