• Aucun résultat trouvé

5.2 RÉGRESSION LINÉAIRE

N/A
N/A
Protected

Academic year: 2022

Partager "5.2 RÉGRESSION LINÉAIRE"

Copied!
43
0
0

Texte intégral

(1)

cours 28

5.2 RÉGRESSION

LINÉAIRE

(2)

Il arrive souvent qu’on recueille plusieurs données sur une même population.

Âge, taille, poids, années d’études, salaire, etc.

On se demande souvent s’il y a des liens entre ces variables statistiques.

Concentrons-nous sur deux variables statistiques et d’une même population. X Y

Pour chaque individu de la population ou d’un échantillon, associons- lui le couple de ses valeurs pour ces deux variables.

(xi, yi)

Associons à chacun de ces couples un point du plan.

(3)

X Y

(xi, yi)

xi yi

S’il y a un lien entre les variables, on s’attend à voir un « pattern » entre les points

(4)

X Y

(5)

X Y

(6)

X

Y On aimerait trouver la courbe qui

épouse le mieux les données.

Mais on va se contenter de trouver la droite qui épouse le mieux les données.

(7)

X Y

¯ x

¯ y

S’il y a un lien linéaire, on s’attend à avoir beaucoup de points ici

et très peu ici

(8)

X Y

¯ x

¯ y

Ou vice versa

(9)

X Y

¯ x

¯ y

Or on a un problème si a une grande variance et une petiteX Y

(10)

C’est pour cette raison qu’on va travailler avec les variables centrées réduites.

en divisant par l’écart type échantillonnal, car on travaille habituellement avec des échantillons.

ZY = Y y¯ sy ZX = X x¯

sx

(11)

zyi > 0 zyi > 0 zxi > 0

zxi > 0 zxi < 0

zxi < 0

zyi < 0 zyi < 0

zxi zyi > 0

zxi zyi > 0 zxi zyi < 0 zxi zyi < 0

(12)

on utilise n-1 car on utilise On défini le coefficient de corrélation

=

Xn

i=1

zxi zyi n 1 r

Plus est grand positivement plus les points se retrouvent dans la région bleue r

Plus est grand négativement plus les points se retrouvent dans la région rose r

Plus est près de 0, plus les points sont autant dans le bleu que dans le rouge.

r

s

et non

Essayons de trouver une manière plus conviviale de trouver r

(13)

=

Xn

i=1

(xi x)(y¯ i y¯) (n 1)sxsy

=

Xn

i=1

✓ xi x¯ sx

◆ ✓ yi y¯ sy

n 1

=

Xn

i=1

(xiyi yix¯ xiy¯ + ¯xy¯) (n 1)sxsy

=

Xn

i=1

xiyi

Xn

i=1

yi

Xn

i=1

xiy¯ +

Xn

i=1

¯ xy¯ (n 1)sxsy

=

Xn

i=1

zxi zyi n 1 r

(14)

=

Xn

i=1

xiyi

Xn

i=1

yi

Xn

i=1

xiy¯ +

Xn

i=1

¯ xy¯ (n 1)sxsy

=

Xn

i=1

xiyi

Xn

i=1

yi

Xn

i=1

xi + ¯xy¯

Xn

i=1

1 (n 1)sxsy

=

Xn

i=1

xiyi nx¯y¯ (n 1)sxsy r

=

Xn

i=1

xiyi xn¯ y¯ yn¯ x¯ + ¯xyn¯ (n 1)sxsy

(15)

Exemple

=

Xn

i=1

xiyi nx¯y¯ (n 1)sxsy

r Coefficient de corrélation

On prend 10 poissons et on mesure leurs longueurs et leurs diamètres.

¯

x = 178, 5

sy¯ = 0, 214 sx¯ = 14, 608

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 L

D

172 156 170 200 171 171 201 170 186 188

1,16 1,1 0,69 1,45 1,04 1,18 1,14 1,1 1,07 0,76

¯

y = 1, 069

r = 1916, 08 (10)(178, 5)(1, 069)

(9)(14, 608)(0, 214) = 0, 2813 X10

i=1

xiyi = 1916, 08

(16)

X Y

Essayons de trouver une bonne droite qui épouse bien les données Idéalement on aimerait minimiser les distances à la droite

Mais c’est algébriquement plus simple de minimiser les distances verticales

(17)

X

Y (xi, yi)

(xi, yˆi)

ˆ

yi = axi + b y = ax + b

|yii|

On veut donc que les soient le plus petit possible À la place, on va minimiser

Xn

i=1

(yii)2

la somme des carrés.

(18)

ˆ

yi = axi + b y = ax + b

À la place, on va minimiser

Xn

i=1

(yii)2 la somme des carrés.

Xn

i=1

(yii)2 =

Xn

i=1

(yi (axi + b))2 f (a, b) =

On peut voir cette expression comme une fonction qui dépend de a et de b

Et on cherche son minimum.

Avez vous déjà vu ça trouver des minimums?

Dérivée!!!

(19)

f (a, b) est une fonction à deux variables donc ce n’est pas une courbe mais une surface.

On va donc chercher les points critiques

@f (a, b)

@a = 0 @f (a, b)

@b = 0 et

On pourra conclure que ce point critique est automatiquement le minimum.

(20)

Xn

i=1

(yi (axi + b))2 =

Xn

i=1

(yi axi b)2

=

Xn

i=1

(yi2 + a2x2i + b2 2ayixi 2byi + 2abxi)

=

Xn

i=1

yi2 + a2

Xn

i=1

x2i + b2

Xn

i=1

1 2a

Xn

i=1

yixi 2b

Xn

i=1

yi + 2ab

Xn

i=1

xi

=

Xn

i=1

yi2 + a2

Xn

i=1

x2i + b2n 2a

Xn

i=1

yixi 2bny¯ + 2abnx¯

(21)

Xn

i=1

(yi (axi + b))2

=

Xn

i=1

yi2 + a2

Xn

i=1

x2i + b2n 2a

Xn

i=1

yixi 2bny¯ + 2abnx¯

= f (a, b)

@f (a, b)

@b = 2bn 2ny¯ + 2anx¯ = 0

b = ¯y ax¯

2bn = 2ny¯ 2anx¯

(22)

Xn

i=1

(yi (axi + b))2

=

Xn

i=1

yi2 + a2

Xn

i=1

x2i + b2n 2a

Xn

i=1

yixi 2bny¯ + 2abnx¯

= f (a, b) b = ¯y ax¯

@f (a, b)

@a = 2a

Xn

i=1

x2i 2

Xn

i=1

yixi + 2bnx¯

(23)

Xn

i=1

(yi (axi + b))2 = f (a, b) b = ¯y ax¯

@f (a, b)

@a = 2a

Xn

i=1

x2i 2

Xn

i=1

yixi + 2bnx¯

2a

Xn

i=1

x2i 2

Xn

i=1

yixi + 2(¯y ax)n¯ x¯ = 0

a

Xn

i=1

x2i

Xn

i=1

yixi + (¯y ax)n¯ x¯ = 0

(24)

b = ¯y ax¯ a

Xn

i=1

x2i

Xn

i=1

yixi + (¯y ax)n¯ x¯ = 0

1

a

Xn

i=1

x2i anx¯2 =

Xn

i=1

xiyi nx¯y¯ a

Xn

i=1

x2i nx¯2

!

=

=

n

Xn

i=1

xiyi n2x¯y¯ n

Xn

i=1

x2i n22

=

n

Xn

i=1

xiyi

Xn

i=1

xi

Xn

i=1

yi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

=

Xn

i=1

xiyi nx¯y¯ Xn

i=1

x2i nx¯2 a

(25)

b = ¯y ax¯

1

=

n

Xn

i=1

xiyi

Xn

i=1

xi

Xn

i=1

yi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

a

= ¯y

0 BB BB B@

n

Xn i=1

xiyi

Xn i=1

xi

Xn i=1

yi

n

Xn i=1

x2i

Xn i=1

xi

!2

1 CC CC CA

¯ x

= ¯y

0 BB BB B@

nx¯

Xn i=1

xiyi

Xn i=1

xi

Xn i=1

yi

n

Xn i=1

x2i

Xn i=1

xi

!2

1 CC CC CA b

(26)

1

=

n

Xn

i=1

xiyi

Xn

i=1

xi

Xn

i=1

yi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

a

= ¯y

0 BB BB B@

nx¯

Xn i=1

xiyi

Xn i=1

xi

Xn i=1

yi

n

Xn i=1

x2i

Xn i=1

xi

!2

1 CC CC CA

=

ny¯

Xn

i=1

x2i

Xn

i=1

xi

!2

nx¯

Xn

i=1

xiyi

Xn

i=1

xi

Xn

i=1

yi

!

n

Xn

i=1

x2i

Xn

i=1

xi

!2

b

(27)

1

=

n

Xn

i=1

xiyi

Xn

i=1

xi

Xn

i=1

yi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

a

=

ny¯

Xn

i=1

x2i

Xn

i=1

xi

!2

nx¯

Xn

i=1

xiyi

Xn

i=1

xi

Xn

i=1

yi

!

n

Xn

i=1

x2i

Xn

i=1

xi

!2

=

ny¯

Xn

i=1

x2i nx¯

Xn

i=1

xiyi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

b

(28)

1

=

n

Xn

i=1

xiyi

Xn

i=1

xi

Xn

i=1

yi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

a

=

ny¯

Xn

i=1

x2i nx¯

Xn

i=1

xiyi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

b

=

Xn

i=1

yi

Xn

i=1

x2i

Xn

i=1

xi

Xn

i=1

xiyi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

(29)

1

=

n

Xn

i=1

xiyi

Xn

i=1

xi

Xn

i=1

yi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

a

b

Donc la droite de régression est y = ax + b

=

Xn

i=1

yi

Xn

i=1

x2i

Xn

i=1

xi

Xn

i=1

xiyi

n

Xn

i=1

x2i

Xn

i=1

xi

!2

(30)

Xn

i=1

(yi (axi + b))2 = f (a, b) b = ¯y ax¯

s2x =

Xn

i=1

(xi x)¯ 2 n 1 (n 1)s2x =

Xn

i=1

(xi x)¯ 2 =

Xn

i=1

(x2i 2xix¯ + ¯x2)

=

Xn

i=1

x2i 2¯x

Xn

i=1

xi + ¯x2

Xn

i=1

1

=

Xn

i=1

x2i 2nx¯2 + nx¯2 =

Xn

i=1

x2i nx¯2 a

Xn

i=1

x2i

Xn

i=1

yixi + (¯y ax)n¯ x¯ = 0

2

(31)

Xn

i=1

(yi (axi + b))2 = f (a, b) b = ¯y ax¯

(n 1)s2x =

Xn

i=1

(xi x)¯ 2 =

Xn

i=1

x2i nx¯2

Xn

i=1

x2i = (n 1)s2x + nx¯2 a

Xn

i=1

x2i

Xn

i=1

yixi + (¯y ax)n¯ x¯ = 0

a⇣

(n 1)s2x + nx¯2⌘ Xn

i=1

yixi + (¯y ax)n¯ x¯ = 0

2

(32)

Xn

i=1

(yi (axi + b))2 = f (a, b) b = ¯y ax¯ a

Xn

i=1

x2i

Xn

i=1

yixi + (¯y ax)n¯ x¯ = 0

a⇣

(n 1)s2x + nx¯2⌘ Xn

i=1

yixi + (¯y ax)n¯ x¯ = 0

a(n 1)s2x

Xn

i=1

yixi + ny¯x¯ = 0

2

(33)

Xn

i=1

(yi (axi + b))2 = f (a, b) b = ¯y ax¯ a(n 1)s2x

Xn

i=1

yixi + ny¯x¯ = 0

r =

Xn

i=1

xiyi nx¯y¯

(n 1)sxsy r(n 1)sxsy =

Xn

i=1

xiyi nx¯y¯

Xn

i=1

xiyi = r(n 1)sxsy + nx¯y¯

a(n 1)s2x r(n 1)sxsy + nx¯y¯ + ny¯x¯ = 0

2

(34)

Xn

i=1

(yi (axi + b))2 = f (a, b) b = ¯y ax¯ a(n 1)s2x

Xn

i=1

yixi + ny¯x¯ = 0

a(n 1)s2x r(n 1)sxsy = 0 a(n 1)s2x = r(n 1)sxsy

a = r(n 1)sxsy

(n 1)s2x a = rsy sx

2

a(n 1)s2x r(n 1)sxsy + nx¯y¯ + ny¯x¯ = 0

(35)

Xn

i=1

(yi (axi + b))2 = f (a, b)

b = ¯y ax¯ a = rsy

sx = ¯y rsy

sx x¯ Donc la droite de régression est

y =

✓ rsy sx

x +

¯

y rsy sx

◆ y = ax + b

2

(36)

Donc la droite de régression est y =

✓ rsy sx

x +

¯

y rsy sx

En posant x = ¯x

f (¯x) =

✓ rsy sx

¯

x +

¯

y rsy sx

= ¯y f (x) =

(¯x, y¯)

Donc la droite de régression passe par le point

2

(37)

3

Pour le fun! yi = axi + b 0

BB B@

x1 1 x2 1 ... ... xn 1

1 CC CA

✓a b

=

0 BB B@

y1 y2

... yn

1 CC CA

XD = Y

XT XD = XT Y

=

0

@

P x2i P

xi P xi n

1 A

=

✓x1 x2 · · · xn

1 1 · · · 1

0 BB B@

x1 1 x2 1 ... ... xn 1

1 CC CA XT X

XT Y =

✓x1 x2 · · · xn

1 1 · · · 1

0 BB B@

y1 y2

... yn

1 CC

CA =

0

@

P xiyi P yi

1 A

(38)

3

Pour le fun! yi = axi + b

XD = Y XT XD = XT Y

=

0

@

P x2i P

xi P xi n

1

XT X A XT Y=

0

@

P xiyi P yi

1 A

D = (XT X) 1XT Y

= 1

n P

x2i (P

xi)2

✓ n P

xi P xi P

x2i

◆ ✓PPxiyi yi

(39)

3

Pour le fun! yi = axi + b D = (XT X) 1XT Y

= 1

n P

x2i (P

xi)2

✓ n P

xi P xi P

x2i

◆ ✓PPxiyi yi

= 1

n P

x2i (P

xi)2

0

@ n P

xiyi P

xi P yi P x2i P

yi P

xi P

xiyi 1 A

=

0 B@

n P

xiyi P

xi P yi n P

x2i (P

xi)2 P x2i P

yi P

xi P

xiyi n P

x2i (P

xi)2

1

CA =

✓a b

◆ Exactement ce qu’on a eu plus tôt!!!

(40)

X Y

¯ x

¯ y

Lorsqu’on a une variable statistique on s’attend à s’écarter de la moyenneY

yi

Or une partie de cet écart est dû au lien entre les variables Y = aX + b

yii

ˆ

yi

(41)

On introduit donc le coefficient de détermination qui permet de mesurer quelle partie de la variation est expliquée par le lien entre les

variables.

Xn

i=1

(ˆyi y¯)2 Xn

i=1

(yi y¯)2

Variations expliquées: yˆi

=

Xn

i=1

((axi + b) (ax¯ + b))2 Xn

i=1

(yi y¯)2

=

Xn

i=1

(axi ax)¯ 2 Xn

i=1

(yi y¯)2 Variations totales: yi

(42)

Xn

i=1

(ˆyi y¯)2 Xn

i=1

(yi y¯)2

=

Xn

i=1

(axi ax)¯ 2 Xn

i=1

(yi y¯)2

=

a2

Xn

i=1

(xi x)¯ 2 Xn

i=1

(yi y¯)2

= a2(n 1)s2x

(n 1)s2y = a2 s2x s2y

=

✓ rsy sx

2

s2x

s2y = r2

Donc le coefficient de détermination est tous simplement

r2 =

Xn

i=1

xiyi nx¯y¯ (n 1)sxsy où r

(43)

Devoir:

5.12 et 5.13

Références

Documents relatifs

Cela vient de ce que ces deux configurations minimisent la fonction U parmi les configura- tions planes de taille fixée (techniquement : parmi les configurations planes de

Graduer la droite ci-dessous en respectant le sens de la flèche en utilisant les nombres relatifs.. x' 0

1°) Représenter une droite. 2°) Lire graphiquement l’équation d’une droite Tracer chaque droite avec la plus

Une voiture s’engage dans cette avenue afin de s’y garer, le chauffeur souhaitant aller à un concert qui a lieu au dessus du parking.. Chaque place de l’avenue est libre avec

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire, la régression linéaire simple où une variable X est ex- pliquée, modélisée par

Ces 20 dernières années, à la suite du développement des moyens de calcul, sont apparues des méthodes d’estimation dites fonc- tionnelles ou non-paramétriques qui

Formule r´ ecursive fournie par Giard dans la s´ equence de l’OEIS A000203 On peut voir les nombres premiers comme des minima locaux de la fonction somme des diviseurs, not´ ee

Trois points de la courbe représentative d'une même fonction affine x  ax+b sont alignés. Les courbes représentatives des fonctions affines ont pour équation y=ax+b. Mais certaines