Régression linéaireComparer des variables quantitatives, afin de tester leur indépendanceExemple: mesure de la taille et de l’âgedans la population étudiante de ce coursdans la population d’une école primaire

(1)

Montpellier III

Régression linéaire

Comparer des variables quantitatives, afin de tester leur indépendance

Exemple: mesure de la taille et de l’âge dans la population étudiante de ce

cours

dans la population d’une école

primaire

(2)

Montpellier III

Décrire des données

X Y

14 13 13 11 17 16 15 15 14 12 15 13 16 15 12 10 14 14 12 12 13 13 13 12

16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

(3)

Montpellier III

Inférer un modèle

16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

En général:

Y = F(X)

Y = X - 1

Modèle linéaire:

Y = a X + b

(4)

Montpellier III

Corrélation linéaire

Mesurer si l’on est près ou loin d’un modèle linéaire Test de Bravais Pearson:

calcul du coefficient de corrélation linéaire

BP(X,Y) = cov(X,Y )

σ (X) ×σ (Y )

(5)

Montpellier III

σ

²

(x) = x

²

− x

²

σ (x) = σ

²

(x) = x

²

− x

²

Définitions

Rappels:

variance écart type

Covariance: cov(x, y) = x × y − x × y

(6)

Montpellier III

16 15 14 13 12 11 10 Y

17 16

15 14

13 12

X 16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

Test de Bravais Pearson: exemples

0,8745 0,1911

(7)

Montpellier III

BP(X,Y) = cov(X,Y ) σ (X) ×σ (Y ) Test de Bravais Pearson

Interprétation de la valeur du coefficient de corrélation linéaire:

proche de 1: bonne corrélation à pente croissante proche de -1: bonne corrélation à pente décroissante proche de 0: peu ou pas de corrélation

Table: d.d.l. = effectif - 2

d.d.l. 10,0% 5,0% 2,0% 1,0%

...

10 0,5 0,58 0,66 0,71

...

(8)

Montpellier III

Construction du modèle linéaire

Erreur du modèle =

différence entre la valeur de Y calculée par le modèle et la valeur réelle de Y

Erreur quadratique moyenne = moyenne des carrés des erreurs

16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

Y = a.X + b

(9)

Montpellier III

Quand le test de Bravais Pearson fait apparaitre une bonne corrélation:

Trouver la droite pour laquelle l’erreur quadratique moyenne est la plus petite possible.

Construction du modèle linéaire

Y = a.X + b (Y

_i

− b − aX

_i

)

²

i=1 i=n

∑

^minimum

(10)

Montpellier III

Le modèle linéaire

Y = a.X + b

a = cov(X,Y) σ

²

(X)

b = Y − aX

la droite passe par le barycentre

Qualité du modèle:

part de variance expliquée

R

²

= σ

²

(aX + b)

σ

²

(Y) = a

²

σ

²

(X)

σ

²

(Y )

(11)

Montpellier III

16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

Exemple 1

a = 1 b = -1 Y = X - 1

R²= 0,7648 = 76%

(12)

Montpellier III

Construction de modèles

Y=F(X)

Les fonctions F intéressantes sont celles pour lesquelles il existe une méthode de calcul directe — autrement que par des essais et erreurs successifs —.

régression linéaire multiple régression polynomiale

(13)

Montpellier III

Rappel sur les logarithmes: log(a.b)=log(a)+log(b), la base étant le nombre u tel que log(u)=1. Les bases les plus utilisées sont u=2 (théorie de ‘information), e=2,71828...

(mathématiques) ou 10

Extension par transformation

Exemple: logarithme

Y=a.X+B

Y=y

y=a.x+B

y=bxa y=b.ua.x

uy=bxa

Y=log(y)

(on pose B=log(b))

X=log(x)

(on pose B=log(b)) X=x

(14)

Montpellier III

(Y

_i

− b − aX

_i

)

²

i=1 i=n

∑

Démonstration de la régression

Trouver

a

^et

b

^{tels que:} soit minimum

(Y

_i²

+ b

²

+ a

²

X

_i²

i=1 i=n

∑ ⁻ ^2bY

ⁱ

⁻ ^2aX

ⁱ

^Y

ⁱ

⁺ ^2abX

ⁱ

⁾

Y

²

+ b

²

+ a

²

X

²

− 2bY − 2a XY + 2abX

Les valeurs de

a

^et

b

qui rendent minimum cette quantité sont telles que les dérivées par rapport à

a

^et

b

sont nulles

(15)

Montpellier III

b = Y − aX b

²

− 2bY + 2ab X + Y

²

+ a

²

X

²

− 2aXY

Dérivée par rapport à

b

2b − 2Y + 2aX = 0 b

Régression: valeur de b

(16)

Montpellier III

7/05/01 16/20

a = cov(X,Y) σ

²

(X)

Dérivée par rapport à

a 2aX

²

− 2 XY + 2bX = 0 a( σ

²

(X) + X

²

) − (cov(X,Y ) + XY) + b X = 0

Régression: valeur de a

a

²

X

²

− 2a XY + 2abX + Y

²

+ b

²

− 2bY

a σ

²

( X) − cov(X,Y ) + X(aX − Y + b) = 0 a σ

²

( X) − cov(X,Y ) = 0

Qualité du modèle:

(17)

Montpellier III

part de variance expliquée R

²

= σ

²

(aX + b)

σ

²

(Y) = a

²

σ

²

(X) σ

²

(Y ) R

²

= cov(X,Y)

σ

²

( X)



 



 

2

σ

²

(X)

σ

²

(Y ) = cov(X,Y )

²

σ

²

(X). σ

²

(Y) R

²

= cov(X,Y)

σ (X) × σ (Y)



 



 

2

= BP( X,Y)

²

(18)

Montpellier III

16 15 14 13 12 11 10 Y

17 16

15 14

13 12

X

Exemple 2

a= 0,21 b = 9,63

Y = 0,21.X + 9,63 R²= 0,0365 = 4%

(19)

Montpellier III

Le modèle linéaire multiple

Z = a.X + b.Y+c

b = cov(Y, Z) σ

²

(Y) c = Z − a X − bY

le plan passe par le barycentre

Qualité du modèle: part de variance expliquée

R

²

= σ

²

(aX + bY + c)

σ

²

(Z) = BP(X, Z)

²

+ BP(Y, Z)

²

a = cov(X, Z)

σ

²

(X)

(si cov(X,Y) = 0)

(20)

Montpellier III

cas général: si cov(X,Y) non nul

b = σ

²

( X) cov(Y, Z) − cov(X, Z) cov(X,Y ) σ

²

(X) σ

²

(Y) − cov( X,Y)

²

rien de changé pour c

a = σ

²

(Y) cov(X, Z) − cov(Y, Z) cov(X,Y ) σ

²

(X) σ

²

(Y) − cov( X,Y)

²

Le modèle linéaire multiple (2)

Régression linéaireComparer des variables quantitatives, afin de tester leur indépendanceExemple: mesure de la taille et de l’âgedans la population étudiante de ce coursdans la population d’une école primaire