• Aucun résultat trouvé

Régression linéaireComparer des variables quantitatives, afin de tester leur indépendanceExemple: mesure de la taille et de l’âgedans la population étudiante de ce coursdans la population d’une école primaire

N/A
N/A
Protected

Academic year: 2022

Partager "Régression linéaireComparer des variables quantitatives, afin de tester leur indépendanceExemple: mesure de la taille et de l’âgedans la population étudiante de ce coursdans la population d’une école primaire"

Copied!
20
0
0

Texte intégral

(1)

Montpellier III

Régression linéaire

Comparer des variables quantitatives, afin de tester leur indépendance

Exemple: mesure de la taille et de l’âge dans la population étudiante de ce

cours

dans la population d’une école

primaire

(2)

Montpellier III

Décrire des données

X Y

14 13 13 11 17 16 15 15 14 12 15 13 16 15 12 10 14 14 12 12 13 13 13 12

16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

(3)

Montpellier III

Inférer un modèle

16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

En général:

Y = F(X)

Y = X - 1

Modèle linéaire:

Y = a X + b

(4)

Montpellier III

Corrélation linéaire

Mesurer si l’on est près ou loin d’un modèle linéaire Test de Bravais Pearson:

calcul du coefficient de corrélation linéaire

BP(X,Y) = cov(X,Y )

σ (X) ×σ (Y )

(5)

Montpellier III

σ

2

(x) = x

2

x

2

σ (x) = σ

2

(x) = x

2

x

2

Définitions

Rappels:

variance écart type

Covariance: cov(x, y) = x × yx × y

(6)

Montpellier III

16 15 14 13 12 11 10 Y

17 16

15 14

13 12

X 16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

Test de Bravais Pearson: exemples

0,8745 0,1911

(7)

Montpellier III

BP(X,Y) = cov(X,Y ) σ (X) ×σ (Y ) Test de Bravais Pearson

Interprétation de la valeur du coefficient de corrélation linéaire:

proche de 1: bonne corrélation à pente croissante proche de -1: bonne corrélation à pente décroissante proche de 0: peu ou pas de corrélation

Table: d.d.l. = effectif - 2

d.d.l. 10,0% 5,0% 2,0% 1,0%

...

10 0,5 0,58 0,66 0,71

...

(8)

Montpellier III

Construction du modèle linéaire

Erreur du modèle =

différence entre la valeur de Y calculée par le modèle et la valeur réelle de Y

Erreur quadratique moyenne = moyenne des carrés des erreurs

16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

Y = a.X + b

(9)

Montpellier III

Quand le test de Bravais Pearson fait apparaitre une bonne corrélation:

Trouver la droite pour laquelle l’erreur quadratique moyenne est la plus petite possible.

Construction du modèle linéaire

Y = a.X + b (Y

i

baX

i

)

2

i=1 i=n

minimum

(10)

Montpellier III

Le modèle linéaire

Y = a.X + b

a = cov(X,Y) σ

2

(X)

b = Y aX

la droite passe par le barycentre

Qualité du modèle:

part de variance expliquée

R

2

= σ

2

(aX + b)

σ

2

(Y) = a

2

σ

2

(X)

σ

2

(Y )

(11)

Montpellier III

16

15

14

13

12

11

10 Y

17 16

15 14

13 12

X

Exemple 1

a = 1 b = -1 Y = X - 1

R2 = 0,7648 = 76%

(12)

Montpellier III

Construction de modèles

Y=F(X)

Les fonctions F intéressantes sont celles pour lesquelles il existe une méthode de calcul directe — autrement que par des essais et erreurs successifs —.

régression linéaire multiple régression polynomiale

(13)

Montpellier III

Rappel sur les logarithmes: log(a.b)=log(a)+log(b), la base étant le nombre u tel que log(u)=1. Les bases les plus utilisées sont u=2 (théorie de ‘information), e=2,71828...

(mathématiques) ou 10

Extension par transformation

Exemple: logarithme

Y=a.X+B

Y=y

y=a.x+B

y=bxa y=b.ua.x

uy=bxa

Y=log(y)

(on pose B=log(b))

X=log(x)

(on pose B=log(b)) X=x

(14)

Montpellier III

(Y

i

baX

i

)

2

i=1 i=n

Démonstration de la régression

Trouver

a

et

b

tels que: soit minimum

(Y

i2

+ b

2

+ a

2

X

i2

i=1 i=n

2bY

i

2aX

i

Y

i

+ 2abX

i

)

Y

2

+ b

2

+ a

2

X

2

2bY2a XY + 2abX

Les valeurs de

a

et

b

qui rendent minimum cette quantité sont telles que les dérivées par rapport à

a

et

b

sont nulles

(15)

Montpellier III

b = Y aX b

2

2bY + 2ab X + Y

2

+ a

2

X

2

2aXY

Dérivée par rapport à

b

2b2Y + 2aX = 0 b

Régression: valeur de b

(16)

Montpellier III

7/05/01 16/20

a = cov(X,Y) σ

2

(X)

Dérivée par rapport à

a 2aX

2

2 XY + 2bX = 0 a( σ

2

(X) + X

2

) − (cov(X,Y ) + XY) + b X = 0

Régression: valeur de a

a

2

X

2

2a XY + 2abX + Y

2

+ b

2

2bY

a σ

2

( X)cov(X,Y ) + X(aXY + b) = 0 a σ

2

( X)cov(X,Y ) = 0

Qualité du modèle:

(17)

Montpellier III

part de variance expliquée R

2

= σ

2

(aX + b)

σ

2

(Y) = a

2

σ

2

(X) σ

2

(Y ) R

2

= cov(X,Y)

σ

2

( X)

 

 

2

σ

2

(X)

σ

2

(Y ) = cov(X,Y )

2

σ

2

(X). σ

2

(Y) R

2

= cov(X,Y)

σ (X) × σ (Y)

 

 

2

= BP( X,Y)

2

(18)

Montpellier III

16 15 14 13 12 11 10 Y

17 16

15 14

13 12

X

Exemple 2

a= 0,21 b = 9,63

Y = 0,21.X + 9,63 R2 = 0,0365 = 4%

(19)

Montpellier III

Le modèle linéaire multiple

Z = a.X + b.Y+c

b = cov(Y, Z) σ

2

(Y) c = Za XbY

le plan passe par le barycentre

Qualité du modèle: part de variance expliquée

R

2

= σ

2

(aX + bY + c)

σ

2

(Z) = BP(X, Z)

2

+ BP(Y, Z)

2

a = cov(X, Z)

σ

2

(X)

(si cov(X,Y) = 0)

(20)

Montpellier III

cas général: si cov(X,Y) non nul

b = σ

2

( X) cov(Y, Z)cov(X, Z) cov(X,Y ) σ

2

(X) σ

2

(Y)cov( X,Y)

2

rien de changé pour c

a = σ

2

(Y) cov(X, Z)cov(Y, Z) cov(X,Y ) σ

2

(X) σ

2

(Y)cov( X,Y)

2

Le modèle linéaire multiple (2)

Références

Documents relatifs

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme

Si X n’est pas de rang maximum p, la matrice X ⊤ X n’est pas inversible et le problème admet plusieurs solutions qui minimisent le risque empirique. ⇒ le problème est mal posé

Le coefficient de corrélation donne une indication sur l’alignement des points expérimentaux : plus |R| ou R 2 sont proches de 1, mieux les points sont alignés?. Le coefficient

Unité de recherche INRIA Rennes : IRISA, Campus universitaire de Beaulieu - 35042 Rennes Cedex (France) Unité de recherche INRIA Rhône-Alpes : 655, avenue de l’Europe - 38334

`a 0.99. Le cosinus carr´e pour la m´ethode “homo” n’est que de 0.84, ce qui ´etait attendu vu que l’on s’est plac´e dans le cadre d’un mod`ele h´et´erosc´edastique.

D’abord d´ecrit par Ramsay et Dalzell (1991), ce mod`ele est toujours l’objet de travaux r´ecents, comme en t´emoignent par exemple les articles de Cardot, Ferraty et Sarda

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Corrélation de Pearson (ou de Bravais-Pearson): mesure la liaison linéaire existant entre deux variables quantitatives aléatoires. ρ = coefficient de corrélation linéaire, mesure