Montpellier III
Régression linéaire
Comparer des variables quantitatives, afin de tester leur indépendance
Exemple: mesure de la taille et de l’âge dans la population étudiante de ce
cours
dans la population d’une école
primaire
Montpellier III
Décrire des données
X Y
14 13 13 11 17 16 15 15 14 12 15 13 16 15 12 10 14 14 12 12 13 13 13 12
16
15
14
13
12
11
10 Y
17 16
15 14
13 12
X
Montpellier III
Inférer un modèle
16
15
14
13
12
11
10 Y
17 16
15 14
13 12
X
En général:
Y = F(X)
Y = X - 1
Modèle linéaire:
Y = a X + b
Montpellier III
Corrélation linéaire
Mesurer si l’on est près ou loin d’un modèle linéaire Test de Bravais Pearson:
calcul du coefficient de corrélation linéaire
BP(X,Y) = cov(X,Y )
σ (X) ×σ (Y )
Montpellier III
σ
2(x) = x
2− x
2σ (x) = σ
2(x) = x
2− x
2Définitions
Rappels:
variance écart type
Covariance: cov(x, y) = x × y − x × y
Montpellier III
16 15 14 13 12 11 10 Y
17 16
15 14
13 12
X 16
15
14
13
12
11
10 Y
17 16
15 14
13 12
X
Test de Bravais Pearson: exemples
0,8745 0,1911
Montpellier III
BP(X,Y) = cov(X,Y ) σ (X) ×σ (Y ) Test de Bravais Pearson
Interprétation de la valeur du coefficient de corrélation linéaire:
proche de 1: bonne corrélation à pente croissante proche de -1: bonne corrélation à pente décroissante proche de 0: peu ou pas de corrélation
Table: d.d.l. = effectif - 2
d.d.l. 10,0% 5,0% 2,0% 1,0%
...
10 0,5 0,58 0,66 0,71
...
Montpellier III
Construction du modèle linéaire
Erreur du modèle =
différence entre la valeur de Y calculée par le modèle et la valeur réelle de Y
Erreur quadratique moyenne = moyenne des carrés des erreurs
16
15
14
13
12
11
10 Y
17 16
15 14
13 12
X
Y = a.X + b
Montpellier III
Quand le test de Bravais Pearson fait apparaitre une bonne corrélation:
Trouver la droite pour laquelle l’erreur quadratique moyenne est la plus petite possible.
Construction du modèle linéaire
Y = a.X + b (Y
i− b − aX
i)
2i=1 i=n
∑
minimumMontpellier III
Le modèle linéaire
Y = a.X + b
a = cov(X,Y) σ
2(X)
b = Y − aX
la droite passe par le barycentre
Qualité du modèle:
part de variance expliquée
R
2= σ
2(aX + b)
σ
2(Y) = a
2σ
2(X)
σ
2(Y )
Montpellier III
16
15
14
13
12
11
10 Y
17 16
15 14
13 12
X
Exemple 1
a = 1 b = -1 Y = X - 1
R2 = 0,7648 = 76%
Montpellier III
Construction de modèles
Y=F(X)
Les fonctions F intéressantes sont celles pour lesquelles il existe une méthode de calcul directe — autrement que par des essais et erreurs successifs —.
régression linéaire multiple régression polynomiale
Montpellier III
Rappel sur les logarithmes: log(a.b)=log(a)+log(b), la base étant le nombre u tel que log(u)=1. Les bases les plus utilisées sont u=2 (théorie de ‘information), e=2,71828...
(mathématiques) ou 10
Extension par transformation
Exemple: logarithme
Y=a.X+B
Y=y
y=a.x+B
y=bxa y=b.ua.x
uy=bxa
Y=log(y)
(on pose B=log(b))
X=log(x)
(on pose B=log(b)) X=x
Montpellier III
(Y
i− b − aX
i)
2i=1 i=n
∑
Démonstration de la régression
Trouver
a
etb
tels que: soit minimum(Y
i2+ b
2+ a
2X
i2i=1 i=n
∑ − 2bYi − 2aX
iY
i + 2abX
i )
Y
2+ b
2+ a
2X
2− 2bY − 2a XY + 2abX
Les valeurs de
a
etb
qui rendent minimum cette quantité sont telles que les dérivées par rapport àa
etb
sont nullesMontpellier III
b = Y − aX b
2− 2bY + 2ab X + Y
2+ a
2X
2− 2aXY
Dérivée par rapport à
b
2b − 2Y + 2aX = 0 b
Régression: valeur de b
Montpellier III
7/05/01 16/20
a = cov(X,Y) σ
2(X)
Dérivée par rapport à
a 2aX
2− 2 XY + 2bX = 0 a( σ
2(X) + X
2) − (cov(X,Y ) + XY) + b X = 0
Régression: valeur de a
a
2X
2− 2a XY + 2abX + Y
2+ b
2− 2bY
a σ
2( X) − cov(X,Y ) + X(aX − Y + b) = 0 a σ
2( X) − cov(X,Y ) = 0
Qualité du modèle:
Montpellier III
part de variance expliquée R
2= σ
2(aX + b)
σ
2(Y) = a
2σ
2(X) σ
2(Y ) R
2= cov(X,Y)
σ
2( X)
2
σ
2(X)
σ
2(Y ) = cov(X,Y )
2σ
2(X). σ
2(Y) R
2= cov(X,Y)
σ (X) × σ (Y)
2
= BP( X,Y)
2Montpellier III
16 15 14 13 12 11 10 Y
17 16
15 14
13 12
X
Exemple 2
a= 0,21 b = 9,63
Y = 0,21.X + 9,63 R2 = 0,0365 = 4%
Montpellier III
Le modèle linéaire multiple
Z = a.X + b.Y+c
b = cov(Y, Z) σ
2(Y) c = Z − a X − bY
le plan passe par le barycentre
Qualité du modèle: part de variance expliquée
R
2= σ
2(aX + bY + c)
σ
2(Z) = BP(X, Z)
2+ BP(Y, Z)
2a = cov(X, Z)
σ
2(X)
(si cov(X,Y) = 0)
Montpellier III
cas général: si cov(X,Y) non nul
b = σ
2( X) cov(Y, Z) − cov(X, Z) cov(X,Y ) σ
2(X) σ
2(Y) − cov( X,Y)
2rien de changé pour c