Capes de Mathématiques 2012/2013 Régression linéaire
Table des matières
A Droites de régression 1
B Régression linéaire avec Geogebra 4
A Droites de régression
Cadre général
Soit N un nuage de n (n ≥ 2) points résultant de l’observation dans une certaine population de deux caractères quantitatifs X et Y. Les valeurs observées sont données par un tableau en lignes ayant la forme suivante :
Numéro de l’individu 1 ... n Valeurs de X x1 ... xn Valeurs de Y y1 ... yn Notations
- x = n1 Pn
i=1xi, y = n1 Pn i=1yi - σx2 = n1 Pn
i=1(xi −x)2 = n1 Pn
i=1x2i −x2, σy2 = n1 Pn
i=1(yi−y)2 - Sx2 = n−11 Pn
i=1(xi−x)2, Sy2 = n1 Pn
i=1(yi −y)2 - cov(X, Y) = n1 Pn
i=1(xi −x)(yi −y) = (1nPn
i=1xiyi)−xy
On suppose dans la suite que σx 6= 0 et σy 6= 0, et l’on pose r(X, Y) = cov(X,Yσ )
xσy . 1) Droite de régression de Y en X
Cette droite, notée Dy/x et appelée droite de régression de X en Y, est l’unique droite d’équation y = ax+ b, a, b ∈ R, minimisant la distance verticale du nuage à cette droite.
Définition 1
La distance verticale d’un point Pi = (xi, yi) du nuage à une droite D d’équation y = ax+b est prise égale à [yi−(axi+b)]2 = MiPi2, où Pi est le point de D d’abscisse xi. Cette distance est donc le carré de la différence entre la valeur observéeyi et la valeur axi+b prédite par le modèle affine.
Définition 2
La distance moyenne du nuage N à une droite d’équation y = ax+ b est la somme des distances des points du nuage à cette droite divisée parn, soitS(a, b) = n1 Pn
i=1[yi−(axi+b)]2. On constate que S est un polynôme du second degré en a et b.
Proposition 3
Il existe une unique droite d’équation y = ax + b minimisant la distance S(a, b). Cette droite passe par le point moyen (x, y) du nuage et a pour pente cov(X,Yσ2 )
X .
Preuve
On pose c = (ax+b)−y, et l’on remplace b par c+y−ax dans S, ce qui a pour effet de remplacer le polynôme S(a, b) par le polynôme T(a, c) qui ne contient pas de terme en ac.
En développant T on obtient : T(a, c) = 1
n
n
X
i=1
(yi−y)−a(xi−x)−c2
= 1 n
n
X
i=1
(yi −y)2 + a21 n
n
X
i=1
(xi −x)2 +c2 −2a1 n
n
X
i=1
(yi −y)(xi−x)
= σ2Y +a2σ2X +c2 −2acov(X, Y)
= σ2X[a− cov(X, Y)
σX2 ]2 +c2 +σY2 − cov(X, Y)2 σX2
= σ2X[a− cov(X, Y)
σX2 ]2 +c2 +σY2[1−r(X, Y)2].
On a utilisé les égalités
n
X
i=1
(yi −y) =
n
X
i=1
yi−
n
X
i=1
y = ny−y
n
X
i=1
1 = ny −ny = 0
et n
X
i=1
(xi −x) = 0.
Le minimum de T est atteint pour l’unique couple (cov(X,Yσ2 ) X
,0), de sorte que le minimum de S est atteint pour l’unique couple (a0, b0) = (cov(X,Yσ2 )
X
, y − cov(X,Yσ2 ) X
x), i.e. a0 = cov(X,Yσ2 ) X
et b0 = y −a1x.
Remarque 4
Les coefficients de la droite de régression se mémorisent en remarquant que a0 doit avoir la dimension de Y /X et que le point moyen du nuage (x, y) appartient à la droite de régression.
Conséquence 5
On a l’inégalité r(X, Y)2 ≤ 1.
Il suffit d’écrire que
0 ≤T(a0,0) = S(a0, b0) = σY2[1−r(X, Y)2] (1) pour obtenir l’inégalité 1−r(X, Y)2 ≥0 qui équivaut à 1 ≥ r(X, Y)2.
Définition 6
La quantité σr2 = σ2Y[1 − r(X, Y)2] est appelée variance résiduelle ; σe2 = σ2Y − σr2 = σY2r(X, Y)2 est appelée variance expliquée.
2) Droite de régression de X en Y
La droite de régression de X en Y, notée Dx/y, est l’unique droite d’équation x = a1y+b1 minimisant l’expression S0(a0, b0) = n1 Pn
i=1[xi−(a0yi+b0)]2 qui représente la ”distance horizontale” du nuage de points à une droite d’équation x = a0y+ b0. En permutant les rôles de x et y dans A) on obtient a1 = cov(X,Yσ2 )
y et b1 = x−a01y.
3) Comparaison des droites de régression
1. Les droites de régression sont orthogonales si et seulement si cov(X, Y) = 0.
En effet si cov(X, Y) = 0 Dy/x est la droite horizontale d’équation y = y et Dx/y est la droite verticale d’équation x = x.
Si cov(X, Y) 6= 0 Dx/y a pour équation y = a1
1x− ab1
1. Les deux droites Dy/x et Dx/y ont donc des pentes de même signe, et ne peuvent de ce fait être orthogonales.
On supposera dans la suite que cov(X, Y) 6= 0.
2. Comme 0 < a0a1 = cov(X,Yσ2 )2
xσ2y = r(X, Y)2 ≤ 1, les coefficients a0 et a1 ont même signe.
Dans le cas où cov(X, Y) > 0, a0 ≤ a1
1, ce qui signifie que la droite de régression Dx/y a une pente plus grande que Dy/x. On a un résultat analogue lorsque cov(X, Y) < 0.
3. Les droites Dy/x et Dx/y passant toutes les deux par le point moyen du nuage, elles sont égales si et seulement si elles ont la même pente, c’est-à-dire si a0 = a1
1, ou encore si a0a1 = 1. Les droites de régression sont donc égales si et seulement si r(X, Y)2 = 1.
D’après l’égalité (1) ceci revient à dire que S(a0, b0) = 0, i.e. que le nuage de points est inclus dans une droite d’équation y = ax+ b, avec a 6= 0 (i.e. une droite ni horizontale, ni verticale).
4) Compléments Résidus
Pour la régression de Y en X, on appelle ie résidu le réel ri = yi −a0xi−b0; le nuage des résidus est le nuage constitué des points (xi, ri), 1 ≤ i ≤ n. Le point moyen de ce nuage est (x,0) et la variance de la série (r1, ..., rn) est la variance résiduelle σr2. Ces points doivent se répartir de façon aléatoire de part et d’autre de l’axe des abscisses, faute de quoi le modèle affine est à rejeter.
Coefficient de corrélation des rangs
Le tableau ci-dessous donne deux classements sans ex-æquo de n individus selon un certain critère.
Numéro de l’individu 1 ... n Premier classement a2 ... an Deuxième classement b1 ... bn
Les suites a2, ..., an et b1, ..., bn représentent donc des permutations des entiers de 1 à n.
On appelle coefficient de corrélation des rangs de ces deux suites leur coefficient de corréla- tion linéaire. Sa valeur est 1−6
Pn
i=1(ai −bi)2 n(n2 −1) .
B Régression linéaire avec Geogebra On considère une série statistique double
Numéro de l’individu 1 ... n Valeurs de X x1 ... xn Valeurs de Y y1 ... yn
On suppose que la colonne A du tableur contient la suite x1 ,... , xn et la colonne B la liste y1 , ... ,yn
Une fois sélectionné Statistiques à deux variables, puis Analyse, et enfin le Modèle d’ajustement affine, on obtient les résultats suivants :
- équation de la droite de régression de Y en X : y = a0x+b0
- n : nombre de lignes - Moyenne X : x - Moyenne Y : x
- Sx : variance empirique de X= q 1
n−1
Pn
i=1(xi−x)2 - Sy : variance empirique de Y
- r : coefficient de corrélation linéaire =cov(X,Yσ )
xσy
- ρ: coefficient de corrélation des rangs des classements associés aux listes X etY, à condition qu’il n’y ait pas d’ex-æquo
- nVarX : n fois la variance population de X = Pn
i=1x2i −x2 - nVarY : n fois la variance population de Y
- nCov : n fois la covariance de X et Y
- R2 : carré du coefficient de corrélation linéaire = r2
- SSE (Sum of squared errors of prediction) : somme de carrés des résidus
n
X
i=1
ri2 =
n
X
i=1
(yi −a0xi −b0)2