Capes de Mathématiques 2012/2013. Régression linéaire

(1)

Capes de Mathématiques 2012/2013 Régression linéaire

Table des matières

A Droites de régression 1

B Régression linéaire avec Geogebra 4

A Droites de régression

Cadre général

Soit N un nuage de n (n ≥ 2) points résultant de l’observation dans une certaine population de deux caractères quantitatifs X et Y. Les valeurs observées sont données par un tableau en lignes ayant la forme suivante :

Numéro de l’individu 1 ... n Valeurs de X x₁ ... x_n Valeurs de Y y₁ ... y_n Notations

- x = _n¹ Pn

i=1x_i, y = _n¹ Pn i=1y_i - σ_x² = _n¹ Pn

i=1(x_i −x)² = _n¹ Pn

i=1x²_i −x², σ_y² = _n¹ Pn

i=1(y_i−y)² - S_x² = _n−1¹ Pn

i=1(xi−x)², S_y² = _n¹ Pn

i=1(yi −y)² - cov(X, Y) = _n¹ Pn

i=1(x_i −x)(y_i −y) = (¹_nPn

i=1x_iy_i)−xy

On suppose dans la suite que σ_x 6= 0 et σ_y 6= 0, et l’on pose r(X, Y) = ^cov(X,Y_σ ⁾

xσy . 1) Droite de régression de Y en X

Cette droite, notée D_y/x et appelée droite de régression de X en Y, est l’unique droite d’équation y = ax+ b, a, b ∈ R, minimisant la distance verticale du nuage à cette droite.

(2)

Définition 1

La distance verticale d’un point P_i = (x_i, y_i) du nuage à une droite D d’équation y = ax+b est prise égale à [y_i−(ax_i+b)]² = M_iP_i², où P_i est le point de D d’abscisse x_i. Cette distance est donc le carré de la différence entre la valeur observéey_i et la valeur ax_i+b prédite par le modèle affine.

Définition 2

La distance moyenne du nuage N à une droite d’équation y = ax+ b est la somme des distances des points du nuage à cette droite divisée parn, soitS(a, b) = _n¹ Pn

i=1[yi−(ax_i+b)]². On constate que S est un polynôme du second degré en a et b.

Proposition 3

Il existe une unique droite d’équation y = ax + b minimisant la distance S(a, b). Cette droite passe par le point moyen (x, y) du nuage et a pour pente ^cov(X,Y_σ2 ⁾

X .

Preuve

On pose c = (ax+b)−y, et l’on remplace b par c+y−ax dans S, ce qui a pour effet de remplacer le polynôme S(a, b) par le polynôme T(a, c) qui ne contient pas de terme en ac.

En développant T on obtient : T(a, c) = 1

n

X

i=1

(y_i−y)−a(x_i−x)−c2

= 1 n

n

X

i=1

(y_i −y)² + a²1 n

n

X

i=1

(x_i −x)² +c² −2a1 n

n

X

i=1

(y_i −y)(x_i−x)

= σ²_Y +a²σ²_X +c² −2acov(X, Y)

= σ²_X[a− cov(X, Y)

σ_X² ]² +c² +σ_Y² − cov(X, Y)² σ_X²

= σ²_X[a− cov(X, Y)

σ_X² ]² +c² +σ_Y²[1−r(X, Y)²].

On a utilisé les égalités

n

X

i=1

(y_i −y) =

n

X

i=1

y_i−

n

X

i=1

y = ny−y

n

X

i=1

1 = ny −ny = 0

et n

X

i=1

(x_i −x) = 0.

Le minimum de T est atteint pour l’unique couple (^cov(X,Y_σ2 ⁾ X

,0), de sorte que le minimum de S est atteint pour l’unique couple (a₀, b₀) = (^cov(X,Y_σ2 ⁾

X

, y − ^cov(X,Y_σ2 ⁾ X

x), i.e. a₀ = ^cov(X,Y_σ2 ⁾ X

et b₀ = y −a₁x.

(3)

Remarque 4

Les coefficients de la droite de régression se mémorisent en remarquant que a₀ doit avoir la dimension de Y /X et que le point moyen du nuage (x, y) appartient à la droite de régression.

Conséquence 5

On a l’inégalité r(X, Y)² ≤ 1.

Il suffit d’écrire que

0 ≤T(a₀,0) = S(a₀, b₀) = σ_Y²[1−r(X, Y)²] (1) pour obtenir l’inégalité 1−r(X, Y)² ≥0 qui équivaut à 1 ≥ r(X, Y)².

Définition 6

La quantité σ_r² = σ²_Y[1 − r(X, Y)²] est appelée variance résiduelle ; σ_e² = σ²_Y − σ_r² = σ_Y²r(X, Y)² est appelée variance expliquée.

2) Droite de régression de X en Y

La droite de régression de X en Y, notée D_x/y, est l’unique droite d’équation x = a₁y+b₁ minimisant l’expression S⁰(a⁰, b⁰) = _n¹ Pn

i=1[x_i−(a⁰y_i+b⁰)]² qui représente la ”distance horizontale” du nuage de points à une droite d’équation x = a⁰y+ b⁰. En permutant les rôles de x et y dans A) on obtient a₁ = ^cov(X,Y_σ2 ⁾

y et b₁ = x−a⁰₁y.

3) Comparaison des droites de régression

1. Les droites de régression sont orthogonales si et seulement si cov(X, Y) = 0.

En effet si cov(X, Y) = 0 D_y/x est la droite horizontale d’équation y = y et D_x/y est la droite verticale d’équation x = x.

Si cov(X, Y) 6= 0 D_x/y a pour équation y = _a¹

1x− _a^b¹

1. Les deux droites D_y/x et D_x/y ont donc des pentes de même signe, et ne peuvent de ce fait être orthogonales.

On supposera dans la suite que cov(X, Y) 6= 0.

2. Comme 0 < a₀a₁ = ^cov(X,Y_σ2 ⁾²

xσ²_y = r(X, Y)² ≤ 1, les coefficients a₀ et a₁ ont même signe.

Dans le cas où cov(X, Y) > 0, a₀ ≤ _a¹

1, ce qui signifie que la droite de régression D_x/y a une pente plus grande que D_y/x. On a un résultat analogue lorsque cov(X, Y) < 0.

3. Les droites D_y/x et D_x/y passant toutes les deux par le point moyen du nuage, elles sont égales si et seulement si elles ont la même pente, c’est-à-dire si a₀ = _a¹

1, ou encore si a0a1 = 1. Les droites de régression sont donc égales si et seulement si r(X, Y)² = 1.

(4)

D’après l’égalité (1) ceci revient à dire que S(a₀, b₀) = 0, i.e. que le nuage de points est inclus dans une droite d’équation y = ax+ b, avec a 6= 0 (i.e. une droite ni horizontale, ni verticale).

4) Compléments Résidus

Pour la régression de Y en X, on appelle i^e résidu le réel ri = yi −a0xi−b0; le nuage des résidus est le nuage constitué des points (xi, ri), 1 ≤ i ≤ n. Le point moyen de ce nuage est (x,0) et la variance de la série (r₁, ..., r_n) est la variance résiduelle σ_r². Ces points doivent se répartir de façon aléatoire de part et d’autre de l’axe des abscisses, faute de quoi le modèle affine est à rejeter.

Coefficient de corrélation des rangs

Le tableau ci-dessous donne deux classements sans ex-æquo de n individus selon un certain critère.

Numéro de l’individu 1 ... n Premier classement a₂ ... a_n Deuxième classement b₁ ... b_n

Les suites a2, ..., an et b1, ..., bn représentent donc des permutations des entiers de 1 à n.

On appelle coefficient de corrélation des rangs de ces deux suites leur coefficient de corréla- tion linéaire. Sa valeur est 1−6

Pn

i=1(ai −bi)² n(n² −1) .

B Régression linéaire avec Geogebra On considère une série statistique double

Numéro de l’individu 1 ... n Valeurs de X x₁ ... x_n Valeurs de Y y₁ ... y_n

On suppose que la colonne A du tableur contient la suite x₁ ,... , x_n et la colonne B la liste y₁ , ... ,y_n

Une fois sélectionné Statistiques à deux variables, puis Analyse, et enfin le Modèle d’ajustement affine, on obtient les résultats suivants :

- équation de la droite de régression de Y en X : y = a0x+b0

(5)

- n : nombre de lignes - Moyenne X : x - Moyenne Y : x

- Sx : variance empirique de X= q 1

n−1

Pn

i=1(x_i−x)² - Sy : variance empirique de Y

- r : coefficient de corrélation linéaire =^cov(X,Y_σ ⁾

xσy

- ρ: coefficient de corrélation des rangs des classements associés aux listes X etY, à condition qu’il n’y ait pas d’ex-æquo

- nVarX : n fois la variance population de X = Pn

i=1x²_i −x² - nVarY : n fois la variance population de Y

- nCov : n fois la covariance de X et Y

- R² : carré du coefficient de corrélation linéaire = r²

- SSE (Sum of squared errors of prediction) : somme de carrés des résidus

n

X

i=1

r_i² =

n

X

i=1

(y_i −a₀x_i −b₀)²