Moindres carres

(1)

Voici le problème à résoudre

Supposons des données expérimentales portées sur un graphique (figure ci-dessous), qui forment un nuage de points. Les points sont numérotés de 1 jusqu’à n. On cherche à déterminer l’équation de la droite qui passe le plus près possible de l’ensemble des points.

1 1

( , )x y

2 2

( , )x y

( , )x y_n _n

y mx b= +

pente ordonnée à l’origine (0, )b

meilleure droite possible

Figure 1: Nuage de points avec meilleure droite possible.

On s’intéresse à l’erreur sur l’ordonnée de chaque point par rapport à la meilleure droite possible. La figure ci-dessous montre comment on mesure ces erreurs par rapport à la droite.

( , )x y1 1 2 2

( , ) x y

( , )x yn n

y mx b = +

(0, )b Erreur₁= y₁-(mx₁+b) Erreur_n= y_n-(mx_n+b)

Erreur₂= y₂-(mx₂+b)

Tableau 1: Erreurs par rapport à la droite idéale.

Comme certaines des erreurs (ou résidus) sont positives et d’autres négatives, il est pré- férable d’utiliser les carrés des erreurs pour quantifier l’erreur par rapport à la droite. On

(2)

écrira donc que la somme des carrés des erreurs (SCE) vaut

SCE = (y₁−(mx₁+b))²+ (y₂−(mx₂+b))²+...+ (yn−(mxn+b))² (1) Pour trouver la meilleure droite possible, il faut déterminer les valeurs de m et de b qui minimisent la SCE.

Un peu de mathématique

Commençons d’abord par développer les termes au carré de l’équation [1].

SCE = y₁²−2y₁(mx₁+b) + (mx₁+b)² + y₂²−2y2(mx2+b) + (mx2+b)²

: :

+ y²_n−2yn(mxn+b) + (mxn+b)²

(2)

On développe ensuite les dernières parenthèses qui sont au carré

SCE = y²₁−2y₁mx₁−2y₁b+m²x²₁+ 2mx₁b+b² + y²₂−2y2mx2−2y2b+m²x²₂+ 2mx2b+b²

: :

+ y²_n−2ynmxn−2ynb+m²x²_n+ 2mxnb+b²

(3)

On peut ensuite regrouper les termes semblables

SCE = (y²₁+y₂²+...+y²_n)−2m(y1x1+y2x2+...+ynxn)−2b(y1+y2+...+yn) + m²(x²₁+x²₂+...+x²_n) + 2mb(x₁+x₂+...+x_n) +nb²

(4) Le premier terme de cette équation peut être réécrit différemment. En effet, la moyenne des carrés des y s’écrit

y¯²= y₁²+y₂²+...+y²_n

n =⇒ ny¯² =y₁²+y₂²+...+y_n²

Également, le deuxième terme de laSCE, la moyenne des produits des x par y,s’écrit y₁x₁+y₂x₂+...+y_nx_n

n = ¯xy =⇒ nxy¯ =y1x1+y2x2+...+ynxn

En procédant asinsi pour les autres termes de la SCE,on peut écrire

SCE=ny¯²−2m nxy¯ −2b n¯y+m²nx¯²+ 2mb n¯x+nb² (5) Il faut maintenant minimiser laSCE. Il faut donc trouver les valeurs demetbpour lesquelles laSCE présente un minimum.

Attention : Ici les x et lesy ne sont pas des variables, leurs valeurs sont connues. Seules m etb sont inconnues.

(3)

La figure suivante montre une droite de pente égale à 5 avec une ordonnée à l’origine de 3 avec un peu de dispersion.

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

X

-4 -2 0 2 4 6 8 10

Y

Figure2: Droite de pente égale à 5 et d’ordonnée à l’origine de 3.

Traçons maintenant la valeur de la SCE en fonction des paramètres m etb. Nous obtenons une surface qui présente un minimum lorsque m = 5 et b= 3.

0 10 1

5 20

2 10⁴

SCE

15 3

ordonnée à l'origine

0 10

pente 5 4

-5 0

-10 -10 -5

Figure 3: Valeur de laSCE en fonction des paramètresm etb.

On se pose maintenant la question suivante : comment trouver mathématiquement les valeurs demet debpour lesquelles laSCEest minimale ? La réponse réside tout simplement

(4)

par la résolution des deux équations suivantes

∂(SCE)

∂m = 0

∂(SCE)

∂b = 0

(6) En effet, notez que laSCE présente un minimum dans la direction de l’axem et un autre le long de l’axe b. Il faut donc exiger que la dérivée partielle de laSCE par rapport àm soit nulle et que sa dérivée partielle par rapport à b soit nulle aussi. La dérivée partielle veut dire que lorsqu’on dérive une fonction à plusieurs variables (icim etb), on dérive l’équation par rapport à une seule variable et on laisse les autres fixes. On obtient donc que

∂(SCE)

∂m =−2nxy¯ + 2mnx¯²+ 2bn¯x= 0 (7)

∂(SCE)

∂b =−2n¯y+ 2mn¯x+ 2bn= 0 (8)

Remarquez qu’on peut diviser les deux équations précédentes par 2n et obtenir le système suivant

−xy¯ +mx¯²+b¯x= 0 (9)

−¯y+mx¯+b= 0 (10) On peut résoudre directement ce système de deux équations à deux inconnues. Il est par contre intéressant de les transformer encore un peu pour s’intéresser à leur sens physique.

Réécrivons-les comme étant

mx¯²+b¯x= ¯xy (11)

mx¯+b= ¯y (12)

On rappelle maintenant que l’on cherche à déterminer les paramètres de l’équation y = mx+b qui passe à travers les points. D’après l’équation [12], il est évident que le point G(¯x,y) situé à¯ x = ¯x et y = ¯y passe par cette droite d’ajustement (appelée droite des moindres carrés).

→ G(¯x,y)¯ ∈ droite des moindres carrés

( , )x y1 1 2 2

( , )x y

( , )x y_n _n

pente ordonnée à l’origine

(0, )b

meilleure droite possible

y G

x

y mx b= +

Figure 4: Le point G fait partie de la droite d’ajustement.

(5)

Trouvons maintenant un autre point de la droite à l’aide de l’équation [11]. D’abord, réécrivons-la sous la forme

m x¯²

x¯ +b= xy¯

x¯ (13)

Ce qui veut dire que le point H(^x^¯_x_¯²,^xy_x^¯_¯ ) fait aussi partie de la droite des moindres car- rés. Reprenons maintenant les équations [13] et [12] et modifions-les un peu. La première transformation consiste à faire la soutraction entre les équations [13] et [12].

m^x_x^¯_¯² +b= ^xy_x^¯_¯ m^x^¯_¯_x² −x¯= ^xy^¯_x_¯ −y¯

=⇒

mx¯+b= ¯y m¯x+b= ¯y

Nous avons donc obtenu deux nouvelles équations qui vont maintenant nous permettre de déterminer m etb. Prenons la première et multiplions-la par ¯x/¯x. Nous obtenons

m=

¯ xy

¯ x −y¯

x¯²

¯ x −x¯

×x¯

x¯ = xy¯ −y¯x¯

x¯²−(¯x)² (14)

et évidemment on peut trouver bfacilement à l’aide de la relation

b= ¯y−m¯x (15)

Reprenons maintenant ces résultats en termes d’indicateurs statistiques (variance et covariance). La variance des x est définie comme suit :

σ²_x=

n

P

i=1

x²_i

n −(¯x)² = ¯x²−(¯x)² (16) et la covariance des x et y est définie par

cov(x, y) =

n

P

i=1

(xi−x)(y¯ i−y)¯

n (17)

et il est possible de montrer que (voir Annexe)

cov(x, y) = ¯xy−x¯¯y (18) Avec ces définitions, on peut donc écrire que

m= cov(x, y)

σ²_x et b= ¯y−m¯x (19)

(6)

Exemple simple

Donnons maintenqant un exemple simple avec un nuage de points ne contenant que trois données. Soient les points (1, 2), (2, 1) et (4, 3) du graphique suivant.

(1, 2)

(2, 1)

(4, 3)

x y

Figure 5: Exemple de nuage de points.

Pour déterminer m etb, nous allons utiliser les relations suivantes : m= xy¯ −y¯x¯

x¯²−(¯x)² et b= ¯y−m¯x Procédons aux calculs des quantités nécessaires :

x¯ = ¹⁺²⁺⁴₃ = ⁷₃ y¯ = ²⁺¹⁺³₃ = 2 xy¯ = 1×2+2×1+4×3

3 = ¹⁶₃

x¯² = ¹²⁺²₃²⁺⁴² = ²¹₃ = 7 Maintenant on peut calculerm etb :

m=

16

3 −⁷₃ ×2 7−⁷₃²

=

16 3 −¹⁴₃ 7−⁴⁹₉ =

2 3 63−49

9

= 2 3 × 9

14 = 3 7

b= 2−3 7 ×7

3 = 2−1 = 1 Le graphique suivant montre le résultat obtenu.

(7)

(1, 2)

(2, 1) (4, 3)

droite des moindres carrés

x y

Figure6: Exemple de régression linéaire.

Coefficient de détermination (R

²

)

Nous allons maintenant décrire comment est calculé le fameux coefficient de détermi- nation appelé R² qui sert à quantifier la qualité de la régression linéaire. Il faut cependant s’assurer visuellement que le nuage de points suit bien une droite pour apprécier la valeur de ce coefficient. Commençons par imaginer un nuage de points duquel on a trouvé la droite des moindres carrés (y =mx+b).

( , )x y1 1

( , ) x y

_n _n

y^y^ˆ1¹ e₁ e2

y2

ˆ2

y

en

y mx b= +

Figure7: Nuage de points où l’on montre les écarts p/r à la droite D.

Les symboles (e_1,e₂, ..., e_n) représentent les erreurs par rapport à la droite. Les coordon- nées ˆy (y chapeau) représentent la coordonnée y d’un point (x, y) situé sur la droite avec la même coordonnée x que le point expérimental. Nous avons déjà vu qu’il fallait calculer la somme des carrés des erreurs par rapport à la droite D.

SCE_D =e²₁+e²₂+...+e²_n

SCED = (y1−(mx1+b))²+ (y2−(mx2+b))²+...+ (yn−(mxn+b))²

(8)

et qu’à partir de là on pouvait trouver les valeurs dem et deb. On va maintenant s’intéresser à une autre quantité : la somme des carrés des erreurs par rapport à la moyenne desy.

SCEy¯= (y1−y)¯ ²+(y2−y)¯²+...+(yn−y)¯ ² somme des carrés des erreurs p/r à la moyenne

( , )x y1 1

( , ) x y

_n _n

y mx b= +

y^y^ˆ1¹ e₁ e2

y2

ˆ2

y

en

y

Figure 8: Nuage de points avec la moyenne desy.

La figure suivante montre ces écarts par rapport à la moyenne (barres vertes).

( , )x y1 1

( , ) x y

_n _n

y mx b = +

écart p/r à la moyenne

y^y^ˆ1¹ e₁ e2

y2

ˆ2

y

en

y

Figure9: Nuage de points où l’on montre les écarts p/r à la moyenne ¯y.

On se pose maintenant la question suivante : quelle proportion de la SCEy¯ est expliquée par la droite D? Il est plus facile d’aborder cette question en disant que

SCED : partie de la SCEy¯qui n⁰est pas expliqu´ee par la droite D

(9)

Il est alors possible d’écrire que SCED

SCE_y_¯ : proportion de la SCE¯y qui n⁰est pas expliqu´ee par la droite D La proportion de la SCE_y_¯ qui est expliquée par D, qui est notée R²,est donnée par

R² = 1−SCE_D SCEy¯

(Coefficient de détermination) (20)

(10)

Annexe A

Démonstration de la covariance (équation [18]) Nous voulons démontrer que

cov(x, y) =

n

P

i=1

(xi−x)(y¯ i−y)¯

n = ¯xy−x¯y¯ (A-1)

1 n

n

X

i=1

(x_i−x)(y¯ _i−y)¯ = 1

nΣ (x_iy_i−x_iy¯−xy¯ _i+ ¯xy)¯

= 1

n(Σx_iy_i−n¯yΣx_i−n¯xΣy_i+n¯xy)¯

= Σxiyi

n − n¯yΣxi

n −n¯xΣyi

n + ¯x¯y

= Σx_iy_i

n −y¯¯x−x¯¯y+ ¯x¯y

= Σxiyi

n −y¯¯x

= xy¯ −x¯¯y