• Aucun résultat trouvé

Moindres carres

N/A
N/A
Protected

Academic year: 2022

Partager "Moindres carres"

Copied!
10
0
0

Texte intégral

(1)

Voici le problème à résoudre

Supposons des données expérimentales portées sur un graphique (figure ci-dessous), qui forment un nuage de points. Les points sont numérotés de 1 jusqu’à n. On cherche à déterminer l’équation de la droite qui passe le plus près possible de l’ensemble des points.

1 1

( , )x y

2 2

( , )x y

( , )x yn n

y mx b= +

pente ordonnée à l’origine (0, )b

meilleure droite possible

Figure 1: Nuage de points avec meilleure droite possible.

On s’intéresse à l’erreur sur l’ordonnée de chaque point par rapport à la meilleure droite possible. La figure ci-dessous montre comment on mesure ces erreurs par rapport à la droite.

( , )x y1 1 2 2

( , ) x y

( , )x yn n

y mx b = +

(0, )b Erreur1= y1-(mx1+b) Erreurn= yn-(mxn+b)

Erreur2= y2-(mx2+b)

Tableau 1: Erreurs par rapport à la droite idéale.

Comme certaines des erreurs (ou résidus) sont positives et d’autres négatives, il est pré- férable d’utiliser les carrés des erreurs pour quantifier l’erreur par rapport à la droite. On

(2)

écrira donc que la somme des carrés des erreurs (SCE) vaut

SCE = (y1−(mx1+b))2+ (y2−(mx2+b))2+...+ (yn−(mxn+b))2 (1) Pour trouver la meilleure droite possible, il faut déterminer les valeurs de m et de b qui minimisent la SCE.

Un peu de mathématique

Commençons d’abord par développer les termes au carré de l’équation [1].

SCE = y12−2y1(mx1+b) + (mx1+b)2 + y22−2y2(mx2+b) + (mx2+b)2

: :

+ y2n−2yn(mxn+b) + (mxn+b)2

(2)

On développe ensuite les dernières parenthèses qui sont au carré

SCE = y21−2y1mx1−2y1b+m2x21+ 2mx1b+b2 + y22−2y2mx2−2y2b+m2x22+ 2mx2b+b2

: :

+ y2n−2ynmxn−2ynb+m2x2n+ 2mxnb+b2

(3)

On peut ensuite regrouper les termes semblables

SCE = (y21+y22+...+y2n)−2m(y1x1+y2x2+...+ynxn)−2b(y1+y2+...+yn) + m2(x21+x22+...+x2n) + 2mb(x1+x2+...+xn) +nb2

(4) Le premier terme de cette équation peut être réécrit différemment. En effet, la moyenne des carrés des y s’écrit

y¯2= y12+y22+...+y2n

n =⇒ ny¯2 =y12+y22+...+yn2

Également, le deuxième terme de laSCE, la moyenne des produits des x par y,s’écrit y1x1+y2x2+...+ynxn

n = ¯xy =⇒ nxy¯ =y1x1+y2x2+...+ynxn

En procédant asinsi pour les autres termes de la SCE,on peut écrire

SCE=ny¯2−2m nxy¯ −2b n¯y+m2nx¯2+ 2mb n¯x+nb2 (5) Il faut maintenant minimiser laSCE. Il faut donc trouver les valeurs demetbpour lesquelles laSCE présente un minimum.

Attention : Ici les x et lesy ne sont pas des variables, leurs valeurs sont connues. Seules m etb sont inconnues.

(3)

La figure suivante montre une droite de pente égale à 5 avec une ordonnée à l’origine de 3 avec un peu de dispersion.

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

X

-4 -2 0 2 4 6 8 10

Y

Figure2: Droite de pente égale à 5 et d’ordonnée à l’origine de 3.

Traçons maintenant la valeur de la SCE en fonction des paramètres m etb. Nous obtenons une surface qui présente un minimum lorsque m = 5 et b= 3.

0 10 1

5 20

2 104

SCE

15 3

ordonnée à l'origine

0 10

pente 5 4

-5 0

-10 -10 -5

Figure 3: Valeur de laSCE en fonction des paramètresm etb.

On se pose maintenant la question suivante : comment trouver mathématiquement les valeurs demet debpour lesquelles laSCEest minimale ? La réponse réside tout simplement

(4)

par la résolution des deux équations suivantes

∂(SCE)

∂m = 0

∂(SCE)

∂b = 0

(6) En effet, notez que laSCE présente un minimum dans la direction de l’axem et un autre le long de l’axe b. Il faut donc exiger que la dérivée partielle de laSCE par rapport àm soit nulle et que sa dérivée partielle par rapport à b soit nulle aussi. La dérivée partielle veut dire que lorsqu’on dérive une fonction à plusieurs variables (icim etb), on dérive l’équation par rapport à une seule variable et on laisse les autres fixes. On obtient donc que

∂(SCE)

∂m =−2nxy¯ + 2mnx¯2+ 2bn¯x= 0 (7)

∂(SCE)

∂b =−2n¯y+ 2mn¯x+ 2bn= 0 (8)

Remarquez qu’on peut diviser les deux équations précédentes par 2n et obtenir le système suivant

xy¯ +mx¯2+b¯x= 0 (9)

−¯y+mx¯+b= 0 (10) On peut résoudre directement ce système de deux équations à deux inconnues. Il est par contre intéressant de les transformer encore un peu pour s’intéresser à leur sens physique.

Réécrivons-les comme étant

mx¯2+b¯x= ¯xy (11)

mx¯+b= ¯y (12)

On rappelle maintenant que l’on cherche à déterminer les paramètres de l’équation y = mx+b qui passe à travers les points. D’après l’équation [12], il est évident que le point G(¯x,y) situé ௠x = ¯x et y = ¯y passe par cette droite d’ajustement (appelée droite des moindres carrés).

G(¯x,y)¯ ∈ droite des moindres carrés

( , )x y1 1 2 2

( , )x y

( , )x yn n

pente ordonnée à l’origine

(0, )b

meilleure droite possible

y G

x

y mx b= +

Figure 4: Le point G fait partie de la droite d’ajustement.

(5)

Trouvons maintenant un autre point de la droite à l’aide de l’équation [11]. D’abord, réécrivons-la sous la forme

m x¯2

x¯ +b= xy¯

x¯ (13)

Ce qui veut dire que le point H(x¯x¯2,xyx¯¯ ) fait aussi partie de la droite des moindres car- rés. Reprenons maintenant les équations [13] et [12] et modifions-les un peu. La première transformation consiste à faire la soutraction entre les équations [13] et [12].

mxx¯¯2 +b= xyx¯¯ mx¯¯x2x¯= xy¯x¯y¯

=⇒

mx¯+b= ¯y m¯x+b= ¯y

Nous avons donc obtenu deux nouvelles équations qui vont maintenant nous permettre de déterminer m etb. Prenons la première et multiplions-la par ¯x/¯x. Nous obtenons

m=

¯ xy

¯ xy¯

x¯2

¯ xx¯

×x¯

x¯ = xy¯ −y¯x¯

x¯2−(¯x)2 (14)

et évidemment on peut trouver bfacilement à l’aide de la relation

b= ¯ym¯x (15)

Reprenons maintenant ces résultats en termes d’indicateurs statistiques (variance et cova- riance). La variance des x est définie comme suit :

σ2x=

n

P

i=1

x2i

n −(¯x)2 = ¯x2−(¯x)2 (16) et la covariance des x et y est définie par

cov(x, y) =

n

P

i=1

(xix)(y¯ iy)¯

n (17)

et il est possible de montrer que (voir Annexe)

cov(x, y) = ¯xy¯y (18) Avec ces définitions, on peut donc écrire que

m= cov(x, y)

σ2x et b= ¯ym¯x (19)

(6)

Exemple simple

Donnons maintenqant un exemple simple avec un nuage de points ne contenant que trois données. Soient les points (1, 2), (2, 1) et (4, 3) du graphique suivant.

(1, 2)

(2, 1)

(4, 3)

x y

Figure 5: Exemple de nuage de points.

Pour déterminer m etb, nous allons utiliser les relations suivantes : m= xy¯ −y¯x¯

x¯2−(¯x)2 et b= ¯ym¯x Procédons aux calculs des quantités nécessaires :

x¯ = 1+2+43 = 73 y¯ = 2+1+33 = 2 xy¯ = 1×2+2×1+4×3

3 = 163

x¯2 = 12+232+42 = 213 = 7 Maintenant on peut calculerm etb :

m=

16

373 ×2 7−732

=

16 3143 7−499 =

2 3 63−49

9

= 2 3 × 9

14 = 3 7

b= 2−3 7 ×7

3 = 2−1 = 1 Le graphique suivant montre le résultat obtenu.

(7)

(1, 2)

(2, 1) (4, 3)

droite des moindres carrés

x y

Figure6: Exemple de régression linéaire.

Coefficient de détermination (R

2

)

Nous allons maintenant décrire comment est calculé le fameux coefficient de détermi- nation appelé R2 qui sert à quantifier la qualité de la régression linéaire. Il faut cependant s’assurer visuellement que le nuage de points suit bien une droite pour apprécier la valeur de ce coefficient. Commençons par imaginer un nuage de points duquel on a trouvé la droite des moindres carrés (y =mx+b).

( , )x y1 1

( , ) x y

n n

droite des moindres carrés

yyˆ11 e1 e2

y2

ˆ2

y

en

y mx b= +

Figure7: Nuage de points où l’on montre les écarts p/r à la droite D.

Les symboles (e1,e2, ..., en) représentent les erreurs par rapport à la droite. Les coordon- nées ˆy (y chapeau) représentent la coordonnée y d’un point (x, y) situé sur la droite avec la même coordonnée x que le point expérimental. Nous avons déjà vu qu’il fallait calculer la somme des carrés des erreurs par rapport à la droite D.

SCED =e21+e22+...+e2n

SCED = (y1−(mx1+b))2+ (y2−(mx2+b))2+...+ (yn−(mxn+b))2

(8)

et qu’à partir de là on pouvait trouver les valeurs dem et deb. On va maintenant s’intéresser à une autre quantité : la somme des carrés des erreurs par rapport à la moyenne desy.

SCEy¯= (y1y)¯ 2+(y2y)¯2+...+(yny)¯ 2 somme des carrés des erreurs p/r à la moyenne

( , )x y1 1

( , ) x y

n n

y mx b= +

droite des moindres carrés

yyˆ11 e1 e2

y2

ˆ2

y

en

y

Figure 8: Nuage de points avec la moyenne desy.

La figure suivante montre ces écarts par rapport à la moyenne (barres vertes).

( , )x y1 1

( , ) x y

n n

y mx b = +

droite des moindres carrés

écart p/r à la moyenne

yyˆ11 e1 e2

y2

ˆ2

y

en

y

Figure9: Nuage de points où l’on montre les écarts p/r à la moyenne ¯y.

On se pose maintenant la question suivante : quelle proportion de la SCEy¯ est expliquée par la droite D? Il est plus facile d’aborder cette question en disant que

SCED : partie de la SCEy¯qui n0est pas expliqu´ee par la droite D

(9)

Il est alors possible d’écrire que SCED

SCEy¯ : proportion de la SCE¯y qui n0est pas expliqu´ee par la droite D La proportion de la SCEy¯ qui est expliquée par D, qui est notée R2,est donnée par

R2 = 1−SCED SCEy¯

(Coefficient de détermination) (20)

(10)

Annexe A

Démonstration de la covariance (équation [18]) Nous voulons démontrer que

cov(x, y) =

n

P

i=1

(xix)(y¯ iy)¯

n = ¯xyx¯y¯ (A-1)

1 n

n

X

i=1

(xix)(y¯ iy)¯ = 1

nΣ (xiyixiy¯−xy¯ i+ ¯xy)¯

= 1

n(Σxiyin¯yΣxin¯xΣyi+n¯xy)¯

= Σxiyi

nn¯yΣxi

nn¯xΣyi

n + ¯x¯y

= Σxiyi

n¯x¯y+ ¯x¯y

= Σxiyi

n¯x

= xy¯ −¯y

Références

Documents relatifs

Nous pouvons dire que le discours du maître se rattache à cette référence dogmatique et qu’une de ses particularités n’est pas un pur arbitraire vis à vis duquel il n’y a pas

De plus, les satellites fournissent des preuves effectives des mouvements continentaux ; ainsi nous pouvons affirmer que la tectonique des plaques, théorie

[r]

l Le remboursement de toutes les dépenses de santé qui ne sont pas prises en charge au titre du droit à réparation de l’invalidité et des éventuels restes à charge dans le

Pour le néonazisme, la purification mentale se fait par la manipulation génitale et l’eugénisme idéologique, en sélectionnant la race des éléments supérieurs, au

a/ Dérive attentionnelle correspondant à la structure eidétique du donné musical D’après Pierre Kerszberg, le phénomène de la dérive attentionnelle, lorsque nous écoutons

2) Pour chacune des expressions E suivantes, chercher, parmi les valeurs de x proposées, celles pour lesquelles E

Les capacités relatives à la notion de différentielle d’une fonction de plusieurs variables sont limitées à l’essentiel, elles seront mobilisées principalement dans le cours