Voici le problème à résoudre
Supposons des données expérimentales portées sur un graphique (figure ci-dessous), qui forment un nuage de points. Les points sont numérotés de 1 jusqu’à n. On cherche à déterminer l’équation de la droite qui passe le plus près possible de l’ensemble des points.
1 1
( , )x y
2 2
( , )x y
( , )x yn n
y mx b= +
pente ordonnée à l’origine (0, )b
meilleure droite possible
Figure 1: Nuage de points avec meilleure droite possible.
On s’intéresse à l’erreur sur l’ordonnée de chaque point par rapport à la meilleure droite possible. La figure ci-dessous montre comment on mesure ces erreurs par rapport à la droite.
( , )x y1 1 2 2
( , ) x y
( , )x yn n
y mx b = +
(0, )b Erreur1= y1-(mx1+b) Erreurn= yn-(mxn+b)
Erreur2= y2-(mx2+b)
Tableau 1: Erreurs par rapport à la droite idéale.
Comme certaines des erreurs (ou résidus) sont positives et d’autres négatives, il est pré- férable d’utiliser les carrés des erreurs pour quantifier l’erreur par rapport à la droite. On
écrira donc que la somme des carrés des erreurs (SCE) vaut
SCE = (y1−(mx1+b))2+ (y2−(mx2+b))2+...+ (yn−(mxn+b))2 (1) Pour trouver la meilleure droite possible, il faut déterminer les valeurs de m et de b qui minimisent la SCE.
Un peu de mathématique
Commençons d’abord par développer les termes au carré de l’équation [1].
SCE = y12−2y1(mx1+b) + (mx1+b)2 + y22−2y2(mx2+b) + (mx2+b)2
: :
+ y2n−2yn(mxn+b) + (mxn+b)2
(2)
On développe ensuite les dernières parenthèses qui sont au carré
SCE = y21−2y1mx1−2y1b+m2x21+ 2mx1b+b2 + y22−2y2mx2−2y2b+m2x22+ 2mx2b+b2
: :
+ y2n−2ynmxn−2ynb+m2x2n+ 2mxnb+b2
(3)
On peut ensuite regrouper les termes semblables
SCE = (y21+y22+...+y2n)−2m(y1x1+y2x2+...+ynxn)−2b(y1+y2+...+yn) + m2(x21+x22+...+x2n) + 2mb(x1+x2+...+xn) +nb2
(4) Le premier terme de cette équation peut être réécrit différemment. En effet, la moyenne des carrés des y s’écrit
y¯2= y12+y22+...+y2n
n =⇒ ny¯2 =y12+y22+...+yn2
Également, le deuxième terme de laSCE, la moyenne des produits des x par y,s’écrit y1x1+y2x2+...+ynxn
n = ¯xy =⇒ nxy¯ =y1x1+y2x2+...+ynxn
En procédant asinsi pour les autres termes de la SCE,on peut écrire
SCE=ny¯2−2m nxy¯ −2b n¯y+m2nx¯2+ 2mb n¯x+nb2 (5) Il faut maintenant minimiser laSCE. Il faut donc trouver les valeurs demetbpour lesquelles laSCE présente un minimum.
Attention : Ici les x et lesy ne sont pas des variables, leurs valeurs sont connues. Seules m etb sont inconnues.
La figure suivante montre une droite de pente égale à 5 avec une ordonnée à l’origine de 3 avec un peu de dispersion.
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
X
-4 -2 0 2 4 6 8 10
Y
Figure2: Droite de pente égale à 5 et d’ordonnée à l’origine de 3.
Traçons maintenant la valeur de la SCE en fonction des paramètres m etb. Nous obtenons une surface qui présente un minimum lorsque m = 5 et b= 3.
0 10 1
5 20
2 104
SCE
15 3
ordonnée à l'origine
0 10
pente 5 4
-5 0
-10 -10 -5
Figure 3: Valeur de laSCE en fonction des paramètresm etb.
On se pose maintenant la question suivante : comment trouver mathématiquement les valeurs demet debpour lesquelles laSCEest minimale ? La réponse réside tout simplement
par la résolution des deux équations suivantes
∂(SCE)
∂m = 0
∂(SCE)
∂b = 0
(6) En effet, notez que laSCE présente un minimum dans la direction de l’axem et un autre le long de l’axe b. Il faut donc exiger que la dérivée partielle de laSCE par rapport àm soit nulle et que sa dérivée partielle par rapport à b soit nulle aussi. La dérivée partielle veut dire que lorsqu’on dérive une fonction à plusieurs variables (icim etb), on dérive l’équation par rapport à une seule variable et on laisse les autres fixes. On obtient donc que
∂(SCE)
∂m =−2nxy¯ + 2mnx¯2+ 2bn¯x= 0 (7)
∂(SCE)
∂b =−2n¯y+ 2mn¯x+ 2bn= 0 (8)
Remarquez qu’on peut diviser les deux équations précédentes par 2n et obtenir le système suivant
−xy¯ +mx¯2+b¯x= 0 (9)
−¯y+mx¯+b= 0 (10) On peut résoudre directement ce système de deux équations à deux inconnues. Il est par contre intéressant de les transformer encore un peu pour s’intéresser à leur sens physique.
Réécrivons-les comme étant
mx¯2+b¯x= ¯xy (11)
mx¯+b= ¯y (12)
On rappelle maintenant que l’on cherche à déterminer les paramètres de l’équation y = mx+b qui passe à travers les points. D’après l’équation [12], il est évident que le point G(¯x,y) situé ௠x = ¯x et y = ¯y passe par cette droite d’ajustement (appelée droite des moindres carrés).
→ G(¯x,y)¯ ∈ droite des moindres carrés
( , )x y1 1 2 2
( , )x y
( , )x yn n
pente ordonnée à l’origine
(0, )b
meilleure droite possible
y G
x
y mx b= +
Figure 4: Le point G fait partie de la droite d’ajustement.
Trouvons maintenant un autre point de la droite à l’aide de l’équation [11]. D’abord, réécrivons-la sous la forme
m x¯2
x¯ +b= xy¯
x¯ (13)
Ce qui veut dire que le point H(x¯x¯2,xyx¯¯ ) fait aussi partie de la droite des moindres car- rés. Reprenons maintenant les équations [13] et [12] et modifions-les un peu. La première transformation consiste à faire la soutraction entre les équations [13] et [12].
mxx¯¯2 +b= xyx¯¯ mx¯¯x2 −x¯= xy¯x¯ −y¯
=⇒
mx¯+b= ¯y m¯x+b= ¯y
Nous avons donc obtenu deux nouvelles équations qui vont maintenant nous permettre de déterminer m etb. Prenons la première et multiplions-la par ¯x/¯x. Nous obtenons
m=
¯ xy
¯ x −y¯
x¯2
¯ x −x¯
×x¯
x¯ = xy¯ −y¯x¯
x¯2−(¯x)2 (14)
et évidemment on peut trouver bfacilement à l’aide de la relation
b= ¯y−m¯x (15)
Reprenons maintenant ces résultats en termes d’indicateurs statistiques (variance et cova- riance). La variance des x est définie comme suit :
σ2x=
n
P
i=1
x2i
n −(¯x)2 = ¯x2−(¯x)2 (16) et la covariance des x et y est définie par
cov(x, y) =
n
P
i=1
(xi−x)(y¯ i−y)¯
n (17)
et il est possible de montrer que (voir Annexe)
cov(x, y) = ¯xy−x¯¯y (18) Avec ces définitions, on peut donc écrire que
m= cov(x, y)
σ2x et b= ¯y−m¯x (19)
Exemple simple
Donnons maintenqant un exemple simple avec un nuage de points ne contenant que trois données. Soient les points (1, 2), (2, 1) et (4, 3) du graphique suivant.
(1, 2)
(2, 1)
(4, 3)
x y
Figure 5: Exemple de nuage de points.
Pour déterminer m etb, nous allons utiliser les relations suivantes : m= xy¯ −y¯x¯
x¯2−(¯x)2 et b= ¯y−m¯x Procédons aux calculs des quantités nécessaires :
x¯ = 1+2+43 = 73 y¯ = 2+1+33 = 2 xy¯ = 1×2+2×1+4×3
3 = 163
x¯2 = 12+232+42 = 213 = 7 Maintenant on peut calculerm etb :
m=
16
3 −73 ×2 7−732
=
16 3 −143 7−499 =
2 3 63−49
9
= 2 3 × 9
14 = 3 7
b= 2−3 7 ×7
3 = 2−1 = 1 Le graphique suivant montre le résultat obtenu.
(1, 2)
(2, 1) (4, 3)
droite des moindres carrés
x y
Figure6: Exemple de régression linéaire.
Coefficient de détermination (R
2)
Nous allons maintenant décrire comment est calculé le fameux coefficient de détermi- nation appelé R2 qui sert à quantifier la qualité de la régression linéaire. Il faut cependant s’assurer visuellement que le nuage de points suit bien une droite pour apprécier la valeur de ce coefficient. Commençons par imaginer un nuage de points duquel on a trouvé la droite des moindres carrés (y =mx+b).
( , )x y1 1
( , ) x y
n ndroite des moindres carrés
yyˆ11 e1 e2
y2
ˆ2
y
en
y mx b= +
Figure7: Nuage de points où l’on montre les écarts p/r à la droite D.
Les symboles (e1,e2, ..., en) représentent les erreurs par rapport à la droite. Les coordon- nées ˆy (y chapeau) représentent la coordonnée y d’un point (x, y) situé sur la droite avec la même coordonnée x que le point expérimental. Nous avons déjà vu qu’il fallait calculer la somme des carrés des erreurs par rapport à la droite D.
SCED =e21+e22+...+e2n
SCED = (y1−(mx1+b))2+ (y2−(mx2+b))2+...+ (yn−(mxn+b))2
et qu’à partir de là on pouvait trouver les valeurs dem et deb. On va maintenant s’intéresser à une autre quantité : la somme des carrés des erreurs par rapport à la moyenne desy.
SCEy¯= (y1−y)¯ 2+(y2−y)¯2+...+(yn−y)¯ 2 somme des carrés des erreurs p/r à la moyenne
( , )x y1 1
( , ) x y
n ny mx b= +
droite des moindres carrés
yyˆ11 e1 e2
y2
ˆ2
y
en
y
Figure 8: Nuage de points avec la moyenne desy.
La figure suivante montre ces écarts par rapport à la moyenne (barres vertes).
( , )x y1 1
( , ) x y
n ny mx b = +
droite des moindres carrés
écart p/r à la moyenne
yyˆ11 e1 e2
y2
ˆ2
y
en
y
Figure9: Nuage de points où l’on montre les écarts p/r à la moyenne ¯y.
On se pose maintenant la question suivante : quelle proportion de la SCEy¯ est expliquée par la droite D? Il est plus facile d’aborder cette question en disant que
SCED : partie de la SCEy¯qui n0est pas expliqu´ee par la droite D
Il est alors possible d’écrire que SCED
SCEy¯ : proportion de la SCE¯y qui n0est pas expliqu´ee par la droite D La proportion de la SCEy¯ qui est expliquée par D, qui est notée R2,est donnée par
R2 = 1−SCED SCEy¯
(Coefficient de détermination) (20)
Annexe A
Démonstration de la covariance (équation [18]) Nous voulons démontrer quecov(x, y) =
n
P
i=1
(xi−x)(y¯ i−y)¯
n = ¯xy−x¯y¯ (A-1)
1 n
n
X
i=1
(xi−x)(y¯ i−y)¯ = 1
nΣ (xiyi−xiy¯−xy¯ i+ ¯xy)¯
= 1
n(Σxiyi−n¯yΣxi−n¯xΣyi+n¯xy)¯
= Σxiyi
n − n¯yΣxi
n −n¯xΣyi
n + ¯x¯y
= Σxiyi
n −y¯¯x−x¯¯y+ ¯x¯y
= Σxiyi
n −y¯¯x
= xy¯ −x¯¯y