1
Régressions et incertitudes associées – version détaillée
JM De Conto – mars 2020
J’avais donné dans un document précédent les formules de régression et les incertitudes associées. L’une des difficultés de calcul est qu’il faut exprimer les grandeurs de sortie en fonction de celles d’entrée. Le calcul qui avait été mené dans ce sens comportait toutefois une erreur car il était donné une relation entre sortie et entrée, et le calcul associé contenait donc l’erreur que je prétendais éviter. Pas une erreur de calcul mais de raisonnement. Une application numérique (merci Albin) a permis de faire apparaître des carrés négatifs.
Je donne ci-dessous le calcul correct (ce que je prétends à chaque fois). Par construction, les carrés sont positifs (mais bon…).
Principe du calcul
Partir de la formule de régression
Exprimer le vecteur des coefficients de régression
Exprimer sa variation (différentielle)
Déduire la matrice de covariance de la variation
Remarque : dans le cas d’une régression y=ax+b, il est clair qu’il y a un écart-type sur les variations de a et b (ce que l’on cherche) mais aussi une corrélation, ce que la formulation initiale ne donnait pas.
On notera par un tilde ~ les matrices transposées.
1 Régression 𝒚 = 𝒂 ∙ 𝒙
𝑎 ∙ ∑ 𝑥
2= ∑ 𝑥𝑦
𝑢
𝑎2∙ (∑ 𝑥
2)
2
= ∑[𝑥
𝑖2∙ (𝑎
2∙ 𝑢
𝑥𝑖2+ 𝑢
𝑦𝑖2)] = 𝑎
2∙ ∑ 𝑥
𝑖2∙ 𝑢
𝑥𝑖2+ ∑ 𝑥
𝑖2∙ 𝑢
𝑦𝑖2Si les incertitudes sont identiques pour tous les x et y :
𝑢
𝑎2∙ ∑ 𝑥
2= 𝑢
𝑥2∙ 𝑎
2+ 𝑢
𝑦2Ou :
𝑢
𝑎2= 1 𝑁 ∙ 1
𝑥
2̅̅̅ (𝑢
𝑥2∙ 𝑎
2+ 𝑢
𝑦2) Ou encore :
𝑢
𝑎2= 1 𝑁 ∙ 1
𝑥
2̅̅̅ (𝑦 ̅̅̅̅̅ 𝑢
2∙
𝑥2+ 𝑥 ̅̅̅ ∙ 𝑢
2 𝑦2)
2 Cette quantité tend vers zéro avec N. Si les points sont en nombre infini et selon une bande uniforme, il n’y a qu’une pente possible : celle de la bande.
La barre indique la moyenne sur l’ensemble des points.
2 Cas général
Les formules donnant les coefficients de régression sont de la forme On écrit cela
𝑀 ∙ 𝐴 = 𝑌 Soit :
𝐴 = 𝑀
−1∙ 𝑌 En différenciant :
𝑑𝐴 = −𝑀
−1∙ 𝑑𝑀 ∙ 𝑀
−1∙ 𝑌 + 𝑀
−1∙ 𝑑𝑌 = 𝑀
−1∙ (−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌) On calcule ensuite
𝜎 = 𝑑𝐴 ∙ 𝑑𝐴 ̃ = 𝑀
−1∙ (−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌) ∙ (−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌) ∙ 𝑀 ̃ ̃
−1𝑀
−1= 𝑀 ̃
−1On suppose une régression polynomiale de degré n et on pose :
𝑋 = [ 𝑥
𝑛⋯ 1
] On a :
𝑌 = 𝑦 ∙ 𝑋
On a également, compte tenu de la formule de régression :
𝑦 = 𝐴̃ ∙ 𝑋 = 𝑓(𝑥) On note par 𝜕 la dérivation par rapport à x :
−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌 = 𝑋𝑑𝑦 + (𝑦𝜕𝑋 − [𝜕𝑋 ∙ 𝑋̃ + 𝑋𝜕𝑋̃] ∙ 𝐴)𝑑𝑥 En définitive, compte tenu de l’expression de y
−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌 = 𝑋𝑑𝑦 + 𝑋 ∙ 𝜕𝑋̃ ∙ 𝐴𝑑𝑥
On suppose les différentielles toutes indépendantes et on fait un somme quadratique moyenne On observe également que
𝑓
′(𝑥) = 𝐴̃ ∙ 𝜕𝑋
3 On a donc, en ne gardant que les termes d’ordre 2 non corrélés :
𝑋 ∙ 𝑋̃ ∙ 𝑢
𝑦2+ 𝑋 ∙ 𝜕𝑋̃ ∙ 𝐴 ∙ 𝐴̃ ∙ 𝜕𝑋 ∙ 𝑋̃ ∙ 𝑢
𝑥2mais
𝑋 ∙ 𝜕𝑋̃ ∙ 𝐴 ∙ 𝐴̃ ∙ 𝜕𝑋 ∙ 𝑋̃ = 𝑓
′2(𝑥) ∙ 𝑋 ∙ 𝑋̃
Finalement
𝜎 = 𝑀
−1∙ ∑ 𝑋 ∙ 𝑋̃ ∙ (𝑢
𝑦2+ 𝑓
′2(𝑥) ∙ 𝑢
𝑥2) ∙ 𝑀
−12.1 Régression 𝒚 = 𝒂 ∙ 𝒙 + 𝒃
[
∑ 𝑥
2∑ 𝑥
∑ 𝑥 𝑁
] ∙ [ 𝑎 𝑏 ] = [
∑ 𝑥𝑦
∑ 𝑦 ]
𝜎 = [ 𝑢
𝑎2𝑢
𝑎,𝑏𝑢
𝑎,𝑏𝑢
𝑏2] = 𝑀
−1∙ (∑(𝑢
𝑦2+ 𝑎
2∙ 𝑢
𝑥2) [𝑥
2𝑥
𝑥 1 ]) ∙ 𝑀
−1𝜎
Si les incertitudes sont identiques pour tous les x et y, le résultat devient trivial car on retrouve M comme matrice centrale dans la formule :
𝜎 = (𝑎
2∙ 𝑢
𝑥2+ 𝑢
𝑦2) ∙ 𝑀
−12.1 Régression 𝒚 = 𝒂 ∙ 𝒙
𝟐+ 𝒃𝒙 + 𝒄
y xy
y x
c b a
N x x
x x
x
x x
x
22
2 3
2 3
4