Régressions et incertitudes associées – version détaillée JM De Conto –

(1)

1 Régressions et incertitudes associées – version détaillée

JM De Conto – mars 2020

J’avais donné dans un document précédent les formules de régression et les incertitudes associées. L’une des difficultés de calcul est qu’il faut exprimer les grandeurs de sortie en fonction de celles d’entrée. Le calcul qui avait été mené dans ce sens comportait toutefois une erreur car il était donné une relation entre sortie et entrée, et le calcul associé contenait donc l’erreur que je prétendais éviter. Pas une erreur de calcul mais de raisonnement. Une application numérique (merci Albin) a permis de faire apparaître des carrés négatifs.

Je donne ci-dessous le calcul correct (ce que je prétends à chaque fois). Par construction, les carrés sont positifs (mais bon…).

Principe du calcul

 Partir de la formule de régression

 Exprimer le vecteur des coefficients de régression

 Exprimer sa variation (différentielle)

 Déduire la matrice de covariance de la variation

Remarque : dans le cas d’une régression y=ax+b, il est clair qu’il y a un écart-type sur les variations de a et b (ce que l’on cherche) mais aussi une corrélation, ce que la formulation initiale ne donnait pas.

On notera par un tilde ~ les matrices transposées.

1 Régression 𝒚 = 𝒂 ∙ 𝒙

𝑎 ∙ ∑ 𝑥

²

= ∑ 𝑥𝑦

𝑢

_𝑎²

∙ (∑ 𝑥

²

)

2

= ∑[𝑥

_𝑖²

∙ (𝑎

²

∙ 𝑢

_𝑥𝑖²

+ 𝑢

_𝑦𝑖²

)] = 𝑎

²

∙ ∑ 𝑥

_𝑖²

∙ 𝑢

_𝑥𝑖²

+ ∑ 𝑥

_𝑖²

∙ 𝑢

_𝑦𝑖²

Si les incertitudes sont identiques pour tous les x et y :

𝑢

_𝑎²

∙ ∑ 𝑥

²

= 𝑢

_𝑥²

∙ 𝑎

²

+ 𝑢

_𝑦²

Ou :

𝑢

_𝑎²

= 1 𝑁 ∙ 1

𝑥

²

̅̅̅ (𝑢

_𝑥²

∙ 𝑎

²

+ 𝑢

_𝑦²

) Ou encore :

𝑢

_𝑎²

= 1 𝑁 ∙ 1

𝑥

²

̅̅̅ (𝑦 ̅̅̅̅̅ 𝑢

²

∙

_𝑥²

+ 𝑥 ̅̅̅ ∙ 𝑢

² _𝑦²

)

(2)

2 Cette quantité tend vers zéro avec N. Si les points sont en nombre infini et selon une bande uniforme, il n’y a qu’une pente possible : celle de la bande.

La barre indique la moyenne sur l’ensemble des points.

2 Cas général

Les formules donnant les coefficients de régression sont de la forme On écrit cela

𝑀 ∙ 𝐴 = 𝑌 Soit :

𝐴 = 𝑀

⁻¹

∙ 𝑌 En différenciant :

𝑑𝐴 = −𝑀

⁻¹

∙ 𝑑𝑀 ∙ 𝑀

⁻¹

∙ 𝑌 + 𝑀

⁻¹

∙ 𝑑𝑌 = 𝑀

⁻¹

∙ (−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌) On calcule ensuite

𝜎 = 𝑑𝐴 ∙ 𝑑𝐴 ̃ = 𝑀

⁻¹

∙ (−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌) ∙ (−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌) ∙ 𝑀 ̃ ̃

⁻¹

𝑀

⁻¹

= 𝑀 ̃

⁻¹

On suppose une régression polynomiale de degré n et on pose :

𝑋 = [ 𝑥

^𝑛

⋯ 1

] On a :

𝑌 = 𝑦 ∙ 𝑋

On a également, compte tenu de la formule de régression :

𝑦 = 𝐴̃ ∙ 𝑋 = 𝑓(𝑥) On note par 𝜕 la dérivation par rapport à x :

−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌 = 𝑋𝑑𝑦 + (𝑦𝜕𝑋 − [𝜕𝑋 ∙ 𝑋̃ + 𝑋𝜕𝑋̃] ∙ 𝐴)𝑑𝑥 En définitive, compte tenu de l’expression de y

−𝑑𝑀 ∙ 𝐴 + 𝑑𝑌 = 𝑋𝑑𝑦 + 𝑋 ∙ 𝜕𝑋̃ ∙ 𝐴𝑑𝑥

On suppose les différentielles toutes indépendantes et on fait un somme quadratique moyenne On observe également que

𝑓

^′

(𝑥) = 𝐴̃ ∙ 𝜕𝑋

(3)

3 On a donc, en ne gardant que les termes d’ordre 2 non corrélés :

𝑋 ∙ 𝑋̃ ∙ 𝑢

_𝑦²

+ 𝑋 ∙ 𝜕𝑋̃ ∙ 𝐴 ∙ 𝐴̃ ∙ 𝜕𝑋 ∙ 𝑋̃ ∙ 𝑢

_𝑥²

mais

𝑋 ∙ 𝜕𝑋̃ ∙ 𝐴 ∙ 𝐴̃ ∙ 𝜕𝑋 ∙ 𝑋̃ = 𝑓

^′2

(𝑥) ∙ 𝑋 ∙ 𝑋̃

Finalement

𝜎 = 𝑀

⁻¹

∙ ∑ 𝑋 ∙ 𝑋̃ ∙ (𝑢

_𝑦²

+ 𝑓

^′2

(𝑥) ∙ 𝑢

_𝑥²

) ∙ 𝑀

⁻¹

2.1 Régression 𝒚 = 𝒂 ∙ 𝒙 + 𝒃

[

∑ 𝑥

²

∑ 𝑥

∑ 𝑥 𝑁

] ∙ [ 𝑎 𝑏 ] = [

∑ 𝑥𝑦

∑ 𝑦 ]

𝜎 = [ 𝑢

_𝑎²

𝑢

_𝑎,𝑏

𝑢

_𝑎,𝑏

𝑢

_𝑏²

] = 𝑀

⁻¹

∙ (∑(𝑢

_𝑦²

+ 𝑎

²

∙ 𝑢

_𝑥²

) [𝑥

²

𝑥

𝑥 1 ]) ∙ 𝑀

⁻¹

𝜎

Si les incertitudes sont identiques pour tous les x et y, le résultat devient trivial car on retrouve M comme matrice centrale dans la formule :

𝜎 = (𝑎

²

∙ 𝑢

_𝑥²

+ 𝑢

_𝑦²

) ∙ 𝑀

⁻¹

2.1 Régression 𝒚 = 𝒂 ∙ 𝒙

^𝟐

+ 𝒃𝒙 + 𝒄

 







 









 







 









 







 







 



  



y xy

y x

c b a

N x x

x x

x

x x

x

²

2

2 3

4

𝜎 = 𝑀

⁻¹

∙ (∑(𝑢

_𝑦²

+ (2𝑎𝑥 + 𝑏)

²

∙ 𝑢

_𝑥²

) [

𝑥

⁴

𝑥

³

𝑥

²

𝑥

³

𝑥

²

𝑥 𝑥

²

𝑥 1

]) ∙ 𝑀

⁻¹

Si les incertitudes sont identiques pour tous les x et y, le résultat reste moins simple que pour le

cas linéaire.

(4)

4 Estimation des incertitudes selon x et selon y

 On suppose que les mesures des x et y ont des incertitudes de mesure individuelles respectives 𝑢

_𝑥𝑖0

et 𝑢

_𝑦𝑖0

 On réalise la régression y=f(x) selon l’un des trois procédés donnés plus haut et on détermine les coefficients

 On calcule les écarts à la droite pour chaque échantillon

𝜀

_𝑖

= 𝑥

_𝑖

− 𝑓

⁻¹

(𝑦

_𝑖

) 𝜇

_𝑖

= 𝑦

_𝑖

− 𝑓(𝑥

_𝑖

)

f

^-1

est la réciproque de f. Dans le cas de la régression linéaire standard (la seconde régression) on a :

𝜀

_𝑖

= 𝑥

_𝑖

− 𝑦

_𝑖

− 𝑏

Pour la première régression, il suffit de faire b=0 dans la formule précédente. Pour la troisième 𝑎 régression (quadratique), il faut résoudre une équation du second degré.

 On construit les écarts-types (expérimentaux) 𝜎

𝜀

et 𝜎

𝜇

 On a alors :

𝑢

_𝑥𝑖²

= 𝑢

_𝑥𝑖0²

+ 𝜎

_𝜀²

𝑢

_𝑦𝑖²

= 𝑢

_𝑦𝑖0²

+ 𝜎

_𝜇²