Algèbre linéaire
Applications à la modélisation des données
MNCS – Jean Hare, Noé Lahaye
Université Pierre et Marie CURIE
Méthodes numériques pour le calcul scientifique
12 mars 2013
-1.0 -0.5 0.0 0.5 1.0
-1.0 -0.5 0.0 0.5 1.0
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Introduction
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Introduction
Optimisation
Optimisation : thématique transversale des mathématiques.
Applications dans toutes les disciplines : Sciences
Economie
Recherche opérationelle (contraintes techniques, coûts
variables/incompresibles ⇒fixer unensemble de paramètres pour maximiser un bénéfice sur divers produits.)
Exemple usuel : raffinerie de pétrole qui doit optimiser sa production de différentes fractions en fonction :
de l’approvisionnement et de la composition pétroles bruts disponibles de la demande et du prix de vente des différents sous-produits des contraintes techniques de fonctionnement (chimie, stockage)
Dans ce cours nous nous limiterons au problème physique des ajustements dedonnées expérimentales par des fonctions appelées «modèle», et utilisant les méthodes de l’algèbre linéaire.
Introduction
Optimisation
Optimisation : thématique transversale des mathématiques.
Applications dans toutes les disciplines : Sciences
Economie
Recherche opérationelle (contraintes techniques, coûts
variables/incompresibles ⇒fixer unensemble de paramètres pour maximiser un bénéfice sur divers produits.)
Exemple usuel : raffinerie de pétrole qui doit optimiser sa production de différentes fractions en fonction :
de l’approvisionnement et de la composition pétroles bruts disponibles de la demande et du prix de vente des différents sous-produits des contraintes techniques de fonctionnement (chimie, stockage)
Dans ce cours nous nous limiterons au problème physique desajustements dedonnées expérimentales par des fonctions appelées «modèle», et
Introduction
Position du problème : ajustement
Exemple :
Ensemble deN points« expérimentaux » {(xi,yi, σi)},i∈ {1, . . .N}.
Précision limitée (déviation standard σi ↔ barre d’erreur sur yi).
Objectif : vérifier une loi physique (ou autre) et déterminer aussi bien que possible M paramètrespj,j ∈ {1, . . .M}qui caractérisent cette loi.
On suppose que les points devraient vérifier le modèle:
y(x) =f(x,p1. . .pM) =f(x,#»p) , (1) (#»p : vecteur àM composantes des paramètres).
NB : La fonction modèlef est souvent notéeyth, voire y tout court.
Analyse du problème
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Analyse du problème Approche générale
Équations sur-déterminées
Points de mesures⇔ déterminations ±exactes des paramètres #»p du modèle.
Problème :N équations v.s. M paramètres avec N M (en général)
=⇒ Équations sur-déterminées et souventincompatibles.
Exemple : cas linéaire→ résolution d’un système deN équations à M inconnues de la forme :
A·p=b
(A : matrice rectangulaireN ×M). En général : pas de solution.
« Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap−b, mais àminimiser sa normekA·p−bk, par des méthodes directes ou itératives selon la nature du problème.
Cette approche doit être justifiée par une analyse statistiquedu problème.
Analyse du problème Approche générale
Équations sur-déterminées
Points de mesures⇔ déterminations ±exactes des paramètres #»p du modèle.
Problème :N équations v.s. M paramètres avec N M (en général)
=⇒ Équations sur-déterminées et souventincompatibles.
Exemple : cas linéaire→ résolution d’un système deN équations à M inconnues de la forme :
A·p=b
(A : matrice rectangulaireN ×M). En général : pas de solution.
« Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap−b, mais àminimiser sa normekA·p−bk, par des méthodes directes ou itératives selon la nature du problème.
Cette approche doit être justifiée par une analyse statistiquedu problème.
Analyse du problème Approche générale
Équations sur-déterminées
Points de mesures⇔ déterminations ±exactes des paramètres #»p du modèle.
Problème :N équations v.s. M paramètres avec N M (en général)
=⇒ Équations sur-déterminées et souventincompatibles.
Exemple : cas linéaire→ résolution d’un système deN équations à M inconnues de la forme :
A·p=b
(A : matrice rectangulaireN ×M). En général : pas de solution.
« Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap−b, mais àminimiser sa normekA·p−bk, par des méthodes directes ou itératives selon la nature du problème.
Cette approche doit être justifiée par une analyse statistiquedu problème.
Analyse du problème Approche statistique
Déviations
Typiquement, on suppose qu’il existe un jeu de valeurs #»pv des paramètres tel que :
yi =f(xi,#»pv) +i (2) où lesdéviationsi résultent
de bruit sur les signaux, d’un léger écart au modèle (effets non pris en compte), des incertitudes introduites dans le processus de mesure.
0 0.5 1 1.5 2
3 4 5 6 7 8
x y
NB : Les points de mesure xi sont supposés connus parfaitement.
Analyse du problème Approche statistique
Probabilité conditionnelle et vraisemblance
Hypothèses : déviations i sur les yi = variables aléatoires indépendantes
distribution loi normale centrée, écart-typeσi. P y1,· · ·yN#»p∝exp
"
−1 2
N
X
i=1
yi−f(xi,#»p) σi
2# .
Valeurs des paramètres «les plus vraisemblables» ↔
fonction vraisemblance(likelihood) maximale. L #»py1,· · ·yN←→ P y1,· · ·yN#»p. (3) Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette
identification est justifiée (et il n’est alors pas nécessaire que les i suivent une loi normale), mais c’est évidement faux dans le cas général.
Le théorème de Bayes assure queP(y1,· · ·yN|#»p)
P(#»p|y1,· · ·yN)
=P(y1,· · ·yN)
P(#»p), rapport qui n’a aucune raison d’être constant.
Analyse du problème Approche statistique
Probabilité conditionnelle et vraisemblance
Hypothèses : déviations i sur les yi = variables aléatoires indépendantes
distribution loi normale centrée, écart-typeσi. P y1,· · ·yN#»p∝exp
"
−1 2
N
X
i=1
yi−f(xi,#»p) σi
2# .
Valeurs des paramètres «les plus vraisemblables» ↔
fonction vraisemblance(likelihood) maximale.
L #»py1,· · ·yN←→ P y1,· · ·yN#»p. (3)
Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette identification est justifiée (et il n’est alors pas nécessaire que les i suivent une loi normale), mais c’est évidement faux dans le cas général.
Le théorème de Bayes assure queP(y1,· · ·yN|#»p)
P(#»p|y1,· · ·yN)
=P(y1,· · ·yN)
P(#»p), rapport qui n’a aucune raison d’être constant.
Analyse du problème Approche statistique
Probabilité conditionnelle et vraisemblance
Hypothèses : déviations i sur les yi = variables aléatoires indépendantes
distribution loi normale centrée, écart-typeσi. P y1,· · ·yN#»p∝exp
"
−1 2
N
X
i=1
yi−f(xi,#»p) σi
2# .
Valeurs des paramètres «les plus vraisemblables» ↔
fonction vraisemblance(likelihood) maximale.
L #»py1,· · ·yN←→ P y1,· · ·yN#»p. (3) Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette
identification est justifiée (et il n’est alors pas nécessaire que les i suivent une loi normale), mais c’est évidement faux dans le cas général.
Le théorème de Bayes assure queP(y1,· · ·yN|#»p)
P(#»p|y1,· · ·yN)
=P(y1,· · ·yN)
P(#»p), rapport qui n’a aucune raison d’être constant.
Analyse du problème Moindres carrés
Maximum de vraisemblance et moindres carrés
Les meilleures valeurs de #»p, notées #»pa,maximisent la vraisemblanceL, soit encore minimisent l’erreur totale :
E(#»p) =
N
X
i=1
i
σi 2
=
N
X
i=1
yi−f(xi,#»p) σi
2
. (4)
Dans l’hypothèse où les déviations sont des variables normales centrées, elle a la structure d’unχ2 (cfcours et TE de statistiques).
Elle est très souvent abusivement appelée « chi2 » (χ2), alors qu’elle n’y correspond – au mieux – qu’au point #»pa pour lequel on suppose que la valeur moyenne des déviations normalisées est nulle.
Analyse du problème Moindres carrés
Équations normales
Minimum recherché #»pa : point où le gradient deE s’annule.
=⇒ équations normales :
N
X
i=1
yi−f(xi,#»pa) σ2i
∂f(xi,#»pa)
∂pk
= 0, k= 1, . . . ,M (5)
Résolution de ces équations →valeurs de #»pa qui, si le modèle est valide, rendent le mieux compte des données→ détermination de la « vraie » valeur #»pv.
« Ajustement »des données par les moindres carrésou“least squares best fit” oufittout court.
Analyse du problème Moindres carrés
Linéaire vs non-linéaire
Deux situations à distinguer :
1 Cas particulier : fonctionf(x,#»p) linéaire vis à vis des paramètres pj.
⇒ ∂f(x∂pi,#»pa)
k =cste (par rapport à #»p)
→ système des équations normaleslinéaire : peut être résolu simplement .
2 Cas général :f(x,p1. . .pM) est une fonction non-linéaire des paramètrespj.
Le système est non-linéaire, et il faut trouver une autre méthode,
→ fondamentalement une méthode itérative.
Ajustement linéaire
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Ajustement linéaire Régression linéaire
Régression linéaire : équations normales
Cas le plus simple et le plus important : modèle linéaire vis à vis des paramètres et des données :
f(x,#»p) =a+b x (6) d’où
H
HHH
χ2(#»p) =E(#»p) =
N
X
i=1
yi−a−bxi σi
2
où #»p = (a,b). (7) Ce qui conduit aux équations :
∂E
∂a = 0⇒
N
X
i=1
yi −a−bxi σi2 = 0
∂E
∂b = 0⇒
N
X
i=1
xi yi−a−bxi σi2 = 0
(8)
Ajustement linéaire Régression linéaire
Régression linéaire : résolution
En développant, on est conduit à définir les 6 sommes : S =PNi=1 σ12
i
Sx =PNi=1σxi2 i
Sy =PNi=1σyi2 i
Sxy =PNi=1 xiyi
σ2i Sxx =PNi=1xi2
σi2 Syy =PNi=1 yi2
σ2i
dont l’interprétation en termes de moyennes et de variance est très claire.
Il vient alors :
(aS +bSx =Sy
aSx+bSxx =Sxy d’où
a = SxxSy−SxSxy
∆ b= SSxy−SxSy
∆
(9)
où∆ =S Sxx−(Sx)2 est le déterminant du système et – àS près – la variance desxi.
Ajustement linéaire Régression linéaire
Qualité de la régression : variances/covariances de a et b
Résidus ri :
ri =yi−f(xi,#»pa) PN
i=1ri2 →χ2 à N −M =N −2 degrès de liberté Variances et covariances de a et b:
Var(a) = Sxx
∆ Var(b) = S
∆ Cov(a,b) =−Sx
∆ . (10) La covariance de a et best généralement rapportée à la variance de a et deb pour définir lecoefficient de corrélation dea etb :
Rab = Cov(a,b) σaσb
=− Sx
√S Sxx
On a −1<Rab <1, et il doit être aussi petit que possible en valeur absolue.
Ajustement linéaire Régression linéaire
Qualité de la régression : coefficient de corrélation linéaire
Réécriture du modèle : x=a0+b0y hypothèses simplificatrices sur σi :
b0 = S Sxy−SxSy S Syy−Sy2 . Droites confondues ssi b×b0= 1, i.e. lecoefficient de corrélation linéaire :
r2 =b×b0 = Cov(x,y)/(σxσy)= 1 -10
0 10 20 30 40 50 60
0 5 10 15 20 25
x = 0.385 y + 2.500 y = 2.240 x - 2.397 R2=0.385 x 2.240=0.8624
La corrélation linéaire est donc appréciéequalitativementselon que r2 est plus ou moins proche de ±1.
Ajustement linéaire Cas linéaire général
Cas linéaire général
Modèle y=f(x,#»p) linéaire par rapport aux paramètres #»p : f(x,#»p) =
M
X
k=1
pkFk(x) , (11)
oùF1(x)· · ·FM(x) sontM fonctions quelconques de x.
La minimisation de E(#»p) =
N
X
i=1
yi−PMk=1pkFk(xi) σi
!2
(12) donne lesM équations normales :
N
X
i=1
yi−PMj=1pjFj(xi) σi
Fk(xi) σi
= 0 pour k= 1,· · ·M , (13)
Ajustement linéaire Cas linéaire général
Équations normales
En développant comme dans le cas 2-D, on obtient sous forme matricielle :
M
X
j=1
Akjpj =bk soit A·p=b (14) où les coefficients Akj de la matrice M×M symétrique A et les
composantes du vecteur-colonne b sont : Akj =
N
X
i=1
Fk(xi)Fj(xi)
σi2 et bk =
N
X
i=1
yiFk(xi)
σi2 (15)
Le vecteur des paramètres p peut alors être obtenu avec l’une des méthodes standard de résolution des systèmes linéaires, sous la forme :
p=A−1 ·b
Ajustement linéaire Cas linéaire général
Structure de A et B
Aij et bi peuvent se calculer à partir deGik =Fi(xk)/σk et Yk =yk/σk :
Aij =X
k
GikGjk bi =X
k
GikYk soit
(A=GtG
b=G Y donc p= GtG−1·G·Y de façon plus visuelle :
A=
G11 · · · · G1N
... ...
GM1· · · ·GMN
| {z }
tailleNM
G11...GM1
... ... ... ... ... ... G1N...GMN
| {z }
tailleMN
et b=
G11 · · · · G1N
... ...
GM1· · · ·GMN
| {z }
tailleNM
Y1
... ... ... YN
| {z }
taille1
NB : La matrice A (M×M) est évidement symétrique et définie positive
Ajustement linéaire La qualité du fit
Variances-covariances : méthode probabiliste
Une fois obtenue la solution, il faut savoir estimer sa qualité. Une première chose est de voir à quel point elle estcontrainte, en évaluant la
co-variance des paramètres: c’est la matrice C=A−1 qui les donne.
En effet, de p=C G Y ⇒pi =Pm,kCimGmkYk on tire :
⇒Cov(pi,pj) =PM m,n=1
PN
k,l=1CimGmkCjnGnl Cov(Yk,Yl)
| {z }
δkl
=P
mnCimCjn P
kGnkGmk
| {z }
Amn
= [C A C]ij=Cij,
en utilisant successivement l’hypothèse d’indépendance des déviations {k}et la symétrie de A et donc de C.
Ce résultat s’appliquera de la même façon dans le cas non linéaire.
Ajustement linéaire La qualité du fit
Variances-covariances : méthode algébrique
Expression de la vraisemblance Lautour du point #»pa : en notant δ#»p = #»p −#»pa, on a :
L(δ#»p)∝exp−12 tδp·A·δp.
Décroît d’autant plus vite que A est grand (minimum très piqué).
Diagonalisation de A sous la forme A=tU·D·U (U orthogonale, D diagonale) → obtiention des paramètres qi, tels que #»q =Uδ#»p, indépendantset de moyenne nulle. On a alors :
L ∝QMi=1exp −12Diiqi2 ⇒ Var(qi) = 1/Dii .
En revenant aux paramètres pi, et en utilisant l’indépendance desqi, on obtient :
hδpi δpji=htU·D−1·Ui
ij =Cij
qui est le résultat énoncé précédemment.
Ajustement linéaire La qualité du fit
Variances-covariances : méthode algébrique
Expression de la vraisemblance Lautour du point #»pa : en notant δ#»p = #»p −#»pa, on a :
L(δ#»p)∝exp−12 tδp·A·δp.
Décroît d’autant plus vite que A est grand (minimum très piqué).
Diagonalisation de A sous la forme A=tU·D·U (U orthogonale, D diagonale) → obtiention des paramètres qi, tels que #»q =Uδ#»p, indépendantset de moyenne nulle. On a alors :
L ∝QMi=1exp −12Diiqi2 ⇒ Var(qi) = 1/Dii .
En revenant aux paramètres pi, et en utilisant l’indépendance desqi, on obtient :
hδpi δpji=htU·D−1·Ui
ij =Cij
qui est le résultat énoncé précédemment.
Ajustement linéaire La qualité du fit
Variances-covariances : méthode algébrique
Expression de la vraisemblance Lautour du point #»pa : en notant δ#»p = #»p −#»pa, on a :
L(δ#»p)∝exp−12 tδp·A·δp.
Décroît d’autant plus vite que A est grand (minimum très piqué).
Diagonalisation de A sous la forme A=tU·D·U (U orthogonale, D diagonale) → obtiention des paramètres qi, tels que #»q =Uδ#»p, indépendantset de moyenne nulle. On a alors :
L ∝QMi=1exp −12Diiqi2 ⇒ Var(qi) = 1/Dii .
En revenant aux paramètres pi, et en utilisant l’indépendance desqi, on obtient :
hδpi δpji=htU·D−1·Ui
ij =Cij
Cas Non-Linéaire
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Cas Non-Linéaire Généralités
Cas non-linéaire : approche générale
Cas général. Exemple : lorentzienne ou gaussienne (largeurw est un paramètre de l’ajustement).
Problème : dans les équations normales :
N
X
i=1
yi −f(xi,#»pa) σi2
∂f(xi,#»pa)
∂pk = 0,
les dérivées partielles∂f(xi,#»p)/∂pk dépendent du point considéré dans l’espace des paramètres.
Méthodesitératives : diminution progressive de E(#»p) jusqu’à obtenir un minimum local.
Cas Non-Linéaire Généralités
Méthode itérative : principe
Valeur initiale #»p(0) (“guess”)−→ #»p(1),· · ·#»p(n). Arrêt lorsque E(#»p(n)) cesse de diminuer→ Critère de convergence :
06E(#»pn)− E(#»pn+1)6ηtol. où ηtol. E#»p(n) . (16) Difficultés :
Convergence vers minimum localdénué de sens← choix de #»p(0) pertinent, méthode bien adaptée s’il y a beaucoup de minima locaux possibles.
E(#»p) peut présenter des vallées dans lesquelles on descend très vite, et où ensuite la progression esttrès lente (méandres).
Nombre très élevé d’évaluations de la fonction f et de ses dérivées, très coûteuse en temps de calcul si N est important.
Cela est d’autant plus probable que le nombre M de paramètres est élevé.
On procède alors par étapes en faisant varier certains paramètres seulement.
Cas Non-Linéaire Généralités
La méthode du gradient
Méthode la plus simple : déplacement
δ#»p = #»pn+1−#»pn dans la direction du gradient de E, qui définit la plus grande pente(“steepest descent”) deE(#»p):
δ#»p =−γ∇E(#»pn) (γ ∈IR+) , Le gradient est défini par ses composantes∂E/∂pk (termes à gauche dans les équations normales, à un facteur -2 près).
051015200
2
4
6
810
Cette méthode est assez robuste si le pas est assez petit, mais dans ce cas elle converge très lentement.
Cas Non-Linéaire Généralités
Gradient : le choix du pas
0 5 10 15 20
0 2 4 6 10 8
Ni la minimisation en ligne ni la méthode à petits pas ne sont efficaces.
Cas Non-Linéaire Généralités
La hessienne
Gain de temps : considération de la courbure localepour choisir la direction deδ#»p, via lahessienne:
[H(#»p)]kl = ∂2E(#»p)
∂pk∂pl
= 2
M
X
i=N
1 σi2
∂f(xi,#»p)
∂pk
∂f(xi,#»p)
∂pl −(yi−f(xi,#»p))∂2f(xi,#»p)
∂pk∂pl
!
C’est son anisotropiequi est le principal responsable de la lenteur de convergence de la méthode du gradient.
Cas Non-Linéaire Généralités
Prise en compte de la courbure
En faisant un développement limité de E(#»p) autour de #»p(n) : E(#»p)≈ E(#»p(n)) +∇E(#»p(n))·δ#»p +1
2
tδ#»p ·H·δ#»p +· · · , (17) En dérivant, le gradient au point #»p(n+1)= #»p(n)+δ#»p s’écrit :
∇E(#»p(n+1)) =∇E(#»p(n)) +H·δ#»p Pour qu’il s’annule, il faut choisir δ#»p tel que :
∇E(#»p(n)) +H·δ#»p = 0 ⇔ δ#»p =−H−1· ∇E(#»p(n)). (18) Si E quadratique→ solution direct.
(cas linéaire : H= 2A, ∇E =−b, indépendantes du point #»p considéré.
Cette solution est bien plus rapide lorsqu’on est assez proche d’un minimum, (i.e. au fond de la vallée).
Cas Non-Linéaire Généralités
Illustration à une dimension
x
1x
0x
2Cas Non-Linéaire Généralités
La méthode du gradient conjugué
Elle consiste à faire des « pas » ou
incréments ∆#»p dans la direction du δ#»p tel que défini par l’équation (18).
Elle est ainsi nommée car la surface de niveau et l’incrément sont « conjugués »,i.e.
ne sont pas orthogonaux pour le produit scalaire normal, mais pour la forme quadratique H, soit :
#»u · ∇E = 0 ⇒ tδ#»p H #»u = 0 . Elle a le mérite de progresser dans la
« bonne » direction, et conduit à une convergence rapide si l’approximation quadratique (17) est adaptée.
gradient conjugue´
gradient
Comparaison des méthodes du gradient et du gradient conjugué
Cas Non-Linéaire Généralités
Taille des pas et choix de la méthode
Choix de la taille des pas← courbure : Par ex. : γi ≈α/Hii, α <1 .
N.B. : Facteur γi différent dans chaque direction.
Dans ces conditions :
Laméthode du gradient est plus sûrequand on est loin de l’optimum car l’approximation quadratique est alors grossière.
Laméthode du gradient conjugué est plusrapidelorsqu’on s’approche du minimum, car l’approximation quadratique est alors bien meilleure.
NB : Combinaison des deux méthodes (descente dans vallée puis progression rapide) =⇒ Levenberg-Marquardt
Cas Non-Linéaire Méthode du gradient conjugué
Méthode du gradient conjugué : les équations
Si les déviations k =yk−f(xk,#»p) sont petites, indépendantes et dispersées selon une loi normale centrée, la contribution à H des termes en ∂2f
∂pk∂pl est négligeable.
Ondéfinitalors la matrice A et le vecteur B comme suit : A=GtG , b=G E où Gik = 1
σk
∂f(xk,#»p)
∂pi et Ek = k
σk (19)
Parallélisme avec la méthode dans le cas linéaire. A et b dépendent du point considéré mais tendent assez vite vers leur valeur au minimum.
Cas Non-Linéaire Méthode du gradient conjugué
Méthode du gradient conjugué : l’algorithme
Les itérations sont alors effectuées comme suit :
1 Choisirune valeur initiale #»p(0) et évaluerE(#»p(0)).
2 Au point #»p(n),évaluer A, b etrésoudre l’équation Aδp=b.
3 Prendre #»p(n+1)= #»p(n)+δ#»p.
4 Tester la convergence : siE ne diminue plus, c’est à dire si 0<E(#»p(n))− E(#»p(n+1))< η1,
on peutarrêterles itérations. Sinon,retourner en (2).
Variante : Méthode plus robuste avecδ#»p ←γδ#»p, 0< γ <1 et contrôle deγ en fonction de l’évolution deE à chaque itération.
Qualité de l’ajustement : cas général
Sommaire
1 Introduction
2 Analyse du problème Approche générale Approche statistique Moindres carrés
3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit
4 Cas Non-Linéaire Généralités
Méthode du gradient conjugué
5 Qualité de l’ajustement : cas général
Qualité de l’ajustement : cas général
Critères d’évaluation de la qualité de l’ajustement
Matricevariances-covariances : A−1. Evalue lacontraintede l’ajustement.
Variances souvent très faible et non-significatives.
Attention aux covariances≡choix des paramètres.
Dépendance enx etdistribution
statistiquedes résidus→ vraisemblance du modèle et qualité de l’ajustement.
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6
-10 -5 0 5 10
x y
30
20
10
0
-50 0 50 x10-3
Lapertinence du modèle est enfin appréciée par letest duχ2 (erreur évaluée au minimum !), avec N −M degrés de liberté, dont la fonction de
Qualité de l’ajustement : cas général
Test du χ
2On calcule alors :
QN−M2 ,χ22= 1−γN−M2 ,χ22 ΓN−M2
,
Mesure la probabilité que des résidus (∝loi normale)donnent une valeur supérieure ou égale à la valeurχ2 obtenue.
Seuils à utiliser ←→risquetoléré.
Typiquement :Q>0.1→ confiance au modèle,Q∼0.01 valeur juste passable.
Note : valeur trop grande de χ2 (↔ trop faible deQ) ⇐=dispersionsσi
sous-évaluées(trop optimiste sur les barres d’erreur).