• Aucun résultat trouvé

Algèbre linéaire Applications à la modélisation des données

N/A
N/A
Protected

Academic year: 2022

Partager "Algèbre linéaire Applications à la modélisation des données"

Copied!
48
0
0

Texte intégral

(1)

Algèbre linéaire

Applications à la modélisation des données

MNCS – Jean Hare, Noé Lahaye

Université Pierre et Marie CURIE

Méthodes numériques pour le calcul scientifique

12 mars 2013

-1.0 -0.5 0.0 0.5 1.0

-1.0 -0.5 0.0 0.5 1.0

(2)

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(3)

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(4)

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(5)

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(6)

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(7)

Introduction

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(8)

Introduction

Optimisation

Optimisation : thématique transversale des mathématiques.

Applications dans toutes les disciplines : Sciences

Economie

Recherche opérationelle (contraintes techniques, coûts

variables/incompresibles ⇒fixer unensemble de paramètres pour maximiser un bénéfice sur divers produits.)

Exemple usuel : raffinerie de pétrole qui doit optimiser sa production de différentes fractions en fonction :

de l’approvisionnement et de la composition pétroles bruts disponibles de la demande et du prix de vente des différents sous-produits des contraintes techniques de fonctionnement (chimie, stockage)

Dans ce cours nous nous limiterons au problème physique des ajustements dedonnées expérimentales par des fonctions appelées «modèle», et utilisant les méthodes de l’algèbre linéaire.

(9)

Introduction

Optimisation

Optimisation : thématique transversale des mathématiques.

Applications dans toutes les disciplines : Sciences

Economie

Recherche opérationelle (contraintes techniques, coûts

variables/incompresibles ⇒fixer unensemble de paramètres pour maximiser un bénéfice sur divers produits.)

Exemple usuel : raffinerie de pétrole qui doit optimiser sa production de différentes fractions en fonction :

de l’approvisionnement et de la composition pétroles bruts disponibles de la demande et du prix de vente des différents sous-produits des contraintes techniques de fonctionnement (chimie, stockage)

Dans ce cours nous nous limiterons au problème physique desajustements dedonnées expérimentales par des fonctions appelées «modèle», et

(10)

Introduction

Position du problème : ajustement

Exemple :

Ensemble deN points« expérimentaux » {(xi,yi, σi)},i∈ {1, . . .N}.

Précision limitée (déviation standard σi ↔ barre d’erreur sur yi).

Objectif : vérifier une loi physique (ou autre) et déterminer aussi bien que possible M paramètrespj,j ∈ {1, . . .M}qui caractérisent cette loi.

On suppose que les points devraient vérifier le modèle:

y(x) =f(x,p1. . .pM) =f(x,#»p) , (1) (#»p : vecteur àM composantes des paramètres).

NB : La fonction modèlef est souvent notéeyth, voire y tout court.

(11)

Analyse du problème

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(12)

Analyse du problème Approche générale

Équations sur-déterminées

Points de mesures⇔ déterminations ±exactes des paramètres #»p du modèle.

Problème :N équations v.s. M paramètres avec N M (en général)

=⇒ Équations sur-déterminées et souventincompatibles.

Exemple : cas linéaire→ résolution d’un système deN équations à M inconnues de la forme :

A·p=b

(A : matrice rectangulaireN ×M). En général : pas de solution.

« Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap−b, mais àminimiser sa normekA·p−bk, par des méthodes directes ou itératives selon la nature du problème.

Cette approche doit être justifiée par une analyse statistiquedu problème.

(13)

Analyse du problème Approche générale

Équations sur-déterminées

Points de mesures⇔ déterminations ±exactes des paramètres #»p du modèle.

Problème :N équations v.s. M paramètres avec N M (en général)

=⇒ Équations sur-déterminées et souventincompatibles.

Exemple : cas linéaire→ résolution d’un système deN équations à M inconnues de la forme :

A·p=b

(A : matrice rectangulaireN ×M). En général : pas de solution.

« Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap−b, mais àminimiser sa normekA·p−bk, par des méthodes directes ou itératives selon la nature du problème.

Cette approche doit être justifiée par une analyse statistiquedu problème.

(14)

Analyse du problème Approche générale

Équations sur-déterminées

Points de mesures⇔ déterminations ±exactes des paramètres #»p du modèle.

Problème :N équations v.s. M paramètres avec N M (en général)

=⇒ Équations sur-déterminées et souventincompatibles.

Exemple : cas linéaire→ résolution d’un système deN équations à M inconnues de la forme :

A·p=b

(A : matrice rectangulaireN ×M). En général : pas de solution.

« Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap−b, mais àminimiser sa normekA·p−bk, par des méthodes directes ou itératives selon la nature du problème.

Cette approche doit être justifiée par une analyse statistiquedu problème.

(15)

Analyse du problème Approche statistique

Déviations

Typiquement, on suppose qu’il existe un jeu de valeurs #»pv des paramètres tel que :

yi =f(xi,pv) +i (2) où lesdéviationsi résultent

de bruit sur les signaux, d’un léger écart au modèle (effets non pris en compte), des incertitudes introduites dans le processus de mesure.

0 0.5 1 1.5 2

3 4 5 6 7 8

x y

NB : Les points de mesure xi sont supposés connus parfaitement.

(16)

Analyse du problème Approche statistique

Probabilité conditionnelle et vraisemblance

Hypothèses : déviations i sur les yi = variables aléatoires indépendantes

distribution loi normale centrée, écart-typeσi. P y1,· · ·yNp∝exp

"

−1 2

N

X

i=1

yif(xi,p) σi

2# .

Valeurs des paramètres «les plus vraisemblables» ↔

fonction vraisemblance(likelihood) maximale. L #»py1,· · ·yN←→ P y1,· · ·yNp. (3) Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette

identification est justifiée (et il n’est alors pas nécessaire que les i suivent une loi normale), mais c’est évidement faux dans le cas général.

Le théorème de Bayes assure queP(y1,· · ·yN|p)

P(p|y1,· · ·yN)

=P(y1,· · ·yN)

P(p), rapport qui n’a aucune raison d’être constant.

(17)

Analyse du problème Approche statistique

Probabilité conditionnelle et vraisemblance

Hypothèses : déviations i sur les yi = variables aléatoires indépendantes

distribution loi normale centrée, écart-typeσi. P y1,· · ·yNp∝exp

"

−1 2

N

X

i=1

yif(xi,p) σi

2# .

Valeurs des paramètres «les plus vraisemblables» ↔

fonction vraisemblance(likelihood) maximale.

L #»py1,· · ·yN←→ P y1,· · ·yNp. (3)

Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette identification est justifiée (et il n’est alors pas nécessaire que les i suivent une loi normale), mais c’est évidement faux dans le cas général.

Le théorème de Bayes assure queP(y1,· · ·yN|p)

P(p|y1,· · ·yN)

=P(y1,· · ·yN)

P(p), rapport qui n’a aucune raison d’être constant.

(18)

Analyse du problème Approche statistique

Probabilité conditionnelle et vraisemblance

Hypothèses : déviations i sur les yi = variables aléatoires indépendantes

distribution loi normale centrée, écart-typeσi. P y1,· · ·yNp∝exp

"

−1 2

N

X

i=1

yif(xi,p) σi

2# .

Valeurs des paramètres «les plus vraisemblables» ↔

fonction vraisemblance(likelihood) maximale.

L #»py1,· · ·yN←→ P y1,· · ·yNp. (3) Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette

identification est justifiée (et il n’est alors pas nécessaire que les i suivent une loi normale), mais c’est évidement faux dans le cas général.

Le théorème de Bayes assure queP(y1,· · ·yN|p)

P(p|y1,· · ·yN)

=P(y1,· · ·yN)

P(p), rapport qui n’a aucune raison d’être constant.

(19)

Analyse du problème Moindres carrés

Maximum de vraisemblance et moindres carrés

Les meilleures valeurs de #»p, notées #»pa,maximisent la vraisemblanceL, soit encore minimisent l’erreur totale :

E(#»p) =

N

X

i=1

i

σi 2

=

N

X

i=1

yif(xi,p) σi

2

. (4)

Dans l’hypothèse où les déviations sont des variables normales centrées, elle a la structure d’unχ2 (cfcours et TE de statistiques).

Elle est très souvent abusivement appelée « chi2 » (χ2), alors qu’elle n’y correspond – au mieux – qu’au point #»pa pour lequel on suppose que la valeur moyenne des déviations normalisées est nulle.

(20)

Analyse du problème Moindres carrés

Équations normales

Minimum recherché #»pa : point où le gradient deE s’annule.

=⇒ équations normales :

N

X

i=1

yif(xi,pa) σ2i

∂f(xi,pa)

∂pk

= 0, k= 1, . . . ,M (5)

Résolution de ces équations →valeurs de #»pa qui, si le modèle est valide, rendent le mieux compte des données→ détermination de la « vraie » valeur #»pv.

« Ajustement »des données par les moindres carrésou“least squares best fit” oufittout court.

(21)

Analyse du problème Moindres carrés

Linéaire vs non-linéaire

Deux situations à distinguer :

1 Cas particulier : fonctionf(x,#»p) linéaire vis à vis des paramètres pj.

∂f(x∂pi,pa)

k =cste (par rapport à #»p)

→ système des équations normaleslinéaire : peut être résolu simplement .

2 Cas général :f(x,p1. . .pM) est une fonction non-linéaire des paramètrespj.

Le système est non-linéaire, et il faut trouver une autre méthode,

→ fondamentalement une méthode itérative.

(22)

Ajustement linéaire

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(23)

Ajustement linéaire Régression linéaire

Régression linéaire : équations normales

Cas le plus simple et le plus important : modèle linéaire vis à vis des paramètres et des données :

f(x,#»p) =a+b x (6) d’où

H

HHH

χ2(#»p) =E(#»p) =

N

X

i=1

yiabxi σi

2

où #»p = (a,b). (7) Ce qui conduit aux équations :

∂E

∂a = 0⇒

N

X

i=1

yiabxi σi2 = 0

∂E

∂b = 0⇒

N

X

i=1

xi yiabxi σi2 = 0

(8)

(24)

Ajustement linéaire Régression linéaire

Régression linéaire : résolution

En développant, on est conduit à définir les 6 sommes : S =PNi=1 σ12

i

Sx =PNi=1σxi2 i

Sy =PNi=1σyi2 i

Sxy =PNi=1 xiyi

σ2i Sxx =PNi=1xi2

σi2 Syy =PNi=1 yi2

σ2i

dont l’interprétation en termes de moyennes et de variance est très claire.

Il vient alors :

(aS +bSx =Sy

aSx+bSxx =Sxy d’où

a = SxxSySxSxy

b= SSxySxSy

(9)

où∆ =S Sxx−(Sx)2 est le déterminant du système et – àS près – la variance desxi.

(25)

Ajustement linéaire Régression linéaire

Qualité de la régression : variances/covariances de a et b

Résidus ri :

ri =yif(xi,pa) PN

i=1ri2χ2 à NM =N −2 degrès de liberté Variances et covariances de a et b:

Var(a) = Sxx

∆ Var(b) = S

∆ Cov(a,b) =Sx

. (10) La covariance de a et best généralement rapportée à la variance de a et deb pour définir lecoefficient de corrélation dea etb :

Rab = Cov(a,b) σaσb

=− Sx

S Sxx

On a −1<Rab <1, et il doit être aussi petit que possible en valeur absolue.

(26)

Ajustement linéaire Régression linéaire

Qualité de la régression : coefficient de corrélation linéaire

Réécriture du modèle : x=a0+b0y hypothèses simplificatrices sur σi :

b0 = S SxySxSy S SyySy2 . Droites confondues ssi b×b0= 1, i.e. lecoefficient de corrélation linéaire :

r2 =b×b0 = Cov(x,y)/(σxσy)= 1 -10

0 10 20 30 40 50 60

0 5 10 15 20 25

x = 0.385 y + 2.500 y = 2.240 x - 2.397 R2=0.385 x 2.240=0.8624

La corrélation linéaire est donc appréciéequalitativementselon que r2 est plus ou moins proche de ±1.

(27)

Ajustement linéaire Cas linéaire général

Cas linéaire général

Modèle y=f(x,#»p) linéaire par rapport aux paramètres #»p : f(x,#»p) =

M

X

k=1

pkFk(x) , (11)

F1(x)· · ·FM(x) sontM fonctions quelconques de x.

La minimisation de E(#»p) =

N

X

i=1

yiPMk=1pkFk(xi) σi

!2

(12) donne lesM équations normales :

N

X

i=1

yiPMj=1pjFj(xi) σi

Fk(xi) σi

= 0 pour k= 1,· · ·M , (13)

(28)

Ajustement linéaire Cas linéaire général

Équations normales

En développant comme dans le cas 2-D, on obtient sous forme matricielle :

M

X

j=1

Akjpj =bk soit A·p=b (14) où les coefficients Akj de la matrice M×M symétrique A et les

composantes du vecteur-colonne b sont : Akj =

N

X

i=1

Fk(xi)Fj(xi)

σi2 et bk =

N

X

i=1

yiFk(xi)

σi2 (15)

Le vecteur des paramètres p peut alors être obtenu avec l’une des méthodes standard de résolution des systèmes linéaires, sous la forme :

p=A−1 ·b

(29)

Ajustement linéaire Cas linéaire général

Structure de A et B

Aij et bi peuvent se calculer à partir deGik =Fi(xk)/σk et Yk =ykk :

Aij =X

k

GikGjk bi =X

k

GikYk soit

(A=GtG

b=G Y donc p= GtG−1·G·Y de façon plus visuelle :

A=

G11 · · · · G1N

... ...

GM1· · · ·GMN

| {z }

tailleNM

G11...GM1

... ... ... ... ... ... G1N...GMN

| {z }

tailleMN

et b=

G11 · · · · G1N

... ...

GM1· · · ·GMN

| {z }

tailleNM

Y1

... ... ... YN

| {z }

taille1

NB : La matrice A (M×M) est évidement symétrique et définie positive

(30)

Ajustement linéaire La qualité du fit

Variances-covariances : méthode probabiliste

Une fois obtenue la solution, il faut savoir estimer sa qualité. Une première chose est de voir à quel point elle estcontrainte, en évaluant la

co-variance des paramètres: c’est la matrice C=A−1 qui les donne.

En effet, de p=C G Y ⇒pi =Pm,kCimGmkYk on tire :

Cov(pi,pj) =PM m,n=1

PN

k,l=1CimGmkCjnGnl Cov(Yk,Yl)

| {z }

δkl

=P

mnCimCjn P

kGnkGmk

| {z }

Amn

= [C A C]ij=Cij,

en utilisant successivement l’hypothèse d’indépendance des déviations {k}et la symétrie de A et donc de C.

Ce résultat s’appliquera de la même façon dans le cas non linéaire.

(31)

Ajustement linéaire La qualité du fit

Variances-covariances : méthode algébrique

Expression de la vraisemblance Lautour du point #»pa : en notant δp = #»p −#»pa, on a :

L(δ#»p)∝exp12 tδp·A·δp.

Décroît d’autant plus vite que A est grand (minimum très piqué).

Diagonalisation de A sous la forme A=tU·D·U (U orthogonale, D diagonale) → obtiention des paramètres qi, tels que #»q =Uδ#»p, indépendantset de moyenne nulle. On a alors :

L ∝QMi=1exp −12Diiqi2 ⇒ Var(qi) = 1/Dii .

En revenant aux paramètres pi, et en utilisant l’indépendance desqi, on obtient :

hδpi δpji=htU·D−1·Ui

ij =Cij

qui est le résultat énoncé précédemment.

(32)

Ajustement linéaire La qualité du fit

Variances-covariances : méthode algébrique

Expression de la vraisemblance Lautour du point #»pa : en notant δp = #»p −#»pa, on a :

L(δ#»p)∝exp12 tδp·A·δp.

Décroît d’autant plus vite que A est grand (minimum très piqué).

Diagonalisation de A sous la forme A=tU·D·U (U orthogonale, D diagonale) → obtiention des paramètres qi, tels que #»q =Uδ#»p, indépendantset de moyenne nulle. On a alors :

L ∝QMi=1exp −12Diiqi2 ⇒ Var(qi) = 1/Dii .

En revenant aux paramètres pi, et en utilisant l’indépendance desqi, on obtient :

hδpi δpji=htU·D−1·Ui

ij =Cij

qui est le résultat énoncé précédemment.

(33)

Ajustement linéaire La qualité du fit

Variances-covariances : méthode algébrique

Expression de la vraisemblance Lautour du point #»pa : en notant δp = #»p −#»pa, on a :

L(δ#»p)∝exp12 tδp·A·δp.

Décroît d’autant plus vite que A est grand (minimum très piqué).

Diagonalisation de A sous la forme A=tU·D·U (U orthogonale, D diagonale) → obtiention des paramètres qi, tels que #»q =Uδ#»p, indépendantset de moyenne nulle. On a alors :

L ∝QMi=1exp −12Diiqi2 ⇒ Var(qi) = 1/Dii .

En revenant aux paramètres pi, et en utilisant l’indépendance desqi, on obtient :

hδpi δpji=htU·D−1·Ui

ij =Cij

(34)

Cas Non-Linéaire

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(35)

Cas Non-Linéaire Généralités

Cas non-linéaire : approche générale

Cas général. Exemple : lorentzienne ou gaussienne (largeurw est un paramètre de l’ajustement).

Problème : dans les équations normales :

N

X

i=1

yif(xi,pa) σi2

∂f(xi,pa)

∂pk = 0,

les dérivées partielles∂f(xi,p)/∂pk dépendent du point considéré dans l’espace des paramètres.

Méthodesitératives : diminution progressive de E(#»p) jusqu’à obtenir un minimum local.

(36)

Cas Non-Linéaire Généralités

Méthode itérative : principe

Valeur initiale #»p(0) (“guess”)−→ #»p(1),· · ·#»p(n). Arrêt lorsque E(#»p(n)) cesse de diminuer→ Critère de convergence :

06E(#»pn)− E(#»pn+1)6ηtol.ηtol. Ep(n) . (16) Difficultés :

Convergence vers minimum localdénué de sens← choix de #»p(0) pertinent, méthode bien adaptée s’il y a beaucoup de minima locaux possibles.

E(#»p) peut présenter des vallées dans lesquelles on descend très vite, et où ensuite la progression esttrès lente (méandres).

Nombre très élevé d’évaluations de la fonction f et de ses dérivées, très coûteuse en temps de calcul si N est important.

Cela est d’autant plus probable que le nombre M de paramètres est élevé.

On procède alors par étapes en faisant varier certains paramètres seulement.

(37)

Cas Non-Linéaire Généralités

La méthode du gradient

Méthode la plus simple : déplacement

δp = #»pn+1−#»pn dans la direction du gradient de E, qui définit la plus grande pente(“steepest descent”) deE(#»p):

δp =−γ∇E(#»pn) (γ ∈IR+) , Le gradient est défini par ses composantes∂E/∂pk (termes à gauche dans les équations normales, à un facteur -2 près).

051015200

2

4

6

810

Cette méthode est assez robuste si le pas est assez petit, mais dans ce cas elle converge très lentement.

(38)

Cas Non-Linéaire Généralités

Gradient : le choix du pas

0 5 10 15 20

0 2 4 6 10 8

Ni la minimisation en ligne ni la méthode à petits pas ne sont efficaces.

(39)

Cas Non-Linéaire Généralités

La hessienne

Gain de temps : considération de la courbure localepour choisir la direction deδp, via lahessienne:

[H(#»p)]kl = 2E(#»p)

∂pk∂pl

= 2

M

X

i=N

1 σi2

∂f(xi,p)

∂pk

∂f(xi,p)

∂pl −(yif(xi,p))2f(xi,p)

∂pk∂pl

!

C’est son anisotropiequi est le principal responsable de la lenteur de convergence de la méthode du gradient.

(40)

Cas Non-Linéaire Généralités

Prise en compte de la courbure

En faisant un développement limité de E(#»p) autour de #»p(n) : E(#»p)≈ E(#»p(n)) +∇E(#»p(n)δp +1

2

tδp ·H·δp +· · · , (17) En dérivant, le gradient au point #»p(n+1)= #»p(n)+δp s’écrit :

∇E(#»p(n+1)) =∇E(#»p(n)) +H·δp Pour qu’il s’annule, il faut choisir δp tel que :

∇E(#»p(n)) +H·δp = 0 ⇔ δp =−H−1· ∇E(#»p(n)). (18) Si E quadratique→ solution direct.

(cas linéaire : H= 2A, ∇E =−b, indépendantes du point #»p considéré.

Cette solution est bien plus rapide lorsqu’on est assez proche d’un minimum, (i.e. au fond de la vallée).

(41)

Cas Non-Linéaire Généralités

Illustration à une dimension

x

1

x

0

x

2

(42)

Cas Non-Linéaire Généralités

La méthode du gradient conjugué

Elle consiste à faire des « pas » ou

incréments ∆#»p dans la direction du δp tel que défini par l’équation (18).

Elle est ainsi nommée car la surface de niveau et l’incrément sont « conjugués »,i.e.

ne sont pas orthogonaux pour le produit scalaire normal, mais pour la forme quadratique H, soit :

u · ∇E = 0 ⇒ tδp H #»u = 0 . Elle a le mérite de progresser dans la

« bonne » direction, et conduit à une convergence rapide si l’approximation quadratique (17) est adaptée.

gradient conjugue´

gradient

Comparaison des méthodes du gradient et du gradient conjugué

(43)

Cas Non-Linéaire Généralités

Taille des pas et choix de la méthode

Choix de la taille des pas← courbure : Par ex. : γiα/Hii, α <1 .

N.B. : Facteur γi différent dans chaque direction.

Dans ces conditions :

Laméthode du gradient est plus sûrequand on est loin de l’optimum car l’approximation quadratique est alors grossière.

Laméthode du gradient conjugué est plusrapidelorsqu’on s’approche du minimum, car l’approximation quadratique est alors bien meilleure.

NB : Combinaison des deux méthodes (descente dans vallée puis progression rapide) =⇒ Levenberg-Marquardt

(44)

Cas Non-Linéaire Méthode du gradient conjugué

Méthode du gradient conjugué : les équations

Si les déviations k =ykf(xk,p) sont petites, indépendantes et dispersées selon une loi normale centrée, la contribution à H des termes en 2f

∂pk∂pl est négligeable.

Ondéfinitalors la matrice A et le vecteur B comme suit : A=GtG , b=G E où Gik = 1

σk

∂f(xk,p)

∂pi et Ek = k

σk (19)

Parallélisme avec la méthode dans le cas linéaire. A et b dépendent du point considéré mais tendent assez vite vers leur valeur au minimum.

(45)

Cas Non-Linéaire Méthode du gradient conjugué

Méthode du gradient conjugué : l’algorithme

Les itérations sont alors effectuées comme suit :

1 Choisirune valeur initialep(0) et évaluerE(#»p(0)).

2 Au point #»p(n),évaluer A, b etrésoudre l’équation Aδp=b.

3 Prendre #»p(n+1)= #»p(n)+δp.

4 Tester la convergence : siE ne diminue plus, c’est à dire si 0<E(#»p(n))− E(#»p(n+1))< η1,

on peutarrêterles itérations. Sinon,retourner en (2).

Variante : Méthode plus robuste avecδpγδp, 0< γ <1 et contrôle deγ en fonction de l’évolution deE à chaque itération.

(46)

Qualité de l’ajustement : cas général

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(47)

Qualité de l’ajustement : cas général

Critères d’évaluation de la qualité de l’ajustement

Matricevariances-covariances : A−1. Evalue lacontraintede l’ajustement.

Variances souvent très faible et non-significatives.

Attention aux covariances≡choix des paramètres.

Dépendance enx etdistribution

statistiquedes résidus→ vraisemblance du modèle et qualité de l’ajustement.

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6

-10 -5 0 5 10

x y

30

20

10

0

-50 0 50 x10-3

Lapertinence du modèle est enfin appréciée par letest duχ2 (erreur évaluée au minimum !), avec NM degrés de liberté, dont la fonction de

(48)

Qualité de l’ajustement : cas général

Test du χ

2

On calcule alors :

QN−M2 ,χ22= 1−γN−M2 ,χ22 ΓN−M2

,

Mesure la probabilité que des résidus (∝loi normale)donnent une valeur supérieure ou égale à la valeurχ2 obtenue.

Seuils à utiliser ←→risquetoléré.

Typiquement :Q>0.1→ confiance au modèle,Q∼0.01 valeur juste passable.

Note : valeur trop grande de χ2 (↔ trop faible deQ) ⇐=dispersionsσi

sous-évaluées(trop optimiste sur les barres d’erreur).

Références

Documents relatifs

le calcul num´erique des champs libre et adjoint (comme pour le champ de sensibilit´e topologique T 3 ( x s )) ainsi que celui de la fonction de Green.. Tous ces champs

Nous montrons que pour un système d'équations aux dérivées par- tielles quasi-linéaire, à coefficients holomorphes, régulier au sens de Cauchy-Kovalevski, généralisé

Temps de calcul mesuré sur un I5 (R) quad-core à 2.9 GHz sous linux 64 bits, pour le produit de 2 matrices aléatoires N×N en simple précision, via le produit « naïf », avec MATMUL

Temps de calcul pour le produit de 2 matrices aléatoires N×N en simple et double précision, à l’aide du produit « naïf », avec MATMUL et avec GEMM de openblas en

Définition : La diagonalisation d’une matrice carrée A de profil (N , N ) est une décomposition de la matrice sous la forme A = VDV −1 où D est une matrice diagonale et V une

Ces règles sont utiles pour décrire les opérations mathématiques, et pour éviter de faire un produit complet (en N 3 ) lorsque la matrice « opérante » est creuse, comme c’est le

La méthode du gradient conjugué est plus rapide lorsqu’on s’approche du minimum, car l’approximation quadratique est alors bien meilleure. NB : On peut donc chercher à combiner

Note there are two forms for expressing 'the worst': the irregular form le (la) pire and the more commonly used le (la) plus mauvais(e).. superlative of