Algèbre linéaire Applications à la modélisation des données

(1)

Algèbre linéaire

Applications à la modélisation des données

MNCS – Jean Hare, Noé Lahaye

Université Pierre et Marie CURIE

Méthodes numériques pour le calcul scientifique

12 mars 2013

-1.0 -0.5 0.0 0.5 1.0

(2)

Sommaire

1 Introduction

2 Analyse du problème Approche générale Approche statistique Moindres carrés

3 Ajustement linéaire Régression linéaire Cas linéaire général La qualité du fit

4 Cas Non-Linéaire Généralités

Méthode du gradient conjugué

5 Qualité de l’ajustement : cas général

(3)

Sommaire

1 Introduction

(4)

Sommaire

1 Introduction

(5)

Sommaire

1 Introduction

(6)

Sommaire

1 Introduction

(7)

Introduction

Sommaire

1 Introduction

(8)

Introduction

Optimisation

Optimisation : thématique transversale des mathématiques.

Applications dans toutes les disciplines : Sciences

Economie

Recherche opérationelle (contraintes techniques, coûts

variables/incompresibles ⇒fixer unensemble de paramètres pour maximiser un bénéfice sur divers produits.)

Exemple usuel : raffinerie de pétrole qui doit optimiser sa production de différentes fractions en fonction :

de l’approvisionnement et de la composition pétroles bruts disponibles de la demande et du prix de vente des différents sous-produits des contraintes techniques de fonctionnement (chimie, stockage)

Dans ce cours nous nous limiterons au problème physique des ajustements dedonnées expérimentales par des fonctions appelées «modèle», et utilisant les méthodes de l’algèbre linéaire.

(9)

Introduction

Optimisation

Optimisation : thématique transversale des mathématiques.

Applications dans toutes les disciplines : Sciences

Economie

Recherche opérationelle (contraintes techniques, coûts

variables/incompresibles ⇒fixer unensemble de paramètres pour maximiser un bénéfice sur divers produits.)

Exemple usuel : raffinerie de pétrole qui doit optimiser sa production de différentes fractions en fonction :

de l’approvisionnement et de la composition pétroles bruts disponibles de la demande et du prix de vente des différents sous-produits des contraintes techniques de fonctionnement (chimie, stockage)

Dans ce cours nous nous limiterons au problème physique desajustements dedonnées expérimentales par des fonctions appelées «modèle», et

(10)

Introduction

Position du problème : ajustement

Exemple :

Ensemble deN points« expérimentaux » {(x_i,y_i, σi)},i∈ {1, . . .N}.

Précision limitée (déviation standard σ_i ↔ barre d’erreur sur y_i).

Objectif : vérifier une loi physique (ou autre) et déterminer aussi bien que possible M paramètresp_j,j ∈ {1, . . .M}qui caractérisent cette loi.

On suppose que les points devraient vérifier le modèle:

y(x) =f(x,p₁. . .p_M) =f(x,#»p) , (1) (#»p : vecteur àM composantes des paramètres).

NB : La fonction modèlef est souvent notéeyth, voire y tout court.

(11)

Analyse du problème

Sommaire

1 Introduction

(12)

Analyse du problème Approche générale

Équations sur-déterminées

Points de mesures⇔ déterminations ±exactes des paramètres #»p du modèle.

Problème :N équations v.s. M paramètres avec N M (en général)

=⇒ Équations sur-déterminées et souventincompatibles.

Exemple : cas linéaire→ résolution d’un système deN équations à M inconnues de la forme :

A·p=b

(A : matrice rectangulaireN ×M). En général : pas de solution.

« Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap−b, mais àminimiser sa normekA·p−bk, par des méthodes directes ou itératives selon la nature du problème.

Cette approche doit être justifiée par une analyse statistiquedu problème.

(13)

Équations sur-déterminées

A·p=b

(14)

Équations sur-déterminées

A·p=b

(15)

Analyse du problème Approche statistique

Déviations

Typiquement, on suppose qu’il existe un jeu de valeurs #»p^v des paramètres tel que :

y_i =f(x_i,#»p^v) +i (2) où lesdéviations_i résultent

de bruit sur les signaux, d’un léger écart au modèle (effets non pris en compte), des incertitudes introduites dans le processus de mesure.

0 0.5 1 1.5 2

3 4 5 6 7 8

x y

NB : Les points de mesure x_i sont supposés connus parfaitement.

(16)

Probabilité conditionnelle et vraisemblance

Hypothèses : déviations _i sur les y_i = variables aléatoires indépendantes

distribution loi normale centrée, écart-typeσ_i. P y₁,· · ·y_N#»p∝exp

"

−1 2

N

X

i=1

y_i−f(x_i,#»p) σ_i

2# .

Valeurs des paramètres «les plus vraisemblables» ↔

fonction vraisemblance(likelihood) maximale. L #»py₁,· · ·y_N←→ P y₁,· · ·y_N#»p. (3) Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette

identification est justifiée (et il n’est alors pas nécessaire que les _i suivent une loi normale), mais c’est évidement faux dans le cas général.

Le théorème de Bayes assure queP(y1,· · ·yN|#»p)

P(#»p|y1,· · ·yN)

=P(y1,· · ·yN)

P(#»p), rapport qui n’a aucune raison d’être constant.

(17)

Probabilité conditionnelle et vraisemblance

"

−1 2

N

X

i=1

2# .

fonction vraisemblance(likelihood) maximale.

L #»py₁,· · ·y_N←→ P y₁,· · ·y_N#»p. (3)

Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette identification est justifiée (et il n’est alors pas nécessaire que les _i suivent une loi normale), mais c’est évidement faux dans le cas général.

P(#»p|y1,· · ·yN)

=P(y1,· · ·yN)

(18)

Probabilité conditionnelle et vraisemblance

"

−1 2

N

X

i=1

2# .

fonction vraisemblance(likelihood) maximale.

L #»py₁,· · ·y_N←→ P y₁,· · ·y_N#»p. (3) Lorsque la fonctionf est linéaire par rapport aux variables #»p, cette

identification est justifiée (et il n’est alors pas nécessaire que les _i suivent une loi normale), mais c’est évidement faux dans le cas général.

P(#»p|y1,· · ·yN)

=P(y1,· · ·yN)

(19)

Analyse du problème Moindres carrés

Maximum de vraisemblance et moindres carrés

Les meilleures valeurs de #»p, notées #»p^a,maximisent la vraisemblanceL, soit encore minimisent l’erreur totale :

E(#»p) =

N

X

i=1

i

σ_i 2

=

N

X

i=1

2

. (4)

Dans l’hypothèse où les déviations sont des variables normales centrées, elle a la structure d’unχ² (cfcours et TE de statistiques).

Elle est très souvent abusivement appelée « chi2 » (χ²), alors qu’elle n’y correspond – au mieux – qu’au point #»p^a pour lequel on suppose que la valeur moyenne des déviations normalisées est nulle.

(20)

Équations normales

Minimum recherché #»p^a : point où le gradient deE s’annule.

=⇒ équations normales :

N

X

i=1

y_i−f(x_i,#»p^a) σ²_i

∂f(x_i,#»p^a)

∂pk

= 0, k= 1, . . . ,M (5)

Résolution de ces équations →valeurs de #»p^a qui, si le modèle est valide, rendent le mieux compte des données→ détermination de la « vraie » valeur #»p^v.

« Ajustement »des données par les moindres carrésou“least squares best fit” oufittout court.

(21)

Linéaire vs non-linéaire

Deux situations à distinguer :

1 Cas particulier : fonctionf(x,#»p) linéaire vis à vis des paramètres p_j.

⇒ ^∂f^(x_∂pⁱ^,^#»^p^a⁾

k =cste (par rapport à #»p)

→ système des équations normaleslinéaire : peut être résolu simplement .

2 Cas général :f(x,p₁. . .p_M) est une fonction non-linéaire des paramètresp_j.

Le système est non-linéaire, et il faut trouver une autre méthode,

→ fondamentalement une méthode itérative.

(22)

Ajustement linéaire

Sommaire

1 Introduction

(23)

Ajustement linéaire Régression linéaire

Régression linéaire : équations normales

Cas le plus simple et le plus important : modèle linéaire vis à vis des paramètres et des données :

f(x,#»p) =a+b x (6) d’où

H

HHH

χ²(#»p) =E(#»p) =

N

X

i=1

y_i−a−bx_i σi

2

où #»p = (a,b). (7) Ce qui conduit aux équations :











∂E

∂a = 0⇒

N

X

i=1

y_i −a−bx_i σ_i² = 0

∂E

∂b = 0⇒

N

X

i=1

x_i y_i−a−bx_i σ_i² = 0

(8)

(24)

Régression linéaire : résolution

En développant, on est conduit à définir les 6 sommes : S =^P^N_i=1 _σ¹2

i

S_x =^P^N_i=1_σ^xⁱ2 i

S_y =^P^N_i=1_σ^yⁱ2 i

S_xy =^P^N_i=1 ^xⁱ^yⁱ

σ²_i S_xx =^P^N_i=1^xⁱ²

σ_i² S_yy =^P^N_i=1 ^yⁱ²

σ²_i

dont l’interprétation en termes de moyennes et de variance est très claire.

Il vient alors :

(aS +bS_x =S_y

aS_x+bS_xx =S_xy d’où

a = S_xxS_y−S_xS_xy

∆ b= SS_xy−S_xS_y

∆

(9)

où∆ =S S_xx−(S_x)² est le déterminant du système et – àS près – la variance desx_i.

(25)

Qualité de la régression : variances/covariances de a et b

Résidus r_i :

r_i =y_i−f(x_i,#»p^a) PN

i=1r_i² →χ² à N −M =N −2 degrès de liberté Variances et covariances de a et b:

Var(a) = S_xx

∆ Var(b) = S

∆ Cov(a,b) =−S_x

∆ . (10) La covariance de a et best généralement rapportée à la variance de a et deb pour définir lecoefficient de corrélation dea etb :

R_ab = Cov(a,b) σaσb

=− S_x

√S S_xx

On a −1<R_ab <1, et il doit être aussi petit que possible en valeur absolue.

(26)

Qualité de la régression : coefficient de corrélation linéaire

Réécriture du modèle : x=a⁰+b⁰y hypothèses simplificatrices sur σi :

b⁰ = S S_xy−S_xS_y S S_yy−S_y² . Droites confondues ssi b×b⁰= 1, i.e. lecoefficient de corrélation linéaire :

r² =b×b⁰ = Cov(x,y)/(σxσy)= 1 ^-10

0 10 20 30 40 50 60

0 5 10 15 20 25

x = 0.385 y + 2.500 y = 2.240 x - 2.397 R²=0.385 x 2.240=0.8624

La corrélation linéaire est donc appréciéequalitativementselon que r² est plus ou moins proche de ±1.

(27)

Ajustement linéaire Cas linéaire général

Cas linéaire général

Modèle y=f(x,#»p) linéaire par rapport aux paramètres #»p : f(x,#»p) =

M

X

k=1

p_kF_k(x) , (11)

oùF₁(x)· · ·F_M(x) sontM fonctions quelconques de x.

La minimisation de E(#»p) =

N

X

i=1

y_i−^P^M_k=1p_kF_k(x_i) σ_i

!2

(12) donne lesM équations normales :

N

X

i=1

y_i−^P^M_j=1p_jF_j(x_i) σi

F_k(x_i) σi

= 0 pour k= 1,· · ·M , (13)

(28)

Équations normales

En développant comme dans le cas 2-D, on obtient sous forme matricielle :

M

X

j=1

Akjp_j =bk soit A·p=b (14) où les coefficients A_kj de la matrice M×M symétrique A et les

composantes du vecteur-colonne b sont : A_kj =

N

X

i=1

F_k(x_i)F_j(x_i)

σ_i² et b_k =

N

X

i=1

y_iF_k(x_i)

σ_i² (15)

Le vecteur des paramètres p peut alors être obtenu avec l’une des méthodes standard de résolution des systèmes linéaires, sous la forme :

p=A⁻¹ ·b

(29)

Structure de A et B

A_ij et b_i peuvent se calculer à partir deG_ik =F_i(x_k)/σ_k et Y_k =y_k/σ_k :











A_ij =^X

k

G_ikG_jk b_i =^X

k

G_ikY_k soit

(A=G^tG

b=G Y donc p= G^tG⁻¹·G·Y de façon plus visuelle :

A=







G₁₁ · · · · G_1N

... ...

GM1· · · ·GMN







| {z }

tailleNM







G11...GM1

... ... ... ... ... ... G_1N...G_MN







| {z }

tailleMN

et b=







G₁₁ · · · · G_1N

... ...

GM1· · · ·GMN







| {z }

tailleNM





 Y1

... ... ... Y_N







| {z }

taille1

NB : La matrice A (M×M) est évidement symétrique et définie positive

(30)

Ajustement linéaire La qualité du fit

Variances-covariances : méthode probabiliste

Une fois obtenue la solution, il faut savoir estimer sa qualité. Une première chose est de voir à quel point elle estcontrainte, en évaluant la

co-variance des paramètres: c’est la matrice C=A⁻¹ qui les donne.

En effet, de p=C G Y ⇒p_i =^P_m,kC_imG_mkY_k on tire :

⇒Cov(pi,pj) =PM m,n=1

PN

k,l=1CimGmkCjnGnl Cov(Yk,Yl)

| {z }

δ_kl

=P

mnCimCjn P

kGnkGmk

| {z }

Amn

= [C A C]ij=Cij,

en utilisant successivement l’hypothèse d’indépendance des déviations {_k}et la symétrie de A et donc de C.

Ce résultat s’appliquera de la même façon dans le cas non linéaire.

(31)

Variances-covariances : méthode algébrique

Expression de la vraisemblance Lautour du point #»p^a : en notant δ#»p = #»p −#»p^a, on a :

L(δ#»p)∝exp−¹₂ ^tδp·A·δp.

Décroît d’autant plus vite que A est grand (minimum très piqué).

Diagonalisation de A sous la forme A=^tU·D·U (U orthogonale, D diagonale) → obtiention des paramètres q_i, tels que #»q =Uδ#»p, indépendantset de moyenne nulle. On a alors :

L ∝^Q^M_i=1exp −¹₂D_iiq_i² ⇒ Var(q_i) = 1/D_ii .

En revenant aux paramètres p_i, et en utilisant l’indépendance desq_i, on obtient :

hδp_i δpji=^h^tU·D⁻¹·Uⁱ

ij =Cij

qui est le résultat énoncé précédemment.

(32)

Variances-covariances : méthode algébrique

ij =Cij

qui est le résultat énoncé précédemment.

(33)

Variances-covariances : méthode algébrique

ij =Cij

(34)

Cas Non-Linéaire

Sommaire

1 Introduction

(35)

Cas Non-Linéaire Généralités

Cas non-linéaire : approche générale

Cas général. Exemple : lorentzienne ou gaussienne (largeurw est un paramètre de l’ajustement).

Problème : dans les équations normales :

N

X

i=1

y_i −f(x_i,#»p^a) σ_i²

∂f(x_i,#»p^a)

∂p_k = 0,

les dérivées partielles∂f(x_i,#»p)/∂p_k dépendent du point considéré dans l’espace des paramètres.

Méthodesitératives : diminution progressive de E(#»p) jusqu’à obtenir un minimum local.

(36)

Méthode itérative : principe

Valeur initiale #»p⁽⁰⁾ (“guess”)−→ #»p⁽¹⁾,· · ·#»p⁽ⁿ⁾. Arrêt lorsque E(#»p⁽ⁿ⁾) cesse de diminuer→ Critère de convergence :

06E(#»pⁿ)− E(#»pⁿ⁺¹)6η_tol. où η_tol. E#»p⁽ⁿ⁾ . (16) Difficultés :

Convergence vers minimum localdénué de sens← choix de #»p⁽⁰⁾ pertinent, méthode bien adaptée s’il y a beaucoup de minima locaux possibles.

E(#»p) peut présenter des vallées dans lesquelles on descend très vite, et où ensuite la progression esttrès lente (méandres).

Nombre très élevé d’évaluations de la fonction f et de ses dérivées, très coûteuse en temps de calcul si N est important.

Cela est d’autant plus probable que le nombre M de paramètres est élevé.

On procède alors par étapes en faisant varier certains paramètres seulement.

(37)

La méthode du gradient

Méthode la plus simple : déplacement

δ#»p = #»pⁿ⁺¹−#»pⁿ dans la direction du gradient de E, qui définit la plus grande pente(“steepest descent”) deE(#»p):

δ#»p =−γ∇E(#»pⁿ) (γ ∈IR⁺) , Le gradient est défini par ses composantes∂E/∂p_k (termes à gauche dans les équations normales, à un facteur -2 près).

051015200

2

4

6

810

Cette méthode est assez robuste si le pas est assez petit, mais dans ce cas elle converge très lentement.

(38)

Gradient : le choix du pas

0 5 10 15 20

0 2 4 6 10 8

Ni la minimisation en ligne ni la méthode à petits pas ne sont efficaces.

(39)

La hessienne

Gain de temps : considération de la courbure localepour choisir la direction deδ#»p, via lahessienne:

[H(#»p)]_kl = ∂²E(#»p)

∂p_k∂p_l

= 2

M

X

i=N

1 σ_i²

∂f(x_i,#»p)

∂p_k

∂f(x_i,#»p)

∂p_l −(y_i−f(x_i,#»p))∂²f(x_i,#»p)

∂p_k∂p_l

!

C’est son anisotropiequi est le principal responsable de la lenteur de convergence de la méthode du gradient.

(40)

Prise en compte de la courbure

En faisant un développement limité de E(#»p) autour de #»p⁽ⁿ⁾ : E(#»p)≈ E(#»p⁽ⁿ⁾) +∇E(#»p⁽ⁿ⁾)·δ#»p +1

2

tδ#»p ·H·δ#»p +· · · , (17) En dérivant, le gradient au point #»p⁽ⁿ⁺¹⁾= #»p⁽ⁿ⁾+δ#»p s’écrit :

∇E(#»p⁽ⁿ⁺¹⁾) =∇E(#»p⁽ⁿ⁾) +H·δ#»p Pour qu’il s’annule, il faut choisir δ#»p tel que :

∇E(#»p⁽ⁿ⁾) +H·δ#»p = 0 ⇔ δ#»p =−H⁻¹· ∇E(#»p⁽ⁿ⁾). (18) Si E quadratique→ solution direct.

(cas linéaire : H= 2A, ∇E =−b, indépendantes du point #»p considéré.

Cette solution est bien plus rapide lorsqu’on est assez proche d’un minimum, (i.e. au fond de la vallée).

(41)

Illustration à une dimension

x

₁

x

₀

x

₂

(42)

La méthode du gradient conjugué

Elle consiste à faire des « pas » ou

incréments ∆#»p dans la direction du δ#»p tel que défini par l’équation (18).

Elle est ainsi nommée car la surface de niveau et l’incrément sont « conjugués »,i.e.

ne sont pas orthogonaux pour le produit scalaire normal, mais pour la forme quadratique H, soit :

#»u · ∇E = 0 ⇒ ^tδ#»p H #»u = 0 . Elle a le mérite de progresser dans la

« bonne » direction, et conduit à une convergence rapide si l’approximation quadratique (17) est adaptée.

gradient conjugue´

gradient

Comparaison des méthodes du gradient et du gradient conjugué

(43)

Taille des pas et choix de la méthode

Choix de la taille des pas← courbure : Par ex. : γ_i ≈α/H_ii, α <1 .

N.B. : Facteur γi différent dans chaque direction.

Dans ces conditions :

Laméthode du gradient est plus sûrequand on est loin de l’optimum car l’approximation quadratique est alors grossière.

Laméthode du gradient conjugué est plusrapidelorsqu’on s’approche du minimum, car l’approximation quadratique est alors bien meilleure.

NB : Combinaison des deux méthodes (descente dans vallée puis progression rapide) =⇒ Levenberg-Marquardt

(44)

Cas Non-Linéaire Méthode du gradient conjugué

Méthode du gradient conjugué : les équations

Si les déviations _k =y_k−f(x_k,#»p) sont petites, indépendantes et dispersées selon une loi normale centrée, la contribution à H des termes en ∂²f

∂p_k∂p_l est négligeable.

Ondéfinitalors la matrice A et le vecteur B comme suit : A=G^tG , b=G E où G_ik = 1

σ_k

∂f(x_k,#»p)

∂p_i et E_k = _k

σ_k (19)

Parallélisme avec la méthode dans le cas linéaire. A et b dépendent du point considéré mais tendent assez vite vers leur valeur au minimum.

(45)

Cas Non-Linéaire Méthode du gradient conjugué

Méthode du gradient conjugué : l’algorithme

Les itérations sont alors effectuées comme suit :

1 Choisirune valeur initiale #»p⁽⁰⁾ et évaluerE(#»p⁽⁰⁾).

2 Au point #»p⁽ⁿ⁾,évaluer A, b etrésoudre l’équation Aδp=b.

3 Prendre #»p⁽ⁿ⁺¹⁾= #»p⁽ⁿ⁾+δ#»p.

4 Tester la convergence : siE ne diminue plus, c’est à dire si 0<E(#»p⁽ⁿ⁾)− E(#»p⁽ⁿ⁺¹⁾)< η1,

on peutarrêterles itérations. Sinon,retourner en (2).

Variante : Méthode plus robuste avecδ#»p ←γδ#»p, 0< γ <1 et contrôle deγ en fonction de l’évolution deE à chaque itération.

(46)

Qualité de l’ajustement : cas général

Sommaire

1 Introduction

(47)

Critères d’évaluation de la qualité de l’ajustement

Matricevariances-covariances : A⁻¹. Evalue lacontraintede l’ajustement.

Variances souvent très faible et non-significatives.

Attention aux covariances≡choix des paramètres.

Dépendance enx etdistribution

statistiquedes résidus→ vraisemblance du modèle et qualité de l’ajustement.

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6

-10 -5 0 5 10

x y

30

20

10

0

-50 0 50 x10^-3

Lapertinence du modèle est enfin appréciée par letest duχ² (erreur évaluée au minimum !), avec N −M degrés de liberté, dont la fonction de

(48)

Test du χ

²

On calcule alors :

Q^N−M₂ ,^χ₂²= 1−γ^N−M₂ ,^χ₂² Γ^N−M₂

,

Mesure la probabilité que des résidus (∝loi normale)donnent une valeur supérieure ou égale à la valeurχ² obtenue.

Seuils à utiliser ←→risquetoléré.

Typiquement :Q>0.1→ confiance au modèle,Q∼0.01 valeur juste passable.

Note : valeur trop grande de χ² (↔ trop faible deQ) ⇐=dispersionsσi

sous-évaluées(trop optimiste sur les barres d’erreur).