T: Orbital period

(1)

Chapitre 6 : Curve fitting

Maarten Jansen

Table de mati `eres

• Introduction au calcul num ´erique.

• Analyse des erreurs.

• R ésolution des syst èmes lin éaires.

• R ésolution num érique des équations diff érentielles ordinaires.

• Interpolation.

• Curve fitting.

• R ésolution des équations non lin éaires.

M. Jansen, G. Bontempi INFO-F-205 Calcul Num ´erique — Chap. 6: Curve Fitting p.1

La loi du mouvement plan ´etaire

• En 1601, l’astronome allemand Johannes Kepler formula la troisi ème loi du mouvement plan étaire T =Cx^3/2 qui lie la distancexde la plan ète au soleil (en million de kilom ètres) et la p ériode orbitaleT (en jours).

• La valeur du coefficientC= 0.199769fut trouv ée gr âce àla m éthode de moindres carr éspropos ée par K. F. Gauss (Theoria Motus Corporum Caelestium, 1809).

• Cette m éthode permit la pr édiction de l’orbite de l’ast érode C ér ès d écouvert le jour du Nouvel An de 1801 par l’astronome italien

Giuseppe Piazzi. Piazzi avait pu suivre sa trajectoire durant seulement 40 jours avant que il ne disparaisse derri `ere le soleil.

• Durant cette ann ée, plusieurs scientifiques ont tent é de pr édire sa trajectoire sur la base des observations de Piazzi. La plupart des pr édictions furent erron ées ; et le seul calcul suffisamment pr écis pour permettre de localiser à nouveau C ér ès à la fin de l’ann ée, fut celui de Gauss, alors âg é de 24 ans.

Les valeurs num ériques pour la loi du mouvement plan étaire Les couples de valeurs(x_i, T_i)observ és pour les plan ètes Mercure, V énus, Terre et Mars sont(58,88),(108,225),(150,365)et(228,687).

x: Distance to sun

T: Orbital period

Mercury Venus

Earth

Mars T=Cx^3/2

(2)

Curve fitting

• Au lieu de l’interpolation une approximation des donn ées, appel ée lissageoufittingdes donn ées, peut être effectu ée en utilisant la m éthode discr ète desmoindres carr és.

• Lelissageest pr éf érable à l’interpolation si...

1. lenombre de donn ées est grand: alors, le polyn ôme interpolant peut pr ésenter des oscillations importantes.

2. les donn ées sontentach ées de bruit. L’ évaluation d’un polyn ôme interpolant a peu de signification

3. unmod èle des observationsest disponible (voir exemple p.2) Alors, l’objectif, en premi ère instance, est de trouver les valeurs desparam ètres d’un mod èleet ( éventuellement) apr ès les valeurs pour des points interm édiaires

Le lissage consiste de trouver une fonction (un membre d’un mod `ele ou famille de fonction) passantau plus prochedes observations.

Par cons équent, le lissage comprend uneoptimisationalors que l’interpolation ne repr ésente qu’un syst ème lin éaire.

L’optimisation est dite la m ´ethode auxmoindres carr ´es

Donn ´ees et approximation

Supposons de mesurer2variables corr él éesQetI, o ùQest lachaleur dissip ée par une r ésistanceR= 2ΩetIest lecourantpassant à traversR.

I: current

Q: Heat

L’approximation par polyn ôme interpolant ne r év èle pas la relation quadratique existante entreIetQ.

Pr ´ecision d’une approximation On se donne

1. n+ 1couples de valeurs(xi, y_i),i= 0, . . . , no ùy_i repr ésente, par exemple, une quantit é physique mesur ée à la positionx_i.

2. une fonction d’approximationh(x)

La fonction d’approximation est prise d’une famille de fonctions. Par exemple, h(x) =c₀+c₁x+c₂x²est une fonction quadratique. L’ énonc é est alors de trouver lesvaleurs optimalesdes param ètresc₀,c₁,c₂

Nous d ´efinissons l’erreur d’approximationenx_i, par lesr ´esidus e_i =h(x_i)−y_i i= 0, . . . , n

Pr ´ecision d’une approximation

Plusieurs normes peuvent être consid ér ées afin de mesurer l’ éloignement de la fonctionh(·)des donn ées.

Erreur absolue maximale: E_∞(h) = max

0≤i≤n{|h(x_i)−y_i|}

Erreur absolue moyenne: E₁(h) = 1 n+ 1

Xn

i=0

|h(x_i)−y_i|

Root-mean-square error (RMSE): E₂(h) = 1

n+ 1 Xn

i=0

|h(xi)−y_i|²

!1/2

=k~h−~yk2

n+ 1

La minimisation d’une de ces normes d ´efinit alors l’objectif du lissage.

(3)

Avantages d’une norme euclidienne

Ensuite nous utiliserons la normeE₂(RMSE) afin de mesurer la pr ´ecision d’une approximation pour les raisons suivantes :

• (1) les écarts n égatifse_i<0n’effacent pas les écarts positifse_j>0,

• (2) l’optimisation bas ´ee sur la diff ´erentiation deE₂est plus facile,

• (3) les petits écarts sont r éduits et les grands écarts sont amplifi és.

• (4) La norme euclidienne est fortement li ´ee `a la loi gaussienne (normale)

f(u) = 1

√2πσe^−(u−µ)²^/2σ²,

dont la formule comprend le carr ´e d’une d ´eviation(u−µ)²

La norme euclidienne des r ésidus dans un mod èle gaussien est ditela vraisemblancedu mod èle (notion de la statistique)

Le point (3) peut repr ésenter un avantage mais aussi un d ésavantage : puisque la pond ération quadratique renforce l’importance des grands écarts, la solution aura la tendance de suivre les observations aberrantes au co ût des observations “normales”.

Les moindres carr és : minimisation de la norme euclidienne ExempleSoit donn ée la famille de polyn ômes

h(x) =c₀+c₁x+c₂x²+...+c_mx^m,

Trouver le vecteur de coefficients tel que E₂(h) =

Xn

i=0

c₀+c₁x_i+c₂x²_i +...+c_mx^m_i

−y_i2

soit minimis ´ee

Sim=n, on peut prendre pourh(x)le polyn ˆome interpolant, etE₂(h) s’annule.

Pourn > m, consid érer lesyst ème lin éaire surd étermin é: c₀+c₁x_i+c₂x²_i +...+c_mx^m_i =y_ipouri= 0, ..., n Ce syst ème an+ 1équations pourm+ 1inconnus (c)

En g én éral, il n’existe pas de vecteur~csatisfaisant à toutes les conditions. On se contente d’une solution approch ée.

Syst èmes surd étermin és

• Soit donn é le syst ème lin éaireA_(n×m)~z=b_(n×1)

• Sin=met siAest inversible alors la solution du syst `eme lin ´eaire existe et est unique.

• Sin > mle syst ème est ditsurd étermin é.

• Un syst ème surd étermin é n’admet pas une solution au sens classique mais il admet une solution au sens desmoindres carr és.

Rang d’une matrice rectangulaire SoitAune matrice rectangulairen×m.

D ´efinition

Led éterminant extrait (appel é aussi mineur) d’ordreq est le d éterminant de n’importe quelle matrice d’ordreqobtenue à partir deAen eliminantn−q lignes etm−qcolonnes.

D ´efinition

Lerangrg(A)ourang(A)deAest la taille du plus grand mineur non nul de A. Une matrice est de rang maximum sirg(A) = min(m, n).

Les matrices





 5 2 1 5 3 7





,





 1 0 2 0 0 2





,





 1 2 2 4 3 6







ont respectivement rang2,2et1.

(4)

Solution au sens des moindres carr ´es

• Etant donn éA∈^R^n×mavecn > met~b∈^Rⁿon dit que~z^∗∈^R^mest une solution du syst ème lin éaireA~z=~bau sens des moindres carr éssi Φ(~z^∗) = min_~_z∈R

mΦ(~z), o `u Φ(~z) =kA~z−~bk²2=Pn

i=1|b_i−Pm

j=1a_ijz_j|²

• Donc ~z^∗= arg min_z1,z²,...,z^mPn i=1

b_i−Pm

j=1a_ijz_j2

• Le probl ème aux moindres carr és est un probl ème d’optimalisation convexeet consiste à minimiser la norme euclidienne du r ésidu.

• Puisque dans un probl ème d’optimalisation convexe un minimum local est aussi un minimum global, la solution peut être d étermin ée en imposant au gradient de la fonctionΦde s’annuler en~z^∗.

Exemple

Consid érons le syst ème surd étermin é o ùn= 3etm= 2et la matriceAa rang maximal





 5 2 1 5 3 7









 z₁ z₂



=





 1 3 2







La surface est les courbes de niveau deΦ(~z):

-1 -0.5

0 0.5

1

-1 -0.5 0 0.5 1 0 50 100 150 200 250 300

z2 z1 Φ(z1,z2)

z1

z2

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

´equations normales

• PuisqueΦ(~z) = (A~z−~b)^T(A~z−~b) =~z^TA^TA~z−2~z^TA^T~b+~b^T~b on a ∂Φ(~z)

∂z_i = ∂~z^T

∂z_iA^TA~z+~z^TA^TA∂~z

∂z_i −2∂~z^T

∂z_i A^T~b d’o `u :∇Φ(~z^∗) = 2A^TA~z^∗−2A^T~b= 0

• Il en d écoule que~z^∗doit être solution du syst ème carr é(m×m) A^TA~z^∗=A^T~b

appel é syst ème deséquations normales.

• SiAest de rang maximal, le syst `eme des ´equations normales est non singulier et la solution~z^∗existe et est unique.

• Soit ~r=~b−A~z^∗ ler ésiduassoci é à la solution~z^∗. Il s’ensuit que A^T~r=A^T~b−A^TA~z^∗= 0

c.- `a-d. le vecteurrestorthogonale aux colonnesdeA.

Exemple Le syst ème surd étermin éA~z=~b





 5 2 1 5 3 7









 z₁ z₂



=





 1 3 2







conduit au syst `eme des ´equations normales



 35 36 36 78







 z₁ z₂



=



 14 31





qui a comme solution et residu

~ z^∗=



 −0.0167 0.4052



, ~r=~b−A~z^∗=







0.2734 0.9909

−0.7859







Notons queA^T~r= [0,0]

(5)

R ´esolution des ´equations normales SiAest de rang maximum :

• Dans le syst èmeA^TA~z^∗=A^T~b, la matrice des coefficients est sym étrique et d éfinie positive.

• On pourrait imaginer une r ´esolution par factorisation de Cholesky.

Cependant cette m éthode a deux inconv énients majeurs 1. le syst ème est mal conditionn é

2. les erreurs d’arrondi dans le calculA^TApeuvent entraˆıner une perte du nombre de chiffres significatifs

En effet, dans l’exemple à la page 15, on constate que les valeurs deA^TAsont d’ordre plus grand que les é éments deA.

• Il est en g én éral plus efficace d’utiliser la factorisation QR pour matrices rectangulaires. (pas discut é dans ce cours)

Factorisations matricielles (un petit aperc¸u)

1. La factorisation LU A=LU

— Amatrice carr ée g én érique ;Ltriangulaire inf érieure,U triangulaire sup érieure

— Elaboration de l’ ´elimination selon Gauss

— Cas sp ´ecial : Cholesky (pourAsym ´etrique)

— Utils ´ee pour

1. La r ésolution (num érique) d’un syst ème d’ équations 2. L’inversion d’une matrice

3. Le calcul d’un d ´eterminant 2. La factorisation QR A=QR

— Amatrice carr ée ou rectangulaire g én érique ;Qmatrice orthogonale ;Rmatrice triangulaire

— Elaboration de l’orthogonalisation de Gram-Schmidt

— Algorithmes alternatifs : Givens/Householder

— Utils ´ee pour

1. La r ésolution d’un syst ème au sens des moindres carr és kA~z−bk=kQR~z−bk=kR~z−Q^Tbk

2. La solution des syst `emes r ´eguliers

3. D écomposition en él éments propres ; d écomposition spectrale A=EΛE⁻¹

— Amatrice carr ée g én érique ;

Ematrice inversible contenant en colonnes les vecteurs propres deA

Λmatrice diagonale contenant les valeurs propres deA

— Utilise pour

1. L’ ´evaluation d’une fonction matricielle ; p.ex. :A^k =EΛ^kE⁻¹, e^A=

X∞

k=0

1

k!EΛ^kE⁻¹

2. L’analyse de stabilit ´e physique d’un syst `eme

— PourAsym ´etrique,Eest orthogonale :E⁻¹=E^T

— Quand le nombre de vecteurs propres est inf ´erieur `a la taille,Λ sera quasi-diagonale

4. D ´ecomposition en valeurs singuli `eres A=UΣV^T

— Amatrice carr ée ou rectangulaire g én érique ; U etV : matrices orthogonales

Σmatrice diagonale avec les valeurs singuli `eres

— Les valeurs singuli `eres sont les racines carr ´ees des valeurs propres deA^TA:

A^TA= UΣV^TT

UΣV^T

=VΣ²V^T

— La matriceV consiste des vecteurs propres deA^TA

— La matriceU consiste des vecteurs propres deAA^T

— La pseudo-inverse (voir p.21) s’exprime ainsiA^†=VΣ^†U^T,o `u la pseudo-inverseΣ^†est facile `a trouver (voir p. 27)

(6)

Moindres carr ´es et pseudo-inverse SiAn’est pas de rang maximal :

• le syst `eme des ´equations normales est singulier

• on a un nombre infini de solutions.

• on doit imposer une contrainte suppl émentaire pour forcer l’unicit é de la solution. Par exemple chercher à minimiser la norme euclidienne de

~z^∗.

Le probl èmepeut alors être formul é ainsi :

trouver~z^∗∈^R^mde norme euclidienne minimaletel que kA~z^∗−~bk²2= min~z∈^R^mkA~z−~bk²2

Double minimisation 1. A~z^∗−~b

A~z^∗−~b

=kA~z^∗−~bk²2= min_~_z∈R

mkA~z−~bk²2⇔A^TA~z^∗=A^T~b (Equations normales)

2. ~z^∗T~z^∗=k~z^∗k²2= min

~

z|A^TA~z=A^T~bk~zk²2

Moindres carr ´es et pseudo-inverse (2) L’ unique solutionde ce probl `eme est ~z^∗=A^†~b

o `uA^†_(m×n)est lapseudo-inversedeA.

La notion de matrice pseudo-inverse g ´en ´eralise la notion d’inverse aux matrices rectangulaires.

La matrice pseudo-inverse satisfait les propri ´et ´es suivantes : AA^†A=A A^†AA^†=A^† (AA^†)^T =AA^† (A^†A)^T =A^†A

Les propri ét és d éfinissent la matriceA^†, c.- à-d., elle est l’unique matrice de taille(m×n)qui satisfait les 4 prop.

Les propri ét és d éfinissantes

AA^†A=A

Supposons queA~z=~bo ùbest laii ème colonne deA. Alors, le r ésidu~r=A~z^∗−~b=~0, car, au moins~z=~ei(leii ème colonne de la matrice identit é) est une solution exacte. Par cons équent, A^†bdoit être une solution exacte :AA^†~b=~b.

Ceci se r ép ète pour toutes les colonnes deA, ce qui nous conduit à la propri ét é.

A^†AA^†=A^†

Quand~z=A^†~b, le vecteur~zn’est pas n écessairement une solution du syst ème surd étermin é A~z=~b, mais bien du syst ème des équations normales associ é.

DoncA^TA~z=A^T~b.

Etant donn ´e un vecteur~barbitraire, on constate que

1. (a) ~z₁^∗= A^†AA^†~best la solution pseudo-inverse pour le probl èmeA~z=AA^†~b, dont les équations normales associ ées sont

A^TA~z^∗1=A^T AA^†~b

=A^TA~z^∗

(b) ~z^∗=A^†~best la solution pseudo-inverse pour le syst `eme original, dont les

équations normales associ ées sontA^TA~z^∗=A^T~b (c) En combinant les r ésultats pr éc édants, on arrive à

A^TA A^†AA^†~b=A^T~b

Donc, A^†AA^†~best une solution du syst ème des équations normales associ é au probl ème original

2. On trouve facilement que~z^∗est une solution du syst `eme des ´equations normales A^TA~z=A^T AA^†~b

,dont~z^∗₁est la solution pseudo-inverse.

Donc,k~z^∗1k²2≤ k~z^∗k²2.

Puisque~z^∗est la solution pseudo-inverse du probl ème original et~z^∗1est une solution pour ses équations normales avec une norme euclidienne inf érieure,~z1^∗=~z^∗. 3. On a, pour tout vecteur~barbitraire, que~z^∗₁= A^†AA^†~b=A^†~b=~z^∗,d’o ù r ésulte

l’expressionA^†AA^†=A^†

(7)

Propri ´et ´es de la matrice pseudo-inverse

• Propri ét és d éfinissantes

Elle est la seule matrice de taille(m×n)qui satisfait les quatre propri ´et ´es suivantes

AA^†A=A A^†AA^†=A^† (AA^†)^T =AA^† (A^†A)^T =A^†A

• Autres propri ´et ´essont

(A^†)^†=A (pour raison de l’unicit ´e de la pseudo-inverse) (aA)^†=a⁻¹A^† sia∈^R

• Sir=m < n(rang maximal) alors A^†= (A^TA)⁻¹A^T

• Sir=m=nalorsA^†=A⁻¹.

Exemple

Consid érons le syst ème surd étermin é o ùn= 3etm= 2et la matriceAa rang égal à1





 1 2 2 4 3 6









 z₁ z₂



=





 1 3 2







-1 -0.5

0 0.5

1

-1 -0.5 0 0.5 1 0 50 100 150 200 250

z1 z2

Φ(z1,z2)

z1

z2

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

Pseudo-inverse et d ´ecomposition

Si il est possible de d écomposer la matriceAdans le produitA=BCde deux matrices orthogonalesBetC, la matrice suivante satisfait les propri ét és de la pseudo-inverse A^†=C^TB^T

Par exemple (C^TB^T

| {z }

A^†

)^†=BC

|{z}

A

|{z}BC

A

C^TB^T

| {z }

A^†

|{z}BC

A

= BC

|{z}A

C^TB^T

| {z }

A^†

|{z}BC

A

C^TB^T

| {z }

A^†

=C^TB^T

| {z }

A^†

Trouver la pseudo-inverse : d écomposition SVD Supposons queA_n×msoit une matrice r éelle de rangr < m. Pour toute matriceA, il existe une d écomposition A=U_n×nΣ_(n×m)V_m×m^T envaleurs singuli ères(en anglais Singular Value Decomposition) o ù

Σ_(n×m)=







σ₁ 0 . . . 0 . . . 0

0 σ₂ . . . 0 . . . 0

.. .

...

0 0 . . . σr 0 0

0 0 . . . 0 . . . 0

.. .

0 0 . . . 0 . . . 0







o `uσ₁≥ · · · ≥σ_r> σ_r+1=· · ·=σ_m= 0sont les valeurs singuli `eresdeA,

etU_n×netV_m×msont matrices orthogonales.

(8)

D ´ecomposition SVD Notons aussi que

• Le nombre de valeurs singuli `eres non nulles indique le rang de la matrice.

• Si la matrice est singuli `ere, au moins une des valeurs singuli `eres est nulle

• il existe le lien σ_i=p

λ_i(A^TA), i= 1, . . . , m o ùλ_i(A^TA)sont les valeurs propres de la matrice carr ée et sym étriqueA^TA.

Pseudo-inverse

D éfinition[Pseudo-inverse]La matricem×n A^†=VΣ^†U^T est appel ée matricepseudo-inverse de Moore-Penroseouinverse g én éralis ée, o ù

Σ^†_m×n=^diag

1 σ1, . . . ,_σ¹

r,0, . . . ,0

=







1 σ1

0 . . . 0 0 0 . . . 0

0

... . . . 0 0 0 . . . 0

0 0 ¹

σr 0 0 0 . . . 0

.. .

... ..

. 0 . . . 0

0 0 . . . 0 0 0 . . . 0





 o `u

σ₁, . . . , σ_rsont les valeurs singuli `eres non nulles deA.

Exemple pseudoinverse : rang maximal

A=





 1 0 2 0 0 2







=UΣV^T =







−0.4472 0 0.8944

−0.8944 0 −0.4472

0 −1 0













2.2361 0

0 2

0 0











−1 0 0 −1





A^†=VΣ^†U^T=





−1 0 0 −1









0.4472 0 0

0 0.5 0











−0.4472 −0.8944 0

0 0 −1

0.8944 −0.4472 0







=





0.2 0.4 0

0 0 0.5



= (A^TA)⁻¹A^T

Exemple pseudoinverse : rang 1

A=





 1 2 2 4 3 6







=UΣV^T

=







−0.2673 0.9562 0.1195

−0.5345 −0.0439 −0.8440

−0.8018 −0.2895 0.5228













8.366 0

0 0











−0.4472 −0.8944

−0.8944 0.4472





A^†=VΣ^†U^T

=





−0.4472 −0.8944

−0.8944 0.4472









0.1195 0 0

0 0 0











−0.2673 −0.5345 −0.8018 0.9562 −0.0439 −0.2895 0.1195 −0.8440 0.5228







=





0.0143 0.0286 0.0429 0.0286 0.0571 0.0857





(9)

Approximation aux moindres carr ´es (I)

• Voyons comment utiliser la m éthode de r ésolution d’un syst ème surd étermin é dans le probl ème du curve-fitting.

• On se donnen+ 1couples de valeurs(x_i, y_i),i= 0, . . . , no ùy_i repr ésente, par exemple, une quantit é physique mesur ée à la position x_i.

• D ´efinition

On appellepolyn ôme aux moindres carr és Π^∗_m(x) =c^∗_mx^m+· · ·+c^∗₁x+c^∗₀ le polyn ôme de degr ém≤ntel que

Xn

i=0

h

y_i−Π^∗_m(x_i)i2

≤ Xn

i=0

h

y_i−π_m(x_i)i2

∀π_m(x)∈P^m

o ùP^mest l’ensemble des polyn ômes de degr ém.

Le p ôlynome aux moindres carr és dans la formulation g én érale

• En notantπ_m(x) =c_mx^m+· · ·+c₁x+c₀= Xm

j=0

x^jc_j le probl ème peut être formul é en termes du vecteur~cdes coefficientsc_jinconnus :

• ~c^∗= arg min

c∈^R^m

Xn

i=0



y_i− Xm

j=0

x^j_ic_j





2

Ce qui est de la forme g én’erale d’une solutionz^∗au sens des moindres carr és d’un syst ème surd étermin éAz=b:

z^∗= arg min

z∈^R^mkAz−bk²2= arg min

z1,z2,...,zm

Xn

i=1



b_i− Xm

j=1

a_ijz_j





2

La formulation matricielle du p ˆolynome aux moindres carr ´es

• Donc, trouver les coefficients{c^∗_j ∈^R, j= 0, . . . , m}du polyn ôme aux moindres carr ésΠ^∗_m(x)revient à r ésoudre le syst ème surdetermin é de taille(n+ 1)×(m+ 1):

Xm

j=0

x^j_ic_j =y_i i= 0, . . . , n

• Sim < nceci équivaut à r ésoudre le syst ème surd ét érmin é X~c=~y o ùX((n+1)×(m+1))est une matrice rectangulaire telle que ses

´el ´ements prennent la formeX_i+1,j+1=x^j_i, i= 0, . . . , n, j = 0, . . . , met

~yest un vecteur de taille(n+ 1)×1.

• X=







1 x₀ . . . x^m₀

· · · · 1 x_n . . . x^m_n





, ~y=





 y₀

· · · y_n





, ~c=





 c₀

· · · c_m







Formulation avec des fonctions g ´en ´erales

On peut consid érer le m ême probl ème quand on utilise des fonctions de base ϕ_j(x)plus g én érales.

Jusqu’ici, nous avions :π_m(x) = Xm

j=0

x^jc_j

En faisant l’associationϕ_j(x) =x^j on arrive à la g én éralisationπ_m(x) =Pm

j=0ϕ_j(x)c_j

ce qui correspond avec la matriceX =







ϕ₀(x0) ϕ₁(x0) . . . ϕ_m(x0)

· · · · ϕ₀(xn) ϕ₁(xn) . . . ϕ_m(xn)





.

(10)

Approximation aux moindres carr ´es

• SiX a rang maximal, le vecteur colonne~c^∗_(m+1)×1= [c^∗₀,· · ·, c^∗_m]^T est la solution du syst `eme aux ´equations normales

X^TX~c=X^T~y

• et le polyn ˆome

Π^∗_m(x) = Xm

j=0

c^∗_jϕ_j(x)

estl’approximation au sens des moindres carr ´esdes donn ´ees (x_i, y_i),i= 0, . . . , n.

Exemple

Consid érons lesn+ 1donn ées (n= 3) x x₀ x₁ x₂ x₃ y y₀ y₁ y₂ y₃ et le polyn ôme aux moindres carr és d’ordrem= 2< n

Π^∗_m(x) =c^∗₀ϕ₀(x) +c^∗₁ϕ₁(x) +c^∗₂ϕ₂(x) =c^∗₀+c^∗₁x+c^∗₂x²

Le vecteur des coefficients~c^∗_i est la solution du syst `eme correspondante X~c=~yo `u







1 x₀ x²₀ 1 x₁ x²₁ 1 x₂ x²₂ 1 x₃ x²₃











 c₀ c₁ c₂





=





 y₀ y₁ y₂ y₃







Exemple Matlab pourn= 3etm= 2

x 0 0.5 1 1.5

y 0 0.4794 0.8415 0.9975

Fonction Matlabpinv.mcalcule la pseudo-inverse.

Scripts least.m

R ´egression lin ´eaire

• Sim= 1, la solution

Π^∗₁(x) =c^∗₀ϕ₀(x) +c^∗₁ϕ₁(x) =c^∗₀+c^∗₁x

est une fonction lin éaire, appel éer égression lin éaireassoci ée aux donn ées.

• Puisque,

X^T =



 ϕ₀(x₀) . . . ϕ₀(x_n) ϕ₁(x₀) . . . ϕ₁(x_n)



, X=







ϕ₀(x₀) ϕ₁(x₀)

· · · · ϕ₀(xn) ϕ₁(xn)







(11)

• le syst ème d’ équations normales correspondantes àX^TXc=X^Ty est

Pn

i=0ϕ₀(x_i)ϕ₀(x_i)c₀+Pn

i=0ϕ₀(x_i)ϕ₁(x_i)c₁ = Pn

i=0ϕ₀(x_i)y_i Pn

i=0ϕ₁(x_i)ϕ₀(x_i)c₀+Pn

i=0ϕ₁(x_i)ϕ₁(x_i)c₁ = Pn

i=0ϕ₁(x_i)y_i

Droite de r ´egression lin ´eaire

• Etantϕ₀(x) = 1etϕ₁(x) =x, la solution est unedroitede coefficients c₀etc₁qui satisfont le syst ème à2équations et2inconnues







(n+ 1)c0+c₁Pn

i=0x_i = Pn i=0y_i c₀Pn

i=0x_i+c₁Pn

i=0x²_i = Pn i=0x_iy_i Dont la solution s’ ´ecrit comme

c₁ = Xn

i=1

(x_i−x)y_i Xn

i=1

(xi−x)²

= Xn

i=1

(x_i−x)(y_i−y) Xn

i=1

(xi−x)² c₂ = _n¹

Xn

i=1

y_i−c₁ Xn

i=1

x_i

!

=y−c₁x

avec x = _n¹Pn i=1x_i y = _n¹Pn

i=1y_i

Exemple de r ´egression lin ´eaire (I)

Soitn= 4,m= 1,ϕ₀(x) = 1etϕ₁(x) =x. ´etant donn ´e

x_i 1 3 4 6 7

y_i -2.1 -0.9 -0.6 0.6 0.9

le syst `eme aux ´equations normales est







5c0+ 21c1 =−2.1 21c₀+ 111c₁ = 2.7

et la solution est







c^∗₀=−2.542 c^∗₁= 0.505

Exemple de r ´egression lin ´eaire (II)

Scripts least2.m

(12)

Trade-off overfitting/underfitting

Un probl ème typique de l’analyse des donn ées est la recherche de la complexit é optimale de la fonction qui approche les donn ées.

Exemple : ordre du polyn ˆome interpolant.

-3 -2 -1 0 1 2 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Voir le script Matlabs unstable2.m.

Radial Basis Functions (RBF)

LesRadial Basis Functions (RBF)sont un exemple connu der ´eseau des neurones. L’id ´ee est de poserϕ₀(x) = 1et

ϕ_j(x;µ_j, σ_j) = exp

"

−(x−µ_j)² σ²_j

#

j≥1

dans l’expression h(x) = Xm

j=0

c_jϕ_j(x;µ_j, σ_j)

Lafonction noyau(kernel function)ϕ_j(x)est une fonction de base radiale sym étrique autour d’un centreµ_jet caract éris ée par une largeurσ_j.

Si les termesµ_j∈^Retσ_j ∈^Rj= 1, . . . , msont connus, alors le fitting de la fonctionhaux donn ées est fait par la m éthodes des moindres carr és.

Autrement, techniques non lin ´eaires sont n ´ecessaires pour estimer les termesµ_jetσ_j,j= 1, . . . , m.

Fitting par moindres carr ´es de RBF

Si les termesµ_j ∈^Retσ_j ∈^Rj= 1, . . . , msont connus, le fitting du RBF revient à écrire le syst ème surdetermin é











y₀=c₁ϕ₁(x₀) +c₂ϕ₂(x₀) +· · ·+c_mϕ_m(x₀) y₁=c₁ϕ₁(x1) +c₂ϕ₂(x1) +· · ·+c_mϕ_m(x1) ...

y_n =c₁ϕ₁(xn) +c₂ϕ₂(xn) +· · ·+c_mϕ_m(xn) qui peut ˆetre ´ecrit

Y =Xc o `u

Y =





 y₀

... y_n







, X =







ϕ₁(x₀) . . . ϕ_m(x₀) ... ... ... ϕ₁(x_n) . . . ϕ_m(x_n)







, c= [c₁, . . . , c_m]^T

Exemple RBF en MATLAB

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

x

y

Number of basis functions m=7

Points RBF

Voir le script Matlabs rbf.m.

(13)

Probl `emes multivari ´es

L’utilisation de polyn ômes pour probl èmes de fitting avecd >1dimensions {x⁽¹⁾, . . . , x^(d)}est probl ématique à cause du grand nombre des param ètres.

Par exemple, l’expression d’un polyn ˆome de degr ´em= 3pourd= 2 dimensions est

Π₃(x, z) =a₀+a₁x+a₂z+a₃x²+a₄z²+a₅xz+a₆x³+a₇x²z+a₈xz²+a₉z³

et pourddimensions est Π_m(x⁽¹⁾, . . . , x^(d)) =c₀+

Xd

h=1

c_1hx^(h)+ Xd

h¹=1

Xd

h²=1

c_2h1h²x^(h¹⁾x^(h²⁾+

+ Xd

h1=1

Xd

h2=1

Xd

h3=1

c_3h1h2h3x^(h¹⁾x^(h²⁾x^(h³⁾

Pourd >1le nombre des param `etres est de l’ordreO(d^m).

RBF et fitting multivari ´e

L’extension de RBF au cas multidimensional est facile h(x) =c₀+

Xm

j=1

c_jϕ_j(x⁽¹⁾, . . . , x^(d))

o `u

ϕ_j(x) = expkx−µ_jk² σ²_j

etσ_j ∈^R,x∈^R^d,µ_j ∈^R^d.

Siµ_jetσ_j sont connus, les parametresc_j peuvent être calcul és par la m éthode des moindres carr és.

Le nombre des param `etres est de l’ordreO(dm).

RBF pour la cas bidimensional Fonctionz= 0.1 +(1+sin(2x+3y))

(3.5+sin(x−y)) et400donn ´ees d’apprentissage.

-2 -1

0 1

2

-2 -1 0 1 2 0 0.2 0.4 0.6 0.8 1

-2 -1

0 1

2

-2 -1 0 1 2 0 0.2 0.4 0.6 0.8 1

Nombre de fonctions radiales=64

Voir le script Matlabs rbf2.m.