Chapitre 3 : Résolution des problèmes de moindres carrés

(1)

MT09-Analyse numérique élémentaire

Chapitre 3 : Résolution des problèmes de moindres carrés

Équipe de Mathématiques Appliquées

UTC

Juin 2007

5

(2)

Sommaire Concepts

Exemples Exercices Documents

suivantI

Chapitre III

Résolution des problèmes de moindres carrés

III.1 Formulation générale des problèmes de moindres carrés . . . 3

III.2 Approche algébrique du problème de moindres carrés . . . 10

III.3 Résolution des problèmes de moindres carrés par "QR".. . . 17

Documents du chapitre III . . . 24

Exercices du chapitre III . . . 31

(3)

Sommaire Concepts

chapitreN section suivanteI

III.1 Formulation générale des problèmes de moindres carrés

III.1.1 Un exemple : un problème de lissage. . . 4 III.1.2 Formulation matricielle . . . 6 III.1.3 Les équations normales . . . 8

(4)

Sommaire Concepts

Exemples Exercices Documents sectionN suivantI

III.1.1 Un exemple : un problème de lissage.

Exercices : Exercice III.1

Si on se donne une famille de points du plan(ti, bi)1≤i≤m(lestiétant distincts) alors il existe un unique polynômeP(t)de degré inférieur ou égal àm−1tel que

P(t_i) =b_i, i= 1, . . . , m,

qui est le polynôme d’interpolation des points(t_i, b_i). Si le nombre de pointsmest trop grand, ou si les ordonnées sont bruitées, on préfère en général chercher une fonctionf(t)qui, dans une

ti t

i

f(t) b

FIG. III.1.1: un problème de lissage

classe donnée (polynômes, fractions rationnelles, polynômes trigonométriques, exponentielles

(5)

Sommaire Concepts

Un exemple : un problème de lissage.

. . .), approche “au mieux” les points(ti, bi), on parle alors d’approximation, de lissage ou bien de régression(voir la figureIII.1.1).

Soit donc une famille de fonctions

f1(t), f2(t), . . . , fn(t), n≤m,

linéairement indépendantes. Etant donnén nombres réelsx₁, x₂, . . . , x_n on peut introduire le nombreE(x)

E(x) =

m

X

i=1

[f(t_i)−b_i]²,

avecf(t) =Pn

k=1xkfk(t). La quantitéE(x)représente la somme des erreurs quadratiques entre les valeurs données et celles prises parf aux pointsti. Le problème d’approximation se formule alors de la façon suivante :

Trouverxb∈IRⁿ, tel queE(bx)≤E(x), ∀x∈IRⁿ.

Par exemple si l’on désire faire de la régression polynômiale, c’est-à-dire prendre pourf(t)un polynôme de degré≤n−1, on a

fk(t) =t^k⁻¹, k= 1, . . . , n, f(t) =x1+x2t+. . .+xntⁿ⁻¹.

L’écriture inhabituelle du polynôme avecx_k comme coefficients permet de mettre en évidence que les inconnues du problème de moindres carrés sont ces coefficients.

(6)

Sommaire Concepts

Exemples Exercices Documents Jprécédent sectionN suivantI

III.1.2 Formulation matricielle

Cours : Lissage

On suppose que l’on a à résoudre un système linéaireAx = b (A ∈ Mmn), avec un second membrebnon nul et on suppose que le nombre d’équations est supérieur strictement au nombre d’inconnues (m > n). Dans la plupart des cas, ce système n’a pas de solution. On cherche alors une approximation de la solution qui réduise la différenceAx−b. Un des choix possible est de minimiser la norme euclidienne de cette différence. Dans tout ce chapitre, nous n’utiliserons que la norme euclidienne.

Définition III.1.1. SoitA∈Mmn(IR)etb∈IR^mdonnés. On appelle problème de moindres carrés le problème

xmin∈IRⁿkAx−bk²2. (III.1.1) On noteraxbla solution de ce problème. On montrera dans la suite qu’elle existe, et qu’elle est unique sous l’hypothèse fondamentale suivante :

Les colonnes de A sont linéairement indépendantes. (III.1.2) ou, de façon équivalente

rangA=n.

Un cas particulier est le casm=netAinversible, alorsxbest la solution unique deAx=b, mais ce n’est pas ce cas particulier qui nous intéresse dans ce chapitre.

(7)

Sommaire Concepts

Formulation matricielle Un autre exemple, pour le problème de lissage, est introduit dans le paragraphe référencé.

Il n’est pas possible en général de faire passer une fonctionf(t)dépendant deninconnues (par exemple un polynôme de degrén−1) parmpoints (m > n). Il n’existe donc sans doute pas de x∈IRⁿ qui annule les quantités

n

X

k=1

xkfk(ti)−bi, 1≤i≤m .

Cette expression s’écrit bienAx−boù

aij =fj(ti), 1≤i≤m, 1≤j≤n, et l’on a bien à minimiser

E(x) =

m

X

i=1

" _n X

k=1

x_kf_k(t_i)−b_i

#² .

Cette fois-ci le minimum ne sera pas nul.

(8)

Sommaire Concepts

Exemples Exercices Documents Jprécédent sectionN

III.1.3 Les équations normales

Documents : Document III.2

Nous ferons plus tard une résolution purement algébrique du problème des moindres carrés.

Cependant nous allons en donner une approche analytique qui permet de voir ce problème sous un angle différent. Tout d’abord, explicitons la fonction à minimiser. On a

E(x) = kAx−bk²₂= (Ax−b)^T(Ax−b) =x^TA^TAx−b^TAx−x^TA^Tb+kbk²2

= x^TA^TAx−2(A^Tb)^Tx+kbk²2.

Le problème de moindres carrés peut donc se reformuler en

xmin∈IRⁿJ(x) =x^TGx−2h^Tx, oùG=A^TAest symétrique eth=A^Tbest un vecteur donné.

Définition III.1.2. On appellefonction quadratiqueune fonctionJ: IRⁿ→IR, de la forme J(x) =x^TGx−2h^Tx,

oùGest une matricen×nsymétrique ethest un vecteur donné deIRⁿ.

Rappelons que si J : IR → IR, continûment dérivable, admet un minimum bx ∈ IR, alors J⁰(x) = 0. De même soitb J : IRⁿ→IRcontinûment dérivable, alors

J(bx)≤J(x)∀x∈IRⁿ ⇒ ∇J(bx) = 0, ∇opérateur gradient.

(9)

Sommaire Concepts

Les équations normales Ici le calcul du gradient deJdonne (voir le document référencé)

∇J(x) = 2(Gx−h)

et la solutionbxdu problème de moindre carrés vérifie donc nécessairement Gbx=h,soit

A^TAxb=A^Tb.

Ces relations sont appeléeséquations normalesdu problème, ce sont des conditions nécessaires pour quebxsoit minimum, on montre de plus que ces conditions sont suffisantes d’où le théorème.

Théorème III.1.1. SoitA∈Mmn(IR)etb∈IR^mdonnés, si l’on suppose que la matriceAest de rangn, le problème de moindres carrés min

x∈IRⁿkAx−bk²2, admet une solution uniquexbdonnée par

A^TAxb=A^Tb. (III.1.3)

Démonstration

(10)

Sommaire Concepts

Jsection précédente chapitreN section suivanteI

III.2 Approche algébrique du problème de moindres carrés

III.2.1 Idée intuitive de l’approche algébrique . . . 11 III.2.2 Espaces orthogonaux - Rappels . . . 12 III.2.3 Problèmes de projection . . . 14 III.2.4 Utilisation de l’orthogonalisation de Schmidt pour résoudre les équa-

tions normales. . . 16

(11)

Sommaire Concepts

III.2.1 Idée intuitive de l’approche algébrique

Soit Im(A) ={y∈IR^m| ∃x∈IRⁿ, y=Ax}. Alors le problème de moindres carrés min

x∈IRⁿkAx−bk²2,

signifie que l’on cherche dans l’image de A l’élément le plus "proche" deb. Il se formule donc comme un problème de projection orthogonale debsur le sous-espace vectoriel Im(A)(voir la figureIII.2.2). Si on appelle bxla solution de ce problème, on s’attend donc à ce que lerésidu r=b−Axbsoit orthogonal à Im(A)(ceci sera évidemment revu dans la suite de ce cours).

S=Im(A) b^

r b

FIG. III.2.2: projection debsur Im(A)

Quel est le lien avec les équations normales ? Pour le retrouver nous allons rappeler quelques résultats sur les espaces euclidiens.

(12)

Sommaire Concepts

III.2.2 Espaces orthogonaux - Rappels

Exercices : Exercice III.4 Exercice III.5

Documents : Document III.3

Définition III.2.1. On rappelle la définition du produit scalaire usuel surIRⁿ : x, y∈IRⁿ, hx, yi=x^Ty=y^Tx.

Cette définition généralise le produit scalaire usuel que vous connaissez dansIR²ouIR³. Définition III.2.2. SoitS un sous-espace vectoriel de IRⁿ, on appelleorthogonal de S le sous espace vectoriel deIRⁿnotéS^⊥ défini par :

x∈S^⊥ ⇔ ∀y∈S,hx, yi= 0.

Proposition III.2.3. SoitSun sous-espace vectoriel deIRⁿ,S^⊥l’ orthogonal deSalors S∩S^⊥={0}, IRⁿ =S⊕S^⊥.

Démonstration-

x∈S∩S^⊥⇒ hx, xi= 0⇒

n

X

i=1

x²_i = 0⇒x= 0.

Pour montrer la somme directe, on utilise l’orthogonalisation de Schmidt (voir le document référencé) pour montrer que tout sous-espace vectorielS admet une base orthogonale B. On

(13)

Sommaire Concepts

Espaces orthogonaux - Rappels rappelle qu’une famille libre, par exempleB, deE peut être complétée par une familleC telle

queB ∪ Csoit une base deE (théorème de la base incomplète). On continue alors le processus d’orthogonalisation de Schmidt surCet on obtient ainsi une base orthogonale de la formeB ∪ B⁰. Alors il est clair, par construction, queB⁰engendre un sous espace vectoriel qui estS^⊥.

Corollaire III.2.1. Soity∈IRⁿalors il existe un uniqueyb∈Stel que y−by∈S^⊥,

le vecteurybétant appeléprojection orthogonaledey surS.

Démonstration- D’après le théorème précédent, tout vecteurys’écrit de manière unique sous la forme :y=by+z, oùby∈Setz∈S^⊥.

Proposition III.2.4. SoitA∈ Mmn

(ImA)^⊥=Ker(A^T).

Démonstration-

x∈Im(A)^⊥ ⇔ x^Ty= 0, ∀y ∈Im(A),

⇔ x^T(Az) = 0, ∀z∈IRⁿ,

⇔ (A^Tx)^Tz= 0,∀z∈IRⁿ,

⇔ A^Tx= 0.

Pour la démonstration du dernier point voir l’exerciceIII.4

(14)

Sommaire Concepts

III.2.3 Problèmes de projection

Proposition III.2.5. Etant donnésSun sous-espace vectoriel deEety∈E, le problème min

z∈Skz−yk2

admet pour solution uniqueyb∈S projection orthogonale deysurS.

Démonstration- Soitzun élément quelconque deS, alors kz−yk²2 = kz−yb−(y−y)bk²2,

= kz−ybk²2+ky−ybk²2−2,hz−y, yb −ybi,

= kz−ybk²2+ky−ybk²2, puisque(z−by)∈Set(y−y)b ∈S^⊥. Alors

kz−yk²2>kby−yk²2∀z6=yb ce qui montre queminz∈Skz−yk2=kby−yk2.

Corollaire III.2.2. SoitA∈Mmn(IR)etb∈IR^mdonnés, le problème : trouverbx∈IRⁿtel que

kAbx−bk2≤ kAx−bk2 ∀x∈IRⁿ, est équivalent à : trouverxb∈IRⁿ tel que :

A^TAxb=A^Tb.

Démonstration-

On noterabbla projection orthogonale debsur ImA, on a donc par définition bb∈ImA, b−bb∈(ImA)^⊥.

(15)

Sommaire Concepts

Problèmes de projection – On utilise la proposition précédente avecE= IR^m, S=Im(A), y=b.

kAxb−bk2≤ kAx−bk2 ∀x∈IRⁿ ⇔ kAxb−bk2≤ kz−bk2 ∀z∈ImA⇔Axb=bb.

– Montrons que

Abx=bb⇔A^TAbx=A^Tbb.

l’implication de gauche à droite est évidente. montrons la réciproque : A^TAxb=A^Tbb⇔A^T(Axb−bb) = 0⇔Axb−bb∈KerA^T = (ImA)^⊥ orbb∈ImA, doncAbx−bb∈ImA, donc

Abx−bb∈ImA∩(ImA)^⊥⇒Axb−bb= 0⇒Axb=bb.

Ce qui termine de montrer l’équivalence.

– Montrons maintenant que

A^TAbx=A^Tbb⇔A^TAxb=A^Tb.

Par définition debb, on ab−bb∈(ImA)^⊥ =KerA^T, doncA^T(b−bb) = 0doncA^Tb=A^Tbb.

Ce qui termine de démontrer cette dernière équivalence.

On retrouve donc par un raisonnement faisant intervenir les projections que les équations normales sont des conditions nécessaires et suffisantes d’optimalité pour le problème de minimisation.

(16)

Sommaire Concepts

III.2.4 Utilisation de l’orthogonalisation de Schmidt pour résoudre les équations normales

A l’aide de l’orthogonalisation de Schmidt, on calcule une base orthogonale{E₁, E₂, . . . , E_n} de Im(A), on obtient (démontré en exercice)

A=ET, oùE= [E1E2. . . En],

E ∈ Mmn est une matrice rectangulaire etT ∈ Mnn est une matrice triangulaire supérieure inversible. Puisque les colonnes deEsont des vecteurs orthonormés, on aE^TE =I, montrer ce résultat en exercice.

On obtientA^TA=T^TE^TET =T^TT,A^Tb=T^TE^Tb.

En reprenant les équations normales, on a donc :

A^TAˆx=A^Tb⇔T^TTxˆ=T^TE^Tb⇔Txˆ=E^Tb.

En effet la matriceT donc la matrice T^T est inversible, on peut donc simplifier la deuxième équation, il n’était évidemment pas possible de simplifier la première équation parA^T puisque la matriceA^T n’est pas carrée donc pas inversible.

Il s’avère que le systèmeTxˆ=E^Tbest mieux conditionné que celui donné par les équations normales. Cependant l’orthogonalisation de Schmidt est très sujette à l’accumulation des erreurs d’arrondi. C’est pourquoi on lui préfère une factorisation deAdu même type, basée cette fois sur la transformation deHouseholder, qui fait l’objet du paragraphe suivant.

(17)

Sommaire Concepts

III.3 Résolution des problèmes de moindres carrés par

"QR".

III.3.1 La transformation deHouseholder . . . 18 III.3.2 La factorisation "QR". . . 20 III.3.3 Application à la résolution du problème de moindres carrés . . . 22

(18)

Sommaire Concepts

III.3.1 La transformation de Householder

Dans l’espace euclidien IRⁿ, les transformations orthogonales (c’est à dire les applications linéaires représentées par des matrices orthogonales) conservent la norme euclidiennek.k2. En effet siH est orthogonale on aH^T =H⁻¹et donc

kHxk²2= (Hx)^THx=x^TH^THx=x^Tx=kxk²2.

Le but de ce paragraphe est d’introduire une transformation orthogonale particulière : la transformation deHouseholder, qui est une symétrie plane.

Définition III.3.1. On appelletransformation de Householder, une transformation dont la matrice est de la forme

H =I−2yy^T, oùy∈IRⁿetkyk2= 1.

Il est clair queH est symétrique et on vérifie sans difficulté queH est orthogonale : HH^T =HH = (I−2yy^T)(I−2yy^T) =I−2yy^T −2yy^T + 4yy^T =I.

Remarque III.3.2. La transformation de Householder conserve donc la norme. Par d’ailleurs on a :

Hy=y−2yy^Ty=−y et sizest orthogonal àyalors

Hz=z−2yy^Tz=z

ce qui montre queH correspond à une symétrie par rapport au “plan” perpendiculaire ày.

Théorème III.3.3. Soit x ∈ IRⁿ, avec kxk2 = 1et x 6= e = ( 1 0 . . . 0 )^T. Alors il existe une transformation de HouseholderH telle queHx=e.

(19)

Sommaire Concepts

La transfor- mation de Householder Démonstration- Posonsy=α(x−e)avecα= (kx−ek2)⁻¹, alors la matrice

H =I−2yy^T répond à la question. En effet

Hx= [I−2α²(x−e)(x−e)^T]x=x−2α² (x−e)^Tx

(x−e).

En effet(x−e)^Txest un scalaire, on peut donc commuter.

On a de plusα⁻²=kx−ek²2= (x−e)^T(x−e) =kxk²2−2e^Tx+ 1 = 2(1−e^Tx) et(x−e)^Tx= 1−e^Tx, d’où2α² (x−e)^Tx

= 1.

Ce qui donne :Hx=x−(x−e) =e.

(20)

Sommaire Concepts

III.3.2 La factorisation "QR"

Définition III.3.1. SoitQune matrice carrée, on dit queQest orthogonale si : Q^T =Q⁻¹⇔Q^TQ=I.

Théorème III.3.4. SoitA ∈ Mmn(IR) avecm ≥ n, alors il existe une matrice orthogonale Q∈ Mmm(IR)et une matrice triangulaire supérieureRe∈ Mnn(IR)telles que

A=Q Re

0

. (III.3.1)

Démonstration

On noteR=

Re 0

.

On peut remarquer que la formule (III.3.1) correspond à une orthogonalisation des colonnes deA. En effet, laj^èmecolonne deA, soitA_j, est donnée par

Aj=QRj=

j

X

i=1

rijQi,

(21)

Sommaire Concepts

La factorisation

"QR"

ceci compte tenu de la structure de R. Ceci signifie que ∀ k = 1...n, les colonnes [Qj]j=1...k

(qui constituent une famille orthonormée) et [Aj]j=1...k engendrent le même sous-espace. La factorisationQRest donc une façon d’orthogonaliser une famille de vecteurs, au même titre que l’orthogonalisation de Schmidt. En fait on utilise toujours la factorisationQRcar elle est moins sujette aux erreurs d’arrondi que l’orthogonalisation de Schmidt.

(22)

Sommaire Concepts

III.3.3 Application à la résolution du problème de moindres carrés

On part donc de la factorisationQRprécédente, ce qui permet d’écrireAsous la forme A=Q

Re

0

,

oùRe∈ Mnn(IR)est triangulaire supérieure. Notons que pour tout vecteurydeIR^mon a kQ^Tyk²2=kyk²2,

puisqueQ^T, commeQ, est orthogonale. On a donc, en particulier : kAx−bk²2=kQ^T(Ax−b)k²2=kQ^TAx−Q^Tbk²2. Définissonsc∈IRⁿetd∈IR^m⁻ⁿpar

Q^Tb= c

d

. Alors

Q^TAx−Q^Tb=

Re 0

x−Q^Tb=

Rxe −c d

et donc

kAx−bk²2=kRxe −ck²2+kdk²2.

(23)

Sommaire Concepts

Application à la résolution du problème de moindres carrés Le vecteurxbminimisant la norme dekAx−bk2est donné par

Rexb=c, (III.3.2)

puisquekdk²2 est une constante qui ne joue aucun rôle dans la minimisation. Le vecteurxbest unique siReest inversible, ce qui est le cas si rang(A) =n.

Remarquons que la factorisation QR est présente dans tous les logiciels d’analyse numé- rique, comme par exemple MATLAB ou SCILAB.

(24)

Sommaire Concepts

Documents du chapitre III

III.1 Démonstration du théorème III.1.1 . . . 25 III.2 Le gradient d’une forme quadratique . . . 26 III.3 L’orthogonalisation de Schmidt . . . 27 III.4 Démonstration du théorème III.3.4 . . . 29

(25)

Sommaire Concepts

Document III.1 Démonstration du théorème III.1.1

On remarque tout d’abord que siAest de rangn, alorsG=A^TAest définie positive en effet : x^TGx=kAxk²2≥0∀x∈IRⁿ,

d’autre part puisque le rang deAvautn, alors la dimension de KerAest nulle donc x^TGx= 0⇔ kAxk²2= 0⇔Ax= 0⇔x= 0.

La matriceGétant définie positive, elle est inversible, donc il existe une unique solution bx vérifiantA^TAbx=A^Tb⇔Gxb=h.

Montrons maintenant que

∀x∈IRⁿ, x6=bx⇒J(x)> J(bx).

Posonsy=x−bx, on a doncy6= 0.

J(xb+y) = (bx+y)^TG(xb+y)−2h^T(xb+y),

= xb^TGbx+y^TGy+ 2xb^TGy−2h^Ty−2h^Tx,b

= xb^TGbx+y^TGy+ 2(Gbx−h)^Ty−2h^Tx,b

= y^TGy+xb^TGbx−2h^Tx,b puisqueGbx=h. d’où

J(bx+y) =J(bx) +y^TGy.

PuisqueGest une matrice définie positive, et quey6= 0, on ay^TGy >0, et donc J(bx+y)> J(bx), ∀y∈IRⁿ, y6= 0,

ce qui montre quexbréalise le minimum deJ.

Retour au théorème III.1.1N

(26)

Sommaire Concepts

Document III.2 Le gradient d’une forme quadratique

Soit la fonction quadratique

J(x) =x^TGx−2h^Tx,

oùGest une matrice symétrique. On veut calculer son gradient, soit

∇J(x) = ∂J

∂x₁, ∂J

∂x₂, . . . , ∂J

∂x_n

Développons la fonctionJ

J(x) =

n

X

i=1

x_i(Gx)_i−2

n

X

i=1

h_ix_i. Alors

∂J

∂x_k = (Gx)k+

n

X

i=1

xi

∂

∂x_k(Gx)i−2hk, et

∂

∂xk

(Gx)_i= ∂

∂xk





n

X

j=1

g_ijx_j



=g_ik=g_ki. Donc

∂J

∂x_k = (Gx)_k+

n

X

i=1

x_ig_ki−2h_k= (Gx)_k+ (Gx)_k−2h_k = 2(Gx)_k−2h_k, d’où le résultat

∇J(x) = 2(Gx−h).

retour au cours

(27)

Sommaire Concepts

Document III.3 L’orthogonalisation de Schmidt

Théorème III.3.5 (Orthogonalisation deSchmidt). Dans tout espace euclidien de dimension finie il existe des bases orthonormées.

Démonstration- Elle est constructive : on part d’une base quelconque deEsoit{B1, B2, . . . , Bn} et on construit par récurrence une base orhonormée{E1, E2, . . . , En}. Première étape, on pose

E1= B1

kB1k2

, en effetkB1k26= 0car la famille{B1, B2, ..., Bn}est libre.

Deuxième étape, on pose

Ee2=B2− hB2, E1iE1, où on a notéh,ile produit scalaire dansE.

On a bien D

Ee2, E1

E

=hB2− hB2, E1iE1, E1i=hB2, E1i − hB2, E1i hE1, E1i= 0.

kEe2k26= 0car sinonB2serait proportionnel àE1donc àB1ce qui est impossible car la famille {B1, B2, ..., Bn}est libre.

On peut donc définir

E2= Ee2

kEe2k2

.

Etapek: supposons que les vecteurs{E1, E2, . . . , Ek−1}sont construits et orthogonaux deux à deux. On définit alorsEe_kpar

Eek =Bk−

k−1

X

j=1

hBk, EjiEj,

(28)

Sommaire Concepts

Document III.3 L’orthogonalisation

de Schmidt Vérifions que le vecteurEek est orthogonal aux vecteursE1, E2, ..., Ek−1

D Ee_k, E_iE

=

* B_k−

k−1

X

j=1

hB_k, E_jiE_j, E_i +

,

= hBk, Eii −

k−1

X

j=1

hBk, Eji hEj, Eii,

= hBk, Eii − hBk, Eii hEi, Eii,

= hBk, Eii − hBk, Eii= 0.

kEe_kk2 6= 0car sinonB_k serait une combinaison linéaire deE₁, E₂, ..., E_k₋₁, donc une combinaison linéaire deB₁, B₂, ..., B_k₋₁ce qui est impossible car la famille{B₁, B₂, ..., B_n}est libre.

On peut donc définir

E_k= Ee_k kEe_kk2

.

Il faut remarquer que, à chaque étapekde la méthode, l’espace engendré par{E1, E2, . . . , Ek} est le même que celui engendré par{B1, B2, . . . , Bk}.

retour au cours

(29)

Sommaire Concepts

Document III.4 Démonstration du théorème III.3.4

Il est important de donner ici la démonstration complète de ce théorème, car elle estconstruc- tive. C’est à dire qu’elle donne l’algorithme pour obtenir la factorisation. On va chercher à obtenir la matriceRcomme le résultat dentransformations orthogonales successivesU^(k), soit

Re

0

=A⁽ⁿ⁺¹⁾=U⁽ⁿ⁾U⁽ⁿ⁻¹⁾. . . U⁽¹⁾A

les matricesU^(k)étant construites à l’aide de transformations de Householder.

Si la première colonne deAs’écrit(α10...0)^T, il n’y a rien à faire et on pose doncU⁽¹⁾ =I. Si- non on sait qu’il existe une transformation de HouseholderH⁽¹⁾qui transformeA1en(α10...0)^T, avecα₁=kA₁k2. En posantU⁽¹⁾=H⁽¹⁾on a donc :

A⁽²⁾=U⁽¹⁾A=







α₁ × . . . × 0 × . . . × ... ... ... 0 × . . . ×





 .

Soit v⁽²⁾ ∈ IR^m⁻¹ le vecteur dont les éléments sont [a⁽²⁾_i2]_i=2...m; il s’agit de la partie de la deuxième colonne deA⁽²⁾ qui commence à l’élément diagonal. On sait qu’il existe une transformation de HouseholderH⁽²⁾ qui transformev⁽²⁾ en(α₂ 0 . . .0)^T ∈ IR^m⁻¹, avecα₂ =kv⁽²⁾k2. On définit alorsU⁽²⁾ comme

U⁽²⁾ =

1 0 0 H⁽²⁾

(30)

Sommaire Concepts

Document III.4 Démonstration du théorème III.3.4 et on obtient

A⁽³⁾=U⁽²⁾A⁽²⁾=







α1 × × . . . × 0 α2 × . . . × 0 0 × . . . × ... ... ... ... 0 0 × . . . ×





 .

On peut remarquer que, par définition deU⁽²⁾, la première colonne deA⁽²⁾n’a pas été modifiée.

On peut aisément généraliser ce procédé : supposons que l’on a obtenuA^(k)dont lesk−1pre- mières colonnes forment une matrice trapézoïdale supérieure (les éléments en dessous de la dia- gonale sont nuls). Si on notev^(k)∈IR^m⁻^k+1 le vecteur dont les éléments sont[a^(k)_ik]i=k...m, alors il existe aussi une transformation de HouseholderH^(k) qui transforme v^(k) en[αk 0 . . .0]^T ∈ IR^m⁻^k+1, avecαk =kv^(k)k2. On définit alorsU^(k)comme

U^(k)=

Ik−1 0 0 H^(k)

,

et on obtientA^(k+1)=U^(k)A^(k). On continue ce procédé jusqu’à obtenir une matriceA⁽ⁿ⁺¹⁾ A⁽ⁿ⁺¹⁾=U⁽ⁿ⁾A⁽ⁿ⁾=U⁽ⁿ⁾U⁽ⁿ⁻¹⁾. . . U⁽¹⁾A,

qui, par construction, a la structure désirée. On a donc bien

Re 0

=U A,

avecU = U⁽ⁿ⁾U⁽ⁿ⁻¹⁾. . . U⁽¹⁾. On obtient la factorisationQR en remarquant que le produit de matrices orthogonales reste une matrice orthogonale et en posantQ=U^T.

Retour au théorème III.3.4N

(31)

Sommaire Concepts

Jsection précédente chapitreN

Exercices du chapitre III

III.1 . . . 32 III.2 . . . 33 III.3 . . . 34 III.4 . . . 35 III.5 . . . 36 III.6 . . . 37 III.7 . . . 38 III.8 . . . 39 III.9 . . . 40 III.10 . . . 41

(32)

Sommaire Concepts

Exercice III.1

1. Ecrire le problème de la régression linéaire comme un problème de moindres carrés : plus précisément on se donne une famille de points (ti, bi)1≤i≤m (les ti étant distincts) et on cherche à faire passer une droite le plus près possible de ces points.

2. La question précédente conduit à une fonction de deux variables à minimiser. On admet que ce minimum est donné en annulant les deux dérivées partielles. Donner le système linéaire de deux équations à deux inconnues ainsi obtenu.

retour au cours Solution

(33)

Sommaire Concepts

Exercice III.2

On cherche à approcher les données(ti, bi)1≤i≤m(lestiétant distincts) à l’aide d’un polynôme de degré inférieur ou égal àn−1, on supposem≥n, on note

p(t) =α₁+α₂t+. . .+α_ntⁿ⁻¹, et on cherche les coefficientsα₁, α₂, ..., α_nqui minimisent

E(α1, α2, ..., αn) =

m

X

i=1

(p(ti)−bi)².

Ecrire le problème de moindres carrés sous forme matricielle. Montrer alors que la matrice Aest bien de rang n. (On rappelle que la matrice carrée de Van der Monde V, vij = t^j_i⁻¹, est inversible si tous lestisont distincts).

(34)

Sommaire Concepts

Exercice III.3

Donner les équations normales du problème de moindres carrés associé à la régression li- néaire. Montrer que l’on retrouve les équations de l’exerciceIII.1.

(35)

Sommaire Concepts

Exercice III.4

Soitb∈IRⁿ, montrer que

b^Tz= 0,∀z∈IRⁿ ⇔ b= 0.

(36)

Sommaire Concepts

Exercice III.5

Ecrire l’algorithme de l’orthogononalisation de Schmidt, donnée dans le documentIII.3. retour au cours

Solution

(37)

Sommaire Concepts

Exercice III.6

SoitE∈ Mmn, une matrice dont les colonnes sont des vecteurs orthonormés deIRⁿ, montrer queE^TE=I

(38)

Sommaire Concepts

Exercice III.7

On applique l’orthogonalisation de Schmidt (voir le document III.3 ), sur les n colonnes A1, A2, ..., An d’une matriceA ∈ Mm,nde rangn(m ≥n), on obtient les vecteursE1, E2, ..., En

qui seront les colonnes d’une matriceE.

1. Montrer que les colonnesAkdeApeuvent s’écrire

Ak=

k

X

j=1

αjkEj

sans expliciter les scalairesα_jk.

2. En déduire queA=ET, oùT est une matrice triangulaire supérieure inversible.

(39)

Sommaire Concepts

Exercice III.8

1. Montrer que siQest une matrice orthogonale, alorsQ^T est orthogonale.

2. Montrer que siQest orthogonale, alorskQyk2=kyk2pour tout vecteurydeIRⁿ.

(40)

Sommaire Concepts

Exercice III.9

On veut effectuer une régression linéaire sur les points suivants :(−1,0.5),(0.5,1),(2,2.5).

Appliquer la méthode "QR" pour résoudre ce problème et utiliser SCILAB, en particulier la procédure "qr", pour faire les calculs.

(41)

Sommaire Concepts

Exercice III.10

SoitAune matricem×nde rangn≤m. SoientQune matrice orthogonale etReune matrice carrée triangulaire supérieure telles queA=Q

Re

0

.

Montrer que, siχ2 désigne le conditionnement calculé à partir de la norme matricielle su- bordonnée à la norme2,

χ2(R) =e q

χ2(A^TA).

(42)

Sommaire Concepts

Exemples Exercices Documents Jprécédent

Annexe A

Exercices

A.1 Exercices de TD du chapitre 3. . . 43

(43)

Sommaire Concepts

Exemples Exercices Documents chapitreN

A.1 Exercices de TD du chapitre 3

A.1.1 . . . 44 A.1.2 . . . 46 A.1.3 FactorisationA=QRpar la méthode de Householder . . . 47

(44)

Sommaire Concepts

Exercice A.1.1

1. On cherche à approcher des données expérimentales(ti, yi),i = 1. . . m, par une fonction fa,b,c,ddéfinie par morceaux de la façon suivante :

fa,b,c,d(t) =

a+bt+ct² si t≤0, a+dt si t >0.

On suppose qu’il existep,3≤p < m, tel que

t₁< t₂<· · ·< t_p≤0< t_p+1<· · ·< t_m.

Pour calculer les quatre paramètresa, b, cet don cherche à minimiser par rapport à ces quatre paramètres la fonction erreur suivante :

E(a, b, c, d) =

m

X

i=1

[f_a,b,c,d(t_i)−y_i]².

(a) Montrer que minimiser cette fonction erreur revient à résoudre un problème de moindres carrés

minx kAx−yk²2,

dont on précisera l’inconnuex, la matriceAet le vecteury.

(b) Quel est le rang deA? Ecrire les équations normales, montrer que ces équations ont une solution unique.

(c) Que se passe-t-il sip= 3, m= 4?

2. On cherche à approcher les données par une fonctionfa,b,cdéfinie par :

(45)

Sommaire Concepts

Exercice A.1.1 fa,b,c(t) =

aln(t+ 1) +ct si t >0, b(e^t−1) +ct si t≤0.

On suppose qu’il existep,2≤p < m, tel que

t₁< t₂<· · ·< t_p<0< t_p+1<· · ·< t_m.

Pour calculer les trois paramètresa, betcon cherche à minimiser par rapport à ces trois paramètres la fonction erreur suivante :

E(a, b, c) =

m

X

i=1

[fa,b,c(ti)−yi]².

(a) Montrer que minimiser cette fonction erreur revient à résoudre un problème de moindres carrés

minx kAx−yk²2,

dont on précisera l’inconnuex, la matriceAet le vecteury.

(b) Quel est le rang deA?

Question 2a Aide 1 Aide 2

Question 2b Aide 1 Aide 2 Aide 3

(46)

Sommaire Concepts

Exercice A.1.2

1. On définit τi = i,0 ≤ i ≤ 5, on définit g la fonction telle que la courbe d’équation y = g(t) soit une ligne brisée qui joint les points de coordonnés (τi, zi),0 ≤ i ≤ 5. Donner l’expression deg(t)pourt∈[0,5]à l’aide deszi.

2. On définittk = 0.5k,1≤k≤10, on cherche à approcher le nuage de points(tk, yk),1≤k≤ 10parg(t)au sens des moindres carrés. Mettre ce problème sous la forme : min

z∈IRⁿkAz−yk²2, que vautn? Quelle est la taille de la matriceA? Expliciter ses termes. Quel est le rang de A?

Question 1 Aide 1 Aide 2 Aide 3

Question 2 Aide 1 Aide 2 Aide 3 Aide 4 Aide 5 Aide 6 Aide 7 Aide 8

(47)

Sommaire Concepts

Exercice A.1.3 Factorisation A = QR par la méthode de Householder

SoitA=





1 3

1 −1

1 1



, b=



 1 5

−6



.

1. On veut résoudre min

x∈IR²kAx−bk²2à l’aide de la factorisationQR.

(a) i. Déterminer la matrice de Householder, que l’on noteraH⁽¹⁾, qui transforme A₁ kA1k2

ene1.

ii. CalculerA⁽²⁾ =H⁽¹⁾A.

Réponse ;

H⁽¹⁾=





a a a a b c a c b



, A⁽²⁾=





√3 √ 3

0 √

3−1

0 √

3 + 1



,

aveca= 1

√3, b= 1 2

1− 1

√3

, c=−1 2

1 + 1

√3

.

iii. Comment obtient-on la factorisationQRde la matriceA? Calculer alors les ma- tricesH⁽²⁾etA⁽³⁾=R, en déduireRepuisQ.

Réponse ;

H⁽²⁾= 1 4−√

6 +√ 2

a b b −a

, R=A⁽³⁾ =





√3 √ 3 0 2√

2

0 0



,

(48)

Sommaire Concepts

Exercice A.1.3 Factorisation A=QRpar la méthode de Householder Q=







√1 3

√1 2

√1 1 6

√3 −^√¹₂ ^√¹₆

√1

3 0 −^√²₆





,

aveca=−2 +√ 6−√

2 +√

3, b=−1 +√ 6 +√

2

(b) i. CalculerQ^>b, on noteecle vecteur constitué des deux premières composantes de Q^>b.

ii. Montrer queA^>Aex=A^>b⇔Reex=ec

iii. En déduireexsolution du problème de minimisation.

2. On veut utiliser l’orthogonalisation de Schmidt. En orthogonalisant la famille{A1, A2}à l’aide de l’orthogonalisation de Schmidt, on obtient la matrice :

Aˆ=







√1 3

√1 1 2

√3 −^√¹₂

√1

3 0





.

(a) Montrer queA= ˆAR. Comparere AˆetQ,RetR.e

(b) On a montré, dans l’exercice précédent, que la solutionxˆdu problème de minimisation vérifiaitRˆex = ˆA^>b. Montrer que Aˆ^>b = ec. En déduire que l’on retrouve le système Rexe=ec.

Question 1(a)iAide 1 Question 1(a)iiAide 1 Question 1(a)iiiAide 1

(49)

Sommaire Concepts

Index des concepts

Le gras indique un grain où le concept est dé- fini ; l’italique indique un renvoi à un exercice ou un exemple, le gras italique à un document, et le ro- main à un grain où le concept est mentionné.

E

Equations normales . . . .8 Equations normales - projection orthogonale14 Equations normales - utilisation de l’orthogonalisation de Schmidt . . . .16

F

FactorisationQR. . . .20 FactorisationQR

application aux moindres carrés . . . .22

H

Householder-transformation . . . .18

L

Lissage . . . .4,6

M

Moindres carrés

formulation matricielle . . . .6 intuition géométrique . . . .11

O

Orthogonaux-espaces . . . .12

(50)

Solution de l’exercice III.1

1. Soity=α+βt, l’équation de la droite considérée. Le problème de régression linéaire s’écrit min

(α,β)∈IR²

E(α, β)

où

E(α, β) =

m

X

i=1

(α+βt_i−b_i)².

La solution(α^∗, β^∗)donne les coefficients de la droite solution du problème de régression linéaire et elle vérifie E(α^∗, β^∗) = min

(α,β)∈IR²

E(α, β).

2. Calculons les deux dérivées partielles







∂E

∂α(α, β) =Pm

i=12(α+βti−bi)

∂E

∂β(α, β) =Pm

i=12(α+βt_i−b_i)t_i

La solution(α^∗, β^∗) du problème de régression linéaire est donc donnée par la solution des deux équations li- néaires obtenues en regroupant les termes







α^∗m+β^∗Pm

i=1ti=Pm i=1bi

α^∗Pm

i=1ti+β^∗Pm

i=1t²_i =Pm i=1biti

Retour à l’exerciceN

(51)

Solution de l’exercice III.2 Soit

p(t) =α₁+α₂t+. . .+α_ntⁿ⁻¹,

un polynôme de degrén−1. Pour que ce polynôme approche les données (ti, bi)i=1,...,m le plus près possible, il doit minimiser la quantité suivante

E(α₁, α₂, . . . , α_n) =

m

X

i=1

(p(t_i)−b_i)²=kAx−bk²2.

En effet on peut écrire







p(t₁)−b₁ p(t₂)−b₂

. . . p(t_m)−b_m







=







α₁+α₂t₁+. . .+α_ntⁿ₁⁻¹−b₁ α1+α2t2+. . .+αntⁿ₂⁻¹−b2

. . .

α1+α2tm+. . .+αntⁿ_m⁻¹−bm







=A





 α₁ α₂ . . . α_n





−





 b₁ b₂ . . . b_m







=Ax−b,

où les matricesAetxsont définies par :

A=







1 t1 . . . tⁿ₁⁻¹ 1 t2 . . . tⁿ₂⁻¹ . . . .

1 tm . . . tⁿ_m⁻¹





 , x=





 α1

α2

... α_n





 .

Dans les données, les pointst_isont tous distincts, ce qui implique que la matriceV, constituée desnpremières lignes deAest inversible, d’où la matriceAest de rangn.

(52)

La matriceAdu problème de régression linéaire s’écrit (voir la correction de l’exerciceIII.2) :

A=







1 t₁ 1 t₂ . . . .

1 t_m





 .

Les équations normales sont

A^TAxˆ=A^Tb ce qui donne en effectuant les produits matriciels

m Pm i=1ti

Pm

i=1ti Pm i=1t²_i

ˆ x=

Pm i=1bi

Pm i=1tibi

.

On retrouve bien ainsi le système de deux équations à deux inconnues de l’exerciceIII.1. Retour à l’exerciceN

(53)

Solution de l’exercice III.4 L’implication⇐est évidente puisque l’on multiplie0par le vecteurz.

Supposons maintenant que

b^Tz= 0,∀z∈IRⁿ,

alors cette égalité étant vraie pour toutzl’est en particulier pourz=b, ce qui donne b^Tb=kbk²|2= 0.

Or la norme d’un vecteur est nulle si et seulement si ce vecteur est nul, ce qui donne b= 0.

(54)

Cet algorithme est très simple et suppose connues des fonctions telles que norme, produit scalaire . . . ce qui est le cas de Scilab.

1: E1=B1/kB1k2

2: pourk= 2, . . . , nfaire

3: Ee_k=B_k−Pk−1

j=1hB_k, E_jiE_j

4: E_k=Ee_k/kEe_kk2 5: fin pour

(55)

Solution de l’exercice III.6 On a donc

hE_i, E_ii= 1, hE_i, E_ji= 0pouri6=j, ou ce qui est équivalent

E_i^TEi= 1, E_i^TEj= 0pouri6=j.

Les termes de la matrice (carrée)C=E^TEsont donc

cii=E_i^TEi= 1, cij =E_i^TEj = 0pouri6=j, Cest donc la matrice identité.

(56)

1. Reprenons l’algorithme d’orthogonalisation de Schmidt, alors

E₁=A₁/kA₁k ⇒ A₁=α₁₁E₁, puis

Ee₂=A₂− hA₁, E₁iE₁etE₂=Ee₂/kEe₂k ⇒ A₂=hA₁, E₁iE₁+kEe₂kE₂, ce qui donne

A2=α12E1+α22E2. De manière générale

Eek =Ak−

k−1

X

j=1

hAk, EjiEjetEk=Eek/kEekk ⇒ Ak =

k−1

X

j=1

hAk, EjiEj+kEekkEk,

ce qui donne

Ak =

k

X

j=1

αjkEj.

2. Considérons le produitC=ET de deux matrices,E ∈ Mm,netT ∈ Mn,n, alors

c_ik=

n

X

j=1

e_ijt_jk.

On peut aussi considérercikcomme le ième élément de la kième colonne deC. Alors cette colonne est donnée par Ck=ETk=

n

X

j=1

tjkEj.

(57)

Si l’on compare avec le résultat de la question précédente :

Ak =

k

X

j=1

αjkEj,

on voit quetjk = αjk pourj = 1, . . . , k et quetjk = 0 pourj = k+ 1, . . . , n, ce qui correspond à une matrice triangulaires supérieure

T =







α11 α12 . . . α1n

0 α22 . . . α2n

0 . . . ... . . . 0 . . . α_nn







La matriceT est inversible carαii =kEeik.

(58)

1. On a

Qorthogonale ⇔ Q⁻¹=Q^T ⇔ (Q^T)⁻¹=Q ⇔ Q^T orthogonale.

2. On va démontrer le résultat pour le carré de l’expression, ce qui est équivalent pour des réels positifs. Dans ces équivalences, on utilise le fait queQ^TQ=I.

kQyk²2= (Qy)^TQy=y^TQ^TQy=y^Ty=kyk²2.

(59)

La matriceAet le vecteurbcorrespondants à ce problème sont

A=



 1 −1 1 0.5 1 2



 , b=



 0.5

1 2.5



.

Les étapes du calcul sont alors les suivantes :

– calcul de la décomposition QR par "qr" ce qui donneA=QR, oùR=

Re 0

, – calcul deQ^Tb=

c d

,

– résolution deRxe =c, ce qui donnex=

1 0.666667

– calcul de l’erreurkdk²2= 0.1666667.