#9 Projections et moindres carrés

(1)

9. Projections et moindres carr´

es

Sections 4.2 et 4.3

MTH1007

J. Gu´erin, N. Lahrichi, S. Le Digabel Polytechnique Montr´eal

A2019

(v2)

(2)

Plan

1. Projections

(3)

1. Projections

2. Approximations par moindres carr´es

(4)

Projection sur une droite (1/2)

Soit L le sous-espace vectoriel de Rm correspondant `a la droite engendr´ee par le vecteur non nul a ∈ Rm

I Laprojection orthogonale du vecteur b ∈ Rm sur L est le vecteur p ∈ L le plus proche de b

I La projection de b sur L est p = ˆxa = aˆx o`u x =ˆ a_a>>b_a I On peut le voir aussi comme p = (u>b)u avec

I u = _kaka lanormalisationde a

I a = kaku et kuk = u>u = 1 (u estunitaire)

I La droite allant de p à b est orthogonale à a : a ⊥ e avec e = b − p (e est appelé l’erreur)

(5)

Projection sur une droite (2/2)

I Matriciellement, le résultat précédent se reformule comme suit :

La projection de b ∈ Rm sur L est p = P b, o`u P ∈ Rm×m est lamatrice de projectionsym´etrique suivante :

P = aa > a>_a = uu > avec u = a kak car p = a_a>>b_aa = aa >_b a>_a = aa > a>_ab = P b I Exemple : Avec a = (3, 2) et b = (5, 5), on a P = ₁₃1 9 6 6 4

(6)

Remarques

I P sym´etrique, r(P ) = 1, C(P ) = C([a]) = L

I Si b est orthogonal `a a, alors a>b = 0. La projection est p = 0

I Si b = a, alors ˆx = 1. La projection de a sur lui-mˆeme donne a : P a = a (mais P 6= I)

I Si b ∈ L, alors p = b et e = 0

I Projeter une deuxi`eme fois ne change rien :

P2= P P = (uu>)(uu>) = u(u>u)u> = uu>= P

I Lorsque P projette sur un sous-espace (C(P )), I − P projette sur le sous-espace orthogonal (N (P ))

I Exemple : Illustrer avec a = (3, 2), b = (5, 5), et P = ₁₃1 9 6 6 4

(7)

Projection dans un sous-espace

Soit a1, a2, . . . , an∈ Rm n vecteurs lin´eairement ind´ependants

avec n < m et W le sous-espace de Rm de dimension n engendr´e par ces vecteurs.

I Laprojection orthogonale du vecteur b ∈ Rm sur W est le vecteur p ∈ W le plus proche de b

I La projection de b sur W est p = Aˆx ∈ Rm o`u A =

a1 a2 · · · an ∈ Rm×n

et

ˆ

x =A>A−1A>b ∈ Rn

I p = P b o`u P est la matrice de projection

P = AA>A

−1

A>∈ Rm×m

(8)

Remarques (1/2)

I W = C(A). La projection sur W peut ˆetre vue comme la multiplication des vecteurs de Rn par A : Ax ∈ W pour tout x ∈ Rn

I C(A>_{) = R}n et N (A) = {0}

I Le SEL Ax = b n’a pas toujours de solution (m > n)

I La matrice A>A est sym´etrique et de taille n × n. Elle est inversible

carr(A) = r(A>A)(preuve en exercice) et r(A) = n

I Intuition pour la formule de ˆx : la droite allant de p `a b est orthogonale au sous-espace W = C(A) :

A>(b − p) = 0 = A>(b − Aˆx) ⇒ A>Aˆx = A>b ⇒ ˆx = (A>A)−1A>b

I Pour trouver la projection p, il faut r´esoudre le syst`eme

(9)

Remarques (2/2)

I On a toujours P2 = P et P>= P

I r(P ) = n < m (P est singuli`ere) et W = C(A) = C(P )

I e = b − Aˆx est orthogonal `a W = C(A). Il est donc dans le noyau `a gauche de A : A>(b − Aˆx) = 0

I D´ecomposition de Rm : b = p |{z} ∈C(A) + e |{z} ∈C(A)⊥_{=N (A}>₎ ∈ Rm

I Si n = 1, on retrouve les formules de la projection sur une droite dans Rm : A ∈ Rm×n → a ∈ Rm p = P b = Aˆx ∈ Rm → p = P b = ˆxa ∈ Rm ˆ x = A>A−1A>b ∈ Rn → x =ˆ a_a>>b_a ∈ R P = A A>A−1 A>∈ Rm×m _→ P = aa_a>>_a ∈ R m×m

(10)

1. Projections

(11)

Introduction

I A ∈ Rm×n avec m > n et r(A) = n

I Le SEL Ax = b est de plein rang colonne et ne poss`ede pas toujours de solution

I Au lieu on résout le système A>Aˆx = A>b qui possède toujours une solution (ce sont les équations normales)

I p = Aˆx est la projection de b dans C(A) : C’est donc le point de C(A) le plus proche de b

I x minimise l’erreurˆ

kek2 = kb − pk2 = kb − P bk2 = kb − Aˆxk2

I On peut donc voir ˆx comme la meilleure “solution” possible `a Ax = b

I x est appel´ˆ ee la solution de Ax = b au sens desmoindres carr´es

(12)

Application : Droite d’ajustement (1/3)

I _{Etant donn´}´ _{es m > 2} _{points de donn´}_ees

(t1, b1), (t2, b2), . . . , (tm, bm) de R2, on essaie de trouver

l’´equation d’une droite qui passe par les m points

I Cette ´equation est y = c + dt avec c, d ∈ R

I c et d devraient ˆetre les solutions du syst`eme Ax = b avec

A =      1 t1 1 t2 .. . ... 1 tm      , x = c d , b =      b1 b2 .. . bm     

(13)

Droite d’ajustement (2/3)

I Or le syst`eme Ax = b n’a a priori pas de solution car il est peu probable que les m points soient align´es.

I Au lieu, on r´esout

A>A ˆx = A>b

I La solution ˆx = (c, d) donnera la droite d’ajustementou de

r´egression qui minimise la somme des erreurs verticales avec les points de donn´ees : ˆx est tel que E(x) = kAx − bk2 est le plus petit possible :

kek2 = E(ˆx) = min

x∈R2E(x)

(14)

Droite d’ajustement (3/3)

Explicitement, le système d’équations 2 × 2 qui définit la droite d’ajustement est       m m X i=1 ti m X i=1 ti m X i=1 t2_i       | {z } A>_A   c d  =       m X i=1 bi m X i=1 tibi       | {z } A>_b

(15)

Point de vue g´

eom´

etrique

I On cherche le vecteur de C(A) qui est le plus proche de b

I Il s’agit du vecteur p qui minimise (le carr´e de) la distance kek2 = kp − bk2

I Cette distance repr´esente la somme des carr´es des erreurs verticales entre les points et la droite.

(16)

Point de vue alg´

ebrique

I Chaque vecteur b ∈ Rm _{se d´}_{ecompose en b = p + e o`}_u

p ∈ C(A) et e ∈ C(A)⊥= N (A>)

I Le syst`eme A x = p + e n’a pas de solution mais A ˆx = p poss`ede une solution.

I Ax ∈ Rm et p ∈ Rm sont dans C(A), donc Ax − p ∈ C(A). Ainsi (Ax − p) ⊥ e

I Cette solution minimise l’erreur

E(x) = kA x − bk2 = kA x − pk2+ kek2

et

(17)

Point de vue de l’optimisation

I On minimise la fonction d’erreur

E(x) = kA x − bk2

I Pour cela, on r´esout ∇E(x) = 0 (donne ˆx) et on montre que ∇2_E(ˆ_{x) est d´}_{efinie-positive.}

I Ce qui revient `a

A>A ˆx = A>b

(18)

Solution analytique

I Il n’est pas n´ecessaire de r´esoudre explicitement

A>A ˆx = A>b, car on peut trouver une solution analytique.

I Par exemple, par l’optimisation, on obtient          d = Pm i=1tibi− m ˆt ˆb Pm i=1t2i − mˆt2 c = b − dˆˆ t avec ˆb = _m1 m P i=1 bi et ˆt = _m1 m P i=1

(19)

G´

en´

eralisation

Le même principe s’applique à l’ajustement d’une courbe de forme connue à un ensemble de points donnés.

Par exemple : Ajuster une parabole sur les points (0, 6), (1, 0), (2, 0) et (1/2, 1)