9. Projections et moindres carr´
es
Sections 4.2 et 4.3
MTH1007
J. Gu´erin, N. Lahrichi, S. Le Digabel Polytechnique Montr´eal
A2019
(v2)
Plan
1. Projections
1. Projections
2. Approximations par moindres carr´es
Projection sur une droite (1/2)
Soit L le sous-espace vectoriel de Rm correspondant `a la droite engendr´ee par le vecteur non nul a ∈ Rm
I Laprojection orthogonale du vecteur b ∈ Rm sur L est le vecteur p ∈ L le plus proche de b
I La projection de b sur L est p = ˆxa = aˆx o`u x =ˆ aa>>ba I On peut le voir aussi comme p = (u>b)u avec
I u = kaka lanormalisationde a
I a = kaku et kuk = u>u = 1 (u estunitaire)
I La droite allant de p `a b est orthogonale `a a : a ⊥ e avec e = b − p (e est appel´e l’erreur)
Projection sur une droite (2/2)
I Matriciellement, le r´esultat pr´ec´edent se reformule comme suit :
La projection de b ∈ Rm sur L est p = P b, o`u P ∈ Rm×m est lamatrice de projectionsym´etrique suivante :
P = aa > a>a = uu > avec u = a kak car p = aa>>baa = aa >b a>a = aa > a>ab = P b I Exemple : Avec a = (3, 2) et b = (5, 5), on a P = 131 9 6 6 4
Remarques
I P sym´etrique, r(P ) = 1, C(P ) = C([a]) = L
I Si b est orthogonal `a a, alors a>b = 0. La projection est p = 0
I Si b = a, alors ˆx = 1. La projection de a sur lui-mˆeme donne a : P a = a (mais P 6= I)
I Si b ∈ L, alors p = b et e = 0
I Projeter une deuxi`eme fois ne change rien :
P2= P P = (uu>)(uu>) = u(u>u)u> = uu>= P
I Lorsque P projette sur un sous-espace (C(P )), I − P projette sur le sous-espace orthogonal (N (P ))
I Exemple : Illustrer avec a = (3, 2), b = (5, 5), et P = 131 9 6 6 4
Projection dans un sous-espace
Soit a1, a2, . . . , an∈ Rm n vecteurs lin´eairement ind´ependants
avec n < m et W le sous-espace de Rm de dimension n engendr´e par ces vecteurs.
I Laprojection orthogonale du vecteur b ∈ Rm sur W est le vecteur p ∈ W le plus proche de b
I La projection de b sur W est p = Aˆx ∈ Rm o`u A =
a1 a2 · · · an ∈ Rm×n
et
ˆ
x =A>A−1A>b ∈ Rn
I p = P b o`u P est la matrice de projection
P = AA>A
−1
A>∈ Rm×m
Remarques (1/2)
I W = C(A). La projection sur W peut ˆetre vue comme la multiplication des vecteurs de Rn par A : Ax ∈ W pour tout x ∈ Rn
I C(A>) = Rn et N (A) = {0}
I Le SEL Ax = b n’a pas toujours de solution (m > n)
I La matrice A>A est sym´etrique et de taille n × n. Elle est inversible
carr(A) = r(A>A)(preuve en exercice) et r(A) = n
I Intuition pour la formule de ˆx : la droite allant de p `a b est orthogonale au sous-espace W = C(A) :
A>(b − p) = 0 = A>(b − Aˆx) ⇒ A>Aˆx = A>b ⇒ ˆx = (A>A)−1A>b
I Pour trouver la projection p, il faut r´esoudre le syst`eme
Remarques (2/2)
I On a toujours P2 = P et P>= P
I r(P ) = n < m (P est singuli`ere) et W = C(A) = C(P )
I e = b − Aˆx est orthogonal `a W = C(A). Il est donc dans le noyau `a gauche de A : A>(b − Aˆx) = 0
I D´ecomposition de Rm : b = p |{z} ∈C(A) + e |{z} ∈C(A)⊥=N (A>) ∈ Rm
I Si n = 1, on retrouve les formules de la projection sur une droite dans Rm : A ∈ Rm×n → a ∈ Rm p = P b = Aˆx ∈ Rm → p = P b = ˆxa ∈ Rm ˆ x = A>A−1A>b ∈ Rn → x =ˆ aa>>ba ∈ R P = A A>A−1 A>∈ Rm×m → P = aaa>>a ∈ R m×m
1. Projections
Introduction
I A ∈ Rm×n avec m > n et r(A) = n
I Le SEL Ax = b est de plein rang colonne et ne poss`ede pas toujours de solution
I Au lieu on r´esout le syst`eme A>Aˆx = A>b qui poss`ede toujours une solution (ce sont les ´equations normales)
I p = Aˆx est la projection de b dans C(A) : C’est donc le point de C(A) le plus proche de b
I x minimise l’erreurˆ
kek2 = kb − pk2 = kb − P bk2 = kb − Aˆxk2
I On peut donc voir ˆx comme la meilleure “solution” possible `a Ax = b
I x est appel´ˆ ee la solution de Ax = b au sens desmoindres carr´es
Application : Droite d’ajustement (1/3)
I Etant donn´´ es m > 2 points de donn´ees
(t1, b1), (t2, b2), . . . , (tm, bm) de R2, on essaie de trouver
l’´equation d’une droite qui passe par les m points
I Cette ´equation est y = c + dt avec c, d ∈ R
I c et d devraient ˆetre les solutions du syst`eme Ax = b avec
A = 1 t1 1 t2 .. . ... 1 tm , x = c d , b = b1 b2 .. . bm
Droite d’ajustement (2/3)
I Or le syst`eme Ax = b n’a a priori pas de solution car il est peu probable que les m points soient align´es.
I Au lieu, on r´esout
A>A ˆx = A>b
I La solution ˆx = (c, d) donnera la droite d’ajustementou de
r´egression qui minimise la somme des erreurs verticales avec les points de donn´ees : ˆx est tel que E(x) = kAx − bk2 est le plus petit possible :
kek2 = E(ˆx) = min
x∈R2E(x)
Droite d’ajustement (3/3)
Explicitement, le syst`eme d’´equations 2 × 2 qui d´efinit la droite d’ajustement est m m X i=1 ti m X i=1 ti m X i=1 t2i | {z } A>A c d = m X i=1 bi m X i=1 tibi | {z } A>b
Point de vue g´
eom´
etrique
I On cherche le vecteur de C(A) qui est le plus proche de b
I Il s’agit du vecteur p qui minimise (le carr´e de) la distance kek2 = kp − bk2
I Cette distance repr´esente la somme des carr´es des erreurs verticales entre les points et la droite.
Point de vue alg´
ebrique
I Chaque vecteur b ∈ Rm se d´ecompose en b = p + e o`u
p ∈ C(A) et e ∈ C(A)⊥= N (A>)
I Le syst`eme A x = p + e n’a pas de solution mais A ˆx = p poss`ede une solution.
I Ax ∈ Rm et p ∈ Rm sont dans C(A), donc Ax − p ∈ C(A). Ainsi (Ax − p) ⊥ e
I Cette solution minimise l’erreur
E(x) = kA x − bk2 = kA x − pk2+ kek2
et
Point de vue de l’optimisation
I On minimise la fonction d’erreur
E(x) = kA x − bk2
I Pour cela, on r´esout ∇E(x) = 0 (donne ˆx) et on montre que ∇2E(ˆx) est d´efinie-positive.
I Ce qui revient `a
A>A ˆx = A>b
Solution analytique
I Il n’est pas n´ecessaire de r´esoudre explicitement
A>A ˆx = A>b, car on peut trouver une solution analytique.
I Par exemple, par l’optimisation, on obtient d = Pm i=1tibi− m ˆt ˆb Pm i=1t2i − mˆt2 c = b − dˆˆ t avec ˆb = m1 m P i=1 bi et ˆt = m1 m P i=1
G´
en´
eralisation
Le mˆeme principe s’applique `a l’ajustement d’une courbe de forme connue `a un ensemble de points donn´es.
Par exemple : Ajuster une parabole sur les points (0, 6), (1, 0), (2, 0) et (1/2, 1)