Rappels et compléments d’algèbre linéaire
Résumé
Cette vignette rassemble des notations et rappels d’algèbre linéaire de niveau L. Il introduit les principaux théorèmes d’approximation matricielle par décomposition en valeurs singulières qui sont à la base des méthodes statistique factorielles.
Retour auplan du cours.
1 Notations
Dans tout ce qui suit,EetF sont deux espaces vectoriels réels munis res- pectivement des bases canoniquesE ={ej; j = 1, . . . , p}etF ={fi; i= 1, . . . , n}. On note indifféremment soit un vecteur deEou deF, un endomor- phisme deE, ou une application linéaire deE dansF, soit leurs représenta- tions matricielles dans les bases définies ci-dessus.
2 Matrices
2.1 Notations
La matrice d’ordre(n×p)associée à une application linéaire deEdansF est décrite par un tableau :
A=
a11 . . . aj1 . . . ap1 ... ... ... a1i . . . aji . . . api
... ... ... a1n . . . ajn . . . apn
.
On note par la suite :
aji = [A]ji le terme général de la matrice,
ai = [a1i, . . . , api]0un vecteur-ligne mis en colonne, aj = [aj1, . . . , ajn]0un vecteur-colonne.
2.1.1 Types de matrices Une matrice est dite :
• vecteur-ligne (colonne)sin= 1 (p= 1),
• vecteur-unitéd’ordrepsi elle vaut1p= [1, . . . ,1]0,
• scalairesin= 1etp= 1,
• carréesin=p.
Une matrice carrée est dite :
• identité(Ip)siaji =δij=
0 sii6=j 1 sii=j ,
• diagonalesiaji = 0lorsquei6=j,
• symétriquesiaji =aij,∀(i, j),
• triangulairesupérieure (inférieure) siaji = 0lorsquei > j(i < j).
2.1.2 Matrice partitionnée en blocs
Matrices dont les éléments sont eux-mêmes des matrices. Exemple : A(n×p) =
A11(r×s) A21(r×(p−s)) A12((n−r)×s) A22((n−r)×(p−s))
.
2.2 Opérations sur les matrices
Somme : [A+B]ji =aji +bji pourAetBde même ordre(n×p).
Multiplication par un scalaire : [αA]ji =αaji pourα∈R.
Transposition : [A0]ji =aij,A0est d’ordre(p×n).
(A0)0 =A; (A+B)0=A0+B0; (AB)0 =B0A0;
A11 A21 A12 A22
0
=
A110 A120 A210 A220
.
Produit scalaire élémentaire : a0b=Pn
i=1aibioùaetbsont des vecteurs- colonnes.
Produit : [AB]ji =a0ibj avecA(n×p),B(p×q)etAB(n×q), et pour des ma- trices par blocs :
A11 A21 A12 A22
B11 B21 B12 B22
=
A11B11+A21B12 A11B21+A21B22 A12B11+A22B12 A12B21+A22B22
sous réserve de compatibilité des dimensions.
2.3 Propriétés des matrices carrées
Latraceet ledéterminantsont des notions intrinsèques, qui ne dépendent pas des bases de représentation choisies, mais uniquement de l’application li- néaire sous-jacente.
2.3.1 Trace
Par définition, siAest une matrice(p×p),
trA=
p
X
j=1
ajj,
et il est facile de montrer : trα = α, trαA = αtrA, tr(A+B) = trA+trB,
trAB = trBA,
reste vrai siAest(n×p)et siBest(p×n) trCC0 = trC0C=
n
X
i=1 p
X
j=1
(cji)2 dans ce cas,Cest(n×p).
2.3.2 Déterminant
On note|A|ledéterminantde la matrice carréeA(p×p). Il vérifie :
|A| =
p
Y
j=1
ajj, siAest triangulaire ou diagonale,
|αA| = αp|A|,
|AB| = |A||B|,
A B 0 C
= |A||C|,
A11 A21 A12 A22
= |A11||A22−A12(A11)−1A21| (1)
= |A22||A11−A21(A22)−1A12|, (2) sous réserve de la régularité deA11etA22. Cette dernière propriété se montre en considérant les matrices :
B=
I −A21(A22)−1
0 I
etBAB0, puis en comparant les déterminants|BAB0|et|A|.
2.3.3 Inverse
L’inverse de A, lorsqu’elle existe, est la matrice unique notée A−1 telle que :
AA−1=A−1A=I;
elle existe si et seulement si|A| 6= 0. Quelques propriétés :
(A−1)0= (A0)−1, (AB)−1=B−1A−1, |A−1|= 1
|A|.
2.3.4 Définitions
Une matrice carréeAest dite : symétriquesiA0=A,
singulièresi|A|= 0, régulièresi|A| 6= 0, idempotentesiAA=A,
définie-positivesi,∀x∈Rp,x0Ax≥0, et six0Ax= 0⇒x= 0, positive, ou semi-définie-positive, si,∀x∈Rp,x0Ax≥0, orthogonalesiAA0 =A0A=I(A0=A−1).
3 Espaces euclidiens
Eest un espace vectoriel réel de dimensionpisomorphe àRp.
3.1 Sous-espaces
• Un sous-ensembleEqdeEest unsous-espace vectoriel(s.e.v.) deEs’il est non vide et stable :
∀(x,y)∈E2q,∀α∈R, α(x+y)∈Eq.
• Leq-uple{x1, . . . ,xq}deEconstitue un systèmelinéairement indépen- dantsi et seulement si :
q
X
i=1
αixi= 0⇒α1=· · ·=αq = 0.
• Un système linéairement indépendantEq = {e1, . . . ,eq} qui engendre dans E un s.e.v. Eq = vec{e1, . . . ,eq} en constitue une base et dim(Eq) =card(Eq) =q.
3.2 Rang d’une matrice
Dans ce sous-paragraphe,Aest la matrice d’une application linéaire deE= RpdansF =Rn.
Im(A) = vect{a1, . . . ,ap}est le s.e.v. deF imagedeA; Ker(A) = {x∈E; Ax= 0}est le s.e.v. deEnoyaudeA;
E = Im(A)⊕Ker(A)siAest carrée associée à un endomorphisme deE etp = dim(Im(A)) +dim(Ker(A)).
rang(A) = dim(Im(A)),
0≤ rang(A) ≤min(n, p), rang(A) = rang(A0),
rang(A+B) ≤ rang(A) +rang(B), rang(AB) ≤ min(rang(A),rang(B)),
rang(BAC) = rang(A), siBetCsont régulières, rang(A) = rang(AA0) =rang(A0A).
Enfin, siB(p×q)est de rangq(q < p)etAest carrée(p×p)de rangp, alors la matriceB0ABest de rangq.
3.3 Métrique euclidienne
SoitMune matrice carrée(p×p), symétrique, définie-positive ;Mdéfinit sur l’espaceE:
• unproduit scalaire:hx,yiM=x0My,
• unenorme :kxkM=hx,xi1/2M,
• unedistance: dM(x,y) =kx−ykM,
• desangles:cosθM(x,y) = kxkhx,yiM
MkykM. La matriceMétant donnée, on dit que :
• une matriceAestM-symétriquesi(MA)0=MA,
• deux vecteursxetysontM-orthogonauxsihx,yiM= 0,
• un vecteurxestM-normésikxkM= 1,
• une baseEq ={e1, . . . ,eq}estM-orthonorméesi
∀(i, j),hei,ejiM=δij.
3.4 Projection
SoitWun sous-espace deEetB={b1, . . . ,bq}une base deW;P(p×p) est une matrice de projectionM-orthogonale surW si et seulement si :
∀y∈E,Py∈W et hPy,y−PyiM= 0.
Toute matrice idempotente(P2 = P)etM-symétrique(P0M = MP)est une matrice de projectionM-orthogonale et réciproquement.
3.4.1 Propriétés
• Les valeurs propres dePsont0ou1(voir §4) :
u∈W, Pu=u, λ= 1, de multiplicité dim(W),
v⊥W,(on notev∈W⊥) Pv= 0, λ= 0, de multiplicité dim(W⊥).
• trP=dim(W).
• P=B(B0MB)−1B0M, oùB=
b1, . . . ,bq .
• Dans le cas particulier où lesbjsontM-orthonormés : P=BB0M=
q
X
i=1
bjbj0M.
• Dans le cas particulier oùq= 1alors : P= bb0
b0MbM= 1
kbkMbb0M.
• SiP1, . . . ,Pq sont des matrices de projectionM-orthogonales alors la sommeP1+· · ·+Pqest une matrice de projectionM-orthogonale si et seulement si :PkPj=δkjPj.
• La matriceI−Pest la matrice de projectionM-orthogonale surW⊥.
4 Eléments propres
SoitAune matrice carrée(p×p).
4.1 Définitions
• Par définition, un vecteurv définit unedirection propreassociée à une valeur propreλsi l’on a :
Av=λv.
• Siλest une valeur propre deA, le noyau Ker(A−λI)est un s.e.v. de E, appelé sous-espace propre, dont la dimension est majoré par l’ordre de multiplicité deλ. Comme cas particulier, Ker(A)est le sous-espace propre associé, si elle existe, à la valeur propre nulle.
• Les valeurs propres d’une matriceAsont les racines, avec leur multipli- cité, dupolynôme caractéristique:
|A−λI|= 0.
THÉORÈME1. — Soit deux matricesA(n×p)etB(p×n); les valeurs propres non nulles deABetBAsont identiques avec le même degré de multiplicité.
Siuest vecteur propre deBAassocié à la valeur propreλdifférente de zéro, alorsv=Auest vecteur propre de la matriceABassocié à la même valeur propre.
Les applications statistiques envisagées dans ce cours ne s’intéressent qu’à des types particuliers de matrices.
THÉORÈME2. — Une matrice Aréelle symétrique admetpvaleurs propres réelles. Ses vecteurs propres peuvent être choisis pour constituer une base or- thonormée deE;Ase décompose en :
A=VΛV0=
p
X
k=1
λkvkvk0
oùVest une matrice orthogonale[v1, . . . ,vp]des vecteurs propres orthonor- més associés aux valeurs propresλk, rangées par ordre décroissant dans la matrice diagonaleΛ.
THÉORÈME3. — Une matrice A réelle M-symétrique admet p valeurs propres réelles. Ses vecteurs propres peuvent être choisis pour constituer une baseM-orthonormée deE;Ase décompose en :
A=VΛV0M=
p
X
k=1
λkvkvk0M
oùV= [v1, . . . ,vp]est une matriceM-orthogonale(V0MV=IpetVV0= M−1)des vecteurs propres associés aux valeurs propresλk, rangées par ordre décroissant dans la matrice diagonaleΛ.
Les décompositions ne sont pas uniques : pour une valeur propre simple (de multiplicité1) le vecteur propre normé est défini à un signe près, tandis que pour une valeur propre multiple, une infinité de basesM-orthonormées peuvent être extraites du sous-espace propre unique associé.
Le rang deAest aussi le rang de la matriceΛassociée et donc le nombre (répétées avec leurs multiplicités) de valeurs propres non nulles.
Par définition, siAest positive, on note la racine carrée deA: A1/2=
p
X
k=1
pλkvkvk0M=VΛ1/2V0M.
4.2 Propriétés
Siλk 6=λj, vk⊥Mvj; trA=Pp
k=1λk; |A|=Qp
k=1λk; siAest régulière, ∀k, λk6= 0 ; siAest positive, λp≥0 ; siAest définie-positive, λp>0 ;
4.3 Décomposition en Valeurs Singulières (DVS)
Il s’agit, cette fois, de construire la décomposition d’une matriceX(n×p) rectangulaire relativement à deux matrices symétriques et positivesD(n×n) etM(p×p).
THÉORÈME4. — Une matriceX(n×p)de rangrpeut s’écrire : X=UΛ1/2V0 =
r
X
k=1
pλkukvk0; (3) U(n×r)contient les vecteurs propresD-orthonormés(U0DU=Ir)de la matriceD-symétrique positiveXMX0Dassociés auxrvaleurs propres non nullesλkrangées par ordre décroissant dans la matrice diagonaleΛ(r×r); V(p×r)contient les vecteurs propresM-orthonormés(V0MV=Ir)de la matriceM-symétrique positiveX0DXMassociés aux mêmes valeurs propres.
De plus,
U=XMVΛ−1/2etV=X0DUΛ−1/2.
5 Optimisation
5.1 Norme d’une matrice
L’espace vectoriel E de dimension p(resp.F de dimension n) est muni de sa base canonique et d’une métrique de matriceM(resp.D). SoitXune
matrice(n×p). L’ensembleMn,pdes matrices(n×p)est un espace vectoriel de dimensionnp; on le munit duproduit scalaire:
hX,YiM,D=trXMY0D. (4)
Dans le cas particulier oùM = Ip etD = In, et en notant vec(X) = h
x10, . . . ,xp0i0
la matrice “vectorisée”, ce produit scalaire devient :
hX,YiI
p,In =trXY0=
n
X
i=1 p
X
j=1
xjiyij=vec(X)0vec(Y).
Lanormeassociée à ce produit scalaire (4) est appelée norme trace : kXk2M,D = trXMX0D,
kXk2I
p,In = trXX0=SSQ(X) =
n
X
i=1 p
X
j=1
(xji)2
(SSQ signifie “sum of squares”).
Ladistanceassociée à cette norme devient, dans le cas oùDest une matrice diagonale (D= diag(w1, . . . , wn)), le critère usuel desmoindres carrés:
d2(X,Y) =kX−Yk2M,D=
n
X
i=1
wikxi−yik2M.
5.2 Approximation d’une matrice
Les matricesX,MetDsont définies comme ci-dessus ;Xest supposée de rangr. On cherche la matriceZq, de rangqinférieur àr, qui soit la plus proche possible deX.
THÉORÈME5. — La solution du problème : min
Z
nkX−Zk2M,D;Z∈ Mn,p, rang(Z) =q < ro
(5)
est donnée par la somme desqpremiers termes de la décomposition en valeurs singulières (3) deX:
Zq =
q
X
k=1
pλkukvk0 =UqΛ1/2q V0q.
Le minimum atteint est :
kX−Zqk2M,D=
r
X
k=q+1
λk.
Les matrices Uq,ΛqetVq contiennent lesq premiers vecteurs et valeurs propres donnés par la DVS deX;Zq est appelée approximation de rangqde X.
Ce théorème peut se reformuler d’une manière équivalente. On note Pcq
(resp. Qcq) la projection M-orthogonale sur Eq = Im(Vq) (resp. D- orthogonale surFq = Im(Uq)) :
Pcq =
q
X
k=1
vkvk0M=VqV0qM
Qcq =
q
X
k=1
ukuk0D=UqU0qD,
Zq = QcqX=XPcq 0.
PROPOSITION6. — Avec les notations précédentes : Pcq = arg max
Pq
n XP0q
2 M,D;
Pq projectionM-orthogonale de rangq < r}, Qcq = arg max
nkQqXk2M,D;
Qq projectionD-orthogonale de rangq < r}.