Rappels et compléments d’algèbre linéaire

(1)

Rappels et compléments d’algèbre linéaire

Résumé

Cette vignette rassemble des notations et rappels d’algèbre linéaire de niveau L. Il introduit les principaux théorèmes d’approximation matricielle par décomposition en valeurs singulières qui sont à la base des méthodes statistique factorielles.

Retour auplan du cours.

1 Notations

Dans tout ce qui suit,EetF sont deux espaces vectoriels réels munis res- pectivement des bases canoniquesE ={ej; j = 1, . . . , p}etF ={fi; i= 1, . . . , n}. On note indifféremment soit un vecteur deEou deF, un endomorphisme deE, ou une application linéaire deE dansF, soit leurs représenta- tions matricielles dans les bases définies ci-dessus.

2 Matrices

2.1 Notations

La matrice d’ordre(n×p)associée à une application linéaire deEdansF est décrite par un tableau :

A=







a¹₁ . . . a^j₁ . . . a^p₁ ... ... ... a¹_i . . . a^j_i . . . a^p_i

... ... ... a¹_n . . . a^j_n . . . a^p_n





 .

On note par la suite :

a^j_i = [A]^j_i le terme général de la matrice,

a_i = [a¹_i, . . . , a^p_i]⁰un vecteur-ligne mis en colonne, a^j = [a^j₁, . . . , a^j_n]⁰un vecteur-colonne.

2.1.1 Types de matrices Une matrice est dite :

• vecteur-ligne (colonne)sin= 1 (p= 1),

• vecteur-unitéd’ordrepsi elle vaut1p= [1, . . . ,1]⁰,

• scalairesin= 1etp= 1,

• carréesin=p.

Une matrice carrée est dite :

• identité(Ip)sia^j_i =δ_i^j=

0 sii6=j 1 sii=j ,

• diagonalesia^j_i = 0lorsquei6=j,

• symétriquesia^j_i =aⁱ_j,∀(i, j),

• triangulairesupérieure (inférieure) sia^j_i = 0lorsquei > j(i < j).

2.1.2 Matrice partitionnée en blocs

Matrices dont les éléments sont eux-mêmes des matrices. Exemple : A(n×p) =

A¹₁(r×s) A²₁(r×(p−s)) A¹₂((n−r)×s) A²₂((n−r)×(p−s))

.

2.2 Opérations sur les matrices

Somme : [A+B]^j_i =a^j_i +b^j_i pourAetBde même ordre(n×p).

Multiplication par un scalaire : [αA]^j_i =αa^j_i pourα∈R.

Transposition : [A⁰]^j_i =aⁱ_j,A⁰est d’ordre(p×n).

(A⁰)⁰ =A; (A+B)⁰=A⁰+B⁰; (AB)⁰ =B⁰A⁰;

A¹₁ A²₁ A¹₂ A²₂

0

=

A¹₁⁰ A¹₂⁰ A²₁⁰ A²₂⁰

.

(2)

Produit scalaire élémentaire : a⁰b=Pn

i=1aibioùaetbsont des vecteurs- colonnes.

Produit : [AB]^j_i =a⁰_ib^j avecA_(n×p),B_(p×q)etAB_(n×q), et pour des matrices par blocs :

A¹₁ A²₁ A¹₂ A²₂

B¹₁ B²₁ B¹₂ B²₂

=

A¹₁B¹₁+A²₁B¹₂ A¹₁B²₁+A²₁B²₂ A¹₂B¹₁+A²₂B¹₂ A¹₂B²₁+A²₂B²₂

sous réserve de compatibilité des dimensions.

2.3 Propriétés des matrices carrées

Latraceet ledéterminantsont des notions intrinsèques, qui ne dépendent pas des bases de représentation choisies, mais uniquement de l’application li- néaire sous-jacente.

2.3.1 Trace

Par définition, siAest une matrice(p×p),

trA=

p

X

j=1

a^j_j,

et il est facile de montrer : trα = α, trαA = αtrA, tr(A+B) = trA+trB,

trAB = trBA,

reste vrai siAest(n×p)et siBest(p×n) trCC⁰ = trC⁰C=

n

X

i=1 p

X

j=1

(c^j_i)² dans ce cas,Cest(n×p).

2.3.2 Déterminant

On note|A|ledéterminantde la matrice carréeA(p×p). Il vérifie :

|A| =

p

Y

j=1

a^j_j, siAest triangulaire ou diagonale,

|αA| = α^p|A|,

|AB| = |A||B|,

A B 0 C

= |A||C|,

A¹₁ A²₁ A¹₂ A²₂

= |A¹₁||A²₂−A¹₂(A¹₁)⁻¹A²₁| (1)

= |A²₂||A¹₁−A²₁(A²₂)⁻¹A¹₂|, (2) sous réserve de la régularité deA¹₁etA²₂. Cette dernière propriété se montre en considérant les matrices :

B=

I −A²₁(A²₂)⁻¹

0 I

etBAB⁰, puis en comparant les déterminants|BAB⁰|et|A|.

2.3.3 Inverse

L’inverse de A, lorsqu’elle existe, est la matrice unique notée A⁻¹ telle que :

AA⁻¹=A⁻¹A=I;

elle existe si et seulement si|A| 6= 0. Quelques propriétés :

(A⁻¹)⁰= (A⁰)⁻¹, (AB)⁻¹=B⁻¹A⁻¹, |A⁻¹|= 1

|A|.

2.3.4 Définitions

Une matrice carréeAest dite : symétriquesiA⁰=A,

(3)

singulièresi|A|= 0, régulièresi|A| 6= 0, idempotentesiAA=A,

définie-positivesi,∀x∈R^p,x⁰Ax≥0, et six⁰Ax= 0⇒x= 0, positive, ou semi-définie-positive, si,∀x∈R^p,x⁰Ax≥0, orthogonalesiAA⁰ =A⁰A=I(A⁰=A⁻¹).

3 Espaces euclidiens

Eest un espace vectoriel réel de dimensionpisomorphe àR^p.

3.1 Sous-espaces

• Un sous-ensembleEqdeEest unsous-espace vectoriel(s.e.v.) deEs’il est non vide et stable :

∀(x,y)∈E²_q,∀α∈R, α(x+y)∈Eq.

• Leq-uple{x1, . . . ,xq}deEconstitue un systèmelinéairement indépen- dantsi et seulement si :

q

X

i=1

αixi= 0⇒α1=· · ·=αq = 0.

• Un système linéairement indépendantEq = {e1, . . . ,e_q} qui engendre dans E un s.e.v. E_q = vec{e1, . . . ,e_q} en constitue une base et dim(E_q) =card(E_q) =q.

3.2 Rang d’une matrice

Dans ce sous-paragraphe,Aest la matrice d’une application linéaire deE= R^pdansF =Rⁿ.

Im(A) = vect{a¹, . . . ,a^p}est le s.e.v. deF imagedeA; Ker(A) = {x∈E; Ax= 0}est le s.e.v. deEnoyaudeA;

E = Im(A)⊕Ker(A)siAest carrée associée à un endomorphisme deE etp = dim(Im(A)) +dim(Ker(A)).

rang(A) = dim(Im(A)),

0≤ rang(A) ≤min(n, p), rang(A) = rang(A⁰),

rang(A+B) ≤ rang(A) +rang(B), rang(AB) ≤ min(rang(A),rang(B)),

rang(BAC) = rang(A), siBetCsont régulières, rang(A) = rang(AA⁰) =rang(A⁰A).

Enfin, siB(p×q)est de rangq(q < p)etAest carrée(p×p)de rangp, alors la matriceB⁰ABest de rangq.

3.3 Métrique euclidienne

SoitMune matrice carrée(p×p), symétrique, définie-positive ;Mdéfinit sur l’espaceE:

• unproduit scalaire:hx,yi_M=x⁰My,

• unenorme :kxk_M=hx,xi^1/2_M,

• unedistance: dM(x,y) =kx−yk_M,

• desangles:cosθ_M(x,y) = _kxk^hx,yi^M

Mkyk_M. La matriceMétant donnée, on dit que :

• une matriceAestM-symétriquesi(MA)⁰=MA,

• deux vecteursxetysontM-orthogonauxsihx,yi_M= 0,

• un vecteurxestM-normésikxk_M= 1,

• une baseEq ={e1, . . . ,eq}estM-orthonorméesi

∀(i, j),hei,eji_M=δ_i^j.

3.4 Projection

SoitWun sous-espace deEetB={b¹, . . . ,b^q}une base deW;P(p×p) est une matrice de projectionM-orthogonale surW si et seulement si :

∀y∈E,Py∈W et hPy,y−Pyi_M= 0.

Toute matrice idempotente(P² = P)etM-symétrique(P⁰M = MP)est une matrice de projectionM-orthogonale et réciproquement.

(4)

3.4.1 Propriétés

• Les valeurs propres dePsont0ou1(voir §4) :

u∈W, Pu=u, λ= 1, de multiplicité dim(W),

v⊥W,(on notev∈W^⊥) Pv= 0, λ= 0, de multiplicité dim(W^⊥).

• trP=dim(W).

• P=B(B⁰MB)⁻¹B⁰M, oùB=

b¹, . . . ,b^q .

• Dans le cas particulier où lesb^jsontM-orthonormés : P=BB⁰M=

q

X

i=1

b^jb^j⁰M.

• Dans le cas particulier oùq= 1alors : P= bb⁰

b⁰MbM= 1

kbk_Mbb⁰M.

• SiP₁, . . . ,P_q sont des matrices de projectionM-orthogonales alors la sommeP₁+· · ·+P_qest une matrice de projectionM-orthogonale si et seulement si :P_kP_j=δ_k^jP_j.

• La matriceI−Pest la matrice de projectionM-orthogonale surW^⊥.

4 Eléments propres

SoitAune matrice carrée(p×p).

4.1 Définitions

• Par définition, un vecteurv définit unedirection propreassociée à une valeur propreλsi l’on a :

Av=λv.

• Siλest une valeur propre deA, le noyau Ker(A−λI)est un s.e.v. de E, appelé sous-espace propre, dont la dimension est majoré par l’ordre de multiplicité deλ. Comme cas particulier, Ker(A)est le sous-espace propre associé, si elle existe, à la valeur propre nulle.

• Les valeurs propres d’une matriceAsont les racines, avec leur multipli- cité, dupolynôme caractéristique:

|A−λI|= 0.

THÉORÈME1. — Soit deux matricesA(n×p)etB(p×n); les valeurs propres non nulles deABetBAsont identiques avec le même degré de multiplicité.

Siuest vecteur propre deBAassocié à la valeur propreλdifférente de zéro, alorsv=Auest vecteur propre de la matriceABassocié à la même valeur propre.

Les applications statistiques envisagées dans ce cours ne s’intéressent qu’à des types particuliers de matrices.

THÉORÈME2. — Une matrice Aréelle symétrique admetpvaleurs propres réelles. Ses vecteurs propres peuvent être choisis pour constituer une base or- thonormée deE;Ase décompose en :

A=VΛV⁰=

p

X

k=1

λkv^kv^k⁰

oùVest une matrice orthogonale[v¹, . . . ,v^p]des vecteurs propres orthonor- més associés aux valeurs propresλk, rangées par ordre décroissant dans la matrice diagonaleΛ.

THÉORÈME3. — Une matrice A réelle M-symétrique admet p valeurs propres réelles. Ses vecteurs propres peuvent être choisis pour constituer une baseM-orthonormée deE;Ase décompose en :

A=VΛV⁰M=

p

X

k=1

λ_kv^kv^k⁰M

oùV= [v¹, . . . ,v^p]est une matriceM-orthogonale(V⁰MV=IpetVV⁰= M⁻¹)des vecteurs propres associés aux valeurs propresλk, rangées par ordre décroissant dans la matrice diagonaleΛ.

Les décompositions ne sont pas uniques : pour une valeur propre simple (de multiplicité1) le vecteur propre normé est défini à un signe près, tandis que pour une valeur propre multiple, une infinité de basesM-orthonormées peuvent être extraites du sous-espace propre unique associé.

Le rang deAest aussi le rang de la matriceΛassociée et donc le nombre (répétées avec leurs multiplicités) de valeurs propres non nulles.

(5)

Par définition, siAest positive, on note la racine carrée deA: A^1/2=

p

X

k=1

pλkv^kv^k⁰M=VΛ^1/2V⁰M.

4.2 Propriétés

Siλ_k 6=λ_j, v^k⊥_Mv^j; trA=Pp

k=1λ_k; |A|=Qp

k=1λ_k; siAest régulière, ∀k, λ_k6= 0 ; siAest positive, λp≥0 ; siAest définie-positive, λp>0 ;

4.3 Décomposition en Valeurs Singulières (DVS)

Il s’agit, cette fois, de construire la décomposition d’une matriceX(n×p) rectangulaire relativement à deux matrices symétriques et positivesD(n×n) etM(p×p).

THÉORÈME4. — Une matriceX(n×p)de rangrpeut s’écrire : X=UΛ^1/2V⁰ =

r

X

k=1

pλku^kv^k⁰; (3) U(n×r)contient les vecteurs propresD-orthonormés(U⁰DU=Ir)de la matriceD-symétrique positiveXMX⁰Dassociés auxrvaleurs propres non nullesλkrangées par ordre décroissant dans la matrice diagonaleΛ(r×r); V(p×r)contient les vecteurs propresM-orthonormés(V⁰MV=Ir)de la matriceM-symétrique positiveX⁰DXMassociés aux mêmes valeurs propres.

De plus,

U=XMVΛ^−1/2etV=X⁰DUΛ^−1/2.

5 Optimisation

5.1 Norme d’une matrice

L’espace vectoriel E de dimension p(resp.F de dimension n) est muni de sa base canonique et d’une métrique de matriceM(resp.D). SoitXune

matrice(n×p). L’ensembleMn,pdes matrices(n×p)est un espace vectoriel de dimensionnp; on le munit duproduit scalaire:

hX,Yi_M,D=trXMY⁰D. (4)

Dans le cas particulier oùM = Ip etD = In, et en notant vec(X) = h

x¹⁰, . . . ,x^p⁰i0

la matrice “vectorisée”, ce produit scalaire devient :

hX,Yi_I

p,I_n =trXY⁰=

n

X

i=1 p

X

j=1

x^j_iy_i^j=vec(X)⁰vec(Y).

Lanormeassociée à ce produit scalaire (4) est appelée norme trace : kXk²_M,D = trXMX⁰D,

kXk²_I

p,I_n = trXX⁰=SSQ(X) =

n

X

i=1 p

X

j=1

(x^j_i)²

(SSQ signifie “sum of squares”).

Ladistanceassociée à cette norme devient, dans le cas oùDest une matrice diagonale (D= diag(w₁, . . . , w_n)), le critère usuel desmoindres carrés:

d²(X,Y) =kX−Yk²_M,D=

n

X

i=1

w_ikx_i−y_ik²_M.

5.2 Approximation d’une matrice

Les matricesX,MetDsont définies comme ci-dessus ;Xest supposée de rangr. On cherche la matriceZq, de rangqinférieur àr, qui soit la plus proche possible deX.

THÉORÈME5. — La solution du problème : min

Z

nkX−Zk²_M,D;Z∈ Mn,p, rang(Z) =q < ro

(5)

(6)

est donnée par la somme desqpremiers termes de la décomposition en valeurs singulières (3) deX:

Z_q =

q

X

k=1

pλ_ku^kv^k⁰ =U_qΛ^1/2_q V⁰_q.

Le minimum atteint est :

kX−Z_qk²_M,D=

r

X

k=q+1

λ_k.

Les matrices Uq,ΛqetVq contiennent lesq premiers vecteurs et valeurs propres donnés par la DVS deX;Zq est appelée approximation de rangqde X.

Ce théorème peut se reformuler d’une manière équivalente. On note Pcq

(resp. Qcq) la projection M-orthogonale sur Eq = Im(Vq) (resp. D- orthogonale surFq = Im(Uq)) :

Pc_q =

q

X

k=1

v^kv^k⁰M=V_qV⁰_qM

Qc_q =

q

X

k=1

u^ku^k⁰D=U_qU⁰_qD,

Zq = QcqX=XPcq 0.

PROPOSITION6. — Avec les notations précédentes : Pcq = arg max

Pq

n XP⁰_q

2 M,D;

Pq projectionM-orthogonale de rangq < r}, Qcq = arg max

Q_q

nkQqXk²_M,D;

Qq projectionD-orthogonale de rangq < r}.