3.2 Estimation de la covariance bas´ ee sur les matrices al´ eatoires
3.2.1 Outils des matrices al´ eatoires
Comme en g´en´eral la matrice de covariance de population Σest inconnue, les m´ethodes
se basent sur des observations du vecteur x afin de donner une estimation empirique Σˆ `a
la matriceΣ. Les valeurs propres d’une matrice sont des fonctions continues d’entr´ees de la
matrice. Mais ces fonctions n’ont pas d’expressions explicites faciles `a manipuler, notamment
lorsque la dimension de la matrice est grande. Des m´ethodes sp´eciales sont n´ecessaires
pour leur ´etude. Il existe diverses m´ethodes importantes dans cette th´ematique `a savoir
la m´ethode des moments, la transformation de Stieltjes et la d´ecomposition polynomiale
orthogonale de la densit´e exacte des valeurs propres.
Nous nous concentrons sur l’approche de la transformation de Stieltjes et nous invitons
les lecteurs int´eress´es `a consulter la r´ef´erence [82] pour une description d´etaill´ee des autres
m´ethodes. La transform´ee de Stieltjes constitue un outil de base dans l’´etude des valeurs
propres des matrices al´eatoires puisqu’elle permet d’´etudier la convergence en loi de la
distribution spectrale. Nous donnons une description de cette m´ethode dans la premi`ere
partie de cette section, suivie d’une pr´esentation de la loi de Marchenko-Pastur.
Transform´ee de Stieltjes
Soit µ une loi quelconque sur R. La transform´ee de Stieltjes de la mesure µ est une
application deC
+={x+iy∈C\x∈Rety∈R
∗+}`a valeurs dansC d´efinie par :
S
µ(z) =
Z
R
1
λ−zdµ(λ). (3.1)
La transform´ee de Stieltjes S
µcaract´erise la loi µ, dans le mˆeme sens qu’une transform´ee
de Fourier F
µcaract´erise la loi µ, mais `a l’aide de fonction test diff´erente (z 7→e
−zλpour
la transform´ee de Fourier et z 7→
λ−1zpour la transform´ee de Stieltjes). Afin d’´etudier le
comportement global des valeurs propres ainsi que leur r´epartition, on introduit la mesure
spectrale empirique associ´ee `a une matrice sym´etrique A, de dimension d et de valeurs
propresλ
1, . . . , λ
d:
µ
A(dλ) = 1
d
dX
i=1δ
λk(dλ),
δx ´etant la mesure de Dirac. Autrement, la mesure spectrale de la matrice Aest une loi de
probabilit´e discr`ete, une loi de comptage normalis´ee par
d1. La transform´ee de Stieltjes de
la mesure spectrale de la matriceA est donc donn´ee par :
Sµ
A(z) =
Z
R1
λ−zdµ(λ) =
1
d
dX
i=11
λi−z.
Consid´erons la matrice fonction du complexe z suivante : R(z) = (A−zI
d)
−1, appel´ee
matrice r´esolvante associ´ee `a la matrice A. Nous pouvons remarquer que la transform´ee de
Stieltjes deAn’est autre que la trace normalis´ee de la matrice r´esolvante deA. Autrement,
Sµ
A(z) = 1
dtr(A−zId)
−1
Section 3.2 – Estimation de la covariance bas´ee sur les matrices al´eatoires
Par cons´equent, la question de l’´etude de la convergence de la transform´ee de Stieltjes de
µ
Arevient `a ´etudier le comportement asymptotique, quanddtend vers l’infini, de la trace
normalis´ee de la r´esolvante deA. Ce lien tr`es directe entre la transform´ee de Stieltjes de la
mesure spectrale et la matrice r´esolvante a ´et´e remarqu´e et utilis´e par Marchenko et Pastur
afin de caract´eriser le comportement asymptotique global des valeurs propres d’une matrice
de covariance empirique.
La loi de Marchenko-Pastur [89]
Rappelons le mod`ele de Wishart : consid´erons un vecteur al´eatoirexsuivant une loi
gaus-sienne centr´eeN(0,Σ). Soient un ensemble d’observations x
i, i= 1, . . . , N, ind´ependantes
et identiquement distribu´ees g´en´er´ees suivant la mˆeme loi quex. On range habituellement
les x
idans une matrice X ∈ R
N×d, o`u x
irepr´esente la i
ièmeligne de X. Soient Σ et Σˆ
qui d´esignent la vraie covariance de la population et la covariance empirique,
respective-ment. On s’int´eresse pr´ecis´ement au comportement de la distribution empirique des valeurs
spectrales de ces deux matrices telles que :
Σ=E(x
Tx), Σˆ = 1
NX
TX= 1
N
NX
i=1x
Tix
i, ΣetΣˆ ∈S
d +, (3.3)
o`u S
+dest l’ensemble des matrices sym´etriques semi-d´efinies positives. Consid´erons les d´
e-compositions spectrales respectives deΣetΣˆ :
Σ=
dX
i=1λiuiu
TietΣˆ =
dX
i=1ˆ
λiuiˆuˆ
Ti.
Marchenko et Pastur [89] se sont pench´es sur l’´etude de la mesure spectrale de la matrice
de covariance empiriqueΣˆ :
µ
Σˆ(dλ) = 1
d
dX
l=1δ
ˆλ(dλ),
sous le r´egime asymptotique o`u la taille de l’´echantillon N et la dimension des donn´ees d
tendent conjointement vers l’infini (tels que :y= lim
N→+∞Nd∈]0,+∞[). Le mod`ele ´etudi´e
est celui de Wishart blanc, o`u Σ = σ
2I
d. Le th´eor`eme suivant d´ecrit le r´esultat de cette
´etude.
Th´eor`eme 3 : Soit X une matrice al´eatoire de taille N ×d dont les lignes sont des
vec-teurs al´eatoires ind´ependants et identiquement distribu´es suivant une loi N(0, σ
2I
d).
Sup-posons quey= lim
N→+∞Ndest un r´eel positif. Alors, la suite des mesures spectrales µ
ΣˆN
converge presque sˆurement, quand N tend vers l’infini, vers la loi de Marchenko-Pastur,
dont la fonction de densit´e est donn´ee par :
fM P(x) = 1
2yπσ
2x
q
(b−x)(x−a) I
[a,b](x) + (1−y
−1)δ
0(x)I
y∈[1,+∞[,
avec a=σ
2(1−√y)
2et b=σ
2(1 +√
y)
2.
Section 3.2 – Estimation de la covariance bas´ee sur les matrices al´eatoires
Nous pr´esentons dans la figure 3.1 une repr´esentation graphique de la densit´e de
Marchenko-Pastur et de l’histogramme empirique des valeurs propres de la matrice Σˆ pour diff´erents
sc´enario dey. Plus pr´ecis´ement, nous consid´erons N=1000 ´echantillons suivant la loi normale
(moyenne nulle, ´ecart-type ´egal 1) et trois valeurs dey, `a savoir 0,1 , 0,3 et 0,6. On remarque
que, `a l’int´erieur de l’intervalle limite [a, b] qui repr´esente le support limite des valeurs
propres ˆλ
i, la courbe de la densit´e limite f ´epouse bien l’histogramme repr´esentant la
distribution des valeurs propres empiriquesˆλ
i.
Conform´ement `a l’asymptotique classique de grands ´echantillons (en supposant que N
= 1000 est assez large), la matrice de covariance d’´echantillon Σˆ devrait ˆetre proche de la
matrice de covariance de la populationΣ=I
d=E(x
Tx). Comme les valeurs propres sont
des fonctions continues des entr´ees matricielles, les valeurs propres des ´echantillons de Σˆ
doivent converger en 1 (valeur propre unique deIp).
´
Etant donn´e que les valeurs propres de l’´echantillon s’´eloignent des valeurs propres de la
population, la matrice de covariance de l’´echantillonΣˆ n’est plus un estimateur fiable de son
homologueΣ. Cette observation est en effet la raison fondamentale pour que les m´ethodes
multivari´ees classiques se d´ecomposent lorsque la dimension des donn´ees est comparable `a
la taille de l’´echantillon.
0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 xFonction densité de probabilité f(x)
(a)y= 0.1
0 0.5 1 1.5 2 2.5 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 xFonction densité de probabilité f(x)
(b) y= 0.3
0 0.5 1 1.5 2 2.5 3 3.5 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 xFonction densité de probabilité f(x)
(c)y= 0.6
Figure 3.1 – Densit´e Marchenko-Pastur et l’histogramme des valeurs empiriques pour
N=1000 et trois diff´erentes valeurs dey=
Nd.
Section 3.2 – Estimation de la covariance bas´ee sur les matrices al´eatoires
Dans le document
Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé
(Page 48-51)