• Aucun résultat trouvé

Analyse en composantes principales partielle de données séquentielles d'espérance et de matrice de covariance variables dans le temps

N/A
N/A
Protected

Academic year: 2021

Partager "Analyse en composantes principales partielle de données séquentielles d'espérance et de matrice de covariance variables dans le temps"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-00841181

https://hal.inria.fr/hal-00841181

Submitted on 4 Jul 2013

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Analyse en composantes principales partielle de données séquentielles d’espérance et de matrice de covariance

variables dans le temps

Romain Bar, Jean-Marie Monnez

To cite this version:

Romain Bar, Jean-Marie Monnez. Analyse en composantes principales partielle de données séquen- tielles d’espérance et de matrice de covariance variables dans le temps. 45èmes Journées de Statistiques - 2013, May 2013, Toulouse, France. �hal-00841181�

(2)

A

NALYSE EN COMPOSANTES PRINCIPALES PARTIELLE DE DONNEES S

´

EQUENTIELLES D

´ ’

ESPERANCE ET DE MATRICE DE

´

COVARIANCE VARIABLES DANS LE TEMPS

.

Romain Bar1& Jean-Marie Monnez2

1,2Universit´e de Lorraine, CNRS, Institut Elie Cartan de Lorraine (IECL), UMR 7502, BP 239, Vandoeuvre-l`es-Nancy, F-54506, France

INRIA, projet BIGS, Villers-l`es-Nancy, F-54600, France

1Romain.Bar@univ-lorraine.fr 2Jean-Marie.Monnez@univ-lorraine.fr http ://www.iecl.u-nancy.fr

R´esum´e.On suppose que des vecteurs de donn´ees pouvant ˆetre de grande dimension et arri- vant s´equentiellement dans le temps sont des observations ind´ependantes d’un vecteur al´eatoire d’esp´erance math´ematique et de matrice de covariance variables dans le temps.

On d´efinit alors une m´ethode r´ecursive d’estimation en ligne de vecteurs directeurs des r premiers axes principaux d’une analyse en composantes principales (ACP) partielle de ce vec- teur al´eatoire.

On applique ensuite ce r´esultat au cas particulier de l’analyse canonique g´en´eralis´ee (ACG) partielle apr`es avoir d´efini un processus d’approximation stochastique de type Robbins-Monro de l’inverse d’une matrice de covariance.

Mots-cl´es. Big Data, flux de donn´ees, donn´ees de grande dimension, analyse de donn´ees en ligne, analyse en composantes principales partielle, analyse canonique g´en´eralis´ee partielle, approximation stochastique.

Abstract. High dimensional batch data are supposed to be independent observations of a random vectorZ, expectation and covariance matrix of which vary with timen.

A recursive method of on-line estimation of direction vectors of therfirst principal axes of a partial principal components analysis (PCA) ofZis defined.

This is applied next to the particular case of a partial generalized canonical correlation ana- lysis (gCCA) after defining a stochastic approximation process of the Robbins-Monro type to estimate recursively the inverse of a covariance matrix.

Keywords.Big Data, data flow, high dimensional data, on-line data analysis, partial princi- pal component analysis, partial generalized canonical correlation analysis, stochastic approxi- mation.

(3)

1 Introduction

On observe p caract`eres quantitatifs sur des individus : on obtient des vecteurs de donn´ees zi dans Rp. On se place ici dans le cas o`u ces vecteurs arrivent s´equentiellement dans le temps (donn´ees en ligne) : on observe zn au temps n; on a une suite de vecteurs de donn´ees z1, . . . ,zn, . . ..

On suppose que, pour toutn1, znest la r´ealisation d’un vecteur al´eatoire (v.a.) ZndansRp, d´efini sur un espace probabilis´e (Ω,A,P), d’esp´erance math´ematique et de matrice de cova- riance variables dans le temps, les v.a.Zn ´etant mutuellement ind´ependants.

Pour toutn, on a la d´ecomposition :

Zn=θn+nRn o`u :

θn= (θ1n. . .θnp)est un vecteur deRp,

n=

δ1n

· 0

·

0 ·

δnp

est une matrice diagonale d’ordre pd’´el´ements non nuls.

On pose :δn= (δ1n, . . . ,δnp)

La loi du v.a.Rnne d´epend pas den,E[Rn] =0,Cov(Rn) =C.

Ceci revient `a supposer que lesRn=−1n (Znθn) constituent un ´echantillon i.i.d. d’un vec- teur al´eatoireRdansRptel queE[R] =0,Cov(R) =C. On a alorsE[Zn] =θn,Cov(Zn) =nC∆n. Pouri=1, . . . ,p, si l’on noteZni, respectivementRin, la i`emecomposante deZn, respectivement Rn, on a alors le mod`ele :

Zni =θin+δinRin, i=1, . . . ,p avecE[Ri] =E[Ri] =0, lesRi constituant un ´echantillon i.i.d deRi.

(4)

Dans la suite, on suppose sans perte de g´en´eralit´e queVar(Rin) =Var(Ri) =1.

On pose le probl`eme suivant : estimer les r´esultats d’une ACP du v.a.R(cf paragraphe 2), aussi appel´ee ACP partielle, dansRpque l’on munit d’une m´etriqueM. On ´etudie en particulier l’es- timation de vecteurs directeurs desr premiers axes principaux de cette analyse qu’on notevl, l=1,2, . . . ,r.

Soitvun r´esultat de l’ACP d’un v.a., par exemple une valeur propre, un vecteur directeur d’un axe principal,. . ..

Plutˆot que d’effectuer `a chaque temps nune estimation directe dev `a partir de l’ensemble des donn´ees disponibles `a ce temps, qui serait obtenue en effectuant une ACP partielle de ces donn´ees, on va effectuer une estimation r´ecursive dev: disposant d’une estimationvn devob- tenue `a partir des observationsz1, . . . ,zn−1, on introduit au tempsnl’observationznet on d´efinit

`a partir devnetznune nouvelle estimationvn+1dev:vn+1= fn(vn;zn).

On utilise pour cela un processus d’approximation stochastique. On pourra consulter `a ce sujet les articles de Robbins et Monro (1951), Benz´ecri (1969), Bouamaine et Monnez (1998).

L’int´erˆet de cette approche r´ecursive est double :

on n’a pas besoin de stocker les donn´ees jusqu’au tempsn;

la relative simplicit´e des calculs permet de prendre en compte, dans le mˆeme temps de calcul, plus de donn´ees que par une m´ethode classique.

2 ACP d’un vecteur al´eatoire

SoitCla matrice de covariance deRetMune m´etrique quelconque dansRp.

On suppose qu’il n’existe pas de relation affine entre les composantes du vecteur al´eatoireZ.

Le crit`ere de l’ACP du vecteurRest le suivant : pourl=1, . . . ,r, d´eterminer au paslune com- binaison lin´eaire des composantes centr´ees deR,Ul=ηl(RE[R]), de variance maximale sous les contraintes d’ˆetre non corr´el´ee aux pr´ec´edentes et queηl soitM−1-unitaire.ηl, appel´eli`eme facteur, est vecteur propre associ´e `a lali`eme plus grande valeur propreλl de la matrice M−1- sym´etriqueMCet on aηll=λl.

vl=M−1ηl est un vecteur directeur duli`eme axe principal de cette ACP, vecteur propre deCM.

(5)

3 Approximation stochastique des vecteurs v

l

On est ainsi amen´e `a chercher les r premiers vecteurs propres v1, . . . ,vr de la matrice M- sym´etriqueB=CMassoci´es auxrplus grandes valeurs propresλ1, . . . ,λr.

On aC=Cov(R) =Cov(Rn) =Cov

−1n (Znθn)

=−1n E

h(Znθn)Zni

−1n .

On suppose que l’on a d´efini trois estimateursMn,ΘnetDnrespectivement deM,θnetn, tels queMnM p.s.,Θnθn0 p.s. etDnn0 p.s.

Soit

Cn=D−1n (ZnΘn)ZnD−1n .

On d´efinit alors Bn =CnMn puis r´ecursivement un processus d’approximation stochastique (Xn) =

(Xn1, . . . ,Xnr)

de(v1, . . . ,vr)par : Fn(Xnl) = hBn||XXnll,XnliMn

n||2Mn ,

Yn+1l = Xnl+naα(BnFn(Xnl)I)Xnl, l=1, . . . ,r, Xn+1 = orthMn(Yn+1).

Pour obtenir Xn+1, on effectue une orthogonalisation au sens de Gram-Schmidt par rapport `a

MndeYn+1= (Yn+11 , . . . ,Yn+1r ). On ´etablit la convergence de ce processus pour 23 <α1.

Un cas particulier de mod`ele d’´evolution dans le temps de l’esp´eranceθnet denest le suivant.

Si l’on noteθin la i`eme composante r´eelle de θn (i=1, . . . ,p) et δin la i`eme composante r´eelle deδn, on d´efinit les mod`eles lin´eairesθin=i,Uniietin)2=i,Vnii,h,id´esignant le produit scalaire euclidien usuel dans Rni (resp. Rmi), Uni (resp. Vni) ´etant un vecteur de dimension ni

(resp.mi) de valeurs de fonctions connues du tempsnou de variables explicatives contrˆol´ees et βi(resp.γi) un vecteur inconnu deRni (resp.Rmi).

En s’inspirant de Monnez (2008b), on d´efinit le processus d’approximation stochastique (Bin) deβitel que :

Bin+1=ΠKi n

BinanUni

(Uni)BinZni

, Kni ´etant l’ensemble convexe{xRni, ||x||<kin}o`ukni =O(nβ), β>0.

On d´efinit comme estimateur deθin, Θin=hBin,Unii, puis comme estimateur deθn,Θn= (Θ1n, . . . ,Θnp).

(6)

Cn+1i =ΠLi n

CnianVni

(Vni)Cin(ZniΘin)2 ,

Lin ´etant l’ensemble convexe{xRmi, ||x||<lin}o`ulni =O(nγ), γ>0.

On d´efinit enfin comme estimateur deδin, Din= (hCni,Vnii)12,et comme estimateur den,

Dn=

D1n

· 0

·

0 ·

Dnp

.

On ´etablit la convergence de ces processus.

4 Cas particulier : l’Analyse Canonique G´en´eralis´ee (ACG)

Comme dans Monnez (2008a), on se place dans le cas o`u le vecteur al´eatoireRest partitionn´e en sous-vecteurs R(1), . . . ,R(q); pour k=1, . . . ,q, R(k) est un vecteur al´eatoire dans Rmk, de composantesRk1, . . . ,Rkmk. On note ´egalementR(k)={Ri,iJk},card(Jk) =mk,

q

k=1

mk=p.

On souhaite effectuer une ACP de R dans laquelle les vecteurs al´eatoires R(k) aient un rˆole

´equilibr´e : on veut ´eviter que les premiers facteurs soient principalement d´etermin´es `a partir de certains vecteursR(k). L’analyse canonique g´en´eralis´ee du vecteur al´eatoire R fournit une solution `a ce probl`eme grˆace `a un choix particulier de m´etrique.

Le vecteur al´eatoire Zn observ´e est partitionn´e en sous-vecteurs Zn(1), . . . ,Zn(q), de dimensions respectivesm1, . . . ,mq, avec :

Zn(k)=θ(k)n +(k)n R(k)n ,

(k)n ´etant la matrice diagonale d’ordre mk des δin, iJk, θ(k)n ´etant le vecteur des θin, iJk, d´efinis dans le paragraphe 3 et lesR(k)n constituant un ´echantillon i.i.d. deR(k).

On d´efinitCk =E h

R(k)(R(k))i

, matrice de covariance deR(k). L’ACG deRest une ACP avec la m´etrique diagonale par blocs d’ordre p,M:

(7)

M=

(C1)−1

· 0

·

0 ·

(Cq)−1

Pour toutn, pourk=1, . . . ,q,(Ck)−1est solution de l’´equation enX : E

h

R(k)n (R(k)n )XI i

=E h

(∆(k)n )−1(Zn(k)θ(k)n )(Zn(k))(∆(k)n )−1XI i

=0 o`uI est la matrice-identit´e d’ordremk.

SoitΘ(k)n le vecteur desΘin, iJk, d´efinis dans le paragraphe 3.

SoitD(k)n la matrice diagonale desDin, iJk, d´efinis dans le paragraphe 3.

On d´efinit r´ecursivement le processus d’approximation stochastique de(Ck)−1,(Mnk), par : Mkn+1=Mnk a

nα

(D(k)n )−1(Zn(k)Θ(k)n )(Zn(k))(D(k)n )−1MnkI

.

On ´etablit queMkn(Ck)−10 p.s. et

n=1 1

nα||Mnk(Ck)−1||<p.s. pour 23<α1.

On d´efinit alors comme estimateur deMau pas n la matrice diagonale par blocsMnqui a pour ki`emebloc diagonalMnk.

On d´eduit du r´esultat pr´ec´edent sur lesMnk, k=1, . . . ,q, que MnM0 p.s. et

n=1 1

nα||Mn M||<p.s. pour 23 <α1.

Bibliographie

[1] Benzecri, J.P. (1969), Approximation stochastique dans une alg`ebre norm´ee non commuta- tive, Bulletin de la SMF, 97, 225-241.

[2] Bouamaine, A. et Monnez, J.M. (1998), Approximation stochastique de vecteurs et valeurs propres, Publications de l’ISUP, 42, n°2-3, 15-38.

[3] Monnez, J.M. (2008a), Stochastic approximation of the factors of a generalized canonical correlation analysis, Statistics & Probability Letters, 78, 2210-2216.

Références

Documents relatifs

Pour revenir `a notre ´etude, `a partir de chaque mod`ele propos´e dans le paragraphe pr´ec´edent, nous pouvons rechercher les g`enes diff´erentiellement exprim´es entre les

Interrogeons nous maintenant sur la fa¸con dont sont construits ces tests multidimensionnels, autrement dit sur la fa¸con dont sont obtenues les matrices E pour les erreurs du

[r]

Une exp´ erience par coloration a montr´ e qu’une rivi` ere souterraine alimente une r´ esurgence dans la vall´ ee. La rivi` ere souterraine a un d´ ebit tr` es sensible aux

Pour tester si les observations suivent une loi donn´ ee, pour comparer des moyennes, pour comparer des taux, si les observations sont issues d’une mˆ eme distribution, etc...

a - Calculer pour chaque sou-espace la performance moyenne et enregistrer le r´ esultat dans un data frame (utiliser summaryBy si possible).. b - Rep´ erer les 3 sous-espaces les

c - Comparer de nouveau, ` a l’aide d’un test statistique, les moyennes des 4 s´ eries de donn´ ees ` a partir de sous-´ echantillons al´ eatoires de taille 30. Exercice 4 :

Pour tester si les observations suivent une loi donn´ ee, pour comparer des moyennes, pour comparer des taux, si les observations sont issues d’une mˆ eme distribution, etc...