Une méthode d'ACP de données en ligne

(1)

HAL Id: hal-00456254

https://hal.archives-ouvertes.fr/hal-00456254

Submitted on 13 Feb 2010

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Une méthode d’ACP de données en ligne

Jean-Marie Monnez

To cite this version:

Jean-Marie Monnez. Une méthode d’ACP de données en ligne. Une méthode d’ACP de données en ligne, Sep 2009, Grenoble, France. pp.153-156. �hal-00456254�

(2)

Une méthode d’ACP de données en ligne

Jean-Marie Monnez

Institut Elie Cartan, UMR 7502, Nancy-Université, CNRS, INRIA BP 239

54506 VANDOEUVRE lès NANCY Cedex, France Jean-Marie.Monnez@iecn.u-nancy.fr

RÉSUMÉ. Des vecteurs de données arrivant en ligne sont considérés comme des réalisations indépendantes d’un vecteur aléatoire. On établit dans ce cadre un résultat de convergence presque sûre d’un processus d’approximation stochastique des facteurs de l’ACP de ce vecteur aléatoire. On peut l’appliquer par exemple à l’analyse factorielle multiple. On étudie ensuite le cas où l’espérance mathématique du vecteur aléatoire varie dans le temps selon un modèle linéaire.

MOTS-CLÉS : analyse de données en ligne, approximation stochastique, analyse en composantes principales, analyse factorielle multiple.

1. Introduction

On observe p caractères quantitatifs sur n individus : on obtient des vecteurs de données z₁,…,z_n dans R^p. On peut effectuer une ACP du tableau de données. La métrique utilisée, qui dépend des données, est a priori quelconque : on peut souhaiter effectuer par exemple une ACP normée ou une analyse factorielle multiple (AFM) ou une analyse canonique généralisée (ACG).

On considère ici le cas où les vecteurs de données arrivent séquentiellement dans le temps : on observe z_n au temps n. On a une suite de vecteurs de données z₁,…,z_n,….

Supposons dans un premier temps que z₁,…,z_n ,… constituent un échantillon i.i.d. d’un vecteur aléatoire Z défini sur un espace probabilisé (Ω,A,P). Ω représente une population d’où on a extrait un échantillon. On peut définir une ACP de ce vecteur aléatoire (ACPVA), présentée dans le paragraphe 2, qui représente l’ACP effectuée sur la population, dont on va chercher à estimer au temps n les résultats à partir de l’échantillon dont on dispose à ce temps. Soit θ un résultat de l’ACPVA, par exemple une valeur propre, un facteur (on considère ici le cas d’un facteur). On peut effectuer une estimation récursive de θ : disposant d’une estimation θ_n de θ obtenue à partir des observations z₁,…,z_n-1, on introduit l’observation z_n et on définit à partir de θ_n et z_n une nouvelle estimation θ_n+1 de θ. On utilise pour cela un processus d’approximation stochastique défini dans le paragraphe 4, dont on établit la convergence. Ce processus est une version stochastique d’une méthode itérative de gradient définie dans le paragraphe 3. On présente des variantes de ce processus dans le paragraphe 5.

Considérons dans un deuxième temps le cas où la loi de Z évolue dans le temps. On étudie dans le paragraphe 6 le cas où l’espérance mathématique de Z varie dans le temps selon un modèle linéaire. On estime simultanément les paramètres du modèle linéaire et le résultat de l’ACPVA par des processus d’approximation stochastique.

2. ACP d’un vecteur aléatoire

Soit un vecteur aléatoire Z dans R^p. R^p est muni d’une métrique M. L’ACP du vecteur aléatoire Z consiste à : 1) rechercher une combinaison linéaire des composantes centrées de Z, f ^1’(Z-E(Z)), f ¹ appartenant au dual R^p* de R^p, de variance maximale sous la contrainte de normalisation f ¹’M^-1f ¹ =1 ; 2) rechercher une deuxième

(3)

combinaison linéaire des composantes de Z, f ^2’(Z-E(Z)), non corrélée à la première, de variance maximale sous la contrainte f ²’M^-1f ² =1 ; 3) et ainsi de suite jusqu’à un rang r au plus égal à p.

La i^ème combinaison linéaire est appelée le i^ème facteur ; on appelle également i^ème facteur le vecteur fⁱ. Soit

(

⁽^Z ^E⁽^Z⁾⁾⁽^Z ^E⁽^Z^))'

)

Ê⁽^ZZ^'⁾ Ê⁽^Z⁾Ê⁽^Z^'⁾

E

C= − − = −

la matrice de covariance de Z. f ⁱ est vecteur propre M^-1 unitaire de MC associé à la i^ème plus grande valeur propre.

Si Z a un ensemble fini de N réalisations, l’ACP de Z équivaut à l’ACP usuelle du tableau (N,p) des réalisations, le poids de chaque réalisation étant défini par sa probabilité.

3. Une méthode itérative de détermination des facteurs

On suppose dans ce paragraphe que la matrice de covariance C et la métrique M sont connues.

La fonction est maximale pour 1

f

x= et minimale pour p f

x= , de gradient

Pour déterminer f ¹, on peut utiliser un processus de gradient( nX ) défini récursivement par

( ) (

MC F Xn I

)

Xn an

Xn

Xn+1 = + − .

Pour déterminer les r premiers facteurs, on peut utiliser le processus suivant :

. ,..., 1 ), ) ) ( (

1(

1 i i r

Xn i I Xn F n MC i a Xn M i orth

Xn+ = − + − =

1) 1 (

i Yn i orth

Xn

= +

+ signifie que 1 ,..., 1)

( 1 i

Xn

Xn+ + est obtenu à partir de 1 ,..., 1)

( 1 i

Yn

Yn+ + par une orthogonalisation de Gram-Schmidt au sens de M^-1. En supposant les r plus grandes valeurs propres de MC distinctes, alors, pour i=1,…, r, le processus )

1 (

M− i Xn

i Xn

converge vers f ⁱ, en prenant la suite (a_n) telle que

.

1 1 1

, 2 ,

,

0 ∞∑ <∞

∑∞

∞

<

∞

=

> an

n an an

an

4. Approximation stochastique des facteurs

On suppose maintenant que E(Z), C et M sont inconnus et que l’on dispose d’une suite d’observations (Z₁,…, Z_n,…) arrivant dans le temps et constituant un échantillon i.i.d. de Z.

Soit, au temps n, M_n un estimateur de M et Θn un estimateur de E(Z) fonctions de Z₁,…, Z_n-1. Soit , 1

, 1 )

(

> −

<

> −

= <

x M x

x M MCx x

F

(

⁽ ⁾

)

^.

' 1 2 1 )

( MC F x I x

x M x x M

G − −

−

=

(4)

. , 1

, 1 )

( ), ' '

(

> −

<

> −

<

= Θ

Θ

−

=

Mn ni i X Xn

Mn ni i X Xn Bn ni n X n F n Zn Zn Mn Bn

On définit le processus d’approximation stochastique :

. ,..., 1 ), ) ) ( (

1(

1 i i r

Xn i I Xn Fn Bn an i Xn Mn i orth

Xn+ = − + − =

Sous les hypothèses précédentes sur la suite (a_n) et les hypothèses complémentaires

∑∞

∞

<

− Θ

∞

<

∑∞

−



 →



 →



1 ( ) ..,

, . 0 ) . (

., . 1

. , .

s p Z

n E an s

Z p n E

s p n M

n M a s M

p Mn

on établit à partir d’un théorème démontré dans [BOU 98] la convergence presque sûre du processus )

1 (

− Mn ni X

i Xn

vers fⁱ pour i=1,…, r.

Par exemple, dans le cas de l’analyse factorielle multiple de Z, qui est une ACP de Z avec un choix particulier de métrique M, on peut définir un processus d’approximation stochastique (M_n) convergeant presque sûrement vers M et établir alors la convergence presque sûre en direction du processus 1,..., )

( r

Xn

Xn vers les r premiers facteurs [MON 06].

5. Variantes

1) Au pas n, on peut utiliser plusieurs observations

nmn n Z

Z 1,..., de Z. On définit alors :

∑= −Θ Θ

= mn

k ZnkZnk n n mn

Mn Bn

1 ' ').

( 1

2) Au pas n, on peut utiliser toutes les observations faites jusqu’à ce pas. On définit alors :

∑= −Θ Θ

= n

i ZiZi n n n n

n M B

1 ' ').

(1

6. Cas où l’espérance de Zn est fonction du temps n

On suppose que l’on dispose d’une suite d’observations (Z₁,…,Z_n,…) arrivant dans le temps telles que n

Zn

E( )=θ dépende du temps n et que les vecteurs Rn =Zn −E( nZ ) constituent un échantillon i.i.d. d’un vecteur aléatoire R de matrice de covariance C. Les facteurs de l’ACP de R sont vecteurs propres de MC.

Considérons le cas d’un modèle linéaire d’évolution de l’espérance de Zn défini de la façon suivante.

Soit p

n

n θ

θ¹^,..., les composantes de l’espérance nθ ^{de Z}n. On suppose que pour k=1,…, p,

(5)

; ,

,

, qk

k R Un qk k R nk k U

nk =<β > β ∈ ∈ θ

βkest un vecteur inconnu et k

U un vecteur connu au temps n à qn _k composantes.

Pour estimer les paramètresβk, on utilise les processus d’approximation stochastique ( k)

Bn tels que .

,..., 1 ), '

1 ( k k p

Zn k Bn k Un k Un an k Bn k

Bn+ = − − =

Soit 1,..., )', ( ' ').

( ,

, p Bn Mn ZnZn n n

n n n k Un k Bn k

n =< > Θ = Θ Θ = −Θ Θ

Θ On définit le processus 1,..., )

( r

Xn Xn

comme dans le paragraphe 3 ; on en établit la convergence presque sûre vers les facteurs de l’ACP de R en faisant des hypothèses complémentaires portant sur les k

U [MON 08b].n

7. Conclusion

Dans le cas où la loi de Z n’évolue pas dans le temps, on a défini un processus d’approximation stochastique des facteurs et donné un résultat général de convergence qui a été appliqué à l’ACP, l’AFM et l’ACG.

Ce résultat étend au cas de plusieurs facteurs et au cas où l’espérance de Z et la métrique M sont inconnues un résultat de convergence vers le premier facteur lorsque l’espérance de Z est connue et la métrique M est l’identité que l’on déduit d’un théorème de Krasulina [KRA 70]. Dans le cas où la métrique M est connue, la méthode d’orthogonalisation a été utilisée par Benzécri [BEN 69] dans le cadre d’un autre processus.

Dans le cas où l’espérance mathématique de Z évolue dans le temps selon un modèle linéaire, on a établi un résultat de convergence qui a été appliqué à l’ACP normée [MON 08b]. Dans une autre étude en préparation, on considère l’application à l’ACG ; on traite également le cas de modèles non linéaires.

On peut mettre en œuvre ces processus pour effectuer des ACP en ligne de données arrivant en ligne.

8. Bibliographie

[BEN 69] BENZECRI J.P.,“Approximation stochastique dans une algèbre normée non commutative”, Bulletin de la SMF, vol. 97, 1969, p. 225-241.

[BOU 98] BOUAMAINE A., MONNEZ J.M., “Approximation stochastique de vecteurs et valeurs propres”, Publications de l’ISUP, vol. 42, n° 2-3, 1998, p. 15-38.

[KRA 70] KRASULINA T.P.,“Method of stochastic approximation in the determination of the largest eigenvalue of the mathematical expectation of random matrices”, Automation and Remote Control, vol. 2, 1970, p. 215- 221.

[MON 06] MONNEZ J.M.,“Approximation stochastique en analyse factorielle multiple”, Publications de l’ISUP, vol. 50, n° 3, 2006, p. 27-45.

[MON 08a] MONNEZ J.M., “Stochastic approximation of the factors of a generalized canonical correlation analysis”, Statistics & Probability Letters, vol. 78, n° 14, 2008, p. 2210-2216.

[MON 08b] MONNEZ J.M.,“Analyse en composantes principales d’un flux de données d’espérance variable dans le temps”, Revue des Nouvelles Technologies de l’Information, Vol C-2, 2008, p. 43-56.