HAL Id: hal-00456254
https://hal.archives-ouvertes.fr/hal-00456254
Submitted on 13 Feb 2010
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Une méthode d’ACP de données en ligne
Jean-Marie Monnez
To cite this version:
Jean-Marie Monnez. Une méthode d’ACP de données en ligne. Une méthode d’ACP de données en ligne, Sep 2009, Grenoble, France. pp.153-156. �hal-00456254�
Une méthode d’ACP de données en ligne
Jean-Marie Monnez
Institut Elie Cartan, UMR 7502, Nancy-Université, CNRS, INRIA BP 239
54506 VANDOEUVRE lès NANCY Cedex, France Jean-Marie.Monnez@iecn.u-nancy.fr
RÉSUMÉ. Des vecteurs de données arrivant en ligne sont considérés comme des réalisations indépendantes d’un vecteur aléatoire. On établit dans ce cadre un résultat de convergence presque sûre d’un processus d’approximation stochastique des facteurs de l’ACP de ce vecteur aléatoire. On peut l’appliquer par exemple à l’analyse factorielle multiple. On étudie ensuite le cas où l’espérance mathématique du vecteur aléatoire varie dans le temps selon un modèle linéaire.
MOTS-CLÉS : analyse de données en ligne, approximation stochastique, analyse en composantes principales, analyse factorielle multiple.
1. Introduction
On observe p caractères quantitatifs sur n individus : on obtient des vecteurs de données z1,…,zn dans Rp. On peut effectuer une ACP du tableau de données. La métrique utilisée, qui dépend des données, est a priori quelconque : on peut souhaiter effectuer par exemple une ACP normée ou une analyse factorielle multiple (AFM) ou une analyse canonique généralisée (ACG).
On considère ici le cas où les vecteurs de données arrivent séquentiellement dans le temps : on observe zn au temps n. On a une suite de vecteurs de données z1,…,zn,….
Supposons dans un premier temps que z1,…,zn ,… constituent un échantillon i.i.d. d’un vecteur aléatoire Z défini sur un espace probabilisé (Ω,A,P). Ω représente une population d’où on a extrait un échantillon. On peut définir une ACP de ce vecteur aléatoire (ACPVA), présentée dans le paragraphe 2, qui représente l’ACP effectuée sur la population, dont on va chercher à estimer au temps n les résultats à partir de l’échantillon dont on dispose à ce temps. Soit θ un résultat de l’ACPVA, par exemple une valeur propre, un facteur (on considère ici le cas d’un facteur). On peut effectuer une estimation récursive de θ : disposant d’une estimation θn de θ obtenue à partir des observations z1,…,zn-1, on introduit l’observation zn et on définit à partir de θn et zn une nouvelle estimation θn+1 de θ. On utilise pour cela un processus d’approximation stochastique défini dans le paragraphe 4, dont on établit la convergence. Ce processus est une version stochastique d’une méthode itérative de gradient définie dans le paragraphe 3. On présente des variantes de ce processus dans le paragraphe 5.
Considérons dans un deuxième temps le cas où la loi de Z évolue dans le temps. On étudie dans le paragraphe 6 le cas où l’espérance mathématique de Z varie dans le temps selon un modèle linéaire. On estime simultanément les paramètres du modèle linéaire et le résultat de l’ACPVA par des processus d’approximation stochastique.
2. ACP d’un vecteur aléatoire
Soit un vecteur aléatoire Z dans Rp. Rp est muni d’une métrique M. L’ACP du vecteur aléatoire Z consiste à : 1) rechercher une combinaison linéaire des composantes centrées de Z, f 1’(Z-E(Z)), f 1 appartenant au dual Rp* de Rp, de variance maximale sous la contrainte de normalisation f 1’M-1f 1 =1 ; 2) rechercher une deuxième
combinaison linéaire des composantes de Z, f 2’(Z-E(Z)), non corrélée à la première, de variance maximale sous la contrainte f 2’M-1f 2 =1 ; 3) et ainsi de suite jusqu’à un rang r au plus égal à p.
La ième combinaison linéaire est appelée le ième facteur ; on appelle également ième facteur le vecteur f i. Soit
(
(Z E(Z))(Z E(Z))')
E(ZZ') E(Z)E(Z')E
C= − − = −
la matrice de covariance de Z. f i est vecteur propre M-1 unitaire de MC associé à la ième plus grande valeur propre.
Si Z a un ensemble fini de N réalisations, l’ACP de Z équivaut à l’ACP usuelle du tableau (N,p) des réalisations, le poids de chaque réalisation étant défini par sa probabilité.
3. Une méthode itérative de détermination des facteurs
On suppose dans ce paragraphe que la matrice de covariance C et la métrique M sont connues.
La fonction est maximale pour 1
f
x= et minimale pour p f
x= , de gradient
Pour déterminer f 1, on peut utiliser un processus de gradient( nX ) défini récursivement par
( ) (
MC F Xn I)
Xn anXn
Xn+1 = + − .
Pour déterminer les r premiers facteurs, on peut utiliser le processus suivant :
. ,..., 1 ), ) ) ( (
1(
1 i i r
Xn i I Xn F n MC i a Xn M i orth
Xn+ = − + − =
1) 1 (
i Yn i orth
Xn
= +
+ signifie que 1 ,..., 1)
( 1 i
Xn
Xn+ + est obtenu à partir de 1 ,..., 1)
( 1 i
Yn
Yn+ + par une orthogonalisation de Gram-Schmidt au sens de M-1. En supposant les r plus grandes valeurs propres de MC distinctes, alors, pour i=1,…, r, le processus )
1 (
M− i Xn
i Xn
converge vers f i, en prenant la suite (an) telle que
.
1 1 1
, 2 ,
,
0 ∞∑ <∞
∑∞
∑∞
∞
<
∞
=
> an
n an an
an
4. Approximation stochastique des facteurs
On suppose maintenant que E(Z), C et M sont inconnus et que l’on dispose d’une suite d’observations (Z1,…, Zn,…) arrivant dans le temps et constituant un échantillon i.i.d. de Z.
Soit, au temps n, Mn un estimateur de M et Θn un estimateur de E(Z) fonctions de Z1,…, Zn-1. Soit , 1
, 1 )
(
> −
<
> −
= <
x M x
x M MCx x
F
(
( ))
.' 1 2 1 )
( MC F x I x
x M x x M
G − −
−
=
. , 1
, 1 )
( ), ' '
(
> −
<
> −
<
= Θ
Θ
−
=
Mn ni i X Xn
Mn ni i X Xn Bn ni n X n F n Zn Zn Mn Bn
On définit le processus d’approximation stochastique :
. ,..., 1 ), ) ) ( (
1(
1 i i r
Xn i I Xn Fn Bn an i Xn Mn i orth
Xn+ = − + − =
Sous les hypothèses précédentes sur la suite (an) et les hypothèses complémentaires
∑∞
∞
<
− Θ
− Θ
∞
<
∑∞
−
→
→
1 ( ) ..,
, . 0 ) . (
., . 1
. , .
s p Z
n E an s
Z p n E
s p n M
n M a s M
p Mn
on établit à partir d’un théorème démontré dans [BOU 98] la convergence presque sûre du processus )
1 (
− Mn ni X
i Xn
vers f i pour i=1,…, r.
Par exemple, dans le cas de l’analyse factorielle multiple de Z, qui est une ACP de Z avec un choix particulier de métrique M, on peut définir un processus d’approximation stochastique (Mn) convergeant presque sûrement vers M et établir alors la convergence presque sûre en direction du processus 1,..., )
( r
Xn
Xn vers les r premiers facteurs [MON 06].
5. Variantes
1) Au pas n, on peut utiliser plusieurs observations
nmn n Z
Z 1,..., de Z. On définit alors :
∑= −Θ Θ
= mn
k ZnkZnk n n mn
Mn Bn
1 ' ').
( 1
2) Au pas n, on peut utiliser toutes les observations faites jusqu’à ce pas. On définit alors :
∑= −Θ Θ
= n
i ZiZi n n n n
n M B
1 ' ').
(1
6. Cas où l’espérance de Zn est fonction du temps n
On suppose que l’on dispose d’une suite d’observations (Z1,…,Zn,…) arrivant dans le temps telles que n
Zn
E( )=θ dépende du temps n et que les vecteurs Rn =Zn −E( nZ ) constituent un échantillon i.i.d. d’un vecteur aléatoire R de matrice de covariance C. Les facteurs de l’ACP de R sont vecteurs propres de MC.
Considérons le cas d’un modèle linéaire d’évolution de l’espérance de Zn défini de la façon suivante.
Soit p
n
n θ
θ1,..., les composantes de l’espérance nθ de Zn. On suppose que pour k=1,…, p,
; ,
,
, qk
k R Un qk k R nk k U
nk =<β > β ∈ ∈ θ
βkest un vecteur inconnu et k
U un vecteur connu au temps n à qn k composantes.
Pour estimer les paramètresβk, on utilise les processus d’approximation stochastique ( k)
Bn tels que .
,..., 1 ), '
1 ( k k p
Zn k Bn k Un k Un an k Bn k
Bn+ = − − =
Soit 1,..., )', ( ' ').
( ,
, p Bn Mn ZnZn n n
n n n k Un k Bn k
n =< > Θ = Θ Θ = −Θ Θ
Θ On définit le processus 1,..., )
( r
Xn Xn
comme dans le paragraphe 3 ; on en établit la convergence presque sûre vers les facteurs de l’ACP de R en faisant des hypothèses complémentaires portant sur les k
U [MON 08b].n
7. Conclusion
Dans le cas où la loi de Z n’évolue pas dans le temps, on a défini un processus d’approximation stochastique des facteurs et donné un résultat général de convergence qui a été appliqué à l’ACP, l’AFM et l’ACG.
Ce résultat étend au cas de plusieurs facteurs et au cas où l’espérance de Z et la métrique M sont inconnues un résultat de convergence vers le premier facteur lorsque l’espérance de Z est connue et la métrique M est l’identité que l’on déduit d’un théorème de Krasulina [KRA 70]. Dans le cas où la métrique M est connue, la méthode d’orthogonalisation a été utilisée par Benzécri [BEN 69] dans le cadre d’un autre processus.
Dans le cas où l’espérance mathématique de Z évolue dans le temps selon un modèle linéaire, on a établi un résultat de convergence qui a été appliqué à l’ACP normée [MON 08b]. Dans une autre étude en préparation, on considère l’application à l’ACG ; on traite également le cas de modèles non linéaires.
On peut mettre en œuvre ces processus pour effectuer des ACP en ligne de données arrivant en ligne.
8. Bibliographie
[BEN 69] BENZECRI J.P.,“Approximation stochastique dans une algèbre normée non commutative”, Bulletin de la SMF, vol. 97, 1969, p. 225-241.
[BOU 98] BOUAMAINE A., MONNEZ J.M., “Approximation stochastique de vecteurs et valeurs propres”, Publications de l’ISUP, vol. 42, n° 2-3, 1998, p. 15-38.
[KRA 70] KRASULINA T.P.,“Method of stochastic approximation in the determination of the largest eigenvalue of the mathematical expectation of random matrices”, Automation and Remote Control, vol. 2, 1970, p. 215- 221.
[MON 06] MONNEZ J.M.,“Approximation stochastique en analyse factorielle multiple”, Publications de l’ISUP, vol. 50, n° 3, 2006, p. 27-45.
[MON 08a] MONNEZ J.M., “Stochastic approximation of the factors of a generalized canonical correlation analysis”, Statistics & Probability Letters, vol. 78, n° 14, 2008, p. 2210-2216.
[MON 08b] MONNEZ J.M.,“Analyse en composantes principales d’un flux de données d’espérance variable dans le temps”, Revue des Nouvelles Technologies de l’Information, Vol C-2, 2008, p. 43-56.