• Aucun résultat trouvé

Une méthode d'ACP de données en ligne

N/A
N/A
Protected

Academic year: 2021

Partager "Une méthode d'ACP de données en ligne"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: hal-00456254

https://hal.archives-ouvertes.fr/hal-00456254

Submitted on 13 Feb 2010

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Une méthode d’ACP de données en ligne

Jean-Marie Monnez

To cite this version:

Jean-Marie Monnez. Une méthode d’ACP de données en ligne. Une méthode d’ACP de données en ligne, Sep 2009, Grenoble, France. pp.153-156. �hal-00456254�

(2)

Une méthode d’ACP de données en ligne

Jean-Marie Monnez

Institut Elie Cartan, UMR 7502, Nancy-Université, CNRS, INRIA BP 239

54506 VANDOEUVRE lès NANCY Cedex, France Jean-Marie.Monnez@iecn.u-nancy.fr

RÉSUMÉ. Des vecteurs de données arrivant en ligne sont considérés comme des réalisations indépendantes d’un vecteur aléatoire. On établit dans ce cadre un résultat de convergence presque sûre d’un processus d’approximation stochastique des facteurs de l’ACP de ce vecteur aléatoire. On peut l’appliquer par exemple à l’analyse factorielle multiple. On étudie ensuite le cas où l’espérance mathématique du vecteur aléatoire varie dans le temps selon un modèle linéaire.

MOTS-CLÉS : analyse de données en ligne, approximation stochastique, analyse en composantes principales, analyse factorielle multiple.

1. Introduction

On observe p caractères quantitatifs sur n individus : on obtient des vecteurs de données z1,…,zn dans Rp. On peut effectuer une ACP du tableau de données. La métrique utilisée, qui dépend des données, est a priori quelconque : on peut souhaiter effectuer par exemple une ACP normée ou une analyse factorielle multiple (AFM) ou une analyse canonique généralisée (ACG).

On considère ici le cas où les vecteurs de données arrivent séquentiellement dans le temps : on observe zn au temps n. On a une suite de vecteurs de données z1,…,zn,….

Supposons dans un premier temps que z1,…,zn ,… constituent un échantillon i.i.d. d’un vecteur aléatoire Z défini sur un espace probabilisé (,A,P). représente une population d’où on a extrait un échantillon. On peut définir une ACP de ce vecteur aléatoire (ACPVA), présentée dans le paragraphe 2, qui représente l’ACP effectuée sur la population, dont on va chercher à estimer au temps n les résultats à partir de l’échantillon dont on dispose à ce temps. Soit θ un résultat de l’ACPVA, par exemple une valeur propre, un facteur (on considère ici le cas d’un facteur). On peut effectuer une estimation récursive de θ : disposant d’une estimation θn de θ obtenue à partir des observations z1,…,zn-1, on introduit l’observation zn et on définit à partir de θn et zn une nouvelle estimation θn+1 de θ. On utilise pour cela un processus d’approximation stochastique défini dans le paragraphe 4, dont on établit la convergence. Ce processus est une version stochastique d’une méthode itérative de gradient définie dans le paragraphe 3. On présente des variantes de ce processus dans le paragraphe 5.

Considérons dans un deuxième temps le cas où la loi de Z évolue dans le temps. On étudie dans le paragraphe 6 le cas où l’espérance mathématique de Z varie dans le temps selon un modèle linéaire. On estime simultanément les paramètres du modèle linéaire et le résultat de l’ACPVA par des processus d’approximation stochastique.

2. ACP d’un vecteur aléatoire

Soit un vecteur aléatoire Z dans Rp. Rp est muni d’une métrique M. L’ACP du vecteur aléatoire Z consiste à : 1) rechercher une combinaison linéaire des composantes centrées de Z, f 1’(Z-E(Z)), f 1 appartenant au dual Rp* de Rp, de variance maximale sous la contrainte de normalisation f 1’M-1f 1 =1 ; 2) rechercher une deuxième

(3)

combinaison linéaire des composantes de Z, f 2’(Z-E(Z)), non corrélée à la première, de variance maximale sous la contrainte f 2’M-1f 2 =1 ; 3) et ainsi de suite jusqu’à un rang r au plus égal à p.

La ième combinaison linéaire est appelée le ième facteur ; on appelle également ième facteur le vecteur f i. Soit

(

(Z E(Z))(Z E(Z))'

)

E(ZZ') E(Z)E(Z')

E

C= − − = −

la matrice de covariance de Z. f i est vecteur propre M-1 unitaire de MC associé à la ième plus grande valeur propre.

Si Z a un ensemble fini de N réalisations, l’ACP de Z équivaut à l’ACP usuelle du tableau (N,p) des réalisations, le poids de chaque réalisation étant défini par sa probabilité.

3. Une méthode itérative de détermination des facteurs

On suppose dans ce paragraphe que la matrice de covariance C et la métrique M sont connues.

La fonction est maximale pour 1

f

x= et minimale pour p f

x= , de gradient

Pour déterminer f 1, on peut utiliser un processus de gradient( nX ) défini récursivement par

( ) (

MC F Xn I

)

Xn an

Xn

Xn+1 = + .

Pour déterminer les r premiers facteurs, on peut utiliser le processus suivant :

. ,..., 1 ), ) ) ( (

1(

1 i i r

Xn i I Xn F n MC i a Xn M i orth

Xn+ = + =

1) 1 (

i Yn i orth

Xn

= +

+ signifie que 1 ,..., 1)

( 1 i

Xn

Xn+ + est obtenu à partir de 1 ,..., 1)

( 1 i

Yn

Yn+ + par une orthogonalisation de Gram-Schmidt au sens de M-1. En supposant les r plus grandes valeurs propres de MC distinctes, alors, pour i=1,…, r, le processus )

1 (

M i Xn

i Xn

converge vers f i, en prenant la suite (an) telle que

.

1 1 1

, 2 ,

,

0 <

<

=

> an

n an an

an

4. Approximation stochastique des facteurs

On suppose maintenant que E(Z), C et M sont inconnus et que l’on dispose d’une suite d’observations (Z1,…, Zn,…) arrivant dans le temps et constituant un échantillon i.i.d. de Z.

Soit, au temps n, Mn un estimateur de M et Θn un estimateur de E(Z) fonctions de Z1,…, Zn-1. Soit , 1

, 1 )

(

>

<

>

= <

x M x

x M MCx x

F

(

( )

)

.

' 1 2 1 )

( MC F x I x

x M x x M

G

=

(4)

. , 1

, 1 )

( ), ' '

(

>

<

>

<

= Θ

Θ

=

Mn ni i X Xn

Mn ni i X Xn Bn ni n X n F n Zn Zn Mn Bn

On définit le processus d’approximation stochastique :

. ,..., 1 ), ) ) ( (

1(

1 i i r

Xn i I Xn Fn Bn an i Xn Mn i orth

Xn+ = + =

Sous les hypothèses précédentes sur la suite (an) et les hypothèses complémentaires

<

Θ

Θ

<

 →

 →

1 ( ) ..,

, . 0 ) . (

., . 1

. , .

s p Z

n E an s

Z p n E

s p n M

n M a s M

p Mn

on établit à partir d’un théorème démontré dans [BOU 98] la convergence presque sûre du processus )

1 (

Mn ni X

i Xn

vers f i pour i=1,…, r.

Par exemple, dans le cas de l’analyse factorielle multiple de Z, qui est une ACP de Z avec un choix particulier de métrique M, on peut définir un processus d’approximation stochastique (Mn) convergeant presque sûrement vers M et établir alors la convergence presque sûre en direction du processus 1,..., )

( r

Xn

Xn vers les r premiers facteurs [MON 06].

5. Variantes

1) Au pas n, on peut utiliser plusieurs observations

nmn n Z

Z 1,..., de Z. On définit alors :

∑= −Θ Θ

= mn

k ZnkZnk n n mn

Mn Bn

1 ' ').

( 1

2) Au pas n, on peut utiliser toutes les observations faites jusqu’à ce pas. On définit alors :

= Θ Θ

= n

i ZiZi n n n n

n M B

1 ' ').

(1

6. Cas où l’espérance de Zn est fonction du temps n

On suppose que l’on dispose d’une suite d’observations (Z1,…,Zn,…) arrivant dans le temps telles que n

Zn

E( )=θ dépende du temps n et que les vecteurs Rn =Zn E( nZ ) constituent un échantillon i.i.d. d’un vecteur aléatoire R de matrice de covariance C. Les facteurs de l’ACP de R sont vecteurs propres de MC.

Considérons le cas d’un modèle linéaire d’évolution de l’espérance de Zn défini de la façon suivante.

Soit p

n

n θ

θ1,..., les composantes de l’espérance nθ de Zn. On suppose que pour k=1,…, p,

(5)

; ,

,

, qk

k R Un qk k R nk k U

nk =<β > β ∈ ∈ θ

βkest un vecteur inconnu et k

U un vecteur connu au temps n à qn k composantes.

Pour estimer les paramètresβk, on utilise les processus d’approximation stochastique ( k)

Bn tels que .

,..., 1 ), '

1 ( k k p

Zn k Bn k Un k Un an k Bn k

Bn+ = =

Soit 1,..., )', ( ' ').

( ,

, p Bn Mn ZnZn n n

n n n k Un k Bn k

n =< > Θ = Θ Θ = Θ Θ

Θ On définit le processus 1,..., )

( r

Xn Xn

comme dans le paragraphe 3 ; on en établit la convergence presque sûre vers les facteurs de l’ACP de R en faisant des hypothèses complémentaires portant sur les k

U [MON 08b].n

7. Conclusion

Dans le cas où la loi de Z n’évolue pas dans le temps, on a défini un processus d’approximation stochastique des facteurs et donné un résultat général de convergence qui a été appliqué à l’ACP, l’AFM et l’ACG.

Ce résultat étend au cas de plusieurs facteurs et au cas où l’espérance de Z et la métrique M sont inconnues un résultat de convergence vers le premier facteur lorsque l’espérance de Z est connue et la métrique M est l’identité que l’on déduit d’un théorème de Krasulina [KRA 70]. Dans le cas où la métrique M est connue, la méthode d’orthogonalisation a été utilisée par Benzécri [BEN 69] dans le cadre d’un autre processus.

Dans le cas où l’espérance mathématique de Z évolue dans le temps selon un modèle linéaire, on a établi un résultat de convergence qui a été appliqué à l’ACP normée [MON 08b]. Dans une autre étude en préparation, on considère l’application à l’ACG ; on traite également le cas de modèles non linéaires.

On peut mettre en œuvre ces processus pour effectuer des ACP en ligne de données arrivant en ligne.

8. Bibliographie

[BEN 69] BENZECRI J.P.,“Approximation stochastique dans une algèbre normée non commutative”, Bulletin de la SMF, vol. 97, 1969, p. 225-241.

[BOU 98] BOUAMAINE A., MONNEZ J.M., “Approximation stochastique de vecteurs et valeurs propres”, Publications de l’ISUP, vol. 42, n° 2-3, 1998, p. 15-38.

[KRA 70] KRASULINA T.P.,“Method of stochastic approximation in the determination of the largest eigenvalue of the mathematical expectation of random matrices”, Automation and Remote Control, vol. 2, 1970, p. 215- 221.

[MON 06] MONNEZ J.M.,“Approximation stochastique en analyse factorielle multiple”, Publications de l’ISUP, vol. 50, n° 3, 2006, p. 27-45.

[MON 08a] MONNEZ J.M., “Stochastic approximation of the factors of a generalized canonical correlation analysis”, Statistics & Probability Letters, vol. 78, n° 14, 2008, p. 2210-2216.

[MON 08b] MONNEZ J.M.,“Analyse en composantes principales d’un flux de données d’espérance variable dans le temps”, Revue des Nouvelles Technologies de l’Information, Vol C-2, 2008, p. 43-56.

Références

Documents relatifs

, Nous établirons les propriétés de convergence des processus d’approximation stochastique en nous appuyant sur les propriétés de stabilité étudiées dans

Illustration de l’Analyse en Composantes Principales avec SAS sur deux jeux de données : corbes de températures et données socio- économiques &#34;cubiques&#34; : p variables

L’objectif de cette séance est la mise en œuvre de l’analyse en compo- santes principales avec SAS sur un exemple plus réaliste de données socio- économiques se présentant sous

– Régime (5 modalités) : les 5 régimes alimentaires sont notés ref, efad, dha, lin, tournesol ; 4 souris de chaque génotype sont soumises à chaque régime alimentaire..

Pour ´etudier la proximit´e des variables entre elles il faut munir cet espace d’une m´etrique, c’est-`a-dire trouver une matrice d’ordre n d´efinie positive sym´etrique.. Ici

Réaliser à nouveau l’ACP du tableau des températures en faisant maintenant en plus les variables illustratives quantitatives (supplementary variables) = latitude, longitude,

Nous avons établi un théorème de convergence presque sûre d'un processus d'approximation stochastique dynamique étudié à l'origine par Dupac, avec une hypothèse de stabilité

Cette stratégie consiste à juxtaposer en matrice bloc-diagonale les différentes métriques intra, (¾^ = D ^ [Escofier Pages]; elle est associative commutative et sous-tensorielle.