b) Analyse_de_pÍ!£sieurs_courbes_ :_dualite_et

Si on dispose d'un ensemble de n courbes x^(t) avec i = l,2,...,n et t £ [0,T] d o n n a n t par e x e m p l e l'évolution des températures dans n stations ou celle des p r i x de n produits deux conceptions sont possibles pour effectuer une a n a l y s e factorielle : soit chaque courbe est u n e trajectoire d'un p r o c e s -sus et on se trouve dans le cadre de l'analyse en composantes p r i n c i p a l e s d:u n

processus echanti11oné ; soit on considère qu'on a une observation de n v a r i a -bles au cours du temps c'est-à-dire une série chronologique m u l t i p l e . Ce p o i n t de v u e est justifié si les courbes r e p r é s e n t e n t des évolutions de caractères d i f f é r e n t s . On est alors conduit à une A . C . P . sur n v a r i a b l e s , la p o p u l a t i o n étant l'ensemble des i n s t a n t s .

Ces deux types d'analyse ne sont pas conceptuellement identiques : la p r e m i è r e cherche des facteurs de d i f f é r e n c i a t i o n entre courbes en fonction de

l'évolution qu'elles traduisent c'est donc une analyse des distances entre c o u r b e s , tandis que la deuxième A . C . P . repose p l u t ô t sur les corrélations et

2 est donc une étude des angles entre fonctions x^(t) de L ( T ) .

Il y a évidemment ^ d u a l i t é " entre les deux types d'analyse qui sont d'ail-leurs identiques si on ne centre pas les données et si on u t i l i s e la m é t r i q u e I dans les deux cas ainsi que le m o n t r e le tableau s u i v a n t .

Courbes " i n d i v i d u s " Courbes ''variables'*

^ ^ ^ ^ ^ analyse " h a r m o n i q u e " A . C . P . C opérateur intégral de V m a t r i c e n x n de terme

F o n c t i o n de n o y a u général covariance

i

ⁿ

i r

C(t,s) = - E x . ( t ) x . ( s ) v . . = - / x.(t)x.(t)dt

ni = l 1 1 J T

J

^{0 1 J}

U m a t r i c e n x n de terme W opérateur intégral de général* n o y a u Opérateur ^>T i n

d'Escoufier - / x.(t)x.(t)dt - £ x. (t)x. (s)

N J

0

^{1 J} i=l 1 1

• U = - V W = ^ C

n 1

Aux coefficients T et n près l'opérateur d'Escoufier d'une analyse est 1;o p é -rateur de covariance de l'autre et les facteurs p r i n c i p a u x d'une analyse sont les composantes principales de l'autre.

Bien entendu dès qu'on centre les données (et a fortiori avec des m é t r i -ques différentes de I) il n'y a plus i d e n t i t é .

a) Centrage " h a r m o n i q u e "

A tout instant t les n observations d o i v e n t être de m o y e n n e n u l l e ce qui signifie qu'on étudie en réalité les n courbes :

1 n

x.(t) 1 x.(t) = x.(t) - m ( t ) ce qui revient d'une certaine façon à

i ni=1 j i

éliminer la tendance.

L'opérateur de covariance centré a alors pour n o y a u :

1 n

C(t,s) = - l (x.(t) - m ( t ) ) ( x . ( s ) - m ( s ) ) n . , i i

1 = 1

et l'opérateur d'Escoufier est la m a t r i c e W de terme g é n é r a l :

w. . = - f (x. (t) - m ( t ) ) ( x . ( t ) - m ( t ) ) dt .

i j

^{n J}⁰

i

b) C e n t r a g e A . C . P .

Les courbes étant considérées comme des variables on retire à chacune sa

i r

valeur m o y e n n e sur la période c'est-à-dire m. = — / x.(t) dt .

1 JO 1

La m a t r i c e de covariance V a alors pour terme général :

v. . = / (x. (t) - m. ) (x . (t) - m . ) dt .

Il est clair que cette opération n'élimine pas en général la tendance et que dans b i e n des cas on trouvera un premier facteur trivial lié à la c h r o n o -logie si les courbes v a r i e n t de m a n i è r e s e m b l a b l e .

Les deux types de centrage n e seront équivalents que si les m o y e n n e s tem-p o r e l l e s sont égales aux m o y e n n e s d'ensemble ce qui est le cas si on a observé n trajectoires d'un p r o c e s s u s stationnaire et e r g o d i q u e .

i i . A N A L Y S E F A C T O R I E L L E A V E C UNE M E T R I Q U E

D é c o m p o s e r l'opérateur de covariance d'un processus suppose implicitement 2

l'usage du p r o d u i t scalaire de L (T) c'est-à-dire de la m é t r i q u e i d e n t i t é . Ce p o i n t de v u e est n a t u r e l dans un contexte probabiliste où les observations n'ont pas d'intérêt en e l l e s - m ê m e . En analyse des données au c o n t r a i r e , les individus jouent un rôle e s s e n t i e l et il importe de définir une n o t i o n de distance entre eux qui tienne compte des idées de l'utilisateur et de la n a t u r e du p r o b l è m e traité. G é n é r a l i s e r à des processus la n o t i o n de m é t r i q u e signifie donner une formule de distance entre t r a j e c t o i r e s .

II.1 D é f i n i t i o n et premières propriétés

Soit M u n opérateur linéaire symétrique de L (T) q u ' o n suppose strictement positif c'est-à-dire que :

] C > 0 (Mu|u) > C || u ||2 .

Remarquons que cette condition entraîne 1'injectivité de M car d'après l'i-n é g a l i t é de C a u c h y - S c h w a r z ol'i-n a :

(M u|u) < || u || || M u !|

d'où || M u || > c || u || .

2 On notera Dom M le domaine de M , c'est-à-dire le sous-espace dense L (T) où il est d é f i n i . On n o t e r a || . || la n o r m e sur Dom M associée au p r o d u i t s c a -laire : ( f | g )M = (M f | g ) , donc || f ||M = (M f | f )1 /2 .

Plus g é n é r a l e m e n t on p e u t considérer un p r o d u i t scalaire sur un s o u s e s p a

-2 . 2

ce dense de L (T) qui n e coïncide pas avec le produit scalaire induit par L ( T ) .

Le cas p a r t i c u l i e r où M est c o n t i n u , défini sur tout l'espace et s u r j e c t i f , donc b i c o n t i n u p a r le théorème de B a n a c h , est examiné dans leur thèse par DAUXOIS et POUSSE [16] , Ces conditions sont a u t o m a t i q u e m e n t réalisées en dimension finie mais sont trop restrictives si l'ensemble T est i n f i n i . L e cas général conduit à des problèmes spécifiques de d i m e n s i o n infinie et en particulier à un changement

de structure h i l b e r t i e n n e en A . C . P . Le premier cas d'A.C.P. d'un processus 2

avec une m é t r i q u e différente de celle de L (T) a été proposé par KREE et M A Z E R O L L E dans [37] en u t i l i s a n t le r e l è v e m e n t par spline et des espaces de Sobolev.

Dans [7] on trouve é g a l e m e n t une u t i l i s a t i o n des m é t r i q u e s de Sobolev en vue de l'approximation d'une A . C . P . Nous présentons ici un formalisme g é n é -ral v a l a b l e pour un opérateur M n o n forcément b o r n é .

On n o t e r a IL le complété de Dom M et H son d u a l . D'après la stricte 1/2

positivité de M on a || u || ^ C || u || : l'application canonique j de Dom V.

2 .

dans L (T) est alors c o n t i n u e . Si on note j le p r o l o n g e m e n t continu de j de 2 . ? H dans L (T) on p e u t alors m o n t r e r (lemme de F r i e d r i c h s ) que j est injectif.

2 1 '

Soit j ' son transposé : L (T) H _M . Dans ce cas on a pour x et y £ H., :

( x | y )M = (Mx|jy) = (j'Mx|y)

ce qui m o n t r e que j'M se p r o l o n g e en une isométrie M de H sur son dual H" M . On peut alors définir un opérateur autoadjoint M de L (T) qui coïncide avec M sur Dom M en p o s a n t :

Dom M = {x G H | M x e L2( T ) }

M x = M x .

On d é f i n i t a l o r s , en u t i l i s a n t la théorie s p e c t r a l e , la racine carrée

A 1/2

M de cet opérateur dont le domaine est et qui est une isométrie de H^f

sur L2( T ) car on a alors :

( M x | y ) = ( M1 / 2 x | Ml/2y ) .

R e m a r q u e importante : Notons ici une d i f f é r e n c e fondamentale avec le cas fini de l'analyse des données usuelles. On n e peut utiliser n'importe quelle m é t r i q u e pour un p r o c e s s u s donné (X ) ; en effet pour pouvoir utiliser une m é t r i q u e M il faut que toutes les trajectoires de (X^_) a p p a r t i e n n e n t à , or peut

être plus p e t i t que L (T) si la m é t r i q u e M est plus forte que celle de L (T) 2 2 (ce sera le cas pour les m é t r i q u e s de Sobolev en p a r t i c u l i e r ) . Il faut donc

s'assurer de conditions de régularité sur (X ) avant d'utiliser une m é t r i q u e

f . 2 M (par exemple que les dérivées des trajectoires appartiennent aussi à L (T)

p o u r les m é t r i q u e s de S o b o l e v ) .

processus transformé M ( Xt) dont l'opérateur de covariance est M C V.

"1/2

en p o s a n t f = M a .

Rechercher les axes p r i n c i p a u x de (X ) p o u r la m é t r i q u e M r e v i e n t alors . 2 à m a x i m i s e r l'inertie totale du processus £ a ( t ) qui v a u t E(£ ) p u i s q u e a est normé dans .

En appelant axes p r i n c i p a u x d'inertie les éléments de la b o u l e u n i t é de 2

r e n d a n t extrémale E(£ ) , v a l e u r s principales les e x t r e m a , facteurs princi-p a u x les transformés princi-par M d e s axes princi-p r i n c i princi-p a u x , comprinci-posantes princi-p r i n c i princi-p a l e s les variables aléatoires £ c o r r e s p o n d a n t e s , on a alors :

P r o p o s i t i o n 1-8

L e s axes p r i n c i p a u x , les facteurs p r i n c i p a u x et les composantes p r i n -cipales sont fonctions propres r e s p e c t i v e m e n t des opérateurs suivants :

C M , M C , W = U M U* .

V u les h y p o t h è s e s faites sur le processus et les p r o p r i é t é s des opérateurs C et M , la d é m o n s t r a t i o n de cette p r o p o s i t i o n n e diffère pas de celle donnée en dimension finie (cf. [12] par e x e m p l e ) .

En effet en s u p p o s a n t que les trajectoires de (X ) a p p a r t i e n n e n t à IL les

A> t M

opérateurs C et M sont des opérateurs n u c l é a i r e s définis sur H et R ,

respec-2 . respec-2 1 ™

tivement (si C L (T) la situation est évidente ; si ^ L (T) comme on s u p -pose que les trajectoires £ L^(T) il n'y a pas n o n plus de d i f f i c u l t é ) .

R e m a r q u o n s que les facteurs p r i n c i p a u x f sont dans l'image de M p u i s q u e par d é f i n i t i o n f = M a ,

En introduisant l'opérateur M ^ de H sur on a de plus :

( a | M a ) = 1 = (a|f) = ( M_ 1 f|f) ,

les facteurs p r i n c i p a u x sont donc de n o r m e 1 dans H

La formule de r e c o n s t i t u t i o n ou d é c o m p o s i t i o n de K a r h u n e n - L o è v e s'écrit

alors : . ,

xt = z * k fk(t) •

c k=l k k

3 9

celle de L ( T ) . Par ailleurs les pratiques usuelles de filtrage et lissage des séries chronologiques avant leur t r a i t e m e n t , conduisent implicitement à u t i l i s e r des m é t r i q u e s sur les données b r u t e s . Dans certains cas M pourra

Utiliser M = I - D suppose donc implicitement que le processus (X ) est 2

-ce H ^ T ) contenant H^(T) .

F r o p o s i t i o n 1-9

Les composantes principales de (X^.) avec la m é t r i q u e M = L'L sont identiques aux composantes principales de L ( X ^ ) dans K . Les M-facteurs p r i n c i p a u x de (Xf c) sont les transformées par Lf des f a c -teurs p r i n c i p a u x de L ( X ) , les M-axes p r i n c i p a u x de (X ) sont les

-1 t

transformées par L des axes p r i n c i p a u x de L ( X ^ ) .

La d é c o m p o s i t i o n de M en L'L n'étant pas n é c e s s a i r e m e n t unique on v o i t qu'il p e u t exister plusieurs transformations linéaires L en apparence d i f f é -rentes mais conduisant à des analyses équivalentes c'est-à-dire au m ê m e es-pace HM . pas en général et que l'on ne retrouvera pas les résultats établis en 1.3 sauf si L est une transformation stationnaire (filtre à paramètres constants) : L ( x ( t t ^ ) ) = g ( t ~ t g ) , V . Ce qui est le cas si L est une c o n v o l u t i o n d é f i

Parmi les filtres élémentaires utilisés en traitement de séries c h r o n o -logiques m e n t i o n n o n s :

. le filtre de m o y e n n e m o b i l e qui revient à remplacer u n e o b s e r v a t i o n x ( t ) par la m o y e n n e dans une fenêtre de longueur h :

r

^h/1

y ( t ) «

^-7

/ x ( t )

^{dt ;}

* M i / 2

. le filtre des différences qui revient à analyser les taux d'accrois-sement entre t-h et t

y ( t

) , -

^ "

> ;

h . le filtre d u lissage e x p o n e n t i e l

r

^l t- s y ( t ) = / a x ( s ) ds

Ces deux derniers filtres sont des filtres " r é a l i s a b l e s " ou " c a u s a u x "

car ils ne font intervenir que les observations antérieures à t .

R e m a r q u o n s enfin que l'usage d'une m e s u r e p o s i t i v e d u ( t ) sur le t e m p s , a b s o l u m e n t continue par rapport à la m e s u r e de L e b e s g u e (afin de donner plus d'importance aux instants récents par e x e m p l e ) revient à choisir une m é t r i q u e

" d i a g o n a l e " p u i s q u ' i l s u f f i t de poser = X pour se ramener au cas

d 2

u s u e l . L'opérateur M est alors tel que M x ( t ) = (———) x ( t ) .

II.2.c) M e t r i q u e s _ d e f i n i e s _ £ a r _ u n _ o p e r

Un cas très p a r t i c u l i e r est celui où l'on peut exprimer le p r o d u i t s c a -laire entre deux trajectoires par :

( x | y )M = fj y ( t ) M ( t , s ) x ( s ) dt ds

où M ( t , s ) est une f o n c t i o n de type p o s i t i f , s y m é t r i q u e , de carré i n t é g r a b l e .

L'opérateur linéaire continu M s'explicite alors par :

T trouve alors l'analogue de l'analyse des données en dimension finie sans dif-ficulté p a r t i c u l i è r e puisque MC et CM sont alors n u c l é a i r e s .

que l'on trouve dans la littérature technique est incorrecte puisque 5 ' ( t - s ) , 2

I I .3. a ) fr2 2rÍ £ t é s _ e s s e n t i e lies

d'au 4 5 d'au

cun i n t é r ê t , c o n t r a i r e m e n t à l'A.C.P. u s u e l l e , p u i s q u e les X sont des v a r i a -bles de m ê m e n a t u r e .

Un autre avantage de la m é t r i q u eDj/^a2 est le suivant : pour les p r o c e s -sus à v a r i a n c e c r o i s s a n t e (du type proces-sus à accroissements orthogonaux) analyser les données b r u t e s revient implicitement à donner plus de poids aux derniers instants de l'intervalle [0,T] puisque ce sont les variables à plus forte v a r i a n c e qui c o n t r i b u e n t le plus à la d é t e r m i n a t i o n des facteurs : il est donc p r é v i s i b l e de trouver une première composante relativement triviale liée à la v a l e u r finale du processus X ^ .

La n o r m a l i s a t i o n des données par l'usage de la m é t r i q u e

^^/ÇF-

doit alors p e r m e t t r e d'éliminer ce facteur trivial comme le m o n t r e l'exemple du paragra-phe s u i v a n t . Four des données réelles où X ^ E 0 il faudra cependant être pru-dent car a(0) = 0 et on risque d'avoir des résultats instables dus à des comportements d'individus particuliers p e n d a n t les premiers i n s t a n t s .

Comme en A . C . P . usuelle le cercle des corrélations est susceptible d'une interprétation i n t é r e s s a n t e .

R a p p e l o n s que l'on appelle cercle des corrélations associé aux composantes principales £ et la figure r e p r é s e n t a n t les v a r i a b l e s initiales X ^ par des points de coordonnées r ( Xt ; Ç^) et r ( Xt ; dans un repère o r t h o n o r m é . Dans le cas d'un processus (X ) on obtient alors une courbe paramétrée d'équation

JT

^K fk( t ) et

JT^

fU) (t) .

R

\

» S ,

\

r (

v y /

Xt- m ( t )

Si on considère le p r o c e s s u s centré r é d u i t comme une courbe de o(t)

L (Û) p a r a m é t r é e p a r le t e m p s , cette courbe est située sur la b o u l e de rayon 1, 2 le cercle des corrélations est alors la p r o j e c t i o n d u p r o c e s s u s (X^) sur le sous-espace de d i m e n s i o n 2 engendré p a r les variables aléatoires et ^£ •

II.3.b) E t u d e _ d ^ u n _ p r o c e s s u s _ £ a r t i c u l i e r

Considérons un processus dont la fonction de covariance est telle q u e :

C ( t , s ) = c inf(t,s) .

C e t t e f o n c t i o n est c a r a c t é r i s t i q u e des processus à a c c r o i s s e m e n t s station-2

naires n o n córreles c'est-à-dire tels q u e E ( ( Xt- Xg) )dépend s e u l e m e n t d e t-s et E((X - X ) (X - X )) = E ( X - X ) E ( X - X ) si t < s < u < v .

t s u v t s u v

D e u x cas particuliers importants de tels processus sont le processus de Poisson et le m o u v e m e n t b r o w n i e n . L'analyse en composantes principales de ces p r o c e s s u s se r a m è n e à la r é s o l u t i o n d e l'équation intégrale

c / inf(t,s) f(s) = X f ( t ) 0

et est classique [67] . A p r è s d e u x dérivations par rapport à t on se ramène à l'équation d i f f é r e n t i e l l e :

X f"(t) + c f (t) = 0

et on m o n t r e sans d i f f i c u l t é q u e les v a l e u r s propres X ^ sont telles que

i - 4 c T2

X = — - k = l , 2, . . . , o o

R ( 2 k - l )Z IT

et les fonctions propres normalisées (facteurs p r i n c i p a u x )

k

^{( t ) =}

V ~T

^{s i n}

|_

^{( k}

- î

⁾ⁿ

£| •

oo 2 . 0 0 2

On retrouve b i e n E A¡ = puisque E = — k=l 2 k=l (2k-l) 8

Les parts de v a r i a n c e expliquées par les premiers facteurs sont

k = 1 81,1 % k = 2 9,0 % k = 3 3,2 % k = 4 1,7 % .

Tout processus

à

a c c r o i s s e m e n t s stationnaires non

córreles

sur [0,T]

p e u t donc être résumé à plus de 80 % par un p r o c e s s u s quasi-déterministe de la forme

X

- c t

^{+ Ç l}

'(I s i n M

? 4 c T où E, est donc une v . a . r . centrée de v a r i a n c e — - —

Les coefficients de corrélation entre les Xt et les £ ^ sont donnés par : 2/2 sin[ (k - I ) n ~ ]

rU ; X ) = 1 i_ .

K E (2k-l) n

Les graphes des fonctions r(£j ; X^) et r ( £r î X^) fournissent aisément l'interprétation des deux premières composantes principales :

A r(Çj ; Xt)

/K

rU2 ; Xt)

0,9

+0,3-—¹ 1

V i ^

T T/3 2TA3 T

- 0 , 3

X .

£ ^ est très lié à X ^ : en termes d'analyse des données £j différencie

les trajectoires selon leur valeur finale tandis que £2 corrélé p o s i t i v e m e n t à et n é g a t i v e m e n t à s'interprète comme une v a r i a b l e d'avance ou de retard ; à £ j f i x é , donc à X^, f i x é , ^ d i f f é r e n c i e les trajectoires pour l e s -quelles X est élevé a s s e z tôt dans le temps ^ 0) de celles où le "démar-r a g e " est plus ta"démar-rdif.

Le fait que la quasi-totalité de l'information soit contenue dans Çj c'est-à-dire dans X ^ est dû au fait que (X^) est un processus à v a r i a n c e croissante i un tel r é s u l t a t , a s s e z évident a p r i o r i , se retrouve pour toute une gamme de p r o -cessus concrets comme celui du n o m b r e d'enfants par f a m i l l e [17] . Il semble donc utile de pouvoir é l i m i n e r cette première composante triviale : un m o y e n simple comme nous allons le voir consiste à utiliser la m é t r i q u e D, , 9 c.'est-à-dire à

l/ az

réduire X^_ pour tout t .

L'opérateur M C est alors un opérateur intégral de n o y a u ( t »5) p u i s q u e

o2( t ) = c t . t

L'équation intégrale d o n n a n t les facteurs p r i n c i p a u x est alors

A f(t)

= J

^t^{f (}^s^{) ds +}

C

f(s) ds . 0 t

En supposant comme d'habitude les solutions deux fois dérivables on se r a -m è n e aisé-ment à une équation d i f f é r e n t i e l l e du second o r d r e .

O n a en effet A f'(t) = ^- s f (s) ds

et A f"(t) =

- V I

s f (s) ds - - f (t)

t3 J

0

soit t f" + 2f ' + |- = 0 . À

Le c h a n g e m e n t de fonction inconnue f ( t ) = p e r m e t de se ramener à une équation c l a s s i q u e . Ce changement revient à chercher les fonctions p r o p r e s g(t) de l'opérateur de corrélation de n o y a u " ^ ^ g ^ ce clu^-est un cas p a r t i c u l i e r

des n o y a u x ( î ^ f ( t >s) ) étudiés par J.C. D E V I L L E [18] , et on trouve après des

(t,s)q v

calculs élémentaires - :

t2 g- * t g- + g

[j -1]

^{- o .}

Cette é q u a t i o n est un cas particulier de l'équation de Lommel (voir la formule 9.1.53 p . 362 de [ 1] ) ; la solution en est :

g(t)

- 6 ,

C ^ / t )

où Tj , est l'une ou l'autre des deux fonctions de Bessel d'ordre 1 : J, ou Y , .

n

Comme tend vers -°° quand t 0 seule Jj p e u t convenir donc g(t) = J j ( 2 y y ) . Il reste à trouver les v a l e u r s possibles pour À . Reportons la solution trouvée dans l'équation intégrale en f(t) :

A J1( 2 \ / | ) r- T

1 Y X = I / /s JA2\-) ds + / — — J. ( 2 j -S) ds

/ t t ^0 V A Jt

JS

V

qui doit devenir une identité en t . En particulier pour t = T on doit donc avoir :

A JA2\jh . /.T

r-L J ^ _ - I / /s J ,(2l/ i ) ds

/ T T 0

V

en posant = u sous l'intégrale il vient :

,

^/2

p 2UÎ

A V t J ^ - f J

ô ^V Âû²^J^l⁽^{u )}^du^.

Or (formule 11.9.20 de [ 1 ] ) on a : z

/ uV J (u) du = z J (z)

JQ v- 1

v

ce qui donne :

a

(

f f ) = f f V

^ ! > •

La formule de récurrence entre fonctions de Bessel :

V i

^{( z}

>

⁺

V i ^ - i r

v

⁽ ^z⁾

p e r m e t d'écrire J ^ (Z) = — J j ( z ) - J Q (z) et il v i e n t

soit J

0

( 2

V

^{X ) =}⁰^•

Les v a l e u r s p r o p r e s sont donc p r o p o r t i o n n e l l e s aux inverses des carrés des zéros de la f o n c t i o n de Bessel JQ :

Pour achever la d é t e r m i n a t i o n des facteurs il r est e à n o r m a l i s e r les f o n c -tions trouvées ; on doit avoir :

/ t [ f ( t ) ]2 dt = 1

soit / [g(t)] dt = 1 .

Il faut évaluer l'intégrale [ J j ( 2 ^ / ^ ) ]2 d t où À v é r i f i e la relation p r é c é d e n t e .

Posons t = T u , l'intégrale cherchée s'écrit alors :

2T J u [ J1( 2 ^ Î " ) ]2 du . 0

Comme les zéros de J Q sont aussi ceux de z J j ( z ) + J j ( z ) on peut appliquer la formule 11.4.5 de [ 1 ] et il v i e n t

r

u [ J

( 2 / ï u ) ]

d u = i [ J

( 2 \ / f ) ]

en d é f i n i t i v e

f

^{[ J.}

^{( 2} ^{\ / J}

^)]² dt v a u t donc T [ J1

(2\f^- )]

^ 0 1 V Ak

soit T fJl(J0, k)] 2 Puisque 2

\/^Ç

^{= j}

0,k

Les fonctions p r o p r e s n o r m a l i s é e s sont donc données par :

g ( t) =

/TJl(J Q ,K>

5 1

-et les corrélations entre X -et les composantes principales par :

r ( X

t ! V -f\ \

^{( t )}

<* ^

^{2 J}

l

^<j

0,k^T>

soit

r ( Xf c ; Ç ) = '- .

0 , k

i

^{( j}

o,k>

Comme la somme des v a l e u r s propres v a u t T p u i s q u e les données sont réduites on en d é d u i t la r e l a t i o n suivante entre les zéros de la fonction de Bessel JQ :

Z

^{_ J =}¹

8 = 1 (

V s

) 2 4

On r e t r o u v e ainsi un cas p a r t i c u l i e r des formules d'Euler et de R a y l e i g h ([66] p . 5 0 0 - 5 0 2 ) .

N u m é r i q u e m e n t les quatre p r e m i e r s zéros de sont a p p r o x i m a t i v e m e n t égaux à 2,40 ; 5,52 ; 8,65 ; 11,79 ce qui conduit à des parts d'inerties :

(cumul)

À /T = 6 9 , 2 % 6 9 , 2 % À /T = 1 3 , 1 % 8 2 , 3 % A3/ T = 5,3% 8 7 , 6 % A./T = 2,9% 9 0 , 5 %

On constate que le taux d'inertie de la p r e m i è r e composante de l'analyse r é d u i t e est inférieur à celui de l'analyse non réduite (81,1%) mais que c'est l'inverse pour les composantes s u i v a n t e s .

Comme on p o u v a i t le prévoir la valeur finale du p r o c e s s u s , X ^ , d é t e r m i n e beaucoup moins les composantes p r i n c i p a l e s dans l'analyse r é d u i t e . A i n s i , ici r ( XT ; Ç ) ^ 0,83 (au lieu de 0,90) et le m a x i m u m de r(X ; Çj) est atteint pour — ~ 0,56 et v a u t environ 0,93 . E,^ est donc b e a u c o u p plus lié aux valeurs intermédiaires du processus que dans l'analyse n o n réduite et représente donc une v a r i a b l e de d i f f é r e n c i a t i o n selon l'avance ou le retard par rapport à la m o y e n n e : on a donc d'une certaine façon éliminé la composante triviale de

l'analyse u s u e l l e .

R e m a r q u o n s pour terminer que tous les processus à accroissements s t a t i o n -naires n o n córreles ont la m ê m e A . C . P . bien qu'ils recouvrent des phénomènes forts différents (mouvement b r o w n i e n ou processus de P o i s s o n par e x e m p l e ) .

La simple c o n s i d é r a t i o n des valeurs propres et des facteurs p r i n c i p a u x ne p e r m e t pas d'identifier un processus : on retrouve ici une limitation des m é t h o d e s factorielles linéaires qui n'utilisent que les m o m e n t s d'ordre d e u x . Ce sont les v a r i a b l e s qui p e r m e t t r a i e n t de caractériser le p r o c e s s u s é t u -dié mais dans l'état actuel des connaissances leurs lois n e sont pas connues sauf dans le cas gaussien (mouvement b r o w n i e n ) où elles sont ellesmêmes g a u s -s i e n n e -s .

I I I . M I S E EN OEUVRE DE LA M E T H O D E

Nous regroupons dans ce paragraphe des résultats pour l'essentiel connus concernant l'approximation et l'interpolation des processus et des c o m m e n t a i -res sur l'interprétation des résultats et la façon de se servir d'une analyse factorielle pour des données c h r o n o l o g i q u e s .

III.1 L'approximation n u m é r i q u e

Lorsque l'on dispose d'observations en continu concernant n i n d i v i d u s , c'est-à-dire de n trajectoires d'un processus (X^_) , deux problèmes d'approxim a t i o n de n a t u r e s différentes se p o s e n t ; le pred'approximier d'ordre théorique et p r o -b a -b i l i s t e : l'analyse factorielle des n trajectoires est-elle une a p p r o x i m a t i o n de l'analyse factorielle du processus ? Il s'agit ici d'un problème d ' é c h a n t i l -lonnage au sens classique du terme.

Le deuxième est d'ordre pratique et n u m é r i q u e : si l'analyse exacte des n trajectoires est théoriquement p o s s i b l e et se ramène à une d i a g o n a l i s a t i o n d'une m a t r i c e n x n (voir I.l.b de ce c h a p i t r e ) en fait ceci n'est pas r é a l i -sable dès que n est grand et il faut procéder à une d i s c r é t i s a t i o n du temps pour se ramener à une A . C . P . c o n c e r n a n t p v a r i a b l e s .

III.1.a) E c h a n t i l l o n n a g e

En s u p p o s a n t un m o d è l e d'échantillonnage aléatoire simple (chaque trajec-toire est une réalisation indépendante de (X^_) ) on peut démontrer si n °° la

c o n v e r g e n c e de l'analyse factorielle de n trajectoires vers celle du proces-sus (X ) .

Les résultats établis par [16] et [17] m o n t r e n t sous des hypothèses assez larges (existence d'un m o m e n t d'ordre 4) la convergence uniforme en m o y -enne q u a d r a t i q u e ou presque s û r e , de l'opérateur aléatoire de covariance associé à un échantillon vers l'opérateur C du p r o c e s s u s , et des valeurs propres et des facteurs a s s o c i é s .

Des résultats récents établis par ROMAIN [56] généralisent aux p r o c e s -sus sur [0,T] les résultats classiques de T.W. A N D E R S O N [2] sur la distribu-tion d'échantillonnage des valeurs p r o p r e s , des vecteurs propres et des pro-jecteurs associés aux sous-espaces propres de .

Donc si n est a s s e z grand on est assuré de la validité des r é s u l t a t s .

III.1.b) R é s o l u t i o n _ n u m e r i q u e

On suppose ici que les n trajectoires x^(t) sont entièrement connues sur [0,1] donc que l'opérateur C associé à l'échantillon est calculable en

tout couple t,s : C(t,s) I p. x.(t) x.(s) après centrage é v e n t u e l . i=l 1 1 1

Il s'agit alors de résoudre un problème n u m é r i q u e , celui de la résolution ae l'équation :

f C(t,s) f(s) ds = X f(t) .

^ 0

Fixons-nous un découpage de [0,T] en p segments :

[ 0, tj ] ^ [ t p t^] , . . . , [ t j ,T] . A t fixé on sait q u ' i l existe des points £j dans chaque segment tels que :

NI

C ( t , s ) f(s) ds = E C ( t , Ç . ) f U . ) ( t . - t ) = A f(t) . JQ

J

= 1

J J J J

On ne p e u t é v i d e m m e n t utiliser cette formule pour calculer f(t) p u i s q u e les £j dépendent à la fois de t et surtout de f qui est inconnu.

a) M e t h o d e _ d e _ q u a d r a t u r e

L e plus simple est alors d'approximer l'intégrale par une formule de quadrature :

r

^T^P

/ C(t,s) f(s) ds # Z C ( t , t . ) f(t.) a.

°6 j=0 J J J

où les coefficients a^ n e d é p e n d e n t que du découpage de [0,T] . On p o u r r a écrire alors pour t = 0,t,...,T le système :

Z C(t t ) f(t ) a = A f(t ) i=0,l,2,...,p

j=0 J J J

dont la résolution donnera des valeurs approximatives de A et de f ( t ^ ) .

O n est alors ramené à un problème de d i a g o n a l i s a t i o n d'une m a t r i c e de taille (p+1) : C A f = À f , où C est la m a t r i c e des covariances des de

j termes C ( t , t J et A une m a t r i c e dépendant de la m é t h o d e de q u a d r a t u r e r e t e n u e .

R e m a r q u o n s ici que ceci revient à faire l'analyse en composantes p r i n c i pales des X ^ avec une m é t r i q u e A : les approximations des facteurs p r i n c i

-j

p a u x de C sont les axes p r i n c i p a u x de l'A.C.P. des X avec pour m é t r i q u e A . j

Pour la p l u p a r t des méthodes élémentaires de q u a d r a t u r e la m a t r i c e A est diagonale :

* m é t h o d e des rectangles

a. = t . . - t. j=0,1,2,...,p-l . J J + l J > * » > r

* m é t h o d e des trapèzes

fcl - fc

0

^£^{2 -}^ü⁰^fc^{3 -}^C^l

a a a

2 1 2 2

t "^t i

a = - E ElL .

p 2

* m é t h o d e de Simpson à pas constant p

La m é t h o d e des rectangles et celle des trapèzes reviennent toutes deux à approximer l'intégrale d'une fonction sur [0,T] par celle d'une fonction en escalier. Cette r e m a r q u e p e r m e t de passer à un autre type d'approximation o ù

[ t^, t^+j] : en d'autres termes on remplace chaque trajectoire x^(t) par

r.L. x (t) dt xi( t ) telle que si t £ [ t . , ti + J] x ^ t ) = / 1 + 1 -±

x^(t) est la trajectoire obtenue en p r e n a n t la m o y e n n e de x^(t) sur c h a -que intervalle du d é c o u p a g e . La m a t r i c e de covariance du processus (X ) s'ob-tient alors en faisant la m o y e n n e des covariances sur chaque rectangle [ tj_ , t. + ]] x [tj , tj + ,] i,j - 0 , 1 , 2 , . . . , p-1 .

y ) G é n é r a l i t é s _ s u r _ l ^ a p p r o x i m a t i o n

O n peut g é n é r a l i s e r ce type d'approximation en cherchant à approximer les trajectoires par des fonctions autres qu'en escalier m a i s cela pose quel-ques p r o b l è m e s .

Cherchons en effet une a p p r o x i m a t i o n des facteurs p r i n c i p a u x f dans un 2

sous-espace de dimension finie de L (T) engendré par un système orthonormé de fonctions e^(t), e2( t ) , ep ( t ) (les fonctions trigonométriques ou les

de L (T) sur l'espace engendré par les e. . L e s trajectoires du processus

2 . J C ainsi que les suites d^'éléments propres ce qui justifie l'utilisation de l'opérateur PCP qui peut être alors r e p r é s e n t é par une m a t r i c e d'ordre p p u i s q u e l'on se ramène à un p r o b l è m e en d i m e n s i o n f i n i e . Les calculs des é l é -ments de la m a t r i c e PCP r i s q u e n t cependant d'être laborieux car en se p l a ç a n t dans la base formée par les e.(t) il faut calculer l'image par C de chaque e.(t) p o u r obtenir les éléments de PCP ( ( P C P ) . . = (e.|C e.)) ce qui é n t r a î

5 7

-pour le découpage : 0 = t ^ , t j , , . . • , t = T

^ ) § u r _ l e _ c h o i x _ d e _ l a _ d i s e r e t i s a t i o n

L e n o m b r e de points é t a n t fixé il reste à choisir le découpage de [C,T] . Si le processus est a p p r o x i m a t i v e m e n t stationnaire (ou stationnaire après transformation l i n é a i r e ) , le découpage en intervalles de longueurs égales est évidemment le m e i l l e u r ce qui revient à effectuer une analyse en c o m p o -santes principales ordinaire de X , X ,..., X

\ 2

Si le processus n'est pas stationnaire le choix du " m e i l l e u r " découpage de [0,T] est un p r o b l è m e délicat qui soulève tout d'abord la question de l'optimalité : m e i l l e u r découpage pour l'approximation des v a l e u r s propres ou meilleur découpage pour l'approximation des facteurs p r i n c i p a u x ? E t c . Ces problèmes sont à l'heure actuelle n o n r é s o l u s .

Par analogie avec les résultats de la théorie des sondages stratifiés on peut donner comme règle h e u r i s t i q u e de découper plus finement les parties de [0,T] où la v a r i a b i l i t é est la plus g r a n d e . On peut alors émettre la conjec ture suivante "le n o m b r e de points de d i s c r é t i s a t i o n sur une partie [ a,b] in-cluse dans [0,T] doit être p r o p o r t i o n n e l à l'écart-type total du processus sur [ a,b]

Nous proposons alors la règle empirique suivante : on trace la courbe oz(t) au besoin très g r o s s i è r e m e n t et on découpe arbitrairement l'intervalle [0,T] en k parties égales . On évalue par une m é t h o d e élémentaire la sur-face S^ de chaque m o r c e a u s^itué sous la c o u r b e . Le n o m b r e de points du dé-coupage final de [0,T] € A ^ sera alors p r o p o r t i o n n e l à S. . 1 1 suffit ensuite de découper chaque A^ selon le nombre trouvé en parties égales pour obtenir le découpage de [0,T] qui servira pour l'approximation.

^ s k

S! 2

1 1 >

T t

Ce d é c o u p a g e semble r e c o m m a n d a b l e aussi b i e n p o u r la m é t h o d e de m o y e n n a g e des trajectoires que pour celle plus frustre d'intégration par q u a d r a t u r e .

III.2 L1 i n t e r p r é t a t i o n

Bien que faisant appel à des outils m a t h é m a t i q u e s proches de ceux de l'approximation, l'interpolation recouvre en fait un p r o b l è m e totalement d i f -férent : au lieu de connaître la totalité des trajectoires et d'être obligé de discrétiser [0,T] par n é c e s s i t é de c a l c u l , on suppose ici que le p r o c e s -s u -s , bien qu'à temp-s continu par n a t u r e , n e p e u t être ob-servé qu'à de-s date-s précises 0, t j , t^* • > • 9t = T pas n é c e s s a i r e m e n t e q u i d i s t a n t e s , par suite des contraintes de l'appareillage s t a t i s t i q u e . On connaît donc les v a r i a b l e s X ^ , X ,...,X . Comme l'a m o n t r é J.C. D E V I L L E [17] il serait i n c o r r e c t d ' e f f e c ^

tuer une A . C . P . ordinaire sur ces v a r i a b l e s pour obtenir une a p p r o x i m a t i o n de la v é r i t a b l e analyse factorielle du p r o c e s s u s (X^) n e serait-ce que par le fait que les intervalles [ t^, ne sont pas n é c e s s a i r e m e n t égaux m a i s s u r -tout parce que les résultats d o i v e n t tenir compte d'hypothèses de régularité des trajectoires entre les instants d ' o b s e r v a t i o n , h y p o t h è s e s liées en fait i m p l i c i t e m e n t à l'utilisation d'une m é t r i q u e pour m e s u r e r les distances entre trajectoires comme le suggèrent les travaux de P. BESSE [7] q u e nous tentons de r é i n t e r p r é t e r .

III.2.a) L^interpolation_lineaire

En r e p r e n a n t les n o t a t i o n s de [17] , étant donné p fonctions d ' i n t e r p o -lations e . ( t ) , simples (c'est-à-dire e.(t-) = 1 et e.(t ) = 0 si j ¿ k ) ,

l'in-J l'in-J l'in-J l'in-J k terpolation d'une trajectoire x ( t ) sera n o t é e $ x ( t ) et v a u t

$x(t) = I x. e.(t) et est donc un élément d'un espace à p d i m e n s i o n s . Nous

n o t e r o n s a^(t) les éléments d'une base de cet espace de telle sorte que les fonctions d'interpolation s'écrivent e. (t) = l <p. . a.(t) . R e m a r q u o n s que

1 i 1J J

pour l'instant nous ne supposerons pas les aj ( t ) o r t h o n o r m é s .

E c r i r e que les fonctions d'interpolation sont simples implique

I <p. . a. (t, ) = 5 . L a m a t r i c e é d'éléments <p. . est donc l'inverse de la

j ij

J

k' jk y

IJ

m a t r i c e B d'éléments a. (t.) : <b = B * . J i

L ' i n t e r p o l a t i o n étant obtenue par linéarité l'opérateur de covariance

Dans le document Méthodes exploratoires d'analyse de données temporelles (Page 27-59)

b) Analyse_de_pÍ!£sieurs_courbes_ :_dualite_et_centrage

i

i r

J

0

i j

i

i r

2 .

r