Master 2 Ingenierie Statistique Series temporelles

(1)

Master 2 Ingenierie Statistique

Series temporelles

Paul Rochet

1 Introduction

1.1 Processus stochastiques

Un processus stochastique est une famille de variables aleatoires (X_t)_t2T indexee par un espace T et denies sur un même espace probabilise (; A; P) et a valeurs dans un même espace E. Dans ce cours, on se placera dans l'espace L²= L²() des variables aleatoires de carre integrable a valeurs dans un espace Euclidien E, voire même le plus souvent E = R.

Si le processus est indexe par le temps, on parle de serie temporelle. On peut avoir un processus a temps discret (T = N ou Z) ou a temps continu (T = R+ ou R). Il existe des processus stochastiques indexes par des espaces de dimension superieure comme en imagerie avec T = Z²par exemple.

Expéditions mensuelles de champagne

Année

2002 2004 2006 2008 2010

10000 20000 30000 40000 50000

Niveau mensuel du lac Huron

Time

LakeHuron

1880 1900 1920 1940 1960

576577578579580581582

Figure 1: Exemples de series temporelles mensuelles relevees sur plusieurs annees.

On s'interessera quasi exclusivement a des series temporelles a temps discret avec T = N ou Z. En pratique, on dispose d'un echantillon x1; :::; xn que l'on suppose issu d'une realisation du processus Xt

observe a n temps successifs.

L'objectif de ce cours est de modeliser l'evolution d'un processus Xt dont on observe une realisation X = (X1; ::; Xn) dans le temps, generalement a des ns de prediction.

La loi d'un processus (X_t)_t2T est caracterisee par ses marginales nies dimensionnelles, c'est-a-dire par la loi des vecteurs (X_t₁; :::; X_t_k) pour tout t₁< ::: < t_k2 T , k 2 N. La loi d'un processus est donc potentiellement tres compliquee. En pratique, on caracterisera souvent la loi d'un processus en se ramenant a des processus dits stationnaires.

Denition 1.1. Une serie temporelle (Xt)t2Zest stationnaire (ou faiblement stationnaire ou stationnaire au second ordre) si elle est d'esperance constante au cours du temps et si pour tout h 2 N; t 2 Z, cov(Xt; Xt+h) = cov(X0; Xh) 2 R (la covariance entre Xtet Xt+h ne depend pas de t).

En particulier, la stationnarite implique l'existence d'un moment d'ordre 2 qui est constant dans le temps.

Grossierement, une serie temporelle est stationnaire si ses moments joints jusqu'a l'ordre 2 sont invariants

(3)

par translation dans le temps. On dira qu'une serie temporelle est fortement stationnaire si sa loi est invariante par translation:

(X_t₁; :::; X_t_k)^loi= (X_t₁_+h; :::; X_t_k_+h) ; 8h 2 N; 8t₁; :::; t_k:

Il existe des tests sur la stationnarite, les plus utilises etant le test de Dickey-Fuller augmente (ADF) dont l'hypothese nulle implique la non-stationnarite du processus (on conclut donc la stationnarite en rejettant H₀) et le test de Kwiatkowski, Phillips, Schmidt et Shin (KPSS) dont l'hypothese nulle sous-entend la stationnarite. Sous R, ces tests sont codes par les fonctions adf.test et kpss.test de la librairie tseries.

Denition 1.2. Un bruit blanc est un processus stochastique (_t)_t2T indexe par un espace discret tel que _t est centre de variance ²< 1 pour tout t et pour tout s; t dierents, cov(_t; _s) = 0.

On dira qu'un bruit blanc (t)t2T est fort si les t sont iid. Il n'existe pas de bruit blanc indexe par un espace continu. Un bruit blanc Gaussien (dont toutes les marginales nies dimensionnelles sont Gaussiennes) est un bruit blanc fort.

Bruit blanc Gaussien

0 20 40 60 80 100

−3−2−10123

Bruit blanc de Bernoulli

0 20 40 60 80 100

−0.4−0.20.00.20.4

Exercice. Montrer qu'un bruit blanc (resp. bruit blanc fort) est stationnaire (resp. fortement stationnaire).

Les bruits blancs ne sont bien s^ur pas les seuls processus stationnaires mais la plupart des processus stationnaires classiques sont denis a partir de transformations lineaires de bruits blancs. Par exemple, une moyenne mobile (MA pour mobile average) d'ordre 1 est un processus stationnaire de la forme

X_t= _t+ a_{t 1} ; t 2 Z

ou a 2 R et (_t)_t2Zest un bruit blanc. On verie facilement que ce processus est stationnaire (exercice).

1.2 Auto-covariance et auto-correlation

Pour une serie temporelle (Xt)t2Zstationnaire, on peut s'interesser a sa fonction d'auto-covariance, denie

par (h) := cov(Xt; Xt+h) ; h 2 N:

(4)

C'est bien une fonction du lag h uniquement (elle ne depend pas de t) precisement parce que (Xt)t2Z

est stationnaire. Soit ² = (0) la variance de Xt, on denit de la m^eme maniere la fonction d'auto- correlation ou ACF (auto-correlation function) par

(h) := cor(X_t; X_t+h) = cov(X_t; X_t+h)

² ; h 2 N:

On peut etendre ces fonctions a h 2 Z par symetrie en posant (h) = ( h).

Proposition 1.3. Une fonction : Z ! R est la fonction d'auto-covariance d'une serie temporelle stationnaire si et seulement elle est symetrique et de type positif, c'est-a-dire si pour tout N 2 N et pour toute suite reelle a = (a_k)_k2Z a support ni

X

s;t2Z

asat(s t) 0:

Preuve. Soit la fonction d'auto-covariance d'un processus (Xt)t2Z stationnaire (qu'on suppose centre sans perte de generalite). Pour tout a = (ak)k2Za support ni,

0 var X

t2Z

atXt

= X

s;t2Z

asat(s t):

Reciproquement, soit : Z ! R symetrique de type positif. Pour N 2 N, on considere la matrice de Toeplitz N = ((s t))s;t= N;:::;N qui est de taille (2N + 1) (2N + 1). Cette matrice est semi-denie positive par hypothese, il existe donc un vecteur Gaussien Y^(N)= (Y_t^(N))_{t= N;:::;N} centre de matrice de covariance _N. On denit le processus X^(N) indexe par Z:

X_t^(N)=

Y_t^(N) si N t N, 0 sinon.

On peut alors montrer que X^(N) converge en loi vers un processus stationnaire de fonction d'auto- covariance (on verie facilement la convergence des marginales nies dimensionnelles mais la convergence en loi de processus necessite un critere supplementaire de tension que l'on admettra).

Les fonctions d'auto-covariance et auto-correlation sont bien s^ur inconnues en pratique mais elle peuvent

^etre estimees empiriquement. Soient X1; :::; Xn les donnees issues de (Xt)t2Z, on note bm = ¹_nP_n

i=1Xi. Les fonctions d'auto-covariance et auto-correlation empirique sont alors denies par

b(h) := 1 n

n hX

i=1

(X_i m)(Xb _i+h m) et b(h) =b b(h)

b(0) ; h 2 0; :::; n 1:

et b(h) = b(h) = 0 pour h n. On peut bien entendu la aussi etendre ces fonctions a h 2 Z en posant b( h) = b(h). On remarque que l'auto-covariance empirique b(h) est calculee avec la renormalisation en 1=n au lieu de l'habituelle 1=(n h). La raison principale est d'obtenir une fonction de type positif, ce qui ne serait pas necessairement le cas avec des renormalisation dierentes pour chaque h.

(5)

Exercice. Montrer que la fonction d'auto-covariance empirique b est de type positif.

L'ACF (et son estimation parfois appelee auto-correlogramme) nous donne de l'information sur la depen- dance du processus. Il est toujours utile de le representer grahiquement car il met en evidence ces dependances. Par exemple, un bruit blanc est caracterise par un acf (h) nul pour h 1. Par abus de notation, on parle parfois d'ACF pour designer l'estimation.

0 1 2 3 4

−0.2 0.0 0.2 0.4 0.6 0.8 1.0

h ACF champagne

0 10 20 30 40 50

−0.2 0.0 0.2 0.4 0.6 0.8 1.0

h ACF bruit blanc

1.3 Innovation

Pour un processus (Xt)t2Z, l'innovation designe la part du processus qui est imprevisible (lineairement) a partir des observations passees et donc qui est non correlee au passe.

L'enveloppe lineaire H d'un processus (X_t)_t2Zde carre integrable est l'adherence du sous-espace vectoriel de L² engendre par les variables :::; X_t; X_t+1; :::: (en incluant la constante) :

H = vectf1; X_t; t 2 Zg:

L'enveloppe lineaire d'un processus (pas necessairement stationnaire) contient donc l'ensemble des variables aleatoires de L² que l'on peut obtenir comme transformation lineaire du processus Xt, c'est-a-dire qui s'ecrivent sous la forme

Y :=X

t2Z

atXt; t 2 Z;

et tel que var(Y ) < 1. De la m^eme maniere, on denit le passe (lineaire) de X_t comme l'adherence de l'espace vectoriel engendre par la serie jusqu'au temps t

H_t= vectf1; X_s; s tg ; t 2 Z:

Clairement, les ensembles H_tsont croissants. On denit le passe lointain comme la limite en moins l'inni:

H ₁= lim

t! 1H_t=\

t2Z

H_t:

Dans les deux cas extr^emes, un processus est dit purement determinisite si Ht= Ht 1pour tout t 2 Z (et donc si H 1= H) et purement innovant si H 1 vectf1g. Par exemple, un bruit blanc est purement innovant tandis qu'un processus constant est purement deterministe.

(6)

Denition 1.4. Soit (Xt)t2Z un processus de carre integrable, son processus des innovations est donne

par t= Xt Ht 1(Xt) ; t 2 Z

ou Ht 1 est l'operateur de projection orthogonale sur Ht 1 dans L².

L'innovation d'un processus (Xt)t2Z est donc la partie imprevisible (lineairement) a partir des donnees passees. On remarque que Htest la somme directe

H_t= H_{t 1} vectf_tg

et que les espaces Ht 1et vectftg sont orthogonaux. Si Xtest de variance nie, la variance de l'innovation est strictement inferieure a celle de Xtpar la relation de Pythagore

var(t) = var(Xt) var Ht 1(Xt)

var(Xt):

Un processus est purement determinisite si et seulement si son innovation est presque s^urement nulle pour tout t.

Proposition 1.5. Si (X_t)_t2Z est un processus stationnaire, alors son processus des innovations est un bruit blanc.

Preuve. On suppose le processus (X_t)_t2Zcentre sans perte de generalite. Son processus des innovations (_t)_t2Z est entierement caracterise par son auto-covariance . En eet, par denition de H_{t 1}, on peut ecrire la projection orthogonale comme _H_{t 1}(X_t) = lim_N!1P_N

h=1a^N_hX_{t h}ou (a^(N)₁ ; :::; a^(N)_N ) minimise (a₁; :::; a_N) 7! var

X_t X^N

h=1

a_hX_{t h}

= (0) 2X^N

h=1

a_h(h) 2 X^N

h;h⁰=1

a_ha_h⁰(h h⁰):

Le processus des innovations est donc stationnaire. Par construction, t2 Ht\ H_{t 1}^? , test donc orthogonal a Ht 1 et a Ht h pour h 2 par inclusion. D'ou cov(t; t h) = 0 pour tout h 1.

Exercice. Montrer que la reciproque de la proposition precedente n'est pas vraie.

Theoreme 1.6. Soit (Xt)t2Z une serie temporelle stationnaire purement innovante d'esperance m, il existe une suite reelle ( k)k1 de carre sommable tels que

Xt= m +X

k1

kt k+ t ; t 2 Z;

avec (t)t2Zle bruit blanc des innovations de (Xt)t2Z.

Preuve. Soit t l'innovation au temps t, on sait que Ht = Ht 1 vectftg. Par recurrence, on obtient pour tout h 1,

H_t= H_{t h} E_t^h

ou E_t^h= vectf_t; :::; _{t h}g est orthogonal a H_{t h}. De plus, comme les ensembles E_t^h; h 1 sont croissants, on a

X_t= _H_{t h}(X_t) +X^h

k=1

k_{t k}+ _t; t 2 Z;

(7)

ou les coecients k; k h ne dependent pas de h (car les tsont orthogonaux). On sait par hypothese que la variance de Xtest nie avec

8h 1 ; 1 > var(Xt) ²

1 + Xh k=1

2k

: On deduit queP

k1 2

k < 1. En particulier, P_h

k=1 kt k converge dans L² quand h ! 1 (on peut montrer par exemple que c'est une suite de Cauchy), la limite limh!1Ht h(Xt) existe donc aussi dans L². Par construction, la limite appartient a H 1= vectf1g car le processus est purement innovant.

La reciproque est vraie, ce qui se montre facilement. Cette representation est la decomposition de Wold d'un processus stationnaire purement innovant.

Exercice. Calculer la fonction d'auto-covariance d'un processus centre stationnaire purement innovant en fonction des coecients _k de sa decomposition de Wold.

Exercice. Determiner la decomposition de Wold du processus X_t= _t+ _{t 1}.

1.4 Auto-correlation partielle

Un outil similaire indispensable pour l'analyse de series temporelles est la fonction d'auto-correlation partielle ou PACF. Pour t 2 Z, soit

H_t⁰= vectf1g et H_t^h= vectf1; X_t; :::; X_{t h+1}g ; h = 1; 2; :::

Autrement dit, H_t^h est le sous-espace vectoriel de L² de dimension au plus h engendre par le passe X_t; :::; X_{t h+1}. On note _H_t^h l'operateur de projection orthogonale sur cet espace. La fonction d'auto- correlation partielle ou PACF du processus (X_t)_t2Zest donnee par

(h) := cor X_t _H^{h 1}

t 1(X_t); X_{t h} _H^{h 1}

t 1(X_{t h})

; h 1 ; t 2 Z:

Pour h = 1, la projection _H_{t 1}⁰ (:) est identiquement nulle, on a donc (1) = (1). De facon (peut ^etre) plus parlante, la correlation partielle a l'ordre h et la correlation residuelle entre X_tet X_{t h}lorsqu'on a elimine les dependances lineaires avec la serie aux h 1 temps intermediaires t 1; :::; t h + 1.

0 1 2 3 4

−0.4

−0.2 0.0 0.2 0.4 0.6 0.8

h PACF champagne

0 10 20 30 40 50

−0.2

−0.1 0.0 0.1 0.2

h PACF bruit blanc

(8)

Pour tout lag h 1, le coecient (h) peut s'obtenir par regression lineaire de Xt en fonction du passe jusqu'a l'ordre h: Xt 1; :::; Xt h. Quitte a considerer la serie recentree (Xt m)t2Z ou m = E(Xt), on suppose sans perte de generalite que E(Xt) = 0. Soit ₁^(h); :::; _h^(h) les coecients de cette regression lineaire, solution de

Xt= ₁^(h)Xt 1+ ::: + ^(h)_h Xt h+ _t^(h); (1) ou _t^(h) est orthogonal (non correle) a X_{t 1}; :::; X_{t h}. Ces coecients ne dependent pas du temps par stationnarite de (X_t)_t2Z. On remarque par ailleurs que

^(h)₁ Xt 1+ ::: + _h^(h)Xt h= _H^h_{t 1}(Xt) et _t^(h)= Xt _H_{t 1}^h (Xt):

On supposera implicitement que les coecients _j^(h) sont uniques et donc que les variables X_{t 1}; :::; X_{t h} ne sont pas liees lineairement (l'espace H_{t 1}^{h 1} est donc de dimension h 1). On a alors la propriete suivante.

Proposition 1.7. Pour tout h 1, (h) = _h^(h).

Avant de donner la preuve, remarquons la propriete fondamentale suivante: la correlation partielle est entierement determinee par la fonction d'auto-covariance (elle n'apporte donc en theorie pas plus d'information m^eme si elle s'interprete dieremment). De plus, la fonction d'auto-covariance (:) etant symetrique, la serie renversee dans le temps

X_t:= X _t; t 2 Z

est donc egalement stationnaire avec le même ACF et donc le même PACF. Une consequence immediate est que les coecients de la regression lineaire de Xtpar le passe Xt 1; :::; Xt hsont les mêmes (en ordre inverse) que ceux de la regression de Xt par le futur Xt+1; :::; Xt+h, autrement dit

Xt= ₁^(h)Xt+1+ ::: + _h^(h)Xt+h+ ^(h)_t ou _t^(h) est orthogonal a X_t+1; :::; X_t+h et de m^eme variance que ^(h)_t .

Preuve de la proposition. On suppose toujours sans perte de generalite que (X_t)_t2Z est centree. Pour h = 1, la regression lineaire Xt= ₁⁽¹⁾Xt 1+ ⁽¹⁾_t a pour solution

₁⁽¹⁾= cov(Xt; Xt 1)

var(Xt 1) = cor(Xt; Xt 1);

par stationnarite (et donc variance constante) de (X_t)_t2Z. Pour h 2, on a d'apres l'equation (1) _H^{h 1}

t 1(X_t) = ^(h)₁ X_{t 1}+ ::: + _{h 1}^(h) X_{t h+1}

+ ^(h)_h _H^{h 1}

t 1(X_{t h}):

Comme _t^(h) est orthogonal a H_{t 1}^h (et donc aussi a H_{t 1}^{h 1}), on deduit Xt _H^{h 1}

t 1(Xt) = _h^(h) Xt h _H^{h 1}

t 1(Xt h)

+ _t^(h); (2)

(9)

et cov Xt _H^{h 1}

t 1(Xt); Xt h _H^{h 1}

t 1(Xt h)

= _h^(h)var Xt h _H^{h 1}

t 1(Xt h) :

Par symetrie dans le temps (les series Xt et Xt = X t ont les m^emes fonctions d'auto-covariance), on sait que var Xt h _H^{h 1}

t 1(Xt h)

= var Xt _H^{h 1}

t 1(Xt) .

En pratique, on peut donc estimer l'auto-correlation partielle (h) par le coecient b(h) = b_h^(h) de la regression lineaire des observations Xten fonction du passe jusqu'a l'ordre h. On peut aussi utiliser une methode iterative comme l'algortihme de Durbin-Levinson.

Proposition 1.8 (Algorithme de Durbin-Levinson). Pour tout h 1, soit h = var _t^(h)

. Alors, ₁= (0)(1 (1)²), ₁⁽¹⁾= (1) et pour h 2,

(h) = _h^(h)= 1 h 1

(h)

h 1X

j=1

_j^{(h 1)}(h j)

h= h 1 1 (h)²

j(h)= ^{(h 1)}_j (h)_{h j}^{(h 1)} ; j = 1; :::; h 1.

Preuve. D'apres la preuve precedente, X_t= ₁⁽¹⁾X_{t 1}+ ⁽¹⁾_t avec ⁽¹⁾₁ = (1). On a bien ₁= var _t⁽¹⁾

= var(X_t) ⁽¹⁾²₁ var(X_{t 1}) = (0) 1 (1)² : En remarquant que Xt _H^{h 1}

t 1(Xt) = ^{(h 1)}_t , on trouve toujours d'apres la preuve precedente _h^(h)= cov X_t _H^{h 1}

t 1(X_t); X_{t h} _H^{h 1}

t 1(X_{t h})

var ^{(h 1)}_t =cov X_t _H_{t 1;h 1}(X_t); X_{t h}

h 1 :

Or _H^{h 1}

t 1(Xt) = ₁^{(h 1)}Xt 1+ ::: + _{h 1}^{(h 1)}Xt h+1, d'ou _h^(h)= 1

_{h 1}

(h) ^{h 1}X

j=1

_j^{(h 1)}(h j)

:

Pour montrer le deuxieme point, on applique la variance dans l'equation (2), ce qui donne _{h 1}= (h)²_{h 1}+ _h:

Enn, comme H_{t 1}^{h 1} H_{t 1}^h , _H^{h 1}

t 1(X_t) = _H^{h 1}

t 1(_H_{t 1}^h (X_t)), ou encore

₁^{(h 1)}Xt 1+ ::: + ^{(h 1)}_{h 1} Xt h+1= ₁^(h)Xt 1+ ::: + ^(h)_h Xt h+1+ _h^(h)_H^{h 1}

t 1 Xt h : Par symetrie par rapport au temps, _H^{h 1}

t 1 X_{t h}

= ₁^{(h 1)}X_{t h+1}+ ::: + _{h 1}^{(h 1)}X_{t 1}. On conclut par identication des coecients.

(10)

2 Tendance et saisonnalite

Une serie temporelle qui comporte une composante deterministe non constante (croissance lineaire, phenomene saisonnier, etc...) n'est pas stationnaire (pourquoi?). Dans ces cas-la, on va chercher a modeliser la serie en la decomposant en une partie deterministe (non-aleatoire) et une partie residuelle stochastique. Par exemple:

X_t= M_t+ S_t+ Z_t; t 2 N ou

M_t est la tendance, soit une fonction "simple" (par exemple lineaire, quadratique, lineaire par morceaux etc...) du temps qui dicte le comportement global du processus.

Stest la composante saisonniere, qui est une fonction periodique en t c'est-a-dire telle que St= St+s

pour un s > 0, pour tout t 2 N. Le plus petit s > 0 pour lequel cette propriete est veriee est appele la periode. Par convention, on imposera que St soit centree: P_s

t=1St = 0 sans perte de generalite puisque une valeur moyenne non-nulle peut ^etre reportee sur la tendance.

Ztest la composante stochastique qui modelise les aleas ou uctuations autour de la partie deterministe. Ce processus n'est en general pas un bruit blanc mais on pourra souvent chercher a le modeliser par un processus stationnaire (ou derive d'un processus stationnaire).

Ce modele simple permet d'isoler la ou les composantes deterministes, pour ensuite les eliminer et modeliser la composante residuelle Z_t. Detecter des phenomenes de tendances et ou saisonalite se fait a partir du contexte (donnees mensuelles implique potentiellement une periode de 12, hebdomadaire de 7 etc...) et des representations graphiques de la serie. Isoler la composante stochastique permet en general de detecter des phenomenes de dependances masques par les composantes deterministes.

2.1 Modelisation parametrique

Une approche naturelle consiste a poser un modele parametrique sur la tendance et/ou la composante saisonniere pour les estimer.

Estimation de la tendance. On ajuste la tendance par un modele lineaire en fonction du temps, typiquement par une fonction ane S_t= a₀+ a₁t, polynomiale S_t= a₀+ a₁t + ::: + a_kt^k ou autre (expo- nentielle, puissance, etc...). Les parametres a_jsont estimes par la methode des moindres carres ordianires.

(11)

Consommation mensuelle d'électricité

1970 1975 1980 1985

100 150 200

Série sans la tendance affine estimée

1970 1975 1980 1985

−20 0 20 40 60

Figure 2: Estimation par MCO et elimination de la tendance ane.

Estimation de la composante saisonniere. On travaille sur la serie X_t Mc_tou cM_t est l'estimation de la tendance. La periode p de la composante saisonniere (s'il y en a) est determinee par le contexte ou "a la main" au vu des donnees (representation graphique de la serie, ACF et PACF). On peut alors proposer une modelisation parametrique periodique sur la composante saisonniere S_t, par exemple S_t= a sin(2t=p) + b cos(2t=p) ou alors l'estimer de facon "non-parametrique" par la moyenne sur les temps espaces de s. Il y a donc s 1 valeurs a estimer puisqu'on a la condition d'identiabiliteP_s

t=1S_t= 0.

Estimation de la composante saisonnière

1970 1971 1972 1973 1974 1975 1976

−20

−10 0 10 20 30 40

Série résiduelle

1970 1975 1980 1985

−20 0 20 40

Figure 3: Estimation non-parametrique de la composante saisonniere et serie residuelle.

On cherche maintenant a modeliser la serie residuelle bZt= Xt Mct Sbtcomme un processus stochastique, idealement stationnaire. On peut etudier ses ACF et PACF estimes. M^eme s'il est toujours utile de les representer graphiquement, ceux-ci n'ont de sens que si la serie est stationnaire.

(12)

0.0 0.5 1.0 1.5

−0.4

−0.2 0.0 0.2 0.4 0.6 0.8 1.0

Lag

ACF de la série résiduelle

0.5 1.0 1.5

−0.4

−0.2 0.0 0.2 0.4 0.6

Lag

PACF de la série résiduelle

2.2 Filtrage

Denition 2.1. L'operateur retard est l'operateur qui a une serie temporelle (X_t)_t2Z associe la m^eme serie retardee d'une unite de temps. On le note generalement B (pour backward) ou L (pour lag).

Par abus de notation, on appliquera directement l'operateur B aux valeurs de la serie en ecrivant BX_t= X_{t 1}:

Son inverse B ¹ decale la serie d'une unite de temps dans le futur, B ¹Xt= Xt+1:

On a bien B B ¹ = B ¹ B = I, ou I est l'identite. On note B^k et B ^k les operateurs B et B ¹ composes j fois,

B^kXt= Xt k et B ^kXt= Xt+k: Denition 2.2. Un ltre lineaire est un operateur de la forme

F =X

k2Z kB^k; ou = ( k)k2Z est une suite complexe sommable: P

k2Zj kj < 1. On dit que le ltre est causal si les coecients k; k < 0 sont nuls.

Un ltre peut ^etre vu comme une fonction : x 7! P

k2Z kx^k appliquee a l'operateur retard B. On note alors F = (B) et

F Xt= (B)Xt=X

k2Z

kB^kXt=X

k2Z

kXt k ; t 2 Z;

ou on utilise ici la convention B⁰= I. Si le ltre F = (B) est causal, alors est analytique de rayon de convergence superieur ou egal a 1.

(13)

Lemme 2.3. L'image d'un processus stationnaire par un ltre lineaire est stationnaire.

Preuve. Soit (X_t)_t2Z un processus stationnaire de fonction d'auto-covariance et F = P

k2Z kB^k un ltre lineaire. Pour h 1,

X

j;k2Z

j _j _k(h + j k)j (0) X

k2Z

j _kj ₂

< 1:

On verie alors facilement que l'esperance de F Xtest constante et pour h 0, la covariance a l'ordre h cov(F Xt; F Xt h) = cov X

k2Z

kXt k;X

k2Z

kXt h k

= X

j;k2Z

j k(h + j k) ne depend pas de t.

Exercice. Montrer que la somme F + G et la composee F G (que l'on note souvent F G par abus de notation) de deux ltres lineaires F; G sont des ltres lineaires. Verier que ces operations sont commutatives et qu'elles preservent la causalite.

Denition 2.4. L'operateur de dierenciation discret est deni par := I B.

Le ltre de dierenciation renvoie les variations d'une serie temporelle X_t= X_t X_{t 1};

ce qui s'apparente a une derivee discrete. De m^eme, la composee k-fois est l'operateur de dierenciation a l'ordre k,

^kXt= (I B)^kXt=X^k

j=0

( 1)^j k!

j!(k j)!B^j:

Proposition 2.5. L'operateur de dierenciation a l'ordre k 1 rend constant tout polyn^ome de degre inferieur ou egal a k du temps.

Preuve. Soit Mt= a0+ a1t + ::: + akt^k, on a par linearite

^kMt= a0^k1 + a1^kt + ::: + ak^kt^k: Il sut de montrer le resultat pour les mon^omes t^j. Pour k = 1,

t = (I B)t = t (t 1) = 1:

On procede par recurrence, supposons que le resultat est vrai pour k 1, ^kt^k = ^{k 1}t^k = ^{k 1}(t^k (t 1)^k):

Or t^k (t 1)^k est un polyn^ome de degre k 1 en t, le resultat est donc vrai a l'ordre k.

(14)

L'operateur de dierenciation permet d'eliminer une tendance polynomiale dans une serie temporelle de la forme Xt = Mt+ St+ Zt; t 2 Z. Si Mt est un polyn^ome de degre k du temps alors, la serie kXt

ne comporte plus de tendance polyn^omiale (seulement une constante) mais conserve une composante saisonniere, dierente de l'originale.

Exercice. Montrer que si (St)t2Z est une serie periodique de periode p 1, alors sa serie dierenciee a l'ordre k 1 l'est egalement. Montrer que cette derniere est de somme nulle sur sa periode m^eme si (S_t)_t2Zne l'est pas.

Proposition 2.6. Soit F =P

j2Za_jB^j un ltre lineaire tel que pour p 1, X

j2Z

aj= 1 et X

j2Z

j^kaj = 0 pour k = 1; :::; p:

Alors, F laisse invariant tout polyn^ome de degre inferieur ou egal a p.

Preuve. Exercice.

Denition 2.7. Une moyenne mobile est un ltre F associe a une suite (a_j)_j2Znon nulle a support ni.

Autrement dit, un ltre F est une moyenne mobile s'il existe k₁; k₂2 N et des coecients a _k₁; :::; a_k₂2 R avec a _k₁ 6= 0; a_k₂ 6= 0 tels que

F = X^k²

j= k1

a_jB^j:

La moyenne mobile arithmetique est le ltre lineaire uniforme centre en 0 qui a une serie X_t associe la moyenne des valeurs autour de X_t. Formellement, pour k 2 N, la moyenne mobile arithmetique d'ordre 2k + 1 est le ltre

M_2k+1= 1 2k + 1

Xk j= k

B^k:

Dans le cas pair, on denit la moyenne mobile arithmetique d'ordre 2k par M_2k = 1

4kB ^k+ 1 2k

k 1X

j= k+1

B^k+ 1 4kB^k:

Proposition 2.8. La moyenne mobile arithmetique d'ordre p annule toute serie periodique de periode p de somme nulle sur sa periode.

Preuve.

Exercice. Montrer que les moyennes arithmetiques laissent invariantes les fonctions anes du temps.

Les proprietes des moyennes mobiles arithmetiques permettent d'estimer la tendance d'une serie temporelle de maniere non parametrique. Soit Xt= Mt+ St+ Ztune serie temporelle avec Mt la tendance globale 'lisse' (pas necessairement lineaire), Stla composante saisonniere de periode p 2 et Ztla partie residuelle. Appliquer la moyenne mobile arithmetique Mp permet d'eliminier la composante saisonniere

(15)

tout en modiant peu la tendance. Cela ne fonctionne que si l'ordre de la moyenne mobile est egal a (ou multiple de) la periode. On appelle ce procede lissage par moyenne mobile.

Consommation mensuelle d'électricité

1970 1975 1980 1985

100 150 200

Lissage par Moyenne mobile d'ordre 12

1970 1975 1980 1985

80 100 120 140 160 180

1970 1975 1980 1985

80 100 120 140 160 180

1970 1975 1980 1985

80 100 120 140 160 180 200

Les operateurs de dierenciation et moyenne mobile ont en quelque sorte des r^oles complementaires pour la decomposition en tendance et composante saisonniere d'une serie temporelle.

Proposition 2.9. Le ltre I B^p annule les series periodiques de periode p et rend constantes les fonctions anes du temps.

Preuve. Immediat.

Le ltre I B^p permet donc d'eliminer d'un coup tendance ane et composante saisonniere d'une serie temporelle de la forme X_t= (a + bt) + S_t+ Z_t; t 2 Z pour se ramener a la serie "purement" stochastique

(I B^p)(X_t) = bp + Z_t Z_{t p}; t 2 Z:

(16)

Consommation électrique avec filtre I−B¹²

1970 1975 1980 1985

−40

−20 0 20 40 60 80

Denition 2.10. Le pouvoir de reduction de variance d'un ltre F est la quantite RV (F ) = var(F t)

var(_t) ou (_t)_t2Z est un bruit blanc.

Exercice. Calculer le pouvoir de reduction de variance des operateurs de dierenciation ^k et des moyennes mobiles arithmetiques Mp. Commenter.

Comme on peut s'y attendre, lisser un processus en applicant un ltre moyenne mobile reduit sa variance.

En contrepartie, cela a tendance a creer/amplier les correlations temporelles.

Un ltre lineaire F est inversible s'il existe un ltre lineaire note F ¹ tel que F F ¹= F ¹F = I.

Lemme 2.11. Soit le ltre lineaire F= (I B) avec 2 C. Alors, Si jj < 1, F est inversible et F¹=P

k0^kB^k est causal.

Si jj > 1, F est inversible et F¹= P

k1 ^kB ^k n'est pas causal.

Si jj = 1, F n'est pas inversible.

Preuve. Soit ( k)k2Ztelle que I =X

k2Z

kB^k(I B) =X

k2Z

( _k _{k 1})B^k:

Par identication, 0 = 1 + 1 et k = k 1 pour tout k 6= 0, ce qui donne en raisonnant par recurrence _k = ^k ₀ pour k 1 et _k = ^k( ₀ 1) pour k 1. On sait de plus que ( _k)_k2Z doit

verier X

k2Z

j _kj = j ₀jX

k0

j^kj + j ₀ 1jX

k1

j ^kj < 1:

(17)

Cette condition est veriee pour 0= 1 si jj < 1, 0= 0 si jj > 1 et n'est jamais veriee si jj = 1.

Ce resultat important permet d'identier les conditions sous lesquelles un polyn^ome de l'operateur retard est inversible, d'inverse causal ou non inversible. Ces conditions ne dependent que du module des racines du polyn^ome.

Exercice. Soient : x 7!P

k0 kx^k et : x 7! P

k0kx^k deux fonctions analytiques de rayon de convergence superieur ou egal a 1.

1. Justier que (B) et (B) sont des ltres lineaires causaux.

2. Montrer que (B)(B) = ( )(B).

3. Deduire que si n'a pas de racine dans la boule unite B = fz 2 C : jzj 1g, alors (B) ¹ = (1= )(B) est un ltre lineaire causal.

3 Processus lineaires standards

Denition 3.1. Un processus (X_t)_t2Z est dit lineaire s'il peut s'ecrire X_t= m +X

k2Z

k_{t k} ; t 2 Z

ou m 2 R, (t)t2Z est un bruit blanc et ( k)k2Z est une suite reelle telle que 0= 1 et P

k2Zj kj < 1.

La condition ₀ = 1 est simplement une condition d'identication. Sous reserve que la suite ( _k)_k2Z n'est pas identiquement nulle, on peut s'y ramener en modiant le bruit blanc.

Un processus lineaire (recentre) est l'image d'un bruit blanc par un ltre lineaire (B) :=P

k2Z kB^k, Xt m =X

k2Z

kt k = (B)t; t 2 Z:

On dira que cette representation est

causale si le ltre (B) est causal et donc que les k sont nuls pour k < 0:

Xt m =X

k0

kt k ; t 2 Z:

inversible si le ltre (B) est inversible et que son inverse (B) ¹= (1= )(B) est causal, c'est-a- dire, s'il existe des coecients (k)k0 avecP

k0jkj < 1 tels que _t=X

k0

_k(X_{t k} m) ; t 2 Z:

(18)

En notant : z 7!P

k2Z kz^k, la representation Xt= m + (B)t; t 2 Z est causale si est analytique sur la boule unite B = fz 2 C : jzj 1g et inversible si la fonction 1= est analytique sur B. Si l'ecriture est causale, elle est donc egalement inversible si n'a pas de racine dans B. En supposant 0= 1 sans perte de generalite, on a alors la relation

X

k0

_kz^k = 1

(z) = 1

1 +P

k1 kz^k = 1 X

k1

kz^k+ X

k1 kz^k

₂

::: ; z 2 B:

On retrouve par identication

₀= 1 et _k=X

p1

( 1)^p X

k1+:::+kp=k

k1::: _k_p ; k = 1; 2; :::

On verie bien que la condition P

k0jkj < 1 est veriee puisque n'a pas de racine sur B et donc que 1= (z) converge absolument sur B.

Proposition 3.2. Un processus lineaire Xt = m +P

k2Z kt k; t 2 Z est stationnaire, d'esperance m et de fonction d'auto-covariance

(h) = ²X

k2Z

k k h ; h 2 Z;

ou ²= var(t).

Preuve. On ecrit

var(Xt) E X

k2Z kt k

₂

E X

k2Z

j kjjt kj ₂

= E

N!1lim XN

k= N

j kt kj ₂

: Par le theoreme de convergence monotone,

var(Xt) ² lim

N!1E XN

j;k= N

j jjj kj

2 X

k2Z

j kj ₂

< 1:

On calcule facilement E(X_t) = m et pour h 2 Z, cov(Xt; Xt+h) = E X

k2Z kt k

X

k2Z

kt+h k

= X

j;k2Z

j kE t jt+h k

; ou E t jt+h k

vaut ²si j = k h et 0 sinon.

Si l'ecriture est causale, on retrouve la decomposition de Wold avec (t)t2Z le processus des innovations si on impose 0= 1

Xt= m +X

k1

kt k+ t: La fonction d'auto-covariance s'ecrit alors

(h) = ( h) = ²X

kh

k k h; h 0:

(19)

3.1 Moyennes mobiles

Denition 3.3. Une moyenne mobile d'ordre q 1, notee MA(q) est un processus de la forme X_t= m + _t+ ₁_{t 1}+ ::: + _q_{t q} ; t 2 Z;

ou ₁; :::; _q sont des reels, _q6= 0 et (_t)_t2Z est un bruit blanc.

Une moyenne mobile (MA) est donc un processus lineaire causal pour lequel les coecients k sont nuls au-dela d'un certain rang q, l'ordre du processus.

Proposition 3.4. Soit Xt= m + 0t+ 1t 1+ ::: + qt q; t 2 Z un processus MA(q) avec 0= 1 et (t)t2Z un bruit blanc de variance ². Alors (Xt)t2Z est stationnaire, de fonction d'auto-covariance

(h) = ²

q hX

k=0

_k_k+h ; h = 0; 1; :::; q et (h) = 0 pour h > q.

Preuve. Exercice.

Exercice. Montrer que la correlation d'ordre 1 d'un processus MA(q) est strictement inferieure a 1 en valeur absolue. Calculer la valeur maximale en fonction de q.

Une moyenne mobile a donc sa fonction d'auto-covariance nulle a partir d'un certain rang. C'est en fait une caracterisation des processus MA.

Proposition 3.5. Soit q 1 et (Xt)t2Z un processus stationnaire d'esperance m dont la fonction l'auto- covariance verie (q) 6= 0 et (h) = 0 pour h > q. Alors, il existe des coecients 1; :::; q tels que X_t= m + _t+ ₁_{t 1}+ ::: + _q_{t q} ; t 2 Z;

ou (_t)_t2Z est le bruit blanc d'innovations de (X_t)_t2Z.

Preuve. On suppose m = 0 sans perte de generalite. Soit t= Xt Ht 1(Xt); t 2 Z l'innovation, on sait que le passe Htdu processus au temps t verie Ht= Ht 1 vectftg avec Ht 1et vectftg orthogonaux.

Par recurrence, on a donc pour tout t

Ht= Ht q E_t^q;

ou E_t^q= vectf_{t q+1}; :::; _tg et H_{t q} et E_t^q sont orthogonaux. On deduit X_t= _H_{t 1}(X_t) + _t= _H_{t q 1}(X_t) + _E^q_{t 1}(X_t) + _t:

Comme E(XtXt h) = 0 pour h > q, on sait que Ht q 1(Xt) = 0. Le resultat est donc verie pour 1; :::; q les coecients de la regression lineaire de Xt par t 1; :::; t q. De plus, la covariance a l'ordre q, cov(Xt; Xt q) = q² est non nulle, la moyenne mobile est donc d'ordre q.

(20)

Attention, ce resultat n'implique pas qu'un processus MA(q) veriant Xt= m + t+ 1t 1+ ::: + qt q ; t 2 Z

avec (t)t2Z un bruit blanc, ait pour innovation t. En realite, ce n'est l'innovation de Xt que si cette representation est inversible. Dans le cas contraire, le resultat implique en revanche qu'il existe des coecients e1; :::; eq et un bruit blanc (et)t2Z(le processus des innovations) tels que

Xt= m + et+ e1et 1+ ::: + eqet q ; t 2 Z:

C'est la decomposition de Wold du processus.

Exercice. Montrer que la representation Xt= t+ t 1; t 2 Z est inversible si et seulement si jj < 1.

Soit le polyn^ome de degre q, : x 7! 1 + 1x + ::: + qx^q, on peut donc ecrire X_t= m + (B)_t; t 2 Z:

Theoreme 3.6. Soit X_t= m + (B)_t; t 2 Z un processus MA(q) avec un polyn^ome de degre q tel que (0) = 1 et (_t)_t2Z un bruit blanc. Alors, la representation est inversible si et seulement si n'a aucune racine dans la boule unite complexe B = fz 2 C : jzj 1g. Dans ce cas, (_t)_t2Z est le bruit blanc des innovations de (X_t)_t2Z.

Preuve. On suppose m = 0 sans perte de generalite. Si n'a pas de racine sur B, alors 1= est analytique sur B et

X

k1

_kz^k = 1

(z) = 1

1 +P_q

k=1kz^k = 1 Xq k=1

_kz^k+ Xq

k=1

_kz^k ₂

:::

on retrouve par identication ₀= 1 et _k=P

p1

P

k1+:::+kp=k( 1)^p_k₁:::_k_p. La conditionP

k0j_kj <

1 tient au fait que 1= converge absolument sur B. Reciproquement, si t=P

k0kXt k; t 2 Z avec P

k0j_kj < 1. En posant ₀= 1, t=X

k0

k(B)t k=X

k0

k

X

j=0

jB^j+kt

=X

k0

Xk j=0

k jj

t k:

Par identication, ₀₀= 1 etP_k

j=0_{k j}_j = 0 pour tout k 1. Or, pour tout z 2 B,

(z) X

k0

kz^k =X

k0

Xk j=0

k jj

z^k = 1:

Comme jP

k0_kz^kj P

k0j_kj < 1 pour z 2 B, on conclut que (z) n'a pas de racine sur B. Enn, si la representation est inversible, alors ₀= 1=(0) = 1 et

X_t= X

k1

_kX_{t k}+ _t ; t 2 Z:

(21)

Pour tout h 1, cov(t; Xt h) =P_q

k=1kcov(t; t h k) = 0. On deduit Xt Ht 1(Xt) = Xt

X

k1

kXt k= t; t 2 Z:

Exercice. Soit z 2 C; jzj < 1 et (t)t2Zun bruit blanc.

1. Montrer que _z:= (I zB) ¹(I z ¹B) =P

k0_kB^k ou _k = _k(z) verie 0= 1 et k= z^{k 2}(z² 1) ; k = 1; 2; ::::

2. Montrer que t= zt; t 2 Z est un bruit blanc. En deduire que zet _z¹preservent la "blancheur".

3. Soit le processus MA(q) X_t = (B)_t; t 2 Z, ou est un polyn^ome de degre q sans racine unitaire tel que (0) = 1. On note z₁; :::; z_q les racines de comptees avec multiplicite dont z₁; :::; z_r les racines de module < 1. A l'aide des operateurs _z₁; :::; _z_r, representer le processus sous forme causale en faisant appara^tre son bruit blanc des innovations (indication: ecrire (z) = (1 z₁¹z):::(1 z_q¹z)).

4. Calculer l'innovation de Xt= t+³₂t 1 t 2; t 2 Z.

3.2 Processus auto-regressifs

Denition 3.7. Un processus auto-regressif d'ordre p 1, note AR(p) est un processus stationnaire veriant

Xt= m + 1(Xt 1 m) + ::: + p(Xt p m) + t; t 2 Z;

ou m; 1; :::; q sont des reels, p6= 0 et (t)t2Zest un bruit blanc.

Soit le polyn^ome z 7! 1 ₁z ::: _pz^p, on peut ecrire (B)(X_t m) = _t; t 2 Z:

Un processus de cette forme n'est pas toujours stationnaire. Autrement dit, tous les polyn^omes de degre p ne denissent pas un processus auto-regressif par cette ecriture.

Proposition 3.8. Soit : z 7! 1 1z ::: pz^p un polyn^ome de degre p 1, (t)t2Z un bruit blanc et m un reel. Le processus (Xt)t2Z veriant (B)(Xt m) = t; t 2 Z est un processus AR(p) (il est stationnaire) si et seulement si n'a pas de racine de module 1 dans C. De plus, (t)t2Zest le processus des innovations si et seulement si n'a pas de racine dans la boule unite B = fz 2 C : jzj 1g.

Preuve. Admis pour le moment.

Exercice. Soit 2 R n f 1; 1g. Exprimer le processus AR(1) X_t = X_{t 1}+ _t; t 2 Z sous la forme Xt=P

k2Z kt k avecP

k2Zj kj < 1.

Exercice. Soit 2 f 1; 1g et Xt= Xt 1+t; t 2 Z avec (t)t2Zun bruit blanc tel que test orthogonal a Ht 1pour tout t. Montrer que pour tout h 1,

X_t+h= ^hX_t+^{h 1}X

k=0

^k_{t+h k}:

(22)

En deduire que la variance de Xtne peut pas ^etre constante au cours du temps et donc que le processus n'est pas stationnaire.

Les processus auto-regressifs sont caracterises par une fonction d'auto-correlation partielle nulle a partir d'un certain rang.

Proposition 3.9. Soit p 1 et (X_t)_t2Zun processus stationnaire d'esperance m dont la fonction l'auto- correlation partielle verie (p) 6= 0 et (h) = 0 pour h > p. Alors, il existe des coecients ₁; :::; _p tels que

X_t= m + ₁(X_{t 1} m) + ::: + _p(X_{t p} m) + _t; t 2 Z;

ou (t)t2Z est le bruit blanc d'innovations de (Xt)t2Z.

Preuve. On suppose m = 0 sans perte de generalite. On sait (h) = _h^(h) ou _h^(h) est le coecient de X_{t h} de la regression lineaire

Xt= ₁^(h)Xt 1+ ::: + _h^(h)Xt h+ t;h= _H^h_{t 1}(Xt) + _t^(h): Comme (h) = 0 pour h > p, on deduit que _H^p+1

t 1(X_t) = _H_{t 1}^p (X_t) et par suite _H_{t 1}^h (X_t) = _H_{t 1}^p (X_t) pour tout h p. On a donc,

Ht 1(Xt) = lim

h!1_H_{t 1}^h (Xt) = _H_{t 1}^q (Xt);

ce qui permet de conclure.

Theoreme 3.10. Soit (B)(X_t m) = _t; t 2 Z une representation AR(p) d'un processus stationnaire (X_t)_t2Z avec un polyn^ome de degre p 1 sans racine unitaire tel que (0) = 1 et (_t)_t2Z un bruit blanc. Alors, _t est l'innovation de X_t pour tout t 2 Z si et seulement si n'a pas de racine dans la boule unite complexe B. Dans ce cas, la representation X_t= m + (B) ¹_t; t 2 Z est causale.

Preuve. On suppose m = 0. La preuve consiste a construire la decomposition de Wold du processus. Soit R l'ensemble des racines de , pour tout t 2 Z,

(B)X_t= Y

z2R;jzj>1

(I z ¹B) Y

z2R;jzj<1

(I z ¹B)X_t= _t avec la conventionQ

z2;(I z ¹B) = I. Soit z= (I z ¹B)(I zB) ¹, on peut ecrire Y

z2R;jzj>1

(I z ¹B) Y

z2R;jzj<1

(I zB) Y

z2R;jzj<1

_zX_t:= e(B) Y

z2R;jzj<1

_zX_t= _t: On sait que _z¹= _z ¹ preserve la propriete de blancheur, on a donc

e(B)Xt= Y

z2R;jzj<1

_z¹t:= et` ; t 2 Z;

ou et est un bruit blanc. Par construction, e a toutes ses racines de module strictement superieur a 1, e(B) ¹ est donc causal. On retrouve donc la decomposition de Wold de (Xt)t2Z:

Xt= e(B) ¹et; t 2 Z

Master 2 Ingenierie Statistique Series temporelles