Cours Séries Temporelles 1

(1)

S´eries temporelles : mod`eles et statistiques

Cet enseignement a fait l’objet d’un cours - td d’environ 40 heures au Master-2“Statistiques appliquées aux sciences du vivant” de l’Université de Cotonou en novembre 2008. L’objectif était de présenter les principaux modèles de séries temporelles (ST), ou encore séries chronologiques (SC), leurs statistiques et les méthodes de prévision. L’étude d’une ST a un double objectif : modéliser pour expliquer un phénomène observé ; prédire la série dans le futur. Le plan de ce cours est le suivant :

1. Mod`eles stationnaires au second ordre.

2. Mod`eles non-stationnaires.

3. Pr´ediction.

4. Mod`eles ARMA.

5. Un peu de th´eorie spectrale.

6. Estimation d’un ARMA.

7. Régression à résidus corrélés, ARIMA et SARIMA.

8. Pr´evision sans mod`ele.

9. SC bivari´ee ; mod`ele ARCH.

10. Annexes et r´ef´erences.

A l’inverse d’un échantillon, les observations d’une SC sont dépendantes, cette dépendance temporelle étant modélisée de fa¸con causale avec comme modèles centraux les ARMA. La littérature sur ce sujet est abondante. Deux livres “historiques” donnent la présentation moderne des SC : Anderson (1971), The statistical analysis of time series (J. Wiley) et Box et Jenkins (1976) : Time Series Analysis : Forecasting and Control (Holden-Day). Le livre de Brockwell et Davis (1991), Time Series : Theory and Methods (Springer) est une référence théorique incontournable mais difficile. Ces mêmes auteurs ont écrit un deuxième livre, Introduction to Time Series and Forcasting (2002), qui est une approche plus simple, claire, bien illustrée et à laquelle est jointe un tutoriel, ITSM, très pédagogique, ouvrage duquel nous avons retiré quelques idées ou exrcices.

Il existe également des polycopiés disponibles sous le label “Séries Temporelles”

Le logiciel R

R est un outil indispensable à une bonne compréhension du cours et à sa mise en application.

Nous conseillons vivement au lecteur d’avancer dans la lecture de ce cours en ouvrant une deuxième fenêtre ‘‘R’’et en faisant les va-et-vient indispensables entre les notions et résultats présentés et les fonctions deR qui leurs sont dédiés. Quelques-unes de ces fonctions sont données dans le cours du texte. Pour l’installation de R et une première description, c.f. l’annexe du §10.5.

Un exemple introductif : la série des niveaux du lac Huron. Parcourant le package DataSets de R, en extraire la série temporelle LakeHuron : cette série annuelle donne les niveaux du lac Huron de 1875 à 1972 (n = 98 données). Déclarant cette suite comme une série chronologique (x=ts(LakeHuron)) et utilisant la fonction Plot, représenter graphiquement cette série X1, X2,· · · , X98 (pour d’autres jeux de données, cf. § 10.5.1).

Qu’observe-t-on ? Une décroissance moyenne de ce niveau, approximativement affine, qu’on peut modéliser par :

Xt=a+bt+et, t = 1,98.

Il est facile d’estimer cette tendance par moindres carrés ordinaires (fonction lm de R). On peut alors analyser les résidus estimés bet=Xt−(ba+bbt), t= 1,98.

(2)

On commencera par représenter graphiquement cette série. En moyenne, les bet successifs gar- dent un même signe avec seulement 10 changements de signes sur 98 instants : ceci indique une corrélation positive entre lesbesuccessifs. Ainsi, se pose une question centrale dans l’étude des SC : b

e est-il un bruit blanc (BB), c-à-d une suite de variables centrées, de mêmes variances et non- corrélés ? Pour répondre à cette question, on va utiliser le programme acf (du package stats) qui fournit le graphique des premières auto-covariances empiriques de X, avec les limites de l’intervalle de confiance au niveau 95% sur cette acf empirique si be était un BB : clairement, be n’est pas un BB (on donnera des procédures de test statistique pour décider de cela).

Mais pourquoi est-il important de savoir si be est un BB ou non ? Parce qu’il est intéressant de savoir s’il y a une tendance pour les résidus à garder localement un signe positif (période de recharge du lac) ou négative (période de baisse de niveau), cela une fois ôtée la tendance affine b

a+bbt. Une autre raison est la suivante : si on veut prévoir la hauteur du lac en 1973 ou plus tard, il est important de savoir si be est corrélé ou non : si be est un BB, la bonne prévision naturelle en 1973 est Xb1973 =ba+bb×99 et dans ce cas, on ne peut pas faire mieux. Mais sibe n’est pas un BB, on peut faire mieux en utilisant la structure de corrélation de be. Par exemple, s’il est raisonnable de modéliser be par un AR(1),

b

et=ρbet−1+η_t (η un BB),

où on estimeρparbρ, alors la prédictionXe1973 =ba+bb×98+bρ×be1972,oùbe1972 =X1972−(ba+bb×1972), est meilleure que la précédente.

Cet exemple simple soulève quelques-unes des questions qui seront étudiées ici : X est-elle de moyenne constante ? Si non, quel modèle proposer pour la moyenne de X? Comment rendre X stationnaire en moyenne ? Le résidu de la régression envisagée est-il un BB ? Sinon, quel modèle stationnaire proposer pour ce résidu et comment l’estimer ? Comment utiliser cette structure au premier ordre (moyenne) et second ordre (covariance des résidus) pour prévoir au mieux la série dans le futur ? Comment valider le modèle retenu (premier et second ordre) ?

1 Mod` ele stationnaire au second ordre

1.1 D´ efinitions

La notion fondamentale qui structure la modélisation d’un processus temporel est-celle de stationnarité. Commen¸cons par donner quelques définitions

1. Une SC (un processus)X = (Xt, t ∈ Z) est dite du second ordre (on note X ∈ L²) si pour tout t, E(Xt)² < ∞. Dans ce cas, E(|Xt|) < ∞, l’esp´erance existe et il est ´equivalent de dire que V ar(Xt) < ∞ pour tout t. On note m(t) = E(Xt) la fonction moyenne de X et C(s, t) =Cov(Xs, Xt) sa fonction decovariance.

2. X est gaussienne si toute combinaison lin´eaire finie des (Xt) est gaussienne : pour toute suite d’instantst1, t2,· · · , tK et de poids r´eelsa1, a2,· · · , aK,Y =PK

j=1ajXtj est gaussienne.

Une série gaussienne est toujours du second ordre mais l’inverse n’est pas vrai. La loi d’un processus gaussien est entièrement caractérisée par ses fonctions moyennem(·) et covariance C(·,·).

3. Un processus X est dit stationnaire au second ordre si pour tout t, s ∈ Z, la moyenne est constante et la covariance C(s, t) ne d´epend que de (t−s) :

∀s, t :m(t) =E(Xt) =m et Cov(Xs, Xt) =C(s, t) =γ(s−t).

h 7→ γ(h) est la fonction d’auto-covariance (acvf) de X et h 7→ ρ(h) = ^γ(h)_γ(0) sa fonction d’auto-corr´elation (acf).

(3)

4. Un processusX est strictement stationnaire si pour tout k >0, toute suite t1, t2,· · · , tk et tout h ∈ Z, les lois de (Xt1, Xt2,· · · , Xtk) et de (Xt1+h, Xt2+h,· · · , Xtk+h) sont identiques : la translation T(h) : t −→ t+h laisse invariante la loi de X. Un processus strictement stationnaire et du second ordre est stationnaire au second ordre mais l’inverse n’est pas vrai en g´en´eral, sauf pour les processus gaussiens.

Dans ce cours, nous utiliserons principalement la notion de stationnarit´e au second ordre : sans mention explicite, “stationnaire” signifiera “stationnaire au second ordre”.

5. Un processus e = (et, t ∈ Z) est un bruit i.i.d. si e est une suite i.i.d. centrée. Si la loi commune des et est L, on notera e ∼ i.i.d.(L) et e ∼ i.i.d.(0,σ²) si L est centrée et de variance finie σ², e ∼ i.i.d(N(0,σ²)) si la loi commune est gaussienne centrée de variance σ².

6. Un processus e = (et, t ∈ Z) est un bruit blanc faible (not´e BB) si e est stationnaire au second ordre, centr´e, avec Cov(et, es) = 0 si s 6= t. On notera e ∼ BB(0,σ²) si V ar(et) = E(e²_t) =σ².

1.2 Exemples

Marche aléatoire : poure∼i.i.d.(0,σ²), on définit X0 =e0 et pour t≥0,Xt+1 =Xt+et+1.X n’est pas stationnaire car V ar(Xt) = tσ² n’est pas constante. Plus généralement, Cov(Xt, Xs) = sσ² si s≤t.

Processus MA(1) : soit e∼BB(0,σ²),θ ∈R et la s´erie,

Xt =et+θet−1, t≥1 (1)

X est stationnaire centr´e de covariance,

γ(0) =σ²(1 +θ²), γ(1) =γ(−1) =θσ² et γ(h) = 0 si |h|≥2.

L’acvf (l’acf) d’un MA(1) est de port´ee 1.

Plus généralement (cf.§4.2), pour q un entier >0, un M A(q) est défini par, Xt=et+θ1et−1+· · ·+θqet−q,t ≥1.

Il est facile de voir que l’acvf est nulle si |h| ≥ q + 1. Cette propriété est caractéristique d’un M A(q).

Processus AR(1) : Soit |φ|<1. Supposons que la s´erie,

Xt =φXt−1+et o`ue∼BB(0,σ²),

est stationnaire et que et est non-corrélé à Xs dès que s < t. D’une part, E(Xt) = φE(Xt−1) et donc m = 0 (X est centré) ; d’autre part, pour h≥1 :

γ(h) = Cov(Xt, Xt−h) =Cov(φXt−1+et, Xt−h)

= φγ(h−1) =γ(0)φ^|^h^|. L’acvf d’un AR(1) d´ecroit exponentiellement.

Processus linéaire : ces processus sont à la base de la construction des modèles ARMA (cf.

§4.2). Soit e ∼ BB(0,σ²), (θj, j ∈ Z) une suite r´eelle de l²(Z) (P

Zθ²_j < ∞). Alors le processus linéaire X associé aux (θj) et àe comme défini ci-dessous est stationnaire :

Xt=X

Z

θjet−j est d’acvf : γ(h) =σ²X

Z

θjθj+h.

(4)

Série périodique : soit 0 < ω < π une fréquence donnée et Xt = Acos(ωt) +Bsin(ωt), A et B étant décorrélées, centrées, de variances finies. (Xt) est centrée et V ar(Xt) est constante si V ar(A) =V ar(B) =σ².X est alors stationnaire d’acvf :

γ(h) =σ²cos(ωt).

Plus généralement, soient 0 < ω1 < ω2 < · · · < ωr < π r-fréquences fixées, {Ai, Bi, i = 1, r} 2r v.a. décorrélées, centrées telles que V ar(Ai) = V ar(Bi) = σ²_i < ∞, i= 1, r. Alors le mélange de r-processus périodiques associés aux r fréquences est stationnaire :

Xt= X

i=1,r

{Aicos(ωit) +Bisin(ωit)} d’acvf γ(h) = X

i=1,r

σ²_i cos(ωit). (2) Un mélange “continu” de telles composantes infinitésimales est de fait la forme générale d’une SC du second ordre (cf. (30)).

1.3 Moyenne, acvf et acf empiriques

Supposons que X(n) = (x1, x2,· · · , xn) est l’observation de X, une s´erie stationnaire. La moyenne empirique est :

x=mb = 1 n

Xn 1

xi. L’acvf empirique `a distance hest :

b

γ(h) = 1 n

nX−|h|

i=1

(xi+|h|−x)(xi−x), −n < h < n.

Diviser parn, et non par (n−|h|), le nombre de termes de la somme, garantit queΓbn= [bγ(i−j)]ⁿ_i,j=1 est s.d.p., propriété importante pour l’estimation et la prédiction.

Enfin, l’acf empirique estbρ(h) = ^b^γ(h)_b_γ(0) pour−n < h < n.

1.3.1 Exercices

1. Simuler n = 200 valeurs i.i.d. N(0,1) et calculer moyenne et auto-corr´elations empiriques (fonctions rnorm etacf deR).

2. Soit {Zt}∼ i.i.d. N(0,σ²), a, b et c trois constantes. Parmi lequels des processus suivants, lesquels sont stationnaires et pr´eciser la moyenne et l’acvf de ceux qui le sont :

(a) Xt=a+bZt+cZt−2; (b) Xt =Z1cos(ct) +Z2sin(ct) ; (c) Xt=Ztcos(ct) +Zt−1sin(ct) ; (d) Xt =Z2t;

(e) Xt=ZtZt−1; (f) Xt=f(Zt, Zt−1) o`u f est continue et born´ee ; (g) Xt=ZtZ2t; (h) Xt=Z_t²Zt+1.

3. BB i.i.d. ou Bruit Blanc faible : soit {Zt}∼i.i.d. N(0,1) et X, Xt =

½ Zt si t est pair et

√1

2(Z_t²₋₁−1) sinon. (3)

(a) - V´erifier queX ∼BB(0,1) mais queX n’est pas une suitei.i.d.. Que vautE(Xn+1 |Xn) suivant la parit´e de n?

(b) - Simuler une s´erieX de longueur 200. Graphique et acvf empiriqueX. Cela confirme-t-il la non-corr´elation de X?

(c) - Soit Yt =X_t², t = 1,200 ; acvf empirique de Y ; Y est-elle un BB? En d´eduire que la suite X n’est pasi.i.d.. Et si Yt =|Xt|?

(5)

4. On notebρ(h) l’acf des observations x1, x2,· · · , xn.

a - Montrer que bρ(h)−→1 si n→ ∞ pourxt=a+bt,b6= 0.

b - Montrer que bρ(h)−→cos(ah) sin→ ∞pour xt= cos(at).

1.4 Propri´ et´ es

Auto-covariance :

1. γ(0) ≥0,|γ(h)|≤γ(0) et γ(h) =γ(−h) pour tout h.

2. Pour toute suite a1, a2,· · · , aK r´eelle : V ar(

XK t=1

atXt) = XK i,j=1

aiajγ(i−j)≥0. (4) Cette propriété traduit que l’acvf γ(·) estsemi-définie positive (s.d.p.). Elle estdéfinie positive (d.p.) si on a la stricte positivité dès quea 6= 0. Cette définition est analogue à la s.d.p.

des matrices [γ(i−j)]^K_i,j=1 pour toutK ≥1. On a la propriété réciproque et caractéristique suivante :

3. Une fonction r´eelle sur N est une acvf si et seulement si (ssi) elle est paire et s.d.p..

4. S’assurer qu’une fonctionκ(·) est une acvf ? Le plus simple est de “proposer” une série dont l’acvf est γ(·) (cf. aussi la caractérisation d’une acvf via la densité spectrale de X, §5.1).

Par exemple, montrons que la fonction κ(·) d´efinie ci-dessous est une covariance ssi|ρ|≤ ¹₂ : κ(0) = 1,κ(h) =ρ si |h|= 1 et κ(0) = 0 sinon. (5)

• La condition est suffisante : le MA(1) (1) admet pour acvf γ(1) = _1+θ^θ 2 = ρ, équation en θ qui admet bien une racine réelle si |ρ|≤ ¹₂; pour avoir γ(0) = 1, on imposeraσ²(1 +θ²) = 1.

•• La condition est nécessaire : ou κ(·) n’est pas une acvf sinon. Pour cela, on propose a t.q. (4) n’est pas vérifiée : si ^ta= (1,−1,1,−1,· · ·)∈Rⁿ, alors^taKna=n−2ρ(n−1) siK = [κ(i−j)]ⁿ_i,j=1 et donc que ^taKna <0 si|ρ|> ¹₂ etn grand :κ(·) n’est pas une acvf.

1.4.1 Exercices

1. X etY sont deux SC stationnaires au second ordre et ind´ependantes. D´emontrer queX+Y est stationnaire.

2. En identifiant une série associée appropriée, vérifier que C1 etC2 sont des covariances : C1(h) = 4×(0.5)^|^h^|+ cos(ah) ;

C2(h) = 1 si h= 0, C2(h) = 0 si |h|= 1 ou |h|≥3 et C2(h) = 0.4 si |h|= 2.

1.5 Propri´ et´ es des estimations empiriques

Soit X(n) = (X1, X2,· · · , Xn) l’observation d’une s´erie X stationnaire au second ordre.

1.5.1 Moyenne empirique.

— Xn = _n¹P

i=1,nXi estime sans biais la moyenne m=E(X1).

— Siγ(h)^h−→^→∞0, alorsV ar(Xn−µ) =E(Xn−µ)² ⁿ−→^→∞0 (on noteXn L²

−→µcette convergence en moyenne quadratique).

— Si de plusv=P

h∈Z|γ(h)|<∞, alors :V ar(Xn)∼ ^vn.

(6)

Anticipant la définition des modèles linéaires (cf. §4.2), on a la convergence en loi suivante :

— Si de plusX est un processus linéaire (i.e. un ARMA) associé à un bruit i.i.d.(0,σ²) : Xn∼N(µ, v

n).

L’intervalle de confiance (IC) approch´e de m `a 95% est [Xn−1.96p_v

n, Xn+ 1.96p_v

n].

1.5.2 Lois des covariances et corr´elations empiriques.

Soient bγ(h) et bρ(h) pour −n < h < n les acvf et acf empiriques de X calcul´ees `a partir de l’observation X(n). On a :

— Ces estimations sont approximativement sans biais si nest “grand”.

— Une r`egle est d’avoir au moinsn >40 observations et de se limiter aux h < ⁿ₄ .

— Les matrices de covariances (de corr´elations) associ´ees aux bγ(·) sont s.d.p.. Elles sont d.p.

dès que la loi de X1 est à densité.

— Ces estimations sont asymptotiquement normales siXt =P

Zψ_iεt−i pour ε ∼ BB(0,σ²) `a condition que P

Z|ψ_i|<∞ et P

Z|i|ψ²_i <∞ (BD).

— Ces deux derni`eres conditions sont satisfaites siX est un ARMA.

— Formule de Bartlett :elle précise la matrice de covariance d’un vecteur de corrélations empiriques ; soitρ = (ρ(1),ρ(2),· · · ,ρ(k)) etbρson estimation empirique. Alors, bρ∼Nk(ρ,^W_n) où W est donnée par la formule de Bartlett :

wij =X

l∈Z

{ρ(l+i) +ρ(l−i)−2ρ(l)ρ(i)}{ρ(l+j) +ρ(l−j)−2ρ(l)ρ(j)}. (6) La formule de Bartlett est la cl´e de questions de base concernant un processus stationnaire.

Un cas particulier important est `a la base des tests de :

“(H0) : les (Xi) sont i.i.d.de variance finie”, Sous (H0),wii= 1 et wij= 0 pour tout i6=j, et donc pour sin grand :

Sous (H0) :bρ(1),bρ(2),· · · ,bρ(k) sont i.i.d. N(0,¹_n).

1.6 Tests de bruit blanc

1.6.1 Tests param´etriques On veut tester l’hypoth`ese,

(H0) :X ∼i.i.d(m,σ²),

de loi commune centr´ee (m = 0) ou non. Il y a 3 versions test du Chi 2 r´esultant de (6).

Test du portemanteau :

Sous (H0) :Q=n XK k=1

b

ρ²(k)∼χ²_K si nest grand.

R^α ={nPK

k=1bρ²(k) ≥q(α;K)} est une r´egion de rejet approximative de (H0) au niveau α pour le α-quantile P(χ²_K ≥q(α;K)) =α.

Test de Ljung-Box : est issu d’un raﬃnement de l’approximation par un χ² : Sous (H0) :QLB =n(n+ 2)

XK k=1

b ρ²(k)

n−k ∼χ²_K.

(7)

Test de McLeod-Li : sous (H0), la suite Yt = X_t² est i.i.d. de variance finie si E(X₁⁴) < ∞; notant ρ_XX la corr´elation des (X_i², i= 1, n), on a :

Si E(X₁⁴)<∞ et sous (H0) :QM L =n(n+ 2) XK k=1

bρ²_XX(k)

n−k ∼χ²_K.

Ce test permet de détecter qu’une suite est non i.i.d. même si son acvf empirique est proche de celle d’un BB. D’autres transformations Yt=f(Xt) peuvent être utilisée, par exemple Yt =|Xt|. Vous pouvez à ce sujet reprendre l’exemple de la série X définie à l’exercice 1.3.1-2).

1.6.2 Tests non-param´etriques Le test du point tournant.

2 ≤i ≤ n−1 est un point tournant d’une suite num´erique x = (x1, x2,· · · , xn) si soit xi−1 < xi

et xi > xi+1 (pic local de la suite xeni), soit xi−1 > xi etxi < xi+1 (vall´ee locale de la suitex en i). Notons :

(He0) : les (Xi) sonti.i.d. de loi commune `a densit´e,

et T le nombre de points tournants de x. Il est intuitif que T est faible si les Xi successifs sont corrélés positivement et queT est grand si lesXi successifs sont corrélés négativement. On propose donc comme comme région de rejet de (He0) :

R^α ={¯¯T −E_H_e

0(T)¯¯≥s(α)},

les valeurs de T autour de son esp´erance sous He0 correspondant `a l’acceptation de (He0). Il faut

´

evaluer la loi deT sous (He0). Sous l’hypothèse que la loi marginale commune de Xt est à densité, on a (cf. exercice 1.6.4-1) :

E(T) = 2

3(n−2) et V ar(T) = 16n−29 90 .

D’autre part, pour ngrand, on peut montrer que T est approximativement normal. La région de rejet approximative au niveau α pourngrand est,t(β) étant leβ-quantile de la normale réduite :

R^α ={

¯¯

¯¯T −2

3(n−2)

¯¯

¯¯≥t(α 2)

r16n−29 90 }. Le test de signe sur la diﬀ´erence.

On compte S le nombre de fois que xi > xi−1 pour i = 2, n : sous (He0), E(S) = ¹₂(n−1) et on peut aussi montrer que V ar(S) = ⁿ⁺¹₁₂ , S ´etant approximativement normale pour n grand. Les petites ou les grandes valeurs de S mettant en doute (He0), on propose comme r´egion de rejet,

R^α ={

¯¯

¯¯S−n−1 2

¯¯

¯¯≥t(α 2)

rn+ 1 12 }. Puissance des tests.

Comme on devrait le faire pour chaque test en cas de maintien de l’hypothèse nulle, il faut évaluer la puissance du test en spécifiant la famille d’alternatives envisagées. A ce sujet, le test de signe sur la différence présente un risque car il conduit à accepter (He0) si (xi) est proche de la périodicité (S est alors proche de ⁿ⁻₂¹) : le test de signe est de faible puissance pour la famille d’alternatives où x est proche de la périodicité.

(8)

1.6.3 Test du caract`ere gaussien

On suppose observ´e un ´echantillon i.i.d. {ei, i= 1, n} et on veut tester (H0) :e1 ∼N(m,σ²).

Approche graphique : droite de Henry ou qq-plot Classons par ordre croissant les e : e(1) < e(2) <· · ·< e(n) et notonsu(1) < u(2) <· · ·< u(n) un échantillon gaussien réduit réordonné, mj =E(u(j)) l’espérance de ces statistiques d’ordre. Le qq-plot des {ei} est le graphique croisant les quantiles théoriques et les quantiles empiriques qq(e) = {(mj, e(j)), j = 1, n} : sous (H0), et pour n grand, les points de qq(e) sont approximativement alignés sur une droite de pente σ et d’ordonnée à l’origine m. Une forte déviation à cette propriété fait douter de (H0), c-à-d du caractère gaussien des observations. La fonctionqqplotdu packageStatsdeR permet de juger de cet alignement. Une règle statistique de rejet est construite sur la base der², le carré du coéfficient de corrélation empirique du graphique qq(e),

r² = {P

(ei−e)mi}² {P

(ei−e)²}{P m²_i}

On rejettera (H0) au niveau α si R^α = {r² < s(α)}. Pour n < 100, il existe des tables donnant s(α) ; pour n= 200, s(5%) =.987 ets(10%) =.989.

Approche paramétrique : test de Jarque-Berra (JB) La statistique de JB est construite sur la constatation suivante : une loi gaussienne est decoefficient d’asymétrie κ3 =E(X−µ)³/σ³ nul (skewness,κ3 = 0 siX symétrique) et decoefficient d’applatissement κ4 =E(X−µ)⁴/σ⁴ = 3 (kurtosis).

Jarque et Bera proposent un test test de l’hypoth`ese plus faible : (He0) :κ3 = 0 et κ4 = 3.

Soient S etK les estimateurs empiriques de κ3 etκ4 calcul´es `a partir de (ei) ; alors la statistique : JB = n−p

6 {S²+1

4(K−3)²}

prend une valeur faible sous l’hypothèse de normalité. Jarque et Bera ont montré que la loi asymptotique de JB est, sous (He0), un χ² à 2 ddl. On rejette l’hypothèse gaussienne si on tombe dans la région de rejetR^α ={JB ≥q(2;α)}.

1.6.4 Exercices et fonctions R utiles

1. Test du point tournant. Soient X1, X2, X3 trois v.a.r. i.i.d.de densit´ef.

a - D´emontrer que p = P(X1 < X2 et X3 < X2) = R

RP(Y1 < Y2 et Y3 < Y2 | Y2 = y)f(y)dy) = ¹₃. Que vaut q=P(Y1 > Y2 et Y3 > Y2) ?

b - En déduire que l’espérance du nombre de points tournants d’une série {Xi, i = 1, n} de v.a.r. i.i.d.à densité est ²₃(n−2).

2. Loi asymptotique pour la covariance empirique d’un bruit i.i.d.(0,σ²).

Soient (et, t= 1,2,· · ·) un bruit i.i.d.(0,σ²) et sa covariance empirique à distance 1 calculée pour un échantillon e1, e2,· · · , en :

b

γ_n(1) = 1 n

X

i=1,n−1

Ui o`u Ui =eiei+1, i≥1.

a - Vérifier que (Ui, i ≥ 1) est une suite strictement stationnaire du second ordre. Vérifier de plus que Ui et Uj sont indépendantes si |i−j|>1. Quelle est l’acvf de U?

(9)

b - Utilisant le TCL pour les suites m-ind´ependantes (cf. Annexe §10.4), d´emontrer que :

√nbγ_n(1)ÃN(0,σ⁴) et √

nbρ_n(1)ÃN(0,1).

c - Généraliser ce résultat à la corrélation empirique à distance k et à la loi jointe de deux corrélations empiriques.

3. Simuler un 200-´echantillon d’une loiL, dresser son qq-plot et tester la gaussianit´e de Lpar : (i) le test sur r² (cor(x, y) destats) ;

(ii) la statistique JB.

On envisagera les loisL suivantes : une gaussienne (rnorm(n, mean, sd)est un générateur denv.a.i.i.d.N(m,σ²)) ; une Student (rt(n,df,ncp),ncp= paramètre de non centralité) ; une loi exponentielle (rexp(n,rate)) ; une loi uniforme (runif(n,min,max)) ; une loi > 0 log-normale (rlnorm(n,meanlog,sdlog)).

Fonctions R utiles :

Package stats : rxxx(n,param`etres)(simulation d’un n-´echantillon de la loi xxx), acf, qqplot, Box.test (tests de Box-Pierce et Ljung-Box)

Package tseries : jarque.bera.test, run.test (test des runs du caract`ere i.i.d. d’une s´erie binaire)

2 Mod` eles non-stationnaires

Ce sujet sera repris au chapitre 7 traitant des SARIMA et des régressions à résidu processus.

Pr´esentons quelques situations de non-stationnarit´e.

2.1 Non-stationnarit´ e en moyenne

C’est le cas o`u t7→m(t) =E(Xt) n’est pas constante.

2.1.1 Mod`ele de r´egression

On dispose d’un modèle paramétrique m(t) =g(t,β) où β ∈R^p et g est une fonction connue.

Le modèle est linéaire en β, c-à-d g(t,β) =^tg(t)β, ou non. Dans un modèle linéaire,

Xt= ^tg(t)β+e(t), t= 1,2,· · · (7) où e est un résidu centré ;e pourra être stationnaire de modèle paramétrique e(ϕ), ϕ∈ R^l; dans ce cas X est paramétré au premier ordre (β) et au second ordre (ϕ). Si e n’est pas stationnaire, on devra opérer des transformations pour le stationnariser (transformation de Box-Cox, cf. §2.2 ; différenciation, cf. §2.1.4).

Donnons quelques exemples classiques de mod`eles (7) :

— g(t) est un vecteur de variables exog`enes observables.

— g(t) est le vecteur des monomes en t de degr´e≤r.

— g(t) est associé à une composante saisonnière périodique.

— ou g(t) est une combinaison de ces mod`eles.

Une modélisation classiquetendance + saisonnalité + résidu est :

Xt=m(t) +st+et,t ≥1, (8) m(t) est une tendance et (st) est une saisonnalité de période d, c-à-d que ∀t ≥ 0, st+d ≡st. Par exemple, m(t) = a +bt est une tendance affine et s est une saisonnalité centrée et (8) est de

(10)

dimension d+ 1 ; le centrage s1+s2+· · ·+sd= 0 est indispensable afin de rendre les param`etres (a, s) identifiables.

Exemple : La s´erieAirPassengers (cf.datasets deR) est un classique de l’´etude des SC (cf.

Box & Jenkins). Cette s´erie mensuelle donne le nombre total de passagers avion de 1949 `a 1960.

OuvrirRet charger cette série. En donner la représentation graphique. Constater l’existence d’une saisonnalité mensuelle (d = 12) et d’une croissance moyenne approximativement affine (modèle (8). On constate qu’il subsiste une non-stationnarité en variance qui nécessitera une transformation de Box-Cox des données afin de les stationnariser en variance (cf. §2.2).

Si la régressiont 7→m(t,β) n’est pas connue et si l’observation estX1, X2,· · · , Xn, on estimera β par MCO. Cette estimation pourra être améliorée dans un second temps par MCG une fois identifiée et estimée la structure du résidu (et) (cf.§ 7.1 et annexe §10.3).

La prévision deXn+h,reposera sur : (i) l’estimation de β; (ii) la prévision du résidu en+h : Xbn,h=m(n+h,β) +b ben,h.

Deux facteurs d’imprécision apparaissent mais sinest grand et sibβest une estimation consistante, c’est l’incertitude sur la prévision ebn,h à pas h qui est dominante.

2.1.2 Filtrage d’une tendance et/ou d’une saisonnalit´e par moyenne mobile

Tendance sans saisonalité Supposons que Xt = m(t) +et pour un résidu (et) centré. Sans modèle sur la tendance t7→m(t), le filtrage par moyenne mobile (MA pour Moving Average) est une méthode locale non-paramétrique permettant defiltrer la tendance m(t) =E(Xt).

Supposons que l’on observe X(n) = (X1, X2,· · · , Xn) et que m(t) soit à “variation régulière et lente” autour de t, approximativement affine sur [t−q, t+q]. Alors lefiltre en (2q+ 1)-MA :

b

m(t) = 1 2q+ 1

Xq j=−q

Xt+j pourq+ 1≤t≤n−q,

donne une “bonne approximation” de m(t) pour laquelle bet =Xt−m(t) est approximativementb centr´ee. Par exemple, si m(s) = a +bs, m(t) =b m(t) +eet o`u eet = _2q+1¹ Pq

j=−qet+j est “petit”, parce que centré et de variance _2q+1^σ² si e ∼BB(0,σ²). L’étude portera alors sur la nouvelle série des résidus bet =Xt−m(t). D’autresb filtres plus efficaces peuvent être utilisés.

Tendance et saisonnalité Supposons que Xt = m(t) + st +et où s est une d-saisonnalité centrée :

• on commence par estimer la tendance avec un filtre ´eliminant la saisonnalit´e ; par exemple si d est pair,

b

m1(t) = 1

2d(Xt−d+Xt−d+1+· · ·+Xt+d−1+Xt+d) pour d

2 < t≤n− d 2.

• on estime ensuite la saisonnalité en prennant la moyenne arithmétique wk des déviations {Xk+jd−mb1(k+jd), ^d₂ < k+jd ≤n− ^d2};

•on recentre cette estimation en bsk =wk−w. Lasérie désaisonalisée est dt=Xt−bst.

• on termine en réestimant la tendance par filtrage en moyenne mobile à partir de la série désaisonalisée (dt), soit mb2(t).

Il reste alors à étudier la série recentrée bet=Xt−(mb2(t) +bst), t= 1, n.

(11)

2.1.3 Exercice et fonctions R utiles Soit B l’op´erateur de retard :BZt=Zt−1.

1 - Déterminer les constantes a, b et c t.q. le filtre F(B) = 1 +aB +bB² +cB³ laisse invariant les tendances affines mais absorbe les 2-saisonalités.

2 - V´erifier que lefiltreF(B) =P2

i=−2aiBⁱde coéfficients (a₋2, a₋1, a0, a1, a2) = ¹₉(−1,4,3,4,−1) laisse invariant les tendances polynomiales de degré≤3 mais absorbe les 3-saisonalités.

Package stats : decompose(en T(t) +S(t) +e(t)), monthplot (ajustement saisonnier) Package forecast : seasadj (d´esaisonalise une s´erie)

Package tseries : kpss.test (test de stationnarité) 2.1.4 Stationnarisation par différenciation

Stationnarisation de la moyenne. La constatation de base est la suivante : notons

∇Zt=Zt−Zt−1

l’opérateur de différence d’ordre 1 : siXt=a+bt+et, ∇Xt =b+εt où εt =∇et =et−et−1 est stationnaire centré si el’est. Ainsi, la différenciation∇ stationnarise en moyenne une série dont la tendance est affine en préservant la stationnarité du résidu. Il est facile d’étendre ce résultat aux tendances polynomiales de degré k qui sont absorbées par lak-itérée ∇^k de∇:

∇^kP(t) =c siP est un polynome de degr´e k.

Ainsi, si Xt = P(t) + et où P est polynomiale de degré k, alors Yt = ∇^kXt = c+εt où ε est stationnaire si e l’est. Cette constatation justifie l’utilisation de la différenciation ∇ ou de ses premières itérées ∇^k lorsque la tendance d’une série est régulière et varie lentement. Un inconvénient de cette différenciation est de “compliquer” éventuellement la structure du bruit résiduel ε (i.e. si e est unBB, ε devient unM A(1)).

Elimination d’une d-saisonnalité. Soit∇^dla différenciation d’ordred(ne pas confondre avec

∇^d) :

∇^dZt=Zt−Zt−d.

Si s = (st) est une d-saisonnalité, ∇^dst ≡ 0 : la d-différenciation absorbe les d-saisonalités. Par exemple, si Xt =st+et, ∇^dXt =εt où εt =∇^det est stationnaire si e l’est. Remarquons que ∇^d stationnarise également une SC à tendance affine : si Xt = a+bt+st+et, ∇^dZt ≡ d×b+εt

est stationnaire. Cependant on optera souvent pour une composition des deux diﬀ´erenciations

∇∇^d=∇^d∇ dans une telle situation.

Retour à la série d’origine La technique de différenciation permet de passer d’une série X non stationnaire en moyenne à une sérieY stationnaire en moyenne. Pour la prédiction deX, on passera par la prédiction surY puis on remontera parfiltrage inverse à la prédiction recherchée sur X. Illustrons cela à travers un exemple : on observe X(n) = (X1, X2,· · · , Xn) et on veut prédire Xn+2; on pense être en présence d’une tendance régulière pour la série X qui est trimestrielle. On propose donc la stationnarisation suivante :

Yt =∇⁴∇Xt= (Xt−Xt−1)−(Xt−4−Xt−5) =Xt−Xt−1−Xt−4+Xt−5,t = 6, n

On constate un rétrécissement du domaine d’observation pour la série différenciée Y (n − 5 observations Yt au lieu de n pour X). On prévoit Yn+2 par Ybn,2 puis on calcule la prédiction associée Xbn,2 = Ybn,2+Xbn,1 +Xn−2−Xn−3, et à nouveau Xbn,1 = Ybn,1+Xn+Xn−3 −Xn−4. On trouve :

Xbn,2 =Ybn,2+Ybn,1+Xn+Xn−2−Xn−4.

(12)

2.1.5 Exercices

1. Soit {et} un bruit stationnaire centré, a et b deux constantes, Xt = (a + bt)st +εt et Yt = (∇¹²)²Xt. Vérifier queY est stationnaire. Déterminer sa covariance en fonction de celle de e.

2. (a) - Simuler la série Xt = a+bt+σet pour t = 1,200, a = 2, b = 0.1, σ = 2, e étant i.i.d.(N(0,1)). Graphe, acvf et pacf empiriques de (Xt, t= 1,200). Calculer l’estimation des MCO de (a, b) et l’estimation déduite de σ² (cf. Annexe §10.3). Tester b= 0 contre b >0.

(b) - Simuler la série Xt = a+bt+η_t pour t = 1,200, a = 2, b = 0.1, η étant le modèle AR(1) d’équation :

η_t=ρη_t₋₁+et, t= 0,200 pour ρ=

√3 2 .

V´erifier que V ar(η_t) = 4. Tracer la s´erie (η_t, t = 1,200), son acvf et sa pacf empiriques.

Estimer bpar MCO. Comment tester b= 0 ?

3. (a) - Soit (et, t = 1,200) ∼ i.i.d.(N(0,1)), Xt = t+et, Yt = √

tet et Zt = cos^πt₄ +et pour t = 1,200.Quelles sont les acvf empiriques deX,Y etZ. Quelles conclusions en tirez-vous ? (b) - Soit X1,t = Xt −Xt−1 pour t = 2,200 et Z1,t = Zt −Zt−8 pour t = 9,200. Mˆemes questions sur X1 etZ1.

2.2 Non-stationnarit´ e en variance

C’est la situation où V ar(Xt) = σ²(t) dépend de t. Réexaminons la série AirPassengers : la variance σ²(t) est une fonction croissante de la moyennem(t) :

σ²(t) =f(m(t)). (9)

Soit cv(X) = _E(X)^σ(X) lecoefficient de variation d’une v.a. X >0. De nombreux phénomènes X sont

`

a cv(X) =κ constant : l’ordre de grandeur de la variabilité de X (son ecart type) est du même ordre que la moyenne de X (nombre de malades d’un canton, trafic de voyageurs, chiffre d’affaires d’une entreprise). Dans ce cas, le modèle pour (9) estσ(t) =κ m(t).

2.2.1 Transformation stabilisant la variance

Une solution consiste à trouver une transformation g(Xt) telle que V ar(g(Xt)) est approximativement constante. L’approche est la suivante : supposons que X ∼ N(m,κ²f(m)) et que κ est petit. Le résultat (cf. (45) de l’annexe, §10.4) précise la loi approchée de la déformation d’une gaussienne de petite variance si g est différentiable autour dem,

g(X)∼N(g(m),κ²f(m)g⁰(m)²).

La variance est stabilisée si f(m)g⁰(m)² =c. D’où l’équation différentielle sur g : g⁰(m) = c

pf(m),

2.2.2 Trois exemples

— X est àcv constantκpetit,σ² =f(m) =κ²m² etg⁰(m) = _m^c : on obtientg(m) =κlog(m) : le log stabilise la variance d’un modèle à cv constant et petit.

— σ² =κ²m, κ petit : σ² =f(m) =κ²m etg(m) =κm⁻¹² stabilise la variance.

(13)

— Plus généralement, la transformationde Box-Cox : f(m) = mâ

a , a >0 et f(m) = log(m) pour a= 0,

stabilise la variance deXsiσ² =κ²m²⁻^2a,κpetit, la situation fronti`erea= 0 correspondant au cas d’un cv constant.

2.2.3 Exercices et fonctions R utiles

On considère la série Xt = (a+bt)Zt, t ≥ 0, a et b > 0 où (Zt) est une suite stationnaire de v.a. sur R⁺, E(Z1) =µ >0, V ar(Z1) =σ².

a - Calculer l’espérance et la variance de Xt. Que vaut le coefficient de variation deXt? b - SoitYt =∇Xt=Xt−Xt−1pourt≥1. (Yt) est-elle stationnaire en espérance ? en variance ? c - SoitWt = log(∇Xt). Montrer que (Wt) est approximativement stationnaire si t est grand et/ou si aÀb.

d - On observe X(n) = (X1, X2,· · · , Xn) et on dispose d’une prévision cWn,1 de Wn+1 en fonction des Wt passés. Comment prévoir Xn+1?

Dans le packageforecast : BoxCox, InvBoxCox.

Dans le packagastats : diff.ts, diffinv

3 Pr´ ediction L

²

et auto-corr´ elation partielle

3.1 Pr´ ediction au second ordre : le cas g´ en´ eral

Soient Y, W = (W1, W2,· · · , Wn), (n + 1) v.a.r. du second ordre. Supposons connues les moyennes et les variances-covariances suivantes :

µ_Y = E(Y),µ_W = ^t(µ_i =E(Wi), i= 1, n)∈Rⁿ; γ = Cov(W, Y)∈Rⁿ;V ar(Y)∈R;

Γ = Cov(W), matrice n×n.

L’objectif est de prédire au mieux, pour le critère de l’écart quadratique moyen (EQM), Y à partir d’une combinaison affine des Wi, i = 1, n. Il s’agit donc de trouver la combinaison affine Yb =a0+a1W1+a2W2 +· · ·+anWn qui minimise l’EQM :

S(a) =E(Y −Yb)² =E{Y −(a0+a1W1 +a2W2+· · ·+anWn)}².

On parle aussi de larégression affine deY surW :Yb est la projection orthogonale (pour le produit scalaire de la covariance de Y) sur l’espace affine engendré par lesW.

Proposition : La prédiction optimale s’écrit Yb =µ_Y+ ^ta(W −µ_W) où a = ^t(a1, a2,· · · , an) vérifie :

taΓ=γ et EQM(Yb) =V ar(Y)− ^taγ. (10) Preuve : Soit L² l’espace de Hilbert des variables centrées de variancesfinies muni du produit scalaire de la covariance,hU, Vi=Cov(U, V). Recentrons les (n+ 1) variablesY etW. Minimiser le critère de l’EQM revient à projeter orthogonalement Y sur l’espace linéaire des W. Cette projection existe toujours et l’orthogonalité de (Y −Yb) aux Wi, i = 1, n, s’écrit, notant Γi la i-ième colonne de Γ :

Cov(Y −Y , Wb i) = 0, i= 1, n, soit : ^taΓi =γ_i pouri= 1, n, (11) c-`a-d : ^taΓ=γ.

Un tela existe toujours et est unique si Γest régulière :a=Γ⁻¹γ. Un calcul direct donne l’erreur de prédiction. . . .¥

(14)

3.2 Le cas d’un processus stationnaire

3.2.1 Pr´ediction `a l’horizon h

Un objectif central dans l’étude des SC est la prédiction à l’horironh >0 deXn+hsi on observe X(n) =^t(X1, X2,· · · , Xn). Si la série est centrée et si X est stationnaire d’acvf γ(·), la propriété précédente nous dit que cette prévision vaut,

Xbn,h = ^taX(n) o`u^taΓ=γ,avec

γ = ^tCov(Xn+h, X(n)) = ^t(γ(n+h−1),· · · ,γ(h+ 1),γ(h)) et Γ = Cov(X(n)) = (γ(i−j))ⁿ_i,j=1.

L’erreur de prévision est donnée par (10). Si γ(·) n’est pas connue, on la remplacera par son estimation ; dans ce cas, l’erreur de prévision donnée par (10) n’est qu’approchée puisqu’un facteur d’imprécision sur les paramètres bγ(k) s’ajoute à l’incertitude sur le processus.

3.2.2 Algorithme récursif de prédiction ; prévision de valeurs manquantes

Une difficulté dans l’obtention de Xbn,h réside dans l’inversion de la matrice Γ de taille n×n lorsque n est grand. Il existe des algorithmes récursifs qui lèvent cette difficulté (i.e. algorithme de Durbin-Levinson, cf. BD). Leur principe est le suivant : une fois calculée Xbn,1, on cherche à obtenir par une récursion simple (sans inversion de matrice) la prédiction Xbn+1,1 sur la base des observations et de Xbn,1.

La pr´edictionL² permet ´egalement d’estimer unevaleur manquanteXk, 1< k < ndeX^k(n) = (X1,· · · , Xk−1, Xk+1,· · ·Xn) :

Xbk(n) = ^taX^k(n) o`u ^taΓ=γ pour Γ=Cov(X^k(n)) et γ = ^tCov(Xk, X^k(n)).

3.2.3 Exercices

1. Pr´evision optimale sur la derni`ere observation

a - Pr´eciser la loi conditionnelle L(Y | X = x) si ^t(X, Y) ∼ N²(^t(a, b),Σ) de covariance Σ=³_σ2

1 ρσ1σ2

ρσ1σ2 σ²₂

´

inversible.

b - SoitX1, X2,· · · un processus stationnaire au second ordre de moyennem et d’ACFρ(·).

Démontrer que le prédicteur optimal de Xn+h en fonction de la seule observation Xn et de la constante 1 est Xbn,h=ρ(h)Xn+m(1−ρ(h)). Quelle est la loi de cette prédition siX est gaussienne ?

2. Pr´ediction de valeurs manquantes.

a - X1, X2, X4 etX5 sont les observations d’un MA(1) : Xt =Zt+θZt−1 o`u Z ∼BB(0,σ²).

Déterminer la meilleure prédiction linéaire de la valeur manquante X3 en précisant chaque fois les erreurs de prédictions : (a1) en fonction deX2, X4; (a2) en fonction de X1, X2; (a3) en fonction de X1, X2, X4 et X5.

b - Mˆemes questions maisX est l’AR(1) stationnaire :Xt =φXt−1+Zt.

3.3 Auto-corr´ elation partielle

3.3.1 Le cas g´en´eral

Soient Y, Z et W = (W1, W2,· · · , Wn),(n+ 2) v.a. réelles de variancesfinies, de moyennes et de variances-covariances connues. Soit Yb (resp. Zb) la régression affine de Y (resp. Z) sur W et bε(Y |W) (resp.bε(Z |W)) le résidu de cette régression :

Y =Yb +bε(Y |W) et Z =Zb+bε(Z |W).

(15)

Définition : Lecoefficient de corrélation partielle ρ_P(Y, Z |W) entre Y etZ à W connu est le coefficient de corrélation entre les résidusbε(Y |W) et bε(Z |W) des régressions de Y sur W et de Z surW :

ρ_P(Y, Z |W) =ρ(bε(Y |W),bε(Z |W)). (12) Ce coefficient mesure le degré de liaison affine entre Y etZ une fois retirée l’information affine qu’apporteW à l’une et à l’autre des variablesY etZ. Par exemple, si on observe unn-échantillon de la taille Y, du poids Z et de l’âge W d’une population, la corrélation ρ_P(Y, Z |W) est le bon indice de liaison affine entre taille et poids à “âge fixé” ; la corrélation habituelle ρ(Y, Z), plus grande que la corrélation partielle, intègre le fait que taille et poids sont deux fonctions croissantes de l’âge et en fait masque la liaison intrinsèque entre la taille et le poids.

Exemple : Soit (Y, Z, W) ∈ R³ de moyenne m, de variances σ² ∈ R³ et de matrice de corr´elationsρ. On peut alors expliciter la forme analytique de ρ_P(Y, Z |W). Les deux r´egressions sont :

Y −mY = ρ_{Y W} σY

σW

(W −mW) +bε(Y |W) et Z −mZ = ρ_ZW σZ

σW

(W −mW) +bε(Z |W).

Reste à calculer la corrélation simple ρ(bε(Y |W),bε(Z |W)). Un calcul direct conduit à : ρ_P(Y, Z |W) = ρ_{Y Z}−ρ_{Y W}ρ_ZW

p1−ρ²_{Y W}p

1−ρ²_ZW. 3.3.2 Auto-corr´elation partielle pour un processus stationnaire

Soit X un processus stationnaire au second ordre.

Définition : La fonction d’auto-corrélation partielle (notée pacf) de X à distanceh > 0 est définie par :

α(h) =ρ_P(X0, Xh |X1, X2,· · · , Xh−1),

α(h) est la corrélation entre X0 et Xh aux valeurs intermédiaires (X1, X2,· · · , Xh−1) fixées. Par convention, on pose α(0) = 1.

Lien avec la pr´ediction.

La prédiction deXh sur la base deX₀^h⁻¹ = (X0, X1, X2,· · · , Xh−1) est donnée parXbh,1 =^tahX₀^h⁻¹ oùah =Γ⁻_h¹γ_h, Γh = (γ(i−j))^h_i,j=0⁻¹ etγ_h =^t(γ(h),γ(h−1),· · · ,γ(1)). On a la propriété suivante (cf. BD) :

Propriété :Soit a0,h le coefficient de X0 dansXbh,1. Alors la pacf de X à distancehvauta0,h : α(h) =ρ(X0, Xh |X1, X2,· · · , Xh−1) =a0h.

Anticipons sur les modèles ARMA : une propriété caractéristique des AR(p) est que la pacf d’un AR(p) est nulle au delà de p : α(h) = 0 si h > p. Cette propriété est la propriété duale de celle d’un M A(q) pour lequel l’acf vérifie :ρ(h) = 0 si h > q.

3.3.3 Exercices

1. SoientX,Y etZtrois variablesi.i.d.(0,1),X1 =X+Z etY1 =Y+Z. Calculerρ(X1, Y1 |Z).

2. Utilisant la définition de la pacf, démontrer que la pacf d’un AR(1) (cf. §4.2) est nulle à partir de la distance 2. Généraliser au cas d’un AR(p).

(16)

4 Mod` eles ARM A

Les modèles ARM A (Auto-Regressive with Moving Average) sont des modèles stationnaires de petite dimension dont la covariance approche une large famille de covariances. En particulier, pour toute covariance γ(·) et tout entierK >0, il existe un modèleARM A(et même un AR)X tel queγ(k) =γ_X(k) pour 0≤k ≤K. Ces modèles vont être définis comme desmodèles linéaires associés à un BB. Commen¸cons par définir de tels modèles linéaires.

4.1 Processus lin´ eaire

Soit ψ une suite del¹ (P

Z|ψ_i|<∞) et ε∼BB(0,σ²). Un processus lin´eaire est : Xt =X

i∈Z

ψ_iεt−i, t∈Z. (13) Xt est donc une moyenne glissante infinie (M A(∞)) et bilatérale du bruitε pour des poidsψ. La série définissant Xt converge en probabilité et dans L² sous la conditionψ∈l¹ (cf. §10.2). L’acvf de X vaut :

γ_X(h) =σ²X

i∈Z

ψ_iψ_i+h. (14)

En particulier, γ(h) tend vers 0 si h→ ∞.

4.2 Mod` ele ARM A(p, q)

Un ARM A(p, q) associé à ε ∼ BB(0,σ²) et de paramètres φ ∈ R^p, θ ∈ R^q, est un processus stationnaire X vérifiant pour chaque t∈Z :

Xt−φ₁Xt−1 −· · ·−φ_pXt−p =εt+θ1εt−1+· · ·+θqεt−q. (15) Notons P(z) (resp.Q(z)) le polynome associ´e `a la composante AR(p) (resp.M A(q)) :

P(z) = 1−φ₁z−· · ·−φ_pz^p (φ_p 6= 0);

Q(z) = 1 +θ1z+· · ·+θqz^q (θq 6= 0).

On supposera toujours que P etQsont sans facteur commun. SiB est l’opérateur de retard défini pour tout t∈Z par BXt=Xt−1, l’équation génératrice de l’ARM A s’écrit :

P(B)Xt=Q(B)εt. (16)

Propri´et´es : (15) admet une solution stationnaire ssi P(z)6= 0 pour |z|= 1.

Preuve : Si P(z)6= 0 pour |z|= 1, alors ∃δ > 0 t.q. P⁻¹ admette un d´eveloppement de Laurent uniform´ement convergent sur la couronne 1−|δ|≤|z|≤1−|δ|,

P⁻¹(z) =X

i∈Z

χ_izⁱ avec χ₀ = 1, (17) et la suite des (χ_i) est à décroissance exponentielle. On en déduit que ^Q(z)_P(z) = P

i∈Zψ_izⁱ, avec ψ₀ = 1, où (ψ), étant à décroissance exponentielle, est dans l¹. Définissons alors :

Xt=X

i∈Z

ψ_iεt−i. (18)

X est solution de (16) et son acvf est donnée par (14). .. . . .¥ Les ARM A sont donc des processus linéaires particuliers dont les poids ψ décroissent exponentiellement ; X est un AR(p) si q= 0 ; X est un M A(q) sip= 0.

(17)

4.2.1 Causalit´e, inversibilit´e

Causalité et innovation de X Une représentation (15) est causale si la représentation (18) de Xt ne fait intervenir que les bruits εs, s≤t : notons Y_u^v le sous-espace linéaire deL² engendré par les v.a.{Yt, u≤t≤v}. Si la représentation de X est causale,X_−∞^t ⊆ε^t_−∞. εtest l’innovation de X à l’instantt, caractérisée par :

X_−∞^t =X_−∞^t⁻¹⊕(εt) et Cov(εt, Xs) = 0 si s < t. (19) Propriété : (15) est causale ssi P(z) 6= 0 pour |z| ≤ 1, c-à-d si P n’a pas de racine sur le disque unité.

Preuve : En effet, cette condition assure que le développement de Laurent (17) de P(z)⁻¹ est le développement ordinaire en série entièreP⁻¹(z) =P

i≥0χ_izⁱ, convergent si|z|≤1. . . .¥ SiP(z) =Qp

k=1(1−z^zk), le développement de P(z)⁻¹ s’obtient à partir des développement des fractions rationnelles :

1 1− z^zk

=X

i≥0

(zk)⁻ⁱzⁱ pour |z|≤1.

Inversibilit´e de l’ARMA La repr´esentation (15) est inversible si pour tout t : εt=X

i≥0

ϕ_iXt−i. (20)

La représentation est inversible si Q(z) 6= 0 pour |z| ≤ 1, c-à-d si le polynome MA n’a pas de racine sur le disque unité. Pour un ARMA inversible, ε^t_−∞⊆X_−∞^t .

Ainsi si la représentation ARMA est causale et inversible, on a l’égalité entre les espaces engendrés par X et par ε:

Si X est causal et inversible : ∀t :ε^t_−∞=X_−∞^t . 4.2.2 Exercice

Parmi les modèles suivants, lesquels sont causaux ? inversibles ? (e est un BB(0,σ²)) et pour ceux qui sont causaux, calculer les 6 premiers coéfficients ψ_i de la représentation causale Xt = P

i∈Zψ_iet−i, t ∈Z:

— Xt= 0.8Xt−1+et+ 1.2et−1

— Xt+ 1.9Xt−1+ 0.88Xt−2 =et+ 0.2et−1+ 0.7et−2.

— Xt−0.9Xt−2 =et−0.16et−2. 4.2.3 Exemples d’ARM A

Les mod`eles en moyenne glissante M A(q) Consid´erons :

M A(q) :Xt=εt+θ1εt−1+· · ·+θqεt−q, (21) et posons θ0 = 1. X a pour acvf :

γ(h) =σ²

q−h

X

i=0

θiθi+h pour |h|≤q etγ(h) = 0 sinon.

La portée de l’acvf d’un M A(q) est q. Cette propriété est caractéristique des M A (BD) : un processus stationnaire dont l’acvf est de portéeqpeut s’écrire comme unM A(q). La représentation est inversible si Q(z) = 1 +Pq

1θjz^j ne s’annule pas sur |z|≤1 : dans ce cas, ∀t:ε^t_−∞ =X_−∞^t .