• Aucun résultat trouvé

Lien entre le mod `ele AR hybride et les mod `eles propos ´es auparavant

3.5 Mod `eles autor ´egressifs- `a-noyaux sans pr ´e-image

3.5.3 Lien entre le mod `ele AR hybride et les mod `eles propos ´es auparavant

3.6 Exp ´erimentations . . . . 70 3.6.1 Comparaison les techniques pr´edictives non-lin´eaires . . . . 72

3.6.2 Comparaison entre les diff´erentes techniques de pr´e-image . . . . 74

3.6.3 Comparaison entre les diff´erentes techniques propos´ees . . . . 74

3.7 Conclusion . . . . 77

3.1 Introduction

Les techniques li ´ees `a la pr ´ediction des s ´eries temporelles constituent un outil d’aide `a la d ´ecision de premi `ere importance. Pour donner une id ´ee sur l’ampleur de la recherche en mati `ere de m ´ethodes de pr ´ediction, nous pouvons citer des applications financi `eres [Tsa05], ´econom ´etriques [BT98,LBB+04],

gestionnaires [BT10], statistiques [Ful96], sans oublier les applications m ´et ´eorologiques. De m ˆeme, ces m ´ethodes sont utilis ´ees en contr ˆole de processus [MWM83], et en traitement du signal comme les si-gnaux biom ´edicaux [ZIP06]. Pour ce dernier cas, diff ´erentes ´etudes ont ´et ´e r ´ealis ´ees ; nous pouvons en citer le traitement par d ´ecomposition empirique [KCV11], la m ´ethode de l’entropie maximale [Lin79], et l’analyse en ligne [GS90].

Le d ´eveloppement des techniques de pr ´ediction a ´et ´e longtemps bas ´e sur des progr `es r ´ealis ´es en statistique et en probabilit ´es. Les premiers mod `eles statistiques de pr ´ediction sont sous forme de mod `eles autor ´egressifs. Le mod `ele autor ´egressif (AR), ou pr ´edictif lin ´eaire, est omnipr ´esent en sciences et technologie, avec un r ˆole essentiel dans l’analyse des s ´eries temporelles dans des applications al-lant de la pr ´ediction financi `ere, `a l’analyse m ´et ´eorologique. Pour le traitement de la parole par exemple, afin de maintenir une conversation t ´el ´ephonique, pour chaque 20 millisecondes, le t ´el ´ephone portable mod ´elise la parole selon un mod `ele pr ´edictif lin ´eaire facilitant, ainsi la transmission de donn ´ees [DMK09]. Le mod `ele pr ´edictif lin ´eaire d ´ecrit un ´echantillon en l’exprimant sous forme d’une combinaison lin ´eaire d’un certain nombre d’ ´echantillons pr ´ec ´edents. Afin d’ ´evaluer cette combinaison lin ´eaire, les param `etres qui la d ´ecrivent sont estim ´es sur une s ´erie d’ ´echantillons disponibles, avant de l’ ´etendre `a la pr ´ediction des futurs ´echantillons. Ce mod `ele autor ´egressif est facile `a impl ´ementer gr ˆace `a l’alg `ebre lin ´eaire. Ce-pendant, il est conc¸u pour les syst `emes lin ´eaires.

Les math ´ematiques sous-jacentes qui maˆıtrisent le mod `ele autor ´egressif sont les ´equations de Yule-Walker [Yul27,SS89]. Depuis ce temps, la communaut ´e scientifique s’est investie sans cesse afin de maˆıtriser ces ´equations pour la pr ´ediction lin ´eaire [CG85]. Les ´equations de Yule-Walker sont le bloc de construction du mod `ele lin ´eaire AR, reliant ainsi les param `etres du mod `ele `a la fonction de covariance du processus. Les param `etres du mod `ele sont donc estim ´es `a partir des covariances de la s ´erie temporelle. La pr ´ediction peut ˆetre consid ´er ´ee en appliquant le mod `ele pr ´edictif qui en r ´esulte. Toutefois, l’hypoth `ese de lin ´earit ´e est souvent insuffisante pour expliquer les ph ´enom `enes non-lin ´eaires. Une premi `ere tentative pour ´etablir des ´equations de Yule-Walker non-lin ´eaires est donn ´ee dans [CB96] avec un mod `ele non-lin ´eaire d’ordre ´elev ´e.

Nous proposons dans ce chapitre un mod `ele autor ´egressif non-lin ´eaire pour la mod ´elisation et la pr ´ediction de s ´eries temporelles, en utilisant les m ´ethodes `a noyaux et la r ´esolution du probl `eme de la pr ´e-image. Nous d ´erivons des mod `eles pr ´edictifs non-lin ´eaires, d’une part par la mise en œuvre de la m ´ethode des moindres carr ´es dans l’espace fonctionnel, d’autre part en tirant pleinement avantage des ´equations de Yule-Walker. Cette derni `ere d ´erivation conduit `a l’estimation des param `etres du mod `ele en utilisant l’esp ´erance des noyaux. Il est `a noter que l’id ´ee de l’esp ´erance des noyaux a montr ´e son efficacit ´e tr `es r ´ecemment dans d’autres domaines applicatifs, voir par exemple [AGSJ11,AG11].

La mod ´elisation non-lin ´eaire et la pr ´ediction n’ont pas encore tir ´e pleinement du profit des progr `es r ´ecents dans le domaine de l’apprentissage statistique, m ˆeme si plusieurs essais ont ´et ´e faits pour d ´evelopper des techniques non-lin ´eaires pour l’analyse des s ´eries temporelles, telles que la r ´egression `a vecteurs de support [Vap98], le filtre de Kalman `a noyau [RDB05] et la pr ´ediction en ligne avec les noyaux [RBH09]. Tr `es peu de tentatives ont ´et ´e faites pour aborder le mod `ele AR non-lin ´eaire en apprentissage.

3.2. S ´eries temporelles 57

Un premier travail dans cette direction, pr ´esent ´e par Kumar et al. [KJ07] propose un mod `ele AR dans l’espace fonctionnel, cependant, sans la capacit ´e de pr ´edire les ´echantillons futurs. Trois mod `eles sont `a l’ ´etude dans ce chapitre. Le premier mod `ele est bas ´e sur l’id ´ee sous-jacente des m ´ethodes `a noyaux, `a savoir la transformation des donn ´ees. En appliquant un mod `ele AR sur les ´echantillons transform ´es, la pr ´ediction est d ´efinie dans l’espace RKHS. Pour interpr ´eter l’ ´echantillon pr ´edit, il est n ´ecessaire de faire le retour inverse `a l’espace des observations, `a savoir l’espace des ´echantillons, par la r ´esolution du probl `eme de la pr ´e-image. Ensuite, nous proposons de contourner le probl `eme de la pr ´e-image, en d ´erivant deux autres mod `eles. Dans le deuxi `eme mod `ele, nous consid ´erons le mod `ele AR sur les valeurs obtenues en consid ´erant le noyau choisi. Cette consid ´eration conduit `a une r ´esolution plus grossi `ere du probl `eme. Dans le troisi `eme mod `ele, nous proposons une formulation hybride, comme un compromis entre les mod `eles pr ´ec ´edents, `a savoir entre le mod `ele it ´eratif, affin ´e, et le mod `ele direct, g ´en ´eral, ´evalu ´e sur le noyau.

Dans ce chapitre, nous pr ´esentons les s ´eries temporelles, en d ´efinissant quelques propri ´et ´es im-portantes utilis ´ees pour l’analyse. Ensuite, le mod `ele autor ´egressif est d ´efini en utilisant la m ´ethode des moindres carr ´es, ainsi qu’ `a partir des ´equations de Yule-Walker. Une extension de ce mod `ele pour l’ana-lyse des s ´eries temporelles issues de syst `emes non-lin ´eaires est propos ´ee `a l’aide des m ´ethodes `a noyaux. Les trois techniques AR non-lin ´eaires d ´ecrites ci-dessus sont d ´etaill ´ees dans ce chapitre. Fina-lement, la pertinence de la technique autor ´egressive- `a-noyaux est illustr ´ee en l’appliquant `a des s ´eries temporelles unidimensionnelles et multidimensionnelles [MOG97,Wan]. Commenc¸ons tout d’abord par une introduction sur les s ´eries temporelles.

3.2 S ´eries temporelles

Une s ´erie temporelle est une suite de valeurs num ´eriques repr ´esentant l’ ´evolution d’une quantit ´e sp ´ecifique au cours du temps. De telles suites de valeurs peuvent ˆetre exprim ´ees math ´ematiquement afin d’en analyser le comportement [Mad08], g ´en ´eralement pour comprendre leur ´evolution pass ´ee et souvent pour en pr ´evoir leur comportement futur. Une telle transposition math ´ematique utilise le plus souvent des concepts de probabilit ´es et de statistique.

D ´efinition 3.1. (S ´erie temporelle) Une s ´erie temporelle, {xt, t = 1,2, . . . , n}, est une suite finie

d’ob-servations r ´eelles d’un ph ´enom `ene donn ´ex, index ´ees par une datet.

La suite d’observations correspondant `a une m ˆeme variable d ´ecrit une s ´erie temporelle. La s ´erie est caract ´eris ´ee par sa variation en fonction du temps. L’instant auquel l’observation est prise correspond `a une information importante pour d ´ecrire le syst `eme. Nous pouvons calculer les statistiques descriptives usuelles : moyenne, variance, coefficients d’aplatissement et d’asym ´etrie. La Figure 3.1 montre trois s ´eries temporelles, `a gauche deux s ´eries des indices du prix de l’once d’or en dollars et en euros, entre les ann ´ees1998et2011, et `a droite une s ´erie d’un enregistrement d’ ´electrocardiogramme.

0 10 20 30 40 50 60 70 −2 −1 0 1 2 3 4 5 6 7 8

FIGURE3.1: Exemples de s ´eries temporelles statistique `a gauche et ´electrocardiogramme `a droite

3.2.1 Processus stochastique

La premi `ere ´etape de l’analyse d’une s ´erie temporelle est la s ´election d’un mod `ele math ´ematique appropri ´e pour les donn ´ees. Il est naturel de supposer que chaque observation xt est une r ´ealisation d’une certaine variable al ´eatoire [BD09]. Nous avons besoin de d ´efinir pr ´ecis ´ement ce qu’on entend par processus stochastique et ses r ´ealisations.

D ´efinition 3.2. (Processus stochastique) Un processus stochastique (ou al ´eatoire) est une famille de

variables al ´eatoires{xt, t= 1,2, . . . , n}d ´efinies sur le m ˆeme espace de probabilit ´e.

Remarque 3.1. Dans l’analyse des s ´eries temporelles, l’ensemble {t = 1,2, . . . , n}est un ensemble

repr ´esentant le temps, tr `es souvent{0,±1,±2,· · · },{1,2,3,· · · }. Les processus stochastiques pour

lesquels l’ensemble repr ´esentant le temps n’est pas un sous-ensemble deIRont ´egalement une

impor-tance, comme pour le cas des processus stochastiques g ´eophysiques.

Nous passons maintenant `a d ´efinir quelques propri ´et ´es des s ´eries temporelles. Nous parlerons de la stationnarit ´e et de l’ergodicit ´e.

3.2.2 Propri ´et ´es des s ´eries temporelles

Lors du travail avec un nombre fini de variables al ´eatoires, il est souvent utile d’ ´evaluer la ma-trice de covariance pour mieux comprendre la d ´ependance des donn ´ees. Pour une s ´erie temporelle {xt, t = 1,2, . . . , n}, l’id ´ee de la matrice de covariance est ´etendue `a des collections infinies de va-riables al ´eatoires. La fonction d’autocovariance nous fournit cette extension n ´ecessaire pour une s ´erie temporelle. Nous d ´esignons parIE[·]l’esp ´erance. Il est `a noter que toutes les esp ´erances dans ce docu-ment sont prises sur le tempst.

3.3. Pr ´ediction des s ´eries temporelles avec un mod `ele autor ´egressif 59

D ´efinition 3.3. (Fonction d’autocovariance) Si{xt, t = 1,2, . . . , n}est un processus de variance finie,

alors sa fonction d’autocovarianceγx(·,·)est d ´efinie par

γx(r, s) =Cov(xr, xs) = IEh xr−IE[xr]

xs−IE[xs]i

, pour r, s∈ {1,2, . . . , n}. D ´efinition 3.4. (Stationnarit ´e) Le processus{xt, t= 1,2, . . . , n}de moyenne constante, est dit station-naire si

IE[xt]2<∞ pour toutt∈ {1,2, . . . , n},

γx(r, s) =γx(r+t, s+t) pour toutr, s, t∈ {1,2, . . . , n}.

Remarque 3.2. La stationnarit ´e comme d ´efinie ci-dessus est souvent connue sous le nom de stationna-rit ´e au sens large, ou stationnastationna-rit ´e de second degr ´e. Dans la pratique, le terme stationnastationna-rit ´e fait r ´ef ´erence

`a la D ´efinition3.4.

Une autre notion de stationnarit ´e, importante et fr ´equemment utilis ´ee, la stationnarit ´e au sens strict, est donn ´ee par la d ´efinition suivante.

D ´efinition 3.5. (Stationnarit ´e au sens strict) Le processus {xt, t = 1,2, . . . , n} est dit un processus

stationnaire au sens strict si les distributions conjointes de(xt1,· · · , xtk)et(xt1+h,· · ·, xtk+h)sont les

m ˆemes pour tous lest1,· · · , tk, h∈ {1,2, . . . , n}.

La stationnarit ´e au sens strict signifie intuitivement que les r ´ealisations de la s ´erie temporelle, sur deux intervalles de temps diff ´erents, doivent pr ´esenter des caract ´eristiques statistiques similaires. D ´efinition 3.6. (Ergodicit ´e) Un processus stochastique{xt, t= 1,2, . . . , n}est dit ergodique si toutes les moyennes temporelles existent et ont m ˆeme valeur ind ´ependamment de l’instant choisi.

Cette notion d’ergodicit ´e est tr `es importante du fait que pratiquement, pour ´evaluer les moyennes sta-tistiques, l’on ne dispose g ´en ´eralement que d’un ´echantillon sur lequel on estime une moyenne tempo-relle. Cette d ´efinition n’a de valeur que si le processus stochastique ´etudi ´e est stationnaire et ergodique.

3.3 Pr ´ediction des s ´eries temporelles avec un mod `ele autor ´egressif

Dans cette partie, nous d ´ecrivons le mod `ele autor ´egressif. Il est utilis ´e pour la pr ´ediction et la mod ´elisation des s ´eries temporelles. Soit la s ´erie temporellex1, x2,· · ·, xn.

D ´efinition 3.7. (Processus autor ´egressif) Un processus est dit autor ´egressif (AR) d’ordre p s’il existe

α1, . . . , αp ∈IRtel que xt = α1xt−12xt−2+. . .+αpxt−pt = p X j=1 αjxt−jt (3.1)

FIGURE3.2: Sch ´ema illustratif du mod `ele

AR, o `u xt est d ´efini par une

combinai-son lin ´eaire de p ´echantillons pr ´ec ´edents

xt−1, xt−2, . . . , xt−p, avec les param `etres

α1, α2, . . . , αpcomme ´etant ses coefficients.

xt xt−1 xt(p1) xtp α1 αp αp−1

Le processus autor ´egressif est donc caract ´eris ´e par son order p, et les param `etres α1, α2,· · · , αp qui d ´ecrivent la combinaison lin ´eaire. Il est bas ´e sur la pr ´ediction d’un ´echantillon `a partir d’un certain nombre d’ ´echantillons de son pass ´e, suivant une simple combinaison lin ´eaire [Tsa05]. Bien que son prin-cipe est simple, le mod `ele AR est largement utilis ´e en mod ´elisation et pr ´ediction de s ´eries temporelles. La Figure3.2illustre l’id ´ee du mod `ele autor ´egressif.

Diff ´erentes m ´ethodes ont ´et ´e propos ´ees dans la litt ´erature pour le calcul des param `etres du mod `ele. Nous citons les ´equations de Yule-Walker qui seront ´etudi ´ees dans le chapitre suivant, la technique de Levinson-Durbin, la m ´ethode des moindres carr ´es...

3.3.1 M ´ethode des moindres carr ´es

Dans cette section, nous d ´etaillons la m ´ethode des moindres carr ´es. Cette m ´ethode cherche `a mini-miser l’erreur quadratique de pr ´ediction entre la vraie valeur de la s ´erie et la valeur pr ´edite, `a savoir

n X t=p+1 xtp X j=1 αjxt−j 2 .

Pour aboutir aux valeurs optimales desαk recherch ´ees, nous proc ´edons par le calcul de la d ´eriv ´ee de cette expression par rapport `aα1, α2, . . . , αp. En d ´efinissant le vecteur α = [α1α2 · · ·αp] desp

param `etres `a estimer, ces param `etres sont estim ´es selon

α= n X t=p+1 xtxt −1 Xn t=p+1 xtxt,

o `uxtcomprend lesp ´echantillons pr ´ec ´edents, `a savoirxt= [xt−1xt−2 . . . xt−p].

3.3.2 Equations de Yule-Walker´

Nous passons maintenant `a d ´etailler les ´equations de Yule-Walker utilis ´ees pour l’estimation des coefficientsα. Les param `etresα1, α2, . . . , αp sont directement li ´es `a la fonction de covariance du pro-cessus. Nous d ´eterminons alors ces param `etres `a partir de la fonction d’autocovariance. C’est l’essence m ˆeme des ´equations de Yule-Walker, comme illustr ´e ci-dessous.

3.4. Mod `ele autor ´egressif `a noyaux pour la pr ´ediction des s ´eries temporelles 61

Soitµl’esp ´erance desxt, c’est- `a-dire

µ= IE[xt].

En appliquant l’esp ´erance sur les deux membres de l’ ´equation (3.1), nous avons alors l’expression de l’esp ´erance du bruit, selon (1 −Pp

j=1αj)µ = IE[εt]. Pour tout d ´ecalage positif τ, nous ´evaluons la fonction d’autocovariance de chaque s ´erie temporelle. Soitr(·)la contrepartie empirique de la fonction d’autocorrelation de la s ´erie temporelle, alorsr(τ) =Pp

j=1αjr(τ −j), pour tout d ´ecalageτ. Puisque la fonction d’autocorrelation est paire, i.e., r(−τ) = r(τ), nous obtenons sous forme matricielle les

´equations de Yule-Walker

r=R α,

o `urest un vecteur regroupant lespfonctions d’autocorrelation empiriques pour tout d ´ecalageτ entre1 etp, `a savoir,r = [r(1) r(2) · · · r(p)]⊤, etRrepr ´esente une matrice des fonctions d’autocorrelation empiriques pour les d ´ecalagesτ entre0etp−1, donn ´ee par

R=       r(0) r(1) . . . r(p−1) r(1) r(0) . . . r(p−2) .. . ... . . . ... r(p−1) r(p−2) . . . r(0)       .

En supposant que la matrice sym ´etriqueRde taillep×pest inversible, les coefficientsαsont estim ´es par le produit entre l’inversion de la matriceRet le vecteurr, selonα=R1r.

Apr `es avoir d ´etermin ´e les param `etres α1, α2,· · · , αp, le mod `ele AR d’order p permet de pr ´edire directement un futur ´echantillon, selon l’ ´equation (3.1) pour t = n+ 1 (et au del `a). Bien que cette technique r ´eussisse `a pr ´edire les futurs ´echantillons issus de syst `emes lin ´eaires, elle n’est pas adapt ´ee aux syst `emes non-lin ´eaires.

3.4 Mod `ele autor ´egressif `a noyaux pour la pr ´ediction des s ´eries

tempo-relles

Nous passons maintenant `a ´etendre le concept du mod `ele autor ´egressif pour des donn ´ees des syst `emes non-lin ´eaires. Dans le m ˆeme esprit et par le biais des m ´ethodes `a noyaux, nous proposons d’ ´etendre le mod `ele AR `a une approche non-lin ´eaire dans un RKHS, en appliquant `a chaque ´echantillon une transformation non-lin ´eaire.

3.4.1 Mod `ele autor ´egressif dans l’espace fonctionnel

Consid ´erons une fonction non-lin ´eaireΦ(·)de l’espace des observationsX `a l’espace RKHS qui, `a chaquext, fait correspondre son imageΦ(xt). Le mod `ele AR d ´ecrit dans le RKHS est alors donn ´e par

Φ(xt) =

p X

j=1

αjΦ(xt−j) +εΦt, (3.2)

o `u εΦt repr ´esente un bruit dans l’espace fonctionnel. Soit ϕt = [Φ(xt−1) Φ(xt−2) · · · Φ(xt−p)] le vecteur regroupant les transform ´ees, par la fonctionΦ(·), desp ´echantillons pr ´ec ´edents `a xt. Nous

´ecrivons le mod `ele non-lin ´eaire sous la forme matricielle Φ(xt) =ϕtα.

Nous ´etudions deux m ´ethodes pour estimer les coefficientsα, d’une part la minimisation de la distance quadratique dans l’espace fonctionnel, et d’autre part les ´equations de Yule-Walker dans cet espace fonctionnel.

3.4.1.1 Minimisation de la distance quadratique dans l’espace fonctionnel

En se basant sur la m ´ethode des moindres carr ´es pr ´esent ´ee dans le paragraphe3.3.1, nous minimi-sons l’erreur quadratique moyenne, dans l’espace fonctionnel, entre la fonction pr ´editePp

j=1αjΦ(xt−j) et la vraie fonction de l’imageΦ(xt). Ainsi le crit `ere cit ´e ci-dessus sera-il d ´efini par :

min α n X t=p+1 Φ(xt)− p X j=1 αjΦ(xt−j) 2 H,

o `u k · kH d ´esigne la norme dans l’espace en question. En utilisant l’ ´ecriture matricielle, nous obte-nonsPnt=p+1(hϕtα,ϕtαiH−2hϕtα,Φ(xt)iH+hΦ(xt),Φ(xt)iH). En d ´erivant l’expression de l’er-reur quadratique par rapport `aα, et en annulant sa d ´eriv ´ee, nous aboutissons aux valeurs optimales des param `etres avec

α = n X t=p+1tti1 n X t=p+1t,Φ(xt)iH.

Il est clair que cette expression n’implique que le produit scalaire entre les couples d’images par la fonction non-lin ´eaireΦ(·)des donn ´ees, d ´efinis parΦ(x1),Φ(x2), . . . ,Φ(xn), ce qui permet de l’ ´evaluer en utilisant simplement une fonction noyauκ(xt, xi) =hΦ(xt),Φ(xi)iH.

3.4.1.2 Equations de Yule-Walker dans l’espace fonctionnel´

Nous passons maintenant `a une autre technique pour l’estimation des coefficientsαdans l’espace fonctionnel. Cette technique est bas ´ee sur les ´equations de Yule-Walker dans le RKHS, et tient compte

3.4. Mod `ele autor ´egressif `a noyaux pour la pr ´ediction des s ´eries temporelles 63 xt−1 xt−2 xt−p+1 xt−p x∗ t Φ(·) Φ(xt−1) Φ(xt−2) Φ(xt−p+1) Φ(xt−p) αp αp−1 α1 α2 ψt= p X j=1 αjΦ(xt−j) ? X H

FIGURE3.3: Sch ´ema illustrant le mod `ele AR- `a-noyaux : les ´echantillons sont transform ´es de l’espace des

donn ´eesX `a l’espace fonctionnelH, o `u le mod `ele AR est appliqu ´e sur les ´echantillons transform ´es. Une

fois que la fonction ψt est estim ´ee, il est n ´ecessaire de faire le retour inverse `a l’espace des donn ´ees

X, afin de trouver la pr ´ediction xt. Une technique de pr ´e-image est alors n ´ecessaire pour pr ´edire les

nouveaux ´echantillons dans l’espace initial.

de l’id ´ee d ´ecrite dans le paragraphe3.3.2. Bien que les ´echantillonsxtsont suppos ´es de moyenne nulle dans l’espace des observations, ce n’est pas le cas pour les imagesΦ(xt)dans l’espace fonctionnel.

SoitµΦl’esp ´erance des fonctionsΦ(xt)dans l’espace fonctionnel, `a savoir

µΦ= IE[Φ(xt)].

En calculant l’esp ´erance des deux membres de l’ ´equation (3.5), nous obtenons une expression de l’esp ´erance de l’erreur donn ´ee par (1−Pp

j=1αjΦ = IE[εΦt], sous l’hypoth `ese de stationnarit ´e du processus. D’un autre c ˆot ´e, nous d ´efinissons les fonctions centr ´ees dans l’espace fonctionnel par

Φ(xt)−µΦ = p X j=1 αjΦ(xtj) +εΦt −µΦ = p X j=1 αj Φ(xt−j)−µΦΦt1− p X j=1 αj µΦ.

En couplant ces r ´esultats, et en consid ´erant le produit scalaire dans l’espace fonctionnel entre les deux membres de l’ ´equation ci-dessus d’une part, et le terme(Φ(xt−τ)−µΦ)d’autre part, pour un d ´ecalage

positifτ, nous aboutissons `a hΦ(xt)−µΦ,Φ(xt−τ)−µΦi=hεΦt −IE[εΦt],Φ(xt−τ)−µΦi+ p X j=1 αjhΦ(xt−j)−µΦ,Φ(xt−τ)−µΦi. (3.3) Par analogie avec le mod `ele AR lin ´eaire, nous supposons que le bruitεΦ

t et la fonctionΦ(xtτ)sont non corr ´el ´es pour tout d ´ecalage positifτ. Par suite, en consid ´erant l’esp ´erance de l’expression (3.3) et sous l’hypoth `ese de la stationnarit ´e de la s ´equence, nous avons pour tout d ´ecalageτ sup ´erieur ou ´egal `a1

IE[κc(xt, xtτ)] =

p X

j=1

αjIE[κc(xtj, xtτ)], (3.4)

o `uκc(·,·) est la version centr ´ee du noyauκ(·,·), d ´efinie par le produit scalaire des fonctions centr ´ees, comme suit

κc(xi, xj) =hΦ(xi)−µΦ,Φ(xj)−µΦi.

Finalement, nous consid ´erons toutes les valeurs possibles du d ´ecalage, et nous ´ecrivons l’expression de l’ ´equation (3.4) sous forme matricielle, avec

rκc =Rκcα,

o `u rκc regroupe lesp valeurs des esp ´erances des noyaux centr ´es pour les d ´ecalages entre1et p, `a savoir,

rκc=hIE[κc(xt, xt−1)] IE[κc(xt, xt−2)] · · · IE[κc(xt, xt−p)]i,

etc est la matrice d ´efinie par les esp ´erances des noyaux, selon

Rκc =      

IE[κc(xt, xt)] IE[κc(xt, xt−1)] · · ·IE[κc(xt, xt−p+1)] IE[κc(xt, xt1)] IE[κc(xt, xt)] · · ·IE[κc(xt, xtp+2)]

..

. ... . . . ...

IE[κc(xt, xt−p+1)] IE[κc(xt, xt−p+2)]· · · IE[κc(xt, xt)]       .

Le vecteur des coefficientsα, obtenu en inversant cette matrice, est donn ´e par α=Rκc1rκc.

En pratique, les esp ´erances sont estim ´ees sur un ensemble den ´echantillons disponibles [CMR12]. La version centr ´ee du noyau est ´evalu ´ee `a partir de

κc(xi, xj) =κ(xi, xj)− 1 n n X k=1 κ(xi, xk)− 1 n n X k=1 κ(xj, xk) + 1 n2 n X k,k′=1 κ(xk, xk).

3.4. Mod `ele autor ´egressif `a noyaux pour la pr ´ediction des s ´eries temporelles 65

3.4.2 Le probl `eme de la pr ´e-image comme technique de pr ´ediction

Une fois que les observations ont ´et ´e transform ´ees vers le RKHS, et les param `etres d ´etermin ´es, nous pouvons alors pr ´edire un ´el ´ement `a partir de son pass ´e, avec

ψt=

p X

j=1

αjΦ(xtj). (3.5)

Comme illustr ´e dans la Figure 3.3, cet ´el ´ement appartient `a l’espace engendr ´e par les images des p

pr ´ec ´edents ´echantillons, une interpr ´etation est n ´ecessaire dans le domaine des ´echantillons. Alors que la fonctionΦ(·)permet de passer de ce domaine au RKHS, la fonction inverse n’existe pas dans le cas g ´en ´eral. C’est le probl `eme de la pr ´e-image en m ´ethodes d’apprentissage `a noyaux d ´ecrit dans la section

Documents relatifs