• Aucun résultat trouvé

Prévision d’un processus à valeurs fonctionnelles en présence de non stationnarités. Application à la consommation d’électricité

N/A
N/A
Protected

Academic year: 2022

Partager "Prévision d’un processus à valeurs fonctionnelles en présence de non stationnarités. Application à la consommation d’électricité"

Copied!
27
0
0

Texte intégral

(1)

Vol. 153No. 2 (2012)

Prévision d’un processus à valeurs fonctionnelles en présence de non stationnarités. Application à la

consommation d’électricité.

Title:Forecasting non stationary function-valued process. Application to the electricity load demand.

Anestis Antoniadis1, Xavier Brossat2, Jairo Cugliari3 et Jean-Michel Poggi4

Résumé :Nous traitons le problème de la prévision d’un processus stochastique à valeurs fonctionnelles. Nous commençons par étudier le modèle proposé par Antoniadis et al. (2006) dans le cadre d’une application pratique -la demande d’énergie électrique en France- où l’hypothèse de stationnarité semble ne pas se vérifier. Le caractère non stationnaire est double : d’une part, le niveau moyen de la série change dans le temps, d’autre part il existe des groupes dans les données qui peuvent être vus comme des classes de stationnarité.

Nous explorons diverses variantes et corrections qui améliorent la performance de prédiction. Les corrections visent à prendre en compte la présence de ces caractéristiques non stationnaires. En particulier, pour prendre en compte l’existence de groupes, nous avons contraint le modèle de prévision à n’utiliser que les données qui appartiennent au même groupe que celui de la dernière observation disponible. Si le groupe est connu, un simple post-traitement suffit pour obtenir des meilleures performances de prédiction.

Abstract:We study here the problem of predicting a functional valued stochastic process. We first explore the model proposed by Antoniadis et al. (2006) in the context of a practical application -the french electrical power demand- where the hypothesis of stationarity may fail. The departure from stationarity is twofold: an evolving mean level and the existence of groups that may be seen as classes of stationarity.

We explore some corrections that enhance the prediction performance. The corrections aim to take into account the presence of these nonstationary features. In particular, to handle the existence of groups, we constraint the model to use only the data that belongs to the same group of the last available data. If one knows the grouping, a simple post-treatment suffices to obtain better prediction performances.

Mots-clés :Prévision non paramétrique, Données fonctionnelles, Non stationnaire, Consommation d’électricité Keywords:Nonparametric forecasting, Functional data, Non stationarity, Electricity load curve

Classification AMS 2000 :62G08, 62M20, 62P30

1 Université Joseph Fourier, Laboratoire LJK, Tour IRMA, BP53, 38041 Grenoble Cedex 9, France E-mail :anestis.antoniadis@imag.fr

2 EDF R&D, 1 avenue du Général de Gaulle, 92141 Clamart Cedex, France E-mail :xavier.brossat@edf.fr

3 Inria Select, Univérsité Paris Sud, Bât. 425, 91405 Orsay Cedex, France E-mail :Jairo.Cugliari@math.u-psud.fr

4 Université Paris Descartes, Université Paris Sud, Bât. 425, 91405 Orsay Cedex, France E-mail :Jean-Michel.Poggi@paris-descartes.fr

(2)

1. Introduction.

Notre point de départ est une application industrielle en vraie grandeur. Le but est de prévoir la demande d’électricité de l’opérateurEDF(Électricité de France) d’un jour pour tout moment de la journée du lendemain. Sur le plan économique, des bonnes prévisions sont nécessaires pour réduire les coûts de production et profiter des opportunités du marché.

S’il est évident qu’à chaque instant de la journée, il existe un niveau de consommation élec- trique, les mesures dont on dispose ne sont prises qu’au pas demi-horaire et pas en temps continu.

En général, seul cet échantillonnage est pris en compte dans les modèles de prévision. Néan- moins, nous pouvons nous poser la question de la pertinence de considérer la structure continue sous-jacente aux données. Nous nous plaçons dans le contexte de la prévision d’un processus stochastique à temps continu,X= (X(t),t∈R). Étant donnée une trajectoire deXobservée sur l’intervalle[0,T]à une fréquence relativement haute, nous sommes intéressés par la prévision du comportement deX sur tout l’intervalle[T,T+δ], avecδ >0, plutôt qu’en certains instants.

Pour ce faire, Bosq (1991) propose de diviser l’intervalle[0,T]en sous-intervalles de la forme [(l−1)δ,lδ],l=1, . . . ,n, oùδ =T/n, et de considérer le processus stochastiqueZ= (Zi;i∈N) oùN={1,2, . . . ,n}, défini de la façon suivante

Zi(t) =X{t+ (i−1)δ} i∈N, t∈[0,δ].

Ce découpage est particulièrement utile quand le processusX présente un cycle saisonnier de périodeδ. Dans ce cas, cette procédure peut rendre raisonnable l’hypothèse de stationnarité du processus fonctionnel Z puisque nous ne faisons pas d’hypothèse de stationnarité sur le comportement “à l’intérieur” de chaque fonction aléatoireZi,i∈N. Alors, le problème de prévision posé équivaut à prévoirZn+1étant données les observations fonctionnellesZ1, . . . ,Zn.

Les objets mathématiques à traiter imposent l’adaptation de méthodes de prévision classiques à des variables aléatoires de dimension infinie. Pendant les deux dernières décennies, l’utilisation des variables aléatoires à valeurs fonctionnelles a reçu un intérêt croissant dans la littérature.

Ramsey et Dalzell (1991) ont forgé le termeAnalyse des Données Fonctionnellespour englober l’ensemble des méthodes et techniques traitant des variables aléatoires fonctionnelles. Citons comme référence les ouvrages de Ramsay et Silverman (1997, 2002) qui donnent une introduction détaillée des aspects tant théoriques que pratiques pour les cas des données indépendantes et identiquement distribuées. Le cas des données dépendantes est abordé dans Bosq (2000) par l’étude des processus linéaires et en particulier le processus Autoregressif Hilbertien (ARH).

SiZest un processus centréARH(1) d’ordre 1, un prédicteur deZn+1étant donné l’historique Zn,Zn−1, . . . ,Z1est

Zen+1=E(Zn+1|Zn,Zn−1, . . . ,Z1) =ρ(Zn) (1)

oùρ est un opérateur linéaire borné associé au processus ARH(1). De cette manière, on peut prévoirZn+1si on peut avoir une manière efficace d’estimer l’opérateurρ. Une stratégie alter- native consiste en estimer directement la fonctionρ(Zn)à partir de l’information contenue dans l’historiqueZn,Zn−1, . . . ,Z1.

Or, dans certaines applications de la vie réelle cette modélisation peut s’avérer trop restrictive.

C’est le cas de la consommation journalière d’électricité où les transitions entre les jours successifs sont plus riches que celles décrites par le modèleARH.

(3)

Antoniadiset al.(2006) proposent un modèle plus général pour le processus fonctionnelZ, dans lequel chaque élémentZkdépend des valeurs retardées de la variable endogène au travers d’un opérateur non paramétriquem. Si l’on dispose d’une estimation demobtenue à partir des observationsZ1, . . . ,Zn, alors la prévision deZn+1 est donné par l’évaluation de l’estimation de m dans la dernière valeur observée Zn. L’estimation de mpeut s’obtenir en utilisant des méthodes non paramétriques plus ou moins classiques, comme par example l’estimateur à noyau de Nadaraya-Watson. Pour éviter le problème de la dimension infinie de chaque segment, ils utilisent la transformée discrète en ondelettes (DWT pour Discrete Wavelet Transform) pour représenter les trajectoires sur les segments temporels. Sous des hypothèses assez générales, les auteurs prouvent le bien fondé théorique de leur méthode de prévision avec quelques expériences numériques préliminaires.

Dans ce papier nous montrons que, même en adaptant soigneusement la méthode aux particula- rités les plus importantes des données, elle ne peut pas être utilisée telle quelle sur l’application industrielle que nous intéresse. Nous trouvons l’origine du problème dans l’hypothèse de stationna- rité du processus fonctionnel qui n’est pas vérifiée sur les données de consommation d’électricité française. D’une part, le niveau moyen de la série change dans le temps présentant en hiver sa plus grande variabilité, ce qui est d’autant plus grave que c’est sur cette période que les erreurs coûtent le plus cher car le prix de production est plus élevé. D’autre part il existe des groupes des jours qui ont une structure de consommation très différente d’autres groupes de jours. Nous explorons dans l’article diverses variantes et corrections à la méthode d’origine qui permettent de fournir de prévisions fonctionnelles de grande qualité même en présence de ce type de non stationnarités.

La Section 2 de cet article lie le modèle de prévision basé sur la régression à noyau d’un processus unidimensionnel avec celle d’un processus fonctionnel au travers de la transformée en ondelettes. De plus, nous mettons en évidence le rôle de chacun des paramètres du prédicteur. La Section 3 est dédiée à des aspects industriels. Nous y présentons la problématique des données de la consommation d’électricité au travers d’une description des principales caractéristiques des données et d’une courte bibliographie des méthodes de prévision alternatives. Ensuite, dans la Section 4 on applique, après les premières adaptations nécessaires, la méthode d’origine pour prévoir la consommation d’électricité à tout moment de la journée du jour pour le lendemain.

Elle nous servira de référence à améliorer et l’analyse de ses performances fondera le choix des modifications à apporter aux modèles. Ainsi, dans la Section 5, des extensions et des corrections sont proposées de sorte que les données d’électricité soient raisonnablement compatibles avec les hypothèses du modèle prédictif. Une analyse détaillée et motivée des gains apportés par chacune des corrections est menée.

2. Prévision par régression à noyau : du cas univarié au cas fonctionnel.

Dans cette section nous rappelons la construction du prédicteur proposé dans Antoniadiset al.

(2006). Tout d’abord, nous rappelons le cas d’un processus univarié. Ensuite, nous rappelons les éléments de la transformée discrète en ondelettes, nécessaires pour la représentation des trajectoires d’un processus fonctionnel. Puis, le prédicteur pour un processus fonctionnel est introduit. Enfin, nous discutons du réglage des paramètres du prédicteur (pour une discussion plus détaillée, voir Cugliari (2011)).

(4)

2.1. Le cas des processus univariés.

Considérons un processus stochastique stationnaire à valeurs réelles à temps discretY= (Yi,i∈N).

Si l’on suppose que le processus vérifie la propriété de Markov, on peut écrire pour un entierd E[Yn|Yn−1, . . . ,Y0] =E[Yn|Yn−1, . . . ,Yn−d].

Nous allons noterYn,d = (Yn,Yn−1, . . . ,Yn−d+1). Nous supposons le modèle suivant pour le processus

Yn+1=m(Yn,d) +εn,

oùm(y) =E(Yn+1|Yn,d=y)avecy∈Rdet(εn,n∈N)est un processusd-dimensionnel de bruit blanc (i.e. une suite de variables aléatoires réelles avecEεn=0 pour toutn∈NetE(εiεj) =σ2 sii= jetE(εiεj) =0 sinon) indépendant deYn,d.

Nous sommes intéressés par le comportement futur deY à l’horizon 1,Yn+1, étant données les observationsY1, . . . ,Yn, pourn>d. Nous appelonsYen+1le prédicteur deYn+1construit à partir de ces observations. Un critère pour l’obtenir est de minimiser l’erreur quadratique moyenne, c’est-à-dire prendreYen+1=y0, oùy0est l’argument qui minimisey7→E[(y−Yn+1)2|Yn,d]. La solution s’avère êtrey0=m(Yn,d). Bien sûr ceci n’est pas un prédicteur statistique car il dépend de la loi inconnue du processus sous-jacent.

Commemest une espérance conditionnelle (au moins pour toutydans le support de la densité f du vecteurYn,d), il est habituel de l’estimer par une technique non paramétrique car la régression entreYn+1etYn,d peut être non linéaire et assez complexe. Nous allons utiliser un estimateur de Nadaraya-Watson appelé estimateur à noyau (voir par example Härdle (1990)).

L’estimateur à noyaumbndempeut s’écrire

mcn(y) =

n−1

i=d

wn,i(y)Yi+1,

oùwn,i(y) = Khn(Yi,d−y)

n−1t=dKhn(Yi,d−y) avecKhn(.) =K(./hn), hn>0 est le noyau K:Rd 7→Rest, pour simplifier, une fonction de densité de probabilité multivariée symétrique autour de l’origine. Le prédicteur à noyau s’en déduit

Ydn+1=mbn(Yn,d).

Les{wn,i,i=1, . . . ,n−1}sont des quantités positives dont la somme fait 1. Ainsi, la prévision à l’horizon 1 du processusY étant donné l’historique s’écrit

Ydn+1=

n−1

t=d

wn,i(Yn,d)Yi+1,

et peut être vue comme un barycentre des futurs d’horizon 1 des blocs du passé pondérés par la similarité entre le bloc présent et ses homologues dans le passé (Poggi (1994)). Ainsi, le poids de chaque blocYi,dest croissant avec sa similarité par rapport au bloc actuelYn,d, l’idée étant que des passés semblables ont des futurs similaires.

Pour un échantillon de taillendonnée, la quantitéhnappeléelargeur de fenêtreest cruciale pour la performance de la méthode (Härdle (1990)). Elle est un compromis entre le biais et la variance

(5)

de l’estimateur. Une valeur trop faible conduira à un estimateur très local et en conséquence avec une variabilité importante. Si l’on considère des valeurs de plus en plus grandes (on dit alors qu’on élargit la fenêtre), on permet à de plus en plus d’observations de contribuer à l’estimation ce qui diminue la variance mais peut conduire à un estimateur plus biaisé. Le réglage de ce paramètre se fait habituellement par validation croisée.

2.2. Transformée en ondelettes.

LaTransformée en Ondelettes est une technique de décomposition hiérarchique des signaux d’énergie finie qui permet de représenter un signal dans le domaine temps-échelle, où l’échelle joue un rôle analogue à celui de la fréquence dans l’analyse de Fourier (Mallat (1999)). Elle permet de décrire une fonction à valeurs réelles au travers de deux objets : une approximation de cette fonction et un ensemble de détails. La partie approximation résume la tendance globale de la fonction, alors que les changements localisés (en temps et fréquence) sont capturés dans les composantes de détails à différentes résolutions.

L’analyse des signaux est réalisée par des fonctions analysantes appeléesondelettesobtenues à partir de transformations simples d’uneondelette mère. Une ondelette est une fonction assez régulière, oscillante dans le domaine temporel avec une rapide décroissance vers zero et elle est localisée dans le domaine fréquentiel et le domaine temporel.

Dans la suite, notre attention sera portée par des fonctions définies sur un intervalle compact qui, sans perte de généralité, sera[0,1].

Nous définissons des versions périodiques de l’ondelette mèreψPet de la fonction d’échelle φP(associé à une analyse multirésolution deL2([0,1])),

φ(t) =

l∈Z

φP(t−l) et ψ(t) =

l∈Z

ψP(t−l), t∈[0,1], et des versions dilatées et translatées deφetψ définies par

φj,k(t) =2j/2φ(2jt−k), ψj,k(t) =2j/2ψ(2jt−k).

Enfin, pour tout j0∈Z, la collection suivante fournit une base orthonormale de l’espaceL2([0,1]), {φj0,k,k=0,1, . . . ,2j0−1;ψj,k,j≥ j0,k=0,1, . . . ,2j−1}.

En conséquence, toutz∈L2([0,1])admet un développement en ondelettes de la forme z=

k∈Z

cj0,kφj0,k+

j≥j0

k∈Z

dj,kψj,k, (2)

où les coefficients sont définis par

cj,k=<z,φj,k> etdj,k=<z,ϕj,k>,

et on les appelle respectivementcoefficients d’approximation (ou d’échelle)etcoefficients d’onde- lettes (ou de détails)associés à l’échelle jet la positionk.

Dans l’expression (2) le premier et le second termes à droite de l’égalité sont, respectivement, l’approximation au niveau de résolution j0et l’erreur d’approximation composée de l’agrégation

(6)

des détails des niveaux d’échelles j≥ j0. Ces deux composantes, l’approximation et les détails, peuvent être vues comme une partie d’approximation lisse non stationnaire qui contient les basses fréquences, et une composante qui garde l’information de détails localisés dans le temps pour les petites échelles. Enfin, le paramètre j0détermine la séparation entre ces composantes.

En outre, on a la conservation de l’énergie des signaux de carré intégrable pour la transformée en ondelettes orthogonale. Ainsi, l’équation (2) permet d’obtenir la fonction originale à l’aide des coefficients d’ondelettes et d’échelle (par la transformée inverse) sans perte d’information.

2.3. Le cas des processus fonctionnels.

Nous allons procéder par analogie au cas univarié pour présenter le modèle de prévision proposé par Antoniadiset al.(2006) que nous appelonsKWF(pourKernel Wavelet Functional). Maintenant nous considérons un processus stochastique supposé dans ce cadre, stationnaire Z= (Zi)i∈Z

à valeurs dans un espace fonctionnel H (par exemple H=L2([0,1])). Nous disposons d’un échantillon dencourbesZ1, . . . ,Zn et l’objectif est de prévoirZn+1. La méthode de prévision présentée peut se décomposer en deux phases. D’abord, trouver parmi les blocs du passé ceux qui sont le plus semblables au dernier bloc observé. Ensuite construire un vecteur de poids wn,i,i=1, . . . ,n−1 pour obtenir la prévision souhaitée en moyennisant les futurs des blocs correspondant aux indices 2, . . . ,nrespectivement.

Première phase. La méthode de prévision nécessite une dissimilarité appropriée entre les objets observés, qui sont des courbes plus ou moins régulières. Pour ce faire, l’utilisation de semi-normes s’est généralisée dans le domaine des données fonctionnelles, en particulier par le biais des techniques non paramétriques (Ferraty et Vieu (2006)) et à travers des notions de profondeur (Cuevas et Fraiman (2009)). Pour prendre en compte dans la dissimilarité la dimension infinie des objets à comparer, le modèleKWFreprésente chaque segmentZi,i=1, . . . ,n, par son développement sur une base d’ondelettes tronqué à une échelleJ> j0. Ainsi, chaque observation Ziest décrite par sa version tronquée

Zi,J(t) =

2j0−1

k=0

c(i)j

0,kφj0,k(t) +

J

j=j0+1 2j−1

k=0

d(i)j,kψj,k(t), t∈[0,1].

Le premier terme de l’équation est une approximation lisse à la résolution j0du comportement global de la trajectoire. Elle contient les composantes non stationnaires associées à des basses fréquences ou encore à une tendance. Le deuxième terme conserve l’information de la structure locale de la fonction. Cette information, décrite en fonction de l’échelle jet la position temporelle kdans l’échelle, sera exploitée pour construire une distance.

Pour deux segments observésZi(t)etZi0(t), nous utilisons la distance euclidienne entre les vecteurs des coefficients d’ondelettes à chaque échelle javec j0<j≤J,

distj(Zi,Zi0) =

2j−1

k=0

(d(i)j,k−d(i

0) j,k)2

!1/2

,

puis on agrège les distance des échelles en prenant en compte le nombre de coefficients par échelle D(Zi,Zi0) =

J

j=j0+1

2j/2distj(Zi,Zi0).

(7)

Les coefficients d’approximation ne contiennent pas d’information utile pour la prévision (ils fournissent des moyennes locales), car le processusZest supposé ici stationnaire. De ce fait, ils ne sont pas pris en compte dans la distance proposée. En d’autres termes, la distanceDpermet de trouver de motifs similaires entre courbes même si elles ont des approximations très différentes.

De plus, la capacité de laDWTde détecter des caractéristiques locales d’une fonction motive l’utilisation de cette distance, car les structures locales ne s’expriment qu’au travers des détails.

Deuxième phase. NotonsΞi={c(i)J,k:k=0,1, . . . ,2J−1}l’ensemble des coefficients d’échelle du i-ème segmentZi à la résolutionJ, la plus fine. La prévision des coefficients d’échelle (à l’échelleJ)Ξdn+1deZn+1est donnée par

Ξdn+1= ∑n−1m=1Khn(D(Zn,J,Zm,J))Ξm+1

1/n+∑n−1m=1Khn(D(Zn,J,Zm,J)).

Notons que la distanceDest calculée sur les trajectoires approchées. De ce fait, nous pouvons coder dans un premier temps les courbesZiparΞà l’aide de laDWT. Puis, en utilisant l’algorithme pyramidal surΞ, nous obtenons l’ensemble des coefficients d’ondelettes à utiliser dans la distance.

La fonction noyau utilisée ici a les mêmes propriétés que celle du cas précédent, à la différence que maintenantKest unidimensionnel.

Finalement, nous appliquons la transformée inverse de la DWT sur Ξdn+1 pour obtenir la prévision de la courbeZn+1dans le domaine temporel

Zdn+1(t) =

2J−1

k=0

\c(n+1)J,k φJ,k(t). (3) Nous pouvons réécrire le prédicteur (3) comme un barycentre des futurs des segments du passé

Zdn+1(t) =

n−1

m=1

wn,mZm+1, (4)

avec les poids

wn,m= Khn(D(Zn,J,Zm,J))

n−1m=1Khn(D(Zn,J,Zm,J)). (5) 2.4. Les paramètres de réglage du prédicteur.

Afin d’utiliser la méthode de prévisionKWF, des paramètres doivent être choisis, ils concernant, – le découpage en blocs pour définir le processusZ,

– la transformation dans le domaine des ondelettes, – l’estimateur à noyau.

2.4.1. Paramètres liés au découpage en blocs.

Taille des blocs : paramètre δ. Pour obtenir le processus à temps discret Z = (Zi(t),t ∈ [0,δ])i∈N, nous avons procédé au découpage d’une trajectoire d’un processus stochastique continu

(8)

à valeurs réellesX, en blocs de tailleδ. Même s’il n’y a pas d’éléments théoriques qui puissent guider le choix deδ, nous pouvons néanmoins le choisir de manière à modéliser une saisonnalité.

Ainsi, par exemple pour les données de la consommation d’électricité qui présentent une périodi- cité journalière, le fait de découper en courbes journalières rend plus raisonnable l’hypothèse de stationnarité du processus fonctionnelZ.

2.4.2. Paramètres liés à laDWT.

L’ondelette. La transformée en ondelettes joue plusieurs rôles dans la méthode de prévision

KWF. Primo, elle est utilisée pour représenter les données fonctionnelles (de dimension infinie) par des vecteurs (de dimension finie) des coefficients d’échelle à une résolutionJ. Secondo, comme il est habituel dans l’analyse des données fonctionnelles, nous ne disposons que d’un échantillonnage des fonctions. Dans le cas de la consommation d’électricité les observations sont faites au pas demi-horaire. La DWTest utilisée pour approcher les trajectoires plus ou moins régulières de la consommation journalière d’électricité à partir de 48 mesures. Tertio, la prévision est obtenue dans le domaine des ondelettes, et c’est grâce à la transformée inverse (et aux bonnes propriétés d’approximation) que l’on obtient la prévision dans le domaine temporel. Nous allons voir par la suite que la transformée en ondelettes aura encore un quatrième rôle quand on voudra adapter la technique à un contexte non stationnaire.

Dans les expériences numériques nous utilisons l’ondelette appeléeSymmlet 6, avec un filtre de taille 6, qui parait un bon compromis compte tenu de la taille de nos segments. Nous avons observé d’autre part que la sensibilité du prédicteur au choix de l’ondelette est faible (voir Cugliari (2011, p. 55)).

Interpolation à2J points. Afin d’utiliser l’algorithme pyramidal de Mallat pour le calcul de la transformée en ondelettes (voir Mallat (1999)), nous devons disposer de vecteurs de 2Jpoints avec Jun entier non nul. Si ce n’est pas le cas, nous utilisons une interpolation par splines naturelles pour le plus proche entierJqui vérifie 2J−1<N<2J.

Résolution de l’approximation. Pour une ondelette et une taille de filtre données, nous appro- chons les courbes à la résolution j0qui doit être choisie. Toutes les résolutions j< j0ne feront pas partie de la prévision. C’est justement la capacité des ondelettes de faire une analyse à plusieurs résolutions qui nous intéresse. L’échelle j0fait la séparation entre les échelles de l’analyse multi- résolution qui sont liées aux basses fréquences, associées à des composantes non stationnaires comme la tendance, et celles liées aux hautes fréquences, associées à la partie stationnaire du processus. Il y a un compromis à faire : d’un côté une fréquence trop basse pourrait inclure dans la comparaison des phénomènes non stationnaires ; d’une autre côté des fréquences trop hautes pourraient contenir trop de bruit et assez peu de signal utile. Dans le reste du document, nous allons utiliser j0=0, c’est à dire l’approximation au niveau de résolution le plus grossier.

2.4.3. Paramètres liés à l’estimateur à noyau.

Distances entre des courbes échantillonnées. Du fait que les courbes ne sont observées qu’au travers d’un échantillonnage, la distanceDdépend de l’échantillonnage. Néanmoins, son utilisa- tion en remplaçant la vraie distance théorique peut être justifié (voir Cugliari (2011, p. 35)).

(9)

Le noyau et la largeur de fenêtre. Comme en général les méthodes à noyau sont assez robustes par rapport au choix du noyau, le choix est encore une fois guidé par des aspects pratiques (support et régularité du noyau). En revanche, le paramètrehnjoue un rôle crucial pour calibrer la méthode à noyau car son réglage contrôle le compromis entre le biais et la variance du prédicteur.

Dans Antoniadiset al.(2006), les auteurs proposent de calculerhnparvalidation croiséemais elle ne repose que sur des bases empiriques. Dans un second article, les auteurs proposent un calcul fondé sur des éléments théoriques (Antoniadiset al.(2009)) qui se fait par minimisation d’une fonction derisque empiriquesur un échantillon d’apprentissage sur une grille de valeurs possibles. Si la grille contient la vraie valeur du paramètre, alors cette stratégie ne peut pas conduire à un choix très éloigné de l’optimal.

Quand le modèle de prévision est utilisé tout au long d’une période d’étude (par exemple si l’on fait de prévisions journalières pendant toute une année), on peut alors définir deux stratégies apparaissant naturellement pour calculerhn. La première option est de calculer et fixer la valeur hnavant la période de prévision (FIX). L’option alternative consiste en mettre à jour cette valeur avant la prévision à chaque date (DYN).

3. Présentation de la problématique de la consommation d’électricité.

Cette section est dédiée à la présentation du problème industriel. Nous commençons par décrire les données au travers de leurs caractéristiques les plus remarquables. Ensuite, nous menons une courte revue des méthodes de prévision utilisées pour des données de la consommation d’électricité française métropolitaine. Enfin, nous discutons sur les performances de prévision attendues.

3.1. Les données.

Nous commençons par énumérer les caractéristiques de la consommation d’électricité à l’aide des données françaises. Dans le Figure 1 nous pouvons observer l’évolution sur le long terme de la demande nationale d’électricité. Malgré la crise économique des dernières années, nous remarquons une tendance ascendante. Le cycle annuel est aussi clairement marqué, présentant les plus importants niveaux de consommation d’électricité pendant l’hiver. Deux faits l’expliquent, d’une part la forte dépendance de la consommation d’électricité aux conditions météorologiques ; d’autre part l’activité industrielle qui a un caractère saisonnier.

Lorsque nous faisons un zoom, nous pouvons distinguer une périodicité hebdomadaire (Figure 2). Le profil économique des jours ouvrés et des week-ends est reproduit par la demande avec une forte hausse durant les jours ouvrés. Il existe d’autres artefacts de l’activité socio-économique.

À titre d’exemple, durant la période estivale, nous observons deux semaines durant lesquelles la demande en électricité est extrêmement basse, correspondant aux vacances d’été. Il est à noter aussi que le profil de la demande d’électricité en hiver est plus complexe à cause d’une grande variation de la demande. L’impact sur la prévision est une nette dégradation de la performance de prévision en hiver. Malheureusement, cela arrive durant la période où les erreurs de prédiction ont un coût plus élevé pour les fournisseurs d’électricité.

La Figure 3 représente une courbe journalière. Notons que même à cette résolution temporelle, nous pouvons identifier des motifs : la consommation d’électricité est plus faible la nuit, elle

(10)

FIGURE1: Évolution de la consommation d’électricité moyenne journalière (en Gwh) de 1996 à 2010.

FIGURE2: Évolution de la consommation d’électricité moyenne journalière (en Gwh) de 2008 à 2010.

augmente entre 5 heures et 9 heures du matin, et présente un pic en fin d’après-midi, etc. Ces caractéristiques sont identifiables sur chaque courbe journalière. En effet, les jours pour lesquels il est difficile d’avoir une bonne prédiction de la consommation/demande d’électricité sont ceux avec des caractéristiques atypiques ou assez rares. De manière générale, ces jours sont aussi parmi ceux qui coûtent le plus en termes d’erreurs de prédiction.

Nous décrivons à présent la partie de la consommation électrique qui dépend des conditions climatiques. Même si nous nous centrerons uniquement sur la dépendance vis-à-vis de la tem- pérature, cependant, d’autres phénomènes météorologiques -comme la couverture nuageuse- ont aussi une incidence sur la demande d’électricité. Dans le cas français, cette demande est connue pour être hautement thermosensible (Figure 4). Deux faits sont à remarquer. D’une part, la température utilisée dans le graphique est construite en faisant une moyenne des températures records de quelques stations météorologiques françaises convenablement choisies. Rappelons que la sensibilité de la demande d’électricité à la température s’exprime notamment dans le chauffage des bâtiments. Ainsi, un obstacle additionnel s’y rajoute, la température à utiliser doit incorporer l’inertie thermique des bâtiments. D’autre part, la dépendance est très complexe et a certainement un comportement non linéaire et asymétrique par rapport aux hautes et basses

(11)

FIGURE3: Une courbe de charge journalière.

températures respectivement.

FIGURE4: Relation entre demande d’électricité (en Gwh) et température (enCelsius).

Une quantification très précise de la part des experts d’EDF montre qu’entre deux seuils de température (situés à 14 et de 23Celsius), la demande d’électricité est insensible aux changements de température. En ce qui concerne les températures inférieures à 14C ou supérieures à 23C, les systèmes de chauffage et climatisation respectivement se mettent en marche.

3.2. Une courte revue de méthodes alternatives.

Dans la littérature sur la prévision de la consommation d’électricité, les méthodes peuvent être groupées par type d’approche : d’analyse de séries temporelles, d’apprentissage automatique, de régression et de recherche de similarité. Pour fixer les idées, nous nous bornons à analyser les références décrivant des travaux qui portent sur des données de consommation d’électricité française sur l’aire métropolitaine.

Dans le groupe d’analyse de séries temporelles, Taylor (2010) utilise un lissage exponentiel en prenant en compte la structure de saisonnalités. Dordonnatet al.(2008, 2011) propose un modèle

(12)

à espace d’états qui permet suivre les changements de la relation entre les facteurs exogènes (principalement la température) et la demande d’électricité.

Les modèles basés dans l’analyse de la régressionpermettent d’utiliser la connaissance a priori pour modéliser la structure interne de la consommation et la dépendance aux facteurs exogènes.

Dans Bruhnset al.(2005) cette dépendance est modélisée par une régression non linaire sur la température qui dépend du mois, du jour de la semaine et du moment de la journée. Une version non paramétrique de cette stratégie a été proposée récemment dans Pierrot et Goude (2011).

Parmi les méthodes d’apprentissage automatique, Devaineet al.(2011) utilisent un mélange de prédicteurs en ligne pour obtenir des prévisions s’adaptant aux non stationnarités.

Le dernier groupe de modèles, basées sur larecherche de similarités, est une alternative à la modélisation de la structure de dépendance des cycles saisonnières. Le postulat de base est de dire que de causes similaires dans le passé ont des conséquences futures semblables. Par exemple dans Poggi (1994) la trajectoire de la consommation d’électricité est divisée en blocs de taille journalière. Puis, à l’aide de mesures de dissimilarité introduites par l’auteur, des blocs similaires au dernier observé sont cherchés dans le passé et un vecteur de poids est construit. Enfin, la prévision des deux prochains jours est obtenue par une moyenne pondérée des futurs des jours le plus similaires où les pondérations sont données par le vecteur de poids. Du point de vue statistique, le modèle correspond à une estimation de la régression par la méthode du noyau, du dernier bloc contre tous les blocs du passé. Antoniadiset al.(2006) étendent ce modèle au cas de variables aléatoires fonctionnelles.

3.3. Quelle performance de prévision est attendue ?

Ces caractéristiques expliquent la part plus importante de la variabilité de la consommation d’un jour typique. Tout modèle de prévision qui prend en compte ces éléments aura une performance moyenne acceptable. La difficulté réelle se trouve dans la prévision de jours de consommation atypique comme les jours fériés, les jours de pont associés à un long week-end, les jours de tarification spéciale, etc. D’autres phénomènes externes peuvent modifier la distribution ou la demande d’électricité, e.g. une crise économique ou des dommages produits par des orages. Les modèles opérationnels àEDFsont capables de gérer la prévision de jours typiques et la plupart de jours atypiques. Parmi l’essentiel, il s’agit de modèles paramétriques incorporant une régression non linéaire pour quantifier la sensibilité de la consommation à la température ressentie.

Nous sommes intéressés par des prévisions journalières du jour pour le lendemain. La per- formance de prévision est calculée sur les 48 mesures journalières par la moyenne des erreurs relatives absolues (MAPE) qui est définie comme suit :

MAPE= 1 48

48

k=1

Z(tk)−Z(t[k) Z(tk)

.

Les modèles opérationnels d’EDFdonnent un niveau deMAPEmoyen sur une année à horizon journalier d’environ 1.5%.

(13)

4. Prévision de la consommation d’électricité par la méthodeKWF.

Les expériences ont été réalisées à l’aide du logiciel R. Nous avons développé le package kerwavfun qui permet d’obtenir la prévision par la méthode de base, ainsi que pour toutes les variantes présentées par la suite. LaDWTest calculée en utilisant le packagewavethresh (Nason (2010)), qui fournit une implémentation de l’algorithme pyramidal de Mallat.

Pour les expériences numériques, nous avons utilisé un signal contenant des mesures en temps réel (postérieurement consolidées) de la consommation électrique. Les données sont échantillonnées toutes les 30 minutes depuis le 1 septembre 1996 jusqu’au 31 août 2006. Nous mesurons la performance en prévision au pas journalier du 1 septembre 2005 jusqu’au 31 août 2006.

Avec ces données, nous obtenons des blocs de tailleδ =48 points représentant les courbes de charge journalière entre minuit et 23h30. Chaque vecteur de longueur 48 est interpolé à 26 points et transformé à l’aide de laDWTpour un niveau de résolution de l’approximation de j0=0 en utilisant l’ondeletteSymmlet 6. Quant au calcul de la largeur de fenêtrehn, nous avons testé deux options introduites précédemment : calculer un seulhnune seul fois (FIX) ou la mettre à jour avant chaque prévision (DYN). Le noyau utilisé est le noyau gaussien.

Les résultats des performances de prévision sont présentés dans le Tableau 1 en termes de

MAPE(en %) pour les variantes FIXet DYNconcernant le calcul de la fenêtre. Nous sommes intéressés par la qualité de la prévision globale mais aussi par la qualité par type de jour et la distribution des erreurs de prévision tout au long de l’année. Ce tableau sera le point de départ pour la comparaison de la méthodeKWF de base original (que nous appelleronsBASE) et les variantes que nous utiliserons.

TABLEAU1.MAPEpar type de jour et global pour la période 1/9/05 - 31/08/06. Le paramètre hna été réglé selon la méthodeFIX(à gauche) avec hn=2155, et la méthodeDYNoù hnest calculée jour après jour (à droite).

Bloc MAPE

lundi 7.1

mardi 8.11 mercredi 7.63 jeudi 8.03 vendredi 8.72 samedi 7.62 dimanche 8.51 férié 12.9 Global 8.11

MAPE

7.48 8.36 7.94 8.28 8.87 7.58 8.66 12.85

8.31

De façon générale, les niveaux d’erreur globale de la technique sont plus importants que les niveaux observés pendant la période estivale (environ quatre fois plus grands). Avant d’essayer d’expliquer pourquoi, nous nous centrons sur les différences entre les variantes pour le calcul de hn. Nous pouvons noter que la méthodeFIXa une performance supérieure pour chaque type de jour (sauf les samedi) que la méthodeDYNpour la moyenne annuelle. L’évolution de la fenêtre mobile calculée par la méthodeDYNest affichée dans la Figure 5. Nous pouvons noter une forte et rapide augmentation du paramètre à partir du mois de novembre, après un saut à fin octobre dû au passage à l’heure d’hiver. La fenêtre s’ouvre pour calibrer l’effet des jours fériés et les premiers

(14)

jours froids qui ont tous les deux une dynamique de consommation très différente des autres types de jours. Cette introduction provoque des fortes perturbations qui altèrent de manière importante la performance de la méthode. Nous continuerons à examiner cette dichotomie (fenêtre fixe - fenêtre mobile) dans la suite.

FIGURE5: Évolution du paramètrehn.

En ce qui concerne les hauts niveaux d’erreur de prévision, rappelons que nous n’avons introduit aucune information exogène : la prévision est faite par régression sur les blocs observés du passé.

En particulier, nous n’avons pas d’informations sur l’effet sur la consommation d’électricité provoquées par la structure calendaire ou l’effet des variables météorologiques (e.g. la température ou la nébulosité). Toutefois il est souhaitable d’avoir des niveaux d’erreurs globalement faibles et d’analyser sa distribution dans l’année. Pour approfondir, nous analysons l’évolution duMAPE. Deux grands problèmes qui concernent la stationnarité du processusZse lisent sur la Figure 6 :

– la méthode conduit à la pire des performances quand le niveau est plus difficile à prévoir (pendant l’hiver), et

– quand le niveau moyen est assez stable (voir entre juin et octobre), les barres en gras qui représentent les samedis sont sensiblement plus hautes.

Analysons ces deux points. Pour le premier, il est assez clair que l’hypothèse de stationnarité du processus n’est pas valide pour les données de consommation d’électricité alors que la méthode de base le suppose. C’est justement lorsque le niveau moyen varie de manière plus importante que nous observons les erreurs les plus grandes. Au sujet du deuxième problème, la méthode ne peut pas faire la distinction à partir des données réelles de consommation entre les différents types de jours déterminés par la structure du calendrier. Par exemple, si on doit prévoir un samedi à partir d’un vendredi, la ressemblance des vendredis aux lundis, mardis, mercredis et aux autres vendredis fait que le samedi est prévu par un mélange de jours de la semaine et de jours du week-end. Il serait souhaitable de ne prévoir un samedi qu’à partir de samedis.

Dans le prochaine paragraphe nous essayons de mettre en oeuvre des corrections au modèle de baseKWFtenant compte des points ci-dessus : un niveau moyen qui évolue tout au long de l’année et la présence de groupes de jours.

(15)

FIGURE6: Évolution duMAPEjournalier pour la méthode deBASE. Les barres en gras corres- pondent aux samedis.

5. Corrections pour prévoir en présence de non stationnarités.

Nous allons explorer des pistes pour corriger les problèmes rencontrés lors de l’application de la méthode de prévision fonctionnelle KWF. D’abord, nous traitons le problème d’un niveau moyen non constant par le centrage des segments du passé et la remise à niveau du segment prévu.

Ensuite, nous travaillerons sur l’existence de groupes de segments.

Pour faciliter la discussion nous allons noter les parties approximation et détails de chaque fonctionZicommeSi(t)etDi(t)respectivement, donc

Zi(t) =

k

c(i)j

0,kφj0,k(t) +

j≥j0

k

d(i)j,kψj,k(t)

=Si(t) +Di(t).

5.1. Centrage et remise à niveau des courbes.

5.1.1. Le principe.

Le problème apparaît dès lors qu’interviennent dans le prédicteurZdn+1(t) =∑n−1m=1wm,nZm+1des courbesZm+1présentant des niveaux moyens très différents. Rappelons que les niveaux moyens sont décrits par les coefficients d’approximation de la transformée en ondelettes que ne sont pas

(16)

utilisés dans la dissimilaritéD. Du fait de leur ordre de grandeur, leur inclusion dansDrendrait la contribution des coefficients des détails marginale. En plus, leur exclusion n’implique pas forcément une perte d’information discriminante car elle demeure dans la forme de la courbe et dans son amplitude, décrite par les coefficients des détails. Dans ce cas, il est utile de centrer les courbes avant de calculer la prévision (centrée), puis remettre à niveau la prévision.

Les deux phases de la méthode ont un rôle différent face au centrage de courbes. Dans la première phase, recherche des blocs du passé les plus semblables au bloc présent Zn, la distance proposée consiste à centrer les données de façon implicite. En effet, les coefficients d’approximation ne sont pas pris en compte ce qui conduit à un centrage implicite.

Cependant, quand l’on combine les futursZm+1,m=1, . . . ,n−1 dans la deuxième phase, le centrage doit être fait explicitement. Nous allons utiliser la méthode de base pour prévoir les coefficients d’ondelettes associés à la partie détailDn+1de la courbe de charge ; puis nous allons prévoir les coefficients d’échelle, liés à la partie d’approximationSn+1. Une fois les deux ensembles de coefficients déterminés, la transformée inverse en ondelettes permet d’obtenir la prévision du bloc futur. En définitive, la prévision pour le segmentn+1 s’écrit Z\n+1(t) = S\n+1(t) +D\n+1(t). Le processus fonctionnel Dn+1(t) étant centré, nous pouvons utiliser la méthode de base pour obtenir sa prévision

D\n+1(t) =

n−1

m=1

wm,nDn+1(t),

où les poidswm,nsont donnés par l’équation (5). Ensuite, pour la prévision deSn+1(t)nous allons explorer différentes variantes :

BASE Lorsque nous avons utilisé le modèleKWFdans la section précédente, nous avons prévu la partie approximation par une moyenne pondérée des parties approximations du passé.

Les poids étant les mêmes que ceux calculés à partir de la ressemblance entre les détails des courbes. La prévision deSn+1est obtenue parS\n+1(t) =∑n−1m=1wm,nSm+1(t). Si bien que cette variante a l’avantage d’être simple et d’être une extension naturelle de la méthode originale, cependant elle peut s’avérer insuffisante car elle revient à ne pas centrer les courbes lors de la deuxième phase de la méthode. Les autres variantes testées devront donc être meilleures que celles-ci. Pour cette variante, la prévision globale est

Z\n+1(t) =

n−1

m=1

wm,nSm+1(t) +

n−1

m=1

wm,nDm+1(t).

PRST Une alternative simple est de considérer la persistance : nous supposerons alors que le niveau moyen du lendemain est le même que celui d’aujourd’hui, soitS\n+1(t) =Sn(t).

La prévision pour le segmentZest alors : Z\n+1(t) =Sn(t) +

n−1

m=1

wm,nDm+1(t).

Après utilisation de cette voie nous avons constaté que le niveau de la veille n’est pas forcément la meilleure référence pour corriger la moyenne. Bien que ce soit vrai pour

(17)

les jours de la semaine, pour les jours de week-end la meilleure référence est celle de la semaine antérieure. Nous utilisons donc, la stratégie hybride de choisir pour les jours de la semaine le niveau de la veille et pour les jours week-end le niveau de la dernière semaine.

DIFF Dans l’article Poggi (1994) sur la prévision non paramétrique de la consommation électrique en tant que processus multivarié, l’auteur propose de corriger le niveau moyen de la prévision en considérant la transition des niveaux moyens entre un jour et son lendemain.

Dans notre notation, cela revient à prévoir le niveau moyen à partir du niveau du jour témoin plus une correction par différences premières des niveaux du passé :S\n+1(t) = Sn(t) +∑n−1m=1wm,n∆(Sn)(t). Nous pouvons alors écrire la prévision deZcomme

Z\n+1(t) =Sn(t) +

n−1 m=2

wm,n∆(Sn)(t)

| {z }

S\n+1(t)

+

n−1 m=1

wm,nDm(t).

SAR Dans la dernière variante, nous exploitons le fait d’avoir choisi j0=0 (i.e. l’approximation à la résolution la plus grossière.). Dans ce cas, les fonctions d’approximation sont constantes et proportionnelles au niveau moyen de chaque fonction. De plus, la suite{c(i)0,0},i=1, . . . ,n est simplement une série temporelle unidimensionnelle. Grâce aux ondelettes cette série est plus simple que sur la série originale. Nous allons utiliser une modélisation classique des séries temporelles du type Box-Jenkins par exemple. Cette voie apporte une alternative paramétrique mais rend plus complexe la prévision car il faut régler deux modèles qui ne

“communiquent pas entre eux”. Nous avons testé plusieurs variantes. Le modèle retenu pour les comparaisons est assez simple. Il consiste en une modélisationSARavec 2 coefficients saisonniers (hebdomadaires) et quatre journaliers.

5.1.2. Les résultats.

Nous reprenons les données de la consommation d’électricité pour tester les corrections que nous venons de décrire. Dans un premier temps nous nous concentrons sur la comparaison des différentes corrections par centrage en ne regardant que les résultats à fenêtre fixe.

Les résultats (cf. Tableau 2) montrent une amélioration dès lors que l’on corrige le niveau moyen, vis-à-vis de l’option de ne pas corriger (méthode deBASE). Parmi les options présentées, la correction par différences premièresDIFFs’avère la plus performante pour tous les types de jour sauf les samedis. Comme auparavant, nous sommes intéressés par la distribution des erreurs dans l’année. L’évolution duMAPEpar jour selon type de jour est présentée dans la Figure 7.

Par rapport à la Figure 6 nous nous apercevons que globalement les niveaux d’erreur sont plus bas (l’étendue des ordonnées est presque divisé par deux). Deux remarques : d’une part les plus hauts niveaux d’erreurs pendant l’hiver sont plus faibles, d’autre part, le problème signalé précédemment concernant les grandes erreurs de prévision des jours samedi (en gras dans le graphique) est encore plus évident. Avec les jours fériés, les samedis présentent les erreurs les plus importantes (voir Tableau 2).

Afin de comparer les performances entre l’utilisation de la fenêtreFIX (calculée une seule fois avant la période de prévision) et la fenêtreDYN(recalculée pour chaque jour), le Tableau

(18)

TABLEAU2.MAPEpar type de jour et global pour la méthode de baseBASE, et les variantes de centrage :PRSTle niveau moyen est mis au niveau du jour témoin,DIFFle niveau moyen est une moyenne pondérée des différences premières des niveaux) etSARmodèle autorégressif saisonnier. La valeur optimale de hnpour l’estimationFIXde la fenêtre est 2173.

Bloc BASE PRST DIFF SAR

lundi 7.1 4.75 2.07 3.89

mardi 8.11 4.49 2.11 3.63

mercredi 7.63 2.56 2.1 2.51

jeudi 8.03 2.06 1.97 2.43

vendredi 8.72 2.59 2.06 2.84 samedi 7.62 5.88 6.94 4.18 dimanche 8.51 5.14 1.51 2.26 férié 12.9 14.74 9.85 13.54 Global 8.11 4.24 2.91 3.42

FIGURE7: Evolution duMAPEjournalier pour le modèle avec centrageDIFF. Les barres en gras correspondent aux samedis.

.

3 présente leMAPEmoyen par type de jour pour ces variantes. Nous y voyons que l’utilisation d’une fenêtreFIXentraîne une très légère dégradation globale de la méthode, sans vraie portée.

(19)

Cependant, la dégradation ne se produit qu’à partir du moment où des jours avec une dynamique de consommation très différente (comme les jours fériés et les premiers jours de froid) entrent dans l’historique récent du prédicteur.

TABLEAU3.MAPEpar type de jour et global pour la méthodeDIFF. La valeur de hnest calculée par la varianteFIXà gauche et parDYNà droite.

Bloc FIX

lundi 2.07 mardi 2.11 mercredi 2.1 jeudi 1.97 vendredi 2.06 samedi 6.94 dimanche 1.51 férié 9.85 Global 2.91

DYN

2.09 2.12 2.13 1.94 2.09 7.05 1.52 10 2.94

Nous avons donc réussi à contrôler le problème du niveau variable. Le centrage de chaque courbe dans la construction du prédicteur plus la prévision du niveau par différences premières s’avère une solution prometteuse. Nous avons ainsi gagné en performance globale et nous avons déjà atteint des niveaux d’erreurs de prévision qui ne sont pas très éloignés de ceux des modèles opérationnels (particulièrement pour les dimanches).

Passons au problème des samedis. Comme nous avons déjà dit, la transition des jours de semaine à un jour du week-end est une information que nous n’introduisons pas dans le modèle. Néanmoins, c’est une information que nous avons au moment de faire la prévision et que nous pouvons incorporer à notre prédicteur. Nous allons aborder ce problème (désormais nous présenterons les prévisions uniquement avec la correction par niveauDIFF).

5.2. Correction par groupes.

5.2.1. Le principe.

L’éventuelle existence de groupes de jours est le deuxième point à introduire pour rendre plus raisonnable l’hypothèse de stationnarité. Nous avons abordé le problème des niveaux différents dans la suite d’approximations{Sn}n. Nous nous concentrons maintenant sur la série de détails {Dn}n. L’ensemble des détails contribuent à l’allure de la courbe. Il est bien connu que la forme de la courbe journalière dépend du calendrier : les jours de week-end présentent des allures très différentes de celles des jours de semaine car l’activité des consommateurs change. La forme de la courbe dépend aussi de variables climatiques comme la température ou la nébulosité entre autres.

Jusqu’ici, la méthode utilise tous les segments du passé pour produire une prévision. Si des groupes des jours existent, nous voudrions utiliser dans la prévision seulement les jours qui appartiennent au même groupe que le dernier jour observé. Dès lors que nous utiliserons moins d’observations, deux effets contraires se produiront. D’un côté, la variance du prédicteur sera plus grande. De l’autre côté, si les observations appartiennent à une même classe, nous nous attendons une diminution du biais du prédicteur. Nous espérons que l’erreur quadratique moyenne

(20)

du prédicteur aura une diminution nette grâce à une plus forte diminution du biais. L’intuition de ce point est de considérer des classes de stationnarité. Alors, l’hypothèse de stationnarité du processus fonctionnel nécessaire pour appliquer la méthode originale doit être valide mais à l’intérieur de chacun des groupes de jours.

Du point de vue pratique, l’incorporation de l’information des groupes dans l’étape de la prédiction se fait avec un traitement dans le calcul de la ressemblance. Les poidswm,n sont redéfinis en fonction de l’appartenance du joursmetnau même groupe :

wem,n= wm,n1[gr(m)=gr(n)]

nm=1wm,n1[gr(m)=gr(n)]

,

où1[gr(m)=gr(n)]vaut 1 si le groupegr(n)dun-ème jour est égal au groupe dum−ème jour et zéro sinon. Ceci équivaut à mettre à zéro la valeur de l’indice pour tous les joursmqui n’appartiennent pas au même groupe que le journ, puis à renormaliser les poids pour avoir une somme égale à 1.

Bien entendu, nous avons supposé que l’information des groupes de jours est disponible au moment de faire la prévision. C’est le cas si nous basons les groupes sur la structure du calendrier.

Sinon, les groupes peuvent être déterminés à partir d’une méthode de classification non supervisée (voir Cugliari (2011), partie II).

5.2.2. Groupes de jours.

Nous explorons ici des groupes de jours basés sur l’information du calendrier. L’option la plus simple est d’utiliser les jours de la semaine comme groupes. La connaissance acquise par les experts d’EDF sur la courbe de charge nous amène aux groupes suivants : {lundi}, {mardi, mercredi, jeudi},{vendredi},{samedi},{dimanche}et{fériés}. En effet, les jours du milieu de la semaine ont une forme très similaire. Ceux-ci se différencient de la forme des lundis notamment dans la montée du matin, et de la forme des vendredis dans la forme de l’après midi.

Bien que ce groupement soit simple, il ne prend en compte que la classification du jour témoin.

Or, les jours fériés ne seront jamais bien prévus car rien dans la veille n’informe la méthode que le jour à prévoir est particulier. D’ailleurs, nous avons remarqué l’importance d’inclure l’information des transitions entre jours quand nous avons développé la variante de centrage par différences premières. En conséquence, nous allons utiliser comme groupes les transitions entre les types de jours du calendrier. La classification de jours selon les transitions possibles, que nous appellerons

CALEN-TR, est l’objet de la Figure 8.

5.2.3. Les résultats.

Les résultats des performances de prévision pour les données réelles de la consommation d’élec- tricité sont dans le Tableau 4. La prévision est faite par correction de niveau avec le centrage

DIFFet avec correction de groupes par le traitement exposé ci-dessus. Pour le calcul de la largeur de fenêtre, nous nous centrons dans un premier temps sur les résultats de performance de prévi- sion pour la fenêtre estimée par la méthodeFIX. Remarquons que l’introduction de groupes de jours a rendu plus complexe le modèle et maintenant nous avons une fenêtre par groupe de jour.

Cependant, une conséquence latérale de l’introduction de groupes a été la réduction du temps de

(21)

FIGURE8: Les transitions possibles entre types de jours. Le sigleMMJest utilisé pour indiquer le groupe formé par les mardis, mercredis et jeudis.

calcul. La méthode de baseKWFet les variantes issues de la correction par niveau ont pris environ 10 fois plus de temps pour obtenir les prévisions de toute l’année que lorsque des groupes sont introduits.

TABLEAU4.MAPEpar type de jour et global pour la corrigée par centrageDIFF(sans correction par groupes), la méthode avec groupe calendaireCALEN-tr et fenêtre fixe (FIX) et enfin la méthode avec groupe calendaireCALEN-tr et fenêtre dynamique (DYN).

Bloc DIFF CALEN-TR

(FIX)

lundi 2.07 2.11

mardi 2.11 1.66

mercredi 2.1 1.60

jeudi 1.97 1.24

vendredi 2.06 1.66

samedi 6.94 1.57

dimanche 1.51 1.60

férié 9.85 2.59

Global 2.91 1.66

CALEN-TR

(DYN) 1.95 1.67 1.54 1.23 1.66 1.57 1.55 3.33 1.64

A partir du Tableau 4, nous observons une amélioration globale pour la méthode de prévision avec correction par groupes. Il faut remarquer que nous avons réussi à corriger les hauts niveaux d’erreur pour les samedis. La solution proposée est efficace car on ne prévoit les samedis qu’avec des samedis. De plus, la prévision des jours fériés se voit améliorée. La méthode de prévision semble être appropriée même pour ce type de jours qui sont souvent très difficiles à prévoir.

Passons maintenant à la comparaison avec la version de calcul de fenêtreDYN(colonne à droite du Tableau 4). Nous observons ici une performance supérieure de la version à fenêtre mobile par rapport à l’alternativeFIX. Dans la Figure 9 nous montrons l’évolution de la fenêtre selon les groupes de jours. Les lignes correspondent à des trajectoires lissées de la fenêtre en fonction du temps par jour de la semaine. La fenêtre calibrée par la méthode dynamique paraît suivre une évolution stable tout au long de l’année pour la plupart des types de jours. Cependant, les lundis affichent une augmentation importante autour de l’hiver, soulignée par une bosse dans le graphique, qui est due à des lendemains des jours fériés d’hiver. En effet, les jours fériés présentent

(22)

un comportement très différent selon que le jour férié est en saison froide ou chaude.

FIGURE9: Valeur de fenêtre calibrée par la varianteDYNdans la prévision avec centrageDIFF et groupesCALEN-TR.

L’évolution duMAPEpar type de jour pour la prévision avec correction de centrageDIFFet groupesCALEN-TRest présenté dans la Figure 10. Cette évolution est plus homogène dans l’année que celle de la méthode de base (Figure 6). Les problèmes signalés : niveau moyen non constant et présence de groupes de jours, semblent être résolus. La plupart des jours qui présentent encore de hauts niveaux d’erreur sont des jours dans les autours des jours fériés.

5.3. Aide à l’interprétation du prédicteur.

Le modèle retenu fournit des prévisions globalement satisfaisantes. Nous pouvons maintenant la façon dont les prévisions sont obtenues à des fins d’interprétation. D’un coté nous regardons le vecteur de poids issu de la régression non paramétrique. D’un autre coté, nous examinons quelles sont les échelles de la décomposition en ondelettes qui sont porteuses d’information significative pour la prévision.

Répartition du vecteur de poids. Nous pouvons nous interroger sur le nombre et le type de blocs que la méthode sélectionne pour construire la prévision. Analysons la répartition des poids dans le temps. Considérons l’exemple de la Figure 11 où nous cherchons les jours qui ressemblent au dimanche 2 juillet 2006. La forme de la répartition montre que les poids des jours croissent à proximité du jour en question. En plus, les poids non nuls sont attribués seulement aux jours qui correspondent à la même position du calendrier que le jour de référence.

Le nombre de jours voisins, c’est-à-dire ceux qui participent avec un poids non nul dans la prévision, dépend du type de jour et de la position dans l’année. Pour chaque type de jour, le nombre de jours voisins décroît au fur et à mesure que nous nous approchons de l’hiver. Puis, il

Références

Documents relatifs

consommés chaque jour de manière équilibrée afin d’apporter à notre organisme les éléments indispensables à son bon fonctionnement.. Entourer les images et compléter

Il n’est pas d’objet plus profond, plus mystérieux, plus fécond, plus ténébreux, plus éblouissant qu’une fenêtre éclairée d’une chandelle. Ce qu’on peut voir au

Le paragraphe 4 présente la démarche de construction du prédicteur non paramétrique de la courbe de charge électrique corrigée du chauffage, lors des périodes

un chemin un chemin un chemin un cheval une cheminée une cheminée une cheminée des cheveux. une chemise une chemise une chemise

une cheminée une cheminée une cheminée des cheveux une chemise une chemise une chemise

[r]

Après avoir complété la prévision ponctuelle par la construction d’un intervalle de confiance pour le prédicteur fonctionnel dans la cas non stationnaire nous examinons la

L'indice de la production industrielle est donc (1), ainsi qu'on l'a déjà indiqué, des plus utiles pour la prévision de la reprise boursière, à la sortie d'une