R EVUE DE STATISTIQUE APPLIQUÉE
C. B ORGARD
Traitement d’un grand nombre de séries chronologiques par des modèles. Moyenne mobile avec fonction de
transfert. Application à des séries de consommation de gaz
Revue de statistique appliquée, tome 37, n
o3 (1989), p. 5-17
<http://www.numdam.org/item?id=RSA_1989__37_3_5_0>
© Société française de statistique, 1989, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
TRAITEMENT D’UN GRAND NOMBRE
DE SERIES CHRONOLOGIQUES PAR DES MODÈLES
MOYENNE MOBILE AVEC FONCTION DE TRANSFERT
APPLICATION A DES SÉRIES
DE CONSOMMATION DE GAZ
C. BORGARD
GAZ DE FRANCE, 23 Rue Philibert Delorme - 75017 PARIS
1. Généralités 1.1. Introduction
On
s’intéresse, ici,
aux séries caractérisées par une saisonnalité trèsmarquée.
De telles séries se rencontrent
fréquemment
dans l’étude dephénomènes
à caractèresocio-économique (liés
auxcycles
de l’activitééconomique),
ouproches
dessciences de la Nature
(liés
au caractère saisonnier duclimat).
Le
développement
de modèles saisonniers utilisant lesopérateurs
de différen-ciation a été
préconisé
par BOX-JENKINS(voir [1], chapitre 9)
pour étudier ce type de séries.Récemment,
lechamp d’application
de ces modèles a été étendu auxconsommations
d’énergie :
comsommations de gaz ou d’électricité[6],
aux installa-tions
d’équipements
collectifs[3],
aux ventes deproduits
degrande consommation,
à certaines séries concernant la main d’oeuvre oul’emploi [5],
etc...Dans
l’exposé qui
suit on seplacera
dans le cas de donnéesmensuelles;
la
périodicité
de la série est alors S = 12. Les formulesprésentées pourront
setransposer
facilement si l’on traite de donnéesjournalières
ou de données horairesen
remplaçant
S = 12respectivement
par S = 7 et S = 24.Notons une telle série
Nt
Sous la forme
canonique,
le modèlemultiplicatif
saisonnier s’écrit :où
81 et 82
sont despolynomes respectivement
en B etB s
dont les racines sont toutes extérieures au cercle unité.En
pratique,
on retientgénéralement l’expression :
qui
s’écrit ici :où Et est un bruit blanc
B, Bl2sont
lesopérateurs
de retard d’ordre 1 et d’ordre 12.V, Vi2sont
lesopérateurs
de différenciation à l’ordre 1 et à l’ordre 12Ce modèle a été
appliqué
aux consommations mensuelles de gaz. Ces consomma- tions sont fortement influencées par des variablesd’environnenient, principalement
les variables
climatiques.
On a donccomplété
le modèlemultiplicatif
saisonnierpar
l’adjonction
d’une fonction de transfert.Le
système
décrit ici estexploité
defaçon
industrielle sur une centaine de sériesdepuis plus
de sept ans. Laprésentation
de cesystème
est avant toutdescriptive puisqu’elle
rend compte d’uneexpérience;
elle s’adresse donc d’abordaux
praticiens.
On remarque toutefois que
l’exemple
traité ici n’estqu’un
casparticulier
d’unproblème beaucoup plus général qui pourrait
s’énoncer : comment unechronique
saisonnière peut elle être
expliquée
par d’autreschroniques qui présentent
la mêmesaisonnalité ?
On retrace d’abord le cheminement
qui
a conduit à retenir les modèles ARIMA à fonction de transfert(paragraphe 2), puis
on décrit lesystème
actuel-lement en
exploitation (paragraphe 3).
On examine ensuite les apports concrets de la modélisation en processus dupoint
de vue du contrôle de la fiabilité desdonnées,
de la stabilité des modèles(paragraphe 4)
et enfin de laqualité statistique
des estimations
(paragraphe 5).
2. Une
expérience
de modèlisation 2.1 Vers les modèlesARIMA, Pourquoi ?
La variable étudiée
Ct représente
des consommationsd’énergie
en vued’assurer en
grande partie
des besoins dechauffage :
cette variabledépend
fortement de la variable naturelle
Ottempérature
observée autemps
t. On remarque que les variableszen
sont auto-corrélées(inertie thermique
pour lapremière
etinertie des comportements des consommateurs pour la
seconde)
et, deplus,
que la liaison entre ces deux variables subit des déformations au cours du temps.Des études
préliminaires s’appuyant
surl’Analyse
de Données et laRidge- régression
ontpermis
de sélectionnerquelles
autres variablesclimatiques peuvent
influer sur lesconsommations;
finalement on a retenu enplus
de latempérature
observée à la station
météorologique
le rayonnement solaireglobal Rt
évalué par laMétéorologie
Nationale.Les
premiers
modèles cherchant à relierCt
auxvariables 0
t etRt
étaientdes modèles
régressifs qui
nepouvaient
fonctionner que sur des courtespériodes
(l’année
aumaximum)
et on neparvenait
pas àse débarrasser totalement des auto- corrélations.On a donc cherché à établir des modèles à fonction de transfert dont l’intérêt
apparait
de lafaçon
suivante :Lorsque
l’on a deux variablesX(t)
etY(t), centrées, stationnaires,
et reliéesentre elles par une liaison linéaire de la forme :
et que l’on souhaite estimer les coefficients
1,’0, 1’l, .... 1,’p,
on peut être tenté de calculer le coefficient de larégression
de1-’(t)
enX (t).En désignant
parp(h)le
coefficient d’auto-corrélation d’ordre h de
X(t),
on a :La
régression
de}"" (t)
enX(t)
nepermet
donc pas d’estimer directement lesVh. Considérons,
par contre, la variableZ(t)
construite àpartir
deY(t)
en luiappliquant l’opérateur 0-’(B)tel
queX(t) = e(B) - at
où atdésigne
un bruitblanc.
Alors
:Z(t) _ 0-’(B) - V(B) · X (t)
=V (B)at
etE[Z(t) . a(t - h)] =
E
[11(B)a(t)a(t - h)]
d’où :
On obtient les coefficients
11h
non nuls de la liaison linéaire en calculant les corrélations croiséesentreZ(t)et a(t - h).
Enpratique,
pour s’assurer de lasignificativité
des11h,
on pourra être amené à étudier la corrélation croisée entre les bruits blancs deX(t)et Y(t).
2.2. Formulation du modèle
à fonction
detransfert
Pour stationnariser les variables
Ctet Rt
on aappliqué
la transformation lo-garithmique
et pour chacune des trois variables lesopérateurs
de double différen- ciation. On obtient le modèle :ce
qui correspond
avantdifférenciation,
compte tenu des conditions initiales et de la relation( 1 ) à :
Globalement ce modèle est
satisfaisant, car les
critères traditionnels retenuspour valider les conditions
d’application
de la méthode "BOX-JENKINS" sont vérifiés(le
résidu Et est bien un bruitblanc,
les estimations des coefficientsWo,
W’o,
al, o;i2sont peucorrélées). Mais,
pourchaque mois,
on est amené à introduiredes
paramètres spécifiques.
On définit pour cela 12 variablestempérature
et 12variables rayonnement solaire de la
façon
suivante : -077-tt Otsi t correspond
au mois d’indice m(m
=1, 2, ...12)
= 0 sinon
Rmt = Rt
si tcorrespond
au mois d’indice m= 0 sinon -
En regroupant les mois consécutifs pour
lesquels
lesparamètres Wo
etW’o
ne sont pas
significativement
différents ondégage
l’existence de quatrespériodes homogènes, appelées
saisons :Les mois de Novembre à Mars
constituent
: l’hiverLes mois d’Avril et Mai constituent
z
: le
printemps
Les mois de Juin à Août constituent : l’été Les mois de
Septembre
et Octobre constituent : l’automne3.
Exploitation
La mise au
point
et les essais des modèles se sont déroulés entre 1977 et1980; puis
unsystème d’exploitation
a été mis enplace
dans le courant de l’année1981. Ce
système d’exploitation comprend
une base de données et une base demodèles.
3.1. Alimentation de la base de données
Les consommations mensuelles sont collectées
auprès
d’environ 2000points
de mesures. A l’aide de tables de
correspondance
on aboutitaprès agrégation
àun ensemble réduit de 100 unités de traitement. A
chaque
unité de traitement estassociée une station
météorologique
de référence choisie dans un ensemble de 36 stationspossibles.
3.2. Fonctions de la base de modèles
A
chaque
unité de traitementcorrespond
un modèle. La base de modèles est constituée desparamètres spécifiques
de chacun des 100 modèles.Ces modèles sont utilisés pour assurer en tout ou
partie
lesopérations
suivantes :
- contrôle de
qualité
desdonnées,
- maintenance de modèles
associés,
- estimation des consommations sous des références
climatiques données,
- estimation des
prévisions
et de leurs intervalles de confiance.4. Amélioration de la
qualité numérique
On examine maintenant
quels
sont lesprincipaux
apports de la modélisationen processus du
point
de vue de laqualité
des estimationsstatistiques.
4.1. Contrôle des données
Les données mensuelles provenant d’environ 2000
points
source fontpréa-
lablement
l’objet
de bilanssimplifiés
consistant àvérifier,
au niveau degrandes régions,
dans une limite deprécision
tolérable que leséquations
de conservation des flux sont bienrespectées.
Cepremier filtrage
reste assezimprécis;
il est suivid’opérations
de contrôle dequalité
des données au niveau dechaque
unité detraitement. Le fondement de ces
opérations
est le suivant :On a vu que
chaque
sérieprésentait
une forte inertie et se trouvait donc pourvue d’une assez bonne mémoire.Chaque
observation ne doit donc pas trop s’écarter de saposition
naturelle et s’il y a des accidents detrajectoire
ils sont alorsfacilement détectables. Pour
cela,
onpeut
parexemple
rechercher les valeurs de la sériequi
s’écartent de leur valeur attendue d’un nombre fixéd’écarts-types.
Les résidus anormaux demandent à être
analysés
au fil dutemps;
lesprincipales
causes d’écartsimportants
sont les suivantes :a)
Des erreurs de données sur la variable àexpliquer provenant
soit d’erreur de relevé desappareils
de mesure, detranscription
ou de transmission. Nous incluons dans cetterubrique
le cas où les relèves ne se font pas aux datesprescrites
par le calendrier(la
valeur mensuelle ne recouvre pasexactément
le mois calendaire :si,
parexemple,
elle déborde le mois t de njours,
la valeuren t + ln’incluera pas ces n
jours)
et aussi le cas des donnéesmanquantes,
heureusement fort rarelorsque
l’on travaille sur des séries mensuelles.b)
Cas d’une erreur de donnée sur les variablesexplicatives.
C’est le cas oùl’on a une erreur sur l’une des variables
climatiques
transmise. Ce cas esttrès rare.
c)
Il y a undécalage
dans lessaisons;
parexemple
l’une des saisons seprolonge
un peu
plus
tard que d’habitude.d)
Il y a unchangement
dans lerythme
dedéveloppement
de la variable àétudier,
parexemple
à la suite d’une action commercialeplus
soutenue.e)
Il y a unchangement conjoncturel
decomportement
de la clientèle.Les cas
a)
etb)
sont dits "accidentels". La série de résidus décrochebrusquement
et retrouvegénéralement
assez vite sonprofil
habituel :Le cas
c)
est détectérapidement grâce
àl’exploitation
de modèles"pilote"
travaillant sur des données
journalières.
Les données dujour j
sont connues enj
+ 2.L’expérience
montrequ’il
faut attendrecinq jours
pour confirmer une date dechangement
de saison.Le cas
d)
se résorbeaprès
que l’on ait réactualisé lesparamètres
dumodèle, généralement
en fin de saison :Le cas
e)
estplus complexe. Malgré
une réactualisation desparamètres
lesécarts résiduels ne retrouvent pas une distribution
proche
du hasard. On observe des écarts de mêmesigne pendant plusieurs
mois consécutifs pouvant recouvrir mêmeplusieurs
saisons :Si le cas
e) n’apparait
que sur une sérieisolée,
ils’agit
d’unphénomène
transitoire lié à
l’apparition
ou au contraire à la perte d’un clientqui
à lui seulreprésente
une partimportante
de la consommation totale.Si la
grande majorité
des séries se trouve ainsi affectée ils’agit
alorsd’un
changement conjoncturel
du comportement de la clientèle. La structure des consommations est soudainement modifiée mais le modèle ne peut pasrépartir
lavariation de consommation entre une
part
relative aux conditionsclimatiques
et unepart
qui
ne l’est pas. Cephénomène conjoncturel
peut être traité par l’introduction de variables d’intervention.4.2. Réactualisation des
paramètres
des modèles 4.2.1.Pour quoi
réactualiser lesparamètr es ?
Les
paramètres
des modèles évoluent au cours des années car les besoinsénergétiques s’adaptent
à des situationséconomiques
différentes : matériels deproduction
de chaleurplus performants, développement
de l’isolation deslocaux,
mise en
place
desystèmes
derégulation thermique,
... Cette évolution se faitprogressivement
selon unrythme
saisonnier car les travaux sontgénéralement
réalisés en dehors des
périodes
dechauffage.
4.2.2.
Quand faut-il
réactualiser?Il y a des moments
priviligiés
pour réactualiser lesparamètres :
ce sont lesfins de saison. La
prise
en compte des données de toute une saisonpeut
apporter des indications sur l’évolution de certainsparamètres.
Ces informations sont d’abordqualitatives :
confirmation ou non des tendances éventuelles constatées dans lepassé.
Elles conduisentgénéralement
à desprévisions
mieuxadaptées.
4.2.3.
Qualité
desajustements successifs
Les
premiers réajustements
des modèles se sontaccompagnés
d’une dimi- nution sensible des variances résiduelles etaprès
deux annéesd’exploitation
on aobservé une stabilisation.
4.2.4. Evolution du
paramètre lilo
de lafonction
detransfert
entre 1982 et 1985
Selon le sens de l’évolution de
Wo,
les séries serépartissent
comme suit :Le
paramètre
deprintemps
a subi une forte décroissance et arejoint
la valeurmoyenne du
paramètre
d’automne.Ainsi,
on peut admettrequ’une
variation deun
degré
de latempérature
entraîne maintenant la même variation relative deconsommation au
printemps
ou en automne. L’habitudequi
consistait à laisser lechauffage
fonctionner auprintemps plus
tardqu’il
n’était besoin se serait donc considérablement modifiée au cours de ces années.Depuis 1985,
on note une trèsgrande
stabilité desparamètres.
4.2.5. Valeurs des
para111ètres
de lafonctio n
bruit( 1 - a 1 B) (1 - Q12B12)Et
La fonction bruit est caractérisée par les deux
paramètres
al et ail2Les
paramètres
anet Q12 caractérisent l’allure de latrajectoire
dechaque
série.Il est intéressant de
suivre,
enpratique,
l’évolution de cesparamètres.
On a observéque les courbes de
répartition
données ci-dessus évoluent peu, avec toutefois unelégère
translation vers les valeurs croissantes pour ai, vers les valeurs décroissantes pour a12.5. Connaissance des réalisations
5.1. Estimation de la consommation d’une
région
. pour un climat de
référence
donnéPour un mois
donné t,
on cherche la consommationqui
se seraitproduite
sil’on avait observé un climat de référence défini par des
valeurs 8t
etRt.
On utilisele modèle
(2)
avec les estimations deWo et W’o pour
calculer la consommationcorrespondante et.
Ct , 8t , Rt et Nt
sont reliés parEn
pratique,
on construit des estimateurs sans biais pourte 1,1",
aletal2
et à l’instant t on
dispose
de leurs valeursnumériques
on pose
et on a alors comme estimation de
LogCtlavaleurLogCt
donnée par :La vraie valeur de
(7
est en fait donnée par la relation(2) qui
s’écritLes formules
(2), (2’), (2")et(2"’) permettent
de calculer l’erreur sur l’estimation deLogCt .
On a :Zt
est une variable aléatoire de moyenne nulle. Sa variance devraitdépendre
dumois étudié. Mais en
pratique
on remarque que la variancede 0394Wo dépend
de lasaison. Elle est faible en
hiver,
là où ladispersion
des variablesclimatiques
estimportante.
On admetdonc,
enpremière approximation,
que la varianceu 2de Zt
est constante,
quel
que soit le mois considéré :03C32#10-4.
Lors de la construction du modèle on s’est assuré que
Wo
etYVô
étaientindépendantes
deNt
et suivaient des lois normales.Zt
est donc une variablealéatoire normale
indépendante
deNt.
Lorsque 8t
etRt
sontdonnés,
la relation(2"’) permet
d’écrireLogCt
=cons-tante +
Nt
Les variables
Ct
etZt
sont doncindépendantes
et l’on aE(ACt)
= 0Var(ACt)
=E(Ct2) Var( Zt )
dont l’ordre degrandeur
estë;U2.
L’erreur
6Ct
faite sur l’estimation deCt
suit doncapproximativement
uneloi normale de moyenne nulle et
d’écart-type Ctu.
5.2. Erreur sur la somme de consommations
Considérons n consommations
Ci, C2, ... Cn
etdésignons
parCl C2, ...Cnles
valeurs
correspondant
au climat choisi pour référence.Formons :
On rencontre ce
problème lorsque
pour un mois donné on cherche la consommation totale de Nrégions
oulorsque
pour unerégion
donnée on cherchela consommation cumulée sur n mois.
AC
suitapproximativement
une loi normale dont la moyenne est nulle etdont la variance s’écrit
03A3i E(C2i)03C32 = E(03A3i C2i)03C32 quantité approximativement égale
àZi ë;u2qui
peuttoujours
êtremajorée
parë2u2.
On a
donc,
enpremière approximation :
Remarque :
La
dispersion
desëi provient
surtout des consommations pour lechauffage qui
sont très faibles en dehors de lapériode
hivernale.Ainsi,
en dehors del’hiver,
si on cumule les consommations sur Nrégions,
on admettraque Ci C
et doncVar(0394C)# 03A3 C-2i03C32#C203C32 N
Sur cette
période
onprendra
pourapproximation
de la loi de0
une loinormale de moyenne nulle et d’écart
type 03C3 N
5.3
Application :
Estimation de la consommation totale de Nrégions
cumuléesur n mois
Désignons
par0-j la
consommation du mois i dans larégion j
et parCNIa
consommation totale des A
régions
le mois iOn calcule l’erreur sur la consommation
C lorsque
l’on connait l’erreur sur la consommation totale des Nrégions
pour un moisd’hiver,
notée a. Enpratique,
aest inférieur à 1 % .
Application numérique :
N = 100CONSOMMATIONS MENSUELLES
CONSOMMATIONS CUMULEES
La
précision
de l’estimation de la consommation totale cumulée sur n mois varié en cours d’année commel’indique
legraphique
suivant :On remarque que, dans ces
conditions,
laprécision
estoptimale
en octobre etqu’elle
varie peu autour de cette valeuroptimale
les six derniers mois de l’année.6 Conclusion
Le
système d’exploitation qui
vient d’être décrit sert, enpratique,
à suivrel’évolution de séries mensuelles en cours d’année. C’est donc bien d’abord un outil de
gestion. Chaque
mois ilpermet
de contrôler les données reçues et de calculer les consommationspassées
etprévues
associés à des conditions d’environnementprédéterminées.
Ces estimations sont connues avec leurs intervalles de
confiance,
cequi
permet d’assurer la cohérence entre les
prévisions
et les réalisations.Mais les apports d’un tel
système d’exploitation
sontbeaucoup plus
richessi l’on mémorise les résultats obtenus pour
chaque
série. Onpeut,
eneffet,
suivre les déformations desparamètres
au cours des réestimations successives et en tirer desenseignements
sur l’évolution de la structure dechaque
série.On peut,
aussi,
enrecoupant
les résultats des estimations de toutes les sériesdégager
lesspécificités
de certains groupes de sériescaractéristiques
decomportements
régionaux
trèsmarqués.
Finalement, l’exploitation
d’un telsystème,
conçu pourgérer
leprésent,
informe aussi sur les tendances
profondes
des séries et fournit des indicationssur leur évolution à
long
terme.Bibliographie
[1]BOX-JENKINS
(1976) Time SeriesAnalysis - Forecasting
and controlHolden-day.
[2]
G. JENKINS (1981) Case Studies in time seriesanalysis -
GJP Publication.[3]
O. ANDERSON (1980)Forecasting
Public Utilities - North Holland.[4]
G. MAC LEOD (1983) Bok-Jenkins inpratice -
GJP Publication.[5]
R. MAC CLEARY (1980)Applied
time seriesanalysis
for social sciences -Sage
Publications.