R EVUE DE STATISTIQUE APPLIQUÉE
L AURENT F ERRARA
D OMINIQUE G UEGAN
Analyse d’intervention et prévisions. Problématique et application à des données de la RATP
Revue de statistique appliquée, tome 48, n
o2 (2000), p. 55-72
<http://www.numdam.org/item?id=RSA_2000__48_2_55_0>
© Société française de statistique, 2000, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE D’INTERVENTION ET PRÉVISIONS.
PROBLÉMATIQUE ET APPLICATION
À DES DONNÉES DE LA RATP
Laurent
Ferrara*, Dominique Guegan**
* Université de Paris XIII, CNRS UMR 7539 - RATP,
Département
Commercial, LAC A 73, 54 Quai de la Rapée, 75599 Paris Cedex 12,e-mail :
Laurent.Ferrara@ratp.fr
* * Université de Reims, UPESA 6059 - ENSAE-CREST, Timbre J340, 3 Avenue Pierre Larousse, 92245
Malakoff
Cedex (France),e-mail :
guegan@ensae.fr
RÉSUMÉ
Les séries
chronologiques
de trafic ou de ventes de titres de la RATP sont souventperturbées
par des événementsspéciaux.
Lors de la modélisation d’une série,l’analyse
d’intervention (Box et Tiao (1975))
prend
en compte ces interventions extérieures et fournitune mesure de
l’impact
de celles-ci sur la série. Nousanalysons
les effets de cettetechnique
d’intervention pour différentes fonctions et nous
appliquons
cetteapproche
sur des sériesréelles.
Mots-clés : Série
chronologique, analyse
d’intervention, mesured’impact.
ABSTRACT
RATP’s time series of traffic or ticket sales are often affected
by particular
events. Whenmodelling
a time series, the interventionanalysis
(Box and Tiao (1975)) allows to take into account the various extemal interventions and togive
a measure of theirimpact
on the series.We
analyze
the effects of this interventiontechnique
for various functions and weapply
thisapproach
to real series.Keywords :
Time series, interventionanalysis,
measureof
impact.1. Introduction
Lorsqu’on
essaie de modéliser des sérieschronologiques
à caractère écono-mique,
on est amené à tenircompte
d’événements de naturediverse,
extérieurs aumodèle, qui
viennentperturber
les séries. L’effet de ces événements se fait sentir soit56 L. FERRARA, D. GUEGAN
par la
présence
d’un ouplusieurs points
dits aberrants(outliers), qui
occasionnentune
rupture ponctuelle
dans lasérie,
soit par unchangement
sensible dans l’évolution de la série.Dans le cas des séries de ventes de titres et de trafic de la
RATP,
ces événementspeuvent prendre
pour forme aussi bien unegrève
dupersonnel
dont l’effet serépercute ponctuellement
sur la série detrafic, qu’une promotion publicitaire
pour un certaintype
de titre detransport,
dontl’impact
serépercute pendant plusieurs
mois sur la sériedes ventes de ce
produit.
Demême,
des modifications d’infrastructure ou certainesmesures
prises
par laRégie (mesures anti-pollution, anti-fraude, ...)
ont unimpact, plus
ou moins durable dans letemps,
sur certaines séries de ventes ou de trafic.Prendre en
compte
l’effet d’un événement extérieur sur une sériepermet
d’améliorer la modélisation de cettesérie,
mais surtout de mesurerl’impact
decet
événement,
cequi peut
être intéressant pourquantifier
l’effet d’une mesure oud’une
promotion publicitaire.
Cette mesure del’impact
pourraégalement
être utilisée pour établir des sériescorrigées
des valeursaberrantes,
aveclesquelles
il est souventpréférable
de travailler. Le but étant bien sûr d’améliorer la modélisation d’une série pourpouvoir
fournir de meilleuresprévisions
sur cette série.Box et Tiao
( 1975)
sont àl’origine
de la théorie dite de« l’analyse
d’intervention »qui
permet deprendre
encompte
différentes interventions extérieures au modèle lors de la modélisation d’une sériechronologique. L’apport
del’analyse
d’intervention àune modélisation de série de
type,
parexemple,
SARIMA(Box
et Jenkins(1970)),
sesitue au niveau de l’information
disponible
aupraticien
pour modéliser cette série. Eneffet, l’approche
de Box et Jenkins(1970)
utilisesimplement
l’informationquantita-
tive contenue dans les
données,
alors quel’analyse
d’interventionpermet d’ajouter
demanière additive une information de
type qualitatif,
par le biais de variables binairesexogènes.
De nombreux auteurs se sont intéressés par la suite à
l’analyse
d’intervention et sesapplications
et ontcomplété
les travaux de Box etTiao;
nous citerons enparticulier Bhattacharyya
etLayton (1979),
Tiao(1985), Tsay (1986),
Brockwell etDavis
(1987), Chang et
al.(1988)
etBox,
Jenkins et Reinsel(1994).
Le but de notre étude est de mettre en évidence l’intérêt de la théorie de
l’analyse
d’intervention pour la modélisation des séries de trafic et de ventes de titres de la RATP.
Pour cela nous
précisons
les différentstypes
d’intervention que l’onpeut envisager,
nous les illustrons à
partir
de simulations etd’exemples d’applications possibles, puis
nous traitons en détail une série de données réelles.
Cet article se
décompose
donc en troisparties;
nousprésentons
dans lepremier paragraphe
les bases de la théorie del’analyse
d’intervention.Puis,
dans le secondparagraphe,
nous nous intéressons à certainstypes
de modèles d’intervention que nousdéveloppons
et dont nous montrons l’intérêt à l’aided’exemples
réelset de simulations. Enfin nous donnerons dans le dernier
paragraphe
unexemple d’application :
comment utiliserl’analyse
d’intervention pour mesurerl’impact
desmesures
anti-pollution
et d’unegrève
desagents
sur le trafic du Métropendant
lemois d’octobre 1997.
2. Le Modèle
La théorie de
l’analyse
d’interventiondéveloppée
par Box et Tiao( 1975) permet
deprendre
encompte,
lors de la modélisation SARIMA d’une sériechronologique,
des interventions extérieures au modèle. On
apporte
ainsi au modèlestatistique
uneinformation
supplémentaire
detype qualitatif, qui
estintégrée
de manière additive aumodèle à l’aide de variables déterministes
exogènes
detype
binaire. Onespère
ainsifournir une «meilleure» modélisation en terme
d’ajustement
du modèle auxdonnées, grâce
à l’utilisation d’un ensemble informationnelplus grand.
Nous allons suivre ici
l’approche développée
par Box et Jenkins(1970)
pour la modélisation SARIMA d’une série. Onrappelle qu’une
suite de variables aléatoires(Nt)t~z
est modélisée par un processus SARIMA(p
dq)(P
DQ)s,
si elle vérifie lesystème
suivant :(1 - B)d(1 - BS)D~(B)03A6(BS)Nt =
C +03B8(B)0398(BS)03B5, (2.1)
où B est
l’opérateur
défini sur les variables aléatoires de la manière suivante :B(Xt) = Xt-1
etBb(Xt)
=Xt-b
pour b >1,
où~(B)
est unpolynôme
en Bde
degré
p tel quecjJ(B)
= 1-~1B - cp2B2 -... - ~pBp,
où03A6(B)
est unpolynôme
en B de
degré
P tel que03A6(B)
= 1 -03A61B - 03A62B2 - ... - 03A6PBP,
où03B8(B)
est unpolynôme
en B dedegré
q tel que03B8(B) =
1 +03B81B
+03B82B2
+ ... +03B8qBq,
où0398(B)
est un
polynôme
en B dedegré Q
tel queO(B) =
1 +B1B
+82B2
+... +OQBQ,
où
(Et)tEZ
est un processus bruit blancgaussien
de varianceu 2 S représente
lasaisonnalité de la
série,
C est une constante et(d, D)
EN2.
Les différences d’ordre d et les différences saisonnières d’ordre D doivent permettre de rendre la suite de variables aléatoires faiblement stationnaire.
Pour illustrer une série que l’on peut
ajuster
par un modèleSARIMA,
nousdonnons
(graphique 1) l’exemple
de la série des ventes mensuelles de CartesOrange
Mensuelles
(COM), de janvier
1990 à novembre 1995 sur l’ensemble du réseau RATP.Une étude effectuée sur cette série a
permis
de la modéliser par un processus SARIMA(2
01 )(0
11),
avec une saisonnalité S de 12 mois.Nous allons maintenant faire une
présentation théorique
du modèle d’interven- tion de Box et Tiao(1975),
et nousprésentons
auparagraphe
suivant des simulations et desexemples
réelsoriginaux.
On note
(Xt)t~Z
la suite de variables aléatoires àmodéliser, perturbée
par une intervention extérieure. Le modèle d’interventionproposé
par Box et Tiao seprésente
alors sous la forme suivante :
où
(Nt)t~Z
estsupposé
suivre un modèle SARIMA sans constante de la forme(2.1), cv(B)
est unpolynôme
en B dedegré s
tel que03C9(B)
=1 - 03C91B - 03C92B2 -...-03C98B8, 8(B)
est unpolynôme
en B dedegré
r tel que8(B)
= 1-81B - b2 B 2 -
... -8rBr
et b est un entier
qui représente
un retard à déterminer.58 L. FERRARA, D. GUEGAN
GRAPHIQUE
1Evolution mensuelle des ventes de COM de
janvier
1990 à novembre 1995.La fonction déterministe
03B4-1(B)03C9(B)Bb03BEt, représente
l’effet de l’interventionqui
vients’ajouter
de manière additive au bruit(Nt)t~Z,
elle estappelée fonction
d’intervention.
Dans
l’équation (2.2),
la suite de variables aléatoires(03BEt)t~Z représente
l’effetd’une intervention extérieure à la date
t’,
mis sous la forme d’une variable déterministequi prend
pour valeur 1 ou 0 suivant laprésence
ou l’absence de l’intervention. Cette variable est engénéral
modélisée par deux classes de fonctions :- une fonction en forme de saut
- une fonction en forme
d’impulsion :
On remarque
cependant
quegrâce
àl’égalité
suivante :(1 - B)S(t’)t = P(t’)t,
on peut
toujours
passer d’un saut à uneimpulsion.
Plus
généralement,
la sériechronologique peut
êtreperturbée par k
interventions de natures différentes. Avec les notationsprécédentes,
le modèle d’intervention(2.2)
a alors une
représentation plus générale
donnée par :où, pour j = 1, ... k, Wj (B)
est unpolynôme en B de degré lj, 03B4j(B)
est unpolynôme
en B de
degré
rjet bj
est un entierqui représente
un retard à déterminer.Une
hypothèse
fondamentale lors de l’utilisation del’analyse
d’intervention est que la structure dumodèle,
parexemple SARIMA,
soit la même avant etaprès
l’intervention.
Ainsi, après
avoir déterminé la date d’intervention(problème
surlequel
nousrevenons à la fin du
paragraphe 3),
on fixe alors les deux sous-ensembles de donnéescorrespondant
à l’évolution du processus avant etaprès
l’intervention. Onajuste
ensuite le même modèle sur chacun de ces deux sous-ensembles. Dans notrecadre,
comme nous nous intéressons aux processuslinéaires,
nous chercherons àajuster
un processus SARIMA à l’aide des outilsclassiques
que sont les fonctions d’autocorrélation et d’autocorrélationpartielle.
En ce
qui
concerne la forme de la fonctiond’intervention,
il n’existe pas de méthodeautomatique
fiablepermettant
de la déterminer.Cependant
Box etTiao
(1975)
ontproposé
différentstypes
de fonctionspermettant
des’adapter
àla forme
graphique
queprend
lasérie,
suite à l’effet de l’interventionextérieure,
d’oùl’importance
d’uneanalyse graphique
ougéométrique
de la série à étudier.Cette
analyse graphique
nécessite donc uneapproche
locale de la sériequi s’éloigne
de
l’analyse
souventglobale
utiliséequand
on fait une modélisationparamétrique
d’un processus. Dans le
paragraphe suivant,
nous allons nous intéresser àquelques
types de fonctions d’intervention que l’on rencontre en
pratique.
Une fois le modèle d’intervention correctementspécifié,
l’estimation desparamètres
du modèle se faitalors par la méthode des moindres carrés non linéaire
qui
nécessite l’utilisation d’une des méthodes degradient, qui
sont desalgorithmes
itératifs de minimisation.Pour effectuer nos calculs nous avons utilisé le
logiciel
RATS 4.3qui
utilisel’algorithme
de Gauss-Newton. Deplus
celogiciel permet
l’estimation simultanée de l’ensemble desparamètres
du modèle d’intervention.On se propose de
présenter
dans leparagraphe
suivant troistypes classiques
defonctions d’intervention que nous illustrerons. Nous tr aitons en détail un
exemple
desérie au
paragraphe
4.3.
Exemples
et SimulationsNous avons
souligné
dans leparagraphe
2 que le choix apriori
d’une fonction d’intervention est assezsubjectif
car ildépend
de la formegraphique
et despropriétés géométriques
de la série.Cependant,
il existeplusieurs
fonctions d’intervention«type», qui permettent
de modéliser laplupart
desphénomènes
d’intervention quenous avons rencontrés dans les séries
chronologiques
de trafic ou de vente de titres detransport
de la RATP. Dans ceparagraphe,
nous allonsprésenter
troistypes
de modèles d’interventiondifférents,
utilisant chacun une fonctiond’impulsion
comme variableexogène
déterministe. Afin de mieux visualiser lephénomène,
nous avons illustréchaque type
d’intervention d’un schéma local et d’une simulation de série. Poursouligner
l’intérêt de chacun de ces trois modèlesd’intervention,
nous fournissons pour chacun des cas unexemple original
de série surlequel
il semble intéressantd’ajuster
le modèle d’intervention concerné.60 L. FERRARA, D. G UEGAN 3.1. Modèle avec intervention
ponctuelle
Supposons
que l’on observeX1,..., Xn,
... unetrajectoire.
On supposequ’elle
est la réalisation d’un processus SARIMA
(Xt)tEZ, Supposons
d’autrepart qu’à
ladate
unique t
= t’ l’évolution de cettetrajectoire
soitperturbée
par une interventionextérieure,
c’estl’exemple
de laprésence
d’unpoint
aberrant dans lasérie,
que l’ona schématisé par le
graphique
2.GRAPHIQUE
2Représentation
locale de l’intervention.Le modèle d’intervention s’écrit alors sous la forme suivante :
où
(Nt)t~Z
suit un processus SARIMA défini par(2.1)
sans constante et oùPl’
estune
impulsion
autemps t
= t’. Leparamètre
Woreprésente l’impact
de l’intervention extérieure sur la série. Son estimationpermet
de donner une mesure de cetimpact.
Dans la littérature
anglo-saxonne
ce modèle estappelé
detype
AO(additive outlier) (Box,
Jenkins et Reinsel(1994)).
Nous examinons à l’aide d’une simulation l’influence d’un tel
impact.
Pourcela,
on a simulé une série(Yt ) tE z générée
par lesystème suivant;
où C =
50,
03C90 =-49,
et oùplaa
= 1 si t = 100 et 0 sinon. La série(Ct)tEZ
des
perturbations
aléatoires est obtenue en effectuant untirage
aléatoireparmi
lesréalisations d’une variable
gaussienne
de moyenne nulle et de varianceégale
à 1. Lavaleur des deux
paramètres
du processus SARIMA est arbitrairementchoisie,
maisces
paramètres
sont tels que le processus créé soit stationnaire( |~1| 1)
et inversible(|03B81| 1).
On choisitdonc ~1 = 03B81 =
0.5. La série obtenue estreprésentée
sur legraphique
3.Considérons maintenant à titre
d’exemple
une série observée surlaquelle
cetype
de modélisationpeut s’appliquer.
Legraphique
4représente
la série du traficjournalier
sur le Métro pour les voyageurspossédant
un titre detransport
«Paris-Visite»,
pour le mois dejuin
1997. Ce titre detransport,
destinéprincipalement
auxtouristes visitant la
Capitale, permet
d’effectuerplusieurs trajets par jour
sur le réseaude la RATP avec le même titre. En raison de l’afflux de touristes en fin de
semaine,
on observe unepériodicité
desept jours
avec unpic
le samedi. Partout en France a lieu le 21juin
la «Fête de laMusique».
A cette occasion la RATP édite un titrespécial
GRAPHIQUE
3Simulation de la série
Y(t).
GRAPHIQUE
4Evolution du
trafic journalier
pour le titre «Paris-Visite» dans leMétro,
pour le mois de
juin
1998.permettant
d’effectuer un voyage aller-retour dans la soirée du 21juin
au 22juin,
surl’ensemble du
Métro,
du RER et du réseau SNCF. Pour des raisonsinformatiques,
cetitre était codé en
juin
1997 comme un titre detransport
«Paris-Visite» et nepouvait
donc pas être
distingué
des autres titres «Paris-Visite»classiques
utilisés ce mêmejour.
Après
une étude attentive de lasérie,
on constatequ’elle peut
être modélisée à l’aide d’un modèle muni d’une interventionponctuelle
à la date du dimanche 21juin
pour obtenir
l’impact
sur le trafic du Métro del’opération
sur le titre«Paris-Visite»,
liée à la Fête de laMusique.
La mesure de cetimpact
sera fournie par la valeur estimée duparamètre
Wa.3.2. Modèle avec intervention à
effet
rémanentNous supposons
maintenant,
en utilisant les mêmes notationsqu’au
début duparagraphe 3.1.,
que l’intervention autemps t
= t’ vientperturber
l’évolution de la62 L. FERRARA, D. GUEGAN
GRAPHIQUE
5Représentation
locale de l’intervention.série avec un effet
qui
décroîtprogressivement
dans letemps,
defaçon exponentielle.
Cette intervention est schématisée par le
graphique
5.Le modèle d’intervention s’écrit alors sous la forme suivante :
où
(Nt)t~Z
suit un processus SARIMA de la forme(2.1)
sans constante et oùPl’
estune
impulsion
autemps t
= t’. Leparamètre
Woreprésente l’impact
de l’intervention extérieure sur la série(son
estimation fournira une mesure de cetimpact)
et A est unparamètre
strictementcompris
entre 0 et 1qui
mesure la vitesse de décroissance de l’effet de l’intervention. Enclair,
si À estproche
de0,
celasignifie
quel’impact
estquasiment ponctuel (on
se ramène alors au casprécédent)
et si À estproche
de1,
celasignifie
quel’impact
seprolonge
dans letemps.
Dans la littératureanglo-saxonne
ce modèle est
appelé
detype
TC(temporary
or transientchange) (Box,
Jenkins etReinsel (1994)).
Il est à noter que pour modéliser un choc dont l’effet se
répercute
dans le temps, le modèle suivant estparfois
utilisé :où
(Nt)t~Z
suit un processus SARIMA(p
0q)(0
00)
de la forme(2.1)
sans constante, oùPl’
est uneimpulsion
autemps t
== t’ et~(B)
et03B8(B)
sont lespolynômes
en Bde la structure SARIMA. Dans la littérature
anglo-saxonne
ce modèle estappelé
detype
10(Innovation Outlier) (Box,
Jenkins et Reinsel(1994)).
Nous allons montrer sur une simulation l’effet rémanent de ce
type
d’interven- tion décrit en(3.2).
Pourcela,
on a simulé une série(Yt)tEZ générée
par lesystème suivant;
où C =
50,
cvo --49, A =
0.7 et oùPloo
= 1 si t = 100 et 0 sinon. La série(03B5t)t~Z
desperturbations
aléatoires est obtenue en effectuant untirage
aléatoireparmi
les réalisations d’une variable
gaussienne
de moyenne nulle et de varianceégale
à 1.La valeur des
paramètres
du processus SARIMA est la même que dans le modèle(*).
La série que l’on obtient est
représentée
sur legraphique
6.Considérons maintenant à titre
d’exemple
une série observée surlaquelle
cetype
de modélisationpeut s’appliquer.
GRAPHIQUE
6Simulation de la série
Y(t).
GRAPHIQUE
7Évolution
des ventes hebdomadaires de Billets sur le réseauferré
du 1er
septembre
1995 au 4 avril 1996.La série des ventes de billets sur le réseau ferré a été fortement
perturbée,
comme l’ensemble des séries de trafic ou de vente de titres de la
RATP,
par lesgrèves
des
agents
de la RATPqui
ont eu lieu durant le mois de décembre 1995 sur la totalité du réseau. A la fin de lagrève,
lareprise
des ventes de billets s’est alors effectuée de manièreprogressive.
Legraphique
7représente
l’évolution des ventes hebdomadaires de billets sur l’ensemble du réseau ferré entre le 1 erseptembre
1995 et le 4 avril 1996.Cette série
peut
être modélisée à l’aide d’un modèle avec intervention à effet rémanent àpartir
de la semaine 14. La mesure del’impact
de lagrève
sur les venteshebdomadaires de Billets sera fournie par la valeur estimée du
paramètre
wo.3.3. Modèle avec intervention à
effet
rémanent etchangement
de niveauNous supposons
maintenant,
en utilisant les mêmes notationsqu’au
début duparagraphe 3.1.,
que l’intervention autemps t
== t’ vientperturber
l’évolution de la série avec un effet rémanent suivi d’unchangement
de niveau. Cette intervention estschématisée par le
graphique
8.64 L. FERRARA, D. GUEGAN
GRAPHIQUE
8Représentation
locale de l’intervention.Le modèle d’intervention s’écrit alors sous la forme suivante :
où
(Nt)t~Z
suit un processus SARIMA de la forme(2.1)
sans constante et oùPt’t
est une
impulsion
autemps t
= t’. Leparamètre
W1représente
la différence de niveau consécutive auchoc,
W1 sera doncpositif
si le niveau observéaprès
le chocest
supérieur
au niveau observé avant lechoc,
etnégatif
sinon. La somme de Wo et W1représente l’impact
de l’intervention extérieure sur lasérie,
son estimation fourniraune mesure de
l’impact
de l’intervention. De même queprécédemment, À
mesure lavitesse de décroissance de l’effet de l’intervention. Dans la littérature
anglo-saxonne
ce modèle est
appelé
detype
LS(level shift) (Box,
Jenkins et Reinsel(1994)).
Il se peutcependant
que la série soit affectée par unchangement
de niveau consécutif à unchoc,
sans pour autant que l’effet rémanent du choc décroisseprogressivement.
Nousillustrons ce cas par le
graphique
9.GRAPHIQUE
9Représentation
locale de l’intervention.Cette
situation, qui
estplus spécifique
que celle décrite en(3.3),
est alorsmodélisée par
l’équation
suivante(À
=1) :
Nous allons montrer sur une simulation l’effet de ce
type
d’intervention décrit en(3.3).
Pourcela,
on a simulé une série(Yt)tEZ générée
par lesystème suivant;
où C =
50,
Wo =-30,
W1= -20, A
= 0.7 et oùPloo
= 1 si t = 100 et 0 sinon. Lasérie
(03B5t)t~Z
desperturbations
aléatoires est obtenue en effectuant untirage
aléatoireGRAPHIQUE
10Simulation de la série
Y(t).
parmi
les réalisations d’une variablegaussienne
de moyenne nulle et de varianceégale
à 1. La valeur desparamètres
du processus SARIMA est la même que dans le modèle(*).
La série que l’on obtient estreprésentée
sur legraphique
10.Considérons maintenant à titre
d’exemple
une série observée surlaquelle
cettemodélisation
peut s’appliquer.
La série mensuelle de trafic par
jour
ouvrable sur l’ensemble du Métro a été fortementperturbée
par lesgrèves
de décembre1995,
mais aussi par les attentats et les alertes à la bombequi
ont eu lieu dans Paris durant les mois dejuillet
à octobre1995. Les
grèves
ontperturbé
le trafic de manièreponctuelle
au mois de décembre1995,
mais on observe que par lasuite,
lareprise
du trafic s’est effectuée à un niveau inférieur à celui observé avant lesgrèves.
Legraphique
11représente
cette sériedésaisonnalisée ainsi que sa tendance.
Cette série
peut
être modélisée à l’aide d’un modèle avec intervention à effet rémanent etchangement
de niveau àpartir
du mois décembre 1995. La mesure del’impact
de lagrève
sur le trafic du Métro pour le mois de décembre 1995 sera fournie par la valeur estimée desparamètres (wo
+03C91).
La mesure de la baisse de trafic due à ces événements sera fournie par la valeur estimée duparamètre
03C91.Remarque :
Dans le cadre des
exemples
que nous avonsproposés,
les dates des données aberrantes sont connues au début de l’étude. Mais il sepeut
que dans certains cas,ces dates soient inconnues ou connues de manière
imprécise;
il faut alors détecter lespoints
aberrants dans la série d’étude. Plusieursapproches
ont étédéveloppées
pour détecter les
points
aberrants d’une série et caractériser letype
d’intervention à utiliser(AO, 10,
LS ouTC),
à l’aide deprocédures
itératives. Pour unedescription approfondie
de cesprocédures
de détection que nous ne considérons pas dans cepapier,
voirDenby
et Martin(1979),
Tiao(1985), Chang et
al.(1988),
Chen et Liu(1990), Box,
Jenkins et Reinsel(1994).
66 L. FERRARA, D. GUEGAN
GRAPHIQUE
11Évolution
mensuelle dutrafic
sur le Métropar jour
ouvrabledu mois de
janvier
1990 au mois d’avril 1998.-4.
Application
à des données de trafic de la RATPOn se propose de mettre en
pratique l’analyse
d’intervention sur unexemple original.
On s’intéresse donc à la série de traficjournalier
sur leMétro,
entre le 1 erseptembre
1997 et le 31 octobre 1997. Legraphique
12représente
cette série que l’onnotera
(Yt)t~Z
par la suite.On se propose de modéliser dans un
premier temps
cettesérie,
l’ensembled’apprentissage
de la série étant constitué par les données du 1 erseptembre
au 26octobre
1997, puis
on effectuera ensuite desprévisions
sur lapériode
du lundi 27 auvendredi 31 octobre 1997.
Une
première analyse graphique permet
de constater laprésence
de deuxpoints
aberrants dans la série aux dates du ler octobre et 8 octobre.L’historique
des événements
particuliers
de la RATP révèle que ces datescorrespondent
auxévénements suivants :
Mercredi 1 er octobre : alerte à la
pollution
de niveau 3 en Ile deFrance,
cequi
aentraîné des restrictions de circulation
(plaques
d’immatricu- lationpaires
ouimpaires)
ainsi que lagratuité
de tous les modesde
transport
en commun.Mercredi 8 octobre :
grève partielle
desagents
de laRégie
sur l’ensemble du réseau de la RATP.Il semble donc
judicieux
d’utiliser un modèle à deux interventionsponctuelles
aux dates du 1 er octobre et du 8 octobre pour modéliser cette
série,
c’est-à-dire le modèle défini parl’équation (2.3),
avec k = 2. On suppose deplus
que ces deuxévénements
ponctuels
ont peu de chance de modifier durablement les habitudes des voyageurs duMétro,
onnéglige
ainsi laprésence
éventuelle d’un effet rémanent deces deux événements sur la série. Notre étude s’effectue en 5
étapes :
GRAPHIQUE
12Évolution
dutrafic journalier
sur le Métro du 1erseptembre
1997 au 31 octobre 1997.Étape
1 : Recherche de la structure du modèle SARIMAEn utilisant les fonctions d’autocorrélation et d’autocorrélation
partielle
surl’ensemble des données
d’apprentissage (voir graphes
14 et 15 enappendice),
onretient un modèle de la forme SARIMA
( 10 0)(111)
sans constante et de saisonnalitéégale à 7.
Étape
2 : Estimation du modèle SARIMAOn estime alors le modèle obtenu par la méthode des moindres carrés non
linéaire,
et on obtient les résultats suivants :Les
paramètres
de lapartie AR,
saisonnière etnonsaisonnière,
sontsignificati-
vement
égaux
à0, d’après
le test de Student avec unrisque
ex de5%,
mais on suppose que cela est dû aux 2points
aberrants de la série.Afin de comparer la
qualité d’ajustement
des modèles auxdonnées,
on utilise comme critère à minimiser le RMSE(Root
MeanSquared Error),
défini par :où T est le nombre
d’observations,
p est le nombre deparamètres
dumodèle, (Xt) tE z
est la série à modéliser et
(t)t~Z
est la série estimée. On obtient ici une valeur du RMSEégale
à 349 580 que l’on essaiera de diminuer par la suite.Étape 3 :
Structure de la fonction d’interventionOn suppose donc que la série est
générée
par un processusqui
suitl’équation
(2.3)
avec kégal
à 2. Si on notepp110
la variablequi
vaut 1 à la date du 1er octobre68 L. FERRARA, D. GUEGAN
et 0
sinon,
etpp810
la variablequi
vaut 1 à la date du 8 octobre et 0sinon,
le modèleest alors donné par :
Étape 4 :
Estimation du modèle d’interventionOn estime les
paramètres
du modèle par la méthode des moindres carrés nonlinéaire,
et on obtient les résultats suivants :Les
paramètres
du modèle sont toussignificativement
différents de0, d’après
le test de Student avec un
risque
a de 5%. La valeur du RMSE estégale
73006,
cequi représente
ungain
de79,2%
sur laqualité d’ajustement
du modèle aux donnéessans intervention.
Ainsi,
on estime que les mesuresanti-pollution
ontgénéré
pour lajournée
du1 er octobre 1997 un
apport
de 396 677 voyageurssupplémentaires
sur le Métro et quela
grève
desagents
du mercredi 8 octobre a entraîné laperte
de 1 709 838 voyageurssur le Métro pour cette
journée.
La sériecorrigée
de trafic sur le Métro s’obtient alorsen retranchant
l’impact
estimé des événements :Nous donnons
(graphique 13)
les deuxtypes
d’estimations obtenues soit par la méthodeclassique
de Box etJenkins,
soit parl’analyse
d’intervention sur les deux dates.Étape 5 : Impact
sur lesprévisions
Il est clair que la
possible prise
encompte
d’événements extérieurs par l’ana-lyse
d’intervention améliore la modélisation d’unesérie,
onpeut
alors se demander s’il en est de même pour laqualité
desprévisions.
On va donc essayer deprévoir
letrafic
journalier
sur le Métro pour lapériode
du lundi 27 octobre au vendredi 31 octo- bre 1997 en utilisant les deux différentes méthodes de modélisation. On utilise commeEstimation Box et Jenkins
Estimation
Analyse
Intervention(En trait plein, la série observée et en trait pointillé, la série estimée.)
GRAPHIQUE
13Estimations du
trafic journalier
sur le Métro.critère de
comparaison
leRMSE(f7
défini par :où h est l’horizon de
prévision
etT(i)
est laprédiction
obtenue pourXT+i
pourh.
Le tableau 1 donne les valeurs obtenues en
prévision
etpermet
de comparer, à l’aide des écartsrelatifs,
les données réelles et les données estimées par chacune des méthodes.L’écart relatif
journalier
nousindique
que lesprévisions journalières
sont demeilleure
qualité (sauf
pour levendredi) lorsqu’on
utilisel’analyse
d’intervention.Sur l’ensemble des
cinq jours
ouvrables on observeégalement
une diminution de l’erreur deprévision RMSE(f)
de81,1%,
ainsiqu’une
forte baisse de la moyenne des écarts relatifs. Ceci montre quel’analyse
d’interventionpermet
une nette amélioration de laqualité
desprévisions.
70 L. FERRARA, D. GUEGAN TABLEAU 1
Prévisions du
trafic
sur le Métro du lundi 27 octobre 1997 au vendredi 31 octobre 1997.(Les valeurs entre parenthèses sont les écarts relatifs journaliers).
5. Conclusion
Cette étude avait pour
objectif
deprésenter l’analyse d’intervention,
de montrer les différents effetsqu’elle permet
de mesurer et de mettre en évidence son intérêt pour lepraticien qui
désire modéliser des séries à caractèreéconomique,
souventperturbées
par des
phénomènes
extérieurs. Nous avonssouligné
au travers deplusieurs exemples
l’efficacité de cette méthode pour modéliser certaines séries d’intérêt pour la RATP et fournir une mesure de
l’impact
d’une ouplusieurs
interventions extérieures sur la série.Or, pouvoir
mesurer de manière fiablel’impact
d’unegrève
ou d’unepromotion
sur un titre de
transport
faitpartie
du rôle duDépartement
Commercial au sein de la RATP.L’analyse
d’interventionpermet
d’améliorerl’ajustement
du modèle de Box et Jenkins aux données d’une sériechronologique
car elleprend
encompte
dans la construction du modèle unplus grand
ensemble informationnel. Deplus, l’application
que nous avons traitée a
permis
de constater une nette amélioration sur lesprévisions
effectuées à
partir
d’une sérieperturbée lorsqu’on
utilisel’analyse
d’intervention depréférence
au modèleclassique
de Box et Jenkins sans intervention. Cettepropriété
n’était pas évidente au
départ,
car on a constaté parexpérience qu’un
modèlefournissant le meilleur
ajustement
aux données d’une série(selon
le critère duRMSE)
ne fournit pas forcément les meilleures
prévisions (selon
le critère duRMSE(f)).
Cependant,
les limites del’analyse
d’intervention sont atteintes en mêmetemps
que celles de la théorie de Box et Jenkins.
Ainsi,
il serait intéressant d’observer lecomportement
de cette théorie sur des processus nonlinéaires,
enparticulier
surdes processus
présentant
despropriétés
delongue mémoire,
ce que nouscomptons développer
dans unprochain
article. Demême,
il serait intéressantd’envisager
uneutilisation a
priori
del’analyse d’intervention, qui permettrait
deprévoir
différentsscénarii d’évolution d’une série consécutivement à un choc.
APPENDICE ACF
PACF
GRAPHIQUE
14Fonctions d ’autocorrélation
(ACF)
et d ’autocorrélationpartielle (PACF)
de la série detrafic journalier
sur le Métro : Y(t).
ACF
PACF
GRAPHIQUE
15Fonctions d ’autocorrélation
(ACF)
et d’autocorrélationpartielle (PACF)
de la série detrafic journalier
sur le Métrodifférenciée
saisonnièrement :(1 - B7)Y(t).
72 L. FERRARA, D. GUEGAN Références
M.N. BHATTACHARYYA and A.P. LAYTON
(1979),
«Effectiveness of seat beltlegislation
on theQueensland
road toll - an Australian casestudy
in interventionanalysis»,
Journalof
the American StatisticalAssociation, 74,
596-603.G.E.BOX and G.M. JENKINS
(1970),
Time SeriesAnalysis, Forecasting
andControl, Holden-Day,
San Francisco.G.E.
BOX,
G.M. JENKINS and G.C. REINSEL(1994),
Time SeriesAnalysis, Forecasting
and Control(Third Edition),
PrenticeHall, Englewood Cliffs,
NewJersey.
G.E.
BOX,
and G.C. TIAO(1975),
«Interventionanalysis
withapplications
to econo-mic and environmentals
problems»,
Journalof
the American StatisticalAssociation, 70, 70-79.
P.J. BROCKWELL and R.A. DAVIS
(1987),
Time Series :Theory
andMethods, Springer-Verlag,
New-York.I.
CHANG,
G. TIAO and C. CHEN(1988),
«Estimation of Time Series Parameters in the Presence ofOutliers», Technometrics, 30, 2,
193-204.C. CHEN and L.M. LIU
(1990),
«Joint Estimation of Models Parameters and Outlier Effects in TimeSeries»,
Journalof
the American StatisticalAssociation, 88, 421,
284-297.L. DENBY and R. MARTIN
(1979),
«Robust Estimation of the First Order Autore-gressive Parameter»,
Journalof
the American StatisticalAssociation, 74,
140-146.G.C. TIAO
(1985), «Autoregressive moving
averagemodels,
interventionproblems
and outlier detection in time
series »,
Handbookof Statictics,
Vol.5,
E.J.HANNAN,
P.R. KRISHNAIAH and M.M. RAO editions.
R.S. TSAY