R EVUE DE STATISTIQUE APPLIQUÉE
A. M ORINEAU
A.-E. S AMMARTINO
M. G ETTLER -S UMMA
C. P ARDOUX
Analyses des données et modélisation des séries temporelles. Application à la prévision des ventes de périodiques
Revue de statistique appliquée, tome 42, n
o4 (1994), p. 61-81
<http://www.numdam.org/item?id=RSA_1994__42_4_61_0>
© Société française de statistique, 1994, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSES DES DONNÉES ET MODÉLISATION
DES SÉRIES TEMPORELLES
Application à la prévision des ventes de périodiques
A.
Morineau(1),
A-E.Sammartino(1),
M.Gettler-Summa(2),
C.Pardoux(2) (1)CISIA
Centre International deStatistique
etd’Informatique Appliquées
(2)
LISE-CEREMADE, Université ParisIX-Dauphine
RÉSUMÉ
Une même variable est observée aux mêmes dates sur un
grand
nombre depoints
d’observations, constituant ainsi autant de sérieschronologiques.
Onpourrait
chercher unmodèle de
prévision
pourchaque
série. Considérant leprincipe
deparcimonie
et le faitque l’évolution d’une série peut être
expliquée
par ses valeurspassées
et celles des séries corrélées, onprend
leparti
desynthétiser
l’ensemble des séries par unpetit
nombre de sériesreprésentatives.
On commence par une classification despoints
d’observation en utilisant les facteurs résultant d’uneanalyse
descorrespondances qui
élimine l’effet taille. Uneanalyse
en composantesprincipales
sur la matrice de covariances dechaque
classe permet de trouver leschroniques représentatives.
Desprévisions
peuvent être obtenues pourchaque point
d’observation à
partir
d’un modèle SARIMA.L’application
porte sur laprévision
des ventesd’un hebdomadaire, les
points
d’observation des ventes étant lesgrossistes.
Mots-clés :
Analyse
en composantesprincipales, Analyse factorielle
descorrespondances, Classification,
Modèle SARIMA, Prévision, Sériechronologique.
SUMMARY
In order to
develop
aforecasting
model onmultiple
time series(all
of which involve thesame variable and have been observed at the same
dates),
aforecasting
model can be derivedfor each of the individual series.
According
to theparsimony principle
as well as the ideathat
temporal changes
can beexplained by previous
values and values of other correlated time series, it should beinteresting
to haveonly
a few well chosenrepresentative
models. First, a clusteranalysis
isperformed, using
the results of acorrespondence analysis,
to separate theN individuals in K groups. Then a
principal
componentsanalysis
on the covariance matrix of each group allows us to find a few time seriesrepresentative
for each group. Aforecasting
method
using
a SARIMA model isapplied
to these time series. Ourapplication
is carried out on newspaper sales.Keywords : Correspondence Analysis, Clustering, Forecasting, Principal Components Analy-
sis, SARIMA Model, Time Series.62 A. MORINEAU, A.E. SAMMARTINO, M.GETTLER-SUMMA, C. PARDOUX Introduction
L’objet
de ce travail est l’élaboration d’un outil d’aide à laprévision
pourun
grand
nombre d’unitésstatistiques
surlesquelles
ondispose
d’une connaissance venant du domained’application :
l’existence de classeshomogènes quant
à leur évolutiontemporelle.
Lescaractéristiques
de ces donnéesimpliquent
la mise en oeuvrerépétée
des méthodes del’analyse
des données d’unepart,
de la modélisation des sériestemporelles
d’autrepart.
L’étude
comporte
doncplusieurs phases
afin derépondre
auxpréoccupations
de
synthèse,
desimplification, puis
de modélisation concernant les données :2022 recherche des
codages
les mieuxadaptés
pour révéler la structure declasses,
2022
synthèse
des données paranalyse factorielle,
2022 définition de
sous-problèmes grâce
à une classification validée par les variablesillustratives,
2022 recherche de
chroniques
résumées pourchaque classe,
par uneanalyse
encomposantes principales,
2022 recherche de la méthode de
prévision
la mieuxadaptée
pour leschroniques
synthétiques
dechaque
classe afin d’obtenir desprévisions
pourchaque
unitéstatistique.
L’application permettra
de montrerl’importance
del’agencement
des différentesphases
dans l’élaboration de l’outil d’aide à laprévision.
Une des difficultés du
problème
réside dans laprise
encompte
de l’ordre induit par letemps
sur les variables actives del’étude,
car les matrices d’inertie brutesne
permettent
ni de différencier les unitéstemporelles,
ni de différencier les unitésstatistiques,
en raison de la force de la liaisontemporelle.
1. Présentation des données
L’étude concerne un hebdomadaire pour
lequel
ondispose
des ventes réaliséespar 1577
grossistes
sur unepériode
de 157 semaines. Ils’agit
de 3 années entièrescomprenant
une semaine notée 0précédant
la1 ère
semaine de la1 ère
année. Les données relatives à ces ventes seprésentent
sous la forme d’un tableaurectangulaire comportant
1577lignes correspondant
chacune à ungrossiste
et 157 colonnescorrespondant
aux numéros successifs de l’hebdomadaire.Chaque ligne
décrit donc le suivi des ventes hebdomadaires d’ungrossiste
sur lapériode
étudiée(tableau 1).
Quatre
colonnes dedescription s’ajoutent
à ce tableau des ventes : un numéro identifiant legrossiste,
l’indication de son secteurgéographique,
la «nature» dece
grossiste (type
dedépôt)
et enfin unecaractéristique
de saisonnalité de ses ventes(voir
le tableau4).
Ondispose
d’autres informations concernant les numéros de l’hebdomadaire ou les datecorrespondantes (nombre
dejours
de ventes dunuméro en
question, période
éventuelle de vacancesscolaires,
existence d’une campagnepromotionnelle, etc).
Ces informationspeuvent
êtreajoutées
dans deslignes supplémentaires
du tableau.Les
données, trop
nombreuses pour êtrepubliées ici,
sont schématisée dans le tableau 1.TABLEAU 1
xt(wi)représente le
nombre d’hebdomadaires n°t vendus par legrossite
wi2.
Typologie
desgrossistes
L’objectif
de cettepremière phase
de l’étude estd’opérer
une réduction du volume des données en vue de limiter le nombre de modèle deprévisions
de ventesà construire. En constituant des classes de
grossistes ayant
deschroniques
de ventescomparables,
onespère pouvoir
définir un modèle deprévision
valable pour tous les éléments dechaque
classe.Pour que la
typologie
desgrossistes
tiennecompte
au mieux des évolutions lesplus récentes,
on trouvepréférable (après
d’autresexpériences)
de la construire àpartir
des données de la dernière année d’observationseulement,
c’est-à-dire sur les 52 dernières semaines. Le tableau utilecomporte
donc enligne
les 1577grossistes
eten colonne les 52 dernières semaines d’observation.
2.1.
Analyse
descorrespondances préalable
Pour la constitution de classes de
grossistes susceptibles
d’avoir le même modèle deprévision,
on doit tenircompte,
non pas des volumesvendus,
mais du«profil»
des ventes dans letemps :
cesprofils
sont-ils semblables? Dans le tableau des données utiles définici-dessus,
on amène tous lesgrossistes
à avoir le même volume de ventes annuelles en divisantchaque
case par la somme des données enligne.
On définit ainsi leprofil-ligne
des ventes dugrossiste (voir
le tableau2).
64 A. MORINEAU, A.E. SAMMARTINO, M. GETTLER-SUMMA, C. PARDOUX
De
plus
on souhaite que, dans lacomparaison
desprofils,
deux dates d’obser- vationjouent
à peuprès
le même rôle même si les volumes moyens de ventes à cesdeux dates sont très différents. On
risquerait
sinon de ramener lacomparaison
desprofils
à la seulecomparaison
despics
desprofils.
TABLEAU 2
Principe
ducodage
en«profil»
L’analyse
descorrespondances [Benzécri, 1979]
utilise une distance entre leslignes
dutableau,
dite distance duKhi-2, qui répond
trèsprécisément
à ces critères.La distance entre
grossistes
est une distance entreprofils,
doncindépendante
desvolumes,
etqui
faitjouer
àchaque
date(colonne)
un rôleindépendant
du volumeglobal
des ventes de la date.On donne ci-dessous
l’histogramme
de décroissance des valeurs propres del’analyse.
Lapremière
valeurpeut paraître exagérément
forte pour un tableau de cette taille(75%
de la variancetotale).
Enréalité,
elle est essentiellement la traduction de la très forte corrélationtemporelle
des données.Les trois
premiers
facteurs del’analyse
rendentcompte
deprès
de 88% de ladispersion
des valeurs observées des ventes sur les 52 semaines de l’année. Les 12% restant serépartissent
sur les 10 axes suivant. On admettra que l’essentiel des liaisons structurelles entre les données est contenu dans cet espace des troispremières
dimensions(ce qui
revient à considérer commeperturbations
aléatoires cequi
estajouté
aux données par les dimensionsultérieures).
Enignorant
les dimensionsultérieures,
on réalise une sorte de«lissage»
des données ne retenant que lapartie
laplus
facile à comparer ou à modéliser.2.2.
Typologie
desgrossistes
La matrice initiale de dimension 1577 par 52 est ramenée à une matrice 1577 par 3 à la suite de
l’analyse
descorrespondances.
C’est sur ce tableau des données«lissées» que la classification sera réalisée. En utilisant la distance euclidienne usuelle
sur les coordonnées factorielles de
l’analyse
descorrespondances,
on évalue entre lesgrossistes
la distance entreprofils
de ventes tellequ’on
l’a souhaitée et définieplus
haut
(distance
duKhi-2).
La méthode de classification choisie est la classification
hiérarchique
utilisantle critère
d’agrégation
de Ward[Lebart et al., 1984].
L’intérêt de ce critère est icisa
«compatibilité»
avecl’analyse
factorielle(dans
la mesure où ils’agit
d’un critère basé sur lavariance)
et sa tendance à construire des classesplutôt « sphériques ».
Le
dendrogramme
des niveauxsupérieurs
de la hiérarchie(figure 1)
est dessinépour
guider
le choix du nombre de classes à retenir. On cherche à couper l’arbre à un niveauqui
met en évidence des branches bienséparées, chaque
branche necomportant
que des éléments trèsproches (notion
depalier
des indices deniveau).
A défaut d’un critère formel
d’optimalité (qui
de toutefaçon
nemanquerait
pasd’ arbitraire)
onpeut
choisirplusieurs partitions
pour ne retenir que cellequi
sembleraconvenir le mieux à
l’application.
Dans notreapplication, après plusieurs essais,
ona finalement retenu la
partition
en 6 classes.Noter que, du
point
de vue del’homogénéité
desclasses,
lapartition
créée par coupure d’un arbre ne saurait êtreoptimale.
Elle est en effet construite enrespectant
la contrainte d’emboîtement despartitions
successives de la hiérarchie. Onpeut
donc améliorer cettepartition
par uneprocédure
d’itérations autour de centres mobiles(dite procédure
deconsolidation).
Sur lafigure 1,
les effectifs entreparenthèses
donnent les effectifs des classes obtenues directement par la coupure; les effectifs sansparenthèses
sont ceux des classes
optimisées
obtenuesaprès
consolidation.Remarque.
Lastratégie
de classification enplusieurs phases (passant
par uneanalyse
factorielle pour ensupprimer
les derniers axes, suivie d’une classificationhiérarchique
utilisant le critère deWard,
avec coupure de l’arbre et consolidation de66 A. MORINEAU, A.E. SAMMARTINO, M.GE7TLER-SUMMA, C. PARDOUX
la
partition)
constitue l’ossature destypologies
dans[SPAD.N, 1993].
Lesarguments
pour cettestratégie,
essentiellementempiriques,
ne suffiraient pas àjustifier
les choixsi une assez
longue pratique
n’avaient pasdéjà
fait la preuve de son efficacité dans de nombreusesapplications.
Enréalité,
l’intérêt et la force de cettestratégie
est de«donner la main» à tout instant à l’utilisateur
qui
doit faire des choix et vérifier leurpertinence
à toutes lesétapes
des calculs.FIGURE 1
Dendrogramme
des derniers niveaux de la hiérarchiePartition en 6 classes
FIGURE 2 Les 6 classes de
grossistes
Les fréquences (volumes
deventes)
illustratives de la classe 4Du
point
de vue del’utilisateur,
laqualité
d’unepartition
doitêtre jugée
defaçon
ultime d’une
part
par lapossibilité
dejustifier
aposteriori
les regroupementsobtenus,
d’autrepart
par lesqualités opératoires
de ces classes pourrépondre
auproblème (ici,
le
problème
deprévision).
On retient dans cetteapplication
lapartition
en 6 classes(cf. figure 2)
et à titre d’illustration on étudieplus particulièrement
la classe 4(petite
classe de 27
grossistes
dont la listecomplète
est fournie dans le tableau5).
Le tableau 3 fournit une aide à
l’interprétation
duregroupement
desgrossistes
dans la classe 4. On y trouve, classés par ordre
d’importance,
les numéros(ou semaines)
où l’hebdomadaire estplus
vendu par la classe 4 que par le reste desgrossistes.
Voici unexemple
de lecture des résultats :2022 la colonne «POIDS» donne le volume des ventes; les autres chiffres sont des
pourcentages;
la classe 4 desgrossistes
réalise 1% seulement des ventes del’année;
2022 le numéro du 22 février
représente 4,14% (FRE/CLA)
des ventes réalisées parles
grossistes
de la classe4,
alorsqu’il représente
seulement1,82% (GLOBAL)
des ventes réalisées par l’ensemble des
grossistes;
2022
2,28% (CLA/FRE)
des ventes concernant ce même numéro ont été réalisées parles
grossistes
de la classe 4 alors que ces mêmesgrossistes
réalisent seulement 1%(GLOBAL)
du total des ventes(tous
numérosconfondus).
Ainsi on lit au fil de ce tableau que les
grossistes
de la classe 4 réalisent mieux que les autres les ventes des numéros defévrier, juillet
et août. Ceci constitue unepremière
indication sur la nature duregroupement qui
a été réalisé par la classification.TABLEAU 3 Caractérisation de la classe 4 par les volumes de ventes hebdomadaires
68 A. MORINEAU, A.E. SAMMARTINO, M.GEITLER-SUMMA, C. PARDOUX Les variables
qualitatives
illustratives de la classe 4On
peut
chercher à caractériser la classe 4 par les autres informationsdisponibles
et
qui
n’ont pasparticipé
à la construction des classes. Ils’agit
des colonnes illustratives du tableau :type d’agglomération
où se trouve legrossiste,
de saisonnalité des ventes,type
de secteurgéographique,
etc.Le tableau 4
présente,
par ordred’importance décroissante,
les élémentsqui expliquent
leregroupement
desgrossistes
de la classe. Cet ordre est défini par le critère situé dans la colonne «valeurs-tests»[cf.
Alevizos etal, 1992].
Lecritère,
assimilable à un nombred’écarts-types
d’une loinormale,
estpositif
si la modalité estsur-représentée
dans laclasse, négatif
si elle estsous-représentée.
Les valeurs absolues sont d’autantplus importantes
que l’attribut estplus caractéristique
de laclasse.
La classe 4 est une classe
homogène
formée degrossistes
caractérisés par une saisonnalité «Hiver-Eté»(la
«valeur-test» relative au code «saison» est trèssupérieure
en valeur absolue à
2,
seuil usuel des tests aurisque
de5%).
Il lui est liéaussi,
à un moindredegré,
le secteurgéographique «Rhône-Alpes».
TABLEAU 4
Autres variables illustratives de la classe 4 des
grossistes
Les parangons de la classe 4
Le
logiciel
fournitégalement
des «parangons » pourchaque
classe. Ce sont deséléments centraux de la
classe,
lesplus proches
du centre. Ilsconstituent,
d’un certainpoint
de vue, desreprésentants typiques
de la classe.La
figure
3 fournit lareprésentation
de l’évolution des deuxpremiers
parangons de la classe 4(Chamonix
etCombloux)
ainsi que l’évolution moyenne de la classe.Ce
graphique
illustre comment les parangonsreprésentent
la moyenne de la classe par leursprofils (les
extrema coïncidant sur les troiscourbes)
et non par le volume des ventes(qui peut
être trèsdifférent).
TABLEAU 5
Liste
complète
desgrossistes
de la classe 4FIGURE 3
Série des ventes moyennes de la classe 4 et séries des ventes
du 1er parangon
«Megève»
et du2ème
parangon «Combloux»70 A. MORINEAU, A. E. SAMMARTINO, M.GEITLER-SUMMA, C. PARDOUX 3. Modèle de
prévision
pour une classe degrossistes
3.1.
Analyse
encomposantes principales
et modélisation 3.1.1. La théorieDes
applications
del’analyse
factorielle de processus continus ontdéjà
étémenées notamment dans le domaine
démographique [Deville, 1974]
et dans ledomaine médical
[Pardoux, 1989].
On étudie ici des processus discretspuisqu’il s’agit
de séries de flux hebdomadaires.On va réaliser une
analyse
encomposantes principales
non normée[Lebart et al, 1979]
sur les données des ventes des trois années relatives à la classe 4(cf.
tableau6).
Disposant
d’observations de T variables(ici
157variables)
sur n individus(ici
27
individus),
on cherche unpetit
nombre de variablessynthétiques qui représentent
au mieux les T variables initiales.
TABLEAU 6
xt(wi) représente
le nombre d’hebdomadaires de la semaine t vendus par legrossiste
wiChacune des T variables
Xt
est mesurée sur n individus etpeut
être caractérisée par sa valeurmoyenne xt = 1 n xt(wi)}
et la variation autour de cette valeur moyenne mesurée par la variance.La
première première
variablesynthétique
oupremière composante principale
03BE1
est définie par le vecteur propre unitairef1
associé à laplus grande
valeur propre03BB1
de la matrice des covariances V :Le vecteur
fi
a Tcomposantes.
La coordonnéef1,t(t
=1,..., T)
est associéeà la
tème
semaine. La suite desf l,t
constitue ainsi une sériechronologique
delongueur
T.
Si l’inertie
expliquée
par lepremier
axe factoriel estélevée,
on va considérer les sérieschronologiques lit, t
=1,..., T} et {fl,t, t
=1,..., T}
comme ca-ractéristiques
de l’évolution des ventes de l’ensemble desgrossistes
de la classe. Si deplus,
le second vecteur proprepeut
être considéré comme réalisation d’un «bruit blanc» oupossède
un faiblepourcentage d’inertie,
alors on pourra écrire pour tout t(1 t T)
et tout Wi la formule de reconstitution des données :Pour une reconstitution correcte des données de certaines
classes,
onpeut
être amené àprendre
encompte
le second vecteur propre. Dans ce cas, la formule s’écrit pour tout t( 1 t T) :
3.1.2. Reconstitution des données de la classe 4 et modélisation
Pour cette
classe,
uneanalyse
encomposantes principales
faite sur la matricedes covariances
(dimension
157 x157)
associée au tableau 6 fournit unpremier
axeextrêmement dominant. Celà tient à la très forte
dépendance
structurelle des donnéestemporelles, augmenté
du fait que nous avons choisi de travailler sur les covariancesplutôt
que sur les corrélations. La réussite del’entreprise
repose engrande partie
surcette remarque.
Etant donnée la valeur très élevée du
pourcentage
d’inertieexpliqué
par lepremier
axefactoriel,
on vapouvoir
reconstituer très correctement les données enutilisant la série moyenne
17t, t
=0,..., 156} et
la seulesérie {f1,t, t
=0,..., 156}
(formule 1).
72 A. MORINEAU, A.E. SAMMARTINO, M.GEITLER-SUMMA, C. PARDOUX
Pour
quelques
élémentsparticuliers
de la classe(notamment
lesgrossistes
àfaibles
ventes),
on verraqu’il
estutile,
pour améliorer lareconstitution,
de tenircompte
de la secondesérie {f2,t, t
=0,
" ’ ?156}.
Dans unpremier temps,
nous ne retiendrons que les sériesf it, t
=0,..., 156} et f fi,t, t
=0,..., 156}.
La
représentation graphique
de ces deux sériescaractéristiques (cf. figure 4)
montre que la
chronique {fl,t, t
=0,..., 156}
est enquelque
sorte le «reflet» de lachronique {Xt, t
=0,..., 156}.
En se référant à la formule(1)
de reconstitution desdonnées,
on lit que l’évolution duième grossiste
se déduit de l’évolution moyenne en lui additionnant lasérie {f1,t, t
=0, .... 156}
avec unepondération 03BE1(wi)
propre àce
grossiste.
Si cettepondération
estpositive,
on diminue l’effet de la série moyenne, et si elle estnégative,
onl’augmente.
FIGURE 4
Les deux séries
représentatives
de la classe 4L’examen
graphique
de la reconstitution des évolutions dequelques
élémentsmontre que le modèle fonctionne correctement. Sur les
figures 5, 6, 7, 8
on areprésenté quelques
séries observées(trait plein)
et les séries calculées par le modèle(en pointillé).
Lesfigures 5,
6 et 7correspondent
aux troispremiers
parangons alors que lafigure
8correspond
au deuxièmegrossiste
leplus éloigné
du centre de laclasse.
L’ajustement correspondant
àCombloux,
où le volume des ventes est trèsfaible, pourrait
être notablement amélioré en utilisant lasérie {f2,t, t
=0,..., 156}
associéeau second vecteur propre.
Considérons maintenant le
problème
de laprévision
en nousplaçant
dans lecas le
plus simple
suivant :Nous sommes amenés à rechercher un modèle de
prévision
pour les deux sérieschronologiques {xt, t
=0,..., 156} et {fI, t, t
=0, ... , 156}
au lieu de réaliser uneprévision
pour chacune des 27 séries initiales.3.2.
Analyse
d’une sériechronologique
L’étude d’une
chronique
commence par l’examen de son alluregénérale
àl’aide de sa
représentation graphique.
Nous avons sur lafigure
4 lesreprésentations graphiques
des séries{xt, t
=0,..., 156} et {fl,t, t
=0, ... , 156}.
Ces
chroniques
sont sans tendanceapparente
etpossèdent
à l’évidence unecomposante
saisonnière depériode
52. On observe en effet des extrema tous les ans en février etaoût,
et des extrema locaux en décembre et avril-mai. Ceci confirme d’une certainefaçon
la caractérisation trouvée en§2.2
pour la classe 4(saisonnalité hiver-été).
FIGURE 5 FIGURE 6
Reconstitution du 1 er parangon Reconstitution du
2ème
parangonMegève
ComblouxFIGURE 7 FIGURE 8
Reconstitution du 1 er parangon Reconstitution du
2ème
parangonTaninges Bourg
d’OisansAvant d’établir le modèle de
prévision,
il estimportant
d’examiner si les maximacorrespondent
bien aux mêmes dates tous les ans. Cecipeut
être vérifié par74 A. MORINEAU, A.E. SAMMARTINO, M.GETTLER-SUMMA, C. PARDOUX
l’examen des courbes annuelles
superposées (cf. figure 9);
laprocédure correspond
à la
représentation graphique
de la table deBuys-Ballot (tableau 7).
Au
préalable,
on élimine lapremière
observationqui correspond
à une dateexceptionnelle :
c’est la semaine notée 0qui précède
les 3 années d’observation. Pour les trois annéesétudiées,
on constate desdécalages
pour les maxima en février et enavril. Ces
décalages
sont certainement dus à la variabilité du calendrier scolaire.Il est donc nécessaire de
repérer
les semaines de vacances defévrier,
mars,avril et mai non
plus
par leur numéro de semaine dansl’année,
mais par letype
devacances associé : « semaine vacances février des zones A et
B »,
« semaine vacances février des zones B etC»,
etc. Avantl’analyse
des séries{xt, t
=0,..., 156}
et{fl,t, t
=0,..., 156},
onprend
soin depermuter
des colonnes de la table deBuys-
Ballot afin que les semaines de vacances se
correspondent.
L’examen des courbes annuellessuperposées
associées à cette nouvelle tablepermet
dejuger
si on a bienune série
périodique
depériode
52 .C’est sur les séries associées à cette nouvelle table que l’on va
s’appuyer
pour établir les modèles desprévisions.
TABLEAU 7
Table de
Buys-Ballot
de la série moyenneFIGURE 9
Courbes annuelles
superposées
de la série moyenneavant le
décalage
permettant defaire
coincider les extrema3.3. Prévision à l’aide d’un modèle SARIMA
A
partir
desprévisions
à court terme réalisées pour chacune des deux sériestemporelles lit,
t =0,
...,TI et {f1,t, t
=0,
...,T},
nous pouvons calculer lesprévisions
pour les ventesxT+h(wi)
dugrossiste
Wi au cours de la semaine T + h ultérieure à la dernière observation(h
>0) :
On
peut compléter
laprévision
par l’estimation de la bornesupérieure
d’un intervalle de confiance d’un niveau donné(1 - a).
Les
prévisions
pour les sériestemporelles
saisonnièrespeuvent
être obtenues àpartir
d’un modèle SARIMA[Box
etJenkins, 1976,
Gouriéroux etMonfort, 1990].
Après estimation,
on contrôle le modèle parcomparaison
avec la réalisation effective de la série.3.3.1. Les modèles SARIMA
Un processus
{X t, t
EZ}
est faiblement stationnaire ou stationnaire du second ordre si pour tout t E Z :03B3(h) porte
le nom de fonction d’autocovariance du processus. Si /-l=1= 0,
on associele processus centré
{Yi = Xt - 03BC,t
EZ}.
Dans la suite de cetarticle,
le terme« stationnaire »
signifiera
« stationnaire du second ordres.76 A. MORINEAU, A.E. SAMMARTINO, M.GETTLER-SUMMA, C. PARDOUX
D’autre
part,
nousappelons
bruit blanc une suite d’aléasf at, t
EZ} centrés, indépendants
et de même variance :Un processus stationnaire centré
{Xt,t
EZ}
est ditautorégressif-moyenne
mobile d’ordres p et q ou
ARMA(p, q),
s’il satisfait à une relation dutype :
que l’on
peut
écrire sous la forme :avec :
où at est un bruit blanc
qui s’interprète
comme la suite des erreurs deprévision, B
est
l’opérateur
«retard» tel queBkXt = Xt-k
pour tout entierk,
les racines despolynômes cp(z)
etB(z)
étant à l’extérieur dudisque
unité.Un modèle ARMA vise donc à
représenter
un processus stationnaire centré parune combinaison de valeurs
passées
et d’erreurspassées. Lorsqu’un
processus n’est pas stationnaire et a une tendancereprésentée
par unpolynôme
dedegré
n,l’opérateur
des différences
(1 - B) n permet
de fairedisparaître
la tendance.Un processus non stationnaire
{Xt,t
EZ}
sera ditARIMA(p, d, q)
si leprocessus
{(1 - B)dXt, t
EZ} peut
êtrereprésenté
par unARMA(p, q) -
d étantle
degré d’intégration
de la série(I
comme«Integrated») :
Si le processus
{Xt, t
EZ} présente également
unecomposante
saisonnière depériode s
et si on luiajuste
un modèleARIMA,
alors la suite des aléasfat, t
EZ}
ne sera pas un bruit blanc et sera
périodique
depériode
s.Lorsque
la tendance du processusfat, t
EZ} peut
êtreajustée
par unpolynôme
dedegré D,
le processus{(1-Bs)D at, t
EZ}
est stationnaire et onpeut
lereprésenter
par un modèle ARMA :où Et
est un bruitblanc,
les racines despolynômes 03A6(z)
et8(z)
étant à l’extérieur dudisque
unité.En combinant les modèles
(1)
et(2),
on obtient un modèle SARIMA ou SeasonalAutoRegressive Integrated Moving Average :
où
et
est défini àpartir
de la variableXt :
où 03B5t
est un bruitblanc,
les racines despolynômes cp(z), 03B8(z), 03A6(z)
et0398(z)
étant àl’extérieur du
disque
unité.Ce modèle est noté
SARIMAs[(p, d, q), (P, D, Q)].
A
partir
des observations x1, ..., xT, on estime les ordres p,d,
q,P,
D etQ
du modèle SARIMA
qui
lesreprésente
lemieux;
c’est laphase d’identification
du
modèle, qui
est suivie de laphase
d’estimation desparamètres.
Lelogiciel [A2022 TEMP, 1993] procède
à l’identificationcomplète
du modèle en estimant sesordres par minimisation du critère d’Akaike et ses
paramètres
selon la méthode deMarquardt.
Le modèle est ensuite testé à l’aide du test«portmanteau»
de Box-Pierce[Gouriéroux
etMonfort, 1990, O’Donovan, 1983, Pankratz, 1983].
Si le modèle estaccepté,
on passe à laprévision.
3.3.2. Utilisation d’un modèle
SARIMA pour
la classe 4Pour chacune des deux séries
représentatives
de la classe 4{xt, t
=0,..., 156}
et {f1,t,t
=0,..., 156} qui
sont saisonnières depériode 52,
nous utilisons un modèleSARIMA52 [(2,0,0),(0,1,0)].
C’est un modèlequi prend
encompte,
pourchaque
valeurprévue,
les deux dernières valeurs observées ainsi que l’observationcorrespondant
à la même semaine de l’année
précédente.
Enremplaçant
lesparamètres
par leurs valeurs dansl’équation (3),
ce modèle s’écrit :Utilisons ce modèle pour les
prévisions
des deux sériesreprésentatives
de la classe 4:Ces
prévisions
à la date T pour l’horizon hprennent
encompte
la valeur observée de la même semaine de l’annéeprécédente
et les différences entre les deux dernières ob- servations et celles des mêmes semaines de l’annéeprécédente.
Ces deux différences78 A. MORINEAU, A.E. SAMMARTINO, M. GETTLER-SUMMA, C. PARDOUX
sont
interprétées,
le caséchéant,
comme étant dues à des modifications du niveau des ventes. Voici les estimations des deux séries pour les horizons1,
2 et 3 :En affectant la
prévision f1,156+h
de lapondération 03BE1 (wi),
on en déduit uneprévision
de ventes pour legrossiste
wi :Dans le tableau
8,
nous donnons enexemple
le nombred’exemplaires
venduspar
quelques grossistes
pour lapremière
semaine àprévoir (horizon 1).
La colonneestimation
automatique
donne la valeurprévue
par lemodèle;
cette valeur estcomparée
à la valeur réelle observée. L’erreur deprévision
est notée dans la colonne%erreur
automatique.
La dernière colonneindique
laprévision
traditionnelle fournie par le service deprévision
del’entreprise.
Lacomparaison
des deux dernières colonnes montre laperformance
du modèle.TABLEAU 8
Quelques exemples
deprévision
à l’horizon 1Nous
présentons
dans le tableau 9 deuxexemples
deprévisions
pour les horizons1, 2
et 3. A l’horizon 1 onpeut
comparer directement les « erreurs » deprévision.
Pourles horizons 2 et
3,
les chiffres fournis par le modèle sont bien desanticipations
à 2et 3 semaines alors que la colonne «erreur manuelle» donne les
prévisions
fourniespar le service de
prévision
en tenantcompte
des observationsjusqu’à
la semaineprécédente.
TABLEAU 9
Deux
exemples
deprévisions
pour les horizons1,
2 et 34. Bilan et
perspectives
4.1. Bilan
Si le modèle de reconstitution des ventes est de bonne
qualité,
les méthodes deprévision
donnent de bons résultats à condition de fairel’hypothèse
d’une stabilité de l’environnement. Dans le cas d’unchangement
du niveau des ventes(regroupement
degrossistes,
campagnepromotionnelle,
numérospécial)
ou de la saisonnalité(incidence
du
décalage
du calendrier descongés
scolaires d’une année àl’autre),
il conviendrait d’utiliser ces informations externes au modèle. On a vu comment tenircompte
deszones du calendrier scolaire
(cf. §3.2).
On nepeut
pasenvisager
desprévisions pertinentes
sans laprise
encompte
deschangements
dans l’environnement.Pour cette
première étude,
en utilisant la seule information donnée par leshistoriques (les
observationsayant
étécorrigées
par le nombre dejours
deventes)
sans la «connaissance
experte»,
les erreurs relatives des estimationsautomatiques
etdes estimations par «suivi ou simulation manuelle» sont en moyenne du même ordre : pour la
1 ère
semaine23,5%
pour les estimationsautomatiques,
23% pour les estimations
manuelles,
pour la2ème semaine, 21,5%
pour les estimationsautomatiques,
21 % pour les estimations
manuelles,
pour la3ème semaine,
19% pour les estimationsautomatiques,
21,5%
pour les estimations manuelles.On
peut
d’ailleurs améliorer les scores deprévision
par modèle en raffinant ledécoupage
en classes et donc les modèles deprévision.
De
plus, rappelons qu’un avantage
de laprévision automatique
estqu’elle peut
s’effectuer à un horizon de 2 ou 3 semaines.80 A. MORINEAU, A.E. SAMMARTINO, M.GE7TLER-SUMMA, C. PARDOUX
4.2.
Perspectives
Cette étude a montré :
2022
l’importance
des méthodes del’analyse
desdonnées,
avec l’utilisation de toutela richesse des
recodages
pour exhiber les structures et les nuances cachées parl’égale importance
des corrélations brutesinitiales,
2022 l’intérêt de l’alternance des méthodes de modélisation des séries
temporelles
avec celles de
l’analyse
des données pour réduire un volume de séries initialestrop importantes
àmanipuler
etsynthétiser
leur évolution(pour
la classeprésentée
enexemple,
onsynthétise
27chroniques
observées à 157 dates par 2chroniques
observées aux mêmes dates et un coefficient propre àchaque
unitéstatistique),
2022 la
possibilité
dudéveloppement
d’une aideautomatique
à laprévision
desventes.
La
stratégie proposée pourrait
être enrichie :2022 en
prenant
encompte,
pour lesrecodages,
d’indicesspécifiques
au domained’application (taux
devariation,
indiceséconomiques, etc.),
2022 en affinant la classification dans les classes
importantes
pour constituer dessous-classes selon le volume des ventes
(cet
effet tailleayant
étéjusqu’à présent écarté),
2022 en affinant le modèle dans les classes
homogènes
par laprise
encompte
du2nd
facteur et d’informations de
type expert (congés scolaires, etc.).
Bibliographie
ALEVIZOS
P.,
MORINEAU A.(1992)
Tests et Valeurs-Tests.Application
à l’Etudedes Mastics Utilisés dans la Fabrication des Vitraux. Revue de
Statistique Appliquée,
vol.40, n°4,
p. 27-43.A2022TEMP
(1993) Analyses
des sériesTemporelles,
version1.0, CISIA, Saint-Mandé,
France.
BENZÉCRI,
J.P.(1973) L’analyse
desdonnées,
tome I : Lataxinomie,
tome II :L’analyse
descorrespondances,
Dunod.BOX, G.E.P., JENKINS,
G.M.(1976)
Time SeriesAnalysis. Forecasting
and Control.Second
edition, Holden-Day,
San Francisco.CELEUX, G.,
DIDAYE.,
RALAMBONDRAINYH.,
LECHEVALLIER Y. GO- VAERT G.(1989) Classification automatique
des données. Dunod.DEVILLE J.C.
(1974)
Méthodesstatistiques
etnumériques
del’analyse harmonique,
Annales de
l’INSEE ,
n°15,
3-97.GOURIÉROUX C.,
MONFORT A.(1990)
Sériestemporelles
et modèlesdynamiques,
Economica.
LEBART
L.,
MORINEAUA., FÉNELON
J.-P.(1979)
Traitement des donnéesstatistiques,
Dunod.LEBART
L.,
MORINEAUA.,
WARWICK K. M.(1984)
MultivariateDescriptive
Statistical
Analysis,
JohnWiley.
O’DONOVAN,
T.M.(1983)
Short TermForecasting :
An Introduction to the Box- JenkinsApproach, Wiley.
PANKRATZ A.
(1983) Forecasting
With Univariate Box-Jenkins Models :Concepts
and
Cases,
JohnWiley
PARDOUX,
C.(1989) Apport
del’analyse factorielle
à l’étude d’un processus. Revue deStatistique Appliquée,
vol.37, n°4,
p. 41-60.SPAD2022N