Sujet de thèse:
Prédiction de séries temporelles et applications aux énergies
renouvelables:
CHD Castelluccio, Unité Radiophysique Service Radiothérapie, 20176 Ajaccio -
Laboratoire SPE, Université de Corse, CNRS-UMR 6134, 20250 Corte
Cyril Voyant cyrilvoyant@hotmail.com
résultats deuxième trimestre
2/37
Thème
3/37
Sommaire
La série temporelle étudiée
Première prédiction : Excel et VBA (toolbox stat)
Prédiction mensuelle : Procédé X12-ARIMA
Prédiction quotidienne : Scilab (toolbox Grocer)
Prédiction horaire : Scilab (toolbox Grocer)
4/37
Sommaire
La série temporelle étudiée
Premières prédictions : Excel et VBA (toolbox stat)
Prédictions mensuelles : Procédé X12-ARIMA
Prédiction quotidienne : Scilab (toolbox Grocer)
Prédiction horaire : Scilab (toolbox Grocer)
5/37
La série temporelle étudiée : Graphique et distribution
Histogramme de la série journalière
Graphique de la série
L’unité propre aux séries temporelles étudiées par la
suite est l’énergie
d’irradiation surfacique, elle ne sera pas répétée à
chaque fois
6/37
La série temporelle étudiée : Corrélogramme
Autocorrélation totale et partielle
) ( t n
t f X
X = −
7/37
La série temporelle étudiée : Saisonnalité et stationnarité
Illustration de saisonnalité avec la
transformée de Fourrier aspect périodique
de la série temporelle
8/37
Sommaire
La série temporelle étudiée
Premières prédictions : Excel et VBA (toolbox stat)
Prédiction mensuelle : Procédé X12-ARIMA
Prédiction quotidienne : Scilab (toolbox Grocer)
Prédiction horaire : Scilab (toolbox Grocer)
9/37
Premières prédictions journalières : Autorégression-1
APPRENTISSAGE : 1971-1987 METHODE : estimation des coefficients faite par méthode des
moindres carrés
ESTIMATION : prédiction glissante de trois mois de 31 jours chacun (horizon 31) en haut, et prédiction
de trois mois à horizon 1 en bas CRITERE de comparaison : RMSE Estimation du modèle de
type AR(p) effectuée avec l’utilitaire d’analyse d’Excel,
onze prédicteurs (AR1-11) ont été comparés
10/37
Premières prédictions journalières : Autorégression-2
APPRENTISSAGE : 1971-1987 METHODE : estimation des coefficients faite par méthodes des moindres carrés
ESTIMATION : prédiction glissante de trois mois de 31 jours chacun (horizon 31) en haut et prédiction de trois mois
à horizon 1 en bas
CRITERE de comparaison : RMSE
Prétraitement des données par moyenne glissante X*(t)=(2.X(t)+X(t-1))/ 3
Prétraitement des données par transformation logarithmique
Base d’apprentissage faite uniquement sur les mois de prédiction
Base d’apprentissage faite uniquement sur les mois de prédiction pour Horizon 1
11/37
Premières prédictions journalière : K-nearest-neighbors
APPRENTISSAGE : 1971-1987 METHODE : moyenne des deux plus
proches voisins (3NN, 6NN et 9NN) ESTIMATION : prédiction glissante de trois
mois de 31 jours chacun (horizon 31) CRITERE de comparaison : RMSE Méthode « naïve » de prédiction qui
consiste à rechercher dans l’historique de la série (apprentissage supervisé), la solution la plus vraisemblable (au
sens des moindres carrés)
Théorie simple mais certainement très efficace
12/37
Premières prédictions journalières : Chaîne de Markov
APPRENTISSAGE : 1971-1989
METHODE : Chaîne de Markov d’ordre 1 et la moyenne des ordres 1, 2 et 3. la prédiction est faite pour 51 classes de
départ.
ESTIMATION : prédiction de trois mois de 31 jours chacun (horizon 1) CRITERE de comparaison : RMSE Méthode simple à mettre en place
avec Excel et les tableaux croisés dynamiques. La table des probabilités conditionnelles
permet de dégager pour la solution, la classe la plus probable
Utilisation de matrice 51x51
3 3 ).1 .
. .
(
1 .
2 3 1 2 1
1
Ordre X
P X
P X P X
passsage de
matrice P
Ordre X
P X
t t
t t
t t
−
− +
+
+ +
=
=
13/37
Premières prédictions journalière : Inférences Bayesiennes
APPRENTISSAGE : 1971-1989 METHODE : Inférence Bayesienne d’ordre 1 à 9, la prédiction est faite
pour 51 classes de départ.
ESTIMATION : prédiction de trois mois de 31 jours chacun (horizon 1) CRITERE de comparaison : RMSE Méthode purement probabiliste qui
permet de déterminer avec une ou plusieurs tables de probabilités conditionnelles, la prédiction la plus
plausible.
Ce mode de prédiction semble être optimal lorsque l’historique de la série
est suffisamment fournit
« hypothèse naïve »
j t kj
J
j
i t kj j t i
t i i
x valeures des
classe la
C avec
C x C x
P C
x P C
−
=
+
−
+
= = =
=
∏
0
1 1
* argmax ( ). ( )
14/37
Premières prédictions journalières : Lissage exponentiel
APPRENTISSAGE : 1971-1987 METHODE : Constante de lissage
déterminée par moindre carré ESTIMATION : prédiction sur trois
mois à horizon 1, avec cas particulier des mois de janv87,
juil88 et Oct89
CRITERE de comparaison : RMSE Mode de prédiction très facile
à mettre en place avec l’utilitaire d’analyse Excel, de
plus les résultats semblent tout aussi intéressants qu’avec des méthodes plus
élaborées
15/37
Premières prédictions journalières : Conclusion
Comparaison, pour une prédiction de trois mois, des modèles étudiés précédemment (horizon 1)
•
Pas de KNN dans ce tableau (à faire pour h1)•
Pas de solution miracle qui surclasse les autres•
L’idée d’établir des processus autorégressifs où les mois de prédiction correspondent aux mois d’apprentissage semble fortement conseillée•
Le passage aux logarithmes ou à la moyenne glissante n’est pas pertinent•
La plupart de ces prédicteurs peuvent être tester de façon « artisanale » sur Excel•
Les modes testés ne permettent pas la désaisonnalisation16/37
Sommaire
La série temporelle étudiée
Premières prédictions : Excel et VBA (toolbox stat)
Prédiction mensuelle : Procédé X12-ARIMA
Prédiction quotidienne : Scilab (toolbox Grocer)
Prédiction horaire : Scilab (toolbox Grocer)
17/37
X12-ARIMA : Méthodologie
Outil développé par le bureau de recensement des Etat-Unis.
La plus petite échelle temporelle utilisable est le mois.
Outil très complet et facile d’utilisation.
18/37
Premières prédictions : Résultats mensuels
Estimation de deux modèles
permettant la prédiction des données d’ensoleillement des années 1988 et
1989.
Pour le premier, le logiciel a estimé un X12-ARIMA(0,1,1)(1,1,1), et pour
l’année 1989 un X12- ARIMA(2,0,0)(1,1,1)
La méthode « naïve » consiste en une répétition de l’année 1987 pour les deux prédictions (l’année 1988 comporte une donnée clairement
atypique)
19/37
Sommaire
La série temporelle étudiée
Premières prédictions : Excel et VBA (toolbox stat)
Prédiction mensuelle : Procédé X12-ARIMA
Prédiction quotidienne : Scilab (toolbox Grocer)
Prédiction horaire : Scilab (toolbox Grocer)
20/37
Prédictions quotidiennes : Estimation des VAR(p)
ts
Log(ts)
Diff(Log(ts))
Graphique représentant trois critères de comparaison en fonction de l’ordre d’autorégression, permettant l’estimation des
meilleurs VAR(p) pour trois prétraitement de données. Les modèles choisis sont VAR(7-8),
suivant le prétraitement choisi
Le graphique ci-dessus nous renseigne sur l’intérêt des prétraitements des données, et sur la
compatibilité du modèles VAR de Scilab et AR d’Excel (facteur de détermination en fonction de
l’ordre d’autoregression)
21/37
Prédictions quotidiennes : Estimation des ARIMA(p,d,q)-1
Estimation du modèle ARIMA suivant le Critère AIC en fonction du prétraitement des
données choisies.
Dans la colonne de gauche le critère pour des valeurs de p
et q allant de 0 à 7, et à droite un zoom sur la zone
de la courbe la plus intéressante, afin d’effectuer un fenêtrage adéquat et d’en dégager les tendances et les
processus que l’on utilisera par la suite
22/37
Prédictions quotidiennes : Estimation des ARIMA(p,d,q)-2
Critère BIC
23/37
Critère
-Log-vraisemblance
Prédictions quotidiennes : Estimation ARIMA(p,d,q)-3
24/37
Prédictions quotidiennes : Estimation des ARIMA(p,d,q)-4
Synthèse des quatre modèles
retenus
25/37
Prédictions quotidiennes : Estimation SARIMA(p,d,q)(0,1,0)
s=36526/37
Prédictions quotidiennes : Estimation ARIMAX(p,d,X)
Ce modèle que j’ai peut être trop rapidement appelé ARMAX est en fait un simple
prétraitement des données.
En effet, les données brutes de la série journalière sont cycliques de période ~365
jours. L’idée est de soustraire à la ts une fonction
sinusoïdale (variable pseudo- exogène) afin de bien quantifier la saisonnalité et
de ne prédire que ce différentiel
L’algorithme qui sert à l’estimation de la régression non linéaire est de type Marquardt–Levenberg.
La fonction choisie est
Avec n=O correspondant à la série temporelle le 01/01/1971
Le modèle probabiliste choisi est un
ARIMAX(6,0,2)
) 787 , 4 4 , 365
. . sin( 2 . 2702 4254
)
( + = + n +
n t
f π
27/37
Prédictions quotidiennes : Prédiction des VAR
Comparaison des modèles VAR(p) pour
trois prétraitements différents. Les critères
sont le RMSE et le
coefficient de
détermination
28/37
Prédictions quotidiennes : Prédiction des SARIMA et ARIMA
Les deux modèles les
plus
intéressants
29/37
Prédictions quotidiennes : Conclusion
•
Pas de KNN dans cette étude (à faire avec Scilab, voir Christophe)•
Les Modes VAR ne semblent pas adaptés au problème•
ARMAX et ARIMA(2,1,6) semblent faire partie des meilleurs prédicateurs, à creuser ??•
Essayer de faire quatre ARMAX avec un apprentissage différent (un par saison), ou par mois suivant la faisabilité•
Les modes SARIMA calculés sont trop sensibles aux données tronquées ou bruitées, il faudrait essayer des ARS et des MAS, mais très chronophages eténormément de possibilités
•
Systeme GARCH, switching Markov à essayer•
Inférence Bayesienne à approfondir : Data-mining•
Le prétraitement log ne semble pas utile pour ce genre de série temporelle,•
Analyse multi-fractale : collaboration avec Rachel baile???30/37
Sommaire
La série temporelle étudiée
Premières prédictions : Excel et VBA (toolbox stat)
Prédiction mensuelle : Procédé X12-ARIMA
Prédiction quotidienne : Scilab (toolbox Grocer)
Prédiction horaire : Scilab (toolbox Grocer)
31/37
Prédictions horaires : Décomposition en série journalière
Les premiers résultats en considérant une série temporelle horaire ne sont pas satisfaisants ni
exploitables. D’où l’idée d’utiliser 16 prédicteurs indépendants pour
chaque créneau horaire d’ensoleillement.
Les calculs précédents, concernant l’estimation des Les calculs précédents, concernant l’estimation des Les calculs précédents, concernant l’estimation des Les calculs précédents, concernant l’estimation des meilleurs modèles VAR,
meilleurs modèles VAR, meilleurs modèles VAR,
meilleurs modèles VAR, ARIMAARIMAARIMAARIMA(X) et (X) et (X) et (X) et SARIMASARIMASARIMASARIMA, n’ont , n’ont , n’ont , n’ont pas été effectués dans le cas horaire. Comme il y a pas été effectués dans le cas horaire. Comme il y a pas été effectués dans le cas horaire. Comme il y a pas été effectués dans le cas horaire. Comme il y a
transformation de la série horaire en 16 séries transformation de la série horaire en 16 séries transformation de la série horaire en 16 séries transformation de la série horaire en 16 séries journalières, les résultats de l’étude quotidienne ont été journalières, les résultats de l’étude quotidienne ont été journalières, les résultats de l’étude quotidienne ont été journalières, les résultats de l’étude quotidienne ont été
extrapolés extrapolés extrapolés extrapolés
32/37
Prédictions horaires : Modèles ARIMA
Prédiction ARIMA (2,1,6)
Exemple de profils d’irradiation obtenus (quatre par mois) Exemple de profils d’irradiation obtenus (quatre par mois) Exemple de profils d’irradiation obtenus (quatre par mois) Exemple de profils d’irradiation obtenus (quatre par mois) avec une prédiction horaire de l’année 1989 par pas mensuel avec une prédiction horaire de l’année 1989 par pas mensuel avec une prédiction horaire de l’année 1989 par pas mensuel avec une prédiction horaire de l’année 1989 par pas mensuel
(~horizon 496). Apprentissage 1971 (~horizon 496). Apprentissage 1971 (~horizon 496). Apprentissage 1971
(~horizon 496). Apprentissage 1971----1988198819881988
33/37
Prédictions horaires : Modèles ARMA
Prédiction ARMA (6,2)
Exemple de profils d’irradiation obtenus (quatre Exemple de profils d’irradiation obtenus (quatre Exemple de profils d’irradiation obtenus (quatre Exemple de profils d’irradiation obtenus (quatre
par mois) avec une prédiction horaire de par mois) avec une prédiction horaire de par mois) avec une prédiction horaire de par mois) avec une prédiction horaire de l’année 1989 par pas mensuel (~horizon 496).
l’année 1989 par pas mensuel (~horizon 496).
l’année 1989 par pas mensuel (~horizon 496).
l’année 1989 par pas mensuel (~horizon 496).
Apprentissage 1971 Apprentissage 1971Apprentissage 1971
Apprentissage 1971----1988198819881988
34/37
Prédictions horaires : Moyenne des années antérieures
Prédiction par valeur moyenne des années antérieures pour les seize
créneaux horaires
Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par pas mensuel (~horizon 496). Apprentissage 1971
pas mensuel (~horizon 496). Apprentissage 1971pas mensuel (~horizon 496). Apprentissage 1971
pas mensuel (~horizon 496). Apprentissage 1971----1988198819881988
35/37
Prédictions horaires : Modèles ARMAX
Prédiction ARMAX
(6,2,fit)
Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par pas mensuel (~horizon 496). Apprentissage 1971pas mensuel (~horizon 496). Apprentissage 1971 pas mensuel (~horizon 496). Apprentissage 1971
pas mensuel (~horizon 496). Apprentissage 1971----1988198819881988
36/37
Prédictions horaires : Synthèse
Résultats de prédictions Résultats de prédictions Résultats de prédictions Résultats de prédictions (RMSE) obtenus pour une (RMSE) obtenus pour une (RMSE) obtenus pour une (RMSE) obtenus pour une prédiction horaire mensuelle prédiction horaire mensuelle prédiction horaire mensuelle prédiction horaire mensuelle concernant de l’année 1989.
concernant de l’année 1989.
concernant de l’année 1989.
concernant de l’année 1989.
La courbe bleu représente La courbe bleu représente La courbe bleu représente La courbe bleu représente l’erreur qui serait commise si l’erreur qui serait commise si l’erreur qui serait commise si l’erreur qui serait commise si
l’on avait prédit pour tous l’on avait prédit pour tous l’on avait prédit pour tous l’on avait prédit pour tous
les créneaux horaire la les créneaux horaire la les créneaux horaire la les créneaux horaire la valeur moyenne de la série valeur moyenne de la série valeur moyenne de la série valeur moyenne de la série
(écart type) (écart type) (écart type) (écart type)
37/37
Conclusion
•
Conclusion en partie identique au cas journalier•
Il y a sans doute un problème d’optimisation car la moyenne des années antérieure est sensiblement un aussi bon prédicateur que le meilleur processusstochastique (ARMAX)