• Aucun résultat trouvé

Les séries temporelles météorologiques : Estimation et prédiction avec des modèles autoregressifs

N/A
N/A
Protected

Academic year: 2022

Partager "Les séries temporelles météorologiques : Estimation et prédiction avec des modèles autoregressifs"

Copied!
37
0
0

Texte intégral

(1)

Sujet de thèse:

Prédiction de séries temporelles et applications aux énergies

renouvelables:

CHD Castelluccio, Unité Radiophysique Service Radiothérapie, 20176 Ajaccio -

Laboratoire SPE, Université de Corse, CNRS-UMR 6134, 20250 Corte

Cyril Voyant cyrilvoyant@hotmail.com

résultats deuxième trimestre

(2)

2/37

Thème

(3)

3/37

Sommaire

La série temporelle étudiée

Première prédiction : Excel et VBA (toolbox stat)

Prédiction mensuelle : Procédé X12-ARIMA

Prédiction quotidienne : Scilab (toolbox Grocer)

Prédiction horaire : Scilab (toolbox Grocer)

(4)

4/37

Sommaire

La série temporelle étudiée

Premières prédictions : Excel et VBA (toolbox stat)

Prédictions mensuelles : Procédé X12-ARIMA

Prédiction quotidienne : Scilab (toolbox Grocer)

Prédiction horaire : Scilab (toolbox Grocer)

(5)

5/37

La série temporelle étudiée : Graphique et distribution

Histogramme de la série journalière

Graphique de la série

L’unité propre aux séries temporelles étudiées par la

suite est l’énergie

d’irradiation surfacique, elle ne sera pas répétée à

chaque fois

(6)

6/37

La série temporelle étudiée : Corrélogramme

Autocorrélation totale et partielle

) ( t n

t f X

X =

(7)

7/37

La série temporelle étudiée : Saisonnalité et stationnarité

Illustration de saisonnalité avec la

transformée de Fourrier aspect périodique

de la série temporelle

(8)

8/37

Sommaire

La série temporelle étudiée

Premières prédictions : Excel et VBA (toolbox stat)

Prédiction mensuelle : Procédé X12-ARIMA

Prédiction quotidienne : Scilab (toolbox Grocer)

Prédiction horaire : Scilab (toolbox Grocer)

(9)

9/37

Premières prédictions journalières : Autorégression-1

APPRENTISSAGE : 1971-1987 METHODE : estimation des coefficients faite par méthode des

moindres carrés

ESTIMATION : prédiction glissante de trois mois de 31 jours chacun (horizon 31) en haut, et prédiction

de trois mois à horizon 1 en bas CRITERE de comparaison : RMSE Estimation du modèle de

type AR(p) effectuée avec l’utilitaire d’analyse d’Excel,

onze prédicteurs (AR1-11) ont été comparés

(10)

10/37

Premières prédictions journalières : Autorégression-2

APPRENTISSAGE : 1971-1987 METHODE : estimation des coefficients faite par méthodes des moindres carrés

ESTIMATION : prédiction glissante de trois mois de 31 jours chacun (horizon 31) en haut et prédiction de trois mois

à horizon 1 en bas

CRITERE de comparaison : RMSE

Prétraitement des données par moyenne glissante X*(t)=(2.X(t)+X(t-1))/ 3

Prétraitement des données par transformation logarithmique

Base d’apprentissage faite uniquement sur les mois de prédiction

Base d’apprentissage faite uniquement sur les mois de prédiction pour Horizon 1

(11)

11/37

Premières prédictions journalière : K-nearest-neighbors

APPRENTISSAGE : 1971-1987 METHODE : moyenne des deux plus

proches voisins (3NN, 6NN et 9NN) ESTIMATION : prédiction glissante de trois

mois de 31 jours chacun (horizon 31) CRITERE de comparaison : RMSE Méthode « naïve » de prédiction qui

consiste à rechercher dans l’historique de la série (apprentissage supervisé), la solution la plus vraisemblable (au

sens des moindres carrés)

Théorie simple mais certainement très efficace

(12)

12/37

Premières prédictions journalières : Chaîne de Markov

APPRENTISSAGE : 1971-1989

METHODE : Chaîne de Markov d’ordre 1 et la moyenne des ordres 1, 2 et 3. la prédiction est faite pour 51 classes de

départ.

ESTIMATION : prédiction de trois mois de 31 jours chacun (horizon 1) CRITERE de comparaison : RMSE Méthode simple à mettre en place

avec Excel et les tableaux croisés dynamiques. La table des probabilités conditionnelles

permet de dégager pour la solution, la classe la plus probable

Utilisation de matrice 51x51

3 3 ).1 .

. .

(

1 .

2 3 1 2 1

1

Ordre X

P X

P X P X

passsage de

matrice P

Ordre X

P X

t t

t t

t t

+

+

+ +

=

=

(13)

13/37

Premières prédictions journalière : Inférences Bayesiennes

APPRENTISSAGE : 1971-1989 METHODE : Inférence Bayesienne d’ordre 1 à 9, la prédiction est faite

pour 51 classes de départ.

ESTIMATION : prédiction de trois mois de 31 jours chacun (horizon 1) CRITERE de comparaison : RMSE Méthode purement probabiliste qui

permet de déterminer avec une ou plusieurs tables de probabilités conditionnelles, la prédiction la plus

plausible.

Ce mode de prédiction semble être optimal lorsque l’historique de la série

est suffisamment fournit

« hypothèse naïve »

j t kj

J

j

i t kj j t i

t i i

x valeures des

classe la

C avec

C x C x

P C

x P C

=

+

+

= = =

=

0

1 1

* argmax ( ). ( )

(14)

14/37

Premières prédictions journalières : Lissage exponentiel

APPRENTISSAGE : 1971-1987 METHODE : Constante de lissage

déterminée par moindre carré ESTIMATION : prédiction sur trois

mois à horizon 1, avec cas particulier des mois de janv87,

juil88 et Oct89

CRITERE de comparaison : RMSE Mode de prédiction très facile

à mettre en place avec l’utilitaire d’analyse Excel, de

plus les résultats semblent tout aussi intéressants qu’avec des méthodes plus

élaborées

(15)

15/37

Premières prédictions journalières : Conclusion

Comparaison, pour une prédiction de trois mois, des modèles étudiés précédemment (horizon 1)

Pas de KNN dans ce tableau (à faire pour h1)

Pas de solution miracle qui surclasse les autres

L’idée d’établir des processus autorégressifs où les mois de prédiction correspondent aux mois d’apprentissage semble fortement conseillée

Le passage aux logarithmes ou à la moyenne glissante n’est pas pertinent

La plupart de ces prédicteurs peuvent être tester de façon « artisanale » sur Excel

Les modes testés ne permettent pas la désaisonnalisation

(16)

16/37

Sommaire

La série temporelle étudiée

Premières prédictions : Excel et VBA (toolbox stat)

Prédiction mensuelle : Procédé X12-ARIMA

Prédiction quotidienne : Scilab (toolbox Grocer)

Prédiction horaire : Scilab (toolbox Grocer)

(17)

17/37

X12-ARIMA : Méthodologie

Outil développé par le bureau de recensement des Etat-Unis.

La plus petite échelle temporelle utilisable est le mois.

Outil très complet et facile d’utilisation.

(18)

18/37

Premières prédictions : Résultats mensuels

Estimation de deux modèles

permettant la prédiction des données d’ensoleillement des années 1988 et

1989.

Pour le premier, le logiciel a estimé un X12-ARIMA(0,1,1)(1,1,1), et pour

l’année 1989 un X12- ARIMA(2,0,0)(1,1,1)

La méthode « naïve » consiste en une répétition de l’année 1987 pour les deux prédictions (l’année 1988 comporte une donnée clairement

atypique)

(19)

19/37

Sommaire

La série temporelle étudiée

Premières prédictions : Excel et VBA (toolbox stat)

Prédiction mensuelle : Procédé X12-ARIMA

Prédiction quotidienne : Scilab (toolbox Grocer)

Prédiction horaire : Scilab (toolbox Grocer)

(20)

20/37

Prédictions quotidiennes : Estimation des VAR(p)

ts

Log(ts)

Diff(Log(ts))

Graphique représentant trois critères de comparaison en fonction de l’ordre d’autorégression, permettant l’estimation des

meilleurs VAR(p) pour trois prétraitement de données. Les modèles choisis sont VAR(7-8),

suivant le prétraitement choisi

Le graphique ci-dessus nous renseigne sur l’intérêt des prétraitements des données, et sur la

compatibilité du modèles VAR de Scilab et AR d’Excel (facteur de détermination en fonction de

l’ordre d’autoregression)

(21)

21/37

Prédictions quotidiennes : Estimation des ARIMA(p,d,q)-1

Estimation du modèle ARIMA suivant le Critère AIC en fonction du prétraitement des

données choisies.

Dans la colonne de gauche le critère pour des valeurs de p

et q allant de 0 à 7, et à droite un zoom sur la zone

de la courbe la plus intéressante, afin d’effectuer un fenêtrage adéquat et d’en dégager les tendances et les

processus que l’on utilisera par la suite

(22)

22/37

Prédictions quotidiennes : Estimation des ARIMA(p,d,q)-2

Critère BIC

(23)

23/37

Critère

-Log-vraisemblance

Prédictions quotidiennes : Estimation ARIMA(p,d,q)-3

(24)

24/37

Prédictions quotidiennes : Estimation des ARIMA(p,d,q)-4

Synthèse des quatre modèles

retenus

(25)

25/37

Prédictions quotidiennes : Estimation SARIMA(p,d,q)(0,1,0)

s=365

(26)

26/37

Prédictions quotidiennes : Estimation ARIMAX(p,d,X)

Ce modèle que j’ai peut être trop rapidement appelé ARMAX est en fait un simple

prétraitement des données.

En effet, les données brutes de la série journalière sont cycliques de période ~365

jours. L’idée est de soustraire à la ts une fonction

sinusoïdale (variable pseudo- exogène) afin de bien quantifier la saisonnalité et

de ne prédire que ce différentiel

L’algorithme qui sert à l’estimation de la régression non linéaire est de type Marquardt–Levenberg.

La fonction choisie est

Avec n=O correspondant à la série temporelle le 01/01/1971

Le modèle probabiliste choisi est un

ARIMAX(6,0,2)

) 787 , 4 4 , 365

. . sin( 2 . 2702 4254

)

( + = + n +

n t

f π

(27)

27/37

Prédictions quotidiennes : Prédiction des VAR

Comparaison des modèles VAR(p) pour

trois prétraitements différents. Les critères

sont le RMSE et le

coefficient de

détermination

(28)

28/37

Prédictions quotidiennes : Prédiction des SARIMA et ARIMA

Les deux modèles les

plus

intéressants

(29)

29/37

Prédictions quotidiennes : Conclusion

Pas de KNN dans cette étude (à faire avec Scilab, voir Christophe)

Les Modes VAR ne semblent pas adaptés au problème

ARMAX et ARIMA(2,1,6) semblent faire partie des meilleurs prédicateurs, à creuser ??

Essayer de faire quatre ARMAX avec un apprentissage différent (un par saison), ou par mois suivant la faisabilité

Les modes SARIMA calculés sont trop sensibles aux données tronquées ou bruitées, il faudrait essayer des ARS et des MAS, mais très chronophages et

énormément de possibilités

Systeme GARCH, switching Markov à essayer

Inférence Bayesienne à approfondir : Data-mining

Le prétraitement log ne semble pas utile pour ce genre de série temporelle,

Analyse multi-fractale : collaboration avec Rachel baile???

(30)

30/37

Sommaire

La série temporelle étudiée

Premières prédictions : Excel et VBA (toolbox stat)

Prédiction mensuelle : Procédé X12-ARIMA

Prédiction quotidienne : Scilab (toolbox Grocer)

Prédiction horaire : Scilab (toolbox Grocer)

(31)

31/37

Prédictions horaires : Décomposition en série journalière

Les premiers résultats en considérant une série temporelle horaire ne sont pas satisfaisants ni

exploitables. D’où l’idée d’utiliser 16 prédicteurs indépendants pour

chaque créneau horaire d’ensoleillement.

Les calculs précédents, concernant l’estimation des Les calculs précédents, concernant l’estimation des Les calculs précédents, concernant l’estimation des Les calculs précédents, concernant l’estimation des meilleurs modèles VAR,

meilleurs modèles VAR, meilleurs modèles VAR,

meilleurs modèles VAR, ARIMAARIMAARIMAARIMA(X) et (X) et (X) et (X) et SARIMASARIMASARIMASARIMA, n’ont , n’ont , n’ont , n’ont pas été effectués dans le cas horaire. Comme il y a pas été effectués dans le cas horaire. Comme il y a pas été effectués dans le cas horaire. Comme il y a pas été effectués dans le cas horaire. Comme il y a

transformation de la série horaire en 16 séries transformation de la série horaire en 16 séries transformation de la série horaire en 16 séries transformation de la série horaire en 16 séries journalières, les résultats de l’étude quotidienne ont été journalières, les résultats de l’étude quotidienne ont été journalières, les résultats de l’étude quotidienne ont été journalières, les résultats de l’étude quotidienne ont été

extrapolés extrapolés extrapolés extrapolés

(32)

32/37

Prédictions horaires : Modèles ARIMA

Prédiction ARIMA (2,1,6)

Exemple de profils d’irradiation obtenus (quatre par mois) Exemple de profils d’irradiation obtenus (quatre par mois) Exemple de profils d’irradiation obtenus (quatre par mois) Exemple de profils d’irradiation obtenus (quatre par mois) avec une prédiction horaire de l’année 1989 par pas mensuel avec une prédiction horaire de l’année 1989 par pas mensuel avec une prédiction horaire de l’année 1989 par pas mensuel avec une prédiction horaire de l’année 1989 par pas mensuel

(~horizon 496). Apprentissage 1971 (~horizon 496). Apprentissage 1971 (~horizon 496). Apprentissage 1971

(~horizon 496). Apprentissage 1971----1988198819881988

(33)

33/37

Prédictions horaires : Modèles ARMA

Prédiction ARMA (6,2)

Exemple de profils d’irradiation obtenus (quatre Exemple de profils d’irradiation obtenus (quatre Exemple de profils d’irradiation obtenus (quatre Exemple de profils d’irradiation obtenus (quatre

par mois) avec une prédiction horaire de par mois) avec une prédiction horaire de par mois) avec une prédiction horaire de par mois) avec une prédiction horaire de l’année 1989 par pas mensuel (~horizon 496).

l’année 1989 par pas mensuel (~horizon 496).

l’année 1989 par pas mensuel (~horizon 496).

l’année 1989 par pas mensuel (~horizon 496).

Apprentissage 1971 Apprentissage 1971Apprentissage 1971

Apprentissage 1971----1988198819881988

(34)

34/37

Prédictions horaires : Moyenne des années antérieures

Prédiction par valeur moyenne des années antérieures pour les seize

créneaux horaires

Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par pas mensuel (~horizon 496). Apprentissage 1971

pas mensuel (~horizon 496). Apprentissage 1971pas mensuel (~horizon 496). Apprentissage 1971

pas mensuel (~horizon 496). Apprentissage 1971----1988198819881988

(35)

35/37

Prédictions horaires : Modèles ARMAX

Prédiction ARMAX

(6,2,fit)

Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par Exemple de profils d’irradiation obtenus (quatre par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par mois) avec une prédiction horaire de l’année 1989 par pas mensuel (~horizon 496). Apprentissage 1971

pas mensuel (~horizon 496). Apprentissage 1971 pas mensuel (~horizon 496). Apprentissage 1971

pas mensuel (~horizon 496). Apprentissage 1971----1988198819881988

(36)

36/37

Prédictions horaires : Synthèse

Résultats de prédictions Résultats de prédictions Résultats de prédictions Résultats de prédictions (RMSE) obtenus pour une (RMSE) obtenus pour une (RMSE) obtenus pour une (RMSE) obtenus pour une prédiction horaire mensuelle prédiction horaire mensuelle prédiction horaire mensuelle prédiction horaire mensuelle concernant de l’année 1989.

concernant de l’année 1989.

concernant de l’année 1989.

concernant de l’année 1989.

La courbe bleu représente La courbe bleu représente La courbe bleu représente La courbe bleu représente l’erreur qui serait commise si l’erreur qui serait commise si l’erreur qui serait commise si l’erreur qui serait commise si

l’on avait prédit pour tous l’on avait prédit pour tous l’on avait prédit pour tous l’on avait prédit pour tous

les créneaux horaire la les créneaux horaire la les créneaux horaire la les créneaux horaire la valeur moyenne de la série valeur moyenne de la série valeur moyenne de la série valeur moyenne de la série

(écart type) (écart type) (écart type) (écart type)

(37)

37/37

Conclusion

Conclusion en partie identique au cas journalier

Il y a sans doute un problème d’optimisation car la moyenne des années antérieure est sensiblement un aussi bon prédicateur que le meilleur processus

stochastique (ARMAX)

Prédiction au niveau de la minute?

Principe de décomposition en 16 séries temporelles sans doute exploitable dans la cas ANN

Prochaine étape=> ANN? Mois, jour, heure?

Les RMSE restent élevées, quelles solutions? Peut être 16 ARMAX par saison (soit 16x4 process), intérêts?

Le fait de centrer et de réduire la série ne semble pas contribuer à une amélioration des prédictions

Bourse CIFRE : Attente administration hospitalière

Références

Documents relatifs

Dans cette étude rétrospective monocentrique, tous les patients présentant une IA ou une constipation terminale, ayant été explorés par MHR3D, et pris en charge par

La faiblesse relative des soutirages de la pre- mière année comparés aux apports solides totaux de cette même année tient à ce qu'il existait au fond de la retenue une «

Quant au soi social, les résultats révèlent pour ce troisième testing que les alcooliques se perçoivent encore plus compétents dans leurs relations sociales

Je ne te puis te donner moyen plus expédient que celuy que je voudrois prendre pour moy: si j’en voulois trouver en quelque province où l’invention ne fut encore connue, je

[r]

Donc, dans le profil UDP ROHC, le compresseur génère un numéro de séquence (SN) de 16 bits qui augmente de un pour chaque paquet reçu dans le flux de paquets. Ce numéro de

1 Par pérégrinismes et xénismes, Queffélec (1998) désigne mosso modo des mots qui restent « étrangers » pour le locuteur/utilisateur, qui ne sont pas intégrés dans la

Ensuite, à chaque tour, chaque joueur lance son dé : si le résultat est impair, il avance son pion vers la droite du nombre de graduations indiquées, si le résultat est pair,