• Aucun résultat trouvé

La méthode Monte Carlo définit toute technique numérique de résolution des problèmes mathématiques qui utilise des nombres aléatoires ou des nombres pseudo-aléatoires. Le nom de Monte Carlo provient de la ville du même nom dans la principauté de Monaco, cé-lèbre pour son casino. La méthode de Monte Carlo est due aux ma-thématiciens américains John von Neumann (1951), Stanislaw Mar-cin Ulam et N. Metropolis (1949). Elle a été développée vers 1949. Cependant c’est avec l’avènement des ordinateurs qu’elle est deve-nue réalisable.

EXEMPLE

Supposons que nous devions calculer la surface d’une figure Squi se situe à l’intérieur d’un carré de côté égal à 1. Nous al-lons générer N points aléatoires à l’intérieur du carré. Pour ce faire, nous reportons le carré sur un système d’axes perpendiculaires dont

l’origine est l’angle inférieur gauche du carré. Cela signifie que tous les points que l’on va générer à l’intérieur du carré auront des co-ordonnées comprises entre 0 et 1. Il suffit donc de prendre des va-riables aléatoires uniformes pour obtenir un point. En effet, le pre-mier nombre aléatoire sera l’abscisse et le second l’ordonnée. Dans l’exemple suivant, choisissons de disposer 40 points aléatoires, nous aurons alors besoin de deux échantillons de 40 nombres aléatoires. La surface S qu’on aimerait estimer est le carré de 0,75 de côté, au-trement dit la valeur exacte vaut 0,5625.

Après avoir représenté les 40 points aléatoires dans le carré unitaire, il suffit de compter le nombre de points qui se trouvent dans S(il y en a 21 dans le cas précis). L’estimation de la surface cherchée s’obtient par le ratio 21/40 = 0, 52.

Il est possible d’améliorer cette estimation en répétant l’expé-rience plusieurs fois et en prenant la moyenne des surfaces obtenues.

E. Philip Howrey (1996), dans la continuité des études précédentes, tente de montrer la sensibilité des prévisions à la nature des données, selon qu’elles soient révisées ou préliminaires. Il effectue une régression du PNB réel en Dollars 1982 sur la période trimestrielle 1986-1991, sur trois séries de ce PNB réel, une préliminaire publiée un mois après chaque trimestre, une révisée et publiée deux mois plus tard, et une finalement révisée en juillet.

Il utilise deux modèles de régression TS (Trend Stationnary) et DS (Difference Stationnary) pour exprimer des relations entre les séries. Les résultats notamment les erreurs de prévision sont analysées et montrent que les prévisionnistes retrouveront plus de difficultés dans la fiabilité de leurs prévisions du PNB réel en niveau plutôt que celui exprimé en taux de variation. Ainsi, les niveaux sont moins appréhendables que les taux de variation.

Sucharita Ghosh et Donald Lien (1997), prévoient les séries américaines de la Balance Commer-ciale en données mensuelles en combinant plusieurs versions de séries, seulement révisées ou bien un

mix de séries révisées et préliminaires, utilisant d’abord des modèles AR(p), ensuite un modèle VECM11, avec une contrainte hétéroscedastique et sans contrainte. Les auteurs trouvent des résultats de prévisions améliorés en combinant les séries préliminaires et révisées. La prise en compte de la contrainte hétéros-cedastique améliore également les prévisions.

Frederick L. Joutz et H. O. Stekler (1998), tentent de montrer que les prévisionnistes et les utilisa-teurs peuvent utiliser les séries estimées par le BEA des NIPA12pour prévoir leurs publications finales. Ils effectuent une régression et analysent les statistiques ainsi que les changements de direction entre deux séries : celle estimée 15 jours après le trimestre considéré et sa première révision, à savoir 30 jours plus tard, 45 jours après le trimestre en question. Une régression de la série 45-jours sur la série 15-jours avec un test de nullité des coefficients confirme leur forte corrélation. Dans ce cas, si les révisions sont corrélées avec les séries préliminaires elles peuvent néanmoins donner des résultas différents comme nous l’avons vu dans les études précédentes.

3.3.2 Les études actuelles

Dean Croushore et Tom Stark (1999 a, 1999 b, 2000 a, 2000 b, 2001 a, 2001 b, 2002), ont jugé utile de construire une base de données complète, regroupant toutes les variables clé de l’économie (Comptes Nationaux, prix, agrégats monétaires, taux d’intérêt même s’ils ne sont pas affectés par le phénomène de révisions). Le travail mobilisant plusieurs étudiants et universitaires sous la supervision de Tom Stark, consistait à remonter toutes les dates de publications et empiler les différentes versions de séries de chacune des variables. Les auteurs sensibilisent ainsi les utilisateurs sur le problème des révisions en leur procurant afin de faciliter leurs analyses, cette base de données qui reconnaissons-le sans sa disponibilité risquerait de décourager plus d’un qui tenterait de remonter toutes les versions antérieures des variables.

Après une présentation descriptive du processus de révisions, les auteurs abordent une section trai-tant l’effet des révisions sur les modélisations de politiques économiques, ainsi qu’une autre section montrant l’effet de ces révisions sur les prévisions.

11. Vector Error Correction Model : modèle vectoriel à correction d’erreur. Voir Annexe 3-4. 12. Comptes Nationaux américains.

Prévision données erreur moyenne erreur moyenne absolue RMSE AR(4) temps-réel -0,19 1,74 2,49 Novembre 1998 -0,48 1,70 2,40 BAR(4) temps-réel -0,24 1,67 2,35 Novembre 1998 -0,54 1,67 2,34 QBVEC temps-réel -0,70 1,41 1,90 Novembre 1998 -0,79 1,46 1,88

TABLE 3.5 – Comparaison des statistiques de prévision, selon le choix du modèle et selon le choix de la version des données sur la période 1959.T1-1974.T4 ; horizon de prévision 1976.T1 1998.T3

Concernant la politique monétaire, ils reprennent la même étude traitée par Orphanides (1997) et trouvent que les révisions influencent les modélisations de politiques monétaires. Les résultats obtenus changent en fonction des versions de séries de variables choisies.

De même pour les prévisions, les auteurs comparent les résultats de prévision de deux modélisations différentes, l’une temporelle et l’autre non linéaire, et analysent l’effet du choix de versions dans les séries économiques sur les résultats obtenus par ces modèles. Les statistiques montrent que la prévision peut être sensiblement affectée par la révision des données.

Sucharita Ghosh et Donald Lien (2001), comparent les prévisions résultant de deux modélisations, un modèle vectoriel à correction d’erreur (VECM) et un modèle espace-état13. Deux prévisions des sé-ries de la Balance Commerciale américaine sont effectuées avec ces deux modèles : une première incor-porant des séries préliminaires et des séries révisées partiellement, et une autre comprenant des séries totalement révisées. Les résultats des prévisions sont comparés aux résultats du benchmark (prévisions de professionnels). Le modèle VECM donne de meilleurs résultats que ceux du benchmark, comparés au deuxième modèle. Les auteurs arrivent à la conclusion que l’utilisation de séries préliminaires pour prévoir les séries finales n’est pas efficiente.

Don M. Egginton, Andreas Pick et Shaun P. Vahey (2002), de la même manière que Croushore et Stark (1999) créent un Dataset (base de données) pour les variables clé de l’économie du Royaume-Uni, publiées par l’Office of National Statistics (ONS). Ils montrent ainsi l’importance de la mise à la dispo-sition des utilisateurs les différentes versions sous forme matricielle. À partir du moment où la révision des séries modifie les résultats de politique économique et de la prévision, il est nécessaire de prendre en considération ces différentes versions, permettant de conclure sur les résultats, habituellement basés

sur des données temps-réel, celles disponibles directement au moment où la prévision sera effectuée.

Dong W. Cho (2002), montre en analysant la statistique U de Theil que la révision des prévisions améliore les prévisions futures des données monétaires ainsi que celles du PIB. L’auteur reprend les ré-visions des préré-visions publiées dans le Wall Street Journal et retrouve des améliorations des statistiques concernant la prévision des variables, compte tenu de la prise en considération des révisions qui ont été publiées et qui ont été utilisées dans l’amélioration de la prévision future de ces variables.

Dean Croushore (2004), expose une revue de la littérature sur la prévision et sa relation avec la révision des données. Il relate brièvement les résultats obtenus des principaux papiers concernant ce sujet. L’auteur propose trois raisons pouvant engendrer des changements dans les résultats de prévisions macroéconomiques, induits par le choix des données :

1. premièrement, les données elles-mêmes subissent des révisions et leur changement affecte direc-tement les résultats en fonction de leur utilisation.

2. deuxièmement, le choix de la version publiée d’une ou plusieurs séries affecte les coefficients des modèles estimés, ce qui se répercute sur les résultats de prévision en finalité.

3. et enfin troisièmement, les choix de modèles (choix de retards dans les modèles temporels par exemple) sont également affectés par les choix de versions de séries. Selon la série choisie pour une même période, le calcul de retards change et affecte ainsi les résultats de prévisions résultants des estimations de ces modèles.

L’auteur expose ensuite la base de données créée par ses soins, assisté de Stark (1999), Real Dataset For Macroeconomists14et l’intérêt de son utilisation par les prévisionnistes afin de prendre en compte la révision des données dans leurs résultats. Toutes les études analysées dans cet article mènent à la seule conclusion que les prévisions sont influencées par la révision des données et le choix de la ver-sion des données est important dans la prise de déciver-sion sur laquelle utiliser pour prévoir les variables économiques.

Toujours dans le but de formaliser l’intérêt d’exploiter le Real Dataset For Macroeconomists, Crou-shore (2005) exploite une équation linéaire mettant en relation les dépenses de consommation et les

14. Un lien html est donné en annexe 2 qui renvoie au site consacré aux travaux de Croushore et la base de données des révisions.

enquêtes de conjoncture auprès des ménages américains15, ainsi que d’autres variables explicatives comme le revenu disponible et le taux d’intérêt, sur leurs intentions de consommation.

Deux équations sous forme d’un modèle à retards échelonnés exprimant la régression sur le taux de variation des dépenses de consommation trimestrielles des retards (de 1 à 4) de chacune de variables explicatives comme le revenu et le taux d’intérêt. La première équation inclue l’indice des enquêtes sur la consommation et une autre sans ces enquêtes afin de montrer leur pouvoir explicatif dans la consommation.

Les résultats de la régression montrent que l’ajout de variables retardées comme l’indice de confiance sur les enquêtes auprès des ménages n’apporte pas d’information supplémentaire significa-tive. Croushore montre néanmoins à travers la comparaison d’un indicateur statistique de l’erreur de prévision (RMSFE16) que les résultats de prévisions diffèrent selon que l’on choisisse d’utiliser des données temps-réel ou biens des données finalement révisées tirées du RDSFM.

Richard Harrison, George Kapetanios, Tony Yates (2004), effectuent des prévisions de la dé-pense de consommation des ménages au Royaume Uni en utilisant un modèle autorégressif univarié, AR(p), sur une période trimestrielle 1955.T1-1998.T2, en utilisant des données temps-réel et révisées, en supposant que ces révisions sont négligeables après 24 périodes. Ils analysent la variance des 24 différentes révisions. Les auteurs remarquent que les prévisions s’améliorent en utilisant des données moins récentes (moins révisées), en comparant les erreurs moyennes de prévisions selon les données utilisées.

Dean Croushore (2005, 2010), exploite le Real Dataset For Macroeconomists afin de montrer les différences notables dans les prévisions des variables macroéconomiques.

Afin d’illustrer la différence qui peut exister dans une variable macroéconomique selon sa version, quand elle est estimée ensuite publiée et révisée par la suite à une date ultérieure, Croushore reprend une variable clé de l’économie américaine le Index of Leading Indicator, un indicateur composite de l’état de l’économie américaine. Le graphique proposé dans l’analyse de Croushore montre bien l’évolution de la tendance de cet indicateur qui change de trajectoire d’une manière significative, calculé pour la

15. Deux enquêtes sont utilisées en comparaison dans les estimations tirées de deux organismes différents, une de l’université du Michigan appelée Michigan Survey et une autre appelée the Conference Board Survey of Consumer Attitude.

même période, de janvier 1973 à août 1974. Celui publié en septembre 1974 présente une tendance croissante qui a mal anticipé la récession de l’année 1974 alors que celui révisé en décembre 1989 qui présente une tendance décroissante en fin de période avait bien anticipé cette récession. À travers cet exemple illustratif simple, nous pouvons voir que la version d’une variable surtout quand elle est révisée à plusieurs reprises peut engendrer des comportements significativement différents en termes d’amplitudes (court terme) ou même d’évolution (long terme).

Comment les prévisions sont-elles affectées par la révision des données ?

Selon Croushore, les prévisions sont affectées par les révisions pour trois raisons :

1. les données ne sont pas les mêmes ; une version peut être significativement différente d’une autre version d’une même variable sur la même période ;

2. les coefficients estimés d’un modèle de prévision peuvent changer ; 3. les révisions changent la spécification du modèle lui-même.

Afin de montrer ces trois effets, Croushore part d’un exemple simple de modélisation temporelle univariée utilisée pour la prévision, la modélisation autorégressive d’ordre p (AR(p)) :

Yt = µ +

p

i=1

φiYt−i+ εt

Supposons que le prévisionniste effectue des prévisions en temps réel. Plusieurs versions sont dispo-nibles à ce moment-là en fonction de la date à laquelle sera diffusée la variable. Si v est la version17de la variable en question, alors sa révision à la période t sera la différence entre cette version et sa version précédente, Yt,v−Yt,v−1.

Supposons que la prévision est effectuée par le prévisionniste pour la date t. Donc, l’information disponible pour le prévisionniste sera la variable à l’instant t − 1 quand la version de la variable sera v, Yt−1,v. La prévision sera alors :

17. Ou bien vintage si nous voulons garder la même terminologie anglo-saxonne employée dans le traitement des révisions des données macroéconomiques.

Yt|t−1,v= ˆµv+ p

i=1 ˆ φi,vYt−i,v

Prenons maintenant la même prévision avec le même modèle mais utilisant une autre version de la série, w ; la prévision sera :

Yt|t−1,w= ˆµw+ p

i=1 ˆ φi,wYt−i,w Et le changement dans la prévision selon la version sera :

Yt|t−1,w−Yt|t−1,w= ( ˆµw− ˆµv) +

p

i=1

( ˆφi,wYt−i,w− ˆφi,vYt−i,v)

Les trois possibilités de changement dans la prévision de la variable Y peuvent être observées dans l’équation 3.3.2 :

– un changement de la prévision car les variables introduites (Yt−1,v,Yt−2,v, ...,Yt−p,v) dans l’expli-cation de Y changent et passent à (Yt−1,w,Yt−2,w, ...,Yt−p,w) ;

– les coefficients estimés passeront de ( ˆµv, ˆφ1,v, ˆφ2,v, ..., ˆφp,v) à ( ˆµv, ˆφ1,w, ˆφ2,w, ..., ˆφp,w) ;

– et enfin, le choix de retards p - selon un ou plusieurs critères - dans la sélection de l’AR(p) qui représente au mieux la variable Y peut être modifié.

L’erreur de prévision dépendra fortement de la nature de la révision qui diffère selon la nature de la variable et la méthode avec laquelle elle a été estimée. Certaines révisions peuvent être représentées sous forme d’un bruit blanc qui n’influence pratiquement pas la prévision même si l’on changeait la version d’une série. D’autres variables par contre seront fortement modifiées au cours de leurs révisions.

Ainsi la question fondamentale qui se pose au prévisionniste souhaitant améliorer la qualité de ses prévisions, est : quelle version prendre ?

Afin de pouvoir tester la qualité des prévisions en fonction des versions des séries, une base de données comme le RDSFM est indispensable. Si nous savons que les versions influencent la qualité des

prévisions futures des variables, chaque prévisionniste devra sauvegarder toutes les différentes versions de sa variable d’intérêt afin de pouvoir tester la qualité de ses prévisions.

Depuis la fin des années 90, plusieurs organismes18ont commencé à réfléchir sur la problématique de la révision des données. Ils sauvegardent et empilent depuis le milieu des années 2000 les différentes versions des variables macroéconomiques. Les premières conférences destinées à la compréhension du phénomène, étaient plus orientées vers la sensibilisation des statisticiens et économistes au phénomène de la révision et de commencer à penser à une méthodologie complète permettant d’emmagasiner l’in-formation, alors que les investigations actuelles sont plus orientées vers l’ajout d’autres variables et l’amélioration de la fiabilité des données empilées justement par l’analyse descriptive et la modélisation du phénomène de la révision.

FIGURE 3.2 – Comparaison de deux versions révisée et non révisée de l’indicateur compo-site américain (Index of Leading Indicator), sur la période janvier 1973 - août 1974. Source : Business condition digest (extrait de l’article de Croushore (2005)).

Hui Feng (2005), montre l’effet sur la sélection des modèles de prévision ainsi que sur leur capacité à bien prévoir les valeurs futures des variables monétaires, selon que l’on utilise des séries provisoires ou bien des séries révisées. Il choisit de comparer les résultats obtenus par l’utilisation de deux modéli-sations différentes.

Une première modélisation non linéaire nommée modélisation SETAR19.

Le cas proposé par Hui Feng est formalisé par un modèle SETAR(2; p1; p2) à deux régimes, Où pi

exprime l’ordre autorégressif du régime i. On explique la variable endogène d’intérêt par les valeurs antérieures de cette même variable, subdivisée en deux parties dans la relation, par l’introduction d’une variable indicatrice :

yt = (φ0,1+ φ1,1yt−1+ ... + φp,1yt−p1)I[yt−d≤ c] + (φ0,2+ φ1,2yt−1+ ... + φp,2yt−p2)I[yt−d ≥ c] + εt

Où c est le seuil prédéfini qui exprime la période à laquelle la série change de comportement et I[A] l’indicatrice qui prend la valeur 1 si l’événement A a lieu et 0 sinon. En particulier, dans ce modèle, le régime change quand la valeur de yt−d est inférieure au seuil c.

εt est un terme erreur normalement distribué.

Le deuxième modèle proposé dans la comparaison est un simple modèle ARMA(p, q)

Les choix des retards sont effectués en se basant sur le critère d’Akaike (1974), AIC.

Dans le cas du modèle SETAR à deux régimes, Tong (1978) le propose comme étant la somme des deux AIC résultant des deux retards du modèles à savoir :

AIC(p1, p2) = n1ln ˆσ12+ n2ln ˆσ22+ 2(p1+ 1) + 2(p2+ 1)

Où ˆσj2, j = 1, 2 est la variance des résidus dans le jème régime. Hui Feng pose dans sa modélisation p= p1= p2.

Le critère d’Akaike pour le modèle ARMA(p, q) s’exprime par :

19. Self-Excited Threshold Autoregressive. C’est un modèle à changement de régime proposé en premier par Tong (1978) : le régime (la variation) à un instant t peut être déterminé par la séries elle-même retardée, relative-ment à un seuil prédéfini.

AIC= LOG( ˆε2) + 2 × (p + 1)/T

Où ˆε2est la somme des carrés des résidus du modèle ARMA(p, q), (p + 1) est le nombre de régres-seurs du modèle et T la taille de l’échantillon.

Afin de comparer les résultats des prévisions effectuées avec les deux modèles, Hui Feng utilise deux critères classiques de comparaison, le MAPE20et le RMSPE21.

MAPE= [1/m m

i=1 abs(( ˆyt− yt/yt))] × 100 RMSPE= s 1/m m

i=1 [( ˆyt− yt/yt)]2× 100

Hui Feng reprend le S − test comme critère de sélection de modèles proposé par Diebold et Mariano (1995). Ce critère teste l’hypothèse selon laquelle il n’y a pas de différence entre les performances de prédiction des deux modèles retenus. La statistique s’exprime comme :

S= (m 4) −1 2 [ 12

i=1 dim 2]

Où m est la période prévue. di= 1 si l’erreur de prévision quadratique du modèle SETAR est plus élevée que celle du modèle ARMA, et diprend la valeur 0 sinon.

Hui Feng effectue plusieurs sélections de retards pour les deux modèles et calcule ensuite plusieurs statistiques sur la qualité de la prévision selon que l’on utilise des valeurs des variables de l’agrégat monétaire canadien M3 ou bien le crédit immobilier. Les résultats sont assez disparates selon les périodes et les différents cas testés. Nous retenons que pour certains cas, le nombre de retards retenus selon le critère AIC22 sont modifiés et le MAPE ainsi que le RMSPE sont plus faibles quand les données en

20. Mean Absolute Percentage Error. 21. Root Mean Squared Percentage Error.

données courantes (ou actuelles, révisées) sont utilisées pour effectuer les prévisions des variables que quand les données en temps réel sont utilisées.

N. Kundan Kishor et Evan F. Koenig (2005), de la Federal Reserve Bank of Dallas a repris dif-férentes études antérieures sur la prévision des variables macroéconomiques américaines et montre que la prévision utilisant la modélisation VAR est très sensible à la révision des données, qui donne des résultats de prévisions significativement différents selon la version choisie des variables pour différentes