timations successives des variables - Le problème de la révision des données statistiques : le

La confrontation des hypothèses sur la nature de l’erreur : notion de bruit et notion d’in-novation

Afin d’analyser le comportement du processus de révisions qui affecte le PNB nominal ainsi que son déflateur en données trimestrielles, Victor Zarnowitz (1982) calcule plusieurs statistiques ainsi que l’équation de l’analyse de la variance découlant de la régression des différentes versions des variables considérées sur leur série préliminaire.

Cinq versions sont prises en compte dans l’analyse de Zarnowitz : la première version qui survient 15 jours après chaque trimestre, l’estimation de quarante cinq jours après et les trois révisions annuelles successives au mois de juillet de chaque année.

Considérons chaque version Ai, i = 1, ..., 5 des variables considérées.

La révision représente l’écart entre la version préliminaire et les autres qui surviennent après son estimation à savoir :

E_it= A_1t− A_it Pour tout i.

Zarnowitz calcule la Statistique U de Thiel pour chaque version i afin de comparer la variation relative des révisions par rapport aux versions diffusées. Cette statistique sera d’autant plus faible que la précision de la prédictibilité des versions finales sont précises avec une erreur minimale.

Ui= s 1 n n

∑

t E_it² s 1 n n

∑

t A²_it

L’analyse de la variance est effectuée en régressant la série préliminaire des variables sur chaque version i :

Ait= ai+ biA_1t+ uit

On en déduit l’équation de l’analyse de la variance :

M_i=¹

∑

^Eii²= ¯E_i²+ (1 − bi)²S²_A1+ S²_ui

La partie à droite de l’égalité exprime la pente de la moyenne des révisions et la variance des résidus.

en testant la nullité de la constante et l’unité de la pente de la régression.

Zarnowitz compare ainsi toutes les statistiques découlant de la régression ainsi que le calcul de la statistique U pour chaque version i.

Notons que ces relations linéaires permettant de tester la bonne corrélation sans biais entre les versions provisoires et finales des variables macroéconomiques ont été proposées auparavant par Cole (1969).

Mankiw, Runkle et Shapiro (1984), reprennent des méthodes d’analyse simples du phénomène de la révision des variables qui présente quelque ressemblance dans des études plus anciennes comme celle de Zellner (1958). Il s’agit de formaliser des relations économétriques linéaires mettant en relation deux versions publiées à des dates différentes des variables macroéconomiques. Par le biais de l’analyse de la corrélation entre les révisions et les versions publiées de ces variables, les auteurs tentent de définir la nature des erreurs susceptibles d’être contenues dans les séries préliminaires qui sont ensuite corrigées par la leur révision successive au cours du temps.

Nous présentons dans ce qui suit le modèle linéaire proposé par les auteurs en respectant les mêmes notations exposées dans leur analyse. Nous exposerons ensuite les deux hypothèses exclusives qui véhi-culeront les deux cas possibles du comportement du processus de révision.

Notations

Soit x la variable considérée.

x_t^∗: vraie valeur de x au temps t.

x_t⁰: valeur de x au temps t telle qu’elle a été mesurée au temps t. x_t^p: valeur de x au temps t telle qu’elle a été annoncée au temps t. x_t^f : prévision optimale de x^∗_t au temps t.

v_t : l’erreur mesurée ou le bruit x^∗_t − x0 t

et : le signal ou la perturbation contenue dans la relation (2). w²: la variance de vt.

s²: la variance de et.

Wt : le vecteur de variables déterministes utilisées comme variables explicatives de xt selon ses premières versions.

Le modèle

La nature de l’erreur qui entache la méthode utilisée par le statisticien chargé de les construire. Il peut s’agir d’une récolte et d’un assemblage de plusieurs informations découlant de plusieurs sources. Les erreurs dans ce cas sont de simples erreurs de mesure et la révision concernera la correction de cette erreur par l’ajout de l’information manquante au moment de la première constitution provisoire des variables. Mankiw et al. parlent de la notion de "noise" ou bruit contenu dans les variables.

Dans un autre cas, il peut s’agir d’une estimation où le statisticien dispose de toute l’information né-cessaire à la constitution de la variable. Il prédit les valeurs futures et ces dernières si elles contiennent des erreurs, leur révision sera basée sur l’ajout d’information nouvelle par rapport à l’estimation provi-soire. Les auteurs dans ce cas, parlent de la notion de "news" ou innovation contenue dans les variables. Une information nouvelle indépendante des informations précédentes de la constitution viendra corriger l’erreur d’estimation.

En fonction de ces deux hypothèses exclusives, Mankiw et al. effectuent des tests de corrélation entre les différentes versions des séries proposées par les organismes statistiques et leurs révisions. La valeur initiale annoncée selon ces deux cas égale la vraie valeur finale espérée de la variable considérée, ajoutée d’un terme erreur :

x⁰_t ≡ x^∗_t + vt

non corrélé à la vraie valeur x^∗_t.

Dans un premier temps le statisticien estimera une première valeur préliminaire x_t^pqui pourrait - ou pas - être égale à la première annonce de la valeur de xt, x_t⁰.

Le statisticien effectue ensuite une prévision xt^f de la vraie valeur de variance minimale, condi-tionnelle aux informations disponibles au moment où la prévision est effectuée, contenant également l’estimation préliminaire xt^p.

On pose le modèle de prévision de la manière suivante :

x_t^∗= Wta+ et

Où Wt est l’ensemble d’informations (variables) disponibles au moment de la prévision et a un en-semble de paramètres. Deux cas de figures se présentent alors formalisées en posant les deux hypothèses exclusives.

Première hypothèse : erreur classique dans les variables

On suppose que le statisticien annonce la bonne valeur mesurée, à savoir :

x_t^p= x⁰_t

La révision x^∗_t − x_t^pest non corrélée à la vraie valeur x_t^∗, mais plutôt corrélée aux premières informa-tions utilisées dans la constitution de cette valeur, à savoir la série préliminaire x_t^p.

Si nous effectuons la régression suivante :

Sous la première hypothèse, la constante sera d’espérance nulle et la pente tendra vers l’unité. Dans ce cas, la série préliminaire résume un cas d’erreur classique ou d’un bruit dans la variable estimée.

x_t^pest donc une estimation biaisée de x^∗_t et la révision consistera à corriger ce biais par la correction de l’information incomplète initialement qui a engendré ce biais.

Deuxième hypothèse : Les estimations préliminaires comme un prédicteur rationnel des vraies valeurs

Supposons maintenant qu’au lieu d’estimer une valeur qui tend vers la valeur initiale x⁰_t, le statisti-cien ajuste plutôt des estimations à cette variable. Une sorte de la meilleure estimation future de la vraie valeur conditionnellement aux informations disponibles des variables Wt et de la valeur initiale x⁰_t.

x_t^p= x_t^f Nous estimons la relation économétriquement :

x^∗_t = b1x_t^p+Wtb₂

Dans cette hypothèse, x_t^p= x_t^f et les révisions seront orthogonales (non corrélées) à l’informations initiale Wt et la série préliminaire xt^p.

Ainsi selon les estimations préliminaires de la variable xt, les implications seront opposées. La pre-mière hypothèse où l’on annonce une série préliminaire et sa révision future sera une erreur de mesure de la série finale ; la seconde hypothèse sera elle plutôt une erreur de prévision de la vraie valeur finale :

La première hypothèse implique que la variation de la série provisoire sera plus forte que celle de la série finale à cause du bruit contenu dans ces séries provisoires.

En opposition, la seconde hypothèse, implique que Var(xt^p) < Var(x^∗_t).

Une application empirique effectuée sur les estimations de l’agrégat monétaire américain M1 ex-primé en taux de croissance permet de conclure dans quel cas d’hypothèse les révisions de cet agrégat se situent. Une manière des auteurs de formaliser et mettre en application les deux hypothèses du modèle économétrique simple, mettant en relation les différentes versions des variables économiques.

Les résultats des estimations montrent que la variance du taux de croissance de la série préliminaire estimée est supérieure à la variance de la série finale. Et les révisions sont corrélées aux séries prélimi-naires et non corrélées à la série finale de l’agrégat. La régression de la série préliminaire sur la série finale confirme ce résultat.

En conclusion, les révisions de l’agrégat M1 se situent plutôt dans le cas de la première hypothèse. La série préliminaire n’est pas un bon prédicteur de la série finale. C’est un cas simple d’erreur de mesure. Les auteurs montrent qu’un rajout d’information comme des variables muettes pour représenter la saisonnalité ainsi qu’une constance et un trend améliorent très fortement les résultats de la régression.

Les statisticiens commettent donc des erreurs de mesure compte tenu de l’information disponible au moment où ils estiment la série préliminaire de l’agrégat, qui ne sera pas un bon estimateur de la vraie valeur finale ultérieurement disponible.

Carl E. Walsh (1985), de la Federal Reserve Bank of San Fransisco, explore le comportement des estimations flash survenant 15 jours avant la fin du trimestre, périodicité à laquelle est publié le PIB amé-ricain. Deux questions sont posées permettant d’analyser les existences ou non de corrélations, pouvant montrer si l’estimation flash serait entachée d’erreurs d’estimations, ce qui signifierait une présence de corrélation entre ces estimations et leurs erreurs, ou alors, en observant les estimations flash comme de bonnes estimations de la publication ultérieure du PIB. A ce moment-là, les erreurs seraient des erreurs de prévisions, indépendantes des estimations.

Dans un premier temps, l’auteur effectue une analyse descriptive graphique, affichant la série flash et la série révisée trimestrielle du PIB sur la période 1976.1 à 1983.4. Il constate d’une part que les différences entre les deux séries seraient de l’ordre de 1 à deux %, pouvant atteindre les 3 % sur quelques points. Il remarque également quelques erreurs de signe, où les points de retournements sont mal estimés par les séries flash, en comparaison des premières séries révisées, survenant après la publication flash.

A partir de ces deux constats, Walsh utilise des équations économétriques simples afin d’étudier les relations de corrélation pouvant exister entre les séries et leurs erreurs, afin de pouvoir conclure sur la nature même de ces erreurs. Il reprend l’analyse de Mankiw, Shapiro et Runkle (1984) sur le stock de monnaie et l’applique sur l’analyse du taux de croissance du PIB. Les tests de la nullité de la constante et du coefficient de régression caractérisant la relation linéaire entre les estimations flash et trois autres séries préliminaires et finale, sont exposés et montrent que en général, les estimations flash seraient de bons estimateurs de la prévision des séries finales et que le rejet de la nullité des coefficients dans la relation linéaire entre séries finales et flash montrerait que ces dernières seraient entachées d’erreurs d’estimations. les équations économétriques sont au nombre de deux. Une régression de la série finale sur les séries préliminaires et flash et inversement, les séries flash sur les séries finalisées. Ces deux modèles sont nommés respectivement errors-in-variables model (EVM) et forecast error in a rational forecast model (RFM).

Les erreurs sont donc dues plus à un manque d’information lors de l’estimation des séries flash, qui se complète progressivement à force de se rapprocher dans le temps de la série finale et diminuant ainsi le biais.

Mankiw et Shapiro (1986) dans une autre étude de la corrélation des révisions et des variables macroéconomiques utilisent cette même technique de la confrontation des deux natures possibles des erreurs, noise versus news, concernant le Produit National Brut américain. Après avoir exposé les dif-férentes périodes d’estimation du PNB américain par le BEA sur la période trimestrielle 1975-1982, les auteurs calculent les moyennes et écart-types des taux de croissances annuels de 5 révisions successives du PNB en dollars constants et en dollars courants. L’écart-type non négligeable, fait que l’intervalle de confiance de la variation des révisions de la première publication à la cinquième publication soit relativement important.

Tout dépend de la manière dont le BEA estime successivement les chiffres du PNB et de prendre ou non en compte les corrélations entre les estimations. Si les chiffres antérieurs sont des prévisions efficientes des estimations ultérieures, leur variance devrait augmenter au fil de chaque révision. Inver-sement, s’il s’agit d’une erreur d’estimation, la variance devrait baisser.

Les écart-types estimés par les auteurs augmentent au fil de chaque révision. Les corrélations suc-cessives d’une révision à une autre (cross-corrélation) sont calculées. Les deux informations montrent

que les révisions de chaque série préliminaire sont considérées comme étant des erreurs de prévisions corrigées progressivement. Le processus des révisons serait donc plus considéré comme une innovation plutôt qu’un bruit. On effectue donc une prédiction du chiffre du PNB courant, compte tenu d’indica-teurs ou d’information présente à ce moment-là et ces prédictions sont améliorées quand une information supplémentaire disponible plus tard sera incorporée aux méthodes d’estimations, améliorant ainsi les es-timations du PNB.

Dans les deux analyses, nous avons constaté que selon la grandeur analysée, les organismes sta-tistiques mènent des politiques de révision différentes. Concernant la variable monétaire américaine, il s’agirait d’un bruit entachant les séries préliminaires, révisé progressivement dans le temps. Alors que les différentes estimations provisoires du PNB se retrouvent plus dans le cas d’erreur de prévision de la version finale de cet agrégat.

L’étude de Knut Anton Mork (1987) est similaire à l’analyse des différents stades de révisions trimestrielles des Comptes Nationaux au sein du BEA, effectuée par Mankiw, Shapiro et Runkle (1984), en estimant la relation avec la prise en compte de quatre différentes estimations préliminaires des séries ("flash", 15-jours, 45-jours et 75-jours) :

r_t = Xtβ + ut

Où rt la révision est une combinaison linéaire de l’information préliminaire de Xt. L’estimation est effectuée sur différents échantillons en fonction de la disponibilité des données (portant sur la période 1968.T4-1984.T4), compte tenu du délai de publication des quatre séries de révisions. Des retards sont introduits dans ces trois séries. Quatre tableaux de résultats de régressions de l’équation de chacune de ces quatre séries, afin de tester la nullité du coefficient de régression, i.e. : existence de relation linéaire stable entre les séries préliminaires à différents stades et les séries "finalement" révisées. Il s’agira donc de tester la nullité des coefficients de régression β , pour confirmer ou infirmer l’existence d’une relation linaire directe entre les révisions arrivant à la fin du processus et le séries préliminaires provisoires estimées au préalable, progressivement durant différentes dates.

Les résultats obtenus ne sont pas satisfaisants, avec des coefficients de régression de mauvaise qua-lité, à part le fait que la 75-jours présente de meilleurs résultats, à supposer que l’amplitude de révision

aurait baissé compte tenu des révisions antérieures plus importantes dans les autres séries estimées avant celle-ci, ainsi que le fait que à mesure que l’échantillon utilisé pour estimer la 75-jours soit plus impor-tant, améliorerait les résultats de la régression.

Salih N. Neftci et Panayiotis Theodossiou (1991), effectuent des régressions de la même manière que Mankiw et Shapiro (1986) ainsi que Mork (1987), sur le PNB américain en dollars constants sur la période trimestrielle 1976.T1-1987.T3. Les séries sont exprimées en taux de croissance annualisé afin de retirer l’effet saisonnier des séries. Trois estimations, la préliminaires ainsi que les deux révisions sont introduites dans les équations économétriques, ainsi qu’une variable indicatrice qui vaut zéro sur la pé-riode 1976.T1-1982.T4 et un sur le reste de la pépé-riode d’estimation. L’idée est de noter le comportement évolutif du PNB. L’évolution serait-elle stable ou non ?

Les résultats de régression obtenus se rapprochent plus des résultats de Mork (1987) que de Shapiro et Mankiw (1986) : les premières révisions (15 jours et 45 jours après le trimestre considéré) sont biaisées et sous-estiment la donnée finale. Alors que la révision plus proche (75 jours après le trimestre considéré) s’avère être non biaisée et estime mieux l’estimation finale du PNB sur la période 1978.T1-1982.T4 mais biaisée durant le reste de la période d’estimation, à savoir 1983.T1-1987.T3.

Dans la même lignée, K. D. Patterson (1992), estime la relation citée dans les précédentes études :

y_t¹¹= α + β y_t¹+ ut

Où y_t¹¹et y_t¹sont les logarithmes respectifs de la révision et de ses séries préliminaires. Afin de se rapprocher plus d’un taux de variations :

lnY_t¹¹− lnY_t¹=^Y 11 t −Y1 t Y_t¹ ,

y¹¹_t − y¹_t = α + (β − 1)y¹_t + ut

On teste ainsi la nullité des coefficients de la même manière que les études précédentes (α = 0 et β − 1 = 0), afin de confirmer l’existence d’une relation linéaire stable entre les différentes estimations des données et leurs révisions arrivées en fin de processus. Patterson analyse quatre séries de la balance commerciale du Royaume-Uni, à savoir les importations et les exportations de biens et de services américaines, sur un échantillon de 79 observations du quatrième trimestre 1967 au second trimestre 1987, affectées par 11 estimations successives. Une régression prenant en compte des révisions annuelles est également analysée. Les résultats obtenus sont différents selon la série étudiée. Les exportations et importations de biens présentent une ampleur de révisions moins importante que celle des services. De même que ces dernières seraient, sur la période considérée moins faciles à appréhender. D’un point de vue statistique, les coefficients obtenus présentent des caractéristiques différentes selon la série traitée.

Craig Richardson (2003), de l’Office of National Statistics1 propose une approche séries tempo-relles pour analyser les révisions. Il reprends d’une part la notion de confrontation News versus Noise présentée dans les études de Mankiw, Shapiro et Runkle (1984) et Mankiw et Shapiro (1986) ainsi que la modélisation des révision comme relation temporelle linéaire entre les séries préliminaire et les révisions de ces séries, proposée par Mincer et Zarnowitz (1969). L’application de es deux notions est effectuée pour comprendre le processus des révisions du PIB du Royaume-Uni.

Les révisions ultérieures du PIB sont-elles prédictibles si elles sont basées sur l’évolution antérieure des séries préliminaires de ce PIB ?

La relation entre les séries déjà utilisée dans un nombre important d’analyses se présente de la manière suivante :

GDP_t^L= GDP_t^P+ Rt

Dans cette équation, L signifie "Latest" pour finale et "preliminary" pour préliminaire. Ainsi, le PIB est une relation directe entre ses séries antérieures incrémentées d’une révision Rt.

Si les révisions sont non biaisées (notion de noise ou bruit), il y aura une faible corrélation entre les révisions et les séries préliminaires. Ces dernières ne contiennent pas d’information permettant de prédire les révisions. En revanche, si les séries sont biaisées (on parlera dans ce cas de notion de news, ou innovation), donc les séries préliminaires contiennent des informations nouvelles arrivant systémati-quement après chaque publication. Il y aura dans ce cas une très forte corrélation entre les séries préli-minaires et les révisions. Ces nouvelles données qui viennent enrichir les séries du PIB au Royaume-Uni peuvent survenir soit après un mois après le trimestre de référence, trois mois plus tard, ou des données de calage annuelles (benchmark) parues dans le First Blue Book (BB1). Afin de tester la nature des révisions (noise versus news), Richardson utilise la méthode proposée par Mincer et Zarnowitz (1969), à savoir :

Rt = α + β GDP_t^P+ ut

α et β sont les coefficients de la régression de l’équation et utles résidus. Tester la corrélation (news) ou la non-corrélation (noise) enter les révisions et les séries préliminaires, reviens à tester la nullité ou non des coefficients de la régression. Les coefficients nuls impliquent une absence de relation entre les deux séries et la non nullité impliquera un biais systématique dans les séries préliminaires, comme information régulière permettant de prédire l’évolution des révisions.

Afin d’effectuer ce test, Richardson poursuit les travaux de Croushore et Sark (1999) ainsi que Arkitidis (2003) de sorte à prendre plusieurs "millésimes" (ou versions) du PIB : le PIB de la même période révisé durant plusieurs périodes. La régression se fera sur 5 échantillons différents :

M1-M3 : comment la révision évolue entre le premier et le troisième mois. BB1-M3 : données

Dans le document Le problème de la révision des données statistiques : le cas des données douanières mensuelles du commerce extérieur français (Page 179-197)