R EVUE DE STATISTIQUE APPLIQUÉE
M ICHEL D EQUE
Optimisation statistique de la prévisibilité en météorologie
Revue de statistique appliquée, tome 34, n
o4 (1986), p. 17-25
<http://www.numdam.org/item?id=RSA_1986__34_4_17_0>
© Société française de statistique, 1986, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
17
OPTIMISATION STATISTIQUE DE LA PRÉVISIBILITÉ EN MÉTÉOROLOGIE
MICHEL DEQUE Centre National de Recherches Météorologiques
(DMNjEERM)
42, Avenue G. Coriolis, 31057 Toulouse Cedex
RÉSUMÉ
La prévisibilité d’un phénomène par un algorithme peut être appréciée quantitativement
par le rapport de l’erreur quadratique moyenne sur l’écart type, ce dernier étant l’erreur
quadratique que l’on obtient en prévoyant la moyenne du phénomène. Nous proposons dans cet article une méthode analogue dans son principe à l’Analyse en Composantes Principales qui permet de déterminer les directions propres de façon à maximiser la prévisibilité des premières composantes. L’analyse Canonique apparaît comme un cas particulier de cette méthode, quand l’algorithme de prévision est la régression multidimensionnelle. Cette méthode a été appliquée
aux sorties d’un modèle de prévision météorologique. Les résultats montrent qu’il existe dans ces
sorties une part prévisible à 10 jours d’échéance et que cette prévisibilité est meilleure que la
simple persistance des conditions initiales.
ABSTRACT
The predictability of a phenomenon by an algorithm may be measured by the ratio of root
mean square error over standard deviation which corresponds to the root mean square error of the prediction by the average of the phenomenon. Using a methode similar to the Principal Component Analysis, one can project a field on eigenvectors, in such a way that the predictability
of the first components is maximized; when the prediction is made by means of a linear multidimensional regression, this method yields the canonical Axes. The method is applied to
the outputs of a numerical weather forecasting model and shows that there exists a fraction of these outputs which is predictable at a 10 day lag and that this predictability is better than simple persistance of the initial conditions.
Mots clés :
Prévision, Météorologie, Géopotentiel, Persistance, Composantes principales.
I. INTRODUCTION
Le
principal
but de lamétéorologie
étant deprévoir
letemps qu’il fera,
la
prévisibilité
est unproblème
fondamental pourcette
science. On s’est vite renducompte
que même avec de très gros moyens il était très difficile deprévoir
letemps
au-delà dequelques jours. L’explication
de cephénomène
tient à ce que,
compte
tenu de la fortenon-linéarité
desphénomènes atmosphériques,
une faible erreurs’amplifie
au cours dutemps
et finit par recouvrir lesignal
intéressant. Cette erreurpeut
être due à un manque d’information sur la situation dedépart
ou à un manque de réalisme dansla
description
desphénomènes atmosphériques.
Dès lors on s’est vivement intéressé à ce que l’onpouvait prévoir
etjusqu’à quelle
limite onpouvait
faireRevue de Statistiques Appliquées, 1986, vol XXXV, n° 4
des
prévisions.
Une des méthodesemployées
consiste à supposer que le modèlenumérique
est un modèleparfait
et à y introduire une erreur aléatoire faible pour suivre sa croissance(SHUKLA 1981).
LORENZ(1969)
aproposé
un modèle
simple
de croissance de l’erreur. Une autre méthode consiste à faire abstraction des modèles et à rechercher dansl’atmosphère
réelle lerapport
entre la variabilitéintermensuelle,
considérée comme unsignal
et lavariabilité
intramensuelle,
considérée comme du bruit(SHUKLA
et GUT-ZLER
1983).
Ces diverses méthodes montrent que lesgrandes
ondesspatiales
sont
plus prévisibles
que lespetites
ondes.Lorsqu’on
effectue uneAnalyse
en
Composantes Principales (ACP)
sur lechamp
degéopotentiel
à 500 hPa(VOLMER et
al.1984)
on trouve que lespremières Composantes Principales
sont bien
reproduites
par les modèlesnumériques
etqu’elles correspondent
aux
grandes
ondesspatiales
de cechamp.
Une série de 10expériences
deprévision
a montré(CLOCHARD et
al.1982)
que les 3premières Composan-
tes
Principales
étaientprévisibles jusqu’à
10-15jours
alors que l’ensemble duchamp
ne l’était quejusqu’à
5jours.
L’analyse
enComposantes Principales
est construite pour obtenir des variables unidimensionnelles àpartir
de vecteurs en maximisant la variance.Nulle
part
n’intervient dansl’algorithme
leconcept
deprévisibilité.
Autre-ment dit la
décomposition
d’unchamp
enComposantes Principales
n’aaucune raison d’être
optimale
pour laprévision
et onpeut
chercher une nouvelledécomposition
duchamp optimisant
un critère directement relié à laprévisibilité.
C’estl’objet
de cequi
va suivre.II.
DÉFINITION
DE LAPRÉVISIBILITÉ
Fixons une échéance de k
jours. Supposons
que l’on ait ungrand
nombre
de situations et deprévisions
à kjours
d’unchamp
donné Z. Soient Z(x, t)
laprévision
à la date t issue de la date t - k aupoint
x et Z(x, t)
la situation réellecorrespondante. On
poseZ (t)
> la moyennespatiale
sur ledomaine de
prévision
de Z(x, t)
et Z(x)
sa moyennetemporelle
sur l’ensembledes situations. On définit alors l’écart
quadratique
moyen e par la racine carrée de la moyennespatio-temporelle
des erreurs deprévision
au carré :Cet indice est nul si et seulement si pour
chaque prévision
et enchaque point
lechamp prévu
coïncide avec lechamp
observé. On omettra dans la suite la variable x, cequi
revient à considérer que lechamp
Z(t)
est un vecteur(dont
lescomposantes
sont les valeursZ (x, t)
deZ (t)
aux différentspoints
x du domaine de
prévision),
et de même Z est un vecteur. On pose :écart-type
des observationsautocorrélation à k
jours
19 Il existe trois méthodes de
prévision statistique
que l’onpeut qualifier
de triviales et
qui,
enmétéorologie,
servent à calibrer unalgorithme.
i)
Laprévision
par laclimatologie
C’est la
prévision
par la moyenne. SiZ (t)
est décorrélétemporellement
avec
Z (t),
on montre que e est minimum pourZ (t)
= Z.Quand
on nedispose
d’aucune information pour faire la
prévision, plutôt
que faire uneprévision aléatoire,
il vaut mieuxprévoir
lephénomène
moyen. On obtient alors e = OZ.ii)
Laprévision
parpersistance
Si on suppose que le
champ
évolue lentement dans letemps,
onprend pour prévision
la situation dujour
où on fait laprévision.
On poseZ (t)
=Z (t - k)
et on trouve e == Oz(2(1 - 03C1z))1/2.
Cette méthode estsupérieure
à laprévision
par laclimatologie
tant que pz 1/2.iii)
Laprévision
parpersistance
amélioréeEn combinant les deux méthodes
précédentes,
onpeut
faire unerégression
linéaire deZ (t)
parZ (t - k).
Il vient :L’erreur
quadratique
moyenne est alors e =Oz(l 2013 03C12z)1/2.
Cette mé-thode est
toujours supérieure
aux deuxprécédentes,
mais dans lapratique
l’écart
quadratique qui
lui est associé est trèsproche
de celui d’une des deux méthodes.On dira
qu’une
méthode deprévision apporte
de laprévisibilité
àl’échéance k si la valeur de e est inférieure à celle que l’on trouve pour la troisième méthode. En fait on se refère souvent à l’une des deux
premières
méthodes. Pour la
prévision météorologique
à courte échéance(inférieure
à3
jours),
on se refèregénéralement
à laprévision
parpersistance.
Pour laprévision
àlongue
échéance(supérieure
à 10jours),
on se réfère à laprévision
de la
climatologie.
III. OPTIMISATION DE LA
PRÉVISIBILITÉ
En
partant
d’unchamp Z (t) (vecteur
colonne deZ (x, t), cf. § II)
demoyenne
temporelle Z
dont on fait uneprévision Z (t)
on va déterminer uneforme linéaire B’ de
façon
à ce que laprojection â
duchamp prévu, â (t)
=B’ (Z (t) - Z),
soit laplus proche possible
de celle duchamp observé, a(t)
=B’ (Z (t) - Z), l’apostrophe désignant
latransposée.
Si on se fixeRevue de Statistiques Appliquées, 1986, vol XXXV, n° 4
comme critère à minimiser la norme
quadratique e2 = (a (t)
-a (t»2,
il suffitde
prendre
B = 0 cequi
n’offre aucun intérêt. On choisit donc un critèreindépendant
de la norme de B :Ainsi,
dès que ce critère est inférieur à1,
on sait que laprévision
estmeilleure que la
prévision climatologique
pour cette composante.Posons
Wl
est donc la matrice varianceVzz
de Z.Il vient alors :
B est donc le vecteur propre de
Wi ’ W2
associé à laplus petite
valeurpropre. On
peut poursuivre l’opération
en prenant les vecteurs propres de valeur propre croissante. On obtient finalement une base de vecteurs Biauxquels
on associe les composantes ai =B/Z(t).
Si ij, B/WtBj ==
0 cequi implique
que ai et aj sont décorrélées. On trouve donc unepropriété analogue
auxComposantes Principales
et nousappellerons
les ai compo- santesprévisibles,
les vecteurs B, étant les Directions Prévisibles. Cescomposantes
seront dites effectivementprévisible
tant que les valeurs propres seront inférieures à 1. Cette méthode estparticulièrement
bienadaptée
à laprévision
àlongue
échéance ou à laprévision
desphénomènes
peupersistants
car on compare la
prévision
duphénomène
à laprévision
par sa moyenneaprès
correction de l’erreursystématique
deprévision
Z - Z. Pour s’assurer que laprévisibilité
de ces composantes nes’explique
pasuniquement
par leurpersistance,
il convient de vérifier aposteriori
que q 1 -p;.
IV. APPLICATION A DES
SCHÉMAS ÉLÉMENTAIRES
DEPRÉVISION
Munis du critère
précédent,
voyons ce que donnent des schémas élémentaires deprévision.
Laprévision
par l’état moyen n’a pas de senspuisqu’elle
sert de référence et toutes les valeurs propres sont 1. Laprévision
par
persistance
aboutit à ladiagonalisation
deW-11 W2 = 2Vzz-1 (Vzz - Wzz)
ce
qui
revient àdiagonaliser Vzz-1
1Wzz
avecLes
composantes
ainsi obtenues ont été étudiéesprécédemment
sous lenom de
Composantes
Persistantes(DEQUE 1983).
Elles maximisent le coefficient d’autocorrélation à l’ordre k.21 Enfin un schéma de
prévision
relativementsimple
est larégression
linéaire par un vecteur X
avec
On doit donc chercher les vecteurs propres de :
Si aj est le facteur
canonique
associé à la corrélationcanonique
rj dans ladécomposition
de(Z, X)
en variablescanoniques,
il est vecteur propre deW1 ’ W2
avec la valeur propre 1 - rj2. La recherche desComposantes
Prévisibles revient donc ici à faire une
Analyse Canonique (ANDERSON, 1958).
V. APPLICATION AU
GÉOPOTENTIEL À
500 HPA D’UNMODÈLE HYDRODYNAMIQUE
Nous avons constitué un fichier de
prévisions
à 10jours
dugéopotentiel
à 500 hPa fournies par le Centre
Européen
de PrévisionsMétéorologiques
àMoyen
Terme. Le modèle deprévision
est décrit dans BAEDE et al.(1979).
Nous avons retenu les
prévisions quotidiennes
de décembrejanvier
et févrierdu 1 er décembre 1979 au 28 février
1986,
soit 630prévisions
et les situationsréelles
correspondantes.
Leschamps
sontreprésentés
sur unegrille homogène (projection stéréographique polaire)
de 215points
surl’hémisphère
Nord. Lecycle
saisonnier est enlevé par soustraction des moyennes décadaires de lapériode
1979/86. Si onapplique
brutalement la méthode décriteau § III on
obtient des résultatsstatistiquement
nonsignificatifs
car en raison del’autocorrélation
temporelle
desséries,
àpartir
des 630prévisions
on n’a enréalité
qu’une
centaine d’évènementsindépendants
alorsqu’on
cherche laplus petite
valeur propre d’une matrice 215 x 215. On trouve unrapport
d’erreur deprévision
sur écarttype
de0,45
pour unecomposante qui n’explique
que0,0003
% de la variance totale duchamp. Aussi,
on effectueune
Analyse
enComposantes Principales
sur les 630 données observées et on ne retient pourl’Analyse
enComposantes
Prévisibles que les 20premières Composantes Principales
de cechamp
au lieu des 215 valeurs(ces
composan- tesexpliquent
76 % de la variancetotale).
La matrice dont on cherche laplus petite
valeur propre est alors une matrice 20 x 20 et on a moins deproblèmes
de stabilité des calculs. On
peut
montrer d’autre part que, si àpartir
desvecteurs de dimension 20 obtenus par la minimisation du
rapport
des erreurson revient à des vecteurs de dimension
215,
on obtient la même solution que si on avait effectué la minimisation sur deschamps
de taille 215 reconstitués à l’aide de leurs 20premières Composantes Principales.
Cette méthode a en outrel’avantage
degarantir
une variance minimum pour lescomposantes prévisibles puisque
celle-ci seratoujours supérieure
à la variance de la 20eComposantes Principale.
On est sûrqu’ainsi
la contribution despremières
Revue de Statistiques Appliquees, 1986, vol XXXV, n° 4
Figure 1. - Vecteur propre correspondant à la 3e composante principale du géopotentiel à
JOO hPa (cad la plus prévisible) obtenue avec 7 hivers (Unité arbitraire : la moyenne quadratique spatiale est 1).
Composantes
Prévisibles à la reconstitution duchamp
initial ne sera pasnégligeable.
Les
pourcentages
de varianceexpliquées
par les troispremières Composantes Principales
sont10,9 %, 8,5 %
et7,3 %.
Seule la troisième esteffectivement
prévisible
avec unrapport
de l’erreur deprévision
par lemodèle sur l’erreur de
prévision
par la moyenne de0,89.
Les autresComposantes Principales
ont desrapports supérieurs
à 1. Cetteprévisibilité
ne
s’explique
pas par sapersistance
car lerapport
de l’erreur deprévision
par
persistance
améliorée sur l’erreur deprévision
par la moyenne est0,99.
Les
premiers
vecteurs propres de l’ACP de cechamp
sont abondamment décrits dans la littérature(cf.
parexemple
RINNE etal., 1981).
Lafigure
1présente
la 3e DirectionPrincipale.
Elle oppose la valeur dugéopotentiel
au-dessus du Labrador et de la Scandinavie à la
partie tempérée
de l’OcéanAtlantique,
la structureopposée
et atténuée se retrouvant au-dessus de l’OcéanPacifique.
Nous avons ensuite effectué une
Analyse
enComposantes
Prévisibles(en comparant
lesprévisions
à 10jours
du modèle aux valeursobservées)
etune
Analyse
enComposantes
Persistantes(en comparant
les valeurs obser- vées aux valeurs observées 10jours plus tôt)
des données reconstituées àpartir
de ces 20premières Composantes Principales.
On trouve quequatre
composantes
décorrélées sontprévisibles
par le modèle alors que deux23
composantes
le sont parpersistance (p
>0,5)
et une parantipersistance (p
-0,5). Cependant
le caractère véritablementprévisible
ne se mesure passur le fichier
d’apprentissage.
Aussi avons nous effectué une reconnaissanceglissante
pour lesAnalyses
enComposantes
Prévisibles et Persistantes. Pour cela on effectue ces deuxAnalyses
sur les 6premiers hivers, puis,
pour leseptième
et dernierhiver,
on calcule pourchaque Composante
Prévisible leserreurs
quadratiques
moyennes pour lesprévisions
par le modèle et par la moyenne(moyenne
calculée sur les 6premiers hivers);
pourchaque
Com-posante
Persistante on calcule les erreursquadratiques
moyennes pour lesprévisions
parpersistance
et par la moyenne. On recommence cesopérations sept
fois en utilisantchaque
fois l’un des hivers comme fichiers test. Enfinon calcule la moyenne
quadratique
dessept
erreurs pour les différentstypes
deprévision.
Ondispose
ainsi d’une estimation des erreurs deprévision lorsque
cescomposantes
seront calculées sur un nouveau fichier.Les trois
premières Composantes
Prévisibles conservent leur caractèreprévisible
sur fichier test avec desrapports
d’erreur de0,80, 0,93,
et0,96.
Cesrapports
sont naturellementsupérieurs
à ceux obtenus sur fichierd’apprentis-
sage,
respectivement 0,76, 0,81
et0,90.
Lapremière Composante
Prévisiblea un
pourcentage
de varianceexpliquée
de5,8
% et la direction associée estprésentée
sur lafigure
2. Elle est essentiellement localisée sur l’OcéanPacifique.
Figure 2. - Id. Figure 1 pour le vecteur correspondant à la première Composante Prévisible.
Revue de Statistiques Appliquées, 1986, vol XXXV, n° 4
Figure 3. - Id. Figure 1 pour le vecteur correspondant à la premère Composante Persistante.
Sur les trois
Composantes
Persistantesqui
sur fichierd’apprentissage
ont un coefficient d’autocorrélation à 10
jours supérieur
à0,5
en valeurabsolue,
aucune ne conserve deprévisibilité
parpersistance
sur fichier test.La
première Composante
Persistante a unpourcentage
de varianceexpliquée
de
4,8
%. Sonrapport
d’erreur deprévision
parpersistance
améliorée surerreur de
prévision
par la moyenne est de0,95
sur fichier test(au
lieu de0,81
sur fichier
d’apprentissage).
Laqualité
de laprévision optimale
parpersis-
tance est donc inférieure à la
qualité
de laprévision optimale
par le modèle.La direction Persistante
correspondante
estprésentée
sur lafigure
3. Elleprésente
aussi de fortes valeurs au dessus duPacifique,
mais diffère de lapremière
Direction Prévisible au dessus del’Atlantique.
VI. CONCLUSION
De même
qu’un champ peut
êtredécomposé
aisément encomposantes
décorrélées maximisant lavariance,
il estpossible
dedécomposer
unchamp
issu d’un
algorithme
deprévision quelconque
encomposantes
décorrélées maximisant laprévisibilité,
c’est-à-dire lerapport
de l’erreur obtenue par cetalgorithme
sur l’erreur obtenue enprévoyant
la moyenne duphénomène.
Appliquée
à laprévision
parrégression multidimensionnelle,
cette méthode25 revient à faire une
Analyse Canonique. Appliquée
à laprévision météorologi-
que à 10
jours
par un modèlehydrodynamique,
ellepermet
d’isoler une composante duchamp
degéopotentiel
à 500 hPaqui
est un peuplus prévisible
que lapartie
duchamp
laplus persistante.
Cette nouvelle variablepeut
servir l’index de circulationatmosphérique
dans une méthode deprévision
parrégression
àpartir
de sorties de modèles. Une méthode de test par reconnaissanceglissante
montre que ces résultats ne sont pas liés à la taille relativement courte du fichierd’apprentissage (7 hivers).
REMERCIEMENTS
L’auteur
exprime
ses remerciements à G. DER MEGREDITCHIAN pour ses conseils et ses encouragements et à J.F. ROYER et J.C.ANDRÉ
pour leurs commentaires fructueux. Ce travail a été en
partie
soutenu par leProgramme
National d’Etude de laDynamique
du climat.RÉFÉRENCES
I.W. ANDERSON
(1958).
- An introduction to multivariate statisticalAnalysis.
JohnWiley
& Sons.A.
BAEDE,
M. JARRAUD and U. CUBASCH(1979).
- Adiabatic formu-lation and
organization
of ECMWF’sspectral
model. ECMWF Technicalreport n° 15, 40 pp. (disponible
àECMWF,
ShinfieldPack, Reading, Berks.,
RG 29AX, England).
J.
CLOCHARD,
M.DÉQUÈ
et J.F. ROYER(1982).
-Expérience
dePrévision à échéance
prolongée
à l’aide d’un modèle de circulationgénérale.
Note de Travail de l’EERM n°44,
57 pp.(disponible
àEERM,
77 rue de
Sèvres,
92106Boulogne, France).
M.
DÉQUÈ (1983).
2014 Etude de lapersistance
d’unchamp météorologique.
Revue de
Statistique Appliquée,
Vol.XXXI,
n°3,
39-56.E.N. LORENZ
(1969).
2014 Thepredictability
of a flow which possesses many scales of motion.Tellus, 21,
289-307.J.
RINNE,
V. KARHILA and S.JÄRVENOJA (1981).
2014 The EOFsof
the500 mb
height
in theextratropics of
the NorthernHemisphere. Report
n°
17, Dept
ofmeteorology, University
ofHelsinki, Finland, 16 pp.
J. SHUKLA
(1981).
-Dynamical Predictability
ofMonthly
Means. J. Atmos.Sci., 38,
2547-2572.J. SHUKLA and D.S. GUTZLER
(1983).
- InterannualVariability
andPredictability
of 500 mbGeopotential Heights
over the NorthernHemisphere.
Mon. Wea.Rev., 111,
1273-1279.J.P.
VOLMER,
M.DÉQUÉ
and D. ROUSSELET(1984).
- EOFanalysis
of 500 mb
geopotential :
acomparison
between simultation andreality, Tellus, 36 A,
336-347.Revue de Statistiques Appliquées, 1986, vol XXXV, n° 4