R EVUE DE STATISTIQUE APPLIQUÉE
P ATRICIA P OTTIER
Utilisations de l’analyse en composantes principales pour la prévision statistique en météorologie
Revue de statistique appliquée, tome 39, n
o1 (1991), p. 37-49
<http://www.numdam.org/item?id=RSA_1991__39_1_37_0>
© Société française de statistique, 1991, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UTILISATIONS DE L’ANALYSE EN COMPOSANTES
PRINCIPALES POUR LA PRÉVISION STATISTIQUE
EN MÉTÉOROLOGIE
Patricia POTTIER*
Septembre
1990Ce travail a été réalisé sous la direction de MM.
Guy
DerMégréditchian
etJean-Pierre Javelle
(Météorologie Nationale/CRMD/STAT-MATH) .
1. Introduction
L’outil de base de la
prévision météorologique
est un modèlephysique
déterministe de
l’atmosphère.
Mais les outilsstatistiques
interviennent en amont et en aval. Tout d’abordl’analyse objective permet
d’utiliser au mieux les différentes données mesurées desparamètres météorologiques
pour initialiser leschamps
utilisés par le modèle. Les outils
statistiques
sont ensuiteemployés
lors del’investigation
de laqualité
d’un modèledynamique.
Cetteinvestigation peut
êtreintrinsèque
à travers le calcul d’indicesglobaux
dequalité permettant
de mesurerl’adéquation
entre leschamps prévus
etanalysés.
D’autrepart,
sur leplan utilitaire,
on cherche à
adapter
laprévision physique
pourparvenir
à uneprévision
localedes variables et
phénomènes météorologiques.
La démarche
présentée
ici se situe dans cette dernièreapproche,
dans le cadre de laprévision statistique :
extraire - à l’aide d’outilsstatistiques -
deschamps
deparamètres physiques
issus du modèle déterministe desprévisions
deparamètres
ou de
phénomènes
locaux.Plus
précisément,
on s’intéressera ici à laprévision,
en une centaine de villesfrançaises,
ducycle
diurne detempérature (températures
toutes les trois heures ettempératures
minimales et maximales observées au cours d’unejournée).
Lors de cette
étude,
a été mise en évidence lapertinence
de l’outilAnalyse
en
Composantes Principales (ACP)
pour réaliser laprévision
detempératures
demandée.
* Météorologie Nationale, CRMD, STAT-MATH, 2, avenue Rapp, 75340 Paris Cedex 07.
38 P. POTTIER
2.
L’Analyse
enComposantes Principales
2.1. Les données de l’étude
Au cours des dernières années, la modélisation de
l’atmosphère
a pro-gressé grâce
notamment à une diminuation de la maille et donc de l’échelle desphénomènes
traités(maille
de 38 kilomètres pour le modèle PERIDOT[réf.1]).
Malgré cela,
les valeurs detempérature prévues
par PERIDOT auxpoints
de
grille
sontparfois
peureprésentatives
destempératures
observées aux villesvoisines de ces
points ,
surtout dans les zones à reliefprononcé.
Uneadaptation (statistique
en cequi
nousconcerne)
est nécessaire.La base de données
disponible
apermis
de constituer un fichierd’apprentis-
sage d’une année et un fichier test
indépendant
de neuf mois. Pourchaque jour
dece
fichier,
29champs météorologiques (dont
lechamp
detempérature) analysés
ouprévus
à différentes échéances par le modèlephysique
PERIDOT de la Météoro-logie
Nationale étaient connus sur la France par leurs valeurs sur unegrille
de 990points [fig. 1].
On
présentera
ici essentiellement les résultats concernant lechamp
detempérature
à 2 mètresanalysé
ouprévu
à échéance de 24 heures.FIGURE 1
La
sous-grille
PERIDOT utilisée pour notre étude.2.2. Mise en oeuvre de
l’Analyse
enComposantes Principales
Cette
Analyse
enComposantes Principales [réf.2]
a été réalisée pardiago-
nalisation de la matrice de variance-covariance
Vxx
avec lesprocédures
de labibliothèque
STATMETdéveloppée
à laMétéorologie
Nationale. Précisons les no-tations
employées.
On note
X(t, x)
la valeur duchamp
detempérature prévu
par PERIDOT lejour t
au lieu(point
degrille)
x.Lors de la
décomposition
on écritX(t, x) :
où
Cj (x)
estle jème
VecteurPropre,
etaj(t) la jème Composante Principale (CP)
au
temps
t. On notera aussiAj la j e"2e
valeur propre etPj
lepourcentage
de varianceexpliquée
par lejème
vecteur propre défini par :Remarquons
que lors de cetteACP,
le vecteur X avait une taille de 990 alorsqu’on
nedisposait
que de 300 de ses observations. Au lieu dediagonaliser
la matriceVxx (de
taille 990 x990),
on aurait aussi pu réaliser l’ACP duale. Lepourcentage
très élevé(90%)
de varianceexpliquée
par lapremière
CPs’explique
aisémentpar la forte variabilité saisonnière du
paramètre température.
Les 15premières composantes principales expliquent
98% de la variance totale duchamp
mais nepermettent cependant
pas une reconstitutionparfaite
duchamp puisque
l’erreurquadratique
moyenne entre leschamps
initiaux et leschamps
reconstitués(avec
15CP)
reste de l’ordre de 1degré
Celsius.3. Mise en évidence de la structure
spatio-temporelle
du
champ
detempérature
L’ACP
permet
de décrire la structurespatio-temporelle
duchamp
detempéra-
ture en mettant en évidence
séparément
lescaractéristiques spatiales
ettemporelles
du
champ
à travers, d’unepart
lapondération
des vecteurs propres et, d’autrepart,
l’évolutiontemporelle
descomposantes principales.
3.1. Structure
spatiale
On s’est intéressé à la corrélation
spatiale rXa(j,x)
entre les séries tempo-relles suivantes :
e série des
températures
aupoint
x :X (t, x)
et40 P. POTTIER
2022 série
des jeme
composantesprincipales : aj(t).
De
plus, r2Xa(j,x) s’interprète
comme lepourcentage
de variance duchamp
X au
point
x associéau jème
vecteur propre et on a la relation suivante[réf.3] :
Sur les cartes de
rXa(j, x) présentées
ici pourquelques
vecteurs propres, onretrouve des résultats
classiquement
obtenus lors de l’ACP deschamps
météorolo-giques, perturbés cependant
par les effets du relief et del’inhomogénéité
entre latempérature
sur terre et sur mer.Le
premier
vecteur propre[fig. 2] apparaît
comme unesimple pondération
continue du
champ
avec un maximum peumarqué
au centre du domaine. Pour le deuxième vecteur propre[fig. 3],
la structuresimple (une opposition nord-sud)
est
perturbée
par l’effetterre/mer.
La même constatation sedégage
de la carteconcernant le troisième vecteur propre
[fig. 4].
Ensuite la structure devient deplus
en
plus complexe
et on note notamment un resserrement desisolignes
sur lesmontagnes
[fig. 5].
3.2. Structure
temporelle
Etudions maintenant la corrélation
temporelle rXC(j,t)
entre les sériesspatiales
suivantes(il
nes’agit
pas vraiment d’une corrélation maisplutôt
d’uncosinus,
les données étant centrées parrapport
aux stations et non parrapport
autemps).
2022 carte des
températures
aujour t : X(t,x)
et2022
pondérations du jème
vecteur propre :Cj (x),
pour x variant de 1 à 990.De
plus, r2XC(j, t) s’interprète
comme lepourcentage
de variance duchamp
X le
jour t
associéau jème
vecteur propre et on a la relation suivante[réf.3] :
Sur les courbes de
rXC(j, t) présentées,
on décrit l’évolutiontemporelle
descomposantes principales
normalisées. Pour lapremière
composante[fig. 6],
lecycle
saisonnier annuel est nettement mis en évidence. Pour les composantes
suivantes,
l’élémentcyclique
contenu dans lechamp météorologique
initialdisparaît
tandisque
l’amplitude
des oscillations autour de l’horizontale diminue[fig. 7].
FIGURE 2 Carte de
rXa(1, X).
FIGURE 3 Carte de
rXa(2, x).
42 P. POTTIER
FIGURE 4 Carte de
rXa(3, x).
FIGURE 5 Carte de
rXa(15, x).
FIGURE 6 Courbe
rxc(l, t).
FIGURE 7 Courbe
rxc(4, t).
44 P. POTTIER
4.
Représentativité
desComposantes Principales
4.1.
Représentativité globale
L’autocorrélation
spatiale
duchamp
detempérature
décrit par 990points
degrille
estimportante. Aussi,
peut-on essayer de le reconstituer en neprenant
en compte que lespremières Composantes Principales.
On obtient ainsi unchamp
filtré :
avec n « N == 990.
Quand
le nombre n deComposantes Principales
utilisées(prises
dans l’ordre des valeurs propresdécroissantes)
augmente, lechamp
recons-titué se
"rapproche"
duchamp
initial.Cette utilisation de
l’Analyse
enComposantes Principales permet
de décrire lesgrandes
structures duchamp
avec un nombre réduit de variables. Onpeut
aussil’envisager
dans le but de lisser unchamp trop bruité,
cequi
fut notreapproche,
le
champ
detempérature prévu
par le modèle PERIDOT en chacun despoints
degrille
étanttrop
bruité.Cependant,
cechamp,
mêmelissé,
ne permet pas de bienprévoir
latempérature
localement : c’est à dire enchaque
ville. Pour cela une autreapproche
desComposantes Principales
a étéemployée.
4.2.
Représentativité
localePour
prévoir
latempérature
en une villedonnée,
la méthode laplus
per- formante[réf. 4]
s’est révélée être le calcul d’uneéquation
derégression
linéairemultiple
entre leprédictand (la température
observée à laville)
et 15prédicteurs :
les 15
premières Composantes Principales
duchamp
detempérature prévu
par le modèle PERIDOT.Comme lors de la reconstitution du
champ,
on utilise les 15premières Composantes Principales,
mais lepoids
relatif(valeur
absolue du coefficient derégression normalisé)
affecté àchaque Composante Principale
n’estplus
alors celui des valeurs propres décroissantes.Par
exemple,
dansl’équation
deprévision
de latempérature
àMarseille,
les
Composantes Principales
ayant lesplus
fortspoids
sont : lapremière, puis
laseconde, puis
la dixième et laseptième.
On constateparallèlement
sur les cartes decorrélations
spatiales (au carré,
lesigne
iciimporte peu)
du dixième ou duseptième
vecteur propre
[fig. 8]
de fortes variations de ces corrélations autour de Marseille.Plus
généralement,
il estpossible
de mettre enparallèle
2022 les cartes de corrélations
spatiales
des vecteurs propres,w les cartes donnant le
"rang"
dechaque Composante Principale
dans lesrégressions permettant
deprévoir
latempérature
en différentes villesfrançaises ("rang"
lors d’un classement desComposantes Principales
selonles coefficients de
régression
normalisés décroissants -en valeur absolue- dansl’équation
derégression
pour la villeconsidérée).
Pour le
septième
vecteur propre parexemple,
on constatequ’à
des noyaux de fortes variations des corrélationsspatiales [fig. 8] correspondent
des zones oùla
septième Composante Principale apparaît
entroisième, quatrième, cinquième
ousixième rang
[fig. 9].
La méthode de
prévision
detempérature
en une ville donnée consiste doncen un calcul des 15
premières
CP duchamp
detempérature prévu
par le modèle PERIDOTpuis
en unerégression
utilisant ces 15 CP.Ainsi
après
larégression
sur cesComposantes Principales
calculées àpartir
des 990 valeurs du
champ
sur lagrille initiale,
onpeut
revenir à cettegrille
et onobtient des coefficients de
régression
sur les variables initiales.Ces coefficients n’étaient certes pas calculables
directement, compte-tenu
des très fortes corrélations existant entre ces 990 valeurs.Cependant
nous pouvons, aposteriori,
nous intéresser à lapondération (coefficients
derégression)
des 990points
degrille
ainsiobtenue,
pourchaque ville,
à l’issue de l’ACP et de larégression.
On constate alors quel’équation
derégression
calculée pour uneville,
donne unpoids important
à despoints
se situant dans unvoisinage plus
ou moinsgrand
de la villeconsidérée,
selon que les valeurs issues du modèle PERIDOT sont peu ou trèsreprésentatives
de latempérature
de la ville considérée.Deux
figures
illustrent ces deuxcomportements :
2022 la
figure
10présente
la carte des coefficients derégression
obtenus pour laville de
Langres (localisée
par* ) ;
on ne constate pas de maximummarqué
autour de cette
ville ;
2022 la
figure 11,
pour la ville deBordeaux, présente
au contraire une zone demaximum centré autour de cette ville.
L’étude de l’ordre des CP dans les
régressions
ainsi que l’étude despondéra-
tions
finales,
met en évidence deuxcomportements :
2022 les
régions
où lacomplexité orographique
n’est pas bienprise
encompte
par le relief du modèle
physique :
l’ordre des CP est assez différent de l’ordre des valeurs propres décroissantes et les cartes de coefficients derégression
associées aux villes de cesrégions
sont trèsbruitées ;
2022 les
régions
où lespoints
degrille
sontreprésentatifs
des zones avoisi-nantes : l’ordre des CP est peu
changé
et les cartes de coefficients derégression présentent
un maximummarqué
autour de la ville considérée.Parallèlement,
la méthode deprévision
utilisant l’ACPprésente
unapport plus important
parrapport
à des méthodesplus simples (interpolation
entre lesvaleurs aux
points
degrille
entourant une ville parexemple)
dans les zones oùl’ordre des CP est
plus
différent de l’ordre des valeurs propres décroissantes.46 P. POTTIER
FIGURE 8 Carte de
r2 , (7, x).
FIGURE 9 Pour
chaque
ville, ondonne le rang de
l’importance
de la
7ème
CP dansl’équation
derégression
établiepour la ville considérée.
FIGURE 10 Pour la station de
Langres, coefficients
derégression
obtenusaprès régression
sur les 15 CP et retour sur la
grille
initiale.FIGURE Il Pour la station de Bordeaux,
coefficients
derégression
obtenusaprès régression
sur les 15 CP et retour sur la
grille
initiale.48 P. POTTIER
5. Conclusions
L’Analyse
enComposantes Principales
a tout d’abordprésenté
deux intérêts pour notre étude :2022 en
premier lieu,
un intérêtdescriptif ,
par la mise enévidence,
defaçon
distincte,
des structuresspatiales
ettemporelles
duchamp
detempérature prévu
par le modèlephysique PERIDOT;
2022 un intérêt pour la
prévision ensuite, puisque,
associée à unerégression
linéaire
multiple,
l’ACPpermet
decorriger
localement lesprévisions
dumodèle
physique
difficilement utilisables directement.De
plus,
il estimportant
de noter que l’ACP permet d’extraire duchamp
detempérature prévu
par le modèlephysique, l’information
utile à laprévision
localede
température :
a les nombreux essais effectués
[réf.5,
6 et7]
en utilisant commeprédicteurs
de la
régression
les valeurs enpoint
degrille
desparamètres
météorolo-giques (et
nonplus
lesCP) prévus
par le modèlephysique,
directement ouaprès
différentslissages
ou regroupementscanoniques,
n’ont paspermis
de réaliser une
prévision
locale dequalité équivalente
sans laprise
en compte d’autreschamps météorologiques (température
enaltitude,
vent,etc...).
Enfin,
onpeut signaler qu’une prévision
detempérature
basée sur la méthodeprésentée
ici est actuellementopérationnelle
à laMétéorologie
Nationale et fournitquotidiennement,
pour environ centcinquante
villesfrançaises,
desprévisions
detempérature
toutes les 3 heures pour des échéances de 6 à 60 heures[réf. 8].
6.
Bibliographie
[réf.1] : supplément
de la revue "LaRecherche",
Juillet-Aôut1988,
numéro 201.[réf.2] : Guy
DerMégréditchian,
"Le traitementstatistique
des données multidi-mensionnelles",
Volumes 1 et2,
Ecole Nationale de laMétéorologie,
Juin1988.
[réf.3] :
R.W.Preisendorfer, "Principal Component Analysis
inMeteorology
andOceanography", Developments
inAtmospheric Science, 17,
Elseiver 1988.[réf.4] :
PatriciaBaptistan-Pottier, "Application
del’Analyse
enComposantes Principales
pour laprévision
ducycle
diurne detempérature
paradaptation statistique
des sorties du modèlePERIDOT",
note de travail du Centre de Recherche enMétéorologie Dynamique,
n°6,
mai 1989.[réf.5] :
PatriciaBaptistan-Pottier,
"Essaid’adaptation statistique
du modèledyna- mique PERIDOT",
mémoire deDEA,
Université de ParisVI, juin
1988.[réf.6] :
PatriciaBaptistan-Pottier, Guy.
DerMégréditchian,
Jean-PierreJavelle,
"Application
of statistical methods tooperational
forecast inFrance",
11th Conference onProbablity
andStatistics,
AmericanMeteorological Society,
October
1-5, 1989, Monterey.
[réf.7] :
PatriciaPottier,
"Prévision detempérature
paradaptation statistique
dumodèle
PERIDOT’,
revue ’LaMétéorologie",
n°32,
avril 1990.[réf.8] :
PatriciaPottier,
"Extension de laprévision
detempératures
réalisée paradaptation statistique
du modèle PERIDOT : méthodeopérationnelle",
notede travail du Centre de Recherche en
Météorologie Dynamique,
n°12,
avril1990.