• Aucun résultat trouvé

2.2 La localisation

2.2.1 Atténuer le bruit d’échantillonnage

2.2.1.a Théorie

Du fait de la taille limitée de l’ensemble, l’estimateur de la covariance Be diffère significa-tivement des covariances réelles B. Cette différence se manifeste en particulier par du bruit d’échantillonnage dans l’estimation des corrélations à longue distance. Pour comprendre ce phénomène, on peut se pencher sur la variance de l’estimateur Beij. D’après Ménétrier et al. (2015a, leur équation 11), on obtient :

Var( eBij) = BiiBjj + B 2 ij

N − 1 . (2.4)

On note que la précision de l’estimateur augmente avec la taille N de l’ensemble, ce qui n’est pas surprenant. On peut ensuite définir de manière similaire à Ménétrier et al. (2015b, leurs équations 16 et 17) l’erreur relative de l’estimation :

E( eBij) = q Var( eBij) |Bij| , (2.5) ce qui donne : E( eBij) = s 1 + 1/C2 ij N − 1 avec Cij = Bij pBiiBjj. (2.6)

Ainsi, l’erreur relative de l’estimation peut s’exprimer uniquement en fonction de N et de la corrélation asymptotique Cij pour la paire de points (i,j) étudiée ! Cette erreur tend vers 0 quand les corrélations tendent vers 1, et diverge quand les corrélations tendent vers 0. Avec un ensemble de 50 membres par exemple, l’amplitude de l’erreur dépasse celle du signal (E(Beij) ≥ 1) dès que la corrélation asymptotique Cij devient inférieure à 0,14 environ. On

ne peut donc pas se fier aux covariances estimées aux points de faibles corrélations. . . Le palliatif couramment utilisé, la localisation des covariances, consiste à atténuer arti-ficiellement les covariances échantillonnées à longue distance (Hamill et al., 2001), là où les erreurs d’ébauche sont supposées décorrélées. Mathématiquement, cela revient à multiplier chaque terme de la matrice Bij de Be par une valeur scalaire, fonction de la distance entre les points i et j et décroissant de 1 à 0. Cette « distance » n’est pas nécessairement que géographique, les composantes i et j pouvant faire référence à deux variables différentes, ou deux altitudes différentes par exemple. La distance géographique entre deux points sera appelée distance de séparation, ou simplement séparation. L’expression des covariances

localisées est donnée par le produit : b

B = L ◦ eB, (2.7)

où L est la matrice de localisation, et où ◦ désigne un produit de Schur-Hadamard, c’est-à-dire le produit terme à terme des éléments de chaque matrice : (A ◦ B)ij = AijBij. La matrice L est une matrice de corrélation à valeurs positives. On verra plus loin que la matrice localisée Bb ainsi obtenue est toujours symétrique positive, et généralement définie positive.

L’erreur relative de l’estimateur ainsi obtenu est donnée par :

E( bBij) = |Lij|E ( eBij). (2.8) L’erreur relative est donc réduite si Lij < 1. On remarquera cependant que plus Lij est faible, plus l’estimateur LijBeij de la covariance est biaisé. On peut donc concevoir le choix d’une localisation optimale comme un compromis entre biais et variance de l’estimateur LijBeij.

En un point donné, plus la taille N de l’ensemble est élevée, plus la variance hE( eBij)i2 de l’estimateur empirique des covariances est réduite, et plus la localisation optimale est proche de 1. Inversement, un ensemble de petite taille est associé à un estimateur des covariances très bruité et donc un besoin plus marqué de localisation (proche de 0). En ce qui concerne la décroissance globale de la fonction de localisation, un petit ensemble aura besoin d’une fonction de localisation qui décroit rapidement avec la distance de séparation. À l’inverse, un grand ensemble est associé à une décroissance plus lente de la localisation (Houtekamer et Mitchell, 2001 ; Lorenc, 2003). Dans le cas limite d’un ensemble de taille infinie, la fonction de localisation optimale ne décroît pas avec la distance : la localisation vaut toujours 1, et les covariances empiriques sont inchangées.

2.2.1.b Un exemple simple

La figure 2.1 illustre le principe de la localisation dans un cas unidimensionnel avec un système jouet. On définit une matrice de covariances d’erreurs d’ébauche B, supposée inconnue (premier volet). Nous supposons que nous disposons d’un système de génération des membres sans erreur (précisions, sans erreur dans l’approximation des erreurs. . . ), et échantillonnons donc 50 membres dont les statistiques sont cohérentes avec B. Nous ne sommes donc limités que par l’erreur d’échantillonnage. La matrice Be des covariances échantillonnées (deuxième volet) présente des similitudes avec la matrice B. On note cependant des covariances non-nulles à longue distance, c’est-à-dire dans les quartiers nord-est et sud-ounord-est de la matrice.

F i g u r e 2.1 – Illustration schématique du principe de la localisation. Les échelles de couleurs croissent du foncé vers le clair.

La localisation L (troisième volet) est homogène, c’est-à-dire que les colonnes sont toutes construites à partir d’un unique profil, fonction de la distance de séparation uniquement. On a choisi comme profil la fonction de Gaspari et Cohn (1999, voir figure 2.2), très utilisée en assimilation de données depuis Houtekamer et Mitchell (2001). Il s’agit d’une fonction de corrélation, polynomiale par morceaux, de support compact, et qui approxime une fonction gaussienne. Elle ne dépend que d’un paramètre c, correspondant au quart du support de la fonction. Le paramètre c est lié à l’écart-type σ de la gaussienne qu’il approxime par la relation σ = c(0,3)1/2. Dans notre cas, la valeur de c retenue est celle qui minimise l’écart quadratique moyen entre la matrice B et la matrice localisée B = eb B ◦ L (dernier volet).

Comme on peut le voir sur ce dernier volet, les covariances localisées ne présentent plus de corrélations à longue distance. On retrouve bien les deux caractéristiques principales des covariances d’origine : les variances décroissent de la gauche vers la droite (sur la diagonale), et des longueurs de portée des covariances diminuent de la gauche vers la droite (« épaisseur » de la diagonale). On note cependant un effet indésirable de la localisation, à

savoir l’atténuation (à tort) des covariances dans le coin supérieur gauche. 2.2.1.c Un exemple tiré d’AROME

La figure 2.3 (volets a, b, c) est l’équivalent de la figure 2.1 dans le cas des cova-riances horizontales d’erreur d’ébauche pour AROME. Quelques différences méritent d’être relevées :

— Le volet correspondant aux covariances vraies n’est pas connu (autrement le problème de la localisation ne se poserait pas !) ;

— Il n’est pas possible de représenter une matrice B intégrale : d’une part son estimation est numériquement inenvisageable, d’autre part la représentation d’un vecteur d’état 3D sous forme de vecteur colonne est graphiquement illisible, contrairement au cas unidimensionnel. Nous ne pouvons représenter clairement que des extraits de colonnes des matrices de covariance ou de localisation. Nous choisissons donc de nous placer

F i g u r e 2.2 – Profil d’une fonction de Gaspari et Cohn (1999) (traits pleins) et de la gaussienne associée (pointillés). Le paramètre c de la fonction de corrélation vaut ici 1500 km, et l’écart-type de la gaussienne est σ = c(0,3)1/2 (voir texte). La figure est tirée de Gaspari et Cohn (1999).

dans un cas bidimensionnel, en nous focalisant sur le champ de température au niveau modèle 70 (moyenne troposphère). La colonne représentée correspond au point de grille à l’intersection des lignes pointillées.

— Pour la matriceBe échantillonnée, on remarque que le maximum de la colonne se situe sur la diagonale de la matrice (intersection des lignes pointillées. Notons que cette propriété n’est pas nécessairement vérifiée si ce n’est dans le cas d’une matrice de covariance homogène.

Les remarques du modèle jouet restent valides : la localisation conserve la structure du signal pour les séparations faibles, et permet d’annuler le bruit à longue distance.

Pour illustrer la dépendance des covariances ensemblistes à l’écoulement, on a ajouté à cette figure une carte des covariances calculées à partir de plusieurs points centrés sur 25 sous-domaines géographiques (volet d). Chaque carré correspond ainsi à une colonne différente de la matrice localisée. Par rapport à une matrice climatologique, la matrice ensembliste localisée a quelques propriétés désirables :

— les variances sont hétérogènes, elles peuvent varier d’un point à l’autre ; — les longueurs de portée des covariances sont également hétérogènes ;

F i g u r e 2.3 – Colonnes de matrices de localisation (a), et de matrice ensembliste localisée (c) ou non (b). Le volet (d) montre l’équivalent de (c) pour des points centrés dans 25 sous-domaines. La matrice ensembliste est estimée à partir des champs de température au niveau 70 (moyenne troposphère) d’un ensemble de 50 membres de l’EDA AROME, valides le 21 mai 2018 à 15 h TU. La localisation est un profil de Gaspari et Cohn, approximant une gaussienne d’écart-type 150 km.

privilégiée.

En ce qui concerne la localisation pour AROME telle qu’utilisée dans le prototype de Montmerle et al. (2018), le même profil est choisi pour toutes les variables, et pour toutes les covariances croisées inter-variables. Le terme profil ici n’est pas à entendre au sens de profil vertical seulement. Dans le cas Lij = f (dh(i,j)) × g(dz(i,j)) où la localisation entre les points de grille i et j n’est fonction que des distances horizontale dh(i,j) et verticale dz(i,j) entre ces points, le profil vertical de localisation est donné par g, et le profil horizontal par f.

Nous détaillerons au chapitre suivant quelques approches qui permettent d’appliquer des localisations plus variables.