Des m´ethodes non-Gaussiennes ` a partir d’un cadre classique

3.2 Les méthodes étudiées

3.2.2 Des m´ethodes non-Gaussiennes ` a partir d’un cadre classique

Filtre de Kalman d’ensemble avec anamorphose dynamique (EnKF-Anam) Le filtre de Kalman d’ensemble suppose la gaussianité des densités de probabilité, no-tamment de la densité a priori. Cette hypothèse est la plupart du temps erronée.

Une fa¸con de gérer ces non-Gaussianités est d’appliquer une transformation, scalaire ou vectorielle, analytique ou numérique, afin de les approcher au mieux de densités Gaus-siennes. Ces transformations s’appellent des anamorphoses. Après transformation, il est possible d’effectuer une analyse aux hypothèses Gaussiennes (de type BLUE) sur ces nou-velles variables quasi-Gaussiennes. Plusieurs transformations existent pour effectuer une anamorphose (Simon and Bertino, 2012).

Les anamorphoses analytiques utilisent la connaissance a priori que l’on peut avoir d’une variable physique. Par exemple, si l’on sait qu’une variable X est de loi log-normale (e.g. la chlorophylle), on peut lui appliquer une transformation lognormale inverse. Il s’agit donc d’un changement de variable qui produit une nouvelle variable Gaussienne ˜X et telle que X = ln( ˜X). Apr`es analyse de la variable ˜X, on effectue la transformation inverse pour obtenir la correction de la variable X.

Lorsqu’on ne dispose pas de connaissance a priori de la nature des variables que l’on traite, il est possible d’effectuer une anamorphose numérique (Wackernagel (2006) en géostatistique et Bertino et al. (2003) en océanographie). Il se base sur les fonctions de répartition (cdf) des variables aléatoires. On admet que l’on possède la cdf F de notre variable non-Gaussienne X. On connaˆıt également la cdf G de la variable aléatoire Gaus-sienne ˜X telle que ˜X ∼ N (0, 1). L’anamorphose est alors définie comme la fonction de transport (map) ψ = F⁻¹◦ G qui à une valeur ˜X fait correspondre une valeur X.

En possédant un ensemble qui décrit la pdf de X on peut effectuer une démarche similaire appelée l’anamorphose dynamique. La fonction de transport est une fonction définie par morceau qui fait correspondre les percentiles de la variable ˜X à ceux de la variable X. Elle s’écrit ψ_N_e(x) =        ˜ ξ₁, si x < ξ₁ ˜ ξ_k+^ξ^˜k+1−˜ξk ξk+1−ξk(x− ξk), si x∈ [ξk, ξ_k+1] ˜ ξ_N_e, si x > ξ_N_e (3.1)

avec ξ₁, ..., ξ_N_eet ˜ξ_i, ..., ˜ξ_N_e les percentiles de X et de ˜X respectivement. Cette anamorphose dynamique a été mise en place et a montré ses bonnes performances en océanographie biogéochimique (Béal et al., 2009, 2010). Nous utilisons cette version de l’anamorphose dans la suite.

Algorithme - EnKF-Anam Ensemble a priori au temps 0 : [x^f,1₀ , ..., x^f,Ne

3.2. Les méthodes étudiées 61

Observations au temps k : y_k de covariances R_k Pr´evision

– Propagation des N_e membres de l’ensemble du temps k− 1 au temps k : x^f,i_k =M(x^f,i_k−1), i = 1, ..., N_e

Analyse

Pour chaque observation (scalaire) y_k∈ yk avec y_k= h(x_k,o) o`u x_k= [x_k,o, x_k,u] – Perturbation de l’observation :

yⁱ_k= yk+ σog, avec σ²_o la variance d’erreurs d’observation et g∼ N (0, 1) – Anamorphose :

– Calcul des percentiles des x^f,i_k,o et de la GaussienneN (x^f_k,o, σ_xf k,o)

– Changement de variables : [˜x^f,i_k , ˜yⁱ_k] = ψ_N_e([x^f,i_k , yⁱ_k]), pour tout i = 1, ..., N_e – Analyse : idem EnKF

– Calcul de la variance d’erreurs a priori σ2 ˜

xk,o = V ar(˜x^f,i_k,o) – Calcul de la variance d’erreurs d’observation σ2

yk = V ar(˜yi k) – Correction sur la variable observ´ee

x^a,i_k,o= ˜x^f,i_k,o+ ^σ 2 o σ2 ˜ yk+ σ2 ˜ xk,o (˜yⁱ_k− ˜x^f,i_k,o), i = 1, ..., N_e – Correction sur les variables non-observ´ees

x^a,i_k,u= ˜x^f,i_k,u+^cov(˜^x f,i k,u, ˜x^f,i_k,o) σ²_˜_y

(˜x^a,i_k,o− ˜x^f,i_k,o), i = 1, ..., N_e

– Anamorphose inverse : x^a,i_k = ψ⁻¹_N_e(˜x^a,i_k ), pour tout i = 1, ..., N_e

Il est également important de noter que la version de l’anamorphose que nous utilisons ne simule pas de queues de densités. En revanche, une borne (inférieure) est appliquée à l’erreur d’observation dans l’espace anamorphosé afin d’éviter des corrections trop drastiques et un éventuel effondrement d’ensemble. Nous sommes conscients de l’importance que revêt les queues de densités pour les performances de l’assimilation (importance mise en évidence par Simon and Bertino, 2012) mais nous n’avons pas pu, pour des raisons de temps, les mettre en place dans notre version.

Filtre d’histogrammes de rangs (RHF)

Le RHF est une méthode traitant chaque variable en série, développée par Anderson (2010). Cette méthode est basée sur la construction de pdf à partir d’un ensemble en utilisant des histogrammes de rangs ce qui lui permet de ne pas supposer la gaussianité des densités a priori pour les variables observées. Les variables non-observées sont corrigées par régression linéaire.

Dans un premier temps, nous traitons la variable scalaire observ´ee x_k,o. Dans un second temps, nous corrigeons le vecteur du reste des variables non-observ´ees x_k,u.

La pdf P_x_k,o(x_o) de la variable aléatoire x_k,oest approximée à l’aide de l’ensemble (x^f,i_k,o)_i en utilisant une méthode d’histogrammes de rangs. Cette méthode consiste à considérer les intervalles entre les membres (préalablement ordonnés) deux à deux. Dans ces intervalles, la pdf est constante et est d’intégrale _N¹

e+1. Ainsi la pdf a priori s’´ecrit : Px_k,o(xo) = ¹ N_e+ 1 Ne−1 X j=1 1_[xf,j k,o,x^f,j+1_k,o [(x_o)

(x^f,j+1_k,o − x^f,j_k,o) ^{+ T (xo),} ^(3.2) avec T (x_o) = T₁(x_o)1

]−∞,minj(x^f,j_k,o)[(x_o) + T₂(x_o)1_{] max}

j(x^f,j_k,o),+∞[(x_o) deux queues (de poids 1

Ne+1 également) de densités à préscrire. Sur ces mêmes intervalles est discrétisée la vrai-semblance P_y_k_|x_k,o. Ceci nous permet de faire un produit point par point (produit d’Hada-mard) entre ces deux pdf qui nous donne après re-normalisation la pdf a posteriori P_x_k,o_|y_k. Par échantillonnage de la pdf a posteriori P_x_k,o_|y_k nous obtenons un ensemble a posteriori (xâ,i_k,o)_i.

Cet ensemble corrigé sur la variable observée x_k,ose propage aux variables non-observées x_k,upar régression linéaire. Cette régression est similaire à celle de l’EnKFs. Elle utilise les covariances d’erreurs comme pondération. On obtient ainsi :

x^a,i_k,u = x^f,i_k,u+^cov(x f,i k,u, x^f,i_k,o) σ2

(x^a,i_k,o− x^f,i_k,o), i = 1, ..., N_e

Algorithme - RHF Ensemble a priori au temps 0 : [x^f,1₀ , ..., x^f,Ne

0 ] ; Observations au temps k : y_k de covariances R_k Pr´evision

– Propagation des N_e membres de l’ensemble du temps k− 1 au temps k : x^f,i_k =M(x^f,i_k−1), i = 1, ..., Ne

3.2. Les méthodes étudiées 63

Analyse

Pour chaque observation (scalaire) y_k∈ yk avec y_k= x_k,o o`u x_k= [x_k,o, x_k,u] Variable observ´ee

– Tri par ordre croissant des membres : (x^f,j_k,o)j avec x^f,j_k,o< x^f,j+1_k,o ,∀j = 1, ..., Ne – Cr´eation par histogramme de rangs de la pdf approch´ee

P_x_k,o(x_o) = ¹ N_e+ 1 Ne−1 X j=1 1_[xf,j k,o,x^f,j+1_k,o [(x_o) (x^f,j+1_k,o − x^f,j_k,o) ^{+ T (x}ô⁾ ^(3.3) – Création sur les mêmes intervalles de la vraisemblance P_y

k|x^fk,o

– Calcul de la pdf produit (et normalisation) donnant P_x_k,o_|y_k – Échantillonnage de P_x_k,o_|y_k donnant l’ensemble (xâ,i_k,o)_i=1,...,N_e Variables non-observées

– Correction sur les variables non-observ´ees x^a,i_k,u= x^f,i_k,u+^cov(x

f,i k,u, x^f,i_k,o) σ2

(x^a,i_k,o− x^f,i_k,o), i = 1, ..., Ne

Dans le document Assimilation de données pour les problèmes non-Gaussiens : méthodologie et applications à la biogéochimie marine (Page 71-74)