Interpolation de données manquantes dans des séquences multi-modales d'images géophysiques satellitaires

(1)

HAL Id: hal-00656503

https://hal.archives-ouvertes.fr/hal-00656503

Submitted on 17 Jan 2012

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Interpolation de données manquantes dans des séquences multi-modales d’images géophysiques satellitaires

Sileye Ba, Thomas Corpetti, Ronan Fablet

To cite this version:

Sileye Ba, Thomas Corpetti, Ronan Fablet. Interpolation de données manquantes dans des séquences

multi-modales d’images géophysiques satellitaires. RFIA 2012 (Reconnaissance des Formes et Intelli-

gence Artificielle), Jan 2012, Lyon, France. pp.978-2-9539515-2-3. �hal-00656503�

(2)

Interpolation de données manquantes dans des séquences multi-modales d’images géophysiques satellitaires

Silèye O. Ba ^† Thomas Corpetti ^‡ Ronan Fablet ^† Lab-STICC ^† , Université Européenne de Bretagne, Plouzané, France

LIAMA-CNRS ^‡ , Beijing, Chine

Résumé

Cet article étudie l’estimation conjointe de données man- quantes et de champs de déplacements dans des séquences multimodales d’observations satellitaires géophysiques.

La complexité de la tâche est liée au taux élevé de don- nées manquantes (entre 20% et 90%) pour des observa- tions journalières de haute résolution et la reconstruction de structures fines en accord avec la dynamique sous ja- cente. Nous avons développé une méthode basée sur l’as- similation variationnelle de données pour des séries mul- timodales et multi-résolutions. A l’aide de données synthé- tiques et de données réelles de la surface océanique, une évaluation numérique et qualitative démontre l’apport de deux composantes clés du modèle proposé : la fusion d’in- formations multimodales à partir d’une contrainte géo- métrique basée sur les structures frontales, et la méthode d’assimilation variationnelle utilisant comme à priori dy- namique un modèle d’advection-diffusion. Les expérimen- tations conduites montrent que de bonnes performances de reconstruction sont obtenues pour les observations hautes résolutions en dépit du pourcentage élevé de données man- quantes.

Mots Clef

Assimilation variationnelle de données, interpolation de données manquantes, inpainting

Abstract

In this paper we address the joint estimation of missing data and displacement field estimation from multi-modal geophysical satellite observation series. The complexity of this issue lies in the large percentage of missing data (typi- cally from 20% to 90% for daily high-resolution observa- tions) and the requirement for reconstructing dynamically coherent fine-scale structures in accordance with the un- derlying turbulent dynamics. We develop a variational data assimilation model for multi-resolution and multi-modal observation series. Using synthetic and real ocean surface observation series, numerical and qualitative evaluations demonstrate the relevance of two key components of the proposed model : the fusion of multi-modal observations through a geometric front-driven constraint and the pro- posed variational assimilation setting using an advection- diffusion dynamical prior. We show that good reconstruc-

tions of high-resolution geophysical observation series can be achieved despite high percentage of missing data.

Keywords

variational data assimilation, missing data interpolation, in- painting

1 Introduction

De nos jours la surface terrestre et les océans sont couverts par un réseau dense de satellites. De multiples satellites capturent des paramètres terrestres et océaniques à diffé- rentes résolutions. La température de la surface océanique (SST) en est un exemple particulier. La radiométrie micro- onde (MO) permet une capture à basse résolution (0.25

^◦

) [1] tandis que la radiométrie infrarouge (IR) délivre des mesures hautes résolutions (0.05

^◦

) [2].

La mesure de la SST est un activité importante car la SST est une observation clé dans des domaines tels que la pré- diction météorologique, l’étude de la circulation de l’océan et des effets du changement climatique [3, 4, 5, 6, 7]. Il est aussi à noter la relation établie entre la pluviométrie en Afrique et la température de surface des océans tropi- caux [3] ou la corrélation positive entre le réchauffement de la température de surface océanique et l’augmentation de l’activité cyclonique dans l’océan Atlantique [4, 5]. Ainsi, la SST est un marqueur de la dynamique océanique [6, 7].

La concentration de chlorophylle est aussi un paramètre océanique important. C’est un marqueur effectif de la pro- duction biologique de l’océan [8]. En tant que marqueur passif de l’activité océanique, les structures géométriques de la concentration de CHL sont fortement liées à celles exhibées par la SST. Toutes deux (CHL et SST), sont as- sociées à la circulation océanique globale et ainsi qu’aux structures de turbulence aux échelles fines [9]. Ainsi, la concentration de CHL et la SST sont des paramètres en forte interaction, et cette interaction pourrait être prise en compte lors de leur traitement [10, 11].

Les satellites géophysiques exploitent plusieurs modalités

(e.g, capteurs IR ou MO) associés à différentes résolutions

de capture comme illustré dans la Fig.1. Dans tous les cas,

ces capteurs sont sensibles aux conditions atmosphériques

telles que les fortes pluies ou la couverture nuageuse. Par

conséquence, les séries d’observations comportent de fort

pourcentage de données manquantes, les données hautes

(3)

résolutions étant plus affectées. Par exemple, dans la ré- gion de Malvinas considérée (voir Fig.1), les observations journalières de CHL en comportent entre 20% à 90%. L’in- terpolation de données manquantes dans les observations géophysiques est alors une étape de pré-traitement néces- saire [12, 13, 14]. Les produits opérationnels sont basés sur les techniques d’interpolation optimale, du filtrage ou du lissage de Kalman, ou des ensembles de filtres de Kalman [13, 14, 15, 16]. Leur limitations principales sont qu’ils re- quiérent le traitement de très larges matrices de covariance, et font des hypothèses statistiques telles que la stationna- rité, la Gaussiannité ou la linéarité sur le modèle dyna- mique. Ces hypothèses peuvent difficilement être réalisé pour des problèmes réels. En présence de fort taux de don- nées manquantes (voir Fig.1), un gain peut être attendu lors de la fusion d’observations multimodales et multi- résolutions. L’interpolation conjointe d’observations multi- résolution SST pourra améliorer le traitement des don- nées hautes résolutions, étant données que les observations basses résolution comportent beaucoup moins de données manquantes. De plus, dans le cas de données issues de modalités différentes (SST et CHL), les structures géomé- triques communes aux deux paramètres géophysiques, ser- viront à mieux contraindre le processus d’interpolation.

De façon formelle, la reconstruction d’observations géo- physiques peut être posée sous la forme d’interpolation de données manquantes à partir de séquence d’observations multimodales et multi-résolutions. Connues en vision par ordinateur sous la dénomination d’inpainting, les méthodes variationnelles ont été largement exploitées pour l’interpo- lation de données manquantes. Ces méthodes sont conçues pour supprimer du texte, des craquelures, ou même des objets d’images [18, 17]. Le problème considéré dans cet article admet aussi des liens avec le problème de super- résolution où des images basses résolutions d’une scène sont utilisées pour créer une version haute résolution de la même scène [20, 21, 22]. Contrairement au problème d’inpainting ou de super-résolution, le problème qui nous intéresse comprend une complexité additionnelle : – Comparé aux applications d’inpainting, les observations

comprennent de larges portions de données manquantes ce qui rend la reconstruction de la géométrie locale des structures présentes dans les images géophysiques parti- culièrement difficile ;

– Comparé aux problèmes classique d’inpainting et de super-résolution de champs multi-valués, dans le pro- blème considéré dans cet article, les séries d’observa- tions multimodales traitées ne partagent que l’organisa- tion spatiale des structures géométriques ;

– Les images géophysiques sont fortement structurées par le champ de déplacement sous jacent [23]. L’estimation jointe du champ de vitesse de la surface océanique ap- parait comme un facteur important pour recouvrer un champ dynamiquement cohérent.

Pour résoudre ces problèmes, nous proposons une méthode basée sur l’assimilation variationnelle qui, à partir de don-

nées multimodales et multi-résolution d’observations géo- physiques, estime de façon conjointe les données man- quantes et un champ de déplacement associé. Les perfor- mances des modèles proposées sont évaluées sur des don- nées synthétiques (simulation de modèle turbulence semi quasi-géostrophique [7]), et des données SST et CHL.

La suite de cet article est organisé comme suit. La Section 2 présente le modèle variationel pour l’estimation de don- nées manquantes et de champs de transport pour une sé- quence d’observations d’une seule modalité. La Section 3 présente la méthode multimodale d’interpolation de don- nées manquantes et de champs de transport. La Section 4 présente les expérimentations conduites pour l’évaluation des méthodes proposées. Finalement, la Section 5 donne les conclusions.

2 Interpolation de données man- quantes pour une série uni-modale

Dans cette section, nous supposons disposer d’une sé- quence d’observations I

t

, t ∈ [t

0

, t

f

] correspondant à la séquence d’états θ

t

, t ∈ [t

0

, t

f

] d’une variable géophy- sique. Dans notre cas, la variable d’état correspond soit à de la SST ou de la CHL. Les observations I

t

comprennent des données manquantes comme dans la Fig.1. La variable d’état est supposée liée à l’observation qui lui correspond par la relation I

_t

= P

_t

θ

_t

+ω

_t

où P

_t

est un opérateur linéaire de projection qui modélise la réduction de dimensionna- lité due aux données manquantes

¹

. ω

_t

représente un bruit Gaussien centré, indépendant, identiquement distribuée, de matrice covariance Σ.

Etant donné que les variables sont des marqueurs de la dy- namique océanique, elles sont liées à la circulation océa- nique, leur reconstruction doit comprendre comme à priori un modèle dynamique. Supposons que l’évolution tempo- relle des états soit soumise au modèle dynamique suivant :

∂

t

θ + M (θ, ϑ) = η

t

θ

t₀

= θ

0

+ ε (1)

où θ

₀

est l’état initial, ε et η

_t

, de matrices de covariances B and Q, modélisent l’incertitude à propos de l’état ini- tial et du modèle dynamique

²

. Ici, M (θ, ϑ) = ϑ∇θ − κ∆θ est un opérateur d’advection-diffusion, défini par le champ d’advection ϑ et le paramètre de diffusion κ. ∇ and ∆ dé- notent l’opérateur gradient et Laplacien. Le modèle d’ad- vection diffusion modélise le transport d’une variable par un champ de vecteurs ϑ et un taux de diffusion κ.

Etant donné le modèle dynamique (Eq.1), nous définissons un coût variationnel pour l’interpolation de donnée man- quantes et l’estimation de champs de transport par : J(θ, ϑ) =

Z

tf

t₀

||∂

_t

θ + M (θ, ϑ)||

²_Q

dt + ||θ

_t₀

− θ

₀

||

²_B

... (2)

+ Z

t_f

t₀

E(θ

_t

)dt

1

Les images sont représentées sous une forme vectorielle.

2

B et Q sont modélisées par des matrices diagonales et sphériques.

(4)

F IG . 1 – Observations géophysiques de l’océan pour la région de Malvinas située au large du Brésil. A droite : observation haute résolution IR (données METOP) ; au centre : observation basse résolution MO (données REMSS) ; à gauche : donnée medium résolution de mesures de concentration de CHL (données MERIS). Les données METOP possèdent une résolution 5 fois plus fine que les données REMSS, et deux fois plus fine que les données MERIS.

où E(θ) est un terme d’attache aux observations défini par :

E(θ) = Z

D(I)

(I − P θ)

²

dp + β Z

D(θ)

||∇θ||

^q_q

dp (3)

où D dénote le domaine de définition de son argument, β est un poids positif pondérant la contribution du terme de régularité dans le terme d’attache aux observations E.

||.||

Q

représente la distance de mahalanobis par rapport à la matrice de covariance Q et ||.||

q

est la norme L

^q

. Nous avons choisi q = 2.

La séquence de variables d’état et de champs de transport (ˆ θ

t

, ϑ ˆ

t

), t ∈ [t

0

, t

f

] minimisant la fonction coût J (θ, ϑ) possède les propriétés suivantes. En présence de données, l’état θ ˆ

t

est similaire à l’observation I

t

à cause du premier terme de l’Eq.3. Sa régularité spatiale est contrainte par le second terme de l’Eq.3. L’évolution temporelle des états est contrainte par le modèle dynamique (Eq.1) à cause du premier terme de l’Eq.2.

En calcul des variations, une méthode standard pour ré- soudre des problèmes variationnels est le recourt aux équa- tions d’Euler-Lagrange. Par exemple, dans un cas statique l’état optimal θ ˆ pour le coût relatif aux observations E(θ) peut être trouvé comme la valeur stationnaire de l’équa- tion d’Euler-Lagrange ∂

t

θ = −δ

θ

E où δ

θ

E est la différen- tielle du terme d’attache aux observations. Cependant, pour le problème variationnel de l’Eq.2, une utilisation directe des équations d’Euler-Lagrange se révèle inefficace du fait de la grande dimensionnalité de l’espace d’état. Comme proposé par [24], une méthode indirecte consiste à intro- duire les variables adjointes λ

_t

= Q

⁻¹

(∂

_t

θ + M (θ

_t

, ϑ

_t

)).

Avec ces variables, calculer les variations du coût dyna- mique de l’Eq.2 par rapport à la variable d’état, le champ de transport, et la valeur initiale, et faire usage de la pro- priété que les variations s’annulent pour les valeurs opti- males donnent le système d’équations :

δ

θ_t

J = −∂

t

λ + δ

θ

M

^∗

(λ, ϑ) + δ

θ

E(θ

t

) = 0 δ

θ_t₀

J = B

⁻¹

(θ

t₀

− θ

0

) − λ

t₀

= 0

δ

_ϑ_t

J = λ

_t

∇θ

_t

= 0

(4)

où δ

_θ

M est la différentielle du modèle dynamique, et δ

_θ

M

^∗

est l’opérateur adjoint. Suivant une procédure itérative, la solution du problème variationnel peut être linéarisé autour de valeurs initiales θ ˆ

t

comme suit :

θ

t

= ˆ θ

t

+ dθ

t

θ ˆ

t₀

= θ

0

(5)

Sachant par définition des variables adjointes que ∂

t

θ + M (θ

t

, ϑ

t

) = Qλ

t

, et en combinant la deuxième ligne de l’Eq.4 et l’Eq.5 donne :

dθ

t₀

= Bλ

t₀

∂

t

dθ + δ

θ

M (dθ, ϑ) = Qλ

t

(6)

Ainsi, les variations du coût peuvent être estimées de fa- çon itérative par une intégration rétrograde des variables adjointes prenant en compte le coût statique des observa- tions (première ligne de l’Eq.4), suivie par une intégra- tion avant des variations prenant en compte les valeurs des variables adjointes (seconde ligne de l’Eq.6) [25, 26, 27].

Etant donné les variations, les solutions peuvent être mises à jour. Le champ de transport peut être directement mis à jour par descente de gradient à l’aide de la troisième ligne de l’Eq.4. Les étapes de l’algorithme d’assimilation varia- tionnelle sont présentées dans la Fig.2.

3 Interpolation pour une série multi- modale

La Section 2 présente une méthode pour l’estimation de

données manquantes et de champs d’advection associés

étant donné une séquence d’observations d’une variable

géophysique. Cependant, en général, les variables géo-

physiques traitées ne sont pas indépendantes les unes des

autres. Le champ de transport sous jacent comprend des

structures de convergences et de divergences qui induisent

la formation de structures frontales dans des variables pas-

sives [28]. Ainsi, les variables étudiées (CHL, SST) pré-

sentent des structures géométriques similaires dans les ré-

gions frontales. Cette propriété peut être utilisée pour in-

(5)

1 : Partant de θ ˆ

_t₀

= θ

₀

et ϑ ˆ

_t

= 0 réaliser une intégra- tion avant de ∂

t

θ ˆ + M (ˆ θ, ϑ) = 0 ˆ

2 : Etant donné θ ˆ

t

calculer les variables adjointes λ

t

à l’aide de l’intégration rétrograde :

λ

t_f

= 0

−∂

t

λ + δ

θ

M

^∗

(ˆ λ, ϑ) = ˆ −δ

θ

E(ˆ θ

t

) 3 : Calculer la valeur initiale des variations d θ ˆ

_t₀

=

Bλ

_t₀

4 : Utiliser la variable adjointe λ

t

pour calculer les va- riations dθ

t

à partir d’une intégration avant partant de la valeur initiale dθ

_t₀

:

∂

t

dθ + δ

θ

M (dθ, ϑ) = ˆ Qλ

t

5 : Mise à jour de l’état

θ ˆ

_t

= ˆ θ

_t

+ αdθ

_t

ϑ ˆ

t

= ˆ ϑ

t

− αλ

t

∇θ

t

6 : Retourner à l’étape 2 et itérer jusqu’à convergence.

F IG . 2 – Algorithme d’assimilation variationelle de don- nées. α > 0 est un paramètre de descente de gradient.

troduire une contrainte de similarité géométrique addition- nelle entre les différentes variables. En termes de repré- sentation d’images, cette contrainte signifie que dans les différentes variables, les lignes de niveaux supportant les gradients de fortes magnitudes doivent être localement pa- rallèles. Dans la suite, nous donnons les détails à propos du coût qui comprend cette contrainte additionnelle.

Notons par I

_t⁽ⁱ⁾

, t ∈ [t

0

, t

f

], i = 1, 2 les séries d’obser- vations avec données manquantes correspondant aux sé- quences de variables θ

_t⁽ⁱ⁾

, t ∈ [t

0

, t

f

], i = 1, 2. Sans perte de généralités, nous supposons que θ

_t⁽¹⁾

est de plus faible résolution spatiale et Λ est un opérateur linéaire de sous échantillonnage tel que Λθ

⁽²⁾_t

possède la même dimension- nalité que θ

⁽¹⁾_t

. Nous définissons le coût suivant :

E(θ

⁽¹⁾

, θ

⁽²⁾

) = E(θ

⁽¹⁾

) + E(θ

⁽²⁾

)...

−γ R

D(θ⁽¹⁾)

g

τ

(|∇θ

⁽¹⁾

|)ρ (<

_|∇θ^∇θ⁽¹⁾₍₁₎_|

,

_|∇Λθ^∇Λθ⁽²⁾₍₂₎_|

>)dp (7) où E(θ) est le terme d’attache aux données défini dans l’Eq.3, g

τ

(x) = 1 − e

^{−τ x}

for x > 0 est une fonction de pondération qui, pour x = |∇θ

⁽¹⁾

|, donne un poids plus fort aux pixels de θ

⁽¹⁾

où le gradient est fort, c’est à dire aux pixels appartenant aux structures frontales et donne un poids faible aux pixels où la magnitude du gradient est faible. Le paramètre τ > 0, de la fonction g

_τ

, fixe la ma- gnitude du gradient définissant les structures frontales. La fonction ρ

(s) = √

s

²

+ , avec > 0, est une approxima- tion différentiable de la valeur absolue. γ > 0 pondère la

1 : Pour i = 1, 2, partant de θ ˆ

⁽ⁱ⁾_t

0

= θ

⁽ⁱ⁾₀

et ϑ ˆ

_t

= 0 effec- tuer les intégrations avant ∂

_t

θ ˆ

⁽¹⁾

+ M (ˆ θ

⁽¹⁾

, Λ ˆ ϑ) = 0 et

∂

t

θ ˆ

⁽²⁾

+ M (ˆ θ

⁽²⁾

, ϑ) = 0 ˆ 2 : Etant donné θ ˆ

_t⁽ⁱ⁾

, partant de λ

⁽ⁱ⁾_t

f

= 0, i = 1, 2, calcu- ler les variables adjointes λ

⁽ⁱ⁾_t

en utilisant les équations rétrogrades :

−∂

_t

λ

⁽¹⁾

+ δ

_θ(1)

M

^∗

(ˆ λ

⁽¹⁾

, Λ ˆ ϑ) = −δ

_θ(1)

E(ˆ θ

⁽¹⁾_t

, θ ˆ

⁽²⁾_t

)

−∂

_t

λ

⁽²⁾

+ δ

_θ(2)

M

^∗

(ˆ λ

⁽²⁾

, ϑ) = ˆ −δ

_θ(2)

E (ˆ θ

_t⁽¹⁾

, θ ˆ

_t⁽²⁾

) 3 : Calculer le gradient aux états initiaux d θ ˆ

⁽ⁱ⁾_t

0

=

Bλ

⁽ⁱ⁾_t₀

, i = 1, 2

4 : Pour i = 1, 2 utiliser les variables adjointes λ

⁽ⁱ⁾_t

pour calculer le gradient dθ

⁽ⁱ⁾_t

à partir d’une intégration ré- trograde partant des états initiaux du gradient dθ

⁽ⁱ⁾_t₀

:

∂

t

dθ

⁽¹⁾

+ δ

_θ(1)

M (dθ

⁽¹⁾

, Λ ˆ ϑ) = Qλ

⁽¹⁾_t

∂

t

dθ

⁽²⁾

+ δ

_θ(2)

M (dθ

⁽²⁾

, ϑ) = ˆ Qλ

⁽²⁾_t

5 : Mettre à jour les états

( θ ˆ

⁽ⁱ⁾_t

= ˆ θ

_t⁽ⁱ⁾

+ αdθ

⁽ⁱ⁾_t

, i = 1, 2 ϑ ˆ

t

= ˆ ϑ

t

− α

Λ

^T

(λ

⁽¹⁾_t

∇θ

⁽¹⁾_t

) + λ

⁽²⁾_t

∇θ

⁽²⁾_t

6 : Retourner à l’étape 2 et itérer jusqu’à convergence.

F IG . 3 – Algorithme pour l’estimation multimodale de données manquantes et de champs d’advection.

contribution du cout géométrique dans le terme d’attache aux observations E (θ

⁽¹⁾

, θ

⁽²⁾

). Les estimations θ ˆ

⁽¹⁾

et θ ˆ

⁽²⁾

minimisant le coût E(θ

⁽¹⁾

, θ

⁽²⁾

) seront similaires aux ob- servations lorsqu’elles seront disponibles à cause des deux premiers termes de l’Eq.7. De plus, θ ˆ

⁽²⁾

va présenter des structures frontales cohérentes aux structures frontales pré- sentes dans la variable θ ˆ

⁽¹⁾

à cause du terme d’à priori géo- métrique qui est minimisée lorsque les deux variables ont leur structures frontales alignées.

Le modèle d’observation couplé et le modèle dynamique d’advection-diffusion (Eq.1) peuvent être combinés pour construire le coût dynamique variationnel couplé

J (θ

⁽¹⁾

, θ

⁽²⁾

, ϑ) = Z

tf

t0

||∂

t

θ

⁽¹⁾

+ M (θ

⁽¹⁾

, Λϑ)||

²_Q

dt... (8)

+ Z

tf

t₀

||∂

_t

θ

⁽²⁾

+ M (θ

⁽²⁾

, ϑ)||

²_Q

dt + ||θ

_t⁽¹⁾

0

− θ

₀⁽¹⁾

||

²_B

... (9)

+||θ

_t⁽²⁾₀

− θ

⁽²⁾₀

||

²_B

+ E(θ

⁽¹⁾

, θ

⁽²⁾

) (10)

où nous avons supposé que le champ d’advection est le

même pour les deux variables avec ϑ étant sa version haute

(6)

F IG . 4 – Données SQG : (haut ;gauche), données vérité hautes résolutions ; (haut ;droite), observation haute résolu- tion obtenue en masquant les données vérité par un masque issu de la base METOP ; (bas ;gauche), image basse résolu- tion obtenue en sous échantillonnant à un ratio de

¹₅

la don- née vérité ; (bas ;droite), observation basse résolution obte- nue en masquant la donnée basse résolution par un masque issu de la base REMSS.

résolution agissant sur θ

⁽²⁾

et Λϑ étant sa version basse ré- solution agissant sur la variable basse résolution θ

⁽¹⁾

. Comme dans la Section 2, le problème dynamique varia- tionnel peut être résolu dans un cadre d’assimilation va- riationnelle en introduisant les variables adjointes λ

⁽¹⁾_t

= Q

⁻¹

(∂

t

θ

⁽¹⁾

+ M (θ

⁽¹⁾

, Λϑ)) et λ

⁽²⁾_t

= Q

⁻¹

(∂

t

θ

⁽²⁾

+ M (θ

⁽²⁾

, ϑ)). L’utilisation des variables adjointes et le cal- cul des variations du problème dynamique couplé par rap- port aux variables à estimer conduisent au système d’équa- tions qui est utilisé pour calculer de manière itérative les solutions optimales. La Fig.3 donnes les étapes principales de l’algorithme correspondant.

4 Expérimentations

Pour évaluer les méthodes présentées dans la Section 2 et 3, l’analyse qualitative conduite sur l’expérimentation avec des données réelles est complétée par une évaluation quan- titative sur des données issues de simulations.

4.1 Résultats sur des données SQG

Le premier protocole d’évaluation utilise des données de simulation numérique SQG (surface quasi-géostrophique) [7]. Le choix de ce modèle est motivé par de récents ré- sultats qui montrent que sous certaines conditions, il dé- crit bien la dynamique océanique [9]. Etant donné des don- nées vérité hautes résolutions, une séquence d’images de basses résolutions est générée par sous échantillonnage.

Des masques de données manquantes extraits des bases de

données d’observations réelles sont appliqués pour simu- ler des données manquantes ayant une configuration réa- liste. Pour les données basses résolutions, les masques de données manquantes sont extraits de la base de données REMSS. Les masques pour les données hautes résolutions sont extraits de la base de données METOP (Fig.4). Pour plus de réalisme, un champ de bruit Gaussien est appliqué aux observations. Ce protocole est mis en oeuvre pour ob- tenir des résultats numériques pour les méthodes proposées et ainsi permettre une comparaison objective de leurs per- formances.

La Fig.5,a) donne les moyennes et écarts types des erreurs d’interpolation pour chacune des méthodes. Ces résultats montrent que la méthode multi-résolution utilisant les a priori géométriques et temporels (DYNAMIQUE MM) ob- tient de meilleures performances que les autres méthodes étant donné qu’elle produit des moyennes et écarts types d’erreurs plus faibles. Ensuite, les méthodes qui réalisent les meilleures performances sont dans l’ordre, la méthode dynamique utilisant seulement les observations hautes ré- solutions (DYNAMIQUE HR), la méthode statique com- prenant la contrainte géométrique (STATIQUE MM). Ceci montre que la contrainte dynamique, qui permet de trans- porter l’information de reconstruction sur des images suc- cessives, pourvoit plus d’information que la contrainte géo- métrique qui permet de transporter l’information de re- construction le long des structures frontales.

La significance statistique des résultats numériques pré- sentés dans la Fig.5,a) a été mesurée avec un test de si- gnificance de Kolmogorov-Smirnov. Ce test a été adopté parce qu’il est adéquat pour des distributions d’erreurs non Gaussiennes. Ce test a montré que la méthode DYNA- MIQUE MM est significativement meilleure que les autres méthodes avec un p-value inférieure à 0.001.

La Fig.5,b) donne les distributions cumulées des probabi- lités d’erreurs produites par chaque méthode. Ces résul- tats confirment les conclusions tirées de la Fig.5,a). La contrainte de régularité temporelle dérivant du modèle dy- namique est la caractéristique la plus importante, suivie par la contrainte géométrique.

Pour mesurer la qualité de reconstruction des données man- quantes, spécialement la reconstruction des structures géo- métriques, nous reportons dans la Fig.7 les résultats d’in- terpolation obtenues pour chaque méthode pour l’échan- tillon d’observation de la Fig.6. Ces exemples illustrent le gain de reconstruction lié à la combinaison entre les contraintes dynamique et géométrique. Il est à noter que les structures géométriques sont mieux localisées par les mé- thodes imposant une contrainte de cohérence géométrique entre les champs SQG multi-résolutions.

4.2 Résultats sur des données réelles

Le second ensemble d’ expérimentations concerne les don-

nées géophysiques réelles. Nous utilisons les séquences

d’images de SST brutes REMSS et METOP (voir Fig.1)

pour une évaluation des méthodes sur des données réelles

(7)

a)

b)

F IG . 5 – Résultats du protocole SQG : distributions cu- mulées des probabilités d’erreurs pour chaque méthode (en bas). La méthode utilisant le modèle dynamique et l’infor- mation multimodale réalise de meilleures performances.

de SST multi-résolution, et des séquences d’images de la base de données REMSS et des séquences d’images de CHL de la base de données MERIS pour une évaluation des méthodes multimodales. Les séquences d’images SST et CHL ont une fréquence d’échantillonnage d’une image par jour. Le but de ces expérimentations et d’évaluer quali- tativement les méthodes proposées sur des données réelles.

Les Fig.8 et Fig.9 montrent les résultats d’interpolation : la méthode dynamique utilise seulement des données hautes résolutions SST (METOP) ou les images CHL, ou uti- lise conjointement les observations basses résolutions SST REMSS avec les observations hautes résolution pour ex- ploiter le terme de cohérence géométrique. Ces résultats montrent le bénéfice de la méthode multimodale pour la résolution de structures aux échelles fines (voir Fig.8).

Le modèle d’advection-diffusion à lui seul ne suffit pas à reconstruire les structures filamentaires et les résultats montrent une tendance au lissage de la composante textu- rée des structures de la chlorophylle. Par opposition, l’in- terpolation conjointe de la SST basse résolution et des ob- servations CHL permet de reconstruire de manière consis- tentes les structures filamentaires.

Pour l’estimation de données manquantes pour les observa- tions SST, les résultats reportés dans la Fig.9 ne montrent

F IG . 6 – Observations SQG : à gauche, image haute ré- solution comprenant 17% de données manquantes ; droite, image basse résolution.

pas les améliorations significatives qui ont été obtenues pour le traitement des observations SQG et CHL. Ceci pourrait être expliqué par un taux plus faible de données manquantes dans les SST hautes résolutions de la base METOP comparée aux observations CHL. En moyenne, les données METOP comprennent 58% de données man- quantes, tandis que le taux moyen de données manquantes des données CHL MERIS est de 76%.

5 Conclusions

Dans cet article, nous avons proposé une méthode multi- modale muli-résolution basée sur l’assimilation variation- nelle de données pour l’estimation de données manquantes et de champs de déplacements dans des séquence d’images géophysiques. La difficulté de la tâche est liée à une pré- sence importantes de données manquantes, typiquement entre 20% et 90% pour les données hautes résolutions. Ce fort taux de données manquantes rend difficille la recons- truction des structures fines échelles (filaments, vortex).

Pour le modèle proposé, nous avons rapporté de bonnes performances de reconstruction pour des données réelles et synthétiques. Le modèle proposé comprend deux carac- téristiques principales :

– une contrainte géométrique reliant la géométrie des images hautes résolutions à celle des images basses réso- lutions. Etant donné que, du fait de leur mode d’acqui- sition, les images basses résolutions comportent moins de données manquantes, cette contrainte géométrique est un bon moyen pour contraindre la structure géométrique des images hautes résolutions.

– un cadre d’assimilation variationnel comprenant un mo- dèle dynamique d’advection-diffusion permettant l’esti- mation conjointe des données manquantes et des champs de déplacements. Ce modèle garanti la cohérence spatio- temporelle des variables reconstruites.

En vision par ordinateur, plusieurs approches variation-

nelles ont été proposées pour résoudre l’inpainting de sé-

quences vidéos [17, 18]. Contrairement à la tâche en vue

dans cet article, ces applications d’inpaiting n’ont considé-

rés que des problèmes avec un taux de données manquantes

(8)

F IG . 7 – Résultats sur les données SQG pour les mé- thodes STATIQUE HR (haut ;gauche), STATIQUE MM (haut ;droite), DYNAMIQUE HR (bas ;gauche), et DYNA- MIQUE MM (bas ; droite). La méthode DYNAMIQUE MM reconstruit des images spatialement plus cohérentes avec des structures géométriques plus fines (voir Fig.6 pour les données brutes).

plus faible. Récemment, d’importantes avancées ont été rapportées pour la super-résolution de séquences vidéo, no- tamment des méthodes basées sur des approches par exem- plaires [20]. Ces méthodes possèdent la capacité de retrou- ver les structures fines dans des séquence d’images issues de la video-surveillance [20]. Cependant, ils semblent dif- ficille à appliquer à des observations de flot de turbulence.

Alors que des contraintes dynamique basées sur des mo- dèles géophysiques, comme celles proposées dans cet ar- ticle, permettent d’introduire l’information à priori requise pour la super-résolution de ce type de données. Il est a noter que la contrainte géométrique (Eq.7) partage des si- militudes avec les termes de diffusion anisotropique uti- lisé dans l’inpainting pour la restauration d’images [31]. Il impose aux lignes de niveaux supportant les gradients de forte magnitude d’être localement parallele. Dans la mé- thode d’assimilation variationnelle proposée, cette diffu- sion orientée est contrainte par les champs de deplacements relatifs au modèle dynamique. Ceci permet d’obtenir une diffusion anisotropique spatio-temporellement consistente.

Avant nous, d’autres travaux avaient utilisé le cadre de l’assimilation variationnelle pour le traitement de données géophysiques [25, 26, 29]. En particulier, des applications d’estimation de champs de déplacements de mouvement fluide ont été considérées par [25, 26]. Bien que la tâche principale dans cet article soit l’interpolation de données

F IG . 8 – Résultats d’interpolation pour les données CHL.

La première image donne les résultats pour la méthode DY- NAMIQUE HR, la seconde image donnes les résultats pour la méthode DYNAMIQUE MM. Les observations brutes correspondantes sont présentées dans la Fig.1.

F IG . 9 – Résultats d’interpolation pour les données SST METOP. La première image donne les résultats pour la mé- thode DYNAMIQUE HR, la seconde image donnes les ré- sultats pour la méthode DYNAMIQUE MM. Les observa- tions brutes correspondantes sont présentées dans la Fig.1.

manquantes, l’estimation conjointe des champs de dépla- cements sous jacent est une caractéristique importante de notre approche. Comparé à [25, 26], notre approche ne comprend pas l’assimilation du champ de déplacement. La dynamique de la surface océanique montre des caractéris- tiques d’une dynamique de turbulence [30]. Selon nous, le modèle dynamique considéré dans [25, 26] n’est pas appro- prié à ce type de dynamique. Par conséquence, durant la re- construction, nous n’avons pas appliqué ce type de modèle pour éviter un lissage excessif des variables géophysiques.

De futurs travaux étudieront l’utilisation de modèles d’évo- lution de turbulence permettant une reconstruction préser- vant les structures aux échelles fines [7, 9].

Références

[1] F.J. Wentz and C.L. Gentemmann and D.K. Smith and al, Satellite measurements of sea surface temperature through clouds, Science, Vol. 288, 2000.

[2] P. Le Borgne and G. Legendre and A Marsouin, Ope- rational SST Retrieval from MetOp/AVHRR, EUMET- SAT Conference, 2007.

[3] P. Camberlin and S. Janicot and I. Poccard, Seasona-

lity and atmospheric dynamics of the teleconnection

between African rainfall and the tropical sea surface

(9)

temperature : Atlantic vs. ENSO, International Jour- nal of Climatology, Vol. 21, 2001.

[4] H. Giordani and G. Caniaux, Sensitivity of Cycloge- nesis to Sea Surface Temperature in the Northwestern Atlantic, Monthly Weather Review, Vol. 129(6), 2001.

[5] M. A. Saunders and A. S. Lea, Large contribution of sea surface warming to recent increase in Atlantic hur- ricane activity, Nature, Vol. 451(7178), 2008.

[6] D. S. Ullman and P. C. Cornillon, Evaluation of front detection methods for satellite-derived SST data using in situ observations, Journal of Atmospheric and Ocea- nic Technology, 2000.

[7] J. Sukhtame and R. Pierrehumbert, Surface quasige- strophic turbulence : The study of an active scalar, Chaos, 2002.

[8] X. Zheng and H. Wei, Analysis of Chlorophyll Concentration during the Phytoplankton Spring Bloom in the Yellow Sea Based on the MODIS Data, Life Sys- tem Modeling and Intelligent Computing, 2010.

[9] J. Isern-Fontanet and B. Chapron and G. Lapyere and P. Klein, Potential use of microwave sea surface tem- peratures for the estimation of ocean currents, Geophy- sical Research Letter, 2006.

[10] I. M. Belkina and and J.E O’Reilly, An algorithm for oceanic front detection in chlorophyll and SST satellite imagery, Journal of Marine Systems, 2009.

[11] H. U. Solanki and R. M. Dwivedi and S.R. Nayak and V. S. Somvanshi and D. K. Gulati and S. K. Pattnayak, Fishery forecast using OCM chlorophyll concentration and AVHRR SST : validation results off Gujarat coast, India, International Journal of Remote Sensing, 2003.

[12] S. O. Ba and T. Corpetti and B. Chapron and R. Fa- blet, Variational data assimilation for missing data in- terpolation in SST images, EEE IGARSS, 2010.

[13] J. L. Hoyer and J. Shea, Optimal interpolation of sea surface temperature for the North Sea and Baltic Sea, Journal of Marine Systems, Vol. 65(1-4), 2007.

[14] R.W. Reynolds and T. M. Smith, Improved global sea surface temperature analyses using optimum interpola- tion, Journal of Climate, Vol. 7, 1994.

[15] L. Bertino and G. Evensen and H. Wackernagel, Se- quential Data Assimilation Techniques in Oceanogra- phy, International Statistical Review, 2003.

[16] D. Youzhuan and F. Dongyang W. Zhihui and M.

Zhihua and Z. Juhong, Reconstruction of Incomplete Satellite Oceanographic Data Sets Based on EOF and Kriging Methods, Image and Signal Processing for Re- mote Sensing, 2008.

[17] J.-F. Aujol and S. Ladja and S. Masnou, Exemplar- based inpainting from a variational point of view, SIAM Journal on Mathematical Analysis, 2010.

[18] P. Arias and V. Casselles and G. Sapiro, A Variational Framework for Non-local Image Inpainting, Int. Conf.

on Energy Minimization Methods in CVPR, 2009.

[19] K. A. Patwardhan and G. Sapiro and M. Bertalmio, Video Inpainting Under Constrained Camera Motion, Science, 2010.

[20] V. Cheung and B. J. Frey and N. Jojic, Video epi- tomes, Int. Journal on Computer Vision, 2007.

[21] S. Babacan and R. Molina and Katsaggelos, Variatio- nal Bayesian Super Resolution, IEEE transaction on Image Processing, 2009.

[22] D. Glasner and S. Bagon and M. Irani, Super- Resolution from a Single Image, Int. Conference on Computer Vision, 2009.

[23] N. Verbrugge and G. Reverdin, Contribution of ho- rizontal advection to the interannual variability of sea surface temperature in the North Atlantic, Journal of Physical Oceanography, 2003.

[24] A. Bennett and M. Thorburn, The generalized inverse of a nonlinear quasigeotrophic ocean circulation mo- del, Journal of Physical and Oceanogr., Vol. 22, 1990.

[25] N. Papadakis and T. Corpetti and E. Memin, Dynami- cally consistent optical flow estimation, Inter. Confe- rence on Computer Vision, 2007.

[26] N. Papadakis and P. Heas and E. Memin, Image as- similation for motion estimation of atmospheric layers with shallow-water model, Asian Conference on Com- puter Vision, 2007.

[27] O. Talagrand and P. Courtier, Variational assimilation of meterological observations with the adjoint vorticity equation, Quarterly Journal of the Royal Meteorologi- cal Society, Vol 113(478), 1987.

[28] G. Gawarkiewicz and D.C. Chapman, Formation and maintenance of shelfbreak fronts in an unstratified flow, Journal of physical oceanography, 1991.

[29] I. Gejadze and M. Honnorat and F.-X. Le Dimet and J. Monnier, On variational data assimilation for 1D and 2D fluvial hydraulics, European Conference on Mathe- matics for Industry, 2006.

[30] G. Lapeyre and P. Klein and B. L. Hua, Oceanic re- stratification forced by surface frontogenesis, Journal of Physical Oceanography, Vol. 36, 2006.

Interpolation de données manquantes dans des séquences multi-modales d'images géophysiques satellitaires

HAL Id: hal-00656503

https://hal.archives-ouvertes.fr/hal-00656503

Submitted on 17 Jan 2012

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Interpolation de données manquantes dans des séquences multi-modales d’images géophysiques satellitaires

Sileye Ba, Thomas Corpetti, Ronan Fablet

To cite this version:

Sileye Ba, Thomas Corpetti, Ronan Fablet. Interpolation de données manquantes dans des séquences

multi-modales d’images géophysiques satellitaires. RFIA 2012 (Reconnaissance des Formes et Intelli-

gence Artificielle), Jan 2012, Lyon, France. pp.978-2-9539515-2-3. �hal-00656503�

Interpolation de données manquantes dans des séquences multi-modales d’images géophysiques satellitaires

Silèye O. Ba † Thomas Corpetti ‡ Ronan Fablet † Lab-STICC † , Université Européenne de Bretagne, Plouzané, France

LIAMA-CNRS ‡ , Beijing, Chine

Résumé

Cet article étudie l’estimation conjointe de données man- quantes et de champs de déplacements dans des séquences multimodales d’observations satellitaires géophysiques.

Mots Clef

Assimilation variationnelle de données, interpolation de données manquantes, inpainting

Abstract

tions of high-resolution geophysical observation series can be achieved despite high percentage of missing data.

Keywords

variational data assimilation, missing data interpolation, in- painting

1 Introduction

) [1] tandis que la radiométrie infrarouge (IR) délivre des mesures hautes résolutions (0.05

) [2].

Les satellites géophysiques exploitent plusieurs modalités

(e.g, capteurs IR ou MO) associés à différentes résolutions

de capture comme illustré dans la Fig.1. Dans tous les cas,

ces capteurs sont sensibles aux conditions atmosphériques

telles que les fortes pluies ou la couverture nuageuse. Par

conséquence, les séries d’observations comportent de fort

pourcentage de données manquantes, les données hautes

comprennent de larges portions de données manquantes ce qui rend la reconstruction de la géométrie locale des structures présentes dans les images géophysiques parti- culièrement difficile ;

– Comparé aux problèmes classique d’inpainting et de super-résolution de champs multi-valués, dans le pro- blème considéré dans cet article, les séries d’observa- tions multimodales traitées ne partagent que l’organisa- tion spatiale des structures géométriques ;

– Les images géophysiques sont fortement structurées par le champ de déplacement sous jacent [23]. L’estimation jointe du champ de vitesse de la surface océanique ap- parait comme un facteur important pour recouvrer un champ dynamiquement cohérent.

Pour résoudre ces problèmes, nous proposons une méthode basée sur l’assimilation variationnelle qui, à partir de don-

2 Interpolation de données man- quantes pour une série uni-modale

Dans cette section, nous supposons disposer d’une sé- quence d’observations I

, t ∈ [t

, t

] correspondant à la séquence d’états θ

, t ∈ [t

, t

] d’une variable géophy- sique. Dans notre cas, la variable d’état correspond soit à de la SST ou de la CHL. Les observations I

comprennent des données manquantes comme dans la Fig.1. La variable d’état est supposée liée à l’observation qui lui correspond par la relation I

= P

θ

+ω

où P

est un opérateur linéaire de projection qui modélise la réduction de dimensionna- lité due aux données manquantes

. ω

représente un bruit Gaussien centré, indépendant, identiquement distribuée, de matrice covariance Σ.

∂

θ + M (θ, ϑ) = η

θ

= θ

+ ε (1)

où θ

est l’état initial, ε et η

, de matrices de covariances B and Q, modélisent l’incertitude à propos de l’état ini- tial et du modèle dynamique

Etant donné le modèle dynamique (Eq.1), nous définissons un coût variationnel pour l’interpolation de donnée man- quantes et l’estimation de champs de transport par : J(θ, ϑ) =

Z

||∂

θ + M (θ, ϑ)||

dt + ||θ

− θ

||

... (2)

+ Z

E(θ

)dt

Les images sont représentées sous une forme vectorielle.

B et Q sont modélisées par des matrices diagonales et sphériques.

où E(θ) est un terme d’attache aux observations défini par :

E(θ) = Z

(I − P θ)

dp + β Z

||∇θ||

dp (3)

Silèye O. Ba ^† Thomas Corpetti ^‡ Ronan Fablet ^† Lab-STICC ^† , Université Européenne de Bretagne, Plouzané, France

LIAMA-CNRS ^‡ , Beijing, Chine