Préconditionnement pour les problèmes inverses

2.4 Méthodes de minimisation de la fonction coût

2.4.4 Préconditionnement pour les problèmes inverses

En mathématiques appliquées, les méthodes les plus robustes pour la résolution d’une

grande classe de problèmes sont les méthodes itératives. Elles constituent en général le seul

choix lorsqu’il s’agit de problèmes non linéaires. C’est aussi un choix de prédilection pour les

problèmes linéaires de grandes dimensions ; dans ces cas en eﬀet, les méthodes directes bien

que connues comme déterministes sont en général très coûteuses surtout en espace mémoire

2.4. MÉTHODES DE MINIMISATION DE LA FONCTION COÛT 31

et dans les cas extrêmes s’avèrent non praticables même avec les gros ordinateurs. Cependant,

la convergence de ces méthodes itératives se dégrade rapidement lorsque le problème n’est

pas bien conditionné. Ainsi, en algèbre linéaire, pour la résolution de systèmes linéaire de la

forme :

Ax=y

(2.69)

il est courant de résoudre non pas le système d’origine mais un système modiﬁé équivalent

avec un meilleur conditionnement. On fait notamment usage du préconditionnement à gauche

pour obtenir le système :

P

⁻¹

Ax=P

⁻¹

y

, (2.70)

ou du préconditionnement à droite :

AP

⁻¹

(Px) =y

. (2.71)

L’objectif du préconditionnement en résolution numérique de système linéaire est d’obtenir

une matrice dont les valeurs propres sont mieux réparties ; le conditionnement du problème

modiﬁé se trouve ainsi amélioré. Le préconditionnement idéal consisterait à choisir

convena-blement l’opérateurPde telle sorte que la matrice du système préconditionnéP

⁻¹

A(pour le

préconditionnement à gauche) ou AP

⁻¹

(pour le préconditionnement à droite) ait un faible

conditionnement et/ou des valeurs propres groupées autour de l’unité. Avec le

conditionne-ment optimal égal à l’unité, une itération unique est requise pour converger. Cependant,

l’obtention d’un tel conditionnement peut être aussi diﬃcile que la résolution du système

ini-tial ; on recherche alors l’opérateur de préconditionnement qui permettra d’obtenir le meilleur

compromis entre le coût de calcul et le taux de convergence. Pour les systèmes linéaires,

l’opérateur de préconditionnement Pest en général obtenu par factorisation incomplète de la

matriceAdu système. Des détails sur ces techniques peuvent se trouver dans le livre de Golub

[Golub and Loan(1996)] ou encore celui de Saad [Saad(2003)]. Quand il s’agit des systèmes

symétriques et déﬁnis positifs, le préconditionnement à droite est en général préféré ; dans ce

cas, l’expression de l’opérateur de préconditionnement idéal par factorisation de Cholesky

conduit au système préconditionné suivant :

AP

⁻

z=y

. (2.72)

Avec le changement de variablez=P

^T2

x. D’un point de vue complexité de calcul, l’application

de l’opérateurP

−^T

est plus avantageux que l’opérateurP

⁻¹

grâce à sa structure triangulaire.

Préconditionnement pour les problèmes inverses généraux

Considérons le cas général où le problème inverse est déﬁni par la minimisation de la

fonction coût :

J(δv) =¹

2kH(M(v

+δv))−y

k

²O

+¹

2^α

kδvk

²V

(2.73)

avec v∈ V le vecteur de paramètre (c’est la variable de contrôle en assimilation de données) à

déterminer,V l’espace de contrôle ou l’espace des paramètres,v

l’ébauche surv,δv=v−v

,

M le modèle qui lie la variable de contrôle à l’état x du système, y

l’état observé (vecteur

3. SiAest une matrice symétrique et définie positive, alors sa factorisation de Cholesky est définie par la

matrice_Ltelle que_A=LL

des observations), H l’opérateur d’observation,k.k

,k.k

, la norme appropriée dans l’espace

de contrôle, l’espace des observations respectivement. Le modèle Mest déﬁni par :

M: V → X

v 7→ x=M(v); (2.74)

et l’opérateur d’observation par :

H: X → O

x 7→ y=H(x) (2.75)

On se ramène facilement au cas de l’assimilation variationnelle de données en réécrivant le

modèle et l’opérateur d’observation sur toute la trajectoire. Nous allons nous intéresser

uni-quement au cas linéaire

, l’adjectif linéaire se rapportant aux opérateurs modèleM et

d’ob-servations H et veut dire qu’ils peuvent s’exprimer en terme de matrices M et H pour le

problème discrétisé. Sous ces conditions, la fonction coût se réécrit :

J(δv) = ¹

2kHM(v

+δv)−y

k

²R−¹

+¹

2kδvk

²B−¹

(2.76)

où les opérateurs B et R sont utilisés pour déﬁnir les normes appropriées dans l’espace de

contrôle (k.k

B−¹

=k.k

) et dans l’espace d’observation (k.k

R−¹

=k.k

). Ces opérateurs sont

en général déﬁnis par la matrice de covariance d’erreurs d’ébauche pourBet par la matrice de

covariance d’erreurs d’observation pourR. Avec la formulation de l’équation (2.76), le gradient

de la fonction coût s’exprime comme :

∇J(δv) =B

⁻¹

δv+M

H

R

⁻¹

(HM(v

+δv)−y

). (2.77)

Le développement de Taylor nous permet d’écrire :

∇J(δv) =∇J(0) +Gδv, (2.78)

où G=B

⁻¹

+M

H

R

⁻¹

HMest la matrice hessienne de la fonction coût.

A l’optimum (v

∗

), on a :

0 =∇J(0) +Gδv

^∗

, étant donné que∇J(δv

^∗

) = 0, (2.79)

etδv

^∗

s’écrit :

δv

^∗

=−G

⁻¹

∇J(0). (2.80)

Dans le cas linéaire, la résolution d’un problème inverse peut se ramèner à la résolution d’un

système linéaire avec comme matrice, l’opérateur hessien. Comme nous l’avons dit plus haut,

la convergence des méthodes itératives pour la résolution de ce type de système est fortement

dépendante du conditionnement de la matrice du système ; d’où la nécessité de résoudre un

système équivalent préconditionné. Le préconditionnement à droite est plus approprié dans le

cas où la matriceGest symétrique et déﬁnie positive.

2.4. MÉTHODES DE MINIMISATION DE LA FONCTION COÛT 33

Simplification du préconditionnement en présence de modèles complexes

Selon la dimension du problème à résoudre, il peut être diﬃcile et même impossible de

ma-nipuler la matrice hessienne G; c’est notamment le cas en assimilation de données avec des

modèles qui peuvent être très complexes et la dimension du problème très grande. Dans ces

cas, l’opérateur M

H

R

⁻¹

HMpeut être très diﬃcile à estimer ou à manipuler (voir la thèse

de Vidard [Vidard(2001)] pour plus de détails). Il est courant de déﬁnir une approximation

de l’opérateur G par _G˜ ≈ B

⁻¹

. Cette simpliﬁcation permet de déﬁnir un opérateur de

pré-conditionnement qui conduit à un système avec des valeurs propres augmentées de 1 et un

conditionnement substantiellement réduit [Courtier(1997)].

Schéma simplifié de construction et d’utilisation des opérateurs de covariance

d’erreurs

La description faite dans ce paragraphe permettra de mieux comprendre l’utilisation de

l’opérateur de diﬀusion généralisée pour le préconditionnement. Cet opérateur sera introduit

au chapitre (5). Dans certaines applications, notamment dans la prévision des écoulements

géophysiques, la matrice de covariance d’erreur d’ébauche peut être découpée en sous

ma-trices conduisant à une matrice bloc de taille n×n. La décomposition en blocs peut être

basée sur les propriétés physiques du système, mais aussi peut correspondre uniquement à

une décomposition logique ou les deux. La décomposition basée sur les propriétés physiques

correspond en général à une décomposition du domaine physique en sous-domaines

complé-mentaires [Courtier et al.(1998)] selon les propriétés du modèle dans chaque sous-domaine. Un

exemple courant est la séparation correspondant aux diﬀérences de comportement des modèles

météorologiques à diﬀérentes latitudes [Derber and Bouttier(1999)]. La décomposition logique

quant à elle correspond en général à une séparation du traitement des variables indépendantes

(la référence est faite ici aux variables du modèle continu et l’indépendance correspond à un

point donné du repère temps).

Illustration sur un modèle d’écoulement en eaux peu profondes

Le système d’équations décrivant les écoulements en eaux peu profondes (ou shallow water en

anglais) aussi connu comme le modèle de Saint-Venant, donne l’évolution sous la surface(libre

ou non) d’un ﬂuide d’épaisseur négligeable par rapport à la largeur. Les variables du modèle

dans ce cas sont la vitesse et la pression (qui peut être réduite à la hauteur de la colonne

du ﬂuide sous la surface). Dans un modèle de Saint-Venant en deux dimensions, la variable

vitesse est constituée de deux composantes, on obtient ainsi un modèle à trois variables, les

deux composantes de la vitesse (uetv) et la hauteur du ﬂuide (h). Une décomposition logique

permet d’écrire la matrice de covariance d’erreur comme une matrice 3×3constituée de sous

matrices exprimée sous la forme :

B=





B

_uu

B

_uv

B

_uh

B

_hu

B

_hv

B

_hh



. (2.81)

La matrice en elle même n’est pas d’une grande importance, seule son application à un vecteur

est requise dans une application (x7→ Bx) ; pour les blocs de la diagonale, Weaver et

Cour-tier [Weaver and CourCour-tier(2001)] proposent l’utilisation d’un opérateur de diﬀusion dont une

approximation peut être donnée par une convolution gaussienne. Une autre approche consiste

à utiliser les ﬁltres numériques [Purser et al.(2003)]. La partie diagonale que nous notons _Bˆ

et qui constitue la partie univariée

peut s’écrire :

ˆ

B= (Σ)diag(C

)(Σ), (2.82)

où Σ représente la matrice diagonale des écarts types (erreurs), C

= Λ

L

Λ

, L

étant

l’opérateur de diﬀusion de Weaver et Courtier ; Λ

un opérateur de normalisation

permet-tant d’obtenir des valeurs unitaires sur la diagonale des matrices C

. De façon simpliﬁée,

les relations croisées qui déﬁnissent la partie non diagonale ou multivariée (par opposition à

univariée) de la matrice de covariance B s’obtiennent par application à _Bˆ d’opérateurs qui

déﬁssent l’équilibre entre les diﬀérentes variables :

B=K_BKˆ

. (2.83)

L’opérateurKreprésente un tel opérateur d’équilibre. Dans un modèle de Saint-Venant, il peut

être remplacé par l’équilibre géostrophique. Cette construction facilite la factorisation par la

méthode de Cholesky de la matrice de covariance d’erreur ; suivant le schéma de construction

que nous venons de présenter, cette factorisation est donnée par :

B

¹2

=K(Σ)C

¹2

avec C

¹2

=ΛL

¹2

(2.84)

Rôle des opérateursL etK L’opérateurLcomme opérateur de diﬀusion, permet de faire

un lissage local. Il permet ainsi d’atténuer l’importance des incohérences locales ; il a un eﬀet

régularisant. L’opérateurKpermet de transférer l’information d’une variable à une autre (cas

de la décomposition logique) ou bien d’une région du domaine physique à une autre (cas de

la décomposition physique) ; il permet de palier au problème de manque d’informations.

Dans le document Assimilation d'images pour les fluides géophysiques (Page 37-41)

Préconditionnement pour les problèmes inverses

2.4 Méthodes de minimisation de la fonction coût

2.4.4 Préconditionnement pour les problèmes inverses

En mathématiques appliquées, les méthodes les plus robustes pour la résolution d’une

grande classe de problèmes sont les méthodes itératives. Elles constituent en général le seul

choix lorsqu’il s’agit de problèmes non linéaires. C’est aussi un choix de prédilection pour les

problèmes linéaires de grandes dimensions ; dans ces cas en eﬀet, les méthodes directes bien

que connues comme déterministes sont en général très coûteuses surtout en espace mémoire

2.4. MÉTHODES DE MINIMISATION DE LA FONCTION COÛT 31

et dans les cas extrêmes s’avèrent non praticables même avec les gros ordinateurs. Cependant,

la convergence de ces méthodes itératives se dégrade rapidement lorsque le problème n’est

pas bien conditionné. Ainsi, en algèbre linéaire, pour la résolution de systèmes linéaire de la

forme :

Ax=y

(2.69)

il est courant de résoudre non pas le système d’origine mais un système modiﬁé équivalent

avec un meilleur conditionnement. On fait notamment usage du préconditionnement à gauche

pour obtenir le système :

P

Ax=P

y

, (2.70)

ou du préconditionnement à droite :

AP

(Px) =y

. (2.71)

L’objectif du préconditionnement en résolution numérique de système linéaire est d’obtenir

une matrice dont les valeurs propres sont mieux réparties ; le conditionnement du problème

modiﬁé se trouve ainsi amélioré. Le préconditionnement idéal consisterait à choisir

convena-blement l’opérateurPde telle sorte que la matrice du système préconditionnéP

A(pour le

préconditionnement à gauche) ou AP

(pour le préconditionnement à droite) ait un faible

conditionnement et/ou des valeurs propres groupées autour de l’unité. Avec le

conditionne-ment optimal égal à l’unité, une itération unique est requise pour converger. Cependant,

l’obtention d’un tel conditionnement peut être aussi diﬃcile que la résolution du système

ini-tial ; on recherche alors l’opérateur de préconditionnement qui permettra d’obtenir le meilleur

compromis entre le coût de calcul et le taux de convergence. Pour les systèmes linéaires,

l’opérateur de préconditionnement Pest en général obtenu par factorisation incomplète de la

matriceAdu système. Des détails sur ces techniques peuvent se trouver dans le livre de Golub

[Golub and Loan(1996)] ou encore celui de Saad [Saad(2003)]. Quand il s’agit des systèmes

symétriques et déﬁnis positifs, le préconditionnement à droite est en général préféré ; dans ce

cas, l’expression de l’opérateur de préconditionnement idéal par factorisation de Cholesky

conduit au système préconditionné suivant :

AP

z=y

. (2.72)

Avec le changement de variablez=P

x. D’un point de vue complexité de calcul, l’application

de l’opérateurP

est plus avantageux que l’opérateurP

grâce à sa structure triangulaire.

Préconditionnement pour les problèmes inverses généraux

Considérons le cas général où le problème inverse est déﬁni par la minimisation de la

fonction coût :

J(δv) =1

2kH(M(v

+δv))−y

k

+1

2α

kδvk

(2.73)

avec v∈ V le vecteur de paramètre (c’est la variable de contrôle en assimilation de données) à

déterminer,V l’espace de contrôle ou l’espace des paramètres,v

l’ébauche surv,δv=v−v

,

M le modèle qui lie la variable de contrôle à l’état x du système, y

l’état observé (vecteur

3. SiAest une matrice symétrique et définie positive, alors sa factorisation de Cholesky est définie par la

matriceLtelle queA=LL

des observations), H l’opérateur d’observation,k.k

,k.k

, la norme appropriée dans l’espace

de contrôle, l’espace des observations respectivement. Le modèle Mest déﬁni par :

M: V → X

v 7→ x=M(v); (2.74)

et l’opérateur d’observation par :

H: X → O

x 7→ y=H(x) (2.75)

J(δv) =¹

+¹

2^α

matrice_Ltelle que_A=LL

J(δv) = ¹

+¹

de l’opérateur G par _G˜ ≈ B