2.4 Méthodes de minimisation de la fonction coût
2.4.4 Préconditionnement pour les problèmes inverses
En mathématiques appliquées, les méthodes les plus robustes pour la résolution d’une
grande classe de problèmes sont les méthodes itératives. Elles constituent en général le seul
choix lorsqu’il s’agit de problèmes non linéaires. C’est aussi un choix de prédilection pour les
problèmes linéaires de grandes dimensions ; dans ces cas en effet, les méthodes directes bien
que connues comme déterministes sont en général très coûteuses surtout en espace mémoire
2.4. MÉTHODES DE MINIMISATION DE LA FONCTION COÛT 31
et dans les cas extrêmes s’avèrent non praticables même avec les gros ordinateurs. Cependant,
la convergence de ces méthodes itératives se dégrade rapidement lorsque le problème n’est
pas bien conditionné. Ainsi, en algèbre linéaire, pour la résolution de systèmes linéaire de la
forme :
Ax=y
o(2.69)
il est courant de résoudre non pas le système d’origine mais un système modifié équivalent
avec un meilleur conditionnement. On fait notamment usage du préconditionnement à gauche
pour obtenir le système :
P
−1Ax=P
−1y
o, (2.70)
ou du préconditionnement à droite :
AP
−1(Px) =y
o. (2.71)
L’objectif du préconditionnement en résolution numérique de système linéaire est d’obtenir
une matrice dont les valeurs propres sont mieux réparties ; le conditionnement du problème
modifié se trouve ainsi amélioré. Le préconditionnement idéal consisterait à choisir
convena-blement l’opérateurPde telle sorte que la matrice du système préconditionnéP
−1A(pour le
préconditionnement à gauche) ou AP
−1(pour le préconditionnement à droite) ait un faible
conditionnement et/ou des valeurs propres groupées autour de l’unité. Avec le
conditionne-ment optimal égal à l’unité, une itération unique est requise pour converger. Cependant,
l’obtention d’un tel conditionnement peut être aussi difficile que la résolution du système
ini-tial ; on recherche alors l’opérateur de préconditionnement qui permettra d’obtenir le meilleur
compromis entre le coût de calcul et le taux de convergence. Pour les systèmes linéaires,
l’opérateur de préconditionnement Pest en général obtenu par factorisation incomplète de la
matriceAdu système. Des détails sur ces techniques peuvent se trouver dans le livre de Golub
[Golub and Loan(1996)] ou encore celui de Saad [Saad(2003)]. Quand il s’agit des systèmes
symétriques et définis positifs, le préconditionnement à droite est en général préféré ; dans ce
cas, l’expression de l’opérateur de préconditionnement idéal par factorisation de Cholesky
3conduit au système préconditionné suivant :
AP
−T
2
z=y
o. (2.72)
Avec le changement de variablez=P
T2x. D’un point de vue complexité de calcul, l’application
de l’opérateurP
−T2
est plus avantageux que l’opérateurP
−1grâce à sa structure triangulaire.
Préconditionnement pour les problèmes inverses généraux
Considérons le cas général où le problème inverse est défini par la minimisation de la
fonction coût :
J(δv) =1
2kH(M(v
b+δv))−y
ok
2O+1
2α
bkδvk
2V(2.73)
avec v∈ V le vecteur de paramètre (c’est la variable de contrôle en assimilation de données) à
déterminer,V l’espace de contrôle ou l’espace des paramètres,v
bl’ébauche surv,δv=v−v
b,
M le modèle qui lie la variable de contrôle à l’état x du système, y
ol’état observé (vecteur
3. SiAest une matrice symétrique et définie positive, alors sa factorisation de Cholesky est définie par la
matriceLtelle queA=LL
Tdes observations), H l’opérateur d’observation,k.k
V,k.k
O, la norme appropriée dans l’espace
de contrôle, l’espace des observations respectivement. Le modèle Mest défini par :
M: V → X
v 7→ x=M(v); (2.74)
et l’opérateur d’observation par :
H: X → O
x 7→ y=H(x) (2.75)
On se ramène facilement au cas de l’assimilation variationnelle de données en réécrivant le
modèle et l’opérateur d’observation sur toute la trajectoire. Nous allons nous intéresser
uni-quement au cas linéaire
4, l’adjectif linéaire se rapportant aux opérateurs modèleM et
d’ob-servations H et veut dire qu’ils peuvent s’exprimer en terme de matrices M et H pour le
problème discrétisé. Sous ces conditions, la fonction coût se réécrit :
J(δv) = 1
2kHM(v
b+δv)−y
ok
2R−1+1
2kδvk
2B−1(2.76)
où les opérateurs B et R sont utilisés pour définir les normes appropriées dans l’espace de
contrôle (k.k
B−1=k.k
V) et dans l’espace d’observation (k.k
R−1=k.k
O). Ces opérateurs sont
en général définis par la matrice de covariance d’erreurs d’ébauche pourBet par la matrice de
covariance d’erreurs d’observation pourR. Avec la formulation de l’équation (2.76), le gradient
de la fonction coût s’exprime comme :
∇J(δv) =B
−1δv+M
TH
TR
−1(HM(v
b+δv)−y
o). (2.77)
Le développement de Taylor nous permet d’écrire :
∇J(δv) =∇J(0) +Gδv, (2.78)
où G=B
−1+M
TH
TR
−1HMest la matrice hessienne de la fonction coût.
A l’optimum (v
∗), on a :
0 =∇J(0) +Gδv
∗, étant donné que∇J(δv
∗) = 0, (2.79)
etδv
∗s’écrit :
δv
∗=−G
−1∇J(0). (2.80)
Dans le cas linéaire, la résolution d’un problème inverse peut se ramèner à la résolution d’un
système linéaire avec comme matrice, l’opérateur hessien. Comme nous l’avons dit plus haut,
la convergence des méthodes itératives pour la résolution de ce type de système est fortement
dépendante du conditionnement de la matrice du système ; d’où la nécessité de résoudre un
système équivalent préconditionné. Le préconditionnement à droite est plus approprié dans le
cas où la matriceGest symétrique et définie positive.
2.4. MÉTHODES DE MINIMISATION DE LA FONCTION COÛT 33
Simplification du préconditionnement en présence de modèles complexes
Selon la dimension du problème à résoudre, il peut être difficile et même impossible de
ma-nipuler la matrice hessienne G; c’est notamment le cas en assimilation de données avec des
modèles qui peuvent être très complexes et la dimension du problème très grande. Dans ces
cas, l’opérateur M
TH
TR
−1HMpeut être très difficile à estimer ou à manipuler (voir la thèse
de Vidard [Vidard(2001)] pour plus de détails). Il est courant de définir une approximation
de l’opérateur G par G˜ ≈ B
−1. Cette simplification permet de définir un opérateur de
pré-conditionnement qui conduit à un système avec des valeurs propres augmentées de 1 et un
conditionnement substantiellement réduit [Courtier(1997)].
Schéma simplifié de construction et d’utilisation des opérateurs de covariance
d’erreurs
La description faite dans ce paragraphe permettra de mieux comprendre l’utilisation de
l’opérateur de diffusion généralisée pour le préconditionnement. Cet opérateur sera introduit
au chapitre (5). Dans certaines applications, notamment dans la prévision des écoulements
géophysiques, la matrice de covariance d’erreur d’ébauche peut être découpée en sous
ma-trices conduisant à une matrice bloc de taille n×n. La décomposition en blocs peut être
basée sur les propriétés physiques du système, mais aussi peut correspondre uniquement à
une décomposition logique ou les deux. La décomposition basée sur les propriétés physiques
correspond en général à une décomposition du domaine physique en sous-domaines
complé-mentaires [Courtier et al.(1998)] selon les propriétés du modèle dans chaque sous-domaine. Un
exemple courant est la séparation correspondant aux différences de comportement des modèles
météorologiques à différentes latitudes [Derber and Bouttier(1999)]. La décomposition logique
quant à elle correspond en général à une séparation du traitement des variables indépendantes
(la référence est faite ici aux variables du modèle continu et l’indépendance correspond à un
point donné du repère temps).
Illustration sur un modèle d’écoulement en eaux peu profondes
Le système d’équations décrivant les écoulements en eaux peu profondes (ou shallow water en
anglais) aussi connu comme le modèle de Saint-Venant, donne l’évolution sous la surface(libre
ou non) d’un fluide d’épaisseur négligeable par rapport à la largeur. Les variables du modèle
dans ce cas sont la vitesse et la pression (qui peut être réduite à la hauteur de la colonne
du fluide sous la surface). Dans un modèle de Saint-Venant en deux dimensions, la variable
vitesse est constituée de deux composantes, on obtient ainsi un modèle à trois variables, les
deux composantes de la vitesse (uetv) et la hauteur du fluide (h). Une décomposition logique
permet d’écrire la matrice de covariance d’erreur comme une matrice 3×3constituée de sous
matrices exprimée sous la forme :
B=
B
uuB
uvB
uhB
vuB
vvB
vhB
huB
hvB
hh
. (2.81)
La matrice en elle même n’est pas d’une grande importance, seule son application à un vecteur
est requise dans une application (x7→ Bx) ; pour les blocs de la diagonale, Weaver et
Cour-tier [Weaver and CourCour-tier(2001)] proposent l’utilisation d’un opérateur de diffusion dont une
approximation peut être donnée par une convolution gaussienne. Une autre approche consiste
à utiliser les filtres numériques [Purser et al.(2003)]. La partie diagonale que nous notons Bˆ
et qui constitue la partie univariée
5peut s’écrire :
ˆ
B= (Σ)diag(C
i)(Σ), (2.82)
où Σ représente la matrice diagonale des écarts types (erreurs), C
i= Λ
iL
iΛ
i, L
iétant
l’opérateur de diffusion de Weaver et Courtier ; Λ
iun opérateur de normalisation
permet-tant d’obtenir des valeurs unitaires sur la diagonale des matrices C
i. De façon simplifiée,
les relations croisées qui définissent la partie non diagonale ou multivariée (par opposition à
univariée) de la matrice de covariance B s’obtiennent par application à Bˆ d’opérateurs qui
défissent l’équilibre entre les différentes variables :
B=KBKˆ
T. (2.83)
L’opérateurKreprésente un tel opérateur d’équilibre. Dans un modèle de Saint-Venant, il peut
être remplacé par l’équilibre géostrophique. Cette construction facilite la factorisation par la
méthode de Cholesky de la matrice de covariance d’erreur ; suivant le schéma de construction
que nous venons de présenter, cette factorisation est donnée par :
B
12=K(Σ)C
12avec C
12=ΛL
12(2.84)
Rôle des opérateursL etK L’opérateurLcomme opérateur de diffusion, permet de faire
un lissage local. Il permet ainsi d’atténuer l’importance des incohérences locales ; il a un effet
régularisant. L’opérateurKpermet de transférer l’information d’une variable à une autre (cas
de la décomposition logique) ou bien d’une région du domaine physique à une autre (cas de
la décomposition physique) ; il permet de palier au problème de manque d’informations.
Dans le document
Assimilation d'images pour les fluides géophysiques
(Page 37-41)