• Aucun résultat trouvé

2.9 Conclusion

3.1.2 Méthodes locales de résolution du problème inverse

Théorie générale d’après Tarantola (1987)

La plupart des méthodes locales de résolution du problème inverse sont basées sur l’approche de Tarantola (1987). Il s’agit de résoudre le problème direct de manière itérative, à l’aide d’une inversion linéaire ou linéarisée. Cette inversion repose sur la connaissance du gradient de la fonction coût, donnant la direction de plus grande pente. Son opposé donne le sens de descente vers le minimum voisin. De plus, dans certains cas, le Hessien peut également être calculé. Il contient la courbure de la fonction coût. Nous allons maintenant formaliser ces notions en suivant l’approche de Tarantola (1987).

La relation générale entre le modèle m et les données d peut être exprimée à l’aide de la fonction non linéaire g telle que :

d= g(m). (3.1)

La fonction coût peut être exprimée par : E(m) = 1

2(g(m) − dobs)

(g(m) − dobs), (3.2)

où dobs représente les données observées et d = g(m) représentent les données calculées dans le

modèle m. Le symbole † correspond à l’opérateur adjoint. Cette fonction peut être pondérée de

manière à accroître l’importance de certaines données (Operto et al., 2004). Les différences entre données observées et calculées se nomment les résidus et sont notés ∆d.

Dans l’approche de Tarantola (1987), la fonction coût est développée au deuxième ordre autour du modèle initial m0 à l’aide d’un développement de Taylor-Lagrange :

E(m0+ δm) = E(m0) + ∇mE(m0)δm + 1/2δm†H(m0)δm, (3.3)

où δm = m − m0 est l’écart entre le modèle initial et le modèle m, le gradient est noté ∇mE et

le Hessien H. Cette approximation nécessite que le modèle de départ m0 soit proche du minimum

recherché. Dans le cas contraire, l’algorithme peut converger vers un minimum secondaire, comme le montre la figure 3.2.

Dans l’approche linéaire, ce développement est considéré comme exact et la fonction coût est parabolique. En revanche, dans l’approche non linéaire, ce développement est une approximation et la fonction coût est considérée comme localement parabolique. Nous détaillons ici la méthode générale de l’inversion non-linéaire. La démarche est également valable pour l’inversion linéaire.

H(m0)δm = −∇mE(m0). (3.4)

Les dérivées de Fréchet sont notées B0 = (∂g/∂m)(m0). La taille de B0 est donc p ∗ n où p est le

nombre de paramètres et n le nombre de données. En dérivant l’équation 3.2 par rapport au modèle m, nous obtenons : ∇mE(m) = { ∂g ∂m} † (g(m) − dobs). (3.5)

Lorsque m = m0, le premier terme du membre de droite est l’opérateur adjoint des dérivées de

Fréchet et le second correspond aux résidus des données ∆d. Donc le vecteur gradient peut être exprimé par l’opérateur adjoint B†

0 appliqué aux résidus ∆d (Tarantola, 1987). Le gradient de la

fonction coût donne la direction de descente pour minimiser la fonction coût.

En dérivant encore une fois la fonction coût par rapport au modèle m, nous obtenons l’expression du Hessien : H(m) = { ∂ 2g ∂m2} † (g(m) − dobs) + { ∂g ∂m} † ∂g ∂m. (3.6)

Le premier terme est généralement supprimé dans les inversions non linéaires (Tarantola, 1987), puisqu’il est négligeable sur les résidus sont faibles ou si le problème est peu non linéaire. De plus, ce terme est très coûteux à calculer. Nous ne conservons donc que le second terme B†

0B0 dans

l’espace des modèles (Pratt et al., 1998).

Nous obtenons ainsi les équations normales :

ℜ[B0†B0]δm = ℜ[B0†∆d], (3.7)

où ℜ est la partie réelle.

L’utilisation de la partie réelle permet de prendre le conjugué de l’expression et d’obtenir :

ℜ[B0†∆d] = ℜ[B0t∆d∗], (3.8)

où Bt

0 est la transposée de B0 et les résidus rétropropagés sont notés ∆d∗. Nous verrons la signifi-

cation de ce terme pour l’inversion des formes d’onde dans la section 4.1.3. De même, nous pouvons écrire :

ℜ[B0†B0] = ℜ[B0tB0∗] (3.9)

Nous verrons également la signification physique de ce terme pour l’inversion des formes d’onde dans la section 4.4.4.

Ainsi, en utilisant les équations 3.8 et 3.9, l’équation 3.7 devient :

ℜ[B0tB∗0]δm = ℜ[B0t∆d∗], (3.10)

Méthodes de Newton, Gauss-Newton, du gradient et du gradient conjugué

Méthode de Newton et de Gauss-Newton B0†B0 renseigne sur la quantité dont il faut se

déplacer dans l’espace des modèles pour atteindre le minimum, i.e. sur le pas de descente. Il correspond à un opérateur de filtre spatial, prenant en compte les effets de bande passante limitée et d’extension limitée du dispositif (Lambaré et al., 2003; Pratt et al., 1996).

Lorsque l’expression complète du Hessien est utilisée (équation 3.6), l’inversion est dite "full Newton" (Tarantola, 1987). Lorsque seule la partie B†

0B0 du Hessien est utilisée, c’est une inversion

de Gauss-Newton (Tarantola, 1987).

La matrice B†0B0 contient (p ∗ m) ∗ (p ∗ m) coefficients. Dans les cas réels, cette matrice a donc

une taille considérable. De plus, lorsque le nombre de degrés de liberté est important, l’inversion de cette matrice devient très complexe. Dans de nombreux cas, seule la partie diagonale de B†

0B0

3.1 Méthodes générales de résolution du problème inverse non linéaire 101 Méthode du Gradient La méthode du gradient consiste à considérer que B0†B0 est égale à

αI où α est un scalaire et I est la matrice identité (Tarantola, 1987). Le pas de descente α, qui remplace le Hessien, peut être trouvé par essai-erreur ou par recherche linéaire (Tarantola, 1987). Méthode du Gradient conjugué Polak (1971); Mora (1988); Luo & Schuster (1991); Pica et al. (1990); Kormendi & Dietrich (1991); Mulder & Plessix (2004) utilisent une méthode de gradient conjugué pour trouver le minimum de la fonction coût. D’après Tarantola (1987), l’idée est la suivante. Etant donnés un modèle initial m0 et le gradient correspondant γ0, le modèle m1 est

trouvé le long de la direction de γ0. Au lieu de chercher m2 le long de la direction de γ1, m2 est

recherché dans le sous-espace généré par γ0et γ1. Cette méthode permet d’accélérer la convergence

vers le minimum (Tarantola, 1987). Inversion linéaire ou linéarisée

Inversion linéaire Dans l’inversion linéaire, la fonction coût (équation 3.3) est considérée comme parabolique. Le modèle m0, utilisé comme modèle initial, est conservé tout au long des itérations.

Dans ce cas, B0 est constant. Le modèle m à l’itération l est calculé selon :

ml+1 = m0− (ℜ[B

0B0])−1ℜ[(B0t)∆d∗l], (3.11)

Ainsi, les différentes contributions des inversions s’ajoutent pour atteindre le modèle final, corres- pondant à un minimum.

L’équation 3.11 (ou 3.7) peut être résolue à l’aide de méthodes itératives spécifiques, comme la méthode LSQR (Paige & Saunders, 1982) ou la méthode GMRES (Fraysse et al., 1997, 1998; Frayssé et al., 2003).

La méthode LSQR (Paige & Saunders, 1982) permet de résoudre un système du type AX = b, où A et b sont connus et X est l’inconnue. Cette méthode est basée sur une technique de gradient conjugué. La matrice A contient en réalité le gradient ou l’inverse du Hessien multiplié par le gradient. Des matrices de corrélation et de lissage peuvent également être ajoutées au système (Ravaut, 2003).

La méthode GMRES résout le même système pour une matrice A définie positive et est basée sur la décomposition de l’espace des modèles en domaines de Krylov (Fraysse et al., 1997, 1998; Frayssé et al., 2003).

Ce genre de méthode est utilisée en sismique par exemple par Snieder (1986); Snieder et al. (1989); Ikelle et al. (1988); Cao et al. (1990); Ravaut (2003); Tarantola (1984b).

Inversion linéarisée Dans l’inversion non linéaire, la fonction coût n’est pas quadratique. L’équa- tion 3.3 est seulement une approximation locale parabolique de la fonction coût. Pour le calcul du modèle m à l’itération l, Le modèle m0 est égal au modèle de l’itération précédente ml.

Calcul de la dérivée de Fréchet

La dérivée de Fréchet, i.e. la matrice B0 peut être calculée de deux manières principalement. Il

est tout d’abord possible d’utiliser les différences finies et d’écrire : B0 =

∂g ∂m =

g(m + δm) − g(m)

δm (3.12)

Cette technique a été employée par Ji & Singh (2005). Cependant, elle s’avère coûteuse généralement et est donc peu utilisée.

Une autre possibilité consiste à effectuer des approximations basées sur des considérations phy- siques. Par exemple, dans l’approximation de Born (Dietrich & Kormendi, 1990; Lambaré et al.,

tesses de déplacement sont linéairement reliées (Lambaré et al., 1992; Pratt et al., 1996). Dans l’approximation de Rytov, les perturbations des paramètres du milieu sont reliées linéairement aux perturbations des phases des vitesses de déplacement (Woodwards, 1992; Spetzler & Snieder, 2004). Dans ces deux cas, chaque point du milieu est considéré de manière indépendante par rapport aux autres points : chaque point émet un champ secondaire, correspondant au champ diffracté, en sui- vant le principe de Huyghens. Ainsi, une interface est considérée comme la juxtaposition de points diffractants.

Ceci s’oppose à l’approximation de Kirchhoff (Bleistein, 1987) dans laquelle les diffractants sont reliés continûment les uns aux autres et forment une interface qui réfléchit globalement les ondes. Tous les points de l’interfaces participent au champ réfléchi, que la réflexion soit spéculaire ou diffuse.