• Aucun résultat trouvé

Afin de mettre en avant les atouts de rapidité de la méthode, le laboratoire PHASE expérimente depuis quelques années l’application à la vélocimétrie par imagerie des particules, à laquelle nous référerons par son acronyme anglais, PIV (Particle Image Velocimetry). Elle consiste à déterminer le champ de vitesse d’un fluide à partir du suivi de la position de différentes particules immergées dans ce fluide. Habituellement, la position des particules est déterminée de façon optique, ce qui implique souvent un coût matériel assez élevé à cause de l’utilisation de caméras CCD dédiées. Par ailleurs, cette méthode restreint à une utilisation à des milieux non opaques à la lumière. L’unique inconvénient inhérent aux ultrasons est une cadence d’acquisition moins élevée à cause de la vitesse du son, et dépend de la profondeur du milieu. En milieu turbulent, l’imagerie ultrason reste difficile à cause d’une cadence d’acquisition très élevée et de l’apparition de phénomènes non linéaires. Ainsi, la PIV par ultrasons se positionne comme une alternative économique par rapport à son analogue optique. Les hypothèses de la méthode FTIM s’adaptent particulièrement

Figure 2.17 – Détermination du champ de vitesse à partir de la position des particules. Cette étape, codée par S. Rodriguez sur Matlab, devrait prochainement être transposée sur GPU.

bien à ce problème, car la vitesse du son dans le fluide est bien connue et les particules sont suffisamment peu denses et petites pour que l’approximation de Born soit acceptable. Pour les acquisitions, nous avons utilisé une barrette échographique Imasonic de 128 transducteurs avec une fréquence centrale de 5MHz. Le convertisseur analogique-numérique Lecœur Electronique permet le traitement simultané de 32 canaux, ce qui restreint à utiliser 32 transducteurs. Avec une fréquence d’échantillonnage maximale de 80MHz, le signal numérisé respecte les conditions imposées par le théorème de Shannon. Plusieurs expérimentations ont été réalisées, tout d’abord avec de la béatite, puis avec des particules dédiées de PIV optique. Les résultats sont présentés sur la figure 2.3. A cause de la carte d’acquisition, les données enregistrées n’ont pas pu être envoyées en temps réel vers l’ordinateur et donc de réaliser concrètement l’imagerie en temps réel. Cet inconvénient devrait être contourné à l’avenir avec l’utilisation d’une carte d’acquisition compatible avec le temps réel.

Enfin, la partie calcul du champ de vitesse à partir de deux images n’a pas encore été implé- mentée sur GPU, et interfacée avec le code FTIM. La façon la plus conventionnelle de procéder est de découper en plusieurs petites fenêtres ces deux images, et de corréler les différentes fenêtres. A 2D, cette corrélation, effectuée dans le domaine de Fourier, a un coût de calcul proportionnel à N2log(N) en utilisant un algorithme de type FFT. Pour la configuration utilisée lors des ex-

périences, cela revient à devoir faire entre 5 et 50 millions d’opérations pour calculer ce champ de vitesse, ce qui est très inférieur au nombre d’opérations nécessaires pour le calcul des images. Ainsi, la perspective du temps réel pour la PIV à 2 voire 3 dimensions est totalement envisageable, et devrait être l’objet d’un futur travail.

L’inversion de la forme d’onde

complète

L’inversion de la forme d’onde complète, à laquelle nous référerons par son acronyme anglais, FWI (Full Waveform Inversion), est une technique d’imagerie quantitative issue de la géophysique. En toute généralité, la FWI peut être vue comme une méthode d’assimilation de données, où les données observées sont incorporées avec un traitement mathématique rigoureux à un modèle numérique décrivant la réalité. Mathématiquement, elle repose sur la minimisation itérative de l’écart entre données réelles et données simulées numériquement, en modifiant localement les propriétés physiques du milieu qui influencent la propagation d’onde. Cette méthode a été initiée par les travaux de Claerbout en 1971 [35], qui visaient à reconstruire à partir de données en réflexion les couches des réservoirs de pétrole situés dans le sous-sol. En 1984, Tarantola [36] a exprimé à nouveau le problème en n’impliquant que le calcul de deux champs acoustiques par source et par itération. Cependant, en dépit de cette reformulation, le coût numérique de ce calcul est resté très longtemps prohibitif même à deux dimensions. De plus, l’utilisation de données essentiellement en réflexion n’a pas apporté les résultats escomptés : au lieu de reconstruire une carte de densité et de module de compression, ces méthodes ont montré en pratique qu’elles permettaient de retrouver les interfaces internes du milieu. Ainsi, on réfère à ces deux travaux fondamentaux comme principe d’imagerie, ou technique de migration. A cause du temps de calcul, des modèles de propagation basés sur l’équation eikonale ont d’abord été utilisés et des résultats pertinents sur la structure globale de la Terre à une dimension ont été obtenus, grâce à l’utilisation d’ondes en transmission. Puis, avec l’évolution progressive de la puissance de calcul, l’utilisation de modèles plus réalistes ont permis d’incorporer les effets 2D et 3D, mais aussi de prendre en compte l’aspect fini des fréquences des ondes sismiques. La compréhension de l’intégralité du contenu des sismogrammes est devenue possible et interprétable, et c’est en ce sens que l’on emploie le terme inversion de la forme d’onde complète.

L’objectif de ce chapitre est de présenter la FWI. La formulation mathématique du problème d’optimisation ainsi que les différentes techniques amenant à sa résolution seront exprimées. En- suite, nous verrons les éléments clés de l’inversion, qui influent d’une part sur la capacité à conver- ger vers la solution la plus proche de la réalité en dépit de la forte non linéarité du problème et de la non-unicité possible de la solution, et d’autre part sur la vitesse à laquelle il sera possible de converger vers la solution, qui s’avère en pratique être aussi un facteur critique étant donné la taille du problème et le coût numérique associé. Ces facteurs peuvent être liés à la fois au problème mathématique d’optimisation en lui-même, mais aussi être spécifiques à l’implication de l’équation d’onde. Enfin, comme cette méthode fait intervenir la simulation numérique de la propagation d’onde et que la précision avec laquelle elle est simulée joue également un facteur déterminant, nous décrirons la méthode numérique employée.

3.1

Théorie

Mise en équation du problème

Tout comme pour la formulation du problème d’optimisation topologique décrit au début du chapitre précédent, la FWI repose sur la minimisation d’une fonction f(m) qui évalue l’écart entre données réelles pobs(xi, t) et données simulées psyn(xi, t, m), ce qui s’exprime :

min f(m) = 12 Nrec X i=1 Z T 0 pobs(xi, t) − psyn(xi, t, m) 2 dt (3.1)

De même, la modification locale et itérative d’un ou de plusieurs paramètres physiques m du modèle du milieu à imager est le moteur de cette minimisation, et la combinaison finale de chaque paramètre, qui s’apparente à une carte spatiale des paramètres en question est l’image recherchée. Dans le cas de l’optimisation topologique, le paramètre utilisé est la topologie Ω du milieu, et l’image obtenue définit la forme des bords et des trous tels qu’ils sont dans la réalité. Pour la FWI appliquée en géophysique, les paramètres physiques sont des grandeurs continues telles que la densité ρ(x), le tenseur d’anisotropie cijkl(x) ou l’atténuation α(x) du milieu. Dans

les deux cas, la propagation d’onde influence les données, ce qui se traduit mathématiquement par un problème d’optimisation contraint par une équation aux dérivées partielles. Dans le cas de l’acoustique linéaire, avec la vitesse de compression c et la masse volumique ρ comme fonctions de la position x, en introduisant le module de compressibilité isotrope κ = ρc2, et en définissant

un potentiel scalaire Φ à partir du déplacement s :

s= ∇Φ

ρ (3.2)

Cette définition inhabituelle du potentiel à partir du déplacement est héritée de l’origine géo- physique de cette méthode, qui permet une écriture simplifiée des phénomènes de couplage entre milieux fluide et solide.

On définit alors l’équation d’onde suivante, dont la pression est la dérivée seconde :        psyn(xr, t) = −∂t2Φ(xr, t) κ(x)−1∂t2Φ − ∇ (ρ(x)−1∇Φ) = Ns X s=1 κ(xs)−1fs(t) (3.3) Les termes sources fs(t) sont des sources de pression, ce qui correspond par ailleurs à la nature

physique des données enregistrées, et montre la pertinence de cette formulation en potentiel. Le cas échéant, une double dérivation numérique des signaux enregistrés aurait été nécessaire, ce qui aurait augmenté le bruit numérique.

On pourra remarquer que l’implication de l’équation d’onde avec des cartes de paramètres c(x),

ρ(x) ou κ(x) rend le problème d’optimisation non convexe. De plus, la relative liberté quant au

nombre de sources, leur position spatiale et la durée des signaux enregistrés influence largement la possibilité à obtenir la vraie solution. Si la réalisation pratique de l’expérience permet d’affirmer l’existence de la solution en supposant l’absence de bruit expérimental, l’unicité n’est pas garantie non plus, à cause de la non convexité du problème.

Résolution du problème inverse

Choix de la méthode de résolution

De façon générale, le coût numérique d’évaluation de la fonction coût joue un rôle primordial dans le choix de l’algorithme à utiliser. Normalement, pour un problème non convexe comme ici, les algorithmes d’optimisation globale, tels que des méthodes stochastiques ou heuristiques, sont en pratique les plus efficaces quant à la convergence vers l’un des optima globaux. Cependant,

ces derniers impliquent un très grand nombre d’évaluations de la fonction coût et/ou de son gra- dient, ce qui les rend inutilisables de façon pratique dès lors que cette évaluation se chiffre en minutes ou plus. Ici, l’évaluation de la fonction coût est très coûteuse car elle n’est pas obtenue de façon analytique ou semi-analytique, comme cela aurait pu être le cas si le milieu de départ était homogène, mais que seul les méthodes numériques permettent d’inclure proprement dans le calcul de la fonction coût l’ensemble des conditions aux limites, ainsi qu’une carte spatiale poten- tiellement variable de l’ensemble des paramètres impliqués dans l’équation d’onde. L’utilisation de ces méthodes numériques pour évaluer la fonction coût, qui dans notre cas est un simulateur de propagation d’onde, est systématiquement coûteuse en temps de calcul, et inévitable ici. Pour limiter le nombre d’estimations de la fonction coût, le seul moyen est de passer par des méthodes d’optimisation locale, de type descente. Le principal inconvénient est lié au caractère local de l’optimisation, qui dans le cas d’un problème non linéaire et non convexe se traduit par le risque fort de converger vers un minimum local et non global. Étant donné la forte non convexité du problème, on peut se représenter la fonction coût comme étant une planète entièrement remplie de montagnes, et l’optimisation locale consiste à descendre vers le lac ou la vallée la plus proche, en fonction de la position initiale choisie, alors que l’on souhaite trouver le point de plus basse altitude existant. Ainsi, sans reformuler plusieurs fois au cours de l’algorithme le problème d’optimisation afin de diminuer le niveau de non-linéarité, la convergence est impossible, et nous verrons no- tamment que la connaissance du problème physique concerné est d’une importance cruciale pour formuler les bonnes hypothèses.

A présent, nous allons voir les principales méthodes de descente, qui permettent la résolution du problème d’optimisation locale. Elles s’expriment autour de la formulation suivante :

(

x0 est donné

xk+1= xk− αkdk

(3.4) où xk est la suite d’itérés qui doit converger vers le minimum, αk est le pas de descente et dk

la direction de descente.

La différence entre les méthodes que nous allons présenter réside dans le choix de la direction de descente et du pas.

Méthodes de type gradient

La première famille de méthodes consiste à utiliser le gradient ∇f(x) comme direction de descente. En effet, son action sur la fonctionnelle est optimum à l’ordre 1 dans le sens où :

(−∇f(x))T∇f(x) ≤ dT∇f(x) ∀d ∈ Rn tel que ||d|| = ||∇f(x)|| (3.5)

Différentes stratégies sont possibles quant au choix du pas α : avec une certaine connaissance du problème, on peut simplement fixer un pas constant pour toutes les itérations. La recherche du pas peut elle même être vue comme un problème d’optimisation visant à résoudre :

min

αk>0

(xk− αk∇f(xk))) (3.6)

La méthode correspondante, dite de pas optimal, ou de plus grande pente (steepest descent) , peut de prime abord paraître la plus plus intéressante dans la mesure où elle minimise le plus la fonction coût. En pratique, cette méthode est considérée comme mauvaise car elle ne converge que très lentement : par construction, deux directions de descente successives sont orthogonales, et il résulte une trajectoire de descente qui peut s’apparenter à de multiples ’zig-zag’. Pour la recherche du pas de descente, les conditions de Wolfe [37] sont reconnues comme étant les plus efficaces et sont utilisées par la plupart des algorithmes d’optimisation. Elles sont applicables pour tout type d’algorithmes de descente et s’articulent autour des deux conditions suivantes :

— La condition d’Armijo, qui permet d’éviter de choisir un pas trop grand, reformule la condi- tion de décroissance de la fonction coût d’une itération à l’autre ainsi :

— La condition de courbure évite de choisir un pas trop petit :

dTk∇f(xk+ αkdk) ≥ c2dTk∇f(xk) avec 0 < c2 <1 (3.8)

Lorsque ces conditions sont utilisées ensemble, on veille aussi à respecter la condition c1< c2

Dans la pratique, on choisit souvent c1= 10−4 et c2= 0.99.

L’utilisation du gradient comme direction de descente assure la convergence locale vers l’op- timum, mais la vitesse de convergence associée reste souvent assez faible. Dans la pratique, cet algorithme est apprécié pour sa simplicité de mise en œuvre, mais son utilisation est plutôt destinée aux problèmes de petite dimension. Pour des problèmes impliquant une fonction coût quadratique, de type f(x) = xTAx − bTx, une version modifiée de la descente de gradient existe : la méthode du

gradient conjugué. La direction de descente choisie utilise le gradient de l’itération courante, mais aussi ceux des itérations passées, et en utilisant le procédé d’orthogonalisation de Gram-Schmit :

∀k ≥1, dk = −∇f(xk) + k−1 X j=1 αk,jdj , avec αk,j = h∇f(xk), diiA hdi, diiA . (3.9)

La force de la méthode est de pouvoir converger vers l’optimum en un nombre d’itérations inférieur à la dimension du problème. Cependant, pour des problèmes de très grande dimension, et où le calcul du gradient est plus long, cette méthode souffre toujours d’une vitesse de convergence trop faible, qui est linéaire.

Méthodes de type Newton

Les méthodes de type Newton présentent l’avantage de converger bien plus rapidement vers l’optimum. Elles utilisent la condition d’optimalité :

∇f(xopt) = 0 (3.10)

La recherche des points où la dérivée s’annule est mise en œuvre avec la méthode de Newton, qui vise à résoudre l’équation g(x) = 0, à partir de la relation de récurrence :

xk+1 = xk− Dg(xk)

−1

g(xk) (3.11)

où Dg est la matrice jacobienne de g.

La combinaison de la condition d’optimalité 3.10 et de la méthode de Newton 3.11 mène à :

xk+1= xk− H[f](xk)−1∇f(xk) (3.12)

Dans le cas général, la condition d’optimalité 3.10 qui est nécessaire ne devient suffisante que si le problème est convexe, ce qui n’est pas notre cas. Cela implique que l’algorithme ne différencie pas les maxima, minima ou points stationnaires, et qu’ainsi la convergence même locale n’est pas assurée comme avec les méthodes de type gradient. Par ailleurs, la construction et le stockage mémoire de la hessienne s’avère être impossible pour des problèmes de grande dimension. Pour pallier ce problème, des approximations de la hessienne sont utilisées, et on parle alors de méthodes de quasi-Newton dans ce cas.

On peut par exemple exprimer le produit hessienne-direction de descente à partir d’un déve- loppement limité :

∇f(xk+1) = ∇f(xk) + H[f](xk+1)(xk− xk+1) + o(xk− xk+1) (3.13)

On peut alors déduire une approximation Hk+1 de la hessienne :

Pour un problème de dimension N, seules N équations sont posées par le produit matrice vecteur alors que la hessienne contient N2 termes, et le problème est sous-déterminé. En 1965,

Broyden [38] eut l’idée de choisir la hessienne Hk+1 en fonction de la hessienne Hk calculée à

l’itération précédente, en résolvant le problème des moindres carrés : min

Hk+1

||Hk+1− Hk||2 sous les contraintes : 3.14 et Hk+1T = Hk+1 (3.15)

La contrainte de symétrie a été rajoutée car la hessienne réelle l’est aussi, ce qui réduit aussi la dimension du problème. En fonction de la norme employée pour ce problème de moindres carrés, plusieurs méthodes peuvent être déduites. La plus utilisée, nommée BFGS (qui vient du nom de ses créateurs Broyden-Fletcher-Golfarb-Shannon), utilise la norme matricielle :

||X||W = ||W 1 2XW 1 2|| F (3.16)

avec W une matrice symétrique inversible vérifiant : ∇f(xk+1) − ∇f(xk) = W (xk+1− xk) et

où F est la norme de Frobenius qui se définit ainsi :

||X||= tr(XTX)12 (3.17)

Après quelques manipulations algébriques, on peut exprimer la solution ainsi :            Hk+1−1 = I −σky T k yT kσk  Hk−1 I −ykσ T k yT kσk  +σkσTk yT kσk σk = xk+1− xk yk = ∇f(xk+1) − ∇f(xk) (3.18) Avec une écriture de cette forme, la construction de la hessienne est toujours nécessaire, dont le coup reste prohibitif. Dans la pratique, une version dénommée L-BFGS (pour Limited memory BFGS) est utilisée, car elle n’utilise pas directement la matrice hessienne ou son inverse, mais simplement les gradients d’un certain nombre d’itérations précédentes afin de calculer le produit entre l’inverse de la hessienne et le gradient.

On pourra remarquer que cette formulation effectue plusieurs approximations : l’action de la hessienne est construite uniquement à partir des gradients, donc de l’information d’ordre un, et le problème 3.15 est posé comme si les coefficients de la hessienne étaient identiques d’une itération à l’autre, alors qu’ils dépendent du point xk. Néanmoins, dans la pratique, l’utilisation

de l’algorithme L-BFGS montre des résultats de convergence significativement plus rapides que pour les méthodes de type gradient, et la convergence quadratique semble vérifiée [39]. C’est cette méthode qui sera utilisée par la suite.

Calcul et considérations sur le gradient

Comme nous venons de le voir, la résolution du problème inverse passe par les algorithmes d’optimisation locale qui utilisent le gradient. Comme nous l’avons évoqué, l’utilisation d’une carte de paramètres physiques a priori hétérogène empêche tout calcul semi-analytique, et l’uti- lisation d’une méthode numérique de résolution est inévitable. Une solution naturelle peut être une approche de type différences finies, en considérant :

∇f(x).δx ≈ f(x + δx) − f(x)

 (3.19)

En procédant ainsi, la fonction coût f(x) doit être évaluée autant de fois qu’il n’y a de pa- ramètres physiques, ce qui implique autant de simulations numériques, et rend le coût de calcul prohibitif dès lors que ces paramètres physiques sont définis dans l’espace. La méthode type dif- férences finies a toutefois pu être mise en pratique en FWI pour obtenir le tenseur des moments de sources sismiques [40], grâce au faible nombre de paramètres à retrouver.

La méthode de l’adjoint, introduite en 1974 par Chavent [41] permet de calcul le gradient de la fonction coût en s’affranchissant du calcul de l’ensemble des dérivées de Fréchet des variables d’état, qui sont ici les données simulées, par rapport aux paramètres du modèle. Sans ces dérivées de Fréchet des variables d’état, le nombre de simulations nécessaires n’est plus proportionnel au nombre de paramètres du milieu. A la place, seules deux simulations numériques sont nécessaires. Nous allons aborder les détails de cette méthode à partir du point de vue Lagrangien, mais son interprétation est également possible à partir de la théorie de la perturbation [42].

La méthode lagrangienne part du problème d’optimisation de la fonctionnelle J(m; y) sous contrainte générique F (m; y), exprimé à partir des variables m, y et λ, qui représentent respecti- vement les paramètres du modèles, les données simulées et l’état adjoint qui sera caractérisé par la suite. On peut alors formuler le problème ainsi :

L(m; y, λ) = J(m; y) + hF (m; y)|λi (3.20) Les conditions d’optimalité s’expriment alors :

     ∂mL(m; y, λ).δm = 0 ∂yL(m; y, λ).δy = 0 ∂λL(m; y, λ).δλ = 0 (3.21) On note M = κ(x), ρ(x)

les cartes des paramètres recherchés et {Psyn ∈ RNdim ×[0; T ] ×

F(Ω)2Nrec

|Psyn(i) = psyn(xi, t, M)} le vecteur rassemblant les Nrec observations effectuées de 0

à T secondes, xi la position du ième récepteur, et F(Ω)2 l’espace fonctionnel (espace de fonctions

a priori non continu) auquel appartient M. Nous allons exprimer le problème en fonction des paramètres κ(x) et ρ(x) mais pas de c(x), afin que l’expression de la perturbation δM ne soit pas trop laborieuse à écrire algébriquement. Comme nous nous intéresserons par la suite à l’obtention d’une carte de vitesse c(x), on déduira l’expression algébrique de la perturbation δc grâce à la relation c = qκ

ρ. Il est important de comprendre que le choix des paramètres est ici motivé par

Documents relatifs