• Aucun résultat trouvé

Problème inverse - Approche variationnelle

3.2 L’assimilation variationnelle de données

3.2.3 Méthodes locales et régularisation

M(x(k);k) = f(k), x(k) ∈ V (Problème direct) " ∂M ∂x #∗ e x=∂J ∂x(k0;x) (Problème adjoint) ∂j ∂k(k) = ∂J ∂k(k0;x) − " ∂M ∂k # e x= 0 (Condition d’optimalité) (3.16)

Remarque 3 Le problème de contrôle est un problème de minimisation de la

fonc-tion coût (3.2) sous la contrainte que l’état x soit solufonc-tion du problème (3.1). Ainsi, une fonctionnelle de type lagrangien réalisant la somme de la fonction coût et de la forme faible de l’équation (3.1) peut être introduite. Dans ce cas, l’état adjoint xe

s’identifie au multiplicateur de Lagrange associé à la contrainte modèle. Ce parallèle permet de déduire une autre méthode d’obtention du problème adjoint par l’applica-tion de condil’applica-tions nécessaires d’optimalité au premier ordre sur le lagrangien soit l’annulation de ses dérivées relativement au contrôle k et à l’état x. Pour plus de détails, on renvoie à [2] ou bien [124].

3.2.3 Méthodes locales et régularisation

L’identification ou reconstruction de paramètres, aussi appelée calibration de mo-dèle, s’applique aussi bien à des paramètres spatialement distribués sur le domaine Ω qu’à des paramètres localisés sur les frontières du domaine. Elle repose néces-sairement sur une méthode d’optimisation. En assimilation de données on distingue généralement deux types d’approches : l’approche stochastique (non traitée ici) basée sur des méthodes d’estimations bayésiennes et de filtrage, et l’approche variation-nelle ou déterministe. Par ailleurs, il est classique de distinguer en optimisation les approches globales (recherche de l’optimum sur tout l’espace des paramètres) et les approches locales (recherche d’un extremum dans un voisinage du point de départ). La première difficulté dans la recherche d’un extremum global provient du nombre de minima locaux qui croît généralement exponentiellement avec la taille et la com-plexité du problème ; la deuxième étant la faculté à déterminer si un extremum local donné est un extremum global (voir e.g. [171]). Ces considérations font que l’optimisation globale est généralement inenvisageable sur des problèmes de grande taille dont la physique non-linéaire, multiparamétrée, amène l’existence d’un très grand nombre d’extrema locaux. Dans un contexte de méthodes inverses, l’utilisa-tion d’algorithmes d’optimisal’utilisa-tion globale déterministes peut être trouvée dans [28] mais l’objectif est très spécifique (détermination de l’ensemble des extremas locaux

3.2. L’assimilation variationnelle de données et des points de bifurcation du problème) et la méthode lourde et complexe.

À l’inverse, l’optimisation locale permet l’utilisation d’algorithmes de descente (méthode de Newton ou quasi-Newton, méthode de gradient, ...) présentant des vitesses de convergence élevées (généralement superlinéaires, éventuellement qua-dratiques) et donc adaptés aux problèmes de grande dimension. De plus ils sont généralement couplés à des spécifications à priori sur l’espace de recherche ap-pelées contraintes (typiquement contraintes de bornes ou contraintes inégalités et contraintes de norme ou contrainte égalités) permettant de réduire le temps de cal-cul, le nombre de minima locaux et plus simplement la taille de l’espace de contrôle (voir e.g. [40]).

Cependant, le caractère local de la minimisation représente une limitation po-tentiellement importante de ce type de méthode.

La première conséquence est que la solution optimale calculée par la méthode dépend pleinement du point de départ faisant de l’initialisation de l’algorithme un élément crucial pour l’obtention d’un extremum de qualité. Cet aspect est notam-ment traité dans le chapitre 5 où l’on constate que l’identification de la constante rhéologique spatialement distribuée est fortement dépendante de l’initialisation.

Par ailleurs, comme signalé plus haut, la modélisation géophysique se confronte au problème de l’unicité d’un évènement donné dont on ne connaît que peu ou mal l’état du système qui y a mené. En glaciologie, les échelles de temps sont grandes, les processus naturels mis en jeu sont multiples dans leur physique et leurs échelles (e.g. de l’intéraction de la glace avec les courants océaniques à la variation locale de l’albedo) et définir par un jeu de paramètres l’état du système n’est pas réalisable de manière exhaustive. Ainsi, un modèle glaciologique donné (typiquement de dyna-mique de la glace), n’intégrera toujours qu’une partie de l’ensemble des processus à priori impliqués dans le système global. Cet aspect, couplé à la non-linéarité du pro-blème, aux erreurs matérielles sur les données et mesures et aux éventuelles approxi-mations multiples amenées dans la modélisation, mènent globalement à un problème peu régulier et présentant un très grand nombre de minima locaux, potentiellement très proches en terme de coût et pourtant issus de jeux de paramètres très diffé-rents. Cette caractéristique de modèles complexes à la paramétrisation incertaine est nommée équifinalité. Cette équifinalité rend potentiellement difficile le travail du modélisateur inverse dont l’objectif est la calibration d’un modèle et l’identification de paramètres ; dans le cas de résultats très éloignés, il est souvent envisageable de discriminer les différents jeux de paramètres issus de la méthode d’optimisation sur la base de considérations physiques. En revanche, il n’est pas rare d’obtenir un certain nombre de jeux de paramètres réalistes et de qualité similaire.

Algorithme de minimisation Dans le cadre de cette thèse, la minimisation de la fonction coût est effectuée à l’aide d’une méthode Quasi-Newton L-BFGS (Low memory-BFGS) utilisant la fameuse formule Broyden-Fletcher-Goldfarb-Shanno pour la mise à jour de l’approximation de la Hessienne avec une utilisation mémoire limi-tée, et plus particulièrement son implémentation au sein du module d’optimisation M1QN3 dévelopé dans [57]. Il est par conséquent adapté pour la résolution de pro-blème de minimisation sans contrainte de grande taille. La recherche du pas de descente est effectuée par une méthode de recherche linéaire satisfaisant les condi-tions de Wolfe. Le critère d’arrêt principal de l’algorithme est défini par un seuil sur la réduction de la norme du gradient. Comme nous le verrons, selon l’identification réalisée, la valeur de ce seuil peut être tout à fait différente (voir chapitre 5 et l’iden-tification de l’exposant rhéologique et de la consistance). On renvoie au manuel du module M1QN3 [56] pour le descriptif détaillé de la méthode.

Régularisation de Tychonov L’utilisation d’une méthode d’optimisation locale pour ce type de problème requiert l’utilisation d’outils annexes à l’optimisation “automa-tique” en vue d’obtenir un résultat fiable. Un premier, essentiel et présenté plus haut, est l’analyse de sensibilité. Un autre, efficacement couplé au premier, est le travail du modélisateur basé sur des connaissances physiques à priori sur le comportement du système. Cependant, les considérations énoncées plus haut reflètent le caractère mal

posé du problème de contrôle et la non-unicité de la solution optimale. Il est donc

nécessaire, pour l’algorithme d’optimisation, de fournir une fonctionnelle présentant de meilleures propriétés de convexité et de régularité. C’est le rôle de l’opérateur N introduit dans la fonction coût (3.2). Cet opérateur joue un rôle de régularisation du problème d’optimisation en privilégiant des jeux de paramètres ayant certaines propriétés (voir e.g. [124]). On parle de régularisation de Tychonov. L’opérateur N peut être la matrice identité, auquel cas la minimisation privilégiera les solutions de normes faibles, ou bien l’opérateur gradient ou laplacien, privilégiant des solutions présentant une bonne régularité. Ce terme de régularisation est le plus souvent in-dispensable pour obtenir la simple convergence de la minimisation. L’opérateur N intègre généralement un coefficient d’échelle γ permettant de régler l’intensité sou-haitée du terme de régularisation par rapport au terme de discrépance entre l’état calculé et les observations.

Principe de Morozov Le choix du coefficient γ est un problème non trivial qui peut reposer sur différentes considérations. Dans la suite de ce travail, on fera appel au principe de discrépance de Morozov pour le choix de la valeur de γ (voir [128]). Pour illustrer le principe, considérons la fonction coût suivante :

j(k) = 1

2ku(k) − uobs

3.2. L’assimilation variationnelle de données 100 101 102 103 104 105 Regularization parameter γ 10−1 100 M isfit Best misfit Optimal γ value Data error

Figure 3.1: Illustration du principe de discrépance de Morozov.

où u(k) désigne le champ de vitesse du fluide et uobs des observations in-situ de ce champ de vitesse. Les observations uobs sont supposées entachées d’une erreur de 1%. Le terme j1 appelé discrépance quantifie l’écart entre les vitesses calculées et les observations. Le terme j2 appelé terme de régularisation pénalise le coût pour les contrôles k présentant des oscillations importantes. Le principe de Morozov pour le choix de γ se fonde sur l’idée (de bon sens) que l’on ne souhaite pas, à travers notre processus d’optimisation, obtenir un contrôle k réalisant une discrépance j1

inférieure à la qualité des données (on parle dans ce cas de sur-ajustement). Dans cet exemple, cela revient à dire que l’on cherche un contrôle k tel que l’on ait, au mieux :

ku(k) − uobsk2

kuobsk = 0.01

La méthode est alors la suivante : sur la base d’un problème pleinement connu, on réalise l’identification de paramètres pour plusieurs valeurs de γ (généralement pour une progression logarithmique, i.e. en faisant varier γ sur plusieurs ordres de

grandeurs). On obtient pour chaque valeur de γ une discrépance finale j1 dont le

comportement attendu est que j1 soit d’autant plus faible que γ est faible. L’ap-plication de la méthode est alors généralement présentée graphiquement. On trace dans un repère loglog la discrépance finale j1 en fonction de γ ainsi qu’une droite horizontale représentant le niveau de précision des observations (ou de manière simi-laire la meilleure discrépance j1accessible). Le principe de Morozov stipule alors que la meilleure valeur pour γ est réalisée à l’intersection entre la courbe des différentes discrépances et le niveau d’erreur sur les observations. La démarche est illustrée sur la figure 3.1.