• Aucun résultat trouvé

Inversion par chaîne de Markov

4.2 Inversion de données synthétiques sur une surface

4.2.4 Inversion par chaîne de Markov

Nous avons présenté jusqu’à présent deux techniques similaires de résolution de problèmes inverses largement employées en géophysique et qui ont rapidement montré leurs limites pour la résolution des données magnétiques par le formalisme des harmoniques sur calottes sphériques. Les différentes techniques d’inversion précédentes ont toutes montrées que dans le cas d’une répartition homogène des données sur une calotte il n’était pas possible de rechercher l’ensemble des coefficients nécessaires à la modélisation du champ à la précision requise de 5nT . Puisque nous ne pouvions pas les déterminer, nous espérions pouvoir les estimer dans un sens probabiliste par une inversion par chaîne de Markov. Cette détermination n’a pas été possible pour les raisons que nous évoquons plus bas et les considérations qui suivent illustrent surtout certaines caractéristiques de SCHA que l’on peut déduire des chaînes de Markov.

Formulation de la chaîne de Markov

D’une manière générale, on suppose que les valeurs vraies m des paramètres d’un modèle (4.4) se trouvent dans l’intervalle :

minf ≤ m ≤ msup (4.7)

Si nous n’avons aucune idée de ces paramètres, l’intervalle d’exploration est R. En pratique, nous devons le restreindre et il représentera par conséquent une première information a priori sur le modèle qu’il faudra choisir de la façon la moins restrictive possible.

En considérant que les paramètres m recherchés sont les coefficients de Gauss, on construit la chaîne de Markov de la façon suivante :

Dans le formalisme des chaînes de Markov, les paramètres m sont considérés comme des variables aléatoires que l’on recherche par une loi de probabilité conditionnelle. Les paramètres sont déterminés à condition de connaître les données. Cette loi a posteriori est donnée par une loi de Bayes (1763) :

Ppost(m = µ/d = dobs) = P (d = dobs/m = µ) Pprior(m = µ)

µ∈Ω

P (d = dobs/m = µ) Pprior(m = µ) (4.8)

où Ω est le domaine discret de tous les paramètres inclus dans RN et N le nombre de paramètres. Cette expression de la loi a posteriori est fonction de la loi a priori sur les paramètres Pprior(m = µ). Dans le contexte bayesien, la résolution du problème inverse revient à déterminer la loi a posteri par une modification de la loi a priori en connaissant les données ([41]).

Dans notre cas, la loi a priori sera donnée par un échantillonnage dans l’intervalle (4.7) en supposant que chaque état discret de la variable mi est équiprobable et que le paramètre recherché est contenu dans l’intervalle.

Le dénominateur de l’expression (4.8) requiert un nombre de calculs impossible à atteindre en pratique. Une manière élégante de contourner cette difficulté est de calculer la loi a posteriori comme la loi d’équilibre d’une chaîne de Markov ([88]). Cette loi d’équilibre est elle-même la limite d’une loi de transition Ptr. Il existe plusieurs algorithmes pour les lois de transition, notamment les algorithmes de Hasting-Métropolis et de Gibbs. Nous avons choisi l’algorithme de

4.2. Inversion de données synthétiques sur une surface 49

Gibbs qui nécessite une discrétisation préalable des paramètres midans l’intervalle d’exploration. La loi de transition s’écrit :

Ptr  mi, m−i = Ppost  mi, m−i N  i=1 Ppost  mi, m−i (4.9)

et m−i représente le sous espace des paramètres m moins le paramètre mi. Dans le cas d’une loi a priori Pprior uniforme, la loi de transition Ptr est essentiellement la loi :

P

d = dobs/mi= µ−i, mi



Sachant que nous avons choisi une loi de Gauss pour les données, on a :

Ptr  mi, m−i = Ke−Ψ2/(2σ2) (4.10) où Ψ2 =!dobs− Am!2

et σ la variance de la loi normale de l’erreur ε. Comme notre problème est linéaire, on montre que si l’on introduit la valeur mi,min qui minimise Ψ2 par rapport au paramètre mi, la loi conditionnelle P mi, m−i s’écrit : Ptr  mi, m−i = α σ√ e−α(mi−mi,min)2σ2 (4.11) avec α = AtA i,i et : mi,min= 1 (AtA)i,i  Atdobs − N  j=1,j =i  AtA i,jmj   (4.12)

En pratique, on ne cherche pas la loi a posteriori complète, qui est une fonction de tous les paramètres, mais on se limite aux lois marginales de chaque paramètre et éventuellement à des lois de probabilité jointes entre deux (ou plusieurs) paramètres sélectionnés à l’avance. On peut montrer que la loi marginale est la moyenne de toutes les lois de transition pour un paramètre mi donné.

Si l’échantillonnage du paramètre mi est inadapté, la chaîne de Markov reste bloquée sur l’état du paramètre de l’itération précédente et l’exploration de tous les états possibles du pa-ramètre est incomplet. Plutôt que de fixer directement les limites des intervalles, nous pouvons fixer en premier lieu un nombre P d’échantillons de la variable mi que nous désirons. Par me-sure de simplicité, ce nombre d’échantillons sera constant pour tous les paramètres. Puisque nous ne connaissons pas les bornes de l’intervalle (4.7), nous pouvons les déterminer moins arbi-trairement en considérant le pas d’échantillonnage le plus cohérent avec la variance estimée par moindres carrés sur chaque paramètre. Une variance petite nous donnera un intervalle d’explo-ration plus petit et inversement. Comme nous nous sommes donnés un nombre P d’échantillons, cette manipulation nous donnera automatiquement la valeur des encadrements minf et msup.

Echantillonnage

Pour la détermination de l’échantillonnage, on peut analyser la sensibilité de la foncionnelle Ψ2 au changement de la valeur d’un paramètre en étudiant sa courbure. Prenons mest l’en-semble des paramètres estimés par moindres carré et m , l’ensemble des paramètres tels que

 m="

mest,−i, mi

#

. Seul le paramètre mi est libre et prend une valeur quelconque entre mi,inf et mi,sup, les autres sont fixés et correspondent à leur valeur estimée par moindres carrés.

D’après Menke (1989), on trouve pour la variation de Ψ2 :

Ψ2 mest − Ψ2( m) = N  i=1 N  j=1  ATA

j,i(mi,est− mi) (mj,est− mj) La variation de Ψ2 correspondant à la variation du paramètre mi s’écrit donc :

Ψ2(mi,est)− Ψ2( mi) = ATA

i,i(mi,est− mi)2 (4.13)

Décomposons l’espace des paramètres de la façon suivante :

m ="

mk≤Kmax, mk>Kmax#

C’est-à-dire en séparant les paramètres dont nous avons pu obtenir une estimation par moindres carrés ordinaires et ceux dont nous ne savons rien, car nous n’avons pas pu pous-ser le développement au-delà de Kmax. On peut encadrer les coefficients mk≤Kmax en supposant que l’intervalle (4.7) est centré sur mest. Pour les autres, mk>Kmax, on considère que l’intervalle est centré sur 0.

On peut donc écrire :

m = mest+ pδm

avec p =−P, ..., P où 2P + 1 représente le nombre d’échantillons sur chaque paramètre, et δm le pas d’échantillonnage que l’on cherche à caractériser. On cherche à trouver δm pour que :

Ψ2(mi,est)− Ψ2( mi) < ασ2 d

avec un nombre α que l’on déterminera en fonction de la largeur de l’intervalle que l’on désire explorer et σd la variance sur les données. Puisque l’inversion par moindres carrés ne permet pas d’obtenir une variance estimée proche de la variance de 5nT, on prend la valeur estimée par moindres carrés. Par exemple, d’après le paragraphe 4.2.2 , pour un développement Kmax= 12, on prend σd∼ 9nT .

En particulier, nous avons :

mk≤Kmax

inf = mest− P δm mk≤Kmax

sup = mest+ P δm

On trouve, en prenant deux valeurs consécutives de mi, distantes de δm,i, d’après (4.13) que : Ψ2( mi+ δm,i)− Ψ2( mi) = ATA i,i(2p + 1) δ2mi et p≥ 0 de même : Ψ2( mi− δm,i)− Ψ2( mi) = ATA i,i(1− 2p) δ2mi et p < 0

4.2. Inversion de données synthétiques sur une surface 51

soit finalement, en regroupant les deux expressions, le paramètre mi peut être échantillonné comme : mk≤Kmax i = mi,est+√ εσd (ATA)i,i k|2k|+1, k =−P..P (4.14) Exemple syntéthique

Nous avons appliqué l’inversion bayesienne sur le même ensemble de données que pour les moindres carrés ou la décomposition en valeurs singulières. Dans un premier temps, nous n’avons inclus dans la chaîne Markov que les paramètres trouvés par une inversion par moindres carrés pour un développement Kmax = 12, dans un second temps, nous avons recherché par une inversion bayesienne les coefficients jusqu’à un développement équivalant à Kmax = 15. Dans cette dernière manipulation, 87 paramètres du modèles sont complètement inconnus et sont centrés sur 0 et échantillonnés dans un intervalle [−5nT, 5nT ]. Empiriquement, cet intervalle est susceptible de contenir effectivement la valeur vraie.

Le nombre d’itérations dans la chaîne de Markov est de 1000. Chaque paramètre a été exploré 100 fois de la façon prescrite par (4.14) dans l’intervalle [minf, msup] et nous avons pu obtenir les loi marginales, dont nous n’avons retenu que quatre exemples pour la discussion.

Lois marginale Sur la figure (4.6-1) nous illustrons différents types de lois marginales, cer-taines comme (1-c) peuvent être multimodales, d’autres comme (1-d) peuvent être relativement unimodales, en revanche on trouve le plus souvent des courbes de probabilité du type (1-b) qui n’ont pas de caractéristiques simples. Ces courbes de probabilité sont relativement intéres-santes car elles révèlent deux choses. La première est que nous ne sommes par en mesure de déterminer les paramètres m de la façon la plus probable car la loi marginale seule n’a aucun sens, encore moins son maximum de probabilité car il existe plusieurs maxima possibles. Ceci révèle la présence d’importantes corrélations entre certains coefficients et prendre les maxima des probabilités de chaque paramètre ne nous donne pas, loin s’en faut, la meilleure résolution du champ. On constate que les moindres carrés ont donné une valeur du paramètre qui n’est pas, en générale, la plus probable. En second lieu, nous vérifions que certains paramètres de valeur insignifiante sont néanmoins bien déterminés (courbe 1-d). Cette observation vient corroborer l’idée que la méthode du F -test séquentiel de Efroymson, largement utilisée dans l’inversion par SCHA ([44]) est risquée. Par cette méthode, on recherche les coefficients les plus significatifs statistiquement en fixant un seuil F , arbitraire, à partir duquel on les néglige en vérifiant qu’ils n’ont pas de poids dans la modélisation du champ. Cette technique pénalise donc le plus souvent les coefficients de petites magnitudes, qui peuvent pourtant être parfaitement déterminés, comme c’est le cas ici. Draper et Smith (1998) mettent en garde contre l’utilisation du F−test pour les régressions sur des bases de polynômes et il se pourrait bien que cette restriction s’applique également aux harmoniques sphériques sur calotte. Cette illustration rejoint un scepticisme assez courrant dans la littérature concernant l’inversion par la méthode SCHA couplée au F−test (par exemple [64]).

Probabilité sur les composantes du champ magnétique Puisqu’il n’est pas possible d’extraire les valeurs des paramètres qui correspondent à la meilleure résolution, il nous faut recourir à l’analyse du champ magnétique. Pour chaque itération dans la chaîne de Markov, nous pouvons récupérer la valeur du champ magnétique en chaque point d’une grille préalablement définie sur la calotte. Cette valeur est ensuite stockée dans un histogramme de valeurs. Ceci nous

F. 4.6 — Exemples de probabilités marginales pour des coefficients de Gauss. Les probabilité a) sont obtenus pour Kmax = 12, et en b) pour Kmax = 15. Le développement influe sur la valeur des paramètres.

4.2. Inversion de données synthétiques sur une surface 53

F. 4.7 — On montre un exemple de champ le plus probable qui peut être déterminé par une chaîne de Markov. A chaque itération sur les paramètres, la valeur du champ correspondante est classée dans un histogramme.

donne finalement une courbe de probabilité en chaque point dont il existe un unique maximum. On montre sur la figure (4.7) un exemple d’histogrammes obtenus par chaîne de Markov.

L’inconvénient certain de cette technique est que la valeur des paramètres est complètement transparente dans le résultat. Il faut donc pouvoir prévoir les coordonnées sur la calotte qui nous intéresse car le champ ne pourra plus être interpolé ultérieurement.

Les développements supérieurs L’objectif initial était de pouvoir déduire à partir d’un ensemble de coefficients de Gauss estimés des coefficients de Gauss non déterminés par une inversion par moindres carrés. L’inversion bayesienne ne calcul que des problèmes directs et ce problème est par conséquent inexistant. En revanche, d’autres problèmes, insolubles en pratique, surgissent. Le seul fait d’inclure des coefficients d’ordres supérieurs réorganise l’ensemble complet des coefficients de Gauss. La figure (4.6-b) illustre ce symptôme lorsque l’on ajoute 87 coefficients a priori inconnus. En raison des corrélations entre les paramètres, la condition a priori que les paramètres m se trouvent dans l’intervalle minf, msup se vérifie de moins en moins à mesure que le développement augmente. Nous sommes donc confrontés à un réel problème quant à l’exploration de l’espace des paramètres. Les courbes (2-b) et (2-c) illustrent particulièrement ce phénomène et nous voyons distinctement qu’il reste des probabilités non nulles en dehors de l’intervalle d’exploration. Lorsque nous faisons un développement jusqu’à l’ordre Kmax= 25 presque tous les coefficients sont sortis de l’intervalle d’exploration et nous avons par conséquent perdu la seule information dont nous disposions. Le présupposé que la valeur est contenue dans un intervalle centré sur mest n’est plus valable. Par conséquent, nous ne sommes plus en mesure non plus de déterminer un quelconque champ moyen comme sur la figure (4.7).

La seule manière d’éviter la discrétisation préalable des valeurs admissibles des paramètres est d’utiliser l’algorithme de Hasting-Métropolis, soit avec une loi uniforme sur un intervalle compact approprié, soit avec un algorithme de marche aléatoire. Outre le nombre d’itérations qui peut nécessiter la parallélisation du processus, l’expérience a montré que la chaîne de Markov restait souvent bloquée en raison des sauts parfois importants entre deux paramètres successifs pris au hasard et cette option a dû être abandonnée.

Validité des chaînes de Markov

D’autres interrogations plus conceptuelles viennent se superposer aux résultats empiriques obtenus par chaîne de Markov. La première est cette contradiction entre les utilisateurs émérites des chaînes de Markov ([104]), qui préconisent cette démarche lorsque le nombre de paramètres est élevé, et le scepticisme de certains mathématiciens (D. Chauveau et M. Roussignol, 2002, communication personnelle) face à un aussi grand nombre de paramètres. D’autre part, il sem-blerait, toujours selon eux, que l’application des chaînes de Markov à un problème linéaire soit finalement peu utile. On préférera donc garder cette méthode pour les problèmes non-linéaires et pour inverser simultanément des données scalaires et vectorielles.