Diagnostic de convergence des algorithmes MCMC

2.6 Conclusion

3.1.5 Diagnostic de convergence des algorithmes MCMC

a simuler. On peut donc remplacer chaque étape i où une simulation suivant la loi conditionnelle π_i(x_i|x−i) est impossible par une étape MH. Les méthodes que nous avons développées pour la reconstruction des images TEP utilisent ce principe (chapitres 4 et

5).

3.1.4 Estimation des fonctionnelles

Les échantillons générés après convergence de la chaˆıne permettent de calculer des fonctions des quantiles. Dans l’inférence bayésienne, on résume souvent la distribution a posteriori des paramètres d’intérêt par des fonctionnelles tels que la moyenne a pos-teriori, la médiane, la variance et les corrélations, les intervalles de crédibilité etc. Si X = (X₁, . . . , X_N) est la variable d’intérêt alors,

1. l’esp´erance marginale de X_i est estim´ee par : E(Xi) = ¯Xi ≈ ¹ n− n0− 1 n X t=n0+1 X_i^(t)

où n₀ est le nombre d’itérations burn-in et n le nombre total d’itérations. 2. La variance marginale de X_i s’obtient par :

V(Xi)≈ ¹ n− n0− 1 n X t=n0+1 (X_i^(t)− ¯X_i)².

3. Un intervalle de crédibilité à 100(1 − 2p)%, noté [cp, c_1−p], pour X_i peut être estimé en prenant respectivement pour c_p et c_1−p les quantiles d’ordre p et 1− p de{Xi^(t), t = n0+ 1, . . . , n}.

L’estimation correcte de ces quantités demande que les échantillons générés après le burn-in représentent de fa¸con adéquate la distribution d’intérêt. Cela nécessite donc de s’assurer que la chaˆıne ait bien mis à jour les spécificités de la loi cible π. Cela pose néanmoins plusieurs questions en pratique que nous allons évoquer maintenant.

3.1.5 Diagnostic de convergence des algorithmes MCMC

Sous certaines conditions que nous avons évoquées dans l’annexe B, les algorithmes MCMC convergent vers la loi cible : c’est le théorème ergodique. Autrement dit, si on laisse tourner l’algorithme suffisamment longtemps, les échantillons générés convergent vers la loi cible π. Mais le théorème ergodique ne précise pas le nombre d’itérations nécessaires pour que la chaˆıne génère des échantillons distribués suivant π, ni ne précise une estimée de l’erreur commise. La mise en œuvre d’une méthode MCMC nécessite donc de répondre à certaines questions pratiques pour s’assurer de la conver-gence de l’algorithme. Ces questions sont discutées par exemple dans [Rob96, chapitre 6], [GRS96] et [Tie94] et nous allons en récapituler les principales.

M´ethodes MCMC

1. D´etermination du burn-in :

La question qui se pose en premier lieu est celle du nombre d’itérations à effec-tuer avant que la chaˆıne n’atteigne le régime stationnaire. Si la chaˆıne est bien mélangeante, la période de burn-in est assez courte. En revanche, une chaˆıne mal mélangeante conduit à un burn-in beaucoup plus long. Dans l’exemple 3.1, un burn-in de 100 itérations suffit pour la chaˆıne 1 tandis que pour la chaˆıne 3, le burn-in doit être supérieur à 500. Toutefois, la période de burn-in est assez difficile `

a d´eterminer en pratique et ce, particuli`erement en grande dimension.

– La méthode la plus évidente et la plus intuitive pour déterminer le burn-in consiste en l’inspection de la chaˆıne produite sur plusieurs initialisations. Cela consiste à visualiser sur plusieurs replicats et avec des poins initiaux différents, l’évolution de {X(t)} en fonction du temps. L’itération n0 à partir de laquelle la chaˆıne ne bouge plus (ou très peu) est prise comme burn-in. Toutefois cette approche permet, au mieux, de détecter des non-stationnarités fortes.

– Une approche plus efficace repose sur les moyennes empiriques. À l’analyse de la série brute, on préfère généralement substituer celle des moyennes cumulées,

¯ X_i = ¹ T T X t=1 X_i^(t).

Une condition n´ecessaire de convergence est alors la stationnarit´e de ¯Xi. 2. Initialisation :

Une méthode MCMC nécessite de choisir un point de départ de la chaˆıne. En principe, si la chaˆıne est irréductible, le choix de l’initialisation n’affecte pas la distribution stationnaire. Mais la vitesse de convergence de l’algorithme peut être fortement affectée par cette initialisation. La convergence sera lente si la simula-tion reste pendant plusieurs itérations dans une région fortement influencée par la distribution initiale. Une chaˆıne dont la vitesse de mélangeance est élevée (chaˆıne 1 dans l’exemple 3.1) va rapidement s’extraire des conditions initiales même si le point de départ est choisi à une valeur extrême. En revanche si la chaˆıne mélange lentement, l’initialisation doit être choisie de fa¸con plus attentive afin d’éviter un burn-in trop long. Dans les problèmes multidimensionnels, le choix de l’initiali-sation est crucial. Une loi cible multimodale dont les modes sont séparés par des vallées profondes (zones de faible probabilité) peut conduire à des chaˆınes qui mélangent mal et qui restent bloquées dans une région de l’espace d’états pendant de longues périodes. Il est recommandé d’effectuer un certain nombre de lance-ments de l’algorithme, avec des valeurs initiales très dispersées, et de contrôler que les estimations ne sont pas sensibles au choix des valeurs initiales. Cependant, des valeurs initiales extrêmes peuvent aussi conduire à un burn-in très long. Dans les méthodes bayésiennes, l’initialisation est typiquement choisie aléatoirement à partir de la loi a priori ou effectuée près d’un mode de la distribution a posteriori. Mais initialiser la simulation près du mode de la loi a posteriori n’est pas une garantie de succès si la chaˆıne ne bouge pas de fa¸con fluide autour du support de la loi a posteriori.

3. Nombre de chaˆınes :

En pratique, se pose aussi la question du nombre de chaˆınes à considérer dans l’algorithme MCMC. Ce choix est sujet à des recommandations non nécessairement concordantes dans la littérature.

• Plusieurs chaˆınes : cela consiste à lancer plusieurs chaˆınes en parallèle et de contrôler la convergence vers la loi stationnaire en comparant les estimations des quantités d’intérêt sur les différentes chaˆınes. Pour cela, on considère plu-sieurs réalisations de l’algorithme dont chacune est simulée avec un faible nombre d’itérations. Ce point de vue part du principe qu’il est pratiquement impossible de diagnostiquer la convergence d’une chaˆıne de Markov à par-tir d’une seule trajectoire et qu’une chaˆıne peut avoir convergé alors qu’en réalité ce n’est pas le cas. Cela se produit par exemple si la chaˆıne est restée très longtemps dans le voisinage de son point de départ. L’idée de simu-ler plusieurs chaˆınes suivant des valeurs initiales variées est de permettre de réduire la dépendance aux conditions initiales et de contrôler plus facilement la convergence vers la loi stationnaire en comparant les estimations des quan-tités d’intérêt sur les différentes chaˆınes.

La reproche faite à cette approche est que la comparaison de plusieurs courtes chaˆınes ne prouve pas la convergence car il existe des distributions dont cer-taines spécificités ne sont visibles qu’avec un très grand nombre d’itérations. Cela est d’autant plus vrai dans le cas d’une distribution multimodale où les trajectoires souvent nécessitent un nombre d’itérations assez important pour passer d’un mode de la distribution à un autre. Dans ce cas, on préfère utiliser une seule chaˆıne puisqu’alors une chaˆıne unique de taille M T à faible taux de mélangeance aura probablement une plus grande proximité avec la loi stationnaire que M chaˆınes de taille T , qui auront tendance à demeurer dans le voisinage de leur point de départ.

• Une seule chaˆıne très longue : ce sont les méthodes à chaˆıne unique. Dans cette approche, une seule très longue simulation de l’algorithme est utilisée pour calculer les estimateurs Monte-Carlo. Avec cette chaˆıne, on a plus de chances de trouver de nouveaux modes avec et de visiter les zones de faible probabilité.

Au final si on a plusieurs processeurs, la solution serait de lancer plusieurs longues chaˆınes sur chaque processeur.

4. D’autres questions supplémentaires se posent comme par exemple la bonne ex-ploration du support de la loi cible. L’idée la plus simple pour s’en assurer consiste à visualiser plusieurs trajectoires pour chaque composante X_i. Quant à la détermination du temps d’arrêt n de l’algorithme, il est conseillé de lancer plusieurs chaˆınes en parallèle avec différentes initialisations et de comparer les estimées. Si elles diffèrent trop, on peut augmenter n.

Pour finir, rappelons que le problème de la vitesse de convergence n’est pas spécifique aux algorithmes stochastiques. C’est aussi un problème dans les méthodes déterministes, par exemple dans l’algorithme EM (Expectation-Maximization). Dans EM, on peut diagnostiquer la convergence en surveillant par exemple l’augmentation de la vrai-semblance ou effectuer plusieurs lancements de l’algorithme avec des initialisations différentes et vérifier s’ils convergent au même point ou à des solutions multiples. De fa¸con générale, cette approche s’applique aux techniques Monte-Carlo mais avec des difficultés supplémentaires. L’algorithme est stochastique et on ne peut s’attendre à d’aucune quantité statistique qui accroˆıt ou décroˆıt de fa¸con monotone. De plus, la convergence a lieu vers une distribution et non vers un point. Enfin, la convergence lente peut aussi être due à un modèle inapproprié.

Inférence dans les modèles de mélange par processus de Dirichlet

Après avoir présenté les méthodes MCMC dans un cadre paramétrique, nous allons maintenant aborder l’échantillonnage dans un cadre non paramétrique.

Dans le document Modélisation stochastique de processus pharmaco-cinétiques, application à la reconstruction tomographique par émission de positrons (TEP) spatio-temporelle (Page 79-82)