• Aucun résultat trouvé

2.6 Conclusion

3.1.5 Diagnostic de convergence des algorithmes MCMC

a simuler. On peut donc remplacer chaque ´etape i o`u une simulation suivant la loi conditionnelle πi(xi|x−i) est impossible par une ´etape MH. Les m´ethodes que nous avons d´evelopp´ees pour la reconstruction des images TEP utilisent ce principe (chapitres 4 et

5).

3.1.4 Estimation des fonctionnelles

Les ´echantillons g´en´er´es apr`es convergence de la chaˆıne permettent de calculer des fonctions des quantiles. Dans l’inf´erence bay´esienne, on r´esume souvent la distribution a posteriori des param`etres d’int´erˆet par des fonctionnelles tels que la moyenne a pos-teriori, la m´ediane, la variance et les corr´elations, les intervalles de cr´edibilit´e etc. Si X = (X1, . . . , XN) est la variable d’int´erˆet alors,

1. l’esp´erance marginale de Xi est estim´ee par : E(Xi) = ¯Xi1 n− n0− 1 n X t=n0+1 Xi(t)

o`u n0 est le nombre d’it´erations burn-in et n le nombre total d’it´erations. 2. La variance marginale de Xi s’obtient par :

V(Xi)≈ 1 n− n0− 1 n X t=n0+1 (Xi(t)− ¯Xi)2.

3. Un intervalle de cr´edibilit´e `a 100(1 − 2p)%, not´e [cp, c1−p], pour Xi peut ˆetre estim´e en prenant respectivement pour cp et c1−p les quantiles d’ordre p et 1− p de{Xi(t), t = n0+ 1, . . . , n}.

L’estimation correcte de ces quantit´es demande que les ´echantillons g´en´er´es apr`es le burn-in repr´esentent de fa¸con ad´equate la distribution d’int´erˆet. Cela n´ecessite donc de s’assurer que la chaˆıne ait bien mis `a jour les sp´ecificit´es de la loi cible π. Cela pose n´eanmoins plusieurs questions en pratique que nous allons ´evoquer maintenant.

3.1.5 Diagnostic de convergence des algorithmes MCMC

Sous certaines conditions que nous avons ´evoqu´ees dans l’annexe B, les algorithmes MCMC convergent vers la loi cible : c’est le th´eor`eme ergodique. Autrement dit, si on laisse tourner l’algorithme  suffisamment  longtemps, les ´echantillons g´en´er´es convergent vers la loi cible π. Mais le th´eor`eme ergodique ne pr´ecise pas le nombre d’it´erations n´ecessaires pour que la chaˆıne g´en`ere des ´echantillons distribu´es suivant π, ni ne pr´ecise une estim´ee de l’erreur commise. La mise en œuvre d’une m´ethode MCMC n´ecessite donc de r´epondre `a certaines questions pratiques pour s’assurer de la conver-gence de l’algorithme. Ces questions sont discut´ees par exemple dans [Rob96, chapitre 6], [GRS96] et [Tie94] et nous allons en r´ecapituler les principales.

M´ethodes MCMC

1. D´etermination du burn-in :

La question qui se pose en premier lieu est celle du nombre d’it´erations `a effec-tuer avant que la chaˆıne n’atteigne le r´egime stationnaire. Si la chaˆıne est bien m´elangeante, la p´eriode de burn-in est assez courte. En revanche, une chaˆıne mal m´elangeante conduit `a un burn-in beaucoup plus long. Dans l’exemple 3.1, un burn-in de 100 it´erations suffit pour la chaˆıne 1 tandis que pour la chaˆıne 3, le burn-in doit ˆetre sup´erieur `a 500. Toutefois, la p´eriode de burn-in est assez difficile `

a d´eterminer en pratique et ce, particuli`erement en grande dimension.

– La m´ethode la plus ´evidente et la plus intuitive pour d´eterminer le burn-in consiste en l’inspection de la chaˆıne produite sur plusieurs initialisations. Cela consiste `a visualiser sur plusieurs replicats et avec des poins initiaux diff´erents, l’´evolution de {X(t)} en fonction du temps. L’it´eration n0 `a partir de laquelle la chaˆıne ne bouge plus (ou tr`es peu) est prise comme burn-in. Toutefois cette approche permet, au mieux, de d´etecter des non-stationnarit´es fortes.

– Une approche plus efficace repose sur les moyennes empiriques. `A l’analyse de la s´erie brute, on pr´ef`ere g´en´eralement substituer celle des moyennes cumul´ees,

¯ Xi = 1 T T X t=1 Xi(t).

Une condition n´ecessaire de convergence est alors la stationnarit´e de ¯Xi. 2. Initialisation :

Une m´ethode MCMC n´ecessite de choisir un point de d´epart de la chaˆıne. En principe, si la chaˆıne est irr´eductible, le choix de l’initialisation n’affecte pas la distribution stationnaire. Mais la vitesse de convergence de l’algorithme peut ˆetre fortement affect´ee par cette initialisation. La convergence sera lente si la simula-tion reste pendant plusieurs it´erations dans une r´egion fortement influenc´ee par la distribution initiale. Une chaˆıne dont la vitesse de m´elangeance est ´elev´ee (chaˆıne 1 dans l’exemple 3.1) va rapidement s’extraire des conditions initiales mˆeme si le point de d´epart est choisi `a une valeur extrˆeme. En revanche si la chaˆıne m´elange lentement, l’initialisation doit ˆetre choisie de fa¸con plus attentive afin d’´eviter un burn-in trop long. Dans les probl`emes multidimensionnels, le choix de l’initiali-sation est crucial. Une loi cible multimodale dont les modes sont s´epar´es par des vall´ees profondes (zones de faible probabilit´e) peut conduire `a des chaˆınes qui m´elangent mal et qui restent bloqu´ees dans une r´egion de l’espace d’´etats pendant de longues p´eriodes. Il est recommand´e d’effectuer un certain nombre de lance-ments de l’algorithme, avec des valeurs initiales tr`es dispers´ees, et de contrˆoler que les estimations ne sont pas sensibles au choix des valeurs initiales. Cependant, des valeurs initiales extrˆemes peuvent aussi conduire `a un burn-in tr`es long. Dans les m´ethodes bay´esiennes, l’initialisation est typiquement choisie al´eatoirement `a partir de la loi a priori ou effectu´ee pr`es d’un mode de la distribution a posteriori. Mais initialiser la simulation pr`es du mode de la loi a posteriori n’est pas une garantie de succ`es si la chaˆıne ne bouge pas de fa¸con fluide autour du support de la loi a posteriori.

3. Nombre de chaˆınes :

En pratique, se pose aussi la question du nombre de chaˆınes `a consid´erer dans l’algorithme MCMC. Ce choix est sujet `a des recommandations non n´ecessairement concordantes dans la litt´erature.

• Plusieurs chaˆınes : cela consiste `a lancer plusieurs chaˆınes en parall`ele et de contrˆoler la convergence vers la loi stationnaire en comparant les estimations des quantit´es d’int´erˆet sur les diff´erentes chaˆınes. Pour cela, on consid`ere plu-sieurs r´ealisations de l’algorithme dont chacune est simul´ee avec un faible nombre d’it´erations. Ce point de vue part du principe qu’il est pratiquement impossible de diagnostiquer la convergence d’une chaˆıne de Markov `a par-tir d’une seule trajectoire et qu’une chaˆıne peut avoir converg´e alors qu’en r´ealit´e ce n’est pas le cas. Cela se produit par exemple si la chaˆıne est rest´ee tr`es longtemps dans le voisinage de son point de d´epart. L’id´ee de simu-ler plusieurs chaˆınes suivant des valeurs initiales vari´ees est de permettre de r´eduire la d´ependance aux conditions initiales et de contrˆoler plus facilement la convergence vers la loi stationnaire en comparant les estimations des quan-tit´es d’int´erˆet sur les diff´erentes chaˆınes.

La reproche faite `a cette approche est que la comparaison de plusieurs courtes chaˆınes ne prouve pas la convergence car il existe des distributions dont cer-taines sp´ecificit´es ne sont visibles qu’avec un tr`es grand nombre d’it´erations. Cela est d’autant plus vrai dans le cas d’une distribution multimodale o`u les trajectoires souvent n´ecessitent un nombre d’it´erations assez important pour passer d’un mode de la distribution `a un autre. Dans ce cas, on pr´ef`ere utiliser une seule chaˆıne puisqu’alors une chaˆıne unique de taille M T `a faible taux de m´elangeance aura probablement une plus grande proximit´e avec la loi stationnaire que M chaˆınes de taille T , qui auront tendance `a demeurer dans le voisinage de leur point de d´epart.

• Une seule chaˆıne tr`es longue : ce sont les m´ethodes `a chaˆıne unique. Dans cette approche, une seule tr`es longue simulation de l’algorithme est utilis´ee pour calculer les estimateurs Monte-Carlo. Avec cette chaˆıne, on a plus de chances de trouver de nouveaux modes avec et de visiter les zones de faible probabilit´e.

Au final si on a plusieurs processeurs, la solution serait de lancer plusieurs longues chaˆınes sur chaque processeur.

4. D’autres questions suppl´ementaires se posent comme par exemple la bonne ex-ploration du support de la loi cible. L’id´ee la plus simple pour s’en assurer consiste `a visualiser plusieurs trajectoires pour chaque composante Xi. Quant `a la d´etermination du temps d’arrˆet n de l’algorithme, il est conseill´e de lancer plusieurs chaˆınes en parall`ele avec diff´erentes initialisations et de comparer les estim´ees. Si elles diff`erent trop, on peut augmenter n.

Pour finir, rappelons que le probl`eme de la vitesse de convergence n’est pas sp´ecifique aux algorithmes stochastiques. C’est aussi un probl`eme dans les m´ethodes d´eterministes, par exemple dans l’algorithme EM (Expectation-Maximization). Dans EM, on peut diagnostiquer la convergence en surveillant par exemple l’augmentation de la vrai-semblance ou effectuer plusieurs lancements de l’algorithme avec des initialisations diff´erentes et v´erifier s’ils convergent au mˆeme point ou `a des solutions multiples. De fa¸con g´en´erale, cette approche s’applique aux techniques Monte-Carlo mais avec des difficult´es suppl´ementaires. L’algorithme est stochastique et on ne peut s’attendre `a d’aucune quantit´e statistique qui accroˆıt ou d´ecroˆıt de fa¸con monotone. De plus, la convergence a lieu vers une distribution et non vers un point. Enfin, la convergence lente peut aussi ˆetre due `a un mod`ele inappropri´e.

Inf´erence dans les mod`eles de m´elange par processus de Dirichlet

Apr`es avoir pr´esent´e les m´ethodes MCMC dans un cadre param´etrique, nous allons maintenant aborder l’´echantillonnage dans un cadre non param´etrique.