Choix des poids - Annexes au chapitre 3 - MCMC adaptatifs à essais multiples

3.4 Annexes au chapitre 3

4.1.2 Choix des poids

Frenkel et Smit(1996) proposent l’algorithme Monte Carlo à biais orienté (Orientationally biased

Monte Carlo) dans le contexte de la biologie moléculaire. Il s’agit en fait du cas particulier de

l’algorithme MTM à candidats indépendants et identiquement distribués pour le choix de poids

w(k)_(y

|x) = π(y). Liu et collab. (2000) généralisent alors cette technique en considérant une forme oﬀrant plus de liberté dans les poids w(k)_(y

|x) = π(y)q(x|y)s(x,y) en supposant une distribution instrumentale marginale identique pour tous les candidats. Les conditions sur q et sur s sont que

q(y_{|x) > 0 si et seulement si q(x|y) > 0, que s soit symétrique (c.-à-d., s(x,y) = s(y,x)) et que} s(x,y) > 0 dès que q(y|x) > 0. Ce type de poids se généralise trivialement à des densités marginales différentes ainsi qu’à des fonctions symétriques différentes parmi l’ensemble des candidats. Enfin, la généralisation due àPandolfi et collab.(2010) relâchent toute supposition sur l’expression analytique de w(k)_{. En fait, en utilisant la probabilité d’acceptation généralisée (}_4.5_{), on ne requiert que la}

positivité des poids : w(k)_(y

|x) > 0.

Devant si peu de restrictions, une question fondamentale dans l’élaboration d’un algorithme MTM est donc le choix de la fonction w(k)_{. Alors que certains résultats expérimentaux peuvent indiquer la}

supériorité de certains choix sous certaines conditions, aucun résultat théorique ne permet d’établir qu’une expression de poids soit optimale par rapport à un certain critère. Ainsi, l’utilisateur doit eﬀectuer le choix des poids de sorte à favoriser le comportement recherché de la part de l’algorithme. En rappelant que l’objectif principal des algorithmes à essais multiples est une exploration plus rapide et plus eﬃcace du support de la distribution cible π, l’expression de w(k)_{peut être choisie de sorte à}

favoriser la sélection de propositions qui sont le plus éloignées de l’état actuel, par exemple.

Cette section sera donc consacrée à l’étude des diﬀérentes possibilités dans l’expression de w(k)

ainsi que des raisons justiﬁant ces choix. 4.1.2.1 Choix de la fonction symétrique

Bien que w(k)_{puisse prendre une forme arbitraire positive, les choix sensés de poids seront souvent}

parmi les expressions de la forme de (4.4). En effet, inclure le facteur π(y) dans l’expression des poids est presque primordial afin d’effectuer une sélection d’une proposition qui explore bien le support de

π. De plus, la densité de transition Q(k)_(x

|y) sera souvent symétrique et pourra donc être absorbée par le choix de la fonction symétrique s(k)_{. On considère ici quelques exemple de choix de s}(k)_.

Lorsque Q(k)_(x

|y) est symétrique, il est possible de choisir s(k)_{(x,y) = Q}(k)_(x

|y)−1 _{de sorte à}

obtenir un poids égal à la densité cible :

w(k)(y|x) = π(y)Q(k)_(x

|y)Q(k)_(x

|y)−1_{= π(y).} _(4.6)

Ceci engendre alors un algorithme MTM où les candidats à haute densité seront favorisés au moment de la sélection. Lorsque la densité instrumentale n’est pas symétrique, il est possible d’utiliser la fonction suivante aﬁn d’obtenir un comportement similaire :

s(k)(x,y) = _Q(k)_(y |x) + Q(k)_(x |y) 2 −1 (4.7) Le choix le plus simple pour s(k) _{est de poser s}(k)_(x,y)

≡ 1, ce qui a pour eﬀet de produire des poids semblables aux termes d’acceptation M.-H. :

w(k)(y|x) = π(y)Q(k)_(x

|y). (4.8)

Les candidats favorisés seront ceux tels que la paire (y, x) a une densité conjointe élevée, ce qui advient lorsque y a une densité cible élevée et la transition y → x a une densité élevée.

Considérons la fonction symétrique suivante :

s(k)(x,y) =Q(k)(y|x)Q(k)_(x

|y)−α, α > 0. (4.9)

Lorsque α = 1, on trouve des poids semblables aux poids d’importance de l’algorithme Monte Carlo par échantillonnage préférentiel2.2:

Les candidats favorisés dans la sélection seront ceux à densité cible élevée ou bien à transition x → y de faible densité, ce qui favorisera à la fois l’exploration du support de π ainsi que de grands sauts.

Une des mesures d’eﬃcacité d’un algorithme MCMC est le saut quadratique moyen donné par la moyenne des normes euclidienne entre deux états consécutifs de la chaîne, 1

PN −1

n=0 ||xn+1− xn||2. Un

saut quadratique moyen élevé est associé à un faible temps d’autocorrélation et donc une estimation plus eﬃcace (section2.4.3.3.) Puisqu’une norme est une fonction symétrique, il est possible d’utiliser ce critère à même les poids de sélection pour favoriser un algorithme tel que le saut quadratique moyen

soit élevé. C’est l’idée que proposentYang et collab.(2019) dans un algorithme MTM par composante. Dans un algorithme MTM régulier, on peut donc choisir, en supposant une transition symétrique,

s(k)(x,y) = Q(k)(y_|x)−1_{||y − x||}α₂; (4.11)

w(k)(y_{|x) = π(y)||y − x||}α₂. (4.12)

Empiriquement,Yang et collab.(2019_{) trouvent que α ∈ (2,4) procure des résultats satisfaisants dans}

le contexte par composante.

4.1.2.2 Choix de poids généraux

Tel que mentionné, la seule supposition sur w(k)_{vraiment nécessaire est la positivité. On considère}

ici d’autres expressions pour les poids qui ne sont pas de la forme (4.4).

Dans une étude de la flexibilité des algorithmes MTM, Martino et Read (2013) effectuent une expérimentation sur l’efficacité de différents types de poids. En plus des expressions (4.6), (4.8) et (4.10) considérées précédemment, les auteurs explorent les choix suivants.

D’abord, des poids égaux à une puissance de la densité cible sont étudiés, ce qui généralise (4.6). Ces poids sont de la forme

w(k)(y_{|x) = [π(y)]}α, α_{∈ R .} (4.13)

Martino et Read(2013_{) considèrent α ∈ {0,1/2,1,2,3}. Lorsque α ∈ (0,1), les régions de densité plus}

faibles (π(x) ≪ 1) seront visitées plus facilement que lorsque α = 1, mais les régions de haute densité (π(x) > 1) risquent d’être sous-représentées. Inversement, lorsque α > 1, les régions de faible densité (π(x) ≪ 1) seront davantage diﬃciles à atteindre.

Ensuite, Martino et Read (2013) considèrent des poids donnés par des puissances de la densité instrumentale :

w(k)(y|x) = [Q(k)_(y

|x)]α_, _α

∈ R . (4.14)

Dans leurs expérimentations, ils étudient les cas α = 1 et α = −1.

Parmi toutes ces options de poids à l’étape de sélection, Martino et Read (2013) observent que les meilleurs résultats sont obtenus en utilisant les expressions (4.6), (4.8) et (4.10), alors que les poids puissance de la densité cible ou instrumentale performent significativement moins bien en terme d’acceptation et d’autocorrélation. C’est donc dire que les choix sensés de la section précédente sont tous préférables et que la généralisation aux poids arbitraires n’apporte pas, empiriquement, d’avantage en terme d’efficacité. De plus, ils notent que les poids d’importance (4.10) affichent des résultats légèrement supérieurs aux autres types de poids.Liu et collab.(2000) arrivent à des conclusions similaires dans leurs expériences : le choix de α dans la famille (4.9) n’influence pas particulièrement les résultats, mais α près de −1 semble être légèrement préférable.Casarin et collab.(2013) observent également une légère supériorité de poids utilisant (4.9) plutôt que (4.7).

Notons que le cas α = 0 dans (4.13) ou dans (4.14) correspond à des poids égaux : cette stratégie est en fait équivalente à n’utiliser qu’un seul candidat (c.-à-d., l’algorithme M.-H. régulier) puisqu’aucune information sur les candidats n’est utilisée : une proposition est choisie au hasard uniformément dans l’ensemble et l’information recueillie par les candidats additionnels n’est jamais utilisée. Empiriquement, Martino et Read (2013) observent des résultats identiques à ceux d’un algorithme M.-H. à un seul candidat.

4.1.2.3 Approximation quadratique de la densité cible

Pour tout algorithme MCMC, la partie la plus couteuse computationnellement est souvent le calcul de la densité cible π. Les algorithmes MTM exigent plusieurs – jusqu’à 2K − 1 dans certains cas – calculs de la sorte à chaque itération. Afin de pallier à ce problème,Pandolfi et collab.(2010) proposent d’utiliser une approximation de π dans le calcul des poids plutôt que π elle-même. Si cette approximation est peu coûteuse par rapport à celle de π et que les poids résultant représentent bien les vrais poids, il peut en sortir une grande augmentation dans l’efficacité par rapport au temps de calcul.

Lorsque la chaîne se trouve en x, la densité cible est approximée localement de la façon suivante. On considère

π∗_{(y) = π(x)A(y}

|x), où

log A(y_{|x) = [∇ log π(x)]}⊤_(y

− x) + 1₂(y_{− x)}⊤_[

∇2_{log π(x)](y}

− x),

∇ log π(x) est le gradient par rapport à x de log π évalué en x et ∇2_{log π(x) est la matrice Hessienne}

par rapport à x de log π évaluée en x. Cette approximation permet alors de produire des poids approximatifs en substituant π∗ _{à π. Par exemple, les poids (}_4.4_{) deviennent}

w∗(k)(y_{|x) = π}∗(y)Q(k)(x_|y)s(x,y).

L’avantage principal de cette construction est que le terme π(x) se simpliﬁe lors du calcul des poids standardisés : ¯ w∗(k)(y; y(−k)_{|x) =} w ∗(k)_(y_|x) PK j=1w∗(j)(y(j)|x) = A(y|x)Q (k)_(x_|y)s(x,y) PK j=1A(y(j)|x)Q(j)(x|y(j))s(x,y(j)) .

Ainsi, seulement deux calculs de densité cible seront requis au cours d’une itération puisque la probabilité d’acceptation généralisée requiert π(x) et π(y). Lorsque ∇ log π(x) et ∇2_{log π(x) sont}

relativement simples à calculer par rapport à π, cette méthode s’avère donc avantageuse.

Les expérimentations effectuées parPandolfi et collab.(2010) sur cet algorithme montrent que le coût computationnel réduit compense suffisamment la perte en précision, ce qui produit un algorithme plus efficace globalement, comparativement à des algorithmes MTM réguliers.

4.1.2.4 Candidats séquentiellement dépendants

Dans leur algorithme Metropolis multipoint,Qin et Liu(2001) considèrent des candidats séquentiellement dépendants. Les poids qu’ils utilisent sont les suivants :

w(k)(y(k)|y(k−1:1)_{, x) = π(y}(k)_)Q(k)_{(x, y}(1:k−1)

|y(k)_)s(k)_(y(k:1)_,x),

où s(k)_{est une fonction positive, bornée et séquentiellement symétrique, c’est-à-dire}

La probabilité d’acceptation M.-H. α(y,y(−k)_|x,x(−k)∗ ) = min ( 1, PK k=1w(k)(y(k)|y(k−1:1), x) PK k=1w(k)(x (k) ∗ |x(k−1:1)∗ , y) )

est utilisée aﬁn d’accepter ou de rejeter la proposition choisie selon les poids w(k)_(y(k)

|y(k−1:1)_{, x),}

k = 1 , . . . , K. Les choix de fonctions séquentiellement symétriques proposées incluent s(k)_(y(k:1)_,x)

≡ 1 et, supposant la symétrie séquentielle de la transition Q(k)_{, nous pouvons choisir s}(k)_(y(k:1)_{,x) =}

[Q(k)_(y(k:1)

|x)]−1 _{dans lequel cas les poids se réduisent à w}(k)_(y(k)

|y(k−1:1)_{, x) = π(y}(k)_).

Martino et collab. (2012) appliquent la généralisation des poids dePandolﬁ et collab. (2010) à l’algorithme Metropolis multipoint. Ainsi, pour les poids standardisés

w(k)(y(k)|y(k−1:1)_{, x) =} w(k)(y(k)|y(k−1:1), x)

j=1w(j)(y(j)|y(j−1:1), x)

on trouve la probabilité d’acceptation M.-H.

α(y,y(−k)_|x,x(−k)∗ ) = min ( 1,π(y)Q (k)_(x(1:k) ∗ |y) ¯w(k)(x(k)∗ |x(k−1:1)∗ , y) π(x)Q(k)_(y(1:k)_{|x) ¯}_w(k)_(y(k)_|y(k−1:1)_{, x)} ) .

Ce choix diﬀérent de probabilité d’acception satisfait tout de même la condition d’équilibre (Martino et collab.,2012, section 4), produisant ainsi un algorithme valide du point de vue théorique.

Évidemment, le choix de w(k)_{peut être eﬀectué de n’importe quelle manière, mais des expressions}

similaires à celles des sections précédentes seront plus pertinentes. Les auteurs en proposent quelques unes : w(k)(y(k)_|y(k−1:1), x) = π(y(k)); w(k)(y(k)|y(k−1:1)_{, x) = π(y}(k)_)π(y(k−1)₎ · · · π(y(1)_)π(x); w(k)(y(k)|y(k−1:1)_{, x) =} π(y(k)₎ Q(k)_(y(k:1)_|x) α , α > 0; w(k)_(y(k) |y(k−1:1)_{, x) =} π(y(k)) Q(k)_(y(k:1)_|x) π(y(k−1)₎ Q(k−1)_(y(k−1:1)_|x)· · · π(y(1)₎ Q(1)_(y(1)_|x); w(k)(y(k)_|y(k−1:1), x) = π(y (k)₎ Q(k)_(y(k)_|y(k−1:1)_{, x)}. (4.15)

Dans leur expérimentation, les auteurs trouvent que les poids (4.15), similaires aux poids d’importance, performent le mieux en terme d’autocorrélation de la chaîne.

Dans le document MCMC adaptatifs à essais multiples (Page 170-174)