Quasi-Monte Carlo - High dimensional Bayesian computation

Comme nous l’avons vu, la plupart des générateurs de nombres aléatoires commen- cent par générer une séquence uniforme. La séquence uniforme peut être utilisée pour calculer une approximation de l’intégrale de la fonction φ :[0, 1]d _→_{R définie comme}

I =R_[_0,1_]dφ(u)d u via b IN = 1 N N

∑

n=1 φ(un), (1.9)

1.3. Quasi-Monte Carlo 15

où la fonction φ englobe potentiellement une transformation de la séquence uniforme vers un espace d’intérêt différent.

Une approche couramment utilisée pour réduire la variance de l’intégration est la stratification. La stratification divise un hypercube uniforme en un nombre de strata et procède ensuite en échantillonnant au sein de chaque strata. Cette approche cou- vre l’hypercube uniforme de manière plus uniforme et par conséquent conduit à une erreur réduite de l’intégration.

1.3.1 Séquences Halton

Une approche plus sophistiquée consiste à construire des séquences déterministes, également appelées séquences à discrépance faible ou quasi-Monte Carlo. Nous illustrons cette approche avec la construction de séquences de Halton en suivantDick et al.

(2013). Soit i∈N. Alors i peut être exprimé en base b comme i=

∞

∑

a=1

iaba−1,

où ia ∈ {0, 1,· · · , b−1}. A titre d’exemple, nous représentons la séquence d’entiers

0, 1, 2, 3, 4,· · · en base b= 2. Cela donne 02, 12, 102, 112, 1002,· · ·. Nous définissons la

fonction inverse radicale νb(i)comme l’inversion de la représentation entière de i en

base b. Elle est définie comme

νb(i):= ∞

∑

a=1 ia ba.

La fonction inverse radicale reflète cette représentation à la représentation décimale : 0, 0.12, 0.012, 0.112, 0.0012,· · ·. Si nous transformons cette séquence en base de représen-

tation 10 nous obtenons 0, 0.5, 0.25, 0.75, 0.125· · ·. Continuer cette construction donne une séquence qui remplit l’intervalle[0, 1]. La séquence de Halton est basée sur cette idée. Soit p1, p2,· · · , pd les d premiers nombres premiers. La séquence de Halton

u0, u1,· · · en dimension d est donnés comme

ui = (νp1(i), νp2(i),· · · , νpd(i)).

Nous illustrons la séquence de Halton ainsi qu’une séquence pseudo-aléatoire sur [0, 1]2_{dans la Figure}_1.1_.

La séquence de Halton n’est qu’un moyen possible de construire des séquences qui couvrent[0, 1]d_{plus uniformément que l’échantillonnage aléatoire. D’autre séquences}

qui atteignent le même objectif sont, par exemple, la séquence Faure, la séquence Sobol ou les réseaux digitaux. La qualité de la couverture de la séquence déterministe peut être évaluée par la discrépance de la séquence, que nous discutons maintenant.

0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 Uniform sequence 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 Halton sequence

FIGURE 1.1: Séquence uniforme (à gauche) et séquence de Halton (à droite) de longueur N=256 sur[0, 1]2.

1.3.2 Convergence de l’échantillonnage QMC

La notion générale de discrépance d’une séquence u1,· · · , uN est définie comme suit :

D(u1:N,A):= sup A∈A 1 N N

∑

n=1 1{un∈A}−λd(A) ,

où λd(A)est le volume (la mesure de Lebesgue sur Rd) de A etA est un ensemble

d’ensembles mesurables. Lorsque nous fixons les ensembles A = [0, b] = _∏d_i₌₁[0, bi]

avec 0 ≤ bi ≤ 1 comme l’ensemble des produits d’intervalles ancrés en 0, nous

obtenons la discrépance étoile

D∗(u1:N):=sup [0,b] 1 N N

∑

n=1 1{un∈[0,b]}−λd([0, b]) .

La discrépance étoile peut être utilisée afin d’établir une limite supérieure de l’erreur d’approximation de l’intégrale. Nous définissons cette erreur comme

e(φ, N) = I−bIN .

Nous avons vu dans la section1.2.1 que pour l’utilisation d’une séquence aléatoire uniforme on a

E[e(ψ, N)2] = O(N−1/2),

en supposant que la variable aléatoire φ(U)est de carré intégrable. Lors de l’utilisation d’une séquence à discrépance faible, l’erreur peut être quantifiée par l’inégalité Koksma- Hlawka :

1.3. Quasi-Monte Carlo 17

où V(φ)est la variation de la fonction φ dans le sens de Hardy et Krause. Cette quan-

tité est étroitement liée à la regularité de la fonction. La séquence de Halton présen- tée conduit à une discrépance en O((log N)d_/N₎_{. Par conséquent, les séquences}

de Halton sont asymptotiquement plus efficaces que les séquences aléatoires pour l’intégration, à condition que V(φ) <∞.

1.3.3 Quasi-Monte Carlo randomisé

Un inconvénient majeur de l’échantillonnage QMC est le fait qu’il n’est pas facile d’évaluer l’erreur de l’approximation car V(φ) est difficile à calculer. En réintro-

duisant de l’aléa dans une séquence QMC tout en préservant sa structure de discré- pance faible, l’incertitude peut être évaluée par échantillonnage répété. Cette idée est appelée quasi-Monte Carlo randomisé (RQMC). Ces séquences peuvent être constru- ites, par exemple, en décalant au hasard la séquence entière (Cranley and Patterson,

1976) : Soit v∼ U [0, 1]det soit(un)1≤n≤N une séquence QMC. Ensuite, la séquence

un:= un+v mod 1,

où x7→ x mod 1 est la fonction modulo composants par composants, est une séquence QMC avec une probabilité de 1. De plus, la séquence est distribuée marginalement uniforme. Ainsi, lors de l’utilisation des points ˜unpour l’intégration, les estimations

de (1.9) sont sans biais et nous pouvons utiliser notre boîte à outils probabilistes pour évaluer l’erreur.

Une approche plus complexe consiste en des réseaux brouillés, introduits parOwen

(1997). En introduisant le hasard directement dans la construction de la séquence, il est possible d’obtenir des taux d’erreur enO((log N)d−1N−3). Ce résultat repose sur des hypothèses de régularité supplémentaires de la fonction φ.

Un résultat plus récent deGerber(2015) obtient un taux enO(N−2)sous les mêmes les hypothèses de regularité commeOwen(1997). En assouplissant ces hypothèses, des taux en o(N−1)sont réalisables. Ainsi, l’intégration RQMC est toujours au moins aussi efficace que l’intégration par le Monte Carlo classique.

1.3.4 Utilisation de séquences à discrépance faible en statistique

L’utilisation de QMC en statistique repose sur la capacité du statisticien à transformer une séquence sur[0, 1]d_{vers la distribution d’intérêt tout en préservant la structure de}

discrépance faible des points initiaux. Cela peut être réalisé en réécrivant l’intégrale d’intérêt comme une espérance par rapport à la distribution uniforme :

EX[ψ(X)] =EU[ψ(Γ(U))].

Donc ψ◦_Γ = φ, en utilisant notre fonction de test initiale, et il faut s’assurer que

générique est l’utilisation de la transformation inverse de Rosenblatt (Rosenblatt,1952), qui généralise la cdf inverse au cas multivarié.

Jusqu’à aujourd’hui, l’utilisation de QMC a été largement étudiée dans les mathé- matiques financières (Lemieux and L’Ecuyer,2001;L’Ecuyer,2009;Glasserman,2013), mais son utilisation dans les statistiques classiques reste plutôt limitée. En fait, QMC peut être utilisé en combinaison avec l’échantillonnage préférentiel. Cette approche peut conduire à des estimateurs avec une variance réduite, voir par exempleGerber

and Chopin(2015);Chopin and Ridgway(2017). Les recherches actuelles portent sur

les applications QMC pour les méthodes MCMC, voir par exempleOwen and Tribble

(2005);L’Ecuyer et al.(2008);L’Ecuyer and Sanvido(2010);Chen et al.(2011);Schwedes

and Calderhead(2018).

1.3.5 Théorème centrale limite pour QMC

Dans diverses applications pratiques, il peut être impossible d’utiliser une séquence QMC pour toutes les dimensions du problème d’intérêt. Cela peut être dû au fait que la dimension du problème est trop grande, ou que pour certaines parties du prob- lème, il n’est pas possible de transformer la séquence QMC vers l’espace d’intérêt. Dans un tel contexte, nous pouvons utiliser une séquence mixte composée en partie d’une séquence MC de dimension s, notée vn, et en partie d’une séquence QMC de di-

mension d−s, notée un. La séquence jointe(vn, un) =rnest appelée séquence mixte.

La séquence mixte conduit à l’estimateur bIN =1/N∑Nn=1φ(rn).

Le taux de convergence d’une intégration basée sur une séquence mixte sera na- turellement dominé par la partie la plus lente, à savoir la partie MC. Dans ce contexte, il est possible d’établir une réduction asymptotique de la variance basée sur un théorème centrale limite. En particulier pour φ borné et quelques hypothèses supplé- mentairesÖkten et al.(2006) obtiennent que

√ N(bI_N−I) L −−−→ N→∞ N (0, ˜σ 2₎_,

où ˜σ2 _{est la variance asymptotique. En particulier ˜σ}2 _≤ _σ2_{, où σ}2 _{dénote la variance}

asymptotique du théorème centrale limite si rnest une séquence MC pure.

Dans le document High dimensional Bayesian computation (Page 30-34)