Comme nous l’avons vu, la plupart des générateurs de nombres aléatoires commen- cent par générer une séquence uniforme. La séquence uniforme peut être utilisée pour calculer une approximation de l’intégrale de la fonction φ :[0, 1]d →R définie comme
I =R[0,1]dφ(u)d u via b IN = 1 N N
∑
n=1 φ(un), (1.9)1.3. Quasi-Monte Carlo 15
où la fonction φ englobe potentiellement une transformation de la séquence uniforme vers un espace d’intérêt différent.
Une approche couramment utilisée pour réduire la variance de l’intégration est la stratification. La stratification divise un hypercube uniforme en un nombre de strata et procède ensuite en échantillonnant au sein de chaque strata. Cette approche cou- vre l’hypercube uniforme de manière plus uniforme et par conséquent conduit à une erreur réduite de l’intégration.
1.3.1 Séquences Halton
Une approche plus sophistiquée consiste à construire des séquences déterministes, également appelées séquences à discrépance faible ou quasi-Monte Carlo. Nous illus- trons cette approche avec la construction de séquences de Halton en suivantDick et al.
(2013). Soit i∈N. Alors i peut être exprimé en base b comme i=
∞
∑
a=1
iaba−1,
où ia ∈ {0, 1,· · · , b−1}. A titre d’exemple, nous représentons la séquence d’entiers
0, 1, 2, 3, 4,· · · en base b= 2. Cela donne 02, 12, 102, 112, 1002,· · ·. Nous définissons la
fonction inverse radicale νb(i)comme l’inversion de la représentation entière de i en
base b. Elle est définie comme
νb(i):= ∞
∑
a=1 ia ba.La fonction inverse radicale reflète cette représentation à la représentation décimale : 0, 0.12, 0.012, 0.112, 0.0012,· · ·. Si nous transformons cette séquence en base de représen-
tation 10 nous obtenons 0, 0.5, 0.25, 0.75, 0.125· · ·. Continuer cette construction donne une séquence qui remplit l’intervalle[0, 1]. La séquence de Halton est basée sur cette idée. Soit p1, p2,· · · , pd les d premiers nombres premiers. La séquence de Halton
u0, u1,· · · en dimension d est donnés comme
ui = (νp1(i), νp2(i),· · · , νpd(i)).
Nous illustrons la séquence de Halton ainsi qu’une séquence pseudo-aléatoire sur [0, 1]2dans la Figure1.1.
La séquence de Halton n’est qu’un moyen possible de construire des séquences qui couvrent[0, 1]dplus uniformément que l’échantillonnage aléatoire. D’autre séquences
qui atteignent le même objectif sont, par exemple, la séquence Faure, la séquence Sobol ou les réseaux digitaux. La qualité de la couverture de la séquence déterministe peut être évaluée par la discrépance de la séquence, que nous discutons maintenant.
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 Uniform sequence 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 Halton sequence
FIGURE 1.1: Séquence uniforme (à gauche) et séquence de Halton (à droite) de longueur N=256 sur[0, 1]2.
1.3.2 Convergence de l’échantillonnage QMC
La notion générale de discrépance d’une séquence u1,· · · , uN est définie comme suit :
D(u1:N,A):= sup A∈A 1 N N
∑
n=1 1{un∈A}−λd(A) ,où λd(A)est le volume (la mesure de Lebesgue sur Rd) de A etA est un ensemble
d’ensembles mesurables. Lorsque nous fixons les ensembles A = [0, b] = ∏di=1[0, bi]
avec 0 ≤ bi ≤ 1 comme l’ensemble des produits d’intervalles ancrés en 0, nous
obtenons la discrépance étoile
D∗(u1:N):=sup [0,b] 1 N N
∑
n=1 1{un∈[0,b]}−λd([0, b]) .La discrépance étoile peut être utilisée afin d’établir une limite supérieure de l’erreur d’approximation de l’intégrale. Nous définissons cette erreur comme
e(φ, N) = I−bIN .
Nous avons vu dans la section1.2.1 que pour l’utilisation d’une séquence aléatoire uniforme on a
q
E[e(ψ, N)2] = O(N−1/2),
en supposant que la variable aléatoire φ(U)est de carré intégrable. Lors de l’utilisation d’une séquence à discrépance faible, l’erreur peut être quantifiée par l’inégalité Koksma- Hlawka :
1.3. Quasi-Monte Carlo 17
où V(φ)est la variation de la fonction φ dans le sens de Hardy et Krause. Cette quan-
tité est étroitement liée à la regularité de la fonction. La séquence de Halton présen- tée conduit à une discrépance en O((log N)d/N). Par conséquent, les séquences
de Halton sont asymptotiquement plus efficaces que les séquences aléatoires pour l’intégration, à condition que V(φ) <∞.
1.3.3 Quasi-Monte Carlo randomisé
Un inconvénient majeur de l’échantillonnage QMC est le fait qu’il n’est pas facile d’évaluer l’erreur de l’approximation car V(φ) est difficile à calculer. En réintro-
duisant de l’aléa dans une séquence QMC tout en préservant sa structure de discré- pance faible, l’incertitude peut être évaluée par échantillonnage répété. Cette idée est appelée quasi-Monte Carlo randomisé (RQMC). Ces séquences peuvent être constru- ites, par exemple, en décalant au hasard la séquence entière (Cranley and Patterson,
1976) : Soit v∼ U [0, 1]det soit(un)1≤n≤N une séquence QMC. Ensuite, la séquence
˜
un:= un+v mod 1,
où x7→ x mod 1 est la fonction modulo composants par composants, est une séquence QMC avec une probabilité de 1. De plus, la séquence est distribuée marginalement uniforme. Ainsi, lors de l’utilisation des points ˜unpour l’intégration, les estimations
de (1.9) sont sans biais et nous pouvons utiliser notre boîte à outils probabilistes pour évaluer l’erreur.
Une approche plus complexe consiste en des réseaux brouillés, introduits parOwen
(1997). En introduisant le hasard directement dans la construction de la séquence, il est possible d’obtenir des taux d’erreur enO((log N)d−1N−3). Ce résultat repose sur des hypothèses de régularité supplémentaires de la fonction φ.
Un résultat plus récent deGerber(2015) obtient un taux enO(N−2)sous les mêmes les hypothèses de regularité commeOwen(1997). En assouplissant ces hypothèses, des taux en o(N−1)sont réalisables. Ainsi, l’intégration RQMC est toujours au moins aussi efficace que l’intégration par le Monte Carlo classique.
1.3.4 Utilisation de séquences à discrépance faible en statistique
L’utilisation de QMC en statistique repose sur la capacité du statisticien à transformer une séquence sur[0, 1]dvers la distribution d’intérêt tout en préservant la structure de
discrépance faible des points initiaux. Cela peut être réalisé en réécrivant l’intégrale d’intérêt comme une espérance par rapport à la distribution uniforme :
EX[ψ(X)] =EU[ψ(Γ(U))].
Donc ψ◦Γ = φ, en utilisant notre fonction de test initiale, et il faut s’assurer que
générique est l’utilisation de la transformation inverse de Rosenblatt (Rosenblatt,1952), qui généralise la cdf inverse au cas multivarié.
Jusqu’à aujourd’hui, l’utilisation de QMC a été largement étudiée dans les mathé- matiques financières (Lemieux and L’Ecuyer,2001;L’Ecuyer,2009;Glasserman,2013), mais son utilisation dans les statistiques classiques reste plutôt limitée. En fait, QMC peut être utilisé en combinaison avec l’échantillonnage préférentiel. Cette approche peut conduire à des estimateurs avec une variance réduite, voir par exempleGerber
and Chopin(2015);Chopin and Ridgway(2017). Les recherches actuelles portent sur
les applications QMC pour les méthodes MCMC, voir par exempleOwen and Tribble
(2005);L’Ecuyer et al.(2008);L’Ecuyer and Sanvido(2010);Chen et al.(2011);Schwedes
and Calderhead(2018).
1.3.5 Théorème centrale limite pour QMC
Dans diverses applications pratiques, il peut être impossible d’utiliser une séquence QMC pour toutes les dimensions du problème d’intérêt. Cela peut être dû au fait que la dimension du problème est trop grande, ou que pour certaines parties du prob- lème, il n’est pas possible de transformer la séquence QMC vers l’espace d’intérêt. Dans un tel contexte, nous pouvons utiliser une séquence mixte composée en partie d’une séquence MC de dimension s, notée vn, et en partie d’une séquence QMC de di-
mension d−s, notée un. La séquence jointe(vn, un) =rnest appelée séquence mixte.
La séquence mixte conduit à l’estimateur bIN =1/N∑Nn=1φ(rn).
Le taux de convergence d’une intégration basée sur une séquence mixte sera na- turellement dominé par la partie la plus lente, à savoir la partie MC. Dans ce con- texte, il est possible d’établir une réduction asymptotique de la variance basée sur un théorème centrale limite. En particulier pour φ borné et quelques hypothèses supplé- mentairesÖkten et al.(2006) obtiennent que
√ N(bIN−I) L −−−→ N→∞ N (0, ˜σ 2),
où ˜σ2 est la variance asymptotique. En particulier ˜σ2 ≤ σ2, où σ2 dénote la variance
asymptotique du théorème centrale limite si rnest une séquence MC pure.