• Aucun résultat trouvé

Théorèmes limites centraux

Dans le document MCMC adaptatifs à essais multiples (Page 120-124)

3.3 Propriétés de l’estimation dans les algorithmes adaptatifs

3.3.2 Théorèmes limites centraux

La loi des grands nombres est souvent satisfaite dans l’estimation de π(f) par son équivalent empirique ˆπN(f ). Cependant, cette propriété assure seulement que l’estimateur Monte Carlo converge

vers l’espérance et ne renseigne donc pas sur la variabilité de cette estimateur. Quant à elle, l’estimation par région de confiance permet de décrire une région contenant un ensemble d’estimations ponctuelles plausibles. Ensemble, l’estimation ponctuelle et l’estimation par région de confiance permettent donc une estimation directe de π(f), accompagnée d’une certaine région près de l’estimé contenant des valeurs tout aussi plausibles, mais qui n’ont pas été obtenues simplement par la nature aléatoire du processus.

Afin d’obtenir une région de confiance autour d’un estimé, il est nécessaire d’avoir la distribution de l’estimateur produisant l’estimé. En général, une telle distribution est difficile à trouver puisqu’il s’agit d’une somme de variables aléatoires (fortement auto-corrélés dans le cas MCMC.) Par contre, des résultats asymptotiques peuvent fournir une bonne approximation de cette distribution. En effet, la classe des théorèmes centraux limites montrent que la distribution d’une moyenne converge en distribution, évidemment sous certaines conditions, vers la distribution d’une loi normale centrée en l’espérance de la moyenne et d’une certaine variance asymptotique. Ainsi, il sera parfois possible d’approcher la distribution de ˆπN(f ) par celle d’une loi normale ; il sera ensuite possible d’utiliser

cette distribution afin d’estimer une certaine région de confiance autour de ˆπN(f ).

D’une manière générale, un théorème central limite énonce un résultat tel que

N−1/2 N X n=1 [f (Xn)− π(f)] D −→ Z, N→ ∞, où Z ∼ N (0, σ2

) et 0 6 σ∞2 <∞ est appelée la variance asymptotique. Généralement, on aura

σ2

> 0, mais certains cas dégénérés sont parfois possibles où Z ∼ δ0. Similairement, dans le cas où f

est multivarié, un tel théorème énonce

N−1/2 N X n=1 [f (Xn)− π(f)] D −→ Z, N→ ∞,

où Z ∼ Nq(0, Σ∞) et Σ∞est une matrice symétrique définie positive appelée la covariance asymptotique.

À nouveau, il est possible que Σ∞ne corresponde pas à une covariance dans certains cas. On doit alors

considérer la distribution normale généralisée où la covariance peut n’être que définie semi-positive, constituant alors une densité dans un sous-espace de Rq. On se limitera ici au cas où f est univarié

étant donné qu’aucun résultat n’existe par rapport à f multivarié pour les algorithmes adaptatifs ; la section2.4contient certaines remarques sur le cas multivarié pour les chaînes homogènes.

Cette section sera consacrée à l’étude des conditions sous lesquelles un algorithme MCMC adaptatif vérifie un tel théorème ainsi qu’au calcul de Σ∞ et de son estimation. Enfin, le tout sera relié à la

question de l’efficacité de l’algorithme, ce qui constituait le motif principal pour introduire l’adaptation dans les méthodes MCMC.

3.3.2.1 Conditions suffisantes

Comme ce fut le cas pour les lois des grands nombres, une condition sur la fonction f ainsi que des conditions assurant l’ergodicité de l’algorithme seront requises. Puis, comme il s’agit d’un type de résultat plus fort qu’une loi des grands nombres, une hypothèse additionnelle sera nécessaire. Afin d’espérer vérifier un théorème central limite, il sera primordial de supposer la convergence en distribution de l’index d’adaptation vers une certaine limite possiblement aléatoire, c.-à-d., Γn

D

→ Γ∞

pour une certaine variable aléatoire Γ∞à support dans Y. En effet, si la distribution de Γnne converge

pas vers une certaine limite, le comportement du processus {(Xn,Γn)}n>0 sera généralement trop

difficile à contrôler pour prouver un tel résultat. La plupart des résultats dans la littérature exigent même que la limite Γ∞ soit une variable aléatoire dégénérée (et donc Γn

P

→ γ∞ ∈ Y) ; on trouvera

alors que la distribution de transition se stabilise asymptotiquement vers une transition fixe. Dans ce cas, il n’est pas surprenant de trouver un théorème central limite puisque l’algorithme se réduit effectivement à un algorithme MCMC non-adaptatif pour lequel divers théorèmes limites centraux existent (section2.2.3.2).

Le contexte général des algorithmes adaptatifs introduit parRoberts et Rosenthal(2007), dans lequel les conditions générales d’adaptation diminuante et de convergence bornée permettaient de vérifier l’ergodicité et certaines lois des grands nombre, n’est pas suffisant afin de vérifier un théorème central limite. En effet, l’adaptation diminuante n’implique pas nécessairement une convergence de l’index de la transition et il donc possible de construire un contre-exemple : Roberts et Rosenthal

(2007, exemple 24) considèrent un algorithme où les deux conditions d’ergodicité sont satisfaites, mais où une loi forte n’est pas satisfaite pour une fonction bornée. Par conséquent, le théorème central limite ne peut être satisfait pour cette même fonction bornée.

Dans l’étude de l’ergodicité des algorithmes adaptatifs par approximations stochastiques (section3.2.3), le résultat principal dans le cas général à recouvrements compacts (théorème 3.31) implique une convergence du paramètre de la transition θn = Γn vers une limite fixe qui est un point stationnaire

du champ moyen. Ce contexte se prête donc particulièrement bien à un possible théorème central limite puisqu’on a l’ergodicité, la loi forte des grands nombres pour une grande classe de fonctions (théorème3.10) et la convergence du paramètre. Le résultat suivant n’est donc pas surprenant :

Théorème 3.11 (Andrieu et Moulines, 2006, théorème 9) Soit un algorithme adaptatif à

recouvrement compact {Kr}r>0deΘ ⊆ Rpet soit {γn}n>1une suite de pas d’adaptation décroissante telle que Pn>1n−1/2γn <

∞. supposons que l’algorithme satisfait les conditions3.3, 3.24 et 3.25 pour un certain choix de V , α et β. Pour toute fonction f : X → R et θ ∈ Θ, on définit

σ2(θ,f) := π ( ˆfθ− Pθfθˆ)2  , ˆ(·) :=X n>0 (Pn θf (·) − π(f)) . (3.22)

Supposons, de plus, qu’il existe une variable aléatoire θà support dans Θ telle que π( ˆfθ2∞) et

π((Pθˆ∞)

2) soient bornés presque sûrement et telle que lim sup

n→∞

Alors, si f ∈ LVα, le théorème central limite est satisfait pour f : n−1/2 N X n=1 [f(Xn) − π(f)] −→D Z, N→ ∞,

où Z a la function caractéristique E{exp(−1

2σ

2

,f )t2)}. En particulier, si θest constant avec

σ2,f ) > 0, alors Z∼ N (0,σ2,f )).

On note que les conditions3.26 et 3.27nécessaires à démontrer la convergence de l’adaptation vers une valeur fixe dans le théorème3.31ne sont pas requises. On requiert plutôt la supposition plus faible que θn converge vers une variable aléatoire fixe.

Dans le cas plus restreint où Θ est supposé compact et que θn converge vers une valeur fixe

θ∈ θ,Andrieu et Atchadé (2007, théorème 2.3) arrivent à un résultat similaire pour un ensemble

de conditions pratiquement identiques.

Andrieu et Moulines(2006, théorème 15) etSaksman et Vihola(2010, théorème 18) utilisent le théorème 3.11 afin de démontrer un théorème central limite pour l’algorithme AM 3.1 pour toute fonction f ∈ LVα où V = π−1/2sup1/2π et 0 6 α < 1/2. Par la convergence de l’adaptation vers une

limite fixe, ils obtiennent Z ∼ N (0,σ2) pour une certaine variance asymptotique σ2

∈ [0,∞) qui peut être calculée par (3.22).

Le cas plus général (pas nécessairement par approximations stochastiques) est plus complexe ; voici quelques cas spécifiques où un théorème central limite est satisfait. D’abord, un théorème central limite a été établi pour les algorithmes adaptatifs par régénération (section3.1.3.1) parGilks et collab.

(1998, théorème 2). De plus,Atchadé(2010, théorème 3.3) démontrent un théorème central limite pour l’échantillonneur Équi-énergie où les transitions n’admettent pas nécessairement π comme distribution invariante, mais bien πn qui doivent satisfaire πn(f )

p.s.

→ π(f). Fort et collab. (2014) généralisent ce résultat à tout algorithme adaptatif où la distribution invariante de Pθ peut dépendre de θ. Les

conditions sont assez techniques, mais des applications à l’algorithme AM et à l’algorithme à tempérage en parallèle sont considérées. Enfin, tout comme il est possible de vérifier la loi forte des grands nombres pour les algorithmes AirMCMC3.6, un théorème central limite (Chimisov et collab.,2018, théorème 1) est également satisfait en supposant que Y est un espace métrique, que Γnconverge presque sûrement

vers une variable aléatoire fixe et que Pγ est une fonction continue de γ. Notons que l’ergodicité

géométrique de {Pγ}γ∈Y requise peut même être affaiblie à une ergodicité polynomiale (Chimisov

et collab.,2018, théorème 3).

3.3.2.2 Variance asymptotique et estimation

Lorsque θ∞est une constante, on trouve bel et bien une distribution asymptotique normale pour

l’estimateur ˆπ(f). Dans ce cas, on s’intéresse souvent au calcul de la variance asymptotique donnée par (3.22) et de son estimation en utilisant l’échantillon produit par l’algorithme.

Dans le cas de chaînes de Markov homogènes, il existe plusieurs méthodes afin d’estimer la variance asymptotique σ2(θ,f ) et la sous-section 2.4.2 en présente quelques-unes. Les algorithmes adaptatifs

ne jouissent pas de cette homogénéité et la question de l’estimation de σ2(θ,f ) ne pourra pas avoir

les mêmes garanties en utilisant les mêmes techniques. Cependant, puisque la chaîne tend à devenir homogène par la convergence de θn, on s’attend à ce que ces techniques d’estimations demeurent

relativement valides : en écartant une portion initiale de la chaîne, on obtient une chaîne qui est alors pratiquement homogène et les propriétés de l’estimation dans cette situation sont mieux connues.

Atchadé(2011) considèrent l’estimateur spectral de la variance asymptotique, ˆ σ2N(θ,f ) = N X n=−N w(nbNγN(n),

où ˆγN(n) est l’autocovariance empirique d’ordre n de{f(Xn)}Nn=0, w : R → R est un noyau dont le

support est [−1,1] et bN > 0 est la fenêtre d’estimation. Sous certaines conditions sur w, sur bN et

sur l’algorithme adaptatif (une ergodicité géométrique et une adaptation diminuante),Atchadé(2011, théorèmes 4.1-3) montrent que cet estimateur est Lp-convergent. Pour ce qui est de l’estimateur par

moyenne par lot (section2.4.2.3), les propriétés théoriques dans le cas adaptatif sont inconnues pour le moment. Enfin, lorsque f est multivarié, aucun résultat théorique quant à l’estimation de la variance asymptotique n’existe actuellement pour les algorithmes adaptatifs. En pratique, deux options sont alors possibles. D’une part, il est possible de construire des intervalles de confiance pour chacune des composantes de f puis de les ajuster par une méthode telle que celle de Bonferroni. D’autre part, en se fiant à l’extension des résultats univariés à multivariés dans le cas homogène, on peut s’attendre à ce qu’une même extension soit possible pour les algorithmes adaptatifs ; on pourrait donc utiliser les estimateurs multivariés considérés à la section2.4.2.5.

3.3.2.3 Efficacité de l’algorithme

La motivation principale d’introduire une composante d’adaptation dans un algorithme MCMC est la mise-au-point automatique des différents paramètres de la distribution de transition. L’automatisation sera construite de sorte à rendre l’algorithme optimal par rapport à une certaine mesure (voir sous- section3.1.4pour quelques-uns de ces critères.) La plupart des critères sont en fait des proxys pour l’efficacité de l’estimation définie en fonction de la variance asymptotique de l’estimation de π(f),

effY(γ,f ) = σ2(γ,f ) σ2 ∗(f ) , σ∗2(f ) = inf γ∈Yσ 2(γ,f ).

Ainsi, l’algorithme adaptatif cherchera généralement à trouver γ tel que la variance asymptotique

σ2(γ,f ) soit minimale au sein de la famille{P

γ}γ∈Y. Dans certaines situations, la transition optimale

est en fait connue en relation avec π et l’algorithme estime alors les propriétés de π requise à la définition de Pγoù σ

2

,f ) = σ∗2(f ). Par exemple, un algorithme Metropolis à propositions

gaussiennes est optimal lorsque la covariance de la proposition est un certain multiple de la covariance de π : l’algorithme AM estime donc Σπ pour ainsi approcher une transition optimale.

Les théorèmes centraux limites permettent ce genre de conclusions. En effet, ils garantissent une variance asymptotique finie et fournissent une manière de la calculer puis de l’estimer. De plus, lorsque le critère d’optimisation utilisé dans l’algorithme n’est pas directement l’efficacité de l’estimation, il est possible de comparer différents algorithmes adaptatifs en comparant leurs variances asymptotiques tout comme cette mesure est utilisée pour comparer l’efficacité des algorithme à transitions fixes.

Dans le document MCMC adaptatifs à essais multiples (Page 120-124)