Probabilité d’évènements rares et marches aléatoires conditionnées
Neuvième Colloque Jeunes Probabilistes et Statisticiens, au Mont-Dore
Virgile Caron
Directeur de thèse : Michel Broniatowski
Mai
1 Sommaire
1 Importance Sampling
1 Principe de Gibbs
1 Enoncé du Problème
1 Thérorème Principal
1 Lemme d’inversion
1 Integration
1 Propriété de l’IS
1 Difficultés rencontrées
1 Développements Actuels et Futurs
1 Biblio
Importance Sampling
Estimateur naïf
SoitZune v.a. surRde loiPet de densitép. SoitA⊂Rtel queP(A)>0.On veut estimerP(A)avec desZi copies i.i.d. deZsousp.
PL:=1 L
L
∑
l=1
1A(Zl)
Par la LGN, cet estimateur converge versP(A). De plus, il est sans biais.
Estimateur standard
On peut proposer une autre famille d’estimateurs sans biais. LesYi sont des copies i.i.d. d’une v.a.Yde densitég.Sisupp(p)⊂supp(g), Alors
PLg:= 1 L
L
∑
l=1
p(Yl)
g(Yl)1A(Yl)→
Z p(x)
g(x)1A(x)g(x)dx=P(A)
Importance Sampling
Choix optimal de g
Le choix optimal degestpZ/A, la densité deZconditionnée par(Z∈A).Ce choix est impossible sinonL=1 et on obtient un estimateur parfait. Le choix optimal impose de connaitre la réponse à la question posée. On aimerait alors approximer la densité conditionnellepZ/A.
Cas considéré
On suppose la loi deX1de densitépXsurRconnue tel que lesXi sont i.i.d., E(X1) =0 etVarX1=1. On s’interesse à des conditionnements par(Z∈A) tel queZest une moyenne empirique dentermes avecnfixe :
Z:= 1 n
n
∑
i=1
Xi=: 1 nSn1
Et on prefere estimer directement à la loi de((X1, ...,Xn)|Z∈A). On ne peut pas le faire jusqu’ànmais jusqu’àk proche den.
Importance Sampling
Application
On considère, dans la suite, des ensemblesA, éventuellement indexé parn, tel queZ∈Aest un évènement de moyennes(MD) ou de grandes déviations(GD).
Ainsi,
A:= (an,∞)
où, en MD,an→E(X1)lentement par au dessus tel que an→E(X1)
√
nan→∞ et, en GD,an=aest une constante.
Importance Sampling
Application
Avec les notations introduites, on veut alors estimer pourngrand fixé :
Pn:=P 1
nSn1∈A
Sigune densité d’ échantillonnage d’un vecteurY1ntel quegsoit le plus proche possible de la densité conditionnelle, alors
Pg(n)(εn) :=1 L
L
∑
l=1
pX(Y1n(l))
g(Y1n(l)) 1εn(Y1n(l)) où
εn:={(x1, ...,xn)∈Rn:sn1/n>an} avecsn1:=x1+...+xn.
Principe de Gibbs
Kullback-Leibler
On définit la Distance de Kullback-Leibler : K(Q,P) :=
Z
logdQ dPdQ K(A,P) :=infK(Q,P);Q∈A Notons :
Π =arg infK(Q,P);Q∈A oùAest un ensemble de mesure.
Th. de Sanov
Théorème SanovSoitPn:= 1n∑ δXi la mesure empirique où lesXi sont i.i.d.
de loiP.
P(Pn∈A)≈exp−nK(A,P)
Principe de Gibbs
Exemple
SoitA={Q∈P:RxQ(dx)≥a}.AlorsΠdéfinit par le théorème de Sanov existe et on l’appelle loitiltéedéfinie par
dΠa
dP (x) =R exptx exptxdP(x) oùR
vΠa(dv) =aettetasont en bijection. Dans le cas où il existe une densité, elle s’écrit :
πa(x) =exptx Φ(t) p(x) oùΦest la fonction génératrice des moments.
Principe de Gibbs
Conséquence
On déduit de cette loi conditionnelle le principe de Gibbs pourafixe,
L
X1/1
n
∑
Xi ≥a
→Πa
Ceci correspond à un évènement de GD. On peut en fabriquer une version MD.
Extension
On recherche une extension en densité deL X1k|n1∑Xi≥an
aveck=knle plus grand possible.
Enoncé du Problème
Estimateur
Pour rappel, notre estimateur s’écrit pour desYi simulé sousg.
Pg(n)(εn) :=1 L
L
∑
l=1
pX(Y1n(l))
g(Y1n(l)) 1εn(Y1n(l))
Notations Notons :
Pn:=L
X1k/1
n
∑
Xi≥an
et pnsa densité
On chercheg, une densité surRk, proche depnpourk aussi proche denque possible, facile à simuler tel quepn Y1k(l)
≈g Y1k(l)
uniquement sur les chemins sousg.
Enoncé du Problème
Etat Actuel
Sik fixe (ouk/ntend vers une constante) etafixe, il a été démontré (cf.
Csiszar[1], Dembo/Zeitouni[2], Diaconis/Freedeman[3]) que
L X1k|1n∑Xi ≥an
tends vers la densité produit.
Etat Actuel
Il n’existe pas de résultats en ce sens pourk/ntends vers 1, en GD, en MD, dansRk et pas si le conditionnement est 1n∑f(Xi)≥an.
Objectif
Nous voulons maintenant déterminer :
p(Xk1=Y1k|Sn1=nan)
Thérorème Principal
Conditions
nlim→∞
k n =1
nlim→∞n−k=∞
Conditions
On suppose queX1est centrée et de variance 1 et satisfait la condition de Cramer, i.e.X1a une fonction génératrice des moments finieΦ(t) :=EexptX1
dans un voisinage non-vide de 0.
Thérorème Principal
Conditions
Soitεnune suite positive qui satisfait
nlim→∞εn(logn)2=0
nlim→∞εn
√
n−k=∞
nlim→∞
(an−E(X1))2 εn(logn) =0
Thérorème Principal
Notations
On définit une densitégade façon itérative :
ga(y1k) :=
k−1
∏
i=0
gi(yi+1/y1i)
où chacun des termes approximep(Xi+1|Xi1,1n∑Xi =an).La densitégas’écrit sous la forme
gi(yi+1/x1i) =CipX(yi+1)n(αβ+a,α,yi+1)
oùn(µ,τ,x)est la densité normal de moyenneµet de varianceτenx. Les deux paramètresαetβs’expriment par rapport auxXi1précédent et à la loi de départ. On remarque quegaest une généralisation de la densité tiltée avec des termes de second ordre.
Thérorème Principal
Theorem
On suppose satisfaite les conditions ci-dessus. Soit Y1nun échantillon de loi Pn.Alors
pn Y1k
:=p(Xk1=Y1k/Sn1=na) =ga(Y1k)(1+OPn(εn(logn)2)).
Lemme d’inversion
Lemme d’inversion
SoientRnetSndeux mesures de probabilités surRnde densités respectives rnetsn.
Lemma
On suppose que pour une suiteεnqui tend vers0quand n tends vers l’infini, on a :
rn(Y1n) =sn(Y1n) (1+oRn(εn)) quand n tends vers∞.Alors
sn(Y1n) =rn(Y1n) (1+oSn(εn))
Graphes
Trajectoires
Graphes
Trajectoires
Choix de k
Choix dek
Le paramètre clé dans cette approximation estk qui représente la longueur maximale de la sous-trajectoire pour laquelle l’approximation est bonne àα%
près. Afin de déterminer la valeur maximal dek possible, on calcule :
RE(k) :=
s Varga
pn Y1k
−ga Y1k ga Y1k .
Graphe
Variance Théorique
Variance Théorique
0 0,05 0,1 0,15 0,2 0,25
0 20 40 60 80 100
k alpha
Variance Théorique
Exemple
Variance Empirique
Pour la loi exponentielle de paramètre 1, le calcul de loi conditionnelle est exacte. On peut donc calculer la même quantité que précedemment.
Variance Empirique
0 0,002 0,004 0,006 0,008 0,01 0,012 0,014 0,016
alpha Variance Empirique
Integration
Integration
SoitT:=Sn1/ndistribué sousEn.Ainsi, pour tout ensembleA,
P(T∈A) =Pn Sn1
n
La masse de la loi deTest concentrée en un petit voisinage dean. Integration
SiY1k est un vecteur aléatoire généré souspnet sous des hypothèses générales, alors on obtient :
pn(Y1k) =gn(Y1k)
1+oPn(an(logn)2+δ)
Propriété de l’IS
Calcul de la Variance
La variance d’un estimateur d’IS dePnoù l’échantillonage est effectué sous la densitégs’écrit
VarPg(n)(E) =1
L
Eg(Pg(l))2−Pn2
avec
Pg(l) := p(Y1n(l))
g(Y1n(l))1En(Σn1(l))
Réduction de la Variance IS Classique
L’IS classique est défini parLsimulations d’un échantillon de tailleni.i.d.X1n(j), 1≤j≤L,sous la densité tiltéeπan de façon non adaptative. L’erreur relative de l’estimateurPnISest donnée par
RE(Pn) :=Var Pn Pn2 =
√ 2π
√n
L an(1+o(1))
Propriété de l’IS
Réduction de la Variance
On prouve que notre estimateur IS fourni une nette amélioration par rapport au schéma classique. En effet, dans notre cas, nous obtenons pour l’erreur relative de notre estimateur :
RE(cPn) =
√ 2π
√
n−k−1
L an(1+o(1))
Propriété de l’IS
Réduction de la Variance : Empirique
Sur ce graphe, on a tracé le rapport des deux variances empiriques en fonction dek. On retrouve bien√
n−k/√
n, ce qui montre un net gain. En termes pratiques, c’est une réduction du nombre d’itérations.
0 0,2 0,4 0,6 0,8 1 1,2
0 2000 4000 6000 8000 10000 12000 14000 16000
Erreur relative
Valeur empirique Valeur théorique
Difficultés rencontrées
Inversion de m
On est amené à résoudre un grand nombre de fois : d
dtlogΦ(t) =c Simulation
La simulation selon N(a,b,x)p(x) peut être compliquer.
Développements Actuels et Futurs
Développements Actuels
Conditionnement par1n∑f(Xi)≥an, 1n∑ αiXi ≥an. Etude avec desXi dansRd.
Développements Futurs
Recherche des maximas d’une fonction par des méthodes qui généralisent le recuit simulé.
Biblio
Biblio