Probabilité d’évènements rares et marches aléatoires conditionnées

(1)

Neuvième Colloque Jeunes Probabilistes et Statisticiens, au Mont-Dore

Virgile Caron

Directeur de thèse : Michel Broniatowski

Mai 

(2)

1 Sommaire

1 Importance Sampling

1 Principe de Gibbs

1 Enoncé du Problème

1 Thérorème Principal

1 Lemme d’inversion

1 Integration

1 Propriété de l’IS

1 Difficultés rencontrées

1 Développements Actuels et Futurs

1 Biblio

(3)

Importance Sampling

Estimateur naïf

SoitZune v.a. surR^{de loi}^Pet de densitép. SoitA⊂R^{tel que}^P(A)>0.On veut estimerP(A)avec desZi copies i.i.d. deZsousp.

P_L:=¹ L

L

∑

l=1

1_A(Z_l)

Par la LGN, cet estimateur converge versP(A). De plus, il est sans biais.

Estimateur standard

On peut proposer une autre famille d’estimateurs sans biais. LesYi sont des copies i.i.d. d’une v.a.Yde densitég.Sisupp(p)⊂supp(g), Alors

P_L^g:= ¹ L

L

∑

l=1

p(Yl)

g(Yl)¹^A(Yl)→

Z p(x)

g(x)¹^A(x)g(x)dx=P(A)

(4)

Importance Sampling

Choix optimal de g

Le choix optimal degestp_Z_/_A, la densité deZconditionnée par(Z∈A).Ce choix est impossible sinonL=1 et on obtient un estimateur parfait. Le choix optimal impose de connaitre la réponse à la question posée. On aimerait alors approximer la densité conditionnellep_Z_/_A.

Cas considéré

On suppose la loi deX1de densitépXsurRconnue tel que lesXi sont i.i.d., E(X₁) =0 etVarX₁=1. On s’interesse à des conditionnements par(Z∈A) tel queZest une moyenne empirique dentermes avecnfixe :

Z:= ¹ n

n

∑

i=1

X_i=: ¹ nSⁿ₁

Et on prefere estimer directement à la loi de((X1, ...,Xn)|Z∈A). On ne peut pas le faire jusqu’ànmais jusqu’àk proche den.

(5)

Importance Sampling

Application

On considère, dans la suite, des ensemblesA, éventuellement indexé parn, tel queZ∈Aest un évènement de moyennes(MD) ou de grandes déviations(GD).

Ainsi,

A:= (an,∞)

où, en MD,an→E(X1)lentement par au dessus tel que an→E(X₁)

√

nan→∞ et, en GD,an=aest une constante.

(6)

Importance Sampling

Application

Avec les notations introduites, on veut alors estimer pourngrand fixé :

Pn:=P 1

nSⁿ₁∈A

Sigune densité d’ échantillonnage d’un vecteurY₁ⁿtel quegsoit le plus proche possible de la densité conditionnelle, alors

P_g⁽ⁿ⁾(εn) :=¹ L

L

∑

l=1

p_X(Y₁ⁿ(l))

g(Y₁ⁿ(l)) ¹^εⁿ(Y₁ⁿ(l)) où

εn:={(x1, ...,xn)∈Rⁿ:sⁿ₁/n>an} avecsⁿ₁:=x1+...+xn.

(7)

Principe de Gibbs

Kullback-Leibler

On définit la Distance de Kullback-Leibler : K(Q,P) :=

Z

logdQ dPdQ K(A,P) :=infK(Q,P);Q∈A Notons :

Π =arg infK(Q,P);Q∈A oùAest un ensemble de mesure.

Th. de Sanov

Théorème SanovSoitPn:= ¹_n∑ δXi la mesure empirique où lesXi sont i.i.d.

de loiP.

P(P_n∈A)≈^exp−nK(A,P)

(8)

Principe de Gibbs

Exemple

SoitA={Q∈P^:^R^xQ⁽^dx⁾^≥^a^}^.^Alors^Πdéfinit par le théorème de Sanov existe et on l’appelle loitiltéedéfinie par

dΠ^a

dP (x) =_R ^exp^tx exptxdP(x) oùR

vΠ^a(dv) =aettetasont en bijection. Dans le cas où il existe une densité, elle s’écrit :

π^a(x) =^exp^tx Φ(t) ^p(x) oùΦest la fonction génératrice des moments.

(9)

Principe de Gibbs

Conséquence

On déduit de cette loi conditionnelle le principe de Gibbs pourafixe,

L

X1/¹

n

∑

^Xⁱ ^≥^a

→Π^a

Ceci correspond à un évènement de GD. On peut en fabriquer une version MD.

Extension

On recherche une extension en densité deL ^X1^k|_n¹∑^Xi≥a_n

aveck=k_nle plus grand possible.

(10)

Enoncé du Problème

Estimateur

Pour rappel, notre estimateur s’écrit pour desY_i simulé sousg.

P_g⁽ⁿ⁾(ε_n) :=¹ L

L

∑

l=1

pX(Y₁ⁿ(l))

g(Y₁ⁿ(l)) ¹^εⁿ(Y₁ⁿ(l))

Notations Notons :

P_n:=L

X₁^k/¹

n

∑

^Xⁱ^≥^aⁿ

et p_nsa densité

On chercheg, une densité surR^k, proche dep_npourk aussi proche denque possible, facile à simuler tel quep_n Y₁^k(l)

≈^{g Y}1^k(l)

uniquement sur les chemins sousg.

(11)

Enoncé du Problème

Etat Actuel

Sik fixe (ouk/ntend vers une constante) etafixe, il a été démontré (cf.

Csiszar[1], Dembo/Zeitouni[2], Diaconis/Freedeman[3]) que

L ^X1^k|¹_n∑Xi ≥an

tends vers la densité produit.

Etat Actuel

Il n’existe pas de résultats en ce sens pourk/ntends vers 1, en GD, en MD, dansR^k et pas si le conditionnement est ¹_n∑^f(X_i)≥a_n.

Objectif

Nous voulons maintenant déterminer :

p(X^k₁=Y₁^k|Sⁿ₁=nan)

(12)

Thérorème Principal

Conditions

nlim→∞

k n =1

nlim→∞n−k=∞

Conditions

On suppose queX1est centrée et de variance 1 et satisfait la condition de Cramer, i.e.X1a une fonction génératrice des moments finieΦ(t) :=EexptX1

dans un voisinage non-vide de 0.

(13)

Conditions

Soitεnune suite positive qui satisfait

nlim→∞εn(logn)²=0

nlim→∞ε_n

√

n−k=∞

nlim→∞

(an−E(X₁))² εn(logn) =0

(14)

Notations

On définit une densitégade façon itérative :

ga(y₁^k) :=

k−1

∏

i=0

gi(yi+1/y₁ⁱ)

où chacun des termes approximep(X_i₊₁|Xⁱ₁,¹_n∑^Xi =a_n).La densitég_as’écrit sous la forme

g_i(y_i₊₁/x₁ⁱ) =C_ip_X(y_i₊₁)n(αβ+a,α,y_i₊₁)

oùn(µ,τ,x)est la densité normal de moyenneµet de varianceτenx. Les deux paramètresαetβs’expriment par rapport auxXⁱ₁précédent et à la loi de départ. On remarque quegaest une généralisation de la densité tiltée avec des termes de second ordre.

(15)

Theorem

On suppose satisfaite les conditions ci-dessus. Soit Y₁ⁿun échantillon de loi P_n.Alors

p_n Y₁^k

:=p(X^k₁=Y₁^k/Sⁿ₁=na) =ga(Y₁^k)(1+O_P_n(εn(logn)²)).

(16)

Lemme d’inversion

SoientR_netS_ndeux mesures de probabilités surRⁿde densités respectives r_nets_n.

Lemma

On suppose que pour une suiteεnqui tend vers0quand n tends vers l’infini, on a :

r_n(Y₁ⁿ) =s_n(Y₁ⁿ) (1+o_R_n(εn)) quand n tends vers∞.Alors

s_n(Y₁ⁿ) =r_n(Y₁ⁿ) (1+oSn(εn))

(17)

Graphes

Trajectoires

(18)

Graphes

Trajectoires

(19)

Choix de k

Choix dek

Le paramètre clé dans cette approximation estk qui représente la longueur maximale de la sous-trajectoire pour laquelle l’approximation est bonne àα%

près. Afin de déterminer la valeur maximal dek possible, on calcule :

RE(k) :=

s Varga

p_n Y₁^k

−ga Y₁^k ga Y₁^k .

(20)

Graphe

Variance Théorique

0 0,05 0,1 0,15 0,2 0,25

0 20 40 60 80 100

k alpha

Variance Théorique

(21)

Exemple

Variance Empirique

Pour la loi exponentielle de paramètre 1, le calcul de loi conditionnelle est exacte. On peut donc calculer la même quantité que précedemment.

Variance Empirique

0 0,002 0,004 0,006 0,008 0,01 0,012 0,014 0,016

alpha Variance Empirique

(22)

Integration

SoitT:=Sⁿ₁/ndistribué sousEn.Ainsi, pour tout ensembleA,

P(T∈A) =P_n Sⁿ₁

n

La masse de la loi deTest concentrée en un petit voisinage dean. Integration

SiY₁^k est un vecteur aléatoire généré sousp_net sous des hypothèses générales, alors on obtient :

p_n(Y₁^k) =gn(Y₁^k)

1+o_P_n(an(logn)²^+δ)

(23)

Propriété de l’IS

Calcul de la Variance

La variance d’un estimateur d’IS deP_noù l’échantillonage est effectué sous la densitégs’écrit

VarPg⁽ⁿ⁾(E^{) =}¹

L

Eg(Pg(l))²−P_n²

avec

Pg(l) := ^p(Y₁ⁿ(l))

g(Y₁ⁿ(l))¹^Eⁿ(Σⁿ₁(l))

Réduction de la Variance IS Classique

L’IS classique est défini parLsimulations d’un échantillon de tailleni.i.d.X₁ⁿ(j), 1≤j≤L,sous la densité tiltéeπ^aⁿ de façon non adaptative. L’erreur relative de l’estimateurP_n^ISest donnée par

RE(Pn) :=^{Var P}ⁿ P_n² =

√ 2π

√n

L an(1+o(1))

(24)

Réduction de la Variance

On prouve que notre estimateur IS fourni une nette amélioration par rapport au schéma classique. En effet, dans notre cas, nous obtenons pour l’erreur relative de notre estimateur :

RE(cPn) =

√ 2π

√

n−k−1

L an(1+o(1))

(25)

Réduction de la Variance : Empirique

Sur ce graphe, on a tracé le rapport des deux variances empiriques en fonction dek. On retrouve bien√

n−k/√

n, ce qui montre un net gain. En termes pratiques, c’est une réduction du nombre d’itérations.

0 0,2 0,4 0,6 0,8 1 1,2

0 2000 4000 6000 8000 10000 12000 14000 16000

Erreur relative

Valeur empirique Valeur théorique

(26)

Difficultés rencontrées

Inversion de m

On est amené à résoudre un grand nombre de fois : d

dtlogΦ(t) =c Simulation

La simulation selon N(a,b,x)p(x) peut être compliquer.

(27)

Développements Actuels et Futurs

Développements Actuels

Conditionnement par¹_n∑f(Xi)≥an, ¹_n∑ αiXi ≥an. Etude avec desXi dansR^d.

Développements Futurs

Recherche des maximas d’une fonction par des méthodes qui généralisent le recuit simulé.

(28)

Biblio