• Aucun résultat trouvé

2.2 Modélisation des incertitudes

2.2.3 Méthodes d'échantillonnage et estimation des moments d'une va-

À noter toutefois que cette approche dépend de la résolution de systèmes linéaires mal conditionnés, ce qui peut occasionner des problèmes numériques.

Terminons cette section par un aspect non mentionné jusqu'à présent, connu sous le nom de malédiction de la dimension (curse of dimensionality en anglais). Lorsque la dimension augmente, le volume de l'espace augmente de telle sorte que les données disponibles deviennent éparses. En conséquence, de nombreuses méthodes numériques deviennent inecaces à mesure que la dimension augmente pour un budget xé. Ceci inclut les deux méthodes d'estimation de densité vues précédemment, celles-ci devenant moins robustes à partir de la dimension 3 pour un budget de simulation raisonnable. On verra dans le chapitre 6que ce éau de la dimension peut être surpassé en ayant recours aux modèles de copules vignes (vines en anglais) [Bedford and Cooke, 2001,Bedford and Cooke, 2002] dans le cas de l'estimation d'une densité de copule.

2.2.3 Méthodes d'échantillonnage et estimation des moments d'une variable aléatoire

L'objet des prochaines sous-sections est l'évaluation d'un moment de la formeE[ϕ(X)]

où X est vecteur aléatoire de dimension det ϕ:Rd→R une application mesurable telle queϕ(X)soit de variance nie. Rappelons que lorsque X admet une PDFfX, l'espérance de ϕ(X) se réécrit comme l'intégrale suivante :

µϕ(X):=E[ϕ(X)] = Z

Rd

ϕ(x)fX(x)dx. (2.26) 2.2.3.1 La méthode de Monte-Carlo

Soit {Xn}Nn=1 un échantillon de réalisations i.i.d de X. On dénit les estimateurs Monte-Carlo de l'espérance et de l'écart-type de ϕ(X) par

ˆ

Ces estimateurs sont non biaisés et fortement consistants en vertu de la loi forte des grands nombres. Par ailleurs, le théorème central limite permet d'obtenir des intervalles de conance asymptotique de l'espérance (2.26) de niveau α∈]0,1[ :

Remarques. La méthode de Monte-Carlo présente une vitesse de convergence en 1N ce qui s'avère souvent plus lent que les méthodes numériques. En eet, dans le cas ab-solument continu, l'espérance de ϕ(X) peut être évaluée par intégration numérique de l'intégrale dénie par Eq.(2.27), par exemple avec les méthodes des rectangles, des tra-pèzes ou encore de Simpson qui admettent respectivement, dans le cas unidimensionnel d= 1et si l'intégrande est susamment régulière, les vitesses de convergence N1, N12 et N14. Cependant, la méthode de Monte-Carlo présente l'avantage d'être insensible à la régula-rité de l'intégrande ϕ(·)fX(·)et à la dimension du problème, contrairement aux méthodes de quadratures classiques. En eet, la malédiction de la dimension impacte fortement la précision des formules de quadrature en grande dimension. Il existe certains résultats théoriques qui quantient cet eet de malédiction, voir par exemple le théorème de Ba-khvalov dont une démonstration gure dans [Dimov, 2008]. Dans la section suivante, la question de la réduction de la variance de l'estimateur Monte-Carlo est abordée. Diverses méthodes existent comme l'échantillonnage stratié, les variables antithétiques, les va-riables de contrôles etc. (voir par exemple [Hammersley, 2013]). Cependant, par soucis de concision, seule la méthode d'échantillonnage préférentiel est détaillée.

2.2.3.2 Réduction de la variance : l'échantillonnage préférentiel

Dans cette section, on se place dans le cas où X est absolument continue. La méthode d'échantillonnage préférentiel (Importance Sampling (IS) en anglais) à été introduite dans l'objectif de réduire la variance de l'estimateur Monte-Carlo déni par Eq.(2.27). L'idée principale est de générer des échantillons suivant une distribution auxiliaire g au lieu de la densité initiale fX. En outre, lorsque f est absolument continue par rapport à g, l'espérance de X admet la représentation suivante :

µϕ(X) = L'estimateur par tirages préférentiels est alors donné par

ˆ

La variance de cet estimateur s'écrit : Var(ˆµISϕ(X)) = 1

L'avantage de cette méthode est que l'on a un contrôle de l'erreur sur l'estimation de la moyenne de ϕ(X) puisque la variance Var(ˆµISϕ(X)) peut être approximée à l'aide de la méthode de Monte-Carlo (cf. section 2.2.3.1). La principale diculté de l'approche par

2.2. Modélisation des incertitudes 34

tirages préférentiels est le choix de la distribution auxiliaire. En eet, on peut noter que la variance de µˆISϕ(X) dépend du ratioϕ(·)fX(·)/g(·)qui peut exploser si g est mal choisie.

Pour queµˆISϕ(X) soit plus performant queµˆMCϕ(X) il convient donc de choisirg dans l'objectif de minimiser la variance dénie par Eq.(2.31). La distribution optimale, (i.e celle qui annule la variance) est dénie par

gopt(·) = ϕ(·)fX(·)

µϕ(X) . (2.32)

La distribution optimale est cependant inutilisable en pratique puisqu'elle dépend de la quantité que l'on cherche précisément à estimer. Le challenge est donc de parvenir à déterminer une distribution auxiliaire la plus proche possible de la distribution optimale, et avec laquelle on sait échantillonner. Pour une bibliographie de ces méthodes, le lecteur intéressé peut se référer par exemple à [Smith et al., 1997,Tokdar and Kass, 2010]. On ter-mine cette section par une présentation de l'échantillonnage préférentiel non-paramétrique (Nonparametric Importance Sampling (NIS) en anglais) introduit par [Zhang, 1996] qui sera employé dans le chapitre 4. Le principe de la méthode NIS est de construire un estimateur non-paramétrique de la distribution optimalegopt à partir d'un échantillon gé-néré suivant une distribution initiale g0. Plus précisément, étant donné un N-échantillon {Xn}Nn=1

L'espérance deϕ(X)est alors approximée par tirages préférentiels avec la distribution auxiliaire ˆgopt : L'estimateur (2.33) est obtenu par une méthode d'estimation par noyau plus élaborée que celle détaillée en section 2.2.2.1 puisque des poids aléatoires interviennent dans sa dénition. La convergence de ces estimateurs est étudiée dans [Hansen, 2008]. La conver-gence de l'estimateur µˆNISϕ(X) est étudiée dans [Zhang, 1996]. Celle-ci est assurée lorsque Kd est un noyau produit Kd(x) = K(x1)· · ·K(xd) où K est un noyau unidimensionnel borné, symétrique et admettant un moment ni d'ordre 2 et lorsque fX etϕsont de classe C2 et à support compact. D'autres stratégies sont présentées dans la section 2.4 dans un contexte abiliste.

2.2.3.3 Méthodes de Monte-Carlo par chaînes de Markov

Supposons que X admette une densité par rapport à une mesure dominante λ. Pour simplier les notations, la densité de Radon-Nikodym est notée fX dans cette section.

Algorithme 1 : Algorithme de Métropolis-Hastings Initialisation :

- Considérer une distribution initiale η0 et un noyau d'exploration Q. - Tirer X0 ∼η0.

pour k allant de 0 àn faire

Exploration : générer un candidat X0k ∼Q(Xk,·). Probabilité d'acceptation : calculer

α(Xk,X0k) = min

1,fX(X0k)q(X0k,Xk) fX(Xk)q(Xk,X0k)

. Acceptation-rejet : Tirer u∼ U([0,1]).

siu≤α(Xk,X0k)alors Xk+1 =X0k.

sinon

Xk+1 =Xk. n

nRésultat :(Xk)0≤k≤n.

Dans de nombreux cas, la densité fX n'est connue qu'à une constante près. Les méthodes de Monte-Carlo par chaînes de Markov (Markov Chain Monte Carlo (MCMC) en anglais) permettent précisément d'éviter le calcul de la constante R

fX(x)dλ(x). Elles consistent à approcher la loi fX en construisant une chaîne de Markov ergodique (Xk) admettant fX comme loi stationnaire. Les deux méthodes les plus utilisées sont l'algorithme de Métropolis-Hastings (MH) et l'échantillonneur de Gibbs [Geman and Geman, 1984] qui est un cas particulier du premier, comme souligné par [Gelman et al., 1992]. L'algorithme MH à été introduit pour la première fois par [Metropolis et al., 1953] et généralisé ensuite par [Hastings, 1970]. Le principe est d'initialiser la chaîne à l'aide d'une loi initiale arbitraireη0 puis de la faire évoluer selon des phases successives de proposition et d'acceptation-rejet.

Partant d'un état x, l'étape de proposition vise à explorer l'espace, en proposant un état x0 suivant un noyau de transitionQ. Pour tout x∈Rd, on noteraq(x,·)la densité de la loi Q(x,·)par rapport à la mesure dominante λ. L'étape d'acceptation-rejet consiste quant à elle à accepter la proposition x0 avec la probabilité suivante, appelée taux d'acceptation,

α(x,x0) = min

1,fX(x0)q(x0,x) fX(x)q(x,x0)

, x6=x0 , (2.35) la chaîne conservant l'état précédent x si la proposition est rejetée. Les étapes de l'algo-rithme MH sont résumées dans l'algol'algo-rithme 1.

À l'issue de l'algorithme MH, on dispose d'une chaine de Markov(Xk) de transition P(x, dx0) = α(x,x0)q(x,x0)dx0+

1−

Z

Rd

α(x,x0)q(x,x0)dx0

δx(dx0) . (2.36) Par construction, P admet fX(x)dx comme mesure invariante [Chib and Greenberg, 1995]. La convergence en loi de la chaine, et donc la convergence de l'algorithme, est alors