• Aucun résultat trouvé

Estimation de quantile par variable de contrˆole

Dans le document Universit´e Denis Diderot Paris VII Th`ese (Page 176-181)

Chapitre 4 : Application au combustible HTR 113

5.3 Estimation de quantile par variable de contrˆole

On cherche `a ´evaluer le α-quantile de Y. Par rapport `a la section pr´ec´edente, on suppose ici que Y = f(X) est la variable de sortie d’un gros code num´erique prenant en entr´ee un vecteur al´eatoire X, et qu’on dispose d’un mod`ele r´eduit (appel´e aussi surface de r´eponse ou m´etamod`ele) Z = fr(X) qu’on connaˆıt bien. On suppose ici que f et fr sont toutes deux `a valeurs dansR. On est capable de faire un grand nombre de calculs avec le mod`ele r´eduit, et on connaˆıt lesα-quantiles zα deZ pour toutα. On va utiliser la v.a.Z comme contrˆole pour r´eduire la variance de l’estimateur du quantile deY.

On va proposer deux estimateurs de la fonction de r´epartition, l’un bas´e sur un principe de maximum de vraisemblance, l’autre sur la m´ethode usuelle de r´eduction de variance pour des simulations de Monte Carlo avec variable de contrˆole. On va voir que ces deux estimateurs sont en fait identiques, on va ´evaluer leurs propri´et´es asymptotiques, puis on va les utiliser pour estimer leα-quantile deY.

5.3.1 Estimation de la fonction de r´epartition par maximum de vraisemblance On reprend dans cette section les id´ees de Hsu and Nelson [HN 87]. On note, pour tout y∈R,

p00(y) =P(Z≤zα, Y ≤y) p01(y) =P(Z ≤zα, Y > y) p10(y) =P(Z > zα, Y ≤y) p11(y) =P(Z > zα, Y > y) Ces quatre probabilit´es sont li´ees par les relations

p00(y) +p01(y) = P(Z≤zα) =α (5.3.1) p10(y) +p11(y) = P(Z > zα) = 1−α (5.3.2) Si on arrive `a estimer les pjl(y), alors on aura un estimateur deF(y) =P(Y ≤y) car

F(y) =p00(y) +p10(y)

Consid´erons un ´echantillon ((Y1, Z1), ...,(Yn, Zn)) de v.a. i.i.d. de mˆeme loi que (Y, Z). Fixons y∈R et notons

N00(y) = Card{i= 1, ..., n , Zi ≤zα, Yi≤y} N01(y) = Card{i= 1, ..., n , Zi ≤zα, Yi> y} N10(y) = Card{i= 1, ..., n , Zi > zα, Yi≤y} N11(y) = Card{i= 1, ..., n , Zi > zα, Yi > y}

Les v.a. N0 = Card{i= 1, ..., n , Zi≤zα} etN1 = Card{i= 1, ..., n , Zi> zα} v´erifient N0+ N1 =net

N00+N01=N0, N10+N11=N1

La loi jointe de (N00, N01, N10, N11) est multinomiale : P(Njl=njl, j, l= 0,1) = n!

Q1

j,l=0njl! Y1 j,l=0

[pjl(y)]njl

En tenant compte du fait que les pjl(y) sont li´es par les relations (5.3.1-5.3.2), le membre de droite ne fait apparaˆıtre que les deux param`etresp00(y) etp10(y) :

P(Njl=njl, j, l= 0,1) = n!

Q1

j,l=0njl![p00(y)]n00[α−p00(y)]n01[p10(y)]n10[1−α−p10(y)]n11 On trouve alors facilement que les estimateurs du maximum de vraisemblance pour p00(y) et p10(y) sont :

ˆ

p00(y) = αN00(y)

N0 , pˆ10(y) = (1−α)N10(y)

N1 , (5.3.3)

conditionnellement enN0 >0 et N1 >0. On en d´eduit les estimateurs dep01(y) et p11(y) : ˆ

p01(y) = αN01(y)

N0 , pˆ11(y) = (1−α)N11(y)

N1 . (5.3.4)

Un estimateur deF(y) est donc :

Fˆ(y) = ˆp00(y) + ˆp10(y) = αN00(y)

N0 +(1−α)N10(y)

N1 (5.3.5)

5.3.2 Estimation de la fonction de r´epartition avec contrˆole Un estimateur par variable de contrˆole Z deF(y) est de la forme

Fˆ(y) = 1 n

Xn j=1

1Yjy−βˆ

1 n

Xn j=1

g(Zj)−E[g(Z)]

 (5.3.6)

o`u la fonctiongest `a choisir par l’utilisateur [Nel 80]. L’esp´eranceE[g(Z)] est suppos´ee connue.

Le param`etreβ optimal est le coefficient de corr´elation deg(Z) et 1Yy, qui est inconnu. On utilise alors le param`etre ˆβ d´efini comme la pente obtenue par r´egression lin´eaire des1Yj≤y sur les g(Zi) (m´ethode des moindres carr´es) :

βˆ= Pn

j=1(1Yjy−Fˆn(y))(g(Zj)−gˆn) Pn

j=1(g(Zj)−ˆgn)2 avec

n(y) = 1 n

Xn i=1

1Yi≤y, ˆgn= 1 n

Xn i=1

g(Zi)

On trouve alors que l’estimateur ˆF(y) peut se r´e´ecrire comme une somme pond´er´ee F(y) =ˆ

Xn j=1

Wj1Yjy avec

Wj = 1

n+(ˆgn−E[g(Z)])(ˆgn−g(Zj)) Pn

i=1(g(Zi)−ˆgn)2 , gˆn= 1 n

Xn i=1

g(Zi) Notez quePn

j=1Wj = 1.

Si on choisit g(z) =1zzα, alors E[g(Z)] =α, ˆgn=N0/n (avec les notations de la section pr´ec´edente) et on trouve

Wj = α

N01Zj≤zα+1−α

N1 1Zj>zα (5.3.7)

L’estimateur de la fonction de r´epartition deY est Fˆ(y) =

Xn j=1

Wj1Yj≤y =N00(y) α

N0 +N10(y)1−α

N1 (5.3.8)

On retrouve exactement l’estimateur (5.3.5) propos´e dans la section pr´ec´edente.

En utilisant les r´esultats classiques sur la r´eduction de variance pour les simulations de Monte Carlo [Nel 80], on trouve que l’estimateur avec variable de contrˆole (VC)

√n( ˆF(y)−F(y))|VCn−→ N→∞ (0, σ2), σ2 =F(y)(1−F(y))(1−ρ2I) (5.3.9)

o`uρI est le coefficient de corr´elation entre1Y≤y et1Z≤zα :

ρI = P(Y ≤y, Z ≤yα)−P(Y ≤y)P(Z ≤zα)

p(1−P(Y ≤y))P(Y ≤y)(1−P(Z ≤zα))P(Z ≤zα) (5.3.10)

= P(Y ≤y, Z≤yα)−αF(y) pF(y)(1−F(y))√

α−α2

Ce r´esultat est `a rapprocher du th´eor`eme ´equivalent en absence de contrˆole, qui stipule que l’estimateur empirique (EE)

Fˆ(y)|EE= 1 n

Xn j=1

1Yj≤y = N00(y) +N10(y) n

est asymptotiquement normal

√n( ˆF(y)−F(y))|EEn−→ N→∞ (0, σ2), σ2=F(y)(1−F(y))

ce qui montre une r´eduction de variance apport´ee par la m´ethode VC par le facteur 1−ρ2I.

5.3.3 Estimation de quantile

On souhaite estimer leα-quantile deY en utilisant les r´esultats pr´ec´edents sur l’estimation de la fonction de r´epartition deY avec variable de contrˆole. On consid`ere la statistique d’ordre (Y(1), ..., Y(n)) et les poidsW(i) d´efinis par (5.3.7) associ´es `a Y(i). Vue l’estimation (5.3.8) de la fonction de r´epartition, l’estimateur duα-quantile est

α,n =Y(K), K = inf (

j , Xj

i=1

W(i) > α )

En utilisant des r´esultats sur la r´eduction de variance pour les m´ethodes de Monte Carlo par variable de contrˆole, on trouve que cet estimateur est asymptotiquement normal avec la variance

√n( ˆYα,n−yα)|VCn→∞−→ N(0, σ2), σ2 = α(1−α)

p2(yα) (1−ρ2I) (5.3.11) On rappelle que p est la densit´e de Y et ρI est le coefficient de corr´elation entre 1Yyα et 1Z≤zα.

ρI = P(Y ≤yα, Z ≤yα)−P(Y ≤yα)P(Z ≤zα)

p(1−P(Y ≤yα))P(Y ≤yα)(1−P(Z≤zα))P(Z ≤zα) (5.3.12)

= P(Y ≤yα, Z ≤yα)−α2 α−α2

Ce r´esultat est `a rapprocher du th´eor`eme ´equivalent en absence de contrˆole

√n( ˆYα,n−yα)|EEn→∞−→ N(0, σ2), σ2 = α(1−α) p2(yα)

ce qui montre une r´eduction de variance par le facteur 1−ρ2I. Comme attendu, plus les v.a.Y et Z sont corr´el´ees, et meilleure est la r´eduction de variance. Il n’est pas facile de construire un estimateur de la variance asymptotique, car il faut pour cela estimer la densit´ep(yα). Par contre, il est facile de construire un estimateur du coefficient de corr´elation ρI, ce qui permet d’avoir une id´ee de la r´eduction de la variance. Cet estimateur est simplement le coefficient de corr´elation empirique ˆρI :

ˆ ρI =

Pn

j=1(1Yj≤y−Fˆn(y))(1Zj≤zα−Gˆn(zα)) qPn

j=1(1Zj≤zα−Gˆn(zα))2qPn

j=1(1Zj≤zα −Gˆn(zα))2 |y= ˆYα,n avec

n(y) = 1 n

Xn i=1

1Yiy, Gˆn(zα) = 1 n

Xn i=1

1Zizα

5.3.4 L’estimateur avec contrˆole optimal

Dans les sections pr´ec´edentes nous avons arbitrairement choisi la fonction g(z) = 1zzα

pour d´efinir la variable de contrˆole. Ce choix est pertinent dans le sens o`u il permet une

impl´ementation ais´ee et une r´eduction de variance sustantielle, mais il n’est pas optimal. En g´en´eral, la r´eduction de variance obtenue avec un estimateur avec contrˆole de la forme (5.3.6) d´epend du coefficient de corr´elation entre 1Y≤y et le contrˆole g(Z). Le contrˆole optimal, qui maximise le coefficient de corr´elation, est obtenu avec la fonction [Rao 73]

g(z) =P(Y ≤y|Z =z) (5.3.13)

Cette fonction est (suppos´ee) inconnue, car sinon, on saurait calculer analytiquement la fonc-tion de r´epartifonc-tion F(y) en calculant directement l’esp´erance de g(Z), et on saurait alors d´eterminer num´eriquement le α-quantile en r´esolvant l’´equation F(y) =α. Cependant, cette remarque donne l’id´ee de base pour la mise au point de m´ethodes par variable de contrˆole raf-fin´ees, utilisant des approximations de la fonction de contrˆole optimaleg. Des approximations continues ont ´et´e propos´ees qui sont difficiles `a impl´ementer en pratique [HJ 90]. Des approxi-mations discr`etes ont aussi ´et´e pr´esent´ees, qui elles se sont r´ev´el´ees faciles `a impl´ementer et tr`es efficaces [HeN 98]. Nous d´ecrivons maintenant cette m´ethode. On commence par choisir m+ 1 niveaux 0 = α0 < α1 < ... < αm = 1, et on note −∞ = zα0 < zα1 < ... < zαm = ∞ les quantiles correspondants de Z. Les intervalles (zαj−1, zαj] vont servir de strates dans la construction d’une approximation constante par morceaux de la fonction de contrˆole optimale.

Cette construction est bas´ee sur le d´eveloppement suivant de la fonction de r´epartition deY, qui n’est rien d’autre que la formule des probabilit´es totales :

F(y) = Xm j=1

P(Y ≤y|Z ∈(zαj−1, zαj])(αj −αj1) (5.3.14) Les quantiles deZ ´etant connus, on voit que l’estimation de F(y) se r´eduit `a l’estimation des probabilit´es conditionnelles :

pj(y) =P(Y ≤y|Z ∈(zαj−1, zαj]) (5.3.15) L’estimateur dit ”Poststratified Sampling” (PS) deF(y) est

Fˆ(y) = Xm j=1

ˆ

pj(y)(αj −αj−1) o`u

ˆ pj(y) =

Pn

i=11Zi(zαj−1,zαj]1Yiy Pn

i=11Zi(zαj−1,zαj]

L’estimateur PS peut aussi bien s’´ecrire comme une somme pond´er´ee des variables indicatrices 1Yjy. La variance de l’estimateur PS est

Var( ˆF(y))|PS= 1 n

Xm j=1

j−αj1)[pj(y)−pj(y)2] +O( 1

n2) (5.3.16)

En utilisant des exemples explicites gaussiens, il a ´et´e montr´e dans [HeN 98] que la r´eduction de variance optimale (celle que l’on obtient avec la fonction de contrˆole g) peut ˆetre prati-quement atteinte avec une approximation discr`ete `a deux ou trois strates. En se basant sur des simulations num´eriques, les auteurs donnent des recommandations sur le choix du niveau α1 =α pour la strat´egie PS `a deux strates. Ils appliquent aussi la strat´egie `a trois strates sur quelques exemples particuliers. Dans les prochaines sections, nous allons montrer que l’on peut en fait aller au del`a de la r´eduction obtenue avec la fonction de contrˆole optimale g(Z) ou avec ses approximations si on prend soin d’utiliser le mod`ele r´eduit de mani`ere diff´erente.

Dans le document Universit´e Denis Diderot Paris VII Th`ese (Page 176-181)