Nousonsidéronsàprésentleproblèmedel'estimationdesquantilesde lavariablede sortie
Y ∈ R
d'unmodèle numérique dépendant de variables d'entrée aléatoires
X ∈ R d
oùd
est un entier positif.Les quantiles reherhés sont de type élevés (supérieurs à
80%
) et le modèle numérique est oûteuxen temps de alul. Ainsi, seul un nombre limité d'appels au ode est possible (typiquement moins
de
n = 200
), induisant des estimations empiriques relativement impréises. Les résultats que je vais présenter dansette setionsontissusd'unsujetdereherhe quej'aiproposéaveAgnèsde CreyetPasal Bazin 8
lors de l'éole d'étédu CEMRACS (Centre d'ÉtéMathématique de Reherhe Avanée
en Calul Sientique) en 2006 et que j'ai traité en ollaboration ave Josselin Garnier et Claire
Cannamela (Cannamelaetal. [36 ℄).
Mon intérêt pour e problème est motivé par des questions relatives à la sûreté nuléaire, pour
le fontionnement des entrales nuléaires REP (Réateur à Eau sous Pression). Lors d'un sénario
(hypothétique)d'aidentAPRP- GB(Aident dePertedeRéfrigérantPrimaire - GrosseBrèhe),il
estimpératif quelatempérature delagaineduombustibleresteinférieure àlatempératurede fusion
de l'aier de gaine, an d'éviter tout endommagement du ÷ur du réateur. Pour évaluer e risque,
desodesde alulsontutiliséspoursimulerlesphénomènesthermohydrauliquesintervenantauours
dusénariod'aident, permettantde alulerl'évolution temporellede latempérature de lagainedu
ombustible (Petruzzi et al. [169 ℄, Caui et al. [33℄). L'un des ritères de sûreté onsiste à montrer
que l'estimation du quantile à
95%
du premier pi de température de gaine, assoié à un niveau de onanede95%
,estbien inférieurà lalimiteénonée préédemment (Nutt&Wallis[159 ℄,Zio &Di Maio[233℄). Bien entendu, e problème d'estimation de quantiles de odesest générique etpeutêtrerenontré dans bien d'autres problématiques, omme par exemple la oneption aéronautique ou les
alulsd'impat environnementaux.
Lespremièreetdeuxièmesetions deehapitreprésententlesrésultatsonnus surl'estimationde
quantiles par laméthode empirique, les statistiques d'ordre etl'utilisation d'unevariable de ontrle.
Les troissetions suivantes expliitent les nouveaux résultatsque nous avons obtenus sur les
estima-teursdequantilesparstratiationontrlée,stratiationontrléeadaptativeettiraged'importane
ontrlé. Enn, ladernière setion évoque les nombreuses perspetivesde reherhe sur e sujet
rela-tivement réent pour moi.
3.4.1 Quantile empirique
Mathématiquement, le problème se pose de la manière suivante. On dispose d'un
n
-éhantillon(Y 1 , . . . , Y n )
devariablesaléatoiresindépendantesidentiquement distribuées(i.i.d.)selonuneloi onti-nue,inonnueetàdensitép(y)
.Onassoieàl'éhantillon(Y 1 , . . . , Y n )
lesstatistiquesd'ordre(Y (1) , . . . , Y (n) )
telque
Y (1) ≤ . . . ≤ Y (n)
.On herhe un estimateurduα
-quantiley α
déniparP (Y ≤ y α ) = α .
(3.46)L'estimateur lassiquedu
α
-quantile est lequantileempiriqueY b EE (α) = Y b α,n = Y (⌊αn⌋+1) .
(3.47)8
CEAGrenoble,Diretiondel'ÉnergieNuléaire
où
⌊ . ⌋
est la fontion partie entière. Si la densitép(y)
est dérivable eny α
,Y b EE (α)
est un estimateurasymptotiquement normal(f.par exemple David &Nagaraja [51℄):
√ n( Y b EE (α) − y α ) n→∞ −→ N (0, σ EE 2 ) , σ 2 EE = α(1 − α)
p 2 (y α ) .
(3.48)La variane est don d'autant plus grande que l'on herhe à évaluer un quantile extrême (la densité
au point
y α
est alors petite). Dansle ontextede sortie d'un ode de alul, et estimateur peutêtreutilisé si une méthode de Monte Carlo non biaisée a été utilisée pour générer les variables d'entrée
du ode :
(X (1) , . . . , X (n) )
est unn
-éhantillon de veteurs aléatoires i.i.d. Cependant, l'estimateur empirique n'est passatisfaisant dansle asde notre problème (y α = 0.95
etn = 200
) où ilonduit àdesestimations tropimpréises, i.e.devariane tropélevée.
En sûreté nuléaire, on veut avoir en plus un ertain niveau de onane
β ∈ ]0, 1[
sur le quantileestimé,'est-à-direque l'onherhe unestimateur
Y b α,n
tel queP ( Y b α,n ≥ y α ) ≥ β .
(3.49)Unesolutionàeproblèmeestdonné parunthéorèmepourlesstatistiquesd'ordre(David&Nagaraja
[51℄) qui stipule que le nombre de dépassements d'un seuil
y
par la suite de variables aléatoires i.i.d(Y 1 , . . . , Y n )
suituneloibinomialedeparamètres(n, q)
,aveq = P (Y > y)
.Laformulequel'onobtientestonnue,dansledomainedelaabilité,souslenomdeformuledeWilks(Wilks[228 ℄,Nutt&Wallis
[159 ℄)etestdonnéei-après.
Théorème 3.4.1 Si on note
r
le pluspetit entier tel quen(1−α)−r X
j=0
C n j (1 − α) j α n−j ≤ 1 − β
(3.50)alors
P (Y (⌊αn⌋+r) > y α ) ≥ β
, 'est-à-dire que l'estimateurY (⌊αn⌋+r)
est sûr au niveauβ
.La failité d'utilisation de e théorème le rend très populaire en pratique. Par exemple, il permetde
déterminerle nombre
n
de aluls (detype Monte Carlo) qu'il faut fairepour obtenir une estimationdu quantile d'ordre
α
ave un niveau de onaneβ
, grâeà la valeur maximaleY (n)
de l'éhantillon(Y 1 , . . . , Y n )
desréponses duode.L'estimateur de Wilks soure, omme l'estimateur empirique, d'une grande dispersion. Dans la
suite,onprésentelesméthodesquej'aiétudiéesetquipermettentderéduirelavarianedel'estimation
duquantile.
3.4.2 Quantile par variable de ontrle
Lors desétudes d'inertitude desmodèles numériques, ilest ourant de disposer, en plus duode
de alul,d'unode simpliéou d'unmodèlemathématique dérivant sommairement les phénomènes
simulésdansleodedealul.Cemodèleréduitpeutaussiêtreunmétamodèleajustéaupréalablesur
unertainnombred'évaluationsbienhoisiesduode(f.3.2.5et3.3).Parrapportauodedealul
étudié,l'avantagedeemodèleréduitestqu'ilesttrèspeuoûteuxentempsdealul;soninonvénient,
parontre,résidedanssondegréd'approximation.L'estimationdirete(parMonteCarlo)d'unquantile
faible ou élevé à partird'unmétamodèle dière substantiellement du vraiquantile du odede alul.
Eneet,lemétamodèleestusuellementonstruitpourimiterleomportementmoyenduodedealul
etnonpourreproduiresonomportementdansdeszonesdequantilesélevés(Oakley[160℄,Cannamela
et al. [36℄). Pour résoudre e problème, deux stratégies peuvent être envisagées. La première onsiste
àonstruireun métamodèleadaptéàl'estimationd'unquantile,par exempleen utilisant larégression
quantile (Koenker [123℄), la onstrution adaptative d'un métamodèle PG (Oakley [160 ℄), voire les
tehniques de simulations onditionnelles de diérentes réalisations du métamodèle PG (Rutherford
[179 ℄).La seonde,ellequenousavonsétudiée,onsiste àinorporer,dansles stratégiesd'estimation
noté
Z = f r (X )
.L'estimation par variable de ontrle est une tehnique lassique dansles méthodes de rédution
devariane deMonte Carlo(Rubinstein[178℄). Elleonsiste àsoustraireà l'estimateurempiriqueune
fontion faisant intervenir une variable orrélée à la variable étudiée. Ii, il sut d'utiliser omme
variabledeontrle lemétamodèle
Z
etomme fontionde ontrleg(z) = 1 z≤z α
,avez α
le quantiled'ordre
α
deZ
.Onobtientalorsl'estimationduquantileparvariabledeontrleàpartirdel'éhantillon(Y i , Z i ) i=1..n
.Hesterberg&Nelson[85 ℄ sesont intéressésauxpropriétésde l'estimateur duquantilepar variable
de ontrle, noté
Y b CV (α)
. Ilsont montré, ense basant surles résultatsde Nelson[158 ℄ onernant lespropriétés desestimateurs par variable de ontrle, lethéorème asymptotiquesuivant :
Théorème 3.4.2 Si
Y b CV (α)
est l'estimateurduquantiley α
par la méthodedela variable deontrle,on a
√ n( Y b CV (α) − y α ) n→∞ −→ N (0, σ CV 2 ) , σ CV 2 = α(1 − α)
p 2 (y α ) (1 − ρ 2 I ) ,
(3.51)où
ρ I
est le oeient deorrélation entre1 Y ≤y α
et1 Z≤z α
:ρ I = P (Y ≤ y α , Z ≤ z α ) − α 2
α(1 − α) .
(3.52)Cerésultatmontreunerédutiondevarianed'unfateur
(1 − ρ 2 I )
parrapportauquantileempirique:plus les variables aléatoires
Y
etZ
sont orrélées à proximité du quantile reherhé, meilleure est larédution de variane. Ce résultat est intéressant ar il est faile d'obtenir un estimateur de
ρ I
, enalulant leoeient de orrélation empirique (à partir de l'éhantillon disponible), et don d'avoir
une idéede larédutionde variane.
3.4.3 Une méthode de rejet : la stratiation ontrlée
La méthode par variable de ontrle n'utilise ependant pas toute la spéiité du métamodèle
arautant de aluls sont réalisés ave leode qu'ave le métamodèle (alors que e dernier peutêtre
utiliséintensivement).Uneautrestratégieonsisteàutiliserlemodèleréduitnonpaspourapproherla
réponsedumodèleomplet
Y = f (X )
dansdesongurations exeptionnelles,maispourséletionner un éhantillon deX
dans des zones intéressantes pour l'estimation du quantile. L'idée grossière est simplement detirerunX
selonsaloioriginaleetdealulerf r (X )
par lemodèleréduit.Silaréponsedumodèle réduit ne nousonvient pas (parexemple sielle n'est passituéedans lesquantiles prohes
du quantiled'ordre
α
dumodèle réduit), alors on rejette leX
en question (ou plus exatement, onatendane à le rejeter). Si la réponse du modèle réduit nous onvient, alors on alule
f (X )
. Il s'agitdon d'uneméthodede rejet.
La méthodeque nousavonsproposée, lastratiation ontrlée, onsistedon àstratier l'espae
des valeurs prises par
Z = f r (X)
enm
intervallesI 1 , . . . , I m
, et à forer le nombre de réalisations deX
qui sont telles queZ = f r (X)
tombe dans un intervalleI j
. Mathématiquement, on se donnem + 1
niveaux0 = α 0 < α 1 < . . . < α m = 1
,etles quantiles deZ
orrespondant−∞ = z α 0 < z α 1 <
. . . < z α m = ∞
. Ces quantiles sont estimables ave préision sans auun problème ar la générationderéalisations
Z
est peu oûteuse en temps dealul. Onvautiliser lesintervalles]z α j−1 , z α j ]
ommestrates.Onsedonne unesuited'entiers
N 1 , . . . , N m
telsqueP m
j=1 N j = n
.Pour haquej
,ontire (parune méthode d'aeptation-rejet)
N j
réalisations desveteurs aléatoires d'entrée(X (i) ) (j) i=1,...,N
j
telles
que les sorties
Z i (j)
orrespondantes soient dans]z α j−1 , z α j ]
. Pour haune de esN j
réalisations, on aluleY i (j)
.L'estimateur duα
-quantile deY
parstratiation ontrléevautalors (Cannamelaetal.[36℄)
Y b CS (α) = inf n
y, F b CS (y) > α o
,
(3.53)où
F b CS (y)
estl'estimateur parstratiation ontrlée delafontion de répartitiondeY
:Nousavonsmontré dansCannamela etal.[36 ℄ lethéorème asymptotiquesuivant :
Théorème 3.4.3 Si
Y b CS (α)
est l'estimateur duquantiley α
parla méthode destratiationontrlée, on aLa rédution de variane par rapportà ellede l'estimateur empirique peutdon être très
impor-tantesi
Y
estZ
sontfortement orréléspositivement. Onaalors intérêt à mettreplusde pointsdans la queue de distribution de la variable aléatoire de ontrleZ
, an de renforer le nombre deréali-sationspotentiellement intéressantes. Plus préisément, onpeutmontrer quelarédution devariane
augmente ave la orrélationentre
Y
etZ
autourdu quantileherhé. Sur quelquesappliations(des fontionsjouéesetun asd'étude industrielle onernant unode de sûreténuléaire), nousavonspumontrerdansCannamela etal.[36 ℄ quel'eaitédeette méthode dépend,aumoinsen partie,dela
valeur de
ρ I
(f. Eq.(3.52)). Pour l'objetif d'estimation d'unquantile, il onvient don d'adopter, si possible,une stratégie partiulière de onstrution du métamodèle.Nousavonstestélasituationave
n = 200
etα = 95%
.Lestroisparamètres àhoisirpourpouvoirappliqueretteméthodesont lenombre
m
destrates,lesniveaux(α j ) j=0..m
deelles-i etlesnombres(N j ) j=1..m
depointsdanshaquestrate.Surnostests,lastratiationontrléeenquatrestrates,aveα 1 = 50%
,α 2 = 90%
,α 3 = 95%
etN 1 = N 2 = N 3 = N 4 = 50
nousa donnédesrésultatssatisfaisants.Ellepermetderéaliser
n/2
alulsentréssurlequantileherhéetn/2
alulsailleurs(pour déteterd'éventuelleszonesintéressantesnonapturéesparlemétamodèle).D'autresétudesontmontréqu'une
stratégie àtrois stratespeutégalement être performante(Bazin [19℄).
La méthode destratiation ontrléeà
4
stratesestillustréei-dessoussurlafontion d'Ishigamif ( · )
et un métamodèlef r ( · )
polynomial:méthodede stratiationontrlée. Lagure3.3(a)montrequeelle-iréduit demanièresigniative
lavariane del'estimateurduquantile,parrapportàl'estimateurempirique. Pour jugerdel'inuene
de la qualité du métamodèle sur la variane de l'estimation du quantile obtenue par stratiation
ontrlée, quatre métamodèles à
ρ
etρ i
variables sont utilisés. On onstate sur la gure 3.3 (b) quelavaleurde
ρ I
inuefortementsurlaqualitéd'estimation par stratiationontrlée:lesestimations ave unmétamodèleàρ I
élevéontdesvarianesnettementplusfaiblesqueellesaveunmétamodèleà
ρ I
peu élevé.3.4.4 Quantile par stratiation ontrlée adaptative
Il est possible de hoisir optimalement les nombres
(N j ∗ ) j=1..m
de points dans haque strate enminimisant lavariane (3.56). Larépartitiondes
n
simulationssur lesstrates dépend desprobabilités5 10 15
Fig.3.3Estimationsduquantileà
95%
delafontiond'Ishigamiàpartird'unéhantillondetaillen = 200
.(a)Comparaisonentrelesestimateurs empiriqueetparstratiationontrlée.Leshistogrammes des estimateurs sont traés à partir de10 4
expérienes. (b) Estimations par stratiation ontrlée pourquatremétamodèlesdiérents. Lesdensitésorrespondentàunlissagedeshistogrammesobtenusàpartirde
10 3
expérienes.Le vraiquantile estdonné par letrait vertial.onditionnelles
P j (y)
qui sont les quantités que l'on doit estimer. Nous avons alors proposé unepro-édure adaptative, nommée stratiation ontrlée adaptative, pour estimer les nombres de points à
allouerpar strate(Cannamela etal. [36℄). Elleproède enplusieurs étapes:
1. estimation des probabilités onditionnelles
P j (y)
(j = 1, . . . , m
). On applique la stratiation ontrlée aven e = n γ
simulations,0 < γ < 1
, et ave une alloation a prioriβ j = N j
n
. Unepremière estimationdesprobabilités onditionnellesest obtenue :
P e j (y) = 1
quipermetd'obtenirun estimateurdu quantile d'ordre
α
:Y e α = inf n
3. réalisation des
n − e n
simulations nales en allouant les simulations dans haque strate pour atteindreles nombres optimaux[ β e j n]
,j = 1, . . . , m
;4. estimationdu quantile
Y b ACS (α)
:Y b ACS (α) = inf n
y, F b ACS (y) > α o
(3.62)
F b ACS (y) =
Dans Cannamelaet al.[36 ℄,nous avonsobtenu lethéorème asymptotiquesuivant :
Théorème 3.4.4 Si
Y b ACS (α)
est l'estimateurduquantiley α
par la méthode destratiation ontrlée adaptative, on aDepremierstestsontpermisdevoirqu'ilfautque
n
soitsusammentélevépourqueetteméthodeadaptative soit eae (enpermettant notamment que lapremière étape soitréellement utile).
3.4.5 Quantile par tirage d'importane ontrlé
L'estimation par tiraged'importane est une autreméthode bienonnue pour larédutionde
va-rianedeMonteCarlo(Rubinstein[178℄).Laméthodepartiraged'importaneontrlé,quenousavons
proposéedans Cannamela etal. [36℄,onsiste à estimer ladensité biaisée pour le tiraged'importane
parsimulationsintensivessurlemétamodèle
Z
,àéhantillonnerles entréesX
selon ladensitébiaisée,àproduireles sortiesdu ode
Y = f (X )
suretéhantillon, puisàaluler l'estimateurnonbiaisédu quantile.Lastratégiedetiraged'importaneontrlépourestimerunquantileonsisteàherherunedensité
d'importane orretepour lealulde l'intégralesuivante:
E h
trouver la densité
q
qui minimise la variane de l'estimateur1
s'approher des régionsd'importane de notre ode numérique
f (X)
.La variane est minimale pourladensitéoptimale (Rubinstein [178℄)
q ∗ (x) = 1 f r ( x )≤z α q ori (x)
R 1 f r ( x ′ )≤z α q ori (x ′ )dx ′ .
(3.67)Onreherhe une densitéd'importane parmi une famille paramétrique
Q
dedensitésq γ
paramétrées parleursdeuxpremiersmomentsγ = (λ, C )
.Par simulationsintensivessurlemétamodèle(éhantillon detaillen e
),on obtient un estimateurγ b = ( b λ, C) b
desparamètres dela densitéoptimale :L'estimateur du
α
-quantiledeY
partirage d'importane ontrlé vaut alors :Nousavonsmontré dansCannamela etal.[36 ℄ lethéorème asymptotiquesuivant :
Théorème 3.4.5 Si
Y b CIS (α)
est l'estimateur du quantiley α
par la méthode de tirage d'importane ontrlé, on aSur ertains tests joués, ette méthode a donné d'exellents résultats, parfois meilleurs que eux
desautres méthodes. Par exemple,ave lesfontions
f ( · )
etf r ( · )
donnéesparmontre une orrélationmoyenne à proximité du quantile. Le quantile à
95%
deY = f (X )
estestiméparsimulationsintensivesà
y α ≃ 2.75
.L'estimateur empiriqueetl'estimateurpartiraged'importane ontrlédu quantile à95%
deY
,en utilisantn = 200
simulations, sont omparéssurlagure3.4(b).Pour la densité d'importane, la famille
Q
hoisie est un ensemble de gaussiennes bidimensionnelles paramétrées par leur moyenne et ovariane. La gure 3.4 (b) montre également que les résultatsobtenus par tirage d'importane ontrlé sont meilleurs que eux obtenus par variable de ontrle et
par stratiation ontrlée. quantile à
95%
deY
à partir d'un éhantillon de taillen = 200
. Comparaisons entre les estimateurs empirique(moyenne2.83
,éart-type0.52
),parvariabledeontrle(moyenne2.74
,éart-type0.38
),parstratiation ontrlée (moyenne
2.71
,éart-type0.25
), etpar tiraged'importaneontrlé (moyenne2.77
,éart-type0.21
).Les histogrammesdesestimateurs sont traésàpartir de5000
expérienes.d'importane qui limite son appliabilité à l'existene d'une seule région d'importane pour haque
variable d'entrée.Celasigniequeleodedealulne doitatteindreles valeursduquantilereherhé
quedansundomaine restreintde variationdesesentrées.L'utilisationdemélanges dedensitépour la
densitéd'importane seraitune piste intéressante pour remédier à e problème.
3.4.6 Perspetives
Les méthodes présentées dans ette setion supposent la disponibilité d'un métamodèle. Elles ne
néessitent pasquelemétamodèle soit une exellente approximationdu ode de alul;surnostests,
desapproximations assez grossièresont donnéde bonsrésultats.Ceivient du faitquelequantile est
estimé à l'aide de simulations sur le ode de alul, le métamodèle guidant juste la planiation de
es aluls. L'une des voies de reherhe futures serait d'étudier en détail les stratégies d'alloation
dealuls entre laonstrution dumétamodèle etl'estimationdu quantile. Depremièresétudesen e
sensontétéraliséespar Bazin[19 ℄.Lastratiationontrléeadaptative pourraitégalementbénéier
d'uneréestimation dumétamodèleàl'issuede lapremière étape.Cesméthodespermettent également
d'envisager l'utilisation de odesde alulsimpliés,par exemple à maillage plus grossier queleode
dealul initial,qui sont souvent disponibles danslesappliations industrielles.
Par ailleurs, pour estimer les quantiles de odes, l'utilisation d'un métamodèle tel que le modèle
proessusgaussien (modèlePG, f.3.3) semble assez naturel. L'utilisation de lavariane du modèle
PGpermetd'élaborer desstratégiesdeplaniation adaptativedesalulsenprivilégiant
progressive-mentlessimulationsduodedealuldanslarégiond'intérêt(Oakley[160 ℄,Vazquez&Piera-Martinez
[220 ℄). La moyenne et la ovariane du modèle PG étant onnues (Eqs. (3.29) et (3.40)), il est alors
aiséde simuler desréalisationsdumodèle PGetd'estimerun quantilesurhaunede esréalisations
(Oakley[160 ℄,Rutherford [179 ℄). Aunal,on obtientun intervalle de onanesurlequantile
reher-hé. Sur des fontions tests à faible nombre d'entrées, ette approhe semble extrèmement eae.
Bien entendu, en plus grande dimension, la validation du modèle PG (préditeur et ovariane) doit
être partiulièrement soignée, ar les quantiles estimés par ette méthode dépendent entièrement du
métamodèle, et don desparamètres estimésde laovariane. L'unde mes sujetsde reherhe futurs
sera de omparer sur des as onrets, de taille industrielle, les avantages et inonvénients de
l'esti-mation de quantiles entre les méthodespar Monte Carlo ontrlé (variable de ontrle, stratiation
ontrlée,stratiation ontrléeadaptative,tirage d'importane ontrlé) etpar lemodèlePG.