HAL Id: hal-00708837
https://hal.inria.fr/hal-00708837
Submitted on 15 Jun 2012
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Normalité asymptotique et efficacité dans l’estimation des indices de Sobol
Alexandre Janon, Thierry Klein, Agnès Lagnoux, Maëlle Nodet, Clémentine Prieur
To cite this version:
Alexandre Janon, Thierry Klein, Agnès Lagnoux, Maëlle Nodet, Clémentine Prieur. Normalité asymp-
totique et efficacité dans l’estimation des indices de Sobol. 44èmes journées de statistique, Société
Française de Statistique (SFDS), May 2012, Bruxelles, Belgique. �hal-00708837�
Normalit´ e asymptotique et efficacit´ e dans l’estimation des indices de Sobol
Alexandre Janon
1, Thierry Klein
2, Agn`es Lagnoux
2, Ma¨elle Nodet
1& Cl´ementine Prieur
11
Laboratoire Jean Kuntzman, Universit´e Joseph Fourier (Grenoble 1), INRIA/MOISE, 51 rue des Math´ematiques, BP 53, 38041 Grenoble cedex 9, France
2
Laboratoire de Statistique et Probabilit´es, Institut de Math´ematiques, Universit´e Paul Sabatier (Toulouse 3) 31062 Toulouse Cedex 9, France
alexandre.janon@imag.fr, thierry.klein@math.univ-toulouse.fr, agnes.lagnoux@math.univ-toulouse.fr, maelle.nodet@inria.fr,
clementine.prieur@imag.fr
R´ esum´ e. De nombreux mod`eles math´ematiques font intervenir plusieurs param`etres qui ne sont pas tous connus pr´ecis´ement. L’analyse de sensibilit´e globale se propose de s´electionner les param`etres d’entr´ee dont l’incertitude a le plus d’impact sur la variabi- lit´e d’une quantit´e d’int´erˆet, sortie du mod`ele. Un des outils statistiques pour quantifier l’influence de chacune des entr´ees sur la sortie est l’indice de sensibilit´e de Sobol. Nous consid´erons l’estimation statistique de cet indice `a l’aide d’un nombre fini d’´echantillons de sorties du mod`ele : nous pr´esentons deux estimateurs de cet indice et ´enon¸cons un th´eor`eme central limite pour chacun d’eux. Nous d´emontrons que l’un de ces deux esti- mateurs est optimal en terme de variance asymptotique. Nous g´en´eralisons ´egalement nos r´esultats au cas o` u la vraie sortie du mod`ele n’est pas observ´ee, mais o` u seule une version d´egrad´ee (bruit´ee) de la sortie est disponible.
Mots-cl´ es. Analyse de sensibilit´e globale, indice de Sobol, m´ethode de Monte Carlo, efficacit´e asymptotique, surfaces de r´eponse, m´etamod`ele.
Abstract. Many mathematical models involve input parameters, which are not preci- sely known. Global sensitivity analysis aims to identify the parameters whose uncertainty has the largest impact on the variability of a quantity of interest (output of the model).
One of the statistical tools used to quantify the influence of each input variable on the output is the Sobol sensitivity index. We consider the statistical estimation of this index from a finite sample of model outputs : we present two estimators and state a central limit theorem for each. We show that one of these estimators has an optimal asymptotic va- riance. We also generalize our results to the case where the true output is not observable, and is replaced by a noisy version.
Keywords. Global sensitivity analysis, Sobol index, Monte Carlo method, asymptotic
efficiency, response surface method, metamodel.
1 D´ efinition et estimation des indices de Sobol
1.1 Motivation et d´ efinition des indices de sensibilit´ e de Sobol
La plupart des mod`eles ´etudi´es en math´ematiques appliqu´ees font intervenir de nom- breux param`etres qui ne sont pas tous connus avec pr´ecision. Il est alors important, pour une utilisation correcte du mod`ele, de pouvoir quantifier l’impact de l’incertitude attach´ee aux param`etres d’entr´ee sur une quantit´e d’int´erˆet en sortie du mod`ele. Dans ce contexte, l’analyse de sensibilit´e (Saltelli et al. (2004)) cherche `a identifier les param`etres d’entr´ee les plus influents sur la sortie, et `a quantifier l’importance prise par chacune des variables d’entr´ee sur la sortie. L’utilisation des indices de Sobol est une m´ethode r´epandue en ana- lyse de sensibilit´e, qui repose sur l’attribution d’une loi de probabilit´e (suppos´ee connue) aux variables d’entr´ee afin de mod´eliser l’incertitude sur chaque param`etre d’entr´ee.
Plus pr´ecis´ement, notons X
1, . . . , X
ples variables d’entr´ees et f : R
p→ R la fonc- tion reliant les variables d’entr´ees `a la sortie (quantit´e d’int´erˆet). On suppose que les variables al´eatoires X
1, . . . , X
psont ind´ependantes et que Y = f(X
1, . . . , X
p) est une va- riable al´eatoire L
2telle que Var Y 6 = 0. On d´efinit pour i = 1, . . . , p l’indice de Sobol de Y par rapport `a X
ipar la formule suivante :
S
i= Var E (Y | X
i) Var Y
Cet indice, compris entre 0 et 1, quantifie la variance de Y due `a la variabilit´e de X
iseule (au num´erateur) relativement `a la variance totale de Y (au d´enominateur).
Dans la majorit´e des cas pratiques, la fonction f n’est pas connue explicitement `a l’aide d’une formule analytique simple, ce qui empˆeche le calcul direct de S
i`a l’aide de sa d´efinition. Cependant, la sortie f(X
1, . . . , X
p) peut ˆetre ´evalu´ee num´eriquement, pour une valeur donn´ee de (X
1, . . . , X
p), `a l’aide d’un code informatique. Il est alors n´ecessaire de consid´erer l’estimation, au sens statistique du terme, de S
i`a partir d’un ´echantillon fini d’´evaluations de f .
1.2 Estimation des indices de sensibilit´ e
Une technique classique d’estimation de S
iconsiste, pour N ∈ N , `a consid´erer les 2N
´evaluations de f suivantes : pour k = 1, . . . , N ,
Y
k= f (X
1,k, X
2,k, . . . , X
p,k) , Y
k′= f X
1,k′, X
2,k′, . . . , X
i−1,k′, X
i,k, X
i+1,k′, . . . , X
p,k′, o` u { (X
1,k, . . . , X
p,k) }
k=1,...,Net
X
1,k′, . . . , X
p,k′ k=1,...,Nsont deux ´echantillons iid de la loi de (X
1, . . . , X
p), puis `a estimer l’indice S
ipar :
S b
i,N=
1 N
P
Nk=1
Y
kY
k′−
1 N
P
Nk=1
Y
k 1 NP
N k=1Y
k′1 N
P
Nk=1
Y
k2−
1 N
P
N k=1Y
k 2.
Cet estimateur est consid´er´e dans Homma et Saltelli (1996).
Dans Janon et al. (2012) nous proposons d’utiliser l’estimateur T b
i,N=
1 N
P
Nk=1
Y
kY
k′−
1 N
P
N k=1h
Yk+Yk′ 2
i
21 N
P
N k=1h
Y2 k+(Yk′)22
i −
1 N
P
N k=1h
Yk+Yk′ 2
i
22 Propri´ et´ es asymptotiques des estimateurs
Dans la suite, nous ´enon¸cons les propri´et´es asymptotiques (quand N → + ∞ ) des estimateurs S b
i,Net T b
i,Nd´emontr´ees dans Janon et al. (2012).
2.1 Utilisation du “vrai” mod` ele
Supposons que Y ∈ L
4. Alors les estimateurs S b
i,Net T b
i,Nsont asymptotiquement normaux, c’est-`a-dire que nous avons les th´eor`emes limites centraux suivants
√ N
S b
i,N− S
i LN
→
→∞N 0, σ
S2,
et : √
N
T b
i,N− S
i LN→∞
→ N 0, σ
T2o` u N (0, σ
2) d´esigne la loi normale centr´ee de variance σ
2et o` u les variances asymptotiques sont donn´ees par
σ
S2= Var ((Y − E (Y )) [(Y
′− E (Y )) − S
i(Y − E (Y ))]) (Var Y )
2σ
T2= Var ((Y − E (Y ))(Y
′− E (Y )) − S
i/2 ((Y − E (Y ))
2+ (Y
′− E (Y ))
2))
(Var Y )
2.
Ces variances limites peuvent ˆetre estim´ees, ce qui permet de construire des intervalles de confiance asymptotiques pour S
i, de longueur proportionnelle `a σ
S/ √
N (resp. σ
T/ √ N ) si l’estimateur S b
i,N(resp. T b
i,N) est utilis´e.
Dans ce contexte, l’estimateur le plus efficace est celui donnant l’intervalle de confiance asymptotique le moins ´etendu, c’est-`a-dire celui ayant la plus petite variance asympto- tique. Nous justifions l’introduction de l’estimateur T b
i,Npar le fait que sa variance asymp- totique est toujours inf´erieure ou ´egale `a celle de S b
i,N, les seuls cas d’´egalit´e ´etant les cas S
i= 0 ou S
i= 1.
Il est mˆeme possible de d´emontrer que la variance asymptotique de T b
i,Nest inf´erieure
ou ´egale `a la variance de tout estimateur r´egulier de S
iconstruit `a partir des observations
de (Y
k, Y
k′)
k. Cette propri´et´e se nomme efficacit´e asymptotique (van der Vaart (2000),
chapitres 8 et 25) et g´en´eralise la notion d’estimateur non biais´e de variance minimale,
bas´ee sur l’in´egalit´e de Cram´er-Rao.
2.2 Utilisation d’un m´ etamod` ele
Comme dit dans l’introduction, l’´evaluation de la fonction f n´ecessite g´en´eralement l’appel `a un code d’approximation num´erique ; chaque appel `a ce code peut ˆetre coˆ uteux en temps de calcul. Comme l’´evaluation des estimateurs S b
i,Net T b
i,Nrequiert un nombre important d’´evaluations de la fonction f, il est souvent n´ecessaire de remplacer les appels
`a f par des appels `a une fonction f e qui approche f tout en ´etant beaucoup moins coˆ uteuse en temps de calcul (la fonction f e est appel´ee m´etamod`ele, ou surface de r´eponse, pour f).
Dans ce cadre, on obtient des estimateurs S e
i,Net T e
i,N, qui estiment l’indice de So- bol du m´etamod`ele : S e
i=
VarE(fe(X1,...,Xp)|Xi)Var f(Xe 1,...,Xp)
. Ces estimateurs ne sont cependant jamais consistants pour S
i, `a moins bien sˆ ur que S
i= S e
i.
Afin d’obtenir des r´esultats asymptotiques sur S e
i,Net T e
i,Nrelativement `a l’estimation de S
i, il est n´ecessaire, et naturel, de supposer que l’erreur de m´etamod`ele f − f e d´epend de N et que son impact sur l’estimation de S
i, en un sens `a pr´eciser, tend vers 0 lorsque N tend vers + ∞ . Notons que le m´etamod`ele d´epend alors de N : f e = f e
N.
Nous d´emontrons alors que, sous des hypoth`eses techniques de domination, la conver- gence en loi de √
N ( S e
i,N− S
i) (resp. √
N ( T e
i,N− S
i)) vers N (0, σ
2S) (resp. N (0, σ
T2)) a lieu si et seulement si Var (f − f e
N) = o(1/N ).
Sous d’autres hypoth`eses techniques, ainsi que sous l’hypoth`ese E (f − f e
N) = o(1/ √ N ), nous d´emontrons ´egalement que T e
i,Nest asymptotiquement efficace pour S
i.
3 R´ esultats num´ eriques
Dans cette section, nous illustrons nos r´esultats de normalit´e asymptotique sur le mod`ele de test suivant (fonction d’Ishigami) :
f(X
1, X
2, X
3) = sin X
1+ 7 sin
2X
2+ 0.1X
34sin X
1,
o` u (X
j)
j=1,2,3sont des variables iid dans [ − π; π]. Les valeurs des indices de sensibilit´e pour cette fonction sont connues analytiquement : S
1= 0.3139, S
2= 0.4424, S
3= 0. Ceci permet de calculer le coverage empirique des intervalles de confiance construits `a l’aide des r´esultats de normalit´e asymptotique, c’est-`a-dire la proportion, sur mille intervalles de confiance calcul´es, d’intervalles contenant la vraie valeur de l’indice. Cette proportion doit ˆetre th´eoriquement proche du niveau choisi pour l’intervalle de confiance, fix´e pour toutes nos simulations `a 0, 95.
3.1 Observation du “vrai” mod` ele
La Figure 1 montre le coverage empirique de l’intervalle de confiance construit sur
l’estimateur S b
i,N, pour l’indice relatif `a chacune des variables d’entr´ee X
1, X
2et X
3. On
0.7 0.75 0.8 0.85 0.9 0.95 1
10 100 1000 10000 100000
Empirical coverage
Sample size (N) Variable X1
0.7 0.75 0.8 0.85 0.9 0.95 1
10 100 1000 10000 100000
Empirical coverage
Sample size (N) Variable X2
0.7 0.75 0.8 0.85 0.9 0.95 1
10 100 1000 10000 100000
Empirical coverage
Sample size (N) Variable X3
Figure 1 – Coverages empiriques des intervalles de confiance asymptotiques pour S
1(gauche), S
2(centre) et S
3(droite), en fonction de la taille de l’´echantillon. L’estimateur S b
i,Nest utilis´e.
3.2 3.25 3.3 3.35 3.4 3.45 3.5 3.55 3.6 3.65 3.7
10 100 1000 10000 100000
95% Confidence Interval length x sqrt(N)
Sample size (N) Variable X1
T-Based Confidence interval length x sqrt(N) S-Based Confidence interval length x sqrt(N)
2.7 2.8 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8
10 100 1000 10000 100000
95% Confidence Interval length x sqrt(N)
Sample size (N) Variable X2
T-Based Confidence interval length x sqrt(N) S-Based Confidence interval length x sqrt(N)
3.4 3.6 3.8 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6
10 100 1000 10000 100000
95% Confidence Interval length x sqrt(N)
Sample size (N) Variable X3
T-Based Confidence interval length x sqrt(N) S-Based Confidence interval length x sqrt(N)