Analyse de sensibilité avec des entrées fonctionnelles

3.2 Analyse de sensibilité globale

3.2.3 Analyse de sensibilité avec des entrées fonctionnelles

Plusieurs approches d’estimation des indices de sensibilité de codes de calcul à entrées fonctionnelles ont déjà été développées. Dans cette revue de l’état de l’art, ces approches sont classées en cinq grandes catégories. Parmi ces travaux, ceux présentés dans les sections 3.2.3.1 à 3.2.3.3 sont liés à des méthodes de caractérisation des incertitudes des paramètres fonctionnels en entrée du code de calcul. Une fois les incertitudes des variables fonctionnelles caractérisées, il est possible d’appliquer une méthode d’estimation Monte Carlo comme présenté dans la section 3.2.2.1. La méthode décrite dans la section 3.2.3.4 ne modélise pas ces incertitudes, et considère plutôt que les variables fonctionnelles sont des paramètres incontrôlables. Pour cela, elle s’appuie sur les méthodes de métamodélisation des codes de calcul stochastiques présentées dans le chapitre 4. La dernière méthode, présentée dans la section 3.2.3.5, ne vise pas à quantifier la sensibilité du code de calcul aux variables fonctionnelles mais la sensibilité aux variables fonctionnelles restreintes à des sous-domaines de leur domaine de définition.

Dans toute cette section, on note M le code de calcul sur lequel est réalisée l’analyse de sensibilité. Le code M possède mZ entrées fonctionnelles Z1, . . . , ZmZ et mX entrées scalaires X1, . . . , XmX. La sortie

du code M est Y = M (X1, . . . , XmX, Z1, . . . , ZmZ).

3.2.3.1 Modélisation par une distribution discrète

Dans cette première approche, on considère que plusieurs réalisations des paramètres d’entrée fonc- tionnels sont connues. On note {z_i1, . . . , zni

i } l’ensemble des ni ∈ N réalisations connues de la variable

par la distribution discrète uniforme prenant ses valeurs dans l’ensemble {z_i1, . . . , zni

i }. L’estimation des

indices de sensibilité peut alors être réalisée à l’aide d’un tirage Monte Carlo comme présenté dans la section 3.2.2. Cette méthode d’analyse de sensibilité est résumée par l’algorithme 3.1.

Cette méthode a été mise en œuvre dans de nombreux articles parmi lesquels on peut citer Ruffo et al. (2006) et Lilburne et Tarantola (2009). Les premiers l’ont appliquée à l’analyse de sensibilité d’un code de calcul de prédiction de la production d’un réservoir pétrolier dont deux des entrées sont des variables aléatoires spatiales représentant la géométrie du réservoir et le flux de chaleur. Respectivement 8 et 4 réalisations de ces variables ont été utilisées pour l’analyse de sensibilité. Lilburne et Tarantola (2009) ont, quant à eux, utilisé cette méthode pour l’étude d’un code de calcul simulant le transport de nitrates dans les aquifères. Pour les quatre variables spatiales en entrée de leur modèle, les supports des distributions discrètes contenaient seulement de 2 à 4 réalisations.

Algorithme 3.1 Modélisation des variables fonctionnelles par une distribution discrète

1. Générer les réalisations z1

i, . . . , z

i pour chaque variable Z1, . . . , ZmZ.

2. Créer un échantillon Monte Carlo en simulant selon les distributions discrètes uniformes de supports {z1

i, . . . , z

i } et selon les distributions des variables scalaires.

3. Evaluer le code de calcul pour chaque point de l’échantillon.

4. Estimer les indices de sensibilité pour les variables scalaires et fonctionnelles.

3.2.3.2 Réduction de la dimension

La deuxième approche étudiée consiste à réduire la dimension des variables fonctionnelles en entrée de M en les approchant par des variables scalaires. En effet, il est plus simple d’estimer la distribution de variables scalaires et de réaliser ensuite des tirages Monte Carlo de ces variables.

Discrétisation des variables fonctionnelles

Une première manière de résumer une variable fonctionnelle par des variables scalaires consiste à la discrétiser. La densité jointe de la variable discrétisée est ensuite estimée afin de pouvoir réaliser les simulations Monte Carlo nécessaires à l’estimation des indices de Sobol’. Il peut cependant être difficile d’estimer la densité de probabilité jointe des points discrétisés, surtout si le nombre de points de discrétisation est élevé. Pour contourner cette difficulté, une solution grossière peut être de négliger la dépendance entre les points de la discrétisation et d’approcher la densité de probabilité jointe par le produit des densités marginales en chaque point, chacune de ces marginales étant plus facile à estimer que la loi jointe. Cette approche est détaillée dans l’algorithme 3.2. Cette hypothèse est très restrictive et n’est pas adaptée à tous les cas d’application. Heuvelink et al. (2010) ont utilisé cette approche sur un code de calcul d’étude des infiltrations de pesticides dont plusieurs entrées sont des variables spatiales. Ces variables étaient discrétisées sur 258 points. Les points de la grille de discrétisation étaient considérés comme suffisamment éloignés les uns des autres pour que la dépendance entre les différents points soit négligée. Dans cet exemple, les densités de probabilité pour les différents points de la discrétisation étaient modélisées par des lois log-normales indépendantes.

Division des domaines de définition des variables fonctionnelles

Une modélisation assez similaire consiste à séparer le domaine de variation de la variable fonctionnelle en quelques zones et à décrire chacune de ces zones par une ou plusieurs variables scalaires. Les variables scalaires relatives à une même sous-région peuvent être considérées comme dépendantes, alors que des variables de deux sous-régions différentes sont supposées indépendantes. Cette méthode repose sur une hypothèse d’indépendance entre les sous-régions, ce qui peut être une hypothèse très forte dans certains cas. Cette approche a été mise en œuvre notamment par Hall et al. (2005) et Volkova et al. (2008). Ces derniers ont appliqué cette méthode à un modèle d’étude du transport de radionucléides dans les nappes

Algorithme 3.2 Estimation par discrétisation des variables fonctionnelles

1. Générer les réalisations zi1, . . . , z

i des variables Zi, i ∈ {1, . . . , mX}.

2. Discrétiser ces réalisations.

3. Modéliser la densité de probabilité des variables fonctionnelles en chaque point de la discrétisation. 4. Créer un échantillon Monte Carlo en simulant selon la densité de probabilité estimée et selon les

distributions des variables scalaires.

5. Evaluer le code de calcul pour chaque point de l’échantillon.

6. Estimer les indices de sensibilité pour les variables scalaires et fonctionnelles.

phréatiques. Ils séparent en quatre sous-régions le domaine de variation des variables spatiales en entrée du modèle et décrivent chacune de ces sous-régions par une variable aléatoire : la valeur moyenne de la variable fonctionnelle sur la zone. Les quatre variables ainsi obtenues sont ensuite considérées comme indépendantes pour le calcul des indices de Sobol’.

Décomposition fonctionnelle

Il est aussi possible de décomposer les variables aléatoires fonctionnelles sur une base fonctionnelle. Pour chaque variable fonctionnelle Zi, di fonctions de base sont retenues dans la décomposition. Ainsi,

chaque variable est résumée par les di coefficients de sa décomposition sur la base. Pour chaque variable

fonctionnelle, les coefficients de la décomposition sont des variables scalaires dépendantes. La distribution jointe de ces variables scalaires est ensuite modélisée. Plusieurs méthodes de décomposition fonctionnelle et de modélisation de densités jointes peuvent être trouvées dans le chapitre 2. L’indice de sensibilité d’une variable fonctionnelle est alors approché par l’indice de sensibilité du groupe de ses coefficients sur la base (Jacques et al. 2006). L’algorithme 3.3 décrit les différentes étapes de cette méthodologie. Anstett-Collin et al. (2015) proposent une application de cette approche sur un code de calcul modélisant les flux thermiques d’un bâtiment. Parmi les entrées de ce simulateur, six sont des variables aléatoires temporelles. Anstett-Collin et al. (2015) proposent une décomposition fonctionnelle sur une base de Karhunen-Loève (Loève 1955).

Algorithme 3.3 Estimation par décomposition fonctionnelle

1. Générer les réalisations z_i1, . . . , zni

i des variables Zi, i ∈ {1, . . . , m}.

2. Appliquer une méthode de décomposition fonctionnelle aux réalisations des variables fonctionnelles et tronquer la base estimée.

3. Modéliser la densité de probabilité des coefficients de la décomposition.

4. Créer un échantillon Monte Carlo en simulant selon la densité de probabilité estimée des coefficients de la décomposition et selon les distributions des variables scalaires. Construire les fonctions correspondant aux jeux de coefficients simulés.

5. Evaluer le code de calcul pour chaque point de l’échantillon.

6. Estimer les indices de sensibilité pour les variables scalaires et fonctionnelles.

Décomposition fonctionnelle et modèles fonctionnels linéaires

Enfin, Fort et al. (2013) étudient le cas particulier où M peut être approché par le modèle fonctionnel linéaire suivant : Y = µ + mZ X k=1 hZk, βki + ε,

où µ ∈ R, βk, 1 ≤ k ≤ mZ, sont des fonctions, h, i un produit scalaire et ε est un bruit centré et indépen-

dant des variables Z1, . . . , ZmZ. Pour ce faire, chaque variable fonctionnelle Zk, pour k ∈ {1, . . . , mX},

est décomposée selon la transformation de Karhunen-Loève (Loève 1955) :

Zk≈ d X l=1 q λk lξ k iφ k l, où λk 1. . . , λkdet φ k

1, . . . , φkdsont respectivement les valeurs propres et les fonctions propres de l’opérateur de

covariance de Zk défini par f 7→ E (hZk, f iZk), et ξk1, . . . , ξkd sont des variables aléatoires indépendantes,

centrées et de variance 1. Pour l’échantillon de réalisations i.i.d. Z1

i, . . . , Z

i , Yi

1≤i≤n, Fort et al.

(2013) définissent l’estimateur suivant de l’indice de Sobol’ de Zk :

ˆ Sk= Pd l=1 1 λk l 1 n(n−1) P 1≤i6=j≤nhZ k i, φ k liYihZjk, φ k liYj 1 n−1 Pn i=1 Yi− ¯Yn 2 ,

où ¯Yn est la moyenne des Y1, . . . , Yn. Le numérateur de cet estimateur est biaisé et son biais est égal

à P∞

l=d+1λklγl, avec β =

P∞

l=1γlφl. La limitation principale de cette méthode est qu’elle suppose la

linéarité du code M par rapport à ses entrées fonctionnelles.

Parmi les méthodes basées sur la réduction de dimension des variables fonctionnelles, celle utilisant la décomposition fonctionnelle semble être la plus prometteuse, car elle nécessite moins d’hypothèses sur les variables d’entrée, comme dans les deux premières méthodes, ou sur le code, comme dans la méthode proposée par Fort et al. (2013).

3.2.3.3 Sensibilité à la présence de la variable fonctionnelle

Crosetto et Tarantola (2001) proposent de modifier les variables fonctionnelles considérées en intro- duisant une variable aléatoire « switch », notée ξ et suivant une distribution de Bernoulli de probabilité

2. Pour chaque variable fonctionnelle Zi, une valeur nominale Z 0

i est choisie et une nouvelle variable

aléatoire ˜Ziconditionnelle à ξ est définie comme suit. Pour simuler une réalisation ˜zi de ˜Zi, on tire tout

d’abord une réalisation de ξ. Si celle-ci vaut 0, la réalisation ˜ziest fixée à la valeur nominale zi0, sinon zi

est simulée selon la loi de Zi. Crosetto et Tarantola (2001) proposent d’utiliser l’indice de Sobol’ de la

variable ξ, Sξ, comme indice de sensibilité de la variables Zi. Les étapes de la procédure sont précisées

dans l’algorithme 3.4.

Algorithme 3.4 Estimation de la sensibilité à la présence de la variable fonctionnelle

1. Pour chaque variable fonctionnelle Zi, définir une variable aléatoire, ξi, suivant une distribution de

Bernoulli de probabilité 1₂, une valeur nominale, z_i0et une variable ˜Zi=₁{ξi=0}z

i +1{ξi=1}Zi.

2. Créer un échantillon Monte Carlo en simulant selon les variables ˜Z1, . . . ˜ZmZ et selon les distribu-

tions des variables scalaires.

3. Evaluer le code de calcul pour chaque point de l’échantillon.

4. Estimer les indices de sensibilité pour les variables scalaires et les variables switch ξ1, . . . , ξmZ.

Par ce procédé, les auteurs estiment seulement la sensibilité de M au fait que Zisoit variable ou non ;

ils quantifient uniquement la sensibilité de M à la présence de variabilité dans Zi. Sξ ne quantifie donc

pas la contribution de l’incertitude de Zi à l’incertitude de Y et n’est pas égal à l’indice de Sobol’ de Zi.

Cependant, Sξ constitue un indicateur qualitatif de la sensibilité de M à Zi. Dans Crosetto et Tarantola

(2001), cette méthode est appliquée à l’étude d’un modèle hydrologique de prédiction d’inondations, et permet de prendre en compte plusieurs variables aléatoires spatiales en entrée du modèle.

3.2.3.4 Métamodèles joints

Récemment, Iooss et Ribatet (2009) ont proposé d’utiliser des métamodèles joints pour réaliser l’analyse de sensibilité dans le cas de variables fonctionnelles. Cette méthode, décrite plus en détail dans le chapitre 4, avait été précédemment introduite pour approcher les codes de calcul stochastiques. Dans celle-ci, deux métamodèles approchent la moyenne et la dispersion de la sortie du code. Pour cela, Za- balza et al. (1998), Iooss et Ribatet (2009) et Marrel et al. (2012) emploient respectivement des modèles linéaires généralisés, des modèles additifs généralisés et des métamodèles processus gaussiens. Iooss et Ribatet (2009) proposent d’étendre cette méthode aux entrées fonctionnelles, en considérant ces en- trées comme des paramètres incontrôlables, c’est-à-dire régis par une graine aléatoire ε. Les variables fonctionnelles sont alors notées Wε, et les métamodèles joints de la moyenne et de la dispersion s’écrivent

Ym(X) = E(Y |X)

Yd(X) = _{Var(Y |X) = E}(Y − Ym(X))2|X ,

avec X = (X1, . . . , XmX) et où Yd et Ym sont respectivement les composantes de la moyenne et de la

dispersion. A l’aide de la formule de la variance totale, la variance de Y peut être déduite des deux métamodèles :

Var(Y ) = _{Var [E (Y |X)] + E [Var (Y |X)]} = Var [Ym(X)] + E [Yd(X)] .

(3.11)

De plus, les auteurs montrent que tous les indices de Sobol’ de sous-ensembles de {X1, . . . , XmX} peuvent

être calculés avec la décomposition de l’équation (3.11) et le métamodèle de la moyenne Ym. L’indice

total de Wε, noté STε, dépend du métamodèle de dispersion de la manière suivante :

STε =E[Yd(X)]

Var(Y ) . (3.12)

Si la variable Wε représente une (ou plusieurs) variable fonctionnelle, l’indice total STε peut être

interprété comme l’indice de Sobol’ total de l’entrée fonctionnelle. Seule la part de variance totale est estimée. L’effet de la variable seule (ou du groupe de variables) ne peut être distingué de ses interactions avec les paramètres X1, . . . , XmX. Toutefois, il est possible, dans certains cas, de déduire les potentielles

interactions entre les variables fonctionnelles et scalaires en comparant les indices d’ordre un et totaux de tous les paramètres (Marrel et al., 2012). La méthode complète d’analyse de sensibilité avec des métamodèles joints est résumée dans l’algorithme 3.5.

Algorithme 3.5 Méthode des métamodèles joints

1. Simuler un échantillon de réalisations de variables scalaires et calculer les sorties Y correspondantes en tirant aléatoirement les variables fonctionnelles.

2. Construire les joints métamodèles Ymet Yd de la moyenne et de la dispersion.

3. Créer un échantillon Monte Carlo en simulant selon les distributions des variables scalaires. 4. Evaluer les deux métamodèles Ymet Yd pour chaque point de l’échantillon.

5. Estimer les indices de sensibilité pour les variables scalaires avec Ym. Estimer l’indice total du

groupe des variables fonctionnelles à l’aide de l’équation (3.12).

3.2.3.5 Sensibilité sur des sous-intervalles du domaine de définition

Dans de récents travaux, Fruth et al. (2015) proposent d’étudier la sensibilité de la sortie Y par rapport aux restrictions des variables fonctionnelles sur différents sous-domaines de leur domaine de définition. Le domaine de définition Di de chaque variable fonctionnelle Zi, 1 ≤ i ≤ mZ, est partitionné

en pi intervalles disjoints, notés D1i, . . . D

fonctionnelle sur tout son intervalle de variation, piindices de sensibilité sont calculés pour les restrictions

de la variable Ziaux sous-intervalles D j

i, j ∈ {1, . . . , pi}. Pour calculer ces indices, Fruth et al. (2015) font

l’hypothèse que les variables fonctionnelles sont constantes sur chaque sous-intervalle. Par conséquent, l’indice de sensibilité de la variable Zi restreint à l’intervalle D

i représente l’influence de la moyenne de

la variable Zi sur Dji. La restriction de la variable Zi à un certain sous-intervalle est considérée comme

indépendante de la restriction de Zià un autre sous-intervalle. Fruth et al. (2015) définissent de nouveaux

indices de sensibilité, à savoir les coefficients de la régression linéaire entre les entrées du code de calcul et Y , normalisés par la taille de l’intervalle Dj_i.

De plus, une stratégie itérative est utilisée pour construire la partition des domaines de variation

Di. A chaque étape, les intervalles les plus intéressants sont partitionnés en deux intervalles égaux, de nouveaux points sont ajoutés à la base d’apprentissage du modèle linéaire selon la méthode des bifurcations séquentielles (Bettonvil 1995) et une nouvelle estimation des indices est réalisée. Le choix des intervalles à séparer en deux prend en compte notamment la valeur des indices calculés à l’étape précédente.

Par rapport aux autres méthodes présentées dans cette section, ces indices de sensibilité ont l’avantage d’indiquer plus précisément sur quelles parties de leur domaine de définition les variables fonctionnelles sont influentes. Cependant, à l’intérieur des sous-intervalles, de fortes influences peuvent s’annuler si elles sont de signe contraire, et il n’est alors pas possible de les détecter. Une deuxième limite de cette méthode est qu’elle ne tient compte que des comportement linéaires et peut ainsi ignorer les influences non-linéaires des paramètres d’entrée.

Fruth et al. (2015) ont appliqué ces nouveaux indices de sensibilité à un code de calcul modélisant le processus de profilage des plaques de métal. Les paramètres d’entrée du modèle sont deux variables temporelles. Trois étapes de l’algorithme de partitionnement itératif ont été appliquées et le domaine de variation de chaque variable est partitionné en six intervalles.

Dans le document Quantification des incertitudes et analyse de sensibilité pour codes de calcul à entrées fonctionnelles et dépendantes (Page 90-95)