Synthèse - Quantification des incertitudes et analyse de sensibilité pour codes de calcul à ent

Une étape essentielle du traitement des incertitudes de codes de calcul est l’identification et la quantification des sources d’incertitudes en entrée du code. Pour ce faire, dans le cadre d’une approche probabiliste, les paramètres d’entrée incertains du code sont modélisés par des variables aléatoires. On s’intéresse plus particulièrement dans ce chapitre à la quantification des incertitudes de plusieurs variables d’entrée fonctionnelles et dépendantes entre elles. De plus, comme on s’inscrit par la suite dans

une démarche d’analyse de sensibilité de la sortie, la quantification des incertitudes doit modéliser avec précision les caractéristiques des variables d’entrée qui expliquent le mieux la sortie, appelée covariable. Dans ce chapitre, un état de l’art des méthodes de quantification des incertitudes d’une ou de plusieurs variables fonctionnelles a été présenté. Les méthodes décrites sont toutes constituées de deux grandes étapes.

Etape 1 : décomposition fonctionnelle. La variable fonctionnelle est décomposée sur une base de fonc-

tions, et est ensuite représentée par ses coefficients sur la base.

Etape 2 : caractérisation probabiliste des coefficients. Dans cette étape, la distribution de probabilité

des coefficients est modélisée.

Après une revue des méthodes utilisées pour réaliser ces deux étapes, une méthodologie complète de quantification des incertitudes a été proposée en améliorant et en adaptant les méthodes existantes, afin de traiter le cas de plusieurs variables fonctionnelles dépendantes entre elles et corrélées à une covariable. De plus, nous avons proposé plusieurs critères pour évaluer l’efficacité des méthodes utilisées à chacune des étapes ainsi que l’efficacité de la méthodologie globale. Ces critères permettent aussi d’ajuster certains paramètres des méthodes.

Deux grandes familles de méthodes ont été présentées pour l’étape 1 de décomposition fonctionnelle. La première, dans laquelle les fonctions de la base de décomposition sont sélectionnées en fonction des données parmi des fonctions fixées a priori, regroupe les bases de spline, d’ondelettes ou de paquets d’on- delettes. Dans la deuxième famille de méthodes, les fonctions des bases de décomposition sont construites à partir des données. Dans le cas de l’Analyse en Composantes Principales (ACP), elles sont construites pour minimiser l’erreur quadratique de projection. Dans la décomposition Partial Least Squares (PLS), elles sont choisies de manière à réaliser un compromis entre l’approximation de la variable projetée sur la base de décomposition et l’approximation de son lien avec une covariable. Ces deux dernières méthodes ont obtenu de meilleurs résultats que la première famille de décompositions sur les exemples étudiés. Des adaptations des méthodes PLS et ACP ont été proposées dans cette thèse pour prendre en compte la dépendance entre les variables fonctionnelles. Ces décompositions PLS et ACP simultanées (resp. SPLS et ACPS) permettent de décomposer simultanément m variables fonctionnelles sur une base de m-uplets de fonctions. Parmi les méthodes présentées, la SPLS est celle qui répond le mieux aux objectifs d’approximation des variables fonctionnelles et de leur lien avec une covariable. Cependant, dans le cas où on ne considère pas de covariable, on préconise d’utiliser l’ACPS qui permet une bonne approximation des données. Les méthodes de décomposition fonctionnelle présentées dans ce chapitre ont été appliquées et comparées sur un exemple analytique et sur les deux cas industriels décrits dans l’introduction. Les tests effectués ont montré l’efficacité de la SPLS vis-à-vis des différents critères proposés. De plus, nous avons montré sur les exemples traités que les méthodes de décomposition simultanée donnaient à taille de base égale une meilleure approximation que des décompositions séparées quand les variables approchées sont dépendantes.

Concernant la deuxième étape de la quantification, plusieurs méthodes d’estimation de la distribution de probabilité de variables multivariées ont été décrites dans ce chapitre. Nous nous sommes concentrés plus particulièrement sur la modélisation par mélange de gaussiennes, puisque cette méthode simple et rapide à mettre en œuvre permet de modéliser la densité de probabilité pour des dimensions relative- ment élevées (≥ 6). Plusieurs méthodes basées sur l’algorithme Expectation-Maximization (EM) ont été proposées pour estimer les paramètres du mélange de gaussiennes (proportions, moyennes et matrices de covariance de chaque classe). Une des limitations de la modélisation par des mélanges de gaussiennes est que le nombre de leurs paramètres augmente rapidement avec la dimension des variables à modéli- ser. Pour réduire leur nombre de paramètres, deux méthodes ont été étudiées. La première, notée sEM, estime des matrices de covariance dont les inverses sont creuses. L’inverse d’une matrice creuse n’étant pas forcément creuse, nous avons développé une deuxième méthode (sEM2) qui estime directement des matrices de covariance creuses. Celle-ci est basée sur l’ajout d’une pénalisation Lasso sur les matrices de covariance dans l’étape de maximisation de la vraisemblance de l’algorithme EM. Nous avons présenté trois variantes de la méthode sEM2 dans lesquelles les pondérations accordées à chaque élément de la matrice de covariance dans la pénalisation Lasso diffèrent. Ces méthodes d’estimation ont été appliquées

aux trois cas d’étude. Ces applications ont montré que la méthode sEM2. permettait, dans la plupart des cas, de mieux approcher la densité de probabilité des coefficients que les algorithmes EM ou sEM. Pour la méthode sEM2., les deux pénalisations, dans lesquelles les éléments diagonaux des matrices de covariance ne sont pas pénalisés (sEM2.2 et sEM2.3), ont donné de meilleurs résultats que celle qui pé- nalise de la même manière l’ensemble des éléments des matrices de covariance. En pratique, on conseille donc d’utiliser les méthodes sEM2.2 et sEM2.3.

Ainsi, la méthodologie globale de quantification des incertitudes retenue à l’issue des différentes études réalisées dans ce chapitre est résumée par la Figure 2.40. Pour chaque étape de la méthodologie, sont représentés les choix de modélisation à effectuer en fonction du cas traité (dans les losanges), les méthodes à appliquer (dans les rectangles), et les paramètres à estimer (dans les ellipses).

Enfin, un état de l’art des méthodes de visualisation de données fonctionnelles a été présenté. Nous avons ensuite proposé une adaptation de la méthode High Density Region (HDR) boxplot. La méthode HDR boxplot permet de résumer graphiquement un échantillon de courbes par une médiane fonctionnelle, des enveloppes de fonctions les plus probables et des fonctions extrêmes. L’amélioration proposée consiste à remplacer la méthode de quantification des incertitudes utilisée pour construire le HDR boxplot par celle proposée dans ce chapitre. Ce changement permet tout d’abord d’améliorer la qualité de l’étape de quantification et donc la qualité d’estimation des différentes quantités représentées, en augmentant la taille de la base de décomposition. De plus, cette modélisation permet, dans le cas d’un groupe de variables fonctionnelles, d’appliquer l’outil de visualisation simultanément à toutes ces variables. Par exemple, en appliquant cet outil de visualisation à un groupe de variables fonctionnelles, la médiane représentée correspond à la médiane du groupe de variables fonctionnelles et non au vecteur des médianes de chaque variable fonctionnelle. L’intérêt du nouvel outil de visualisation ainsi obtenu a été illustré sur les cas-test du PTS et de la rupture LiPoSo.

Données :

– mZvariables aléatoires fonctionnelles – Échantillon de n réalisations de ce mZ-uplet

Les variables dépendent- elles d’une covariable ? Étape 1 : Décomposition fonctionnelle Analyse en composantes principales (simultanée si mZ> 1) Décomposition Partial Least Squares (simultanée si mZ> 1) Choix de d et sélection des d premières composantes Modélisation par un mélange de gaussiennes Le nombre de composantes d est-il élevé ? Matrices de covariance pleines : Algorithme EM Matrices de covariance creuses : Algorithme sEM2 Choix du nombre de gaussiennes G Choix du nombre de gaussiennes G

Estimation des paramètres des gaussiennes par maximum de

vraisemblance

Choix des paramètres de pénalisation λ et P .

Estimation des paramètres des gaussiennes par maximum de

vraisemblance pénalisée

Étape 2 :

Modélisation de la densité de probabilité des coefficients

Loi des coefficients estimée

Modèle probabiliste pour la quantification des incertitudes des variables aléatoires fonctionnelles

Vraisemblance estimée par validation croisée pour différents λ et P Critère BIC pour différents G Critère BIC pour différents G Critères Ce 1, C2e et Ce 3pour différents d oui non oui non

Figure 2.40 – Organigramme de la méthode proposée de quantification des incertitudes de variables fonctionnelles dépendantes.

Chapitre 3

Analyse de sensibilité de codes de

calcul à entrées fonctionnelles

3.1 Problématiques et objectifs

L’analyse de sensibilité (Saltelli et al., 2000; Helton et al., 2006) est un outil efficace pour identifier comment la variation des paramètres d’entrée d’un code de calcul contribue, qualitativement ou quan- titativement, à la variation de la sortie. Ainsi, l’analyse de sensibilité peut aider à valider, simplifier ou mieux comprendre un modèle ainsi qu’à guider les efforts de caractérisation des paramètres d’entrée. De nombreuses revues des méthodes d’analyse de sensibilité (Kleijnen, 1997; Helton et al., 2006; Iooss, 2011) ont été réalisées. Elles distinguent généralement deux catégories de méthode : l’analyse de sensibi- lité locale et l’analyse de sensibilité globale. La première catégorie étudie l’effet d’une petite perturbation autour de valeurs nominales et utilise souvent, pour cela, les dérivées partielles du code de calcul. La seconde, notée ASG, a pour but de mesurer l’effet des incertitudes des entrées sur l’ensemble de leur domaine de variation. Parmi les nombreuses techniques d’ASG, on s’intéresse plus particulièrement dans ce chapitre à la méthode d’analyse de sensibilité basée sur la variance et introduite par Sobol’ (1993). Ces mesures de sensibilité sont appelées indices de Sobol’. En donnant une mesure quantitative de la contribution de l’incertitude des entrées à l’incertitude des sorties du code, ces indices permettent de comparer et d’ordonner les contributions de toutes les entrées et de leurs interactions à l’incertitude de la sortie.

Ce chapitre a pour objectif d’étudier et de proposer des méthodes d’analyse de sensibilité pour les simulateurs numériques utilisés dans les deux cas d’étude définis dans la section 1.2 (cas du choc thermique PTS et de la rupture LiPoSo). Les deux cas étudiés présentent plusieurs des caractéristiques suivantes notées de P1 à P3 :

P1 : les entrées du code de calcul sont scalaires et fonctionnelles. De plus, ses entrées fonctionnelles sont

possiblement dépendantes,

P2 : les incertitudes liées à ces variables d’entrée fonctionnelles ne sont connues qu’à partir d’un nombre

limité de leurs réalisations (elles peuvent être les sorties d’un autre code de calcul, comme c’est le cas dans les applications étudiées ici, ou les résultats de mesures expérimentales),

P3 : le code étudié est coûteux en temps de calcul.

Seul le cas de la rupture LiPoSo possède la caractéristique P3, alors que les deux autres caractéristiques

sont partagées par les deux cas d’étude. Dans ces deux exemples, les variables fonctionnelles

sont toutes dépendantes, et l’objectif de l’analyse de sensibilité est de comparer l’influence du groupe des variables fonctionnelles avec celles des différentes variables scalaires.

La caractéristique P1 des codes étudiés a un effet sur l’estimation des indices de Sobol’. En effet,

leur estimation peut être plus complexe en pratique. Plusieurs travaux ont été conduits sur ce sujet. Un état de l’art de ceux-ci est réalisé dans la section 3.2.3. De plus, pour prendre en compte la dépendance possible entre les entrées du code de calcul, les indices de Sobol’ ont besoin d’être adaptés. Un état de l’art des méthodes développées pour les adapter au cas dépendant est proposé dans la section 3.2.4.

L’analyse de sensibilité globale requiert la connaissance des distributions de probabilité des entrées du code pour être en mesure de générer des réalisations de celles-ci. Cependant, à cause de la caractéristique

P2 du problème, la distribution de probabilité des entrées fonctionnelles du code doit être estimée au

préalable. Pour cela, on propose d’utiliser les méthodologies de quantification des incertitudes de variables fonctionnelles proposées dans le chapitre 2.

Enfin, la caractéristique P3, présente dans le cas d’étude LiPoSo, est une limitation importante,

puisque les méthodes d’estimation des indices de Sobol’ nécessitent un grand nombre d’appels au code (quelques milliers). Pour réduire ce nombre d’appels et donc le coût de la méthode, une solution peut être de construire un modèle de substitution, ou métamodèle, ayant un coût de calcul négligeable pour approcher le code. L’objectif est ici d’estimer le modèle de prédiction le plus proche possible du code sur l’intégralité du domaine de variation des entrées. Ce métamodèle est ensuite utilisé pour réaliser les études d’analyse de sensibilité. Comme décrit dans le chapitre 4, il existe plusieurs approches pour construire des métamodèles à entrées fonctionnelles, basées, par exemple, sur la décomposition fonctionnelle ou l’utilisation de variables incontrôlables. Pour apprendre un métamodèle approchant le code de calcul étudié, une base d’apprentissage de n évaluations du code (composée des entrées du code et de ses sorties correspondantes) est nécessaire. Comme l’échantillon disponible de réalisations des variables aléatoires fonctionnelles est probabilisé, certaines régions du domaine de variation des entrées sont mieux échantillonnées que les autres, et un métamodèle estimé à partir de ce plan d’expériences représenterait mieux les zones du domaine dans lesquelles le plan possède une plus haute densité de points. Un plan d’apprentissage échantillonné uniformément sur le domaine de variation des entrées serait mieux adapté pour construire un métamodèle représentatif du code de calcul sur l’ensemble du domaine de variation de ses entrées, car tout le domaine est représenté de manière équivalente dans l’échantillon (Santner et al., 2003). On propose donc de construire un plan d’apprentissage uniforme avec des propriétés optimales sur l’espace des entrées fonctionnelles et scalaires du code. Pour les variables scalaires, les plans hypercubes latins (LHS) sont une classe de plans largement utilisée (McKay et al., 1979). La construction de ces plans peut aussi être optimisée (Morris et Mitchell, 1995) selon un critère géométrique ou en évaluant l’uniformité de la répartition des points. Pour cela, la discrépance (centrée ou wrap-around, par exemple, cf. Jin et al. 2005), les critères de distance (maximin, minimax, cf. Johnson et al. 1990) peuvent être utilisés. Récemment, des travaux ont été conduits pour étendre ces techniques d’échantillonnage au cadre fonctionnel. Pebesma et Heuvelink (1999) ont proposé une méthode pour étendre les plans LHS à l’échan- tillonnage de processus gaussiens. Une adaptation du critère maximin a été proposée par Morris (2012) dans le cadre d’entrées et de sorties fonctionnelles. Enfin, Muehlenstaedt et al. (2014) ont proposé une méthode pour échantillonner des variables scalaires et fonctionnelles, quand les variables fonctionnelles sont bornées. Pour cela, une base de splines est utilisée pour approcher chaque variable fonctionnelle et l’espace des coefficients est échantillonné avec un LHS optimisé selon une variante régularisée du critère maximin. Cet échantillon est ensuite combiné avec un plan LHS construit pour les variables scalaires. Une extension de cette méthode aux deux cas étudiés dans ce chapitre est proposée dans la section 3.3.1.

La méthodologie proposée pour réaliser l’analyse de sensibilité est composée des étapes suivantes :

Etape 1 Modélisation des distributions de probabilité des variables d’entrée fonctionnelles selon la mé-

thode proposée dans le chapitre 2. Les variables sont décomposées sur une base fonctionnelle puis la distribution de probabilité de leurs coefficients est estimée par un mélange de gaussiennes.

Etape 2 Réalisation de l’analyse de sensibilité à partir de la densité de probabilité estimée à l’étape 1

avec l’une des méthodes suivantes, suivant le coût de calcul du code :

Option 2.a Si le code est rapide (cas du PTS), l’analyse de sensibilité est réalisée directement à

Option 2.b Si le code est coûteux (cas de la rupture LiPoSo), un échantillon uniforme des va-

riables scalaires et fonctionnelles en entrée du code est généré selon la méthode proposée dans ce chapitre, puis le code est évalué sur les points de cet échantillon. Un métamodèle est ensuite appris en utilisant comme échantillon d’apprentissage l’échantillon uniforme généré et les sorties du code correspondantes. Enfin, l’analyse de sensibilité est réalisée à partir du métamodèle ainsi construit.

Dans la section 3.2, les indices de sensibilité de Sobol’ (Sobol’, 1993) sont définis, et plusieurs méthodes pour les estimer sont présentées. Les méthodes existantes pour les adapter aux cas d’entrées fonctionnelles et possiblement dépendantes sont ensuite détaillées. La section 3.3 s’intéresse à la construction du métamodèle pour approcher un code de calcul coûteux. Les méthodes d’échantillonnage de variables fonctionnelles et scalaires pour la construction de la base d’apprentissage y sont décrites dans un pre- mier temps, puis la construction du métamodèle est ensuite discutée. Les méthodologies proposées pour l’analyse de sensibilité des deux types de code étudiés sont appliquées à l’exemple analytique défini dans le chapitre 2 et aux deux cas d’étude présentés dans l’introduction. Enfin, une synthèse des méthodes présentées ainsi que des résultats obtenus sur les cas-tests est réalisée dans la section 3.5.

Dans le document Quantification des incertitudes et analyse de sensibilité pour codes de calcul à entrées fonctionnelles et dépendantes (Page 80-86)