Planification d’expériences séquentielle dans un contexte de méta-modélisation multi-fidélité.

(1)

HAL Id: hal-00702409

https://hal.archives-ouvertes.fr/hal-00702409

Submitted on 30 May 2012

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Planification d’expériences séquentielle dans un contexte de méta-modélisation multi-fidélité.

Loic Le Gratiet

To cite this version:

Loic Le Gratiet. Planification d’expériences séquentielle dans un contexte de méta-modélisation multi- fidélité.. Les 44 Journées de Statistique, May 2012, Bruxelles, Belgium. �hal-00702409�

(2)

Planification d’exp´ eriences s´ equentielle dans un contexte de m´ eta-mod´ elisation multi-fid´ elit´ e.

Sequential experimental design in a multi-fidelity computer experiment framework.

Loic Le Gratiet^1,2 & Claire Cannam´ela² & Josselin Garnier¹

1 Universit´e Paris Diderot- Paris VII 75205 Paris Cedex 13 ; loic.le-gratiet@cea.fr

2 CEA, DAM, DIF, F-91297 Arpajon, France ; claire.cannamela@cea.fr

Résumé. Les gros codes de calcul sont souvent utilisés en ingénierie pour étudier des systèmes physiques. Cependant, les simulations peuvent parfois être coûteuses en temps de calcul. Dans ce cas, une approximation de la relation entrée/sortie du code est souvent faite à l’aide d’un méta-modèle. En fait, un code de calcul peut souvent être lancé à différents niveaux de complexité et une hiérarchie de niveaux de code peut donc être obtenue. Il peut s’agir par exemple d’un modèle éléments finis ayant un maillage plus ou moins fin. L’objectif de nos travaux est d’étudier l’utilisation de plusieurs niveaux de code pour prédire la sortie d’un code coûteux. Le méta-modèle multi-niveaux présenté ici est un cas particulier du co-krigeage. Après avoir détaillé le modèle de co-krigeage utilisé et sa mise en place, nous concentrerons notre présentation sur les stratégies de planification d’expériences séquentielles. En effet, un avantage du co-krigeage est qu’il fournit, au travers de la variance de co-krigeage, une estimation de l’erreur de modèle en chaque point de l’espace des paramètres d’entrée. Ainsi, pour améliorer la précision du méta-modèle on peut enrichir séquentiellement notre base d’apprentissage aux points où la variance est la plus grande. Cependant, dans un cadre de multi-fidélité, il faut

également choisir sur quel niveau de code on veut connaˆıtre la réponse. Nous présenterons ici différentes stratégies pour choisir ce niveau basées sur un résultat original qui donne la contribution de chaque code à la variance de prédiction du modèle.

Mots-clés.co-krigeage, méta-modélisation multi-fidélité, plan d’expériences, stratégie séquentielle.

Abstract.Large computer codes are widely used in engineering to study physical systems. Nevertheless, simulations can sometimes be time-consuming. In this case, an approximation of the code input/output relation is made using a metamodel. Actually, a computer code can often be run at different levels of complexity and a hierarchy of levels of code can hence be obtained. For example, it can be a finite element model with a more or less fine mesh. The aim of our research is to study the use of several levels of a code to predict the output of a costly computer code. The presented multi-stage metamodel is a particular case of co-kriging which is a well-known geostatistical method. We first describe the construction of the co-kriging model and we focus then on a sequential experimental

(3)

design strategy. Indeed, one of the strengths of co-kriging is that it provides through the predictive co-kriging variance an estimation of the model error at each point of the input space parameter. Therefore, to improve the surrogate model we can sequentially add points in the training set at locations where the predictive variances are the largest ones. Nonetheless, in a multi-fidelity framework, we also have to choose which level of code we have to run. We present here different strategies to choose this level. They are based on an original result which gives the contribution of each code on the co-kriging variance.

Keywords.surrogate models, co-kriging, multi-fidelity computer experiment, experimental design, sequential strategy.

1 Introduction

Le krigeage est une classe particulière de méta-modèle qui fait l’hypothèse a priori que la sortie que l’on essaye d’approcher est une réalisation d’un processus Gaussien. On se concentre ici sur ce modèle et son extension pour les sorties à réponses multiples. Le lecteur pourra se référer aux livres de Santner, Williams et Notz (2003) et Rasmussen et Williams (2006) pour plus de détails sur le krigeage. Dans le cadre des simulateurs multi- fidélités, nous possédons un code qui peut être lancé à plusieurs niveaux de précision.

Ces niveaux pouvant par exemple correspondre à différentes tailles de mailles pour un code éléments finis. L’objectif de la méta-modélisation sera de construire une surface de réponse du code en utilisant une ou plusieurs de ses versions dégradées.

Un premier méta-modèle multi-niveaux a été mis en place par Kennedy et O’Hagan (2000) en utilisant une relation autorégressive d’ordre 1 entre deux niveaux successifs. Ce modèle est un cas particulier du co-krigeage qui est une méthode communément utilisée en géostatistique. Ensuite, Qian et Wu (2008) ont proposé une approche Bayésienne du modèle suggéré par Kennedy et O’Hagan (2000) et Forrester, Sobester et Keane (2007) ont présenté l’utilisation du co-krigeage dans un cadre d’optimisation (basée sur l’algorithme EGO : Efficient Global Optimization). Enfin, certains points limitant de la méthode ont

été résolus dans le papier Le Gratiet (2011) qui présente entre autres une procédure d’estimation efficace des paramètres, une réduction de la complexité du modèle et une nouvelle approche Bayésienne évitant une implémentation prohibitive. Dans les papiers ci-dessus, différentes méthodes de planification d’expériences ont été proposées mais aucun auteur ne s’est intéressé à la planification d’expériences séquentielle. Pourtant la hiérarchie de codes disponible peut nous permettre de mettre en place des stratégies intéressantes de planification séquentielle. La question sera la suivante : si nous voulons lancer une simulation en un nouveau point, sur quel niveau de code allons-nous la lancer ? Il va donc falloir trouver le meilleur compromis coût / précision et nous allons pour cela utiliser un résultat utile déduit de Le Gratiet (2011).

(4)

2 Construction du m´ eta-mod` ele multi-fid´ elit´ e.

Nous présentons ici une nouvelle modélisation multi-niveaux qui est équivalente à celle proposée par Kennedy et O’Hagan (2000) et qui se construit de manière récursive.

2.1 Rappels des ´ equations du mod` ele AR(1) ´ etendues au cas s niveaux.

Supposons que nous ayons s niveaux de code modélisés par des processus Gaussiens (Zt(x))_t=1,...,s, x∈Q, classés par ordre croissant de précision et tels que :







Zt(x) =ρ_t−1(x)Z_t−1(x) +δt(x) Zt−1(x)⊥δt(x)

ρt−1(x) =g_t^T₋₁(x)βρt−1

(1) o`u l’on d´efinit ∀t= 2, . . . , s:

δt(x)∼ PG(f_t^T(x)βt, σ_t²rt(x, x^′)) (2) et :

Z₁(x)∼ PG(f₁^T(x)β₁, σ₁²r₁(x, x^′)) (3) On fait donc ici l’hypothèse a priori que les sorties des codes sont des réalisations de processus Gaussiens. Le méta-modèle sera construit en conditionnant ces réalisations par les sorties connues des codes.

La modèlisation précédente issue de l’article de Kennedy et O’Hagan (2000) définit la relation entre les niveaux de codes. Elle est déduite de l’hypothèse suivante : ∀x, si on se donne la valeur de Z_t−1(x), on ne peut rien apprendre de plus sur Zt(x) à partir des autres résultats Zt−1(x^′) pour x6=x^′.

SoitZ = (Z₁^T, . . . ,Z_s^T)^T le vecteur Gaussien contenant le valeurs des processus (Zt(x))_t=1,...,s aux points des plans d’exp´eriences (Dt)t=1,...,s avec Ds ⊆ Ds−1 ⊆ · · · ⊆ D₁. Si on note β = (β₁^T, . . . , β_s^T)^T, βρ = (β_ρ^T₁, . . . , β_ρ^T_s₋₁)^T, σ² = (σ₁², . . . , σ_s²) et z = (z¹, . . . , z^s) les r´eponses connues des codes, on a :

∀x∈Q [Zs(x)|Z =z, β, βρ, σ²]∼ N mZs(x), s²_Z_s(x) o`u :

mZs(x) =h^′_s(x)^Tβ+ts(x)^TV_s⁻¹(z−Hsβ) (4) et :

s²_Z_s(x) =σ²_Z_s(x)−ts(x)^TV_s⁻¹ts(x) (5) La moyenne de co-krigeage mZs(x) constituera le méta-modèle sur le niveau le plus précis construit à partir des réponses connues sur les s niveaux de code et la variance de

(5)

co-krigeage s²_Z_s(x) donnera une estimation de l’erreur de mod`ele.

La matrice Vs représente la matrice de covariance du vecteur Gaussien Z, le vecteur ts(x) est le vecteur de covariance entre Zs(x) et Z, Hsβ est la moyenne de Z, h^′_s(x)^Tβ est la moyenne deZs(x) et σ²_Z_s(x) sa variance. Tous ces éléments sont construits à partir du vecteur d’expériences au niveau t et de la covariance entre Zt(x) et Zt^′(x^′) explicités ci-dessous :

h^′_t(x)^T =

_t−1 Y

i=1

ρi(x)

!

f₁^T(x),

t−1

Y

i=2

ρi(x)

!

f₂^T(x), . . . , ρ_t−1(x)f_t^T₋₁(x), f_t^T(x)

! (6) et pour t > t^′ :

cov(Zt(x), Zt^′(x^′)|σ², β, βρ) =

t−1

Y

i=t^′

ρi(x)

!

cov(Zt^′(x), Zt^′(x^′)|σ², β, βρ) (7) avec :

cov(Zt(x), Zt(x^′)|σ², β, βρ) =

t

X

j=1

σ_j²

t−1

Y

i=j

ρ²_i(x)

!

rj(x, x^′) (8)

2.2 Ecriture r´ ecursive du mod` ele AR(1)

Nous allons ici pr´esenter une nouvelle mod´elisation multi-niveaux qui est en fait

équivalente à la précédente. Considérons la modélisation suivante pour t = 2, . . . , s :







Zt(x) =ρt−1(x)[Zt−1(x)|Zt−1 =z^t−1] +δt(x) Z_t−1(x)⊥δt(x)

ρt−1(x) =g_t^T₋₁(x)βρt−1

(9) avec Ds ⊆ Ds−1 ⊆ · · · ⊆ D₁. La seule différence avec la précédente modélisation est que l’on exprime Zt(x) (le processus Gaussien modélisant le code de niveaut) en fonction du processus Zt−1(x) conditionné par ses réponses connues z^t⁻¹ sur le plan Dt−1. Les (δt(x))_t=2,...,s sont définis comme précédemment et on a pour tout t= 2, . . . , s :

Zt(x)|Zt=z^t

∼ N µZt(x), s²_Zt(x)

(10) o`u :

µZt(x) =ρt−1(x)µZt−1(x) +f_t^T(x)βt+r_t^T(x)R⁻¹_t z^t−ρt−1(Dt)⊙zt−1(Dt)−Ftβt

(11) et :

s²_Z_t(x) =ρ²_t−1(x)s²_Z_t₋₁(x) +σ_t² 1−r_t^T(x)R⁻¹_t rt(x)

(12) Le symbole ⊙ représente le produit matriciel élément par élément. Rt est la matrice de correlation de Dt avec le noyau rt(x, x^′) et r_t^T(x) est le vecteur de covariance entre x et Dt avec ce même noyau. On note ρt(Dt ) le vecteur contenant les valeurs de ρt(x)

(6)

pourx∈D_t−1, zt(D_t−1) celui contenant les sorties connues de Zt(x) sur D_t−1 etFt est la matrice d’exp´eriences contenant les valeurs de ft(x)^T sur Dt.

La moyenne µZt(x) constitue le méta-modèle sur le code de niveau t sachant les réponses connues des t premiers niveaux de code et la variance s²_Z_t(x) représente l’erreur de ce modèle. La moyenne et la variance de co-krigeage sur le niveau t s’exprimant

à partir de celles du niveau t− 1, on a bien une expression récursive du modèle pro- posé par [2]. La modélisation proposée ici est puissante car elle montre que construire un co-krigeage à s niveaux est équivalent à construire s krigeages indépendants.

3 Planification d’exp´ eriences s´ equentielle pour le co- krigeage

La modélisation récursive présentée précédemment va nous permettre de construire une méthode simple de planification d’expériences séquentielle. Nous travaillerons sur un des principaux critères de planification séquentielle utilisés dans le krigeage : le MSE (Mean Squarred Error). La stratégie consiste simplement à trouver le point maximisant la variance de prédiction s’écrivant :

s²_Z_t(x) =ρ²_t₋₁(x)s²_Z_t₋₁(x) +σ_t² 1−r^T_t(x)R⁻¹_t rt(x)

∀t = 2, . . . , s s²_Z₁(x) =σ₁² 1−r^T₁(x)R⁻¹₁ r₁(x)

Soit ˜x= argmax_xs²_Z_s(x). On a alors ∀t= 1, . . . , s :

s²_Z_t(˜x) =ρ²_t−1(˜x)s²_Z_t₋₁(˜x) +σ_t² 1−r_t^T(˜x)R_t⁻¹rt(˜x)

Supposons que l’on d´ecide de lancer le code t−1 en ˜x, on a alors s²_Z_t₋₁(˜x) = 0 et : s²_Z_t(˜x) =σ_t² 1−r^T_t(˜x)R⁻¹_t rt(˜x)

ρ²_t−1(˜x)s²_Z_t₋₁(˜x) repr´esente donc la part de la variance due au code de niveau t−1 et σ²_t 1−r_t^T(˜x)R⁻¹_t rt(˜x)

représente la part de la variance due au code de niveau t. Une stratégie naturelle de planification d’expériences est alors de trouver le point ˜x maximisant la variance, de regarder la part de chaque niveau de code surs²_Z_s(˜x) et de lancer une simulation sur le niveau de code le plus intéressant (selon un critère coût/précision qui dépendra du cas d’application).

Il est donc nécessaire de construire un critère qui nous permette de déterminer quel niveau de code est le plus intéressant. Nous illustrons dans ce résumé, une méthode pour choisir ce niveau dans le cas s = 2. On introduit pour cela la moyenne de la variance de prédiction (oùµ(x) représente la mesure de la loi des entrées) :

imse = Z

Q

s²_Z₂(x)dµ(x)

(7)

Consid´erons ˜x = argmax_xs²_Z₂(x), dans le cas `a 2 niveaux nous pouvons lancer soit z₁(˜x) soit z₂(˜x). Supposons que l’on connaisse z₁(˜x), on aura alors :

s²_Z₂(˜x) =σ₂² 1−r^T₂(˜x)R⁻¹₂ r₂(˜x)

Si s²_Z₂(˜x) < imse cela signifie que l’erreur de modèle en ˜x est inférieure à l’erreur de modèle moyenne. Il n’est donc pas nécessaire de lancer le code de niveau 2 en ce point car cela n’apportera pas en moyenne plus d’information qu’un autre point. En revanche, sis²_Z₂(˜x)>imse, cela signifie que l’erreur de modèle en ˜x est plus importante que l’erreur moyenne et il sera donc avantageux de lancer le code de niveau 2 en ce point.

R´ ef´ erences

[1] Forrester, A. I. J., Sobester, A. & Keane, A. J. (2007), Multi-fidelity optimization via surrogate modelling, Proc. R. Soc. A 463, 3251-3269.

[2] Kennedy, M. C. & O’Hagan, A. (2000), Predicting the output from a complex computer code when fast approximations are available, Biometrika 87, 1-13.

[3] Le Gratiet, L. (2011),Bayesian analysis of hierarchical multi-fidelity codes, Arxiv preprint arXiv :1112.5389, 2011.

[4] Rasmussen, C. E. & Williams, C. K. I.(2006),Gaussian Processes for Machine Learning, the MIT Press.

[5] Santner, T. J., Williams, B. J. & Notz, W. I. (2003), The Design and Analysis of Computer Experiments, New York : Springer.

[6] Qian, Z. & Jeff Wu, C. F.(2008),Bayesian Hierarchical Modeling for Integrating Low-accuracy and High-accuracy Experiments, Technometrics 50, 192-204.