Méthodologie en grande dimension - Constrution et utilisation du métamodèle proessus gaussien

3.3 Constrution et utilisation du métamodèle proessus gaussien

3.3.3 Méthodologie en grande dimension

L'appliation dumodèle PGàdes odesde alulfaisant intervenir un grandnombrede variables

d'entrée estune problématique identiée depuisles travauxde Welh etal.[226 ℄. Le problèmesemble

se poser au delà de

5

^variables ^d'entrée ^et ^pour ^un ^nombre d'observations du ode de l'ordre de quelquesentaines(typiquement dix fois plusd'observations quede variables d'entrée). La prinipale

diulté demeure dansla proédure d'optimisation an d'estimer les paramètres de orrélation. Une

optimisation globale et simultanée de tous les paramètres de orrélation onduit inévitablement à de

très mauvaises estimations des hyperparamètres et onséutivement à un modèle PG peu préditif

(Welhetal. [226℄,Marrel etal. [143℄).

Welh et al. [226 ℄ utilisent un algorithme stepwise pour introduire séquentiellement les variables

d'entrée (et don leurs hyperparamètres) dans la vraisemblane du modèle PG. La première étape

onsisteàinitialiserleshyperparamètrespareuxd'uneovarianeisotrope(donavedeuxparamètres

de orrélation à ajuster) par maximisation de la log-vraisemblane des données. La deuxième étape

onsiste à réaliser une boule en réestimant suessivement les hyperparamètres de haque variable

d'entrée. Les estimations des hyperparamètres de la variable d'entrée qui ont onduit à laplus forte

améliorationdelalog-vraisemblanesontonservéesetlesautressontreinitialisésàleurvaleurinitiale.

La proédureest répétée jusqu'àun ritèred'arrêt surl'évolution de lalog-vraisemblane, ou jusqu'à

equetousleshyperparamètresaientétéestimés.Aveetalgorithme,Welhetal.[226 ℄parviennentà

onstruire unmodèlePGàl'aided'unetrentainede alulssurunodefaisant intervenir

20

^v^ariables

d'entrée.

Suite à et algorithme, peu d'auteurs se sont intéressés à e problème qui ne présente pas

d'in-térêt théorique mais un intérêt pratique évident. Pour des odesde alul faisant intervenir quelques

bliations où le modèle PG semble avoir donné des résultats satisfaisants. Ils proposent d'utiliser le

modèle PG ommeune tehnique de riblage avanée permettant, grâe à la déomposition ANOVA

fontionelle,lavisualisation deseetsprinipaux de haquevariabled'entrée (f.3.2.5). Leproblème

de l'estimationdes hyperparamètres est ignoré etramené à unproblème de validation du modèle PG

(préditeuretvariane)parvalidationroisée(proéduredétailléeparexempledansJonesetal.[110℄).

Cettevalidationroiséeparleave-one-outsembleependantdouteuse arlesparamètres deorrélation

ne sont pasréestimés à haque suppressiond'observations, e qui est justiépar leoûtd'une

réesti-mation systématique de eux-i. Or, lorsque la dimension desentrées n'est pas négligeable devant le

nombre de données, haque observation a une inuene potentiellement importante sur l'estimation

deshyperparamètres.

Dans Marrel et al. [143 ℄, nous proposons d'utiliser une proédure de validation qui évite e biais

en réestimant les hyperparamètres à haque étape de validation roisée. Le leave-one-out n'est alors

plus possible ar trop oûteux, et une validation roisée en quelques blos est utilisée. Le hoix du

nombre de blos est bien entendu dépendant du nombre d'observations dont on dispose, mais il est

usuellementinférieurà

10

^.^Le^ritère^utilisé^pourséletionnerlemeilleurmodèlePGestleoeientde préditivité

Q ₂

^(f.^3.2.3, ^Eq. ^(3.13)), ^le

R ²

^n'étant ^d'auune^utilité ^pour ^les ^modèles d'interpolation desobservations ommelekrigeage.

Notre intérêt pour eproblème d'ajustement demodèles PGà grandedimension vient dufait que

l'algorithme de Welh s'est révélé inapproprié etrelativement ineae sur ertaines de nos

applia-tions.En eet, en restreignant la partie déterministe du modèlePG à une onstante (f3.3.1), ilne

s'intéresse pasà l'estimation séquentielle desparamètres de régression

β

êtâux ^liens êntre êlle-i êt

l'estimation séquentielle des paramètres de ovariane. De plus, sa proédure d'initialisation des

hy-perparamètres estrelativement pauvre.Cetteinitialisation supposel'isotropie de laovariane, equi

foreles paramètres deorrélation à être égaux entre eux etqui peutonduire à desestimations très

éloignéesdes solutions.Or, elles-ionditionnent lasuite delaproédure d'ajustement arlemodèle

quiest testé àhaqueétapeprenden ompte toutes les variables d'entrée.

L'algorithme que nous avons développé dans Marrel et al. [143 ℄ s'inspire de elui de Welh, en

le ranant an de pallier aux diérents problèmes évoqués préédemment. Les grands prinipes de

l'algorithmeproposésont les suivants:

⋆

ûn ^tri înitial êst êetué ^sur ^les^variables ^d'entrée ân ^de ^les ^lasser ^par ôrdre ^d'inuene

surlasortie. Leritèredetri estleoeient deorrélationlinéaire entrehaqueentréeet

lasortie, aluléà l'aidede l'éhantillon d'apprentissage;

⋆

^e ^tri ^donne ^l'ordre ^d'inlusion progressive des variables d'entrée dans la ovariane du modèle PG lors de la proédure d'estimation de ses hyperparamètres. A haque inlusion

d'une nouvelle variable d'entrée, tous les hyperparamètres sont estimés par maximisation

delalog-vraisemblane (quirevient àminimiser l'expression (3.36));

⋆

^la ^présene ^d'une ^partie ^régression êt ^d'une ^partie ôvariane ^nous ôblige ^à ^mettre ên

÷uvreuneboule supplémentaire pour séletionnerlestermes delafontionderégression.

Le ritère d'information d'Akaike (AIC) est bien adapté pour séletionner un modèle de

régression. On utilise ii le ritère d'information d'Akaike orrigé (AICC) qui permet de

prendreenomptelaprésenesupplémentaire dutermedeovariane(Hoetingetal.[87℄):

AICC

= − 2l _Y n

β, b b σ, θ, b p, b τ b

+ 2n m ₁ + m ₂ + 1

n − m ₁ − m ₂ − 2 ,

^(3.37)

où

m ₁

^est ^le ^nombre ^de ^variables ^qui interviennent dansla partie régression

m( · )

m ₂

^est

le nombre de variables qui interviennent dans la fontion de ovariane et

l _Y n ( · )

^est ^la

log-vraisemblanedel'éhantillon

Y ⁿ

^pour^lesestimationsdeshyperparamètresdumodèle PG. Toutes les variables d'entrée ne sont don pas forément inluses dans la régression.

Le ritère AICCétant peu oûteux, ette boule de séletion destermes de régression est

⋆

^pour^haque^vâriable^d'entréeînluse^dans^laôvariane,^la^qualité^du^modèle^PGêstêstimé

àl'aide duoeient de préditivité

Q ₂

^(Eq.^(3.13)), ^alulé ^par ^v^alidation ^roisée^;

⋆

l'évolutiondu

Q ₂

^est^visualisée^en ^fontion ^desitérations. Lesinréments suessifsdu

Q ₂

àhaqueajout devariables (quitrahissentl'inuene desvariablesd'entréedanslemodèle

PG) sont utilisés pour orir un nouveau tri initial des entrées. La proédure séquentielle

deonstrution du modèle PGpar inlusion progressive desentrées estalors relanée;

⋆

^le^modèle ^séletionné^n'est ^pas^le^modèle^nal^mais^elui ^pour ^lequel ^le

Q ₂

^est ^le^meilleur.

Toutes lesvariables d'entrée nesont don pasforément inluses danslaovariane.

De manière plus formelle, on note

M 0 = n

e ⁽⁰⁾ ₁ , . . . , e ⁽⁰⁾ _d o

la liste de toutes les entrées dans leur

ordre initial.

M 1 = n

e ⁽¹⁾ ₁ , . . . , e ⁽¹⁾ _d o

(resp.

M 2 = n

e ⁽²⁾ ₁ , . . . , e ⁽²⁾ _d o

) orrespond à la liste des entrées

dansleurnouvelordreaprès lassementave leritèredu oeient deorrélation(resp.leritèredes

inréments de

Q ₂

^).

M

^ov ^(resp.

M

^reg⁾ ^réprésente ^la ^liste ^des ^entrées apparaissant dans la fontion de ovariane (resp. la fontion de régression) à l'étape ourante. L'algorithme que j'ai proposé se

formalisede lamanièresuivante:

Etape 3:inlusion suessivedes variables danslaovariane

Pour

i = 1 . . . d

Variables danslaovariane :

M i,cov = M

^ov

(1, . . . , i)

Inlusionsuessive desvariablesdanslafontion derégression:

Pour

j = 1 . . . d

Séletionde lafontionde régressionoptimale :

j ^optim (i) = arg min

j

(

^AICC

(i, j))

Evaluation du

Q ₂

^par^validation ^roisée^ou ^sur ^une^base^de ^validation

Q ₂ (i) = Q ₂ ( M i,cov , M j ^optim (i),reg )

Finde la boule

Etape 4:détermination dunouveau lassementparinrémentde

Q ₂

∆Q ₂ (1) = Q ₂ (1)

Pour

k = 2 . . . d

∆Q ₂ (k) = Q ₂ (k) − Q ₂ (k − 1)

Finde la boule

Classementdesvariablespar

∆Q ₂

déroissants :

M 1 = ⇒ M 2

Etape 5:estimation desparamètresàpartirdunouveau lassement

M

^reg

= M 1

M

^ov

= M 2

Etape 6:séletiondumodèleoptimal

i ^optim = arg max

i

(Q 2 (i))

M

^optim^ov

= M

^ov

(1, . . . , i

^optim

) M

^optim^reg

= M

^reg

(1, . . . , j

^optim

(i

^optim

))

Etape 7:validation naledumodèleoptimal

Q ^final ₂ = Q ₂ ( M

^optim^ov

, M

^optim^reg

)

Cet algorithme a lairement démontré sa supériorité par rapport aux algorithmes ne faisant pas

intervenir de proédure séquentielle sur quelques exemples jouets, par exemple sur lafontion g de

Soboldénie par

g

Sobol

(X ₁ , . . . , X _d ) = Y d

j=1

g _j (X _j )

^où

g _j (X _j ) = | 4X _j − 2 | + a _j

1 + a _j ,

^(3.38)

ave

X _j ∼ U [0, 1]

^et

a _j = j

∀ j = 1 . . . d

^. ^A^ve ^es ^valeurs, ^la ^fontion ^g ^de ^Sobol ^modélise ^des

omportements non linéaires ave desinterations entreles entrées. Sur ette fontion, le tableau 3.1

montre la omparaison de résultats obtenus ave notre algorithme (Marrel et al. [143 ℄) et ave elui

proposéparlelogiielGEM-SA (O'Hagan[162℄),enfaisantvarierladimensiondesentrées

d

^.^La^taille

de l'éhantillon de onstrution du modèle PG est hoisie à

n = 10d

^. ^La ^proédure ^de ^simulation

d'éhantillons d'apprentissage (par laméthode deshyperubes latins) etde onstrution des modèles

PGestrépétée

50

^fois^pour ^pouvoir^moyenner ^les ^résultats. ^On^onstate^que^pour

d ≥ 6

^, l'algorithme deMarrel donne de bienmeilleures performanes.

Simulations Algorithme Algorithme

g

Sobol

deGEM-SA deMarrel

n Q ₂ sd Q ₂ sd

4 40 0.82 0.08 0.86 0.07

6 60 0.67 0.24 0.85 0.05

8 80 0.66 0.13 0.85 0.04

10 100 0.59 0.25 0.83 0.05

12 120 0.57 0.16 0.84 0.05

14 140 0.60 0.17 0.83 0.03

16 160 0.62 0.11 0.86 0.04

18 180 0.66 0.09 0.84 0.03

20 200 0.64 0.09 0.86 0.02

Tab.3.1Moyenne (

Q ₂

⁾^et^éart^type⁽

sd

⁾^du^oeient^de préditivité

Q ₂

^pour^plusieurs

implémen-tationsde lafontion gde Sobol.

50

répétitions sont utilisées pour haquetaille d'éhantillon.

Cet algorithme nousa également permis de onstruire des modèles PGperformants sur quelques

appliationsparmi lesquellesun modèledetransporthydrogéologique depolluantsà

20

^entrées^et

300

observations (Marrel etal. [143 ℄) et un modèle d'aident thermohydraulique en sûreté desréateurs

nuléaires à

53

^entrées ^et

200

observations (Cannamela etal.[36℄).

Un travail réent (Linkletter et al. [135 ℄) s'est également intéressé au problème de la séletion de

variables à l'aide du modèle PG. La tehnique employée est basée sur l'introdution d'une variable

d'entrée inerte (que l'on pourrait aussi appeler inative ou tive) dansle modèle. La distribution a

posteriori du paramètre de ovariane

θ

^de êtte ^variable înerte ^permet ^de ^dénir ûn ^seuil âu ^delà

séletionner les variables d'entrée surlesquellesil est intéressant de réaliserune analyse de sensibilité

quantitative (alul des indies de Sobol par exemple). La setion suivante traite de mes travaux,

réalisésenollaboration ave AmandineMarrel,BéatrieLaurentetOlivierRoustant,surl'estimation

desindiesde Sobolàl'aide dumodèle PG.

Dans le document Bertrand Iooss. To cite this version: HAL Id: tel (Page 62-66)

Méthodologie en grande dimension

3.3 Constrution et utilisation du métamodèle proessus gaussien

3.3.3 Méthodologie en grande dimension

5

20

10

Q 2

R 2

β

⋆

⋆

⋆

= − 2l Y n

β, b b σ, θ, b p, b τ b

+ 2n m 1 + m 2 + 1

n − m 1 − m 2 − 2 ,

m 1

m( · )

m 2

l Y n ( · )

Y n

⋆

Q 2

⋆

Q 2

Q 2

⋆

Q 2

M 0 = n

e (0) 1 , . . . , e (0) d o

M 1 = n

e (1) 1 , . . . , e (1) d o

M 2 = n

e (2) 1 , . . . , e (2) d o

Q 2

M

M

i = 1 . . . d

M i,cov = M

(1, . . . , i)

j = 1 . . . d

j optim (i) = arg min

j

(

(i, j))

Q 2

Q 2 (i) = Q 2 ( M i,cov , M j optim (i),reg )

Q 2

∆Q 2 (1) = Q 2 (1)

k = 2 . . . d

∆Q 2 (k) = Q 2 (k) − Q 2 (k − 1)

∆Q 2

M 1 = ⇒ M 2

M

= M 1

M

= M 2

i optim = arg max

i

(Q 2 (i))

M

= M

(1, . . . , i

) M

= M

(1, . . . , j

(i

))

Q final 2 = Q 2 ( M

, M

)

g

(X 1 , . . . , X d ) = Y d

j=1

g j (X j )

g j (X j ) = | 4X j − 2 | + a j

1 + a j ,

X j ∼ U [0, 1]

a j = j

∀ j = 1 . . . d

Q ₂

R ²

= − 2l _Y n

+ 2n m ₁ + m ₂ + 1

n − m ₁ − m ₂ − 2 ,

m ₁

m ₂

l _Y n ( · )

Y ⁿ

Q ₂

Q ₂

Q ₂

Q ₂

e ⁽⁰⁾ ₁ , . . . , e ⁽⁰⁾ _d o

e ⁽¹⁾ ₁ , . . . , e ⁽¹⁾ _d o

e ⁽²⁾ ₁ , . . . , e ⁽²⁾ _d o

Q ₂

j ^optim (i) = arg min

Q ₂

Q ₂ (i) = Q ₂ ( M i,cov , M j ^optim (i),reg )

Q ₂

∆Q ₂ (1) = Q ₂ (1)

∆Q ₂ (k) = Q ₂ (k) − Q ₂ (k − 1)

∆Q ₂

i ^optim = arg max

Q ^final ₂ = Q ₂ ( M

(X ₁ , . . . , X _d ) = Y d

g _j (X _j )

g _j (X _j ) = | 4X _j − 2 | + a _j

1 + a _j ,

X _j ∼ U [0, 1]

a _j = j

n Q ₂ sd Q ₂ sd

Q ₂

Q ₂