Crit`eres de sampling pour l’optimisation sur base de Krigeage

4.2 Avantages du probabiliste sur le d´eterministe

4.2.2 Crit`eres de sampling pour l’optimisation sur base de Krigeage

Les stratégies séquentielles d’optimisation sur base de Krigeage (telles que développées dans [JSW98] et commentées dans [Jon01]) traitent le problème de la convergence prématurée vers des zones non optimales en rempla¸cant l’optimisation directe d’un métamodèle par la recherche de sites à la fois prometteurs (au sens du métamodèle employé) et méconnus (au sens de la variance de Krigeage). Cela permet de forcer l’algorithme à explorer des zones distantes de celles qui ont déjà été visitées précédemment (puisque la variance de Krigeage y est nécessairement nulle2_{). De telles procédures d’op-}

timisation reposent généralement sur l’évaluation à chaque itération de la vraie fonction objectif y en un point maximisant une figure de mérite (ou critère) basé sur la loi conditionnelle [Y (x)|Y (X) = Y]. Les critères usuels présentés ci-dessous reposent sur différents compromis entre la prédiction moyenne de Krigeage et l’incertitude associée.

Maximiser l’incertitude via sKO

Le probl`eme fondamental de l’optimisation directe de la moyenne de krigeage mKO

lorsque l’on veut optimiser la fonction y est (on l’a vu de manière générale dans le chapitre précédent) que l’on ne prend pas en compte l’erreur de modèle. A l’extrême inverse, il est possible de visiter à chaque itération le point de D le plus mal connu au sens du modèle de Krigeage :

x′ = argmaxx∈DsKO(x) (4.3)

où sKO(x) est l’écart-type de prédiction en x fourni par le krigeage (la racine carrée

de la variance de Krigeage). Une telle procédure permet d’obtenir un suite de points qui remplissent l’espace (une suite dense dans D). Utiliser cette stratégie fournira donc nécessairement in fine les optima globaux de la fonction (puisqu’elle aura visité tout l’espace). Cela dit, elle ne tire absolument pas avantage des informations collectées au fil de l’algorithme, i.e. les images y(xi) (Cf. 3.93 : on observe que la variance de Krigeage Ordinaire ne dépend pas des observations 3). Il n’y a ainsi aucune incitation à visiter les zones de haute performance. Maximiser l’écart-type de Krigeage comme stratégie d’optimisation est jugé inéfficace en pratique.

2_{s’il n’y a pas d’effet de p´epite}

Optimisation multi-crit`ere avec mKO and sKO

La fa¸con la plus générale de formuler le compromis entre l’exploitation des précédents résultats —au travers de mKO— et l’exploration de l’espace D —basée sur sOK— est

sans doute le probl`eme bi-crit`ere suivant : (

minx∈DmOK(x)

and maxx∈DsOK(x)

(4.4) Soit P le front de Pareto des solutions4. Trouver et choisir un élément (ou un nombre fini d’éléments) de P reste un problème difficile puisque P contient typiquement un nombre infini de points. Une approche comparable —bien que non basée sur le Krigeage— est développée dans [JPS93] : le métamodèle est constant par morceaux et l’incertitude est simplement quantifiée par la distance euclidienne aux points déjà explorés. L’espace D est discretisé et les éléments du front de Pareto définissent des zones où la discrétisation est raffinée. Le coût de calcul de cette méthode devient prohibitif avec l’augmentation du nombre d’itérations, et à plus forte raison avec la dimension de l’espace. Précisons que [BWG+01] propose une version parallélisée de cette méthode.

Maximiser la probabilit´e d’am´elioration

Parmi les nombreux critères présentés dans [Jon01] et [VVW09], la probabilité d’améliorer la fonction au-delà du minimum courant min(Y) = min_{y(x1_{), ..., y(x}n₎_{} semble la plus}

fondamentale :

P I(x) := P (Y (x)_{≤ min(Y (X))|Y (X) = Y)} (4.5)

= E[1_{Y (x)}_{≤min(Y (X))}_{|Y (X) = Y] = Φ} min(Y)_{− m}KO(x) sKO(x) (4.6) min(Y) est parfois remplacée par une valeur cible arbitraitre T _{∈ R. Le critère P I est} connu pour fournir une recherche très locale lorsque la valeur de T est proche de min(Y). Prendre plusieurs T est une des solutions pour forcer l’exploration, évoquée dans [Jon01]. Maximiser l’expected improvement

Une autre solution est de maximiser l’amélioration espérée (expected improvement ) EI(x) := E[max{0, min(Y (X)) − Y (x)}|Y (X) = Y] (4.7) qui prend non seulement en compte la probabilité de progrès mais aussi l’amplitude de ce dernier. l’EI mesure le progrès espérée lorsque l’on évalue y en x. In fine, le progrès en

4_{Definition du front de Pareto de (s}

KO,−mKO) :∀x ∈ P, ∄ y ∈ D : (mKO(y) < mKO(x) et sKO(y)≥

Fig.4.5 – Surfaces de probabilité d’amélioration et d’amélioration espérée pour la fonction de Branin-Hoo (même plan d’expériences initial, modèle de Krigeage, et paramètres de covariance que dans la figure 3.11). Maximiser PI mène à évaluer y en des points proches des « meilleurs points » (i.e. ceux associés aux plus basses observations), alors que maximiser l’EI mène à évaluer y entre les meilleurs points. Par construction, ces deux critères s’annulent aux points d’expérimentation, mais la probabilité d’amélioration devient très proche de 1₂ au voisinage des meilleurs points.

question vaudra 0 si la vraie valeur de y(x) est supérieure ou égale à min(Y) et vaudra min(Y)−y(x) > 0 dans le cas contraire. Comme on connaˆıt la distribution conditionnelle de Y (x) sachant les observations, on peut calculer EI analytiquement (voir [JSW98]) :

Calcul de l’amélioration espérée.

EI(x) = (min(Y)_{− m}KO(x))Φ min(Y)− mKO(x) sKO(x) + sKO(x)φ min(Y)− mKO(x) sKO(x) (4.8)

où φ et Φ représentent respectivement la densité de probabilité et la fonction de répartition de la loi normale centrée réduite_{N (0, 1).}

Fig. 4.6 – Deux réalisations (en pointillés) d’un processus gaussien de covariance gaus- sienne, de portée 0.3 et de variance 1. Les courbes jaunes représentent les moyennes de Krigeage, encadrées par les courbes de quantiles à 2.5% et 97.5% (en vert). Les deux fonctions d’amélioration espérée sont schématiquement représentées par des courbes « pleines », grisées. Le plan d’expériences initial et le maximiseur global de l’EI sont représentés par des triangles, respectivement bleus et rouge.

D´emonstration.

EI(x) = E[(min(Y)− Y (x))1Y (x)≤min(Y)|Y (X) = Y]

= Z min(Y) −∞ (min(Y)− y) fN (mKO(x),s2KO(x))(y)dy = Z min(Y)−mKO (x) sKO (x) −∞ (min(Y)_{− m}KO(x)− sKO(x)× u) fN (0,1)(u)du = (min(Y)_{− m}KO(x)) Z min_{(Y)−mKO (x)} sKO (x) −∞ fN (0,1)(u)du − sKO(x) Z min_{(Y)−mKO (x)} sKO (x) −∞ u_{× f}N (0,1)(u)du = (min(Y)_{− m}KO(x)) Φ min(Y)− mKO(x) sKO(x) + sKO(x)φ min(Y)− mKO(x) sKO(x)

où la dernière égalité découle du fait que fN (0,1)

du (u) =−ufN (0,1)(u).

On peut remarquer que cette expression fait apparaˆıtre le compromis entre zones pro- metteuses et incertaines. L’EI possède certaines propriétés importantes pour l’exploration séquentielle : il est nul aux points déjà explorés et strictement positif partout

ailleurs, avec une amplitude croissante en la variance de Krigeage et d´ecroissante en la moyenne de krigeage (les maximiseurs de l’EI font d’ailleurs partie du front de Pareto de (sKO,−mKO)).

La strat´egie SUR : Stepwise Uncertainty Reduction

La stratégie SUR (Stepwise Uncertainty Reduction) a été introduite en 1995 dans [GJ95], puis étendue au domaine de l’optimisation globale dans [VVW09]. En adoptant une vision de y basée sur la loi conditionnelle du processus aléatoire Y , [Y (x)|Y (X) = Y], il devient possible de définir [x∗|Y (X) = Y], la loi du vecteur aléatoire de l’emplacement du minimiseur de Y (x)_{|Y (X) = Y, de densité notée p}_x∗_{|Y (X)=Y}. L’incertitude sur la position du minimiseur x∗est alors quantifiée par l’entropie conditionnelle H(x∗|Y (X) = Y) associée à la densité px∗_{|Y (X)=Y}(x). H(x∗|Y (X) = Y) diminue à mesure que la distribution de x∗_{|Y (X) = Y devient « pointue » (resserrée autour d’une (de) certaine(s)} valeur(s)). En substance, la stratégie SUR pour l’optimisation globale choisit comme prochain itéré le point qui donne le plus d’information sur la position du minimiseur,

x′ = argminx∈DH(x|Y (X) = Y, Y (x)) (4.9)

Dans la pratique, px∗_{|Y (X)=Y}(x) est estimée par tirages Monte-Carlo de Y (x)|Y (X) = Y aux points d’une grille de D, ce qui est succeptible de devenir problématique pour les cas où l’on a beaucoup de variables d’entrée puisque le nombre de points de la grille doit augmenter géométriquement en la dimension. Le critère SUR est par nature bien différent des autres critères présentés ci-dessus puisqu’il ne se focalise pas sur un gain immédiat (quel progrès va-t-on obtenir à la prochaine itération), mais plutôt sur un gain retardé, en privilégiant l’apprentissage global de Y en réduisant l’entropie associée à la position de son minimiseur. L’amélioration espérée multi-points (q-EI ) —exposée en détail au chapitre 9— présente quelques similarités avec SUR dans le sens qu’elle favorise simultanément le gain à court terme et l’exploration globale.

Dans le document MULTIPLES MÉTAMODÈLES POUR L'APPROXIMATION ET L'OPTIMISATION DE FONCTIONS NUMÉRIQUES MULTIVARIABLES (Page 107-112)