• Aucun résultat trouvé

Crit`eres de sampling pour l’optimisation sur base de Krigeage

4.2 Avantages du probabiliste sur le d´eterministe

4.2.2 Crit`eres de sampling pour l’optimisation sur base de Krigeage

Les strat´egies s´equentielles d’optimisation sur base de Krigeage (telles que d´evelopp´ees dans [JSW98] et comment´ees dans [Jon01]) traitent le probl`eme de la convergence pr´ematur´ee vers des zones non optimales en rempla¸cant l’optimisation directe d’un m´etamod`ele par la recherche de sites `a la fois prometteurs (au sens du m´etamod`ele employ´e) et m´econnus (au sens de la variance de Krigeage). Cela permet de forcer l’al- gorithme `a explorer des zones distantes de celles qui ont d´ej`a ´et´e visit´ees pr´ec´edemment (puisque la variance de Krigeage y est n´ecessairement nulle2). De telles proc´edures d’op-

timisation reposent g´en´eralement sur l’´evaluation `a chaque it´eration de la vraie fonction objectif y en un point maximisant une figure de m´erite (ou crit`ere) bas´e sur la loi conditionnelle [Y (x)|Y (X) = Y]. Les crit`eres usuels pr´esent´es ci-dessous reposent sur diff´erents compromis entre la pr´ediction moyenne de Krigeage et l’incertitude associ´ee.

Maximiser l’incertitude via sKO

Le probl`eme fondamental de l’optimisation directe de la moyenne de krigeage mKO

lorsque l’on veut optimiser la fonction y est (on l’a vu de mani`ere g´en´erale dans le chapitre pr´ec´edent) que l’on ne prend pas en compte l’erreur de mod`ele. A l’extrˆeme inverse, il est possible de visiter `a chaque it´eration le point de D le plus mal connu au sens du mod`ele de Krigeage :

x′ = argmaxx∈DsKO(x) (4.3)

o`u sKO(x) est l’´ecart-type de pr´ediction en x fourni par le krigeage (la racine carr´ee

de la variance de Krigeage). Une telle proc´edure permet d’obtenir un suite de points qui remplissent l’espace (une suite dense dans D). Utiliser cette strat´egie fournira donc n´ecessairement in fine les optima globaux de la fonction (puisqu’elle aura visit´e tout l’espace). Cela dit, elle ne tire absolument pas avantage des informations collect´ees au fil de l’algorithme, i.e. les images y(xi) (Cf. 3.93 : on observe que la variance de Krigeage Ordinaire ne d´epend pas des observations 3). Il n’y a ainsi aucune incitation `a visiter les zones de haute performance. Maximiser l’´ecart-type de Krigeage comme strat´egie d’optimisation est jug´e in´efficace en pratique.

2s’il n’y a pas d’effet de p´epite

Optimisation multi-crit`ere avec mKO and sKO

La fa¸con la plus g´en´erale de formuler le compromis entre l’exploitation des pr´ec´edents r´esultats —au travers de mKO— et l’exploration de l’espace D —bas´ee sur sOK— est

sans doute le probl`eme bi-crit`ere suivant : (

minx∈DmOK(x)

and maxx∈DsOK(x)

(4.4) Soit P le front de Pareto des solutions4. Trouver et choisir un ´el´ement (ou un nombre fini d’´el´ements) de P reste un probl`eme difficile puisque P contient typiquement un nombre infini de points. Une approche comparable —bien que non bas´ee sur le Krigeage— est d´evelopp´ee dans [JPS93] : le m´etamod`ele est constant par morceaux et l’incertitude est simplement quantifi´ee par la distance euclidienne aux points d´ej`a explor´es. L’espace D est discretis´e et les ´el´ements du front de Pareto d´efinissent des zones o`u la discr´etisation est raffin´ee. Le coˆut de calcul de cette m´ethode devient prohibitif avec l’augmentation du nombre d’it´erations, et `a plus forte raison avec la dimension de l’espace. Pr´ecisons que [BWG+01] propose une version parall´elis´ee de cette m´ethode.

Maximiser la probabilit´e d’am´elioration

Parmi les nombreux crit`eres pr´esent´es dans [Jon01] et [VVW09], la probabilit´e d’am´eliorer la fonction au-del`a du minimum courant min(Y) = min{y(x1), ..., y(xn)} semble la plus

fondamentale :

P I(x) := P (Y (x)≤ min(Y (X))|Y (X) = Y) (4.5)

= E[1Y (x)≤min(Y (X))|Y (X) = Y] = Φ  min(Y)− mKO(x) sKO(x)  (4.6) min(Y) est parfois remplac´ee par une valeur cible arbitraitre T ∈ R. Le crit`ere P I est connu pour fournir une recherche tr`es locale lorsque la valeur de T est proche de min(Y). Prendre plusieurs T est une des solutions pour forcer l’exploration, ´evoqu´ee dans [Jon01]. Maximiser l’expected improvement

Une autre solution est de maximiser l’am´elioration esp´er´ee (expected improvement ) EI(x) := E[max{0, min(Y (X)) − Y (x)}|Y (X) = Y] (4.7) qui prend non seulement en compte la probabilit´e de progr`es mais aussi l’amplitude de ce dernier. l’EI mesure le progr`es esp´er´ee lorsque l’on ´evalue y en x. In fine, le progr`es en

4Definition du front de Pareto de (s

KO,−mKO) :∀x ∈ P, ∄ y ∈ D : (mKO(y) < mKO(x) et sKO(y)≥

Fig.4.5 – Surfaces de probabilit´e d’am´elioration et d’am´elioration esp´er´ee pour la fonc- tion de Branin-Hoo (mˆeme plan d’exp´eriences initial, mod`ele de Krigeage, et param`etres de covariance que dans la figure 3.11). Maximiser PI m`ene `a ´evaluer y en des points proches des « meilleurs points » (i.e. ceux associ´es aux plus basses observations), alors que maximiser l’EI m`ene `a ´evaluer y entre les meilleurs points. Par construction, ces deux crit`eres s’annulent aux points d’exp´erimentation, mais la probabilit´e d’am´elioration devient tr`es proche de 12 au voisinage des meilleurs points.

question vaudra 0 si la vraie valeur de y(x) est sup´erieure ou ´egale `a min(Y) et vaudra min(Y)−y(x) > 0 dans le cas contraire. Comme on connaˆıt la distribution conditionnelle de Y (x) sachant les observations, on peut calculer EI analytiquement (voir [JSW98]) :

Calcul de l’am´elioration esp´er´ee.

EI(x) = (min(Y)− mKO(x))Φ  min(Y)− mKO(x) sKO(x)  + sKO(x)φ  min(Y)− mKO(x) sKO(x)  (4.8)

o`u φ et Φ repr´esentent respectivement la densit´e de probabilit´e et la fonction de r´epartition de la loi normale centr´ee r´eduiteN (0, 1).

Fig. 4.6 – Deux r´ealisations (en pointill´es) d’un processus gaussien de covariance gaus- sienne, de port´ee 0.3 et de variance 1. Les courbes jaunes repr´esentent les moyennes de Krigeage, encadr´ees par les courbes de quantiles `a 2.5% et 97.5% (en vert). Les deux fonctions d’am´elioration esp´er´ee sont sch´ematiquement repr´esent´ees par des courbes « pleines », gris´ees. Le plan d’exp´eriences initial et le maximiseur global de l’EI sont repr´esent´es par des triangles, respectivement bleus et rouge.

D´emonstration.

EI(x) = E[(min(Y)− Y (x))1Y (x)≤min(Y)|Y (X) = Y]

= Z min(Y) −∞ (min(Y)− y) fN (mKO(x),s2KO(x))(y)dy = Z min(Y)−mKO (x) sKO (x) −∞ (min(Y)− mKO(x)− sKO(x)× u) fN (0,1)(u)du = (min(Y)− mKO(x)) Z min(Y)−mKO (x) sKO (x) −∞ fN (0,1)(u)du − sKO(x) Z min(Y)−mKO (x) sKO (x) −∞ u× fN (0,1)(u)du = (min(Y)− mKO(x)) Φ  min(Y)− mKO(x) sKO(x)  + sKO(x)φ  min(Y)− mKO(x) sKO(x) 

o`u la derni`ere ´egalit´e d´ecoule du fait que fN (0,1)

du (u) =−ufN (0,1)(u).

On peut remarquer que cette expression fait apparaˆıtre le compromis entre zones pro- metteuses et incertaines. L’EI poss`ede certaines propri´et´es importantes pour l’explo- ration s´equentielle : il est nul aux points d´ej`a explor´es et strictement positif partout

ailleurs, avec une amplitude croissante en la variance de Krigeage et d´ecroissante en la moyenne de krigeage (les maximiseurs de l’EI font d’ailleurs partie du front de Pareto de (sKO,−mKO)).

La strat´egie SUR : Stepwise Uncertainty Reduction

La strat´egie SUR (Stepwise Uncertainty Reduction) a ´et´e introduite en 1995 dans [GJ95], puis ´etendue au domaine de l’optimisation globale dans [VVW09]. En adoptant une vision de y bas´ee sur la loi conditionnelle du processus al´eatoire Y , [Y (x)|Y (X) = Y], il devient possible de d´efinir [x∗|Y (X) = Y], la loi du vecteur al´eatoire de l’emplacement du minimiseur de Y (x)|Y (X) = Y, de densit´e not´ee px|Y (X)=Y. L’incertitude sur la position du minimiseur x∗est alors quantifi´ee par l’entropie conditionnelle H(x∗|Y (X) = Y) associ´ee `a la densit´e px∗|Y (X)=Y(x). H(x∗|Y (X) = Y) diminue `a mesure que la distribution de x∗|Y (X) = Y devient « pointue » (resserr´ee autour d’une (de) certaine(s) valeur(s)). En substance, la strat´egie SUR pour l’optimisation globale choisit comme prochain it´er´e le point qui donne le plus d’information sur la position du minimiseur,

x′ = argminx∈DH(x|Y (X) = Y, Y (x)) (4.9)

Dans la pratique, px∗|Y (X)=Y(x) est estim´ee par tirages Monte-Carlo de Y (x)|Y (X) = Y aux points d’une grille de D, ce qui est succeptible de devenir probl´ematique pour les cas o`u l’on a beaucoup de variables d’entr´ee puisque le nombre de points de la grille doit augmenter g´eom´etriquement en la dimension. Le crit`ere SUR est par nature bien diff´erent des autres crit`eres pr´esent´es ci-dessus puisqu’il ne se focalise pas sur un gain imm´ediat (quel progr`es va-t-on obtenir `a la prochaine it´eration), mais plutˆot sur un gain retard´e, en privil´egiant l’apprentissage global de Y en r´eduisant l’entropie associ´ee `a la position de son minimiseur. L’am´elioration esp´er´ee multi-points (q-EI ) —expos´ee en d´etail au chapitre 9— pr´esente quelques similarit´es avec SUR dans le sens qu’elle favorise simultan´ement le gain `a court terme et l’exploration globale.