Conclusions sur la méthode MOEGO NSGA-II - Optimisation de fonctions boîtes noires

Optimisation de fonctions boîtes noires

6.4.5 Conclusions sur la méthode MOEGO NSGA-II

Pour résumer, voici les apports de la méthode MOEGO NSGA-II pour l’optimisation par modèles de substitution et calcul distribué :

1. Elle nécessite peu d’appels distribués aux objectifs afin de converger vers un PF de qualité suffisante.

2. Elle permet de distribuer les appels aux objectifs dans le cas où le nombre de processeurs disponibles est réduit. Ce chiffre dépend de la dimension mais il est préférable de rajouter moins de 10 points à chaque itération.

Enfin, dans le cas où le résultat de la méthode MOEGO n’est pas satisfaisant, il est possible de l’enrichir à l’aide de la population NSGA-II optimale à la fin de l’algorithme. Cette population étant prédite par krigeage. Il est alors important de réévaluer ces points s’ils ont une variance de krigeage trop importante. L’utilisation de cette population NSGA-II finale peut notamment être utile si au moins l’une des fonctions objectif est bruitée.

6.4.5.1 Extension du domaine d’application de MOEGO NSGA-II

Cette méthode peut être adaptée à la présence de contraintes ainsi qu’au cas où le nombre d’objectifs est supérieur à deux. Toutefois, cette extension nécessite quelques adap-tations de l’algorithme MOEGO NSGA-II.

Dans le cas de plus de deux objectifs : il y a deux paramètres à modifier dans l’algorithme détaillé précédemment.

1. La manière de calculer le critère d’amélioration espérée. En effet, au-delà de deux voire trois objectifs, il faut estimer le critère à l’aide de méthodes de Monte-Carlo. C’est notamment ce qui est fait dans l’étude de Féliot [Féliot et al., 2016]. Pour cela, des espérances sont à estimer. La taille de l’échantillon Monte-Carlo n’est donc pas nécessairement très élevée. On peut par exemple utiliser l’estimateur de la variance de l’erreur commise par cet estimateur Monte-Carlo afin de déterminer si la précision est suffisante.

2. Le partitionnement de la population optimale de NSGA-II par des ensembles dis-joints (Ai)_16i6N_{CP U}. Dans le cas de deux objectifs, il est aisé de construire des lignes concentriques de sorte à choisir les points dans des zones disjointes de l’espace. En dimension plus élevée, on peut encore découper l’espace des fonctions objectif à l’aide d’hyperplans séparateurs (l’équivalent en dimension supérieures des droites) concentriques. Une autre idée est d’utiliser un clustering afin de séparer les Npop

points de la population prédite optimale sur NSGA-II, ˆ_{P. De ce fait, il suffit de} choisir NCP U clusters pour scinder la population en sous-populations disjointes

PAi. Ensuite, l’étape de maximisation de l’amélioration espérée reste la même que précédemment.

Pour la prise en compte des contraintes : Un problème multi-objectif sous contraintes s’écrit de la manière suivante : _

      min_x f₁(x) min x f₂(x) s.c G (x) 6 0 (6.10)

G(x) = (g1(x), · · · , gNcons(x)) sont les fonctions contraintes. Les points vérifiant les contraintes sont dits points admissibles, les points ne les vérifiant pas sont dits infaisables. MOEGO NSGA-II peut prendre en compte les contraintes, même dans le cas où les points initiaux sont infaisables. Pour cela, il est nécessaire de pénaliser les fonctions objectif ou de modifier la définition de la dominance dans le cas de NSGA-II et d’adapter la formule du calcul de l’amélioration espérée. Pour NSGA-II, on peut par exemple citer l’étude de Deb [Deb, 2000]. Il propose de pénaliser fortement les fonctions objectif lorsque la solution est infaisable. Pour cela, il faut que cette pénalisation respecte trois règles :

1. si l’on compare deux solutions faisables, alors on utilise la dominance de Pareto classique,

2. si l’on compare une solution faisable et une solution infaisable, la solution faisable doit toujours être privilégiée,

3. si l’on compare deux solutions infaisables, il faut privilégier la solution violant le moins les contraintes.

Le point qui nécessite le plus d’aménagement de la dominance classique est le point 3. En effet, il requiert d’être capable d’ordonner les contraintes. Ce que propose Deb dans son étude [Deb, 2000] est donc de pénaliser la fonction coût de la manière suivante :

F^pen(x) =

(

F (x) si G (x) 6 0

F^max+PNcons

j=1 max (gj(x) , 0) si ∃1 6 j 6 Ncons : gj(x) > 0 ^(6.11) L’inconvénient de cette technique est qu’elle pénalise les points infaisables par une formu-lation scalaire. Plus précisément, elle résume en une seule équation toutes les vioformu-lations de contraintes. Or, ceci nécessite que les contraintes soient comparables et on peut préférer la méthode choisie par Féliot [Féliot et al., 2016] dans son étude. Elle consiste à remplacer la dominance de Pareto par la dominance notée B. Celle-ci est définie de la manière suivante : (y, yc)B(y0, yc0) si Γ (y, yc) Γ (y0, yc0). La fonction Γ est définie de la manière suivante :

Γ : RNobj × R^Ncons −→ RNobj × RNcons (y, yc) 7−→

(

(y, 0) si yc6 0

(+∞, max (yc,0)) sinon ^(6.12) Cette nouvelle dominance vérifie les trois points présentés précédemment. En effet, si l’on compare deux points admissibles, cela revient à utiliser la dominance de Pareto. Si l’on compare un point admissible et un point non admissible, le point admissible domine forcé-ment l’autre. Enfin, si l’on compare deux points non-admissibles, on utilise la dominance de Pareto dans l’espace des contraintes violées.

Pour l’amélioration espérée, il existe plusieurs façons de modifier la formule de sorte à prendre en compte les contraintes. Notamment, la redéfinition de la dominance précé-dente par Féliot est utilisée pour construire un nouveau critère d’amélioration espérée.

Toutefois, puisque l’amplitude de la violation de la contrainte est déjà mesurée par l’évo-lution NSGA-II, il est possible d’utiliser une version plus simple de l’EI, en multipliant le critère sans contrainte par la probabilité que les contraintes soient respectées. Soient Y^c(x) =

1 (x) , · · · , Yc

Ncons(x)

les processus gaussiens définis par le krigeage (défi-nis tels qu’à l’équation (3.16)) des fonctions contraintes. Si l’on fait l’hypothèse que les contraintes sont indépendantes entre elles et avec les fonctions objectif, le nouveau critère d’amélioration espérée peut s’écrire :

Info (x) = E (I•) P (Yc(x) 6 0) (6.13) La notation I• pour l’amélioration traduit le fait que cette manière de prendre en compte la contrainte fonctionne aussi bien pour l’amélioration basée sur l’hypervo-lume détaillée à l’équation (5.16), que pour celle basée sur la distance euclidienne dé-taillée à l’équation (5.14). Cette idée est notamment proposée dans l’étude de Couckuyt [Couckuyt et al., 2014]. Ce critère présente l’avantage de rajouter un terme calculable ana-lytiquement puisque Yc est un processus gaussien de loi connue analytiquement.

Pour résumer, afin de prendre en compte les contraintes il faut : — Faire un modèle de krigeage des contraintes.

— Dans NSGA-II :

Pénaliser les fonctions objectif tel qu’à l’équation (6.11) ou modifier la domi-nance de Pareto tel qu’à l’équation (6.12).

 Répartir les points de la population optimale par clustering (à l’aide de NCP U

clusters).

— Pour l’amélioration espérée : modifier la formule du calcul de l’amélioration espérée, tel qu’à l’équation (6.13).

6.4.5.2 Limites de l’algorithme MOEGO NSGA-II

La plupart des limites de cet algorithme sont héritées de la construction de modèles de substitution par krigeage. De ce fait, la principale restriction concerne le nombre de para-mètres d’entrées. En effet, le krigeage a une efficacité garantie en dessous de la dimension 10. Au-delà, plusieurs facteurs peuvent en dégrader les performances :

— Tout d’abord, un problème qui est commun à toutes les techniques de réduction de modèle est le fléau de la dimension. Il est par exemple illustré dans le livre [Hastie et al., 2009]. En effet, à partir de la dimension 10, les points sont tous à des distances importantes les uns des autres, en conduisant à des points « isolés ». Pour compenser cela, il est de ce fait nécessaire d’utiliser des plans d’expériences de taille plus importante. Or, l’augmentation avec la dimension de la distance entre les points n’est pas linéaire et la taille du plan d’expériences nécessaire pour capter certains effets peut devenir irréalisable. Dans le cas du krigeage, le corollaire de cette augmentation de distance entre les points implique que l’estimateur d’erreur du krigeage est plus élevé en moyenne avec la dimension. De plus, cet estimateur d’erreur a tendance à moins diminuer avec l’ajout de points au plan d’expériences. — L’augmentation en dimension implique donc que la taille du plan d’expériences doit être plus importante. Par ailleurs, la taille du plan d’expériences détermine la taille de la matrice de covariance du krigeage. Or, cette matrice doit être inversée pour estimer les paramètres du modèle. De plus, la prédiction par krigeage nécessite également l’utilisation de cette matrice. De ce fait, plus la dimension de x est

le calcul et la maximisation de l’amélioration espérée nécessitent beaucoup d’appels à ce modèle. Dès lors, ceci peut rendre la méthode inefficiente.

Par ailleurs si le nombre de processeurs disponible est grand, les calculs de la section 6.2 montrent que des algorithmes évolutionnaires peuvent être compétitifs. En effet, ce type d’algorithme permet de paralléliser de nombreux calculs dans le cas où le nombre de processeurs accessibles n’est pas limité. Par exemple, dans le cas de la dimension 4 à la section 6.2, si 50 processeurs étaient disponibles, la résolution du problème n’aurait nécessité qu’une trentaine d’appels distribués.

En outre, la méthode MOEGO n’est pas adaptée à la distribution d’un trop grand nombre de calculs : l’ajout d’un trop grand nombre de points simultanément ne se justifie plus théoriquement puisque il est important de mettre à jour régulièrement le modèle de krigeage. Or, ceci n’est pas possible si l’on souhaite distribuer un nombre important d’appels.

Pour résumer, il existe deux cas dans lesquels la méthode proposée ici n’est pas conseillée :

1. Si le nombre de dimensions est trop important. La limite couramment donnée, provenant du fléau de la dimension, est 10.

2. Si le nombre de processeurs disponibles est très important (ce nombre dépendant de la dimension), la méthode proposée ici peut ne plus diminuer l’efficacité relative de MOEGO NSGA-II par rapport à des méthodes ne faisant pas appel à des modèles de substitution.

Optimisation Multi-objectif Pire

Dans le document Optimisation multi-objectif sous incertitudes de phénomènes de thermique transitoire (Page 170-175)