Que diriez-vous d’un repas gratuit ? - Introduction `a l’optimisation

Introduction `a l’optimisation

8.4 Que diriez-vous d’un repas gratuit ?

i=1

[ei(x)]2, (8.14) avec e_i(x) différentiable, alors on peut utiliser des développements en série de Taylor de la fonction de coût, ce qui conduit aux méthodes du gradient et de Newton et à leurs variantes (voir la section 9.3.4).

— Si J(x) n’est pas diff´erentiable, par exemple quand on minimise J(x) =

∑

i |ei(x)|, (8.15) ou J(x) = max v e(x, v), (8.16) alors il faut faire appel à des méthodes spécifiques (voir les sections 9.3.5, 9.4.1.2 et 9.4.2.1). Même une fonction d’apparence aussi inoffensive que (8.15), qui est différentiable presque partout si les e_i(x) le sont, ne peut être minimisée par une méthode itérative fondée sur un développement limité de la fonction de coût, car une telle méthode se ruera en général sur un point où la fonction de coût n’est pas différentiable pour y rester bloquée.

— Quand J(x) est convexe sur X, on peut exploiter la puissance des méthodes d’optimisation convexe, pourvu que X soit aussi convexe. Voir la section 10.7. Remarque 8.6.Le temps nécessaire pour une évaluation de J(x) a aussi des consé-quences sur les types de méthodes employables. Quand chaque évaluation ne prend qu’une fraction de seconde, des algorithmes évolutionnaires ou par exploration aléatoire peuvent s’avérer viables. Tel n’est plus le cas quand chaque évaluation prend plusieurs heures, par exemple parce qu’elle implique la simulation d’un modèle complexe à base de connaissances, car le nombre d’évaluations de la fonc-tion de coût est alors sévèrement limité, voir la secfonc-tion 9.4.3.

8.4 Que diriez-vous d’un repas gratuit ?

Dans le contexte de l’optimisation, un repas gratuit (free lunch), ce serait une méthode universelle, capable de traiter n’importe quel problème d’optimisation, ce qui éliminerait le besoin de s’adapter aux spécificités du problème à traiter. Ceci aurait pu être le Saint Graal de l’optimisation évolutionnaire, si Wolpert et Macready n’avaient pas publié leurs théorèmes no free lunch (NFL).

8.4.1 C¸ a n’existe pas

Les théorèmes NFL dans [254] (voir aussi [109]) reposent sur les hypothèses suivantes :

1. un oracle est disponible, qui retourne la valeur numérique de J(x) pour n’im-porte quelle valeur numérique de x appartenant à X,

2. l’espace de recherche X est fini,

3. la fonction de coˆut J(·) ne peut prendre qu’un nombre fini de valeurs num´eriques,

4. rien d’autre n’est connu de J(·) a priori,

5. Les algorithmesAien comp´etition sont d´eterministes,

6. les problèmes de minimisationMj qui peuvent être générés sous les hy-pothèses 2 et 3 ont tous la même probabilité,

7. la performancePN(Ai,Mj) de l’algorithmeAisur le problème de minimi-sationMjpour N points xk∈ X visités distincts et ordonnés dans le temps ne dépend que des valeurs prises par xket J(xk), k = 1,··· ,N.

Les hypothèses 2 et 3 sont toujours satisfaites quand on calcule avec des nombres à virgule flottante. Supposons, par exemple, qu’on utilise des flottants en double précision sur 64 bits. Alors

• le nombre représentant J(x) ne peut pas prendre plus de 264valeurs, • la représentation de X ne peut pas avoir plus de (264)dim x éléments, avec

dim x le nombre de variables de d´ecision.

Une borne sup´erieure du nombre]M de probl`emes de minimisation traitables est donc(264)dim x+1.

L’hypothèse 4 interdit d’exploiter des connaissances supplémentaires éventuelles sur le problème de minimisation à résoudre, comme le fait de savoir qu’il est convexe.

L’hypothèse 5 est satisfaite par toutes les méthodes de minimisation de type boˆıte noire usuelles comme le recuit simulé ou les algorithmes évolutionnaires, même s’ils semblent impliquer de l’aléatoire, puisque tout générateur de nombres pseudo-aléatoires est déterministe pour une graine donnée.

La mesure de performance peut ˆetre, par exemple, la meilleure valeur de la fonc-tion de coˆut obtenue jusqu’ici

PN(Ai,Mj) =min^N

k=1J(xk). (8.17) Notons que le temps nécessaire à l’algorithme pour visiter N points distincts dans X ne peut pas être pris en compte dans la mesure de performance.

Nous ne considérons que le premier des théorèmes NFL de [254], qui peut être résumé ainsi : pour toute paire d’algorithmes(A1,A2), la performance moyenne sur tous les problèmes de minimisation est la même, c’est à dire que

1 ]M ]M

∑

j=1 PN(A1,Mj) = ¹ ]M ]M

∑

j=1 PN(A2,Mj). (8.18) En d’autres termes, si A1 a de meilleures performances queA2 en moyenne sur une série donnée de problèmes de minimisation, alorsA2doitavoir de meilleures performances queA1en moyenne sur tous les autres...

Exemple 8.7.SoitA1un algorithme de descente, qui sélectionne parmi les voisins de x^kdans X l’un de ceux au coût le plus bas pour en faire x^k+1. SoitA2un algo-rithme de montée qui sélectionne à la place l’un des voisins au coût le plus haut, et soitA3un algorithme qui tire x^k au hasard dans X. Mesurons les performances par le plus petit coût atteint après l’exploration de N points distincts dans X. La performance moyenne de ces trois algorithmes est la même. En d’autres termes, l’algorithme n’a pas d’importance en moyenne, et le fait de montrer qu’A1 a de meilleures performances qu’A2orA3sur quelques cas tests ne peut contredire ce

fait troublant.

8.4.2 Vous pouvez quand mˆeme obtenir un repas bon march´e

Aucun algorithme ne peut donc prétendre être meilleur que les autres en termes de performances moyennes sur tous les types de problèmes. Pire, on peut prouver avec des arguments de complexité que l’optimisation globale est impossible dans le cas le plus général [169].

Il faut tout de même noter que la plupart des]M problèmes de minimisation sur lesquels les performances moyennes sont calculées par (8.18) n’ont aucun intérêt du point de vue des applications. On a en général affaire à des classes spécifiques de problèmes de minimisation, pour lesquels certains algorithmes sont en effet meilleurs que d’autres. Quand la classe des problèmes à considérer est réduite, même légèrement, certains algorithmes évolutionnaires peuvent être préférables à d’autres, comme le montre [60] sur un exemple jouet. Des restrictions supplémen-taires, comme de requérir que J(·) soit convexe, peuvent être jugées plus coûteuses mais permettent d’utiliser des algorithmes beaucoup plus puissants.

L’optimisation continue sans contrainte sera consid´er´ee en premier, au chapitre 9.

8.5 En r´esum´e

— Avant d’entreprendre une optimisation, v´erifiez que cela fait sens pour le probl`eme qu’il s’agit de traiter.

— On peut toujours transformer un problème de maximisation en un problème de minimisation, de sorte qu’il n’est pas restrictif de ne considérer que des minimisations.

— Il est utile de distinguer minima et minimiseurs.

— On peut classifier les probl`emes d’optimisation suivant le type du domaine admissible X pour leurs variables de d´ecision.

— Le type de la fonction de coût a une influence forte sur les classes de méthodes d’optimisation utilisables. Les fonctions de coût non différentiables ne peuvent être minimisées en utilisant des méthodes fondées sur un dévelop-pement de Taylor de la fonction de coût.

— La dimension de vecteur de décision x est un facteur clé à prendre en compte dans le choix d’un algorithme, à cause de la malédiction de la dimension. — Le temps nécessaire pour une évaluation de la fonction de coût doit aussi être

pris en consid´eration. — Il n’y a pas de repas gratuit.

Dans le document Méthodes numériques et optimisation, un guide du consommateur (Page 185-190)