Un mot de mise en garde - Introduction `a l’optimisation

Introduction `a l’optimisation

8.1 Un mot de mise en garde

Savoir optimiser un indice de performance n’implique pas que ce soit une bonne idée de le faire. Minimiser, par exemple, le nombre de transistors dans un circuit intégré ou le nombre de lignes de code dans un programme peut conduire à des produits complexes à comprendre, à corriger, à documenter et à mettre à jour. Avant de s’embarquer dans une optimisation, il faut donc s’assurer qu’elle fait sens pour le vrai problème qu’il s’agit de résoudre.

Quand tel est le cas, les conséquences du choix d’un indice de performance spécifique ne doivent pas être sous-estimées. Pour minimiser une somme de va-leurs absolues, par exemple, il est préférable d’utiliser d’autres méthodes que pour minimiser une somme de carrés, et la solution optimale obtenue sera différente.

Il y a de nombreux livres introductifs excellents sur des aspects variés de l’opti-misation, dont [185, 155, 73, 122, 173, 14, 169, 22, 10]. On trouvera des exposés introductifs intéressants dans [247]. La seconde édition de l’Encyclopedia of Opti-mizationrécemment parue ne contient pas moins de 4626 pages d’articles introduc-tifs et de synthèses [63].

8.2 Exemples

Exemple 8.1. Estimation de param`etres

Pour estimer les paramètres d’un modèle mathématique à partir de données expérimentales, une approche classique est de chercher la valeur (qu’on espère unique) du vecteur de paramètres x∈ Rn qui minimise la fonction de coût qua-dratique J(x) = e^T(x)e(x) = N

∑

i=1 e²_i(x), (8.1) 165

où le vecteur d’erreur e(x)∈ RN est la différence entre un vecteur y de données expérimentales et un vecteur ym(x) de sorties correspondantes du modèle

e(x) = y− ym(x). (8.2) Le plus souvent, on n’impose aucune contrainte à x, qui peut donc prendre n’im-porte quelle valeur dans Rn, de sorte que c’est de l’optimisation sans contrainte, considérée au chapitre 9. Exemple 8.2. Management

Une compagnie peut souhaiter maximiser ses bénéfices sous des contraintes sur sa production, minimiser le coût d’un produit sous des contraintes sur ses per-formances ou minimiser le temps nécessaire à sa mise sur le marché sous des contraintes de coût. C’est de l’optimisation sous contraintes, considérée au

cha-pitre 10.

Exemple 8.3. Logistique

Un voyageur de commerce peut souhaiter visiter un ensemble de villes en mi-nimisant la distance totale à parcourir. La solution optimale est alors une liste ordonnée de villes, pas nécessairement codée sous forme numérique. C’est de l’optimisation combinatoire, considérée au chapitre 11.

8.3 Taxonomie

Un synonyme d’optimisation est programmation. Ce terme a été choisi par des mathématiciens travaillant sur la logistique pendant la seconde guerre mon-diale, avant l’omniprésence de l’ordinateur. Dans ce contexte, un programme est un problème d’optimisation.

La fonction d’objectif (ou indice de performance) J(·) est une fonction à va-leur scalaire de n variables de décision scalaires x_i, i= 1,··· ,n. Ces variables sont placées dans un vecteur de décision x, et l’ensemble admissible X est l’ensemble des valeurs que x peut prendre. Quand la fonction d’objectif doit être minimisée, c’est une fonction de coût. Quand elle doit être maximisée, c’est une fonction d’utilité. Il est trivial de transformer une fonction d’utilité U(·) en une fonction de coût J(·), par exemple en posant

J(x) =−U(x). (8.3) Il n’y a donc pas de perte de généralité à ne considérer que des problèmes de mini-misation. La notation b x= arg min x∈XJ(x) (8.4) signifie que ∀x ∈ X, J(bx) 6 J(x). (8.5)

Tout_bx qui satisfait (8.5) est un minimiseur global, et le coˆut correspondant J(_bx) est le minimum global. Notons que le minimum global est unique quand il existe, tandis qu’il peut y avoir plusieurs minimiseurs globaux.

Les deux exemples qui suivent illustrent des situations `a ´eviter, si possible.

Exemple 8.4.Quand J(x) =−x et X est un intervalle ouvert (a,b) ⊂ R (c’est à dire que l’intervalle ne contient pas ses extrémités a et b), il n’y a pas de minimiseur (ou maximiseur) global, ni de minimum (ou maximum) global. L’infimum est J(b), et le

supremum J(a).

Exemple 8.5.Quand J(x) = x et X = R, il n’y a pas de minimiseur (ou maximiseur) global, ni de minimum (ou maximum) global. l’infimum est−∞ et le supremum

+∞.

Si l’on sait seulement que (8.5) est valide dans un voisinage V(bx) de_bx, c’est `a dire que

∀x ∈ V(bx), J(_bx) 6 J(x), (8.6) alors_bx est un minimiseur local, et J(_bx) un minimum local.

Remarque 8.1.Bien que ceci ne soit pas toujours fait dans la litt´erature, il est ´eclairant de distinguer les minima des minimiseurs (et les maxima des

maximi-seurs).

Dans la figure 8.1, x₁et x₂sont tous les deux des minimiseurs globaux, associ´es `a l’unique minimum global J₁, tandis que x₃n’est qu’un minimiseur local, puisque le minimum local J3est plus grand que J1.

Idéalement, on voudrait trouver tous les minimiseurs globaux et le minimum bal correspondant. En pratique, cependant, prouver qu’un minimiseur donné est glo-bal est souvent impossible. Trouver un minimiseur local peut déjà considérablement améliorer les performances par rapport à la situation initiale.

Les problèmes d’optimisation peuvent être classés suivant le type de leur do-maine admissible X :

— X = Rⁿcorrespond à de l’optimisation continue sans contrainte (chapitre 9). — X ( Rⁿcorrespond à de l’optimisation sous contrainte(s) (chapitre 10). Les contraintes expriment que certaines valeurs des variables de décision ne sont pas acceptables (par exemple que certaines variables doivent être positives). Nous distinguons les contraintes d’égalité

cê_j(x) = 0, j= 1,··· ,ne, (8.7) et les contraintes d’inégalité

cⁱ_j(x) 6 0, j= 1,··· ,ni. (8.8) Plus concis´ement, nous ´ecrivons

x1 x2 x x3

Fig. 8.1 Minima et minimiseurs

cⁱ(x) 6 0, (8.10) `a interpr´eter comme valide composante par composante.

— Quand X est fini et que les variables de d´ecision ne sont pas quantitatives, on parle d’optimisation combinatoire (chapitre 11).

— Quand X est un ensemble de fonctions, on parle d’optimisation fonctionnelle, rencontrée par exemple en commande optimale [56] mais pas considérée dans ce livre.

Remarque 8.2.Rien n’interdit aux contraintes qui définissent X d’impliquer des quantités numériques calculées via un modèle à partir des valeurs numériques prises par les variables de décision. En commande optimale, par exemple, on peut exiger que l’état du système dynamique à commander satisfasse des contraintes d’inégalité à des instants donnés. Remarque 8.3.Chaque fois que possible, nous écrirons les contraintes d’inégalité sous la forme cⁱ_j(x) 6 0 plutôt que sous la forme ci

j(x) < 0, pour permettre à X d’être un ensemble fermé (c’est à dire qui contienne sa frontière). Quand cⁱ_j(x) = 0, la j-ème contrainte d’inégalité est dite saturée (ou active). Remarque 8.4.Quand X est tel que certains éléments xidu vecteur de décision x ne peuvent prendre que des valeurs entières et quand ces valeurs ont un sens quantita-tif, on peut préférer parler de programmation en nombres entiers plutôt que d’op-timisation combinatoire, bien que les deux termes soient parfois utilisés de façon

interchangeable. Un problème de programmation en nombres entiers peut être trans-formé en un problème d’optimisation continue sous contraintes. Si, par exemple, X est tel que x_i∈ {0,1,2,3}, alors on peut imposer la contrainte

xi(1− xi)(2− xi)(3− xi) = 0. (8.11) Remarque 8.5.Le nombre n= dim x des variables de décision a une forte influence sur la complexité du problème d’optimisation et sur les méthodes utilisables, à cause de ce qui est connu comme la malédiction de la dimension. Une méthode parfaite-ment viable pour n= 2 peut n’avoir aucune chance de succès pour n = 50, comme illustré par l’exemple suivant. Exemple 8.6.Soit X un hypercube unitaire à n dimensions [0, 1]× ··· × [0,1]. Sup-posons une minimisation par recherche aléatoire, avec xk(k = 1,··· ,N) tiré au ha-sard dans X suivant une loi uniforme et le vecteur de décisionbx^k associé au coût le plus bas obtenu jusqu’ici pris comme estimée d’un minimiseur global. La lon-gueur du côté d’un hypercube H qui a une probabilité p d’être atteint est α = p^1/n, et cette longueur croˆıt très vite avec n. Pour p= 10⁻³, par exemple, α= 10⁻³ si n= 1, α≈ 0.5 si n = 10 et α ≈ 0.87 si n = 50. Quand n augmente, il devient donc très vite impossible d’explorer une petite région de l’espace de décision. Pour dire cela autrement, si l’on considère qu’il faut 100 points pour échantillonner l’inter-valle[0, 1], alors il faudra 100n points dans X pour obtenir une densité similaire. Heureusement, les régions vraiment intéressantes des espaces de décision de grande dimension correspondent souvent à des hypersurfaces de dimension plus basse qui peuvent encore être explorées efficacement, pourvu que des méthodes de recherche plus sophistiquées soient utilisées. Le type de la fonction de coût a aussi une forte influence sur le type de méthode de minimisation à utiliser.

— Quand J(x) est lin´eaire en x, on peut l’´ecrire

J(x) = c^Tx. (8.12) Il faut alors introduire des contraintes pour éviter que x ne tende vers l’infini dans la direction−c, ce qui n’aurait en général aucun sens. Si les contraintes sont linéaires (ou affines) en x, alors le problème relève de la programmation linéaire(voir la section 10.6).

— Si J(x) est quadratique en x et peut s’´ecrire

J(x) = [Ax− b]TQ[Ax− b], (8.13) où A est une matrice connue telle que A^TA soit inversible, Q est une matrice de pondération symétrique définie positive connue et b est un vecteur connu, et si X = Rⁿ, alors la méthode des moindres carrés linéaires peut être uti-lisée pour évaluer le minimiseur global unique de la fonction de coût (voir la section 9.2).

— Quand J(x) est non lin´eaire en x (sans ˆetre quadratique), il faut distinguer deux cas.

— Si J(x) est diff´erentiable, par exemple quand on minimise J(x) =

∑

i=1

[ei(x)]2, (8.14) avec e_i(x) différentiable, alors on peut utiliser des développements en série de Taylor de la fonction de coût, ce qui conduit aux méthodes du gradient et de Newton et à leurs variantes (voir la section 9.3.4).

— Si J(x) n’est pas diff´erentiable, par exemple quand on minimise J(x) =

∑

i |ei(x)|, (8.15) ou J(x) = max v e(x, v), (8.16) alors il faut faire appel à des méthodes spécifiques (voir les sections 9.3.5, 9.4.1.2 et 9.4.2.1). Même une fonction d’apparence aussi inoffensive que (8.15), qui est différentiable presque partout si les e_i(x) le sont, ne peut être minimisée par une méthode itérative fondée sur un développement limité de la fonction de coût, car une telle méthode se ruera en général sur un point où la fonction de coût n’est pas différentiable pour y rester bloquée.

— Quand J(x) est convexe sur X, on peut exploiter la puissance des méthodes d’optimisation convexe, pourvu que X soit aussi convexe. Voir la section 10.7. Remarque 8.6.Le temps nécessaire pour une évaluation de J(x) a aussi des consé-quences sur les types de méthodes employables. Quand chaque évaluation ne prend qu’une fraction de seconde, des algorithmes évolutionnaires ou par exploration aléatoire peuvent s’avérer viables. Tel n’est plus le cas quand chaque évaluation prend plusieurs heures, par exemple parce qu’elle implique la simulation d’un modèle complexe à base de connaissances, car le nombre d’évaluations de la fonc-tion de coût est alors sévèrement limité, voir la secfonc-tion 9.4.3.

Dans le document Méthodes numériques et optimisation, un guide du consommateur (Page 180-185)