HAL Id: tel-00587763
https://pastel.archives-ouvertes.fr/tel-00587763
Submitted on 21 Apr 2011
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Résolution de grands problèmes en optimisation
stochastique dynamique et synthèse de lois de
commande
Pierre Girardeau
To cite this version:
Pierre Girardeau. Résolution de grands problèmes en optimisation stochastique dynamique et synthèse de lois de commande. Mathématiques générales [math.GM]. Université Paris-Est, 2010. Français. �NNT : 2010PEST1026�. �tel-00587763�
Thèse
présentée pour l’obtention du titre de
Docteur de l’Université Paris-Est
Spécialité : Mathématiques
par
Pierre GIRARDEAU
Résolution de grands problèmes en
optimisation stochastique dynamique et
synthèse de lois de commande
Soutenance le 17 décembre 2010 devant le jury composé de :
Rapporteurs : Jean-Pierre Quadrat INRIA Paris-Rocquencourt Nizar Touzi École Polytechnique
Examinateurs : Kengy Barty EDF R&D
Andrew Philpott University of Auckland Felisa Vázquez-Abad Hunter College, New York Directeurs de thèse : Pierre Carpentier ENSTA-ParisTech
Guy Cohen École des Ponts-ParisTech
Cette thèse a été effectuée conjointement à l’Unité de Mathématiques Appliquées de l’ENSTA-ParisTech, au CERMICS de l’École des Ponts-ParisTech, et dans le département OSIRIS
Cette thèse a été rédigée à l’aide du logiciel libre de mise en forme LATEX, ainsi que des précieux conseils
Résumé
Le travail présenté ici s’intéresse à la résolution numérique de problèmes de commande optimale stochastique de grande taille. Nous considérons un système dynamique, sur un horizon de temps discret et fini, pouvant être influencé par des bruits exogènes et par des actions prises par le décideur. L’objectif est de contrôler ce système de sorte à minimiser une certaine fonction objectif, qui dépend de l’évolution du système sur tout l’horizon. Nous supposons qu’à chaque instant des observations sont faites sur le système, et éven-tuellement gardées en mémoire. Il est généralement profitable, pour le décideur, de prendre en compte ces observations dans le choix des actions futures. Ainsi sommes-nous à la re-cherche de stratégies, ou encore de lois de commandes, plutôt que de simples décisions. Il s’agit de fonctions qui à tout instant et à toute observation possible du système associent une décision à prendre.
Ce manuscrit présente trois contributions. La première concerne la convergence de méthodes numériques basées sur des scénarios. Nous comparons l’utilisation de méthodes basées sur les arbres de scénarios aux méthodes particulaires. Les premières ont été lar-gement étudiées au sein de la communauté “Programmation Stochastique”. Des dévelop-pements récents, tant théoriques que numériques, montrent que cette méthodologie est mal adaptée aux problèmes à plusieurs pas de temps. Nous expliquons ici en détails d’où provient ce défaut et montrons qu’il ne peut être attribué à l’usage de scénarios en tant que tel, mais plutôt à la structure d’arbre. En effet, nous montrons sur des exemples numériques que les méthodes particulaires, plus récemment développées et utilisant éga-lement des scénarios, ont un meilleur comportement même avec un grand nombre de pas de temps.
La deuxième contribution part du constat que, même à l’aide des méthodes particu-laires, nous faisons toujours face à ce qui est couramment appelé, en commande optimale, la malédiction de la dimension. Lorsque l’état servant à résumer le système est de trop grande taille, on ne sait pas trouver directement, de manière satisfaisante, des stratégies optimales. Pour une classe de systèmes, dits décomposables, nous adaptons des résultats bien connus dans le cas déterministe, portant sur la décomposition de grands systèmes, au cas stochastique. L’application n’est pas directe et nécessite notamment l’usage d’outils statistiques sophistiqués afin de pouvoir utiliser la variable duale qui, dans le cas qui nous intéresse, est un processus stochastique. Nous proposons un algorithme original appelé
Dual Approximate Dynamic Programming (DADP) et étudions sa convergence. Nous
ap-pliquons de plus cet algorithme à un problème réaliste de gestion de production électrique sur un horizon pluri-annuel.
La troisième contribution de la thèse s’intéresse à une propriété structurelle des pro-blèmes de commande optimale stochastique : la question de la consistance dynamique d’une suite de problèmes de décision au cours du temps. Notre but est d’établir un lien entre la notion de consistance dynamique, que nous définissons de manière informelle dans le dernier chapitre, et le concept de variable d’état, qui est central dans le contexte de la commande optimale. Le travail présenté est original au sens suivant. Nous montrons que, pour une large classe de modèles d’optimisation stochastique n’étant pas a priori consistants dynamiquement, on peut retrouver la consistance dynamique quitte à étendre la structure d’état du système.
Abstract
This work intends to provide resolution methods for Stochastic Optimal Control (SOC) problems. We consider a dynamical system on a discrete and finite horizon, which is influenced by exogenous noises and actions of a decision maker. The aim is to minimize a given function of the system’s behaviour over the whole time horizon. We suppose that at every instant the decision maker is able to make observations on the system and keep some in memory. Since it is generally profitable to take these observations into account in order to draw further actions, we aim to design decision rules rather than simple decisions. Such rules associate to every instant and every possible observation of the system a decision to make.
The present manuscript presents three main contributions. The first concerns the study of scenario-based solving methods for SOC problems. We compare the use of the so-called scenario trees technique to the particle methods. The first one has been widely studied among the Stochastic Programming community and has been somehow popular in applications; however recent developments showed numerically as well as theoretically that this methodology behaves poorly when the number of th problem’s time steps grows. We explain this fact in details and show that this negative feature is not to be attributed to the scenario setting, but rather to the use of the tree structure. Indeed, we show using numerical examples how the particle method – which is a newly developed variational technique also based on scenarios – behaves in a better way even when we deal with a large number of time steps.
The second contribution starts from the observation that, even with particle methods, we are still facing somehow the curse of dimensionality. In other words, decision rules intrisically suffer from the dimension of their domain, e.g. observations or state in the Dynamic Programming framework. For a certain class of systems, namely decomposable systems, we adapt results concerning the decomposition of large-scale systems which are well known in the deterministic case to the SOC case. The application is not straight-forward and requires some statistical analysis for the dual variable, which is a stochastic process in our context. We propose an innovating algorithm called Dual Approximate Dynamic Programming (DADP) and study its convergence. We also apply DADP to a real-life power management problem.
The third contribution concerns a rather structural property for SOC problems: the question of dynamic consistency for a sequence of decision making problems over time. Our aim is to establish a link between the notion of time consistency, that we loosely define in the last chapter, and the central concept of state structure within optimal control. This contribution is original in the following sense: many works in the literature aim to find optimization models which somehow preserve the “natural” time consistency property for the sequence of decision making problems. On the contrary, we show for a broad class of SOC problems which are not a priori time-consistent, that it is possible to regain this property by simply extending the state structure of the model.
Remerciements
Mes premiers remerciements vont aux personnes qui ont accepté de participer à mon jury de thèse. Les enseignements que j’ai eu la chance de recevoir de Jean-Pierre Quadrat m’ont été utiles tout au long de ces trois ans. Ses travaux en commande optimale et autour de la programmation dynamique m’ont souvent, au cours de cette période de thèse, servi d’inspiration. Je voudrais aussi remercier Nizar Touzi pour sa sympathie et pour l’intérêt qu’il a pu porter à nos recherches lors des séminaires et conférences au cours desquels j’ai eu le plaisir de le rencontrer. Il serait évidemment impensable de ne pas remercier mon collègue et néanmoins ami Kengy Barty, qui a beaucoup fait pour que cette thèse se passe dans les meilleures conditions et avec qui j’ai eu la chance, depuis maintenant cinq ans, de travailler dans une ambiance sereine, studieuse et amicale. J’espère que nous continuerons longtemps cette “collabora-tion”. J’ai eu l’occasion de rencontrer Andrew Philpott en 2008 lors de la conférence ISMP à Chicago. Suite à nos discussions, il s’est rapidement montré intéressé et encourageant à l’égard de nos travaux. J’aimerais ici le remercier chaleureusement, non seulement pour avoir bien voulu faire partie de mon jury de thèse, mais aussi pour me donner l’occasion de travailler avec lui dans l’année et demie qui arrive. Je remercie aussi Felisa Vázquez-Abad, entre autres pour les discussions tant scientifiques qu’amicales que nous avons pu avoir, que ce soit en France ou en Australie, lorsqu’elle m’a accueilli en 2008 à l’Université de Melbourne. Last but not least, toute ma gratitude va à mes directeurs de thèse, Pierre Carpentier et Guy Cohen. J’ai eu le privilège d’être activement suivi par deux scientifiques passionnés et passionnants qui ont su tantôt m’encourager, tantôt me mettre au défi, et ce toujours dans un climat à la fois studieux et sympathique.
Au cours de ces trois années, j’ai passé la plupart de mon temps au sein du département Optimisation, Simulation, Risque et Statistique (OSIRIS) d’EDF R&D. Quand je repense aux débuts, mes premières pensées vont aux trois mousquetaires qui avaient encadré mon stage de césure dans ce département et dont l’exemple m’avait incité à faire le choix de poursuivre en thèse : Kengy Barty que je n’ai pas peur de remercier ainsi deux fois, Cyrille Strugarek, mon grand frère spirituel, et Jean-Sébastien Roy, malheureusement parti trop tôt. Je leur adresse mes plus sincères remerciements. Par ailleurs, je tiens à remercier les trois chefs de groupe qui m’ont accueilli, que ce soit au cours du stage ou de la thèse : René Aïd, Luciano Leal de Sousa et Sandrine Charousset, ainsi que Yannick Jacquemart, chef du département OSIRIS, pour avoir cru à ce projet et pour me permettre de continuer encore l’aventure. Je me suis dit que si je commençais à dresser la liste des collègues avec qui j’ai eu la chance de partager parfois un café et souvent bien plus, je ferais certainement trop d’oublis. Alors je remercie tout à la fois les Sfaxiens, la Beyrouthoise, les Nantais, le Bratislavien, le Martiniquais, les Orléanais, les Tunisois (et la Tunisoise), les Angevins bien sûr, peut-être même les Parisiens et je m’arrête puisque c’est là que les Athéniens s’atteignirent.
du CERMICS que j’ai trop peu croisé pendant la thèse. En particulier, j’adresse un grand merci à Michel De Lara pour ses commentaires et opinions constructives à propos de mes travaux de thèse et de leur présentation, ainsi qu’à Jean-Philippe Chancelier tant pour son aide en informatique que pour les agréables et diverses discussions que nous avons eues pendant ces trois ans.
Toute ma gratitude va à Jean-Charles Gilbert ainsi qu’à Hasnaa Zidani pour m’avoir permis d’encadrer des travaux dirigés au sein de leurs cours respectifs.
Aux éléments qui ont permis que cette thèse se déroule dans les meilleures conditions viennent s’ajouter sans hésitation les amis, en premier lieu ceux du Cent-Quinze, sans qui je n’aurais souvent pas eu la force de continuer. Leur présence à la soutenance m’a fait le plus grand plaisir. Sans chercher à être exhaustif, je me dois de remercier le “noyau dur” : mes deux colocataires Bébert et Seb, le cousin, Alex, Dédelle, Fabi, la Monnier, la mèche, le Mignon, et What else ?
Finalement, j’adresse un grand et très sincère merci à ma famille (même à mon beau-frère) qui n’a jamais douté que ce projet aboutisse, même lorsque ma confiance s’ébranlait. J’ai envie de leur dire que parmi les choses qui ont été nécessaires à la réussite de cette thèse, il y a sans aucun doute un certain nombre de cours de mathématiques, mais il y a avant tout la richesse de ce qu’ils ont su me transmettre.
Avant-propos
À la lecture du titre de cette thèse et des mots barbares qui le composent, je féli-cite les courageux novices qui oseront ouvrir ce document. Je vais m’efforcer de justifier succinctement l’usage de ces termes, car chacun y a sa place.
Le mot qui surprend le plus le lecteur non familier des probabilités est sans doute
stochastique. Je vais me garder d’en donner l’étymologie puisqu’elle est déjà élégamment
énoncée dans la thèse de Cyrille Strugarek en avant-propos ; c’est d’ailleurs ce qui m’a donné l’envie d’écrire ces quelques lignes. Je me contenterai donc d’en donner la définition du dictionnaire (Larousse, 2010) : “Se dit de phénomènes qui, partiellement, relèvent du hasard et qui font l’objet d’une analyse statistique.” On trouve également que stochastique a pour synonyme aléatoire. Dès lors, on pourrait croire que l’usage du premier terme plutôt que du second a pour seul but de “faire savant”. Mais ce n’en est pourtant pas la raison. Pour comprendre, il suffit d’ajouter le mot optimisation. L’optimisation est un domaine des mathématiques où l’on s’intéresse à la minimisation (ou à la maximisation) d’un certain objectif, tel qu’une valeur économique ou encore une énergie. Ce sujet est à la fois très ancien – les premiers problèmes d’optimisation remontent à Euclide – et relativement jeune – le développement des méthodes numériques telles que la programmation linéaire a connu un réel essor depuis la seconde moitié du 20esiècle. On peut penser, pour se faire
une idée, au problème de la recherche d’une route en temps minimal reliant deux points d’une carte. Certains paramètres du problème peuvent être incertains – il est possible que l’on rencontre par exemple des embouteillages sur la route – et l’optimisation va alors consister à rechercher le meilleur compromis entre tous les aléas possibles. Parler d’optimisation aléatoire laisserait croire que l’on va se résoudre à tirer la route à pile ou face, ce qui est généralement loin d’être optimal. On préfère donc parler d’optimisation stochastique.
En présence d’incertain, l’optimiseur (ou décideur) va souvent bénéficier d’informa-tions sur le système à optimiser qui arriveront de manière dynamique, c’est-à-dire au fur et à mesure que le temps passe – on apprend par exemple au fur et à mesure que l’on teste les routes celles qui sont le plus sujettes aux embouteillages. La difficulté du problème d’optimisation sera alors étroitement liée à la quantité d’information qui est nécessaire à la prise de décision optimale. On parle de grand problème lorsque cette quantité d’in-formation est trop importante pour employer brutalement les techniques classiques de résolution.
Pour finir, on a voulu insister, à travers l’expression synthèse de lois de commande, sur le fait que nous ne cherchons pas seulement à évaluer le coût optimal du système – le temps associé à la route optimale – mais surtout la stratégie (ou loi de commande) permettant d’y parvenir.
En espérant que la rédaction de cet avant-propos a permis de maximiser la probabilité que vous continuiez votre lecture.
Table des matières
Remerciements vii
Avant-propos ix
1 Préliminaires 1
1.1 Optimisation dans l’incertain . . . 1
1.1.1 Problème général . . . 1
1.1.2 Effet dual . . . 3
1.1.3 Problèmes en boucle ouverte . . . 3
1.1.4 Interprétation fonctionnelle . . . 4
1.1.5 Problèmes à plusieurs pas de temps . . . 5
1.2 Résolution de problèmes de commande optimale stochastique . . . 6
1.2.1 Cadre markovien : programmation dynamique . . . 6
1.2.2 Arbres de scénarios . . . 8
1.2.3 Méthodes particulaires . . . 10
1.3 Organisation du mémoire . . . 14
2 Vitesse de convergence des méthodes à base de scénarios 17 2.1 Évaluation de l’erreur . . . 19
2.2 Arbres de scénarios . . . 21
2.2.1 Présentation succincte . . . 22
2.2.2 Erreur dans un cadre général . . . 23
2.2.3 Exemple d’un problème de filtrage . . . 27
2.3 Méthode particulaire . . . 30
2.3.1 Présentation succincte . . . 31
2.3.2 Difficultés de l’analyse d’erreur dans le cas général . . . 33
2.3.3 Exemple d’un problème de filtrage . . . 34
2.4 Question de la dimension . . . 36
2.5 Lien entre méthode particulaire et arbres de scénarios . . . 40
2.6 Conclusion . . . 43
3 Décomposition de problèmes de commande optimale stochastique 45 3.1 État de l’art . . . 47
3.1.1 Formulation du problème . . . 48
3.1.2 Le cas de la boucle ouverte . . . 49
3.1.3 Arbres de scénarios pour traiter le cas de la boucle fermée . . . 50
3.1.4 Un algorithme de décomposition général dans le cadre markovien . 50 3.1.5 Cas particulier de la résolution des sous-problèmes . . . 52
TABLE DES MATIÈRES
3.2.1 Résolution approchée des sous-problèmes par programmation
dy-namique . . . 54
3.2.2 Résultats théoriques du point de vue global . . . 57
3.2.3 Convergence . . . 59
3.3 Conclusion . . . 60
4 Résolution numérique d’un problème de commande optimale stochas-tique de grande taille 61 4.1 Formulation du problème . . . 62
4.2 De l’importance de la simulation . . . 66
4.3 Méthode de référence . . . 68
4.3.1 Bornes supérieures et inférieures . . . 68
4.3.2 Décomposition par agrégation . . . 68
4.4 Application de DADP . . . 70
4.4.1 Sous-problème thermique . . . 70
4.4.2 Sous-problème hydraulique . . . 70
4.4.3 Coordination . . . 72
4.4.4 Décomposition par prédiction . . . 72
4.5 Résultats . . . 73
4.5.1 Considérations pratiques sur DADP . . . 73
4.5.2 Comparaison . . . 74
5 Consistance dynamique pour les problèmes de commande optimale sto-chastique 83 5.1 État de l’art . . . 84
5.2 Parallèle avec la programmation dynamique . . . 85
5.2.1 Un exemple déterministe . . . 85
5.2.2 Commande optimale stochastique sans contrainte de risque . . . 88
5.2.3 Commande optimale stochastique avec contraintes . . . 92
5.3 Retour à la dimension finie . . . 96
5.3.1 Problème équivalent . . . 96
5.3.2 Principe de programmation dynamique . . . 98
5.4 Conclusion . . . 101
Conclusion et perspectives 103
A Optimisation 107
B Probabilités 109
Table des figures
1.1 Construction d’un arbre de scénarios . . . 9 2.1 Exemple de structure arborescente . . . 22 2.2 Feedbacks exacts et approchés issus d’une méthode par arbre de scénarios. . 28 2.3 Carré du biais et variance de la commande par arbres de scénarios en
fonction du taux de branchement. . . 29 2.4 Feedbacks exacts et approchés issus de la méthode particulaire. . . 35 2.5 Carré du biais et variance de la commande par méthode particulaire en
fonction du nombre de particules. . . 35 2.6 Carré du biais et variance de la commande par arbres de scénarios en
fonction du taux de branchement, pour un état de dimension 2. . . 38 2.7 Carré du biais et variance de la commande par méthode particulaire en
fonction du nombre de particules, pour un état de dimension 2. . . 39 2.8 Relations entre le problème, les conditions d’optimalité, et les conditions
d’optimalité discrétisées. . . 41 2.9 Lien entre arbres de scénarios et méthode particulaire. . . 42 3.1 Schéma d’un algorithme général de décomposition par les prix en boucle
fermée. . . 55 4.1 Courbe de coût unitaire thermique . . . 65 4.2 Simulateur (Opt=Optimiseur, Dyn=Dynamiques, Info=Information) . . . 67 4.3 Quelques scénarios de demande en puissance . . . 75 4.4 Distribution de la différence des coûts entre les variantes de DADP . . . . 76 4.5 Fonction de répartition de la différence des coûts entre les variantes de DADP 76 4.6 Évolution des coûts primal et dual au cours des itérations pour l’expérience 2 78 4.7 Espérance de l’écart production-demande pour l’expérience 2 . . . 79 4.8 Distribution de l’écart production-demande à un pas de temps particulier
pour l’expérience 2 . . . 79 4.9 Quelques scénarios de coûts marginaux à l’issue de l’expérience 2 . . . 80 4.10 Expérience 2 : espérance du prix (en ordonnée) conditionnellement au
temps (en haut), à la demande (en bas à gauche) et à la disponibilité thermique (en bas à droite) . . . 81 4.11 Fonctions de répartition des coûts obtenus en simulation par les différentes
Liste des symboles
N ensemble des entiers naturels R ensemble des nombres réels est mesurable par rapport à s.c. sous les contraintes
t.q. tel que
:= est égal, par définition, à
X (en lettres grasses) variable aléatoire X
P(A) probabilité de l’évènement A E opérateur d’espérance
E(Y | X) espérance conditionnelle de Y sachant X
1A fonction indicatrice de l’ensemble A :
1A(x) = 1 si x ∈ A ; 1A(x) = 0 sinon.
χA fonction caractéristique de l’ensemble A :
χA(x) = 0 si x ∈ A ; χA(x) = +∞ sinon.
i.i.d. indépendantes et identiquement distribuées
σ(X) tribu engendrée par la variable aléatoire X ∂f(x) sous-différentiel de la fonction f en x
∇f(x) gradient de la fonction f en x
Chapitre 1
Préliminaires
Il entre dans toutes les actions humaines plus de hasard que de décision.
André Gide(1869-1951)
Ce chapitre introductif a pour objet de présenter les concepts qui seront utiles tout au long de ce mémoire. On présente au §1.1 les types de problèmes auxquels nous nous inté-ressons par la suite. Au §1.2, nous décrivons brièvement quelques méthodes de résolution classiques sur lesquelles nous reviendrons par la suite. Enfin, au §1.3, nous présentons le plan de ce document en insistant sur les contributions apportées lors de cette thèse.
1.1
Optimisation dans l’incertain
Nous introduisons ici les concepts mathématiques permettant de modéliser des pro-blèmes d’optimisation dans lesquels interviennent des aléas : on parle de propro-blèmes d’opti-misation stochastique. Les aléas peuvent être présents à la fois dans le critère à optimiser et dans les contraintes du problème. Nous présentons dans un premier temps les deux grandes classes de problèmes de ce type qui sont : d’une part les problèmes en boucle ouverte, pour lesquels les décisions peuvent être prises a priori, avant que le système n’évolue, d’autre part les problèmes en boucle fermée où les décisions sont prises au cours du temps et dépendent des observations faites sur le système au cours de son évolution.
Cette présentation est inspirée de celles faites par Barty (2004), Strugarek (2006) et Dallagi (2007) dans leurs thèses. Dans toute la suite, les variables aléatoires seront notées en caractères gras.
1.1.1
Problème général
Soit U (respectivemement W ) une variable aléatoire définie sur un espace probabi-lisé1 (Ω, A, P) à valeurs dans un espace de Hilbert U (respectivement W). On notera
également U := L2(Ω, A, P ; U) et W := L2(Ω, A, P ; W). Nous considérons des espaces
de variables aléatoires de carré intégrable car ce sont des espaces de Hilbert. Or, nous cherchons à définir des algorithmes d’optimisation faisant souvent usage de la notion de
1. On renvoie le lecteur à l’annexe B pour la définition des notions classiques de probabilités telles qu’une tribu ou un espace probabilisé.
CHAPITRE 1. PRÉLIMINAIRES
gradient, qui se définit naturellement dans les espaces de Hilbert. Soit j : U ×W → R une intégrande normale (voir Définition B.4). Un grand nombre de problèmes d’optimisation stochastique peuvent être formulés de la manière suivante :
min
U∈UadJ(U) := E (j (U, W )) , (1.1)
où l’ensemble admissible Uad est un sous-ensemble de U. C’est sur cet ensemble que l’on
fera porter les contraintes sur la commande U.
Les problèmes qui nous intéressent sont donc des problèmes d’optimisation particuliers, où la variable d’optimisation est une variable aléatoire. Une autre particularité est que la fonction J n’est généralement pas connue de manière analytique et doit être obtenue à partir de j, par exemple à l’aide d’un grand nombre d’évaluations de la fonction j. Au lieu de tenter d’utiliser brutalement les outils issus de la programmation mathématique, on peut alors tirer profit de cette structure afin de limiter le nombre d’évaluations de cette fonction j.
Nous allons maintenant préciser la forme de l’ensemble admissible Uad. Donnons-nous
une tribu G sur Ω et une multi-application Γ : Ω ⇒ P(U) qui soit A-mesurable2. On
distinguera souvent dans la suite deux types de contraintes : – des contraintes dites ponctuelles ou presque-sûres :
Ups := {U ∈ U, U ∈ Γ, P-p.s.} , – et des contraintes de mesurabilité :
Umes := {U ∈ U, U est G-mesurable} . (1.2)
À la place de “U est G-mesurable”, on notera souvent : U G. Notons que, par définition, Umes est un sous-espace vectoriel de U.
On pose alors : Uad = Ups∩ Umes.
Les contraintes ponctuelles servent à modéliser, pour toute réalisation de l’aléa, les con-traintes habituelles recontrées en optimisation mathématique (des concon-traintes de bornes, par exemple). En revanche, les contraintes de mesurabilité sont particulières à l’optimi-sation stochastique. Chaque élément de la tribu G pouvant être interprété comme une information, elles représentent le fait que la décision peut dépendre d’observations sur le système. Nous explicitons par la suite plusieurs cas importants.
Remarque 1.1. Ce cadre est en fait suffisamment général pour recouvrir la plupart des
problèmes qui nous intéressent ici. Il suffit de préciser le sens que l’on donne au terme “décision”. Le cas de la boucle ouverte3 est celui où rien n’est observé. La décision est
alors la même quelle que soit la réalisation de l’aléa. Au contraire, pour un problème en boucle fermée à deux pas de temps, on prend une première décision sans observation préalable, puis un aléa se réalise et est observé. Sur la base de cette observation, on doit prendre une seconde décision. Les problèmes à plusieurs pas de temps rentrent également dans ce cadre. Ils nécessitent d’introduire une collection de contraintes d’information intermédiaires au cours du déroulement de l’expérience signifiant que l’observation du système arrive progressivement, et qu’une commande à un instant intermédiaire ne peut dépendre que de l’information disponible à cet instant.
2. Nous faisons référence aux travaux de Rockafellar et Wets (1998, Chapitre 14) pour la définition de la mesurabilité d’une multi-application.
3. Nous revenons sur les notions de “boucle ouverte” et de “boucle fermée” par la suite. Le lecteur qui n’est pas familier de ces notions peut, dans un premier temps, passer cette remarque.
1.1. OPTIMISATION DANS L’INCERTAIN
1.1.2
Effet dual
De manière générale, la tribu G peut dépendre de la variable U. On parle alors de problème avec effet dual, ou encore de structure d’information dynamique. La définition suivante donne plus de précisions à ce sujet.
Définition 1.1 (Absence d’effet dual/Information statique). Le problème est dit en
in-formation statique si la tribu d’inin-formation G ne dépend pas de la commande U. On dit alors qu’on a absence d’effet dual.
Dans le cas contraire, on dit qu’on est en présence d’effet dual. Ce type de problèmes est sensiblement plus complexe que les problèmes en information statique. Supposons par exemple que l’on soit dans le cas où G := σ(h(U, W )), avec h une certaine fonction mesurable. La contrainte de mesurabilité du problème (1.1) peut alors s’écrire :
U = E (U | h (U, W )) , P-p.s.
Alors, si on souhaite utiliser des techniques variationnelles pour résoudre le problème d’optimisation, on observe que l’on doit calculer un gradient par rapport à une variable U qui est présente dans le conditionnement d’une espérance conditionnelle. Or le calcul différentiel par rapport à un conditionnement est loin d’être trivial. Pour s’en convaincre, il suffit de considérer le cas h(U, W ) = εU. Pour tout ε non nul, on a que E (U | εU) = U. Or, pour ε = 0, on a que E (U | εU) = E (U).
Ainsi, comme le montre Witsenhausen (1968) dans le cas d’un système linéaire quadra-tique gaussien, les propriétés de tels problèmes peuvent être assez éloignées des proprié-tés “habituelles”. On pourra consulter l’article de Barty, Carpentier, Chancelier, Cohen, de Lara, et Guilbaud (2006) ou encore la thèse de Strugarek (2006, Chapitre II) pour des développements récents à ce sujet.
Nous nous concentrerons par la suite sur des problèmes en information statique.
1.1.3
Problèmes en boucle ouverte
Supposons maintenant que la tribu G ne dépend pas de U. Il reste tout de même un certain nombre de possibilités pour G. Nous citons maintenant la plus simple.
Définition 1.2 (Boucle ouverte, boucle fermée). On dit que le problème (1.1) est en
boucle ouverte si :
Umes ⊂ {U ∈ U, tel que U est σ {∅, Ω}-mesurable} .
Dans le cas contraire, le problème est dit en boucle fermée.
Le cas de la boucle ouverte est donc celui où G est la tribu grossière σ{∅, Ω}. Les problèmes en boucle ouverte visent ainsi à modéliser le cas où la décision est prise sans aucune information. Autrement dit, toutes les décisions doivent être prises dès le tout premier instant, c’est-à-dire avant l’intervention de l’aléa. On cherche alors la décision réalisant le meilleur compromis entre les aléas.
À l’inverse, les problèmes en boucle fermée permettent de décrire des cas où le décideur est capable d’observer tout ou partie de l’aléa, et peut faire intervenir ces observations dans sa prise de décision. Nous nous intéressons plutôt par la suite aux problèmes en boucle fermée.
CHAPITRE 1. PRÉLIMINAIRES
Cette terminologie “boucle ouverte-boucle fermée” provient de la communauté auto-maticienne dans laquelle on peut placer celle de la commande (ou du contrôle) stochas-tique, cette communauté ayant pour vocation de traiter de problèmes dynamiques (où intervient le temps comme évoqué ci-dessous). Plus récemment, la communauté
Stochas-tic Programming, plutôt issue de celle du MathemaStochas-tical Programming ayant au départ
pour vocation de traiter de problèmes d’optimisation statiques, a redécouvert cette no-tion de “boucle fermée” (feedback) en introduisant diverses nouvelles terminologies (“avec recours”, “wait and see” par opposition à “here and now” pour la boucle ouverte).
Les problèmes en boucle ouverte sont généralement moins complexes que les problèmes en boucle fermée, notamment du fait de la nature des variables d’optimisation : dans le cas de la boucle ouverte, nous sommes à la recherche de décisions a priori, alors que dans le cas de la boucle fermée nous cherchons une décision pour chaque observation possible du système. De plus, on peut souvent utiliser des outils proches de ceux de l’optimisation déterministe, tels que le gradient stochastique (voir Robbins et Monro, 1951, Bertsekas et Tsitsiklis, 2000, ou encore Quadrat, Gousat, Hertz, et Viot, 1981, pour l’utilisation du gradient stochastique sur un problème d’investissement optimal) pour traiter les problèmes en boucle ouverte. Quand de tels problèmes sont de grande taille, on peut également adapter les méthodes de décomposition connues dans le cas déterministe (voir Cohen et Culioli, 1990).
1.1.4
Interprétation fonctionnelle
Nous montrons maintenant que le problème d’optimisation stochastique (1.1) est équi-valent, sous certaines hypothèses, à un problème d’optimisation fonctionnelle. Nous avons essentiellement besoin qu’il existe une fonction d’observation h définie sur W, à valeurs dans un espace de Hilbert Y, mesurable, telle que nous puissions écrire la variable d’ob-servation Y comme une fonction du bruit W .
Proposition 1.3 (Équivalence entre problème stochastique et problème fonctionnel).
Supposons qu’il existe une fonction mesurable h : W → Y ainsi qu’une multi-application mesurable C : W ⇒ U telles que Y = h(W ) et Γ = C(W ), P-p.s. Alors le pro-blème (1.1) est équivalent au propro-blème :
min φ∈Φad ˜ J(φ) := E (j (φ (W ) , W )) , où Φad := Φps∩Φmes et : Φps:= {φ : W → U, φ (W ) ∈ C (W ) , P-p.s.} , Φmes:= {φ : W → U, φ h} .
Démonstration. D’après l’expression (1.2), il existe une fonction mesurable p : Y → U
telle que U = p◦h(W ) (voir Dellacherie et Meyer, 1975, Chapitre 1, p. 18, pour l’existence d’une telle fonction p). Notons φ := p ◦ h. On a alors φ h. De plus, si U ∈ Ups,
alors φ ∈ Φps. L’inclusion inverse s’obtient de la même manière.
Au cours de ce manuscrit, nous userons régulièrement de l’interprétation fonctionnelle que nous venons d’expliciter. Celle-ci a en effet l’avantage de mettre en avant la dépen-dance entre les décisions et les observations. Le lien entre ces deux quantités sera appelé une stratégie, ou encore la décision sera dite en feedback sur la variable d’observation Y . Nous comprenons mieux, à l’aide de cette interprétation, que nous sommes face à des problèmes d’optimisation en dimension infinie.
1.1. OPTIMISATION DANS L’INCERTAIN
1.1.5
Problèmes à plusieurs pas de temps
On s’intéresse maintenant plus spécifiquement à des problèmes dynamiques sur un ho-rizon de temps discret et fini t0, . . . , tN = T . Soit un système dynamique sur cet intervalle
discret, caractérisé par l’équation d’évolution Xt+1 = ft(Xt, Ut, Wt+1), que l’on
appel-lera aussi la dynamique du système. Par référence à l’application plus particulièrement traitée dans ce manuscrit, on appellera souvent Xt le stock, Ut la commande et Wt le
bruit. Toutes trois sont des variables aléatoires définies sur un espace probabilisé (Ω, A, P) et à valeurs dans des espaces de Hilbert Xt, Ut et Wt, et nous considérons toujours des
commandes de carré intégrable. Partant d’un stock initial donné, on cherche à commander le système, à l’aide de U, afin de minimiser un coût qui dépend de l’évolution du stock, de la commande et du bruit sur l’horizon de temps. Enfin, au cours de l’évolution du système, des observations sont faites sur celui-ci et la commande est autorisée à en dépendre. Il est alors naturel de chercher à utiliser cette information pour définir de meilleures décisions. Ainsi, à la différence de la boucle ouverte, nous parlerons maintenant de stratégies (qui à toute observation possible du système associent une décision), plutôt que de simples décisions.
Le problème à plusieurs pas de temps s’écrit : min X,U E T −1X t=0 Ct(Xt, Ut) + K (XT) ! , (1.3a) s.c. Xt+1 = ft(Xt, Ut, Wt+1) , ∀t = 0, . . . , T − 1, (1.3b) X0 = W0, (1.3c)
Ut est σ (ht(U, W ))-mesurable. (1.3d)
Les contraintes (1.3b) et (1.3c) sont P-presque sûres. À ce modèle “simple” peuvent s’ajou-ter des contraintes supplémentaires sous différentes formes : en probabilité ou en espé-rance, que nous rencontrerons au chapitre 5, où d’autres contraintes presque-sûres, re-streignant l’ensemble des décisions possibles à chaque pas de temps, comme ce sera le cas dans les chapitres 3 et 4.
Remarque 1.2 (Bruit et processus stochastiques non commandés). Bien que les équations
dynamiques (1.3b) fassent apparaître tout à la fois le stock, la commande et le bruit, nous gardons à l’esprit qu’elles permettent de modéliser tant des processus commandés tels qu’un stock d’énergie que des processus non commandés tels qu’un prix de marché ou une demande en énergie sur lesquels nous n’aurions pas d’influence. Cependant, dans la suite de ce mémoire, nous nous concentrons plutôt sur la manière de produire des stratégies de commande que sur la modélisation des processus stochastiques.
Le processus de décision “naturel” nous impose de ne faire dépendre la décision à l’instant t que de l’information disponible à cet instant. C’est le principe de causalité : la décision à un certain instant ne peut dépendre que de réalisations d’aléas passés. Nous décrivons à nouveau les différents cas énoncés dans le cadre général pour ce problème dynamique.
Boucle ouverte On a par exemple ht(U, W ) = 0. La contrainte (1.3d) impose alors à Ut
d’être une constante. Autrement dit, la décision n’a pas la possibilité de s’adapter aux aléas ; les décisions doivent être prises dès le tout premier instant.
Mémoire parfaite C’est le cas où ht(U, W ) = (U0, . . . , Ut−1, W0, . . . , Wt). On aura
donc :
CHAPITRE 1. PRÉLIMINAIRES
On est alors dans un cas en information statique, en boucle fermée. C’est le cas sur lequel nous travaillerons tout au long de ce manuscrit.
Oubli On peut connaître un cas intermédiaire où le décideur observe tout ou partie
du système et oublie une partie de ses observations passées. Par exemple, on peut avoir ht(U, W ) = (Ut−1, Wt−1). Le décideur ne retient que sa dernière action et
la valeur de l’aléa à l’instant précédent. Ce cas est donc en boucle fermée, comme le second cas, mais en information dynamique. Nous sommes de nouveau face aux problèmes esquissés au §1.1.2.
1.2
Résolution de problèmes de commande optimale
stochastique
Nous présentons à présent quelques méthodes “classiques” permettant de traiter des problèmes d’optimisation stochastique dynamique tels que le problème (1.3). On parle encore de problèmes de commande optimale stochastique. On s’intéresse plus précisément à des problèmes en information statique et en mémoire parfaite. Au §1.2.1, nous présentons le principe de programmation dynamique qui sera utile tout au long de ce mémoire, et sur lequel nous nous attarderons de manière plus approfondie au chapitre 5. Puis, au §1.2.2, nous décrivons brièvement la méthodologie des arbres de scénarios et enfin, au §1.2.3, nous présentons les méthodes particulaires. Les deux dernières méthodes seront étudiées en détail au chapitre 2.
1.2.1
Cadre markovien : programmation dynamique
On suppose ici que le système est en mémoire parfaite. Notons At la tribu engendrée
par le passé du bruit jusqu’à l’instant t : W0, . . . , Wt, et notons Ut l’espace des variables
aléatoires définies sur (Ω, A, P), à valeurs dans Ut, de carré intégrable, et mesurables par
rapport à At. Ainsi, le problème d’optimisation s’écrit :
min X,U E T −1X t=0 Ct(Xt, Ut) + K (XT) ! , s.c. Xt+1 = ft(Xt, Ut, Wt+1) , ∀t = 0, . . . , T − 1, X0 = W0, Ut est At-mesurable.
On a alors que la commande U recherchée est, à chaque instant t, une fonction de tout le passé du bruit W0, . . . , Wt. Sans même parler d’optimisation, rien que l’évaluation d’une
telle quantité paraît difficile en pratique. Le principe de programmation dynamique est un premier pas permettant de réduire, dans certains cas, la dimension de l’espace de départ associé à la stratégie.
On appelle fonction valeur ou fonction de Bellman à l’instant t, pour tout t allant de t0
à T , la fonction Vt : Xt → R définie par :
Vt(x) := min U∈UtT −1 E T −1X s=t Cs(Xs, Us) + K (XT) Xt = x ! , ∀x ∈ X, (1.4) avec UT −1
t = Ut× · · · × UT −1 et sous les contraintes de dynamique (1.3b). Cette fonction
représente donc le coût optimal du problème, partant à l’instant t avec un stock x. Le 6
1.2. RÉSOLUTION DE PROBLÈMES DE COMMANDE OPTIMALE STOCHASTIQUE
principe de programmation dynamique donne une relation de récurrence arrière liant les fonctions de valeur aux différents pas de temps.
Théorème 1.4 (Principe de Programmation Dynamique). Supposons que les bruits sont
indépendants pas de temps par pas de temps. Alors la stratégie optimale à l’instant t ne dépend du passé du bruit qu’à travers la variable Xt, alors appelée variable d’état du
système. De plus, on a l’équation de la programmation dynamique suivante.
VT (x) = K (x) , ∀x ∈ Xt, (1.5a) Vt(x) = E min u∈Ut Ct(x, u) + Vt+1(ft(x, u, Wt+1)) , ∀x ∈ Xt, ∀t= t0, . . . , T −1. (1.5b) Ainsi, sous l’hypothèse d’indépendance des bruits (voir Remarque 1.3), le principe de programmation dynamique nous indique que la variable Xt est, à l’instant t, une
statistique suffisante pour calculer la stratégie optimale à l’instant t du problème (1.3). Ce principe a d’abord été énoncé par Bellman (1957) ; il est central en contrôle optimal et on trouve un grand nombre d’excellents ouvrages à ce sujet, dont ceux de Bertsekas (2000), Whittle (1982), Puterman (1994). On pourra également consulter les cours de Quadrat et Viot (1999), Quadrat (2007).
Remarque 1.3 (Blanchiment du bruit). Il n’y a pas a priori de raison pour laquelle les
variables aléatoires W0, . . . , WT seraient indépendantes pas de temps par pas de temps.
Cependant, il est classique en commande optimale stochastique d’avoir recours à un pro-cessus dit de blanchiment4 du bruit, qui revient à inclure dans la variable X
t
l’informa-tion suffisante pour que les bruits soient indépendants en temps. Par exemple, supposons que le bruit soit un processus réel tel que Wt+1 = αWt+ εt+1 avec εt+1 indépendant
de W0, . . . , Wt, et ce pour tout t = 0, . . . , T − 1. Dans ce cas, on posera comme “nouvelle
variable de stock” : Xft= (Xt, Wt) et comme “nouveau bruit” εt, de sorte que l’on aura
la nouvelle dynamique de “stock” :
f Xt+1 := Xt+1 Wt+1 = ft(Xt, Ut, αWt+ εt+1) αWt+ εt+1 .
Les variables aléatoires W0, ε1, . . . , εT qui constituent le “nouveau” processus de bruit
sont maintenant indépendantes en temps. Cette procédure de blanchiment fait qu’au plus, si Wt+1 dépend de tout la passé du bruit, on devra inclure tout le passé du bruit dans la
variable X. Ainsi, quitte à devoir préalablement blanchir le processus de bruit, on peut supposer l’indépendance en temps des bruits.
L’équation de la programmation dynamique nous donne un moyen de calculer les fonctions valeur ainsi que les stratégies optimales de manière rétrograde. Remarquons qu’en parallèle de la résolution de cette équation, on obtient la stratégie optimale comme une fonction de Xt à l’instant t. Il s’agit d’un grand pas en avant en terme de complexité
par rapport au problème initial car il nous indique qu’on peut rechercher la stratégie optimale comme une fonction de la variable Xt et non plus de tout le passé du bruit. Or,
4. Le terme blanchiment est quelque peu abusif au sens où il fait référence à la notion de processus de bruit blanc en statistique. Or ceux-ci sont non seulement indépendants en temps, mais sont de plus centrés réduits.
CHAPITRE 1. PRÉLIMINAIRES
la dimension de l’espace Xtest en général constante en temps. On appelle maintenant Xt
la variable d’état du système : elle résume l’information nécessaire à la prise de décision optimale.
Cependant, la résolution de cette équation ne peut en général pas se faire de manière analytique et il est nécessaire de trouver un moyen de représenter les fonctions valeur sur un ordinateur. On a typiquement recours à une discrétisation de l’espace Xt. On représente
alors la fonction de Bellman par sa valeur en chaque point d’une grille suffisamment fine sur l’espace Xt. Or, la complexité d’une telle procédure dépend clairement de manière
exponentielle de la dimension de l’espace d’état. Cette propriété est connue sous le nom de malédiction de la dimension (curse of dimensionality en anglais). Bien qu’il soit difficile de donner une barrière absolue, il est généralement impossible de traiter numériquement des problèmes dont la dimension de l’état dépasse 5, environ. Citons tout de même les récents résultats de Vezolle, Vialle, et Warin (2009) qui permettent de repousser quelque peu cette barrière, en tirant parti du calcul parallèle.
Plusieurs développements récents proposent des approximations de la fonction valeur permettant de faire face, dans certains cas, à la malédiction de la dimension. Parmi elles on peut citer la programmation dynamique approximée, qui est une idée originale de Bellman et Dreyfus (1959), et qui consiste à rechercher les fonctions valeur à chaque instant comme des combinaisons linéaires de fonctions de base choisies à l’avance. On évite ainsi le calcul et le stockage de la fonction sur une grille. Un grand nombre de travaux sont consacrés à cette méthode (voir, parmi d’autres, de Farias et Van Roy, 2003, Longstaff et Schwartz, 2001, Tsitsiklis et Van Roy, 1999). On pourra également consulter à ce sujet les ouvrages de Bertsekas et Tsitsiklis (1996) ou de Powell (2007). L’inconvénient de ce type de méthodes reste qu’il faut choisir a priori une base de fonctions avec laquelle approcher la fonction valeur. Or, nous n’avons généralement que peu d’idées sur la forme de celle-ci.
Il faut également noter que l’équation de programmation dynamique ne peut être directement mariée aux techniques de décomposition de grands systèmes bien connues dans le cadre déterministe (voir le cours de Cohen, 2004, et le §3.1). En effet, en utilisant de telles techniques, on est capable de décomposer l’espace des commandes Ut, qui est l’espace
d’arrivée des stratégies que nous recherchons. Mais la complexité liée à la résolution de l’équation de programmation dynamique provient plutôt de la dimension de l’espace de départ, qui est l’espace d’état Xt. Or, la dimension de ce dernier n’est pas diminuée à
l’issue de l’application d’une technique de décomposition.
Dans le chapitre 3, nous proposerons une manière de lier programmation dynamique et décomposition qui peut, parce qu’elle contraint la variable de décomposition à appartenir à une certaine classe a priori, rappeler la programmation dynamique approximée. C’est d’ailleurs la raison pour laquelle nous avons choisi, pour l’algorithme en question, le nom de Dual Approximate Dynamic Programming.
1.2.2
Arbres de scénarios
Comme le montre Barty (2004) dans sa thèse, lorsque l’on souhaite discrétiser un pro-blème d’optimisation stochastique dynamique, il faut bien comprendre que l’on s’attaque à deux objets probabilistes de natures différentes, qui peuvent éventuellement être traités séparément :
1. l’espérance présente dans le critère, qui est généralement estimée par Monte-Carlo ; 2. les contraintes de mesurabilité, qui sont elles plus délicates à traiter.
1.2. RÉSOLUTION DE PROBLÈMES DE COMMANDE OPTIMALE STOCHASTIQUE
t
0 1 2 3 4
Figure 1.1 – Construction d’un arbre de scénarios
L’étude de la discrétisation de ces objets, et notamment de la contrainte de mesurabilité, a fait l’objet de plusieurs articles, dont ceux de Pennanen (2005), Carpentier, Chancelier, et De Lara (2009a), Heitsch, Römisch, et Strugarek (2006). Dans le cas de plusieurs pas de temps, en mémoire parfaite, la méthodologie “arbres de scénarios”, sur laquelle s’appuie la communauté Stochastic Programming, propose de discrétiser ces deux objets à la fois en utilisant des chroniques organisées en scénarios arborescents. Ceci n’est possible qu’en information statique. Nous présentons informellement leur mise en œuvre en nous appuyant sur le schéma de la figure 1.1.
On se donne un ensemble d’échantillons de la variable aléatoire W , c’est-à-dire for-mellement un ensemble de variables aléatoires W1, . . . , WN i.i.d. de même loi que W .
Dans la figure 1.1, nous avons choisi N = 5 et un horizon de 5 pas de temps, les processus étant symbolisés par les petits cercles reliés par des pointillés. Le fait de choisir un échan-tillon de taille N correspond à une estimation de type Monte-Carlo. Afin de représenter la contrainte de non-anticipitivité (1.3d), on regroupe ces scénarios sur la base de leur passé commun, en utilisant une distance ad hoc (voir Heitsch et al., 2006). Les rectangles gris constituent ces classes. Puis, on choisit un représentant parmi les différents échantillons de bruit à cet instant. Nous avons maintenant une structure arborescente qui est représentée par les traits gras, le représentant de chaque classe étant le point par lequel passe ce trait. À chaque nœud de l’arbre correspond un passé unique ; on définit une variable de stock et une variable de commande en chaque nœud. Puis on réécrit l’ensemble des contraintes du problème (1.3) sur cet arbre, ainsi que la fonction objectif5. Le problème ainsi posé, bien
“qu’indexé” par le tirage d’échantillons du bruit effectué, est maintenant un problème de programmation mathématique “classique”. On le résout alors par une méthode ad hoc et on obtient des valeurs optimales pour la commande et pour le stock en chaque nœud, ainsi que la valeur du problème sur l’arbre qui se veut être une estimation de la valeur du problème de départ.
Cette méthodologie a un certain nombre d’avantages, parmi lesquels la simplicité de sa mise en œuvre. De plus, une fois l’arbre construit, on a à notre disposition tous les outils de l’optimisation mathématique “classique” (programmation linéaire, techniques variationnelles) pour résoudre le problème discrétisé. On peut, en particulier, faire appel aux techniques dé décomposition (voir le §3.1.3 pour un état de l’art).
CHAPITRE 1. PRÉLIMINAIRES
Mais on entrevoit aussi l’une des difficultés d’une telle méthodologie dans le cadre de la commande optimale : elle ne fournit pas (directement) de solution sous forme de stratégie. On peut bien sûr chercher à interpoler les valeurs de commande obtenues en chaque nœud, mais cela amène, comme nous le montrerons dans le chapitre 2, à des contrôles de mauvaise qualité. Nous revenons, lors de ce chapitre, plus en détails sur la mise en œuvre des arbres de scénarios.
Enfin, il faut garder à l’esprit que les arbres de scénarios constituent une méthode stochastique de résolution, en ce sens qu’ils fournissent une solution qui dépend du tirage de scénarios effectué pour construire l’arbre. Cela rend l’évaluation de la qualité de la solution plus délicat (il faut souvent faire un grand nombre d’expériences indépendantes pour évaluer l’erreur).
Pour plus de précisions, notamment concernant les résultats de convergence de telles méthodes d’échantillonnage, on renvoie le lecteur vers l’ouvrage de Birge et Louveaux (1997) ou le recueil de Shapiro, Dentcheva, et Ruszczyński (2009) pour une vision générale de la programmation stochastique, ou encore vers les travaux de Pflug (2001), Heitsch et Römisch (2003), Dupačová, Gröwe-Kuska, et Römisch (2003) pour la construction et la réduction des arbres de scénarios.
1.2.3
Méthodes particulaires
Nous présentons maintenant une autre manière de considérer la résolution de pro-blèmes de commande optimale stochastique. Suivant une approche de type variationnel, nous décrivons des conditions d’optimalité d’ordre 1, c’est-à-dire faisant intervenir le gra-dient de la fonction objectif et des contraintes. La présentation faite ici s’appuie sur les travaux de Barty (2004) et de Dallagi (2007).
Conditions d’optimalité
Oublions un instant la structure dynamique du problème pour considérer à nouveau le problème (1.1). Supposons qu’un aléa survienne et soit observé (éventuellement en partie seulement). Au regard de cette observation, une décision est prise. Un coût est alors infligé au système, dépendant des valeurs de l’aléa et de la décision prise. La commande peut être généralement soumise à deux types de contraintes : des contraintes “ponctuelles” et des contraintes d’information. Nous rappelons le problème (1.1).
min
U∈U
E(j (U, W )) s.c. U ∈ Ups∩ Umes.
Nous cherchons des conditions d’optimalité pour le problème (1.1). Nous rappelons ici le cheminement amenant à celles-ci, dont on trouvera une étude plus détaillée dans la thèse de Dallagi (2007, Chapitre II) ou bien dans l’article de Carpentier, Cohen, et Dallagi (2009b). Pour énoncer des conditions d’optimalité, il va falloir nous intéresser à la projection sur l’ensemble Ups∩ Umes. Un premier lemme nous indique que nous pouvons
effectuer la projection de la commande sur l’ensemble des contraintes ponctuelles “ω par ω”.
Lemme 1.5 (Dallagi, 2007, Lemme II.5). Soit Γ : Ω ⇒ U une multi-application
mesurable, à valeurs convexes fermées. Le sous-ensemble Ups ⊂ U défini par :
Ups:= {U ∈ U, U ∈ Γ, P-p.s.} ,
1.2. RÉSOLUTION DE PROBLÈMES DE COMMANDE OPTIMALE STOCHASTIQUE est un convexe fermé de U et on a que :
(ΠUps(U)) (ω) = ΠΓ(ω)(U (ω)) , P-p.s.
Le résultat que nous présentons maintenant s’intéresse à la manière de projeter sur l’intersection des contraintes ponctuelles et des contraintes de mesurabilité.
Lemme 1.6 (Dallagi, 2007, Lemme A.6). Soit Ups un convexe fermé de U et Umes un
sous-espace fermé de U tels que ΠUps(Umes) ⊂ Umes. Alors :
ΠUps∩Umes = ΠUps◦ΠUmes.
À l’aide de ces outils, on peut énoncer une condition nécessaire d’optimalité d’ordre 1 pour le problème (1.1). Nous faisons référence à l’article de Hiriart-Urruty (1982) pour les conditions d’optimalité associées à des problèmes de minimisation d’une fonction in-tégrable dans un cadre non-différentiable.
Proposition 1.7 (Dallagi, 2007, Proposition II.4). Supposons que :
1. la multi-application Γ : Ω ⇒ U, qui permet de définir l’ensemble Ups des contraintes
ponctuelles, est G-mesurable à valeurs convexes fermées ; 2. G ⊂ A ;
3. j(·, W ) est C1(U) P-p.s. ; 4. j est s.c.i. sur U × W ; 5. j′
u(U, W ) ∈ U, ∀U ∈ U.
Si U∗ est solution de (1.1), alors :
E(j′(U∗, W) | Y ) ∈ −∂χUps(U∗) .
On peut réécrire cette condition d’optimalité à l’aide d’une projection sur l’ensemble admissible Ups :
∃ε >0, U = ΠUps(U − εE (∇J (U) | Y )) ,
qui peut se faire, à l’aide du lemme 1.5, “ω par ω”. L’idée des méthodes particulaires est de déduire de ces conditions un algorithme de gradient.
Nous spécifions maintenant cette condition d’optimalité au cas dynamique qui nous intéresse dans cette étude. Soit, pour tout t = 0, . . . , T − 1, At := σ (W0, . . . , Wt). On
rappelle le problème de commande optimale stochastique (1.3) qui nous intéresse6 :
min X∈X ,U ∈U E T −1X t=0 Ct(Xt, Ut) + K (XT) ! s.c. X0 = W0, Xt+1= ft(Xt, Ut, Wt+1) , ∀t= 0, . . . , T − 1, Ut At, ∀t = 0, . . . , T − 1, Ut∈ Utps, ∀t= 0, . . . , T − 1.
Si on spécifie la proposition 1.7 au problème dynamique, on obtient le résultat suivant :
Proposition 1.8. Si :
CHAPITRE 1. PRÉLIMINAIRES – Ups
t est un sous-ensemble convexe fermé de Ut;
– les coûts et les dynamiques du problème sont de classe C1 et de carré intégrable ; – Γps
t est At-mesurable, pour tout t = 0, . . . , T − 1,
Alors il existe un processus aléatoire Λ, où Λt est élément de L2(Ω, A, P ; Xt), tel que :
X0 = W0, (1.6a) Xt+1 = ft(Xt, Ut, Wt+1) , (1.6b) ΛT = ∇K (XT) , (1.6c) Λt= ∂Ct ∂x (Xt, Ut) ⊤+ E ∂ft ∂x (Xt, Ut, Wt+1) ⊤Λ t+1 At ! , (1.6d) ∂Ct ∂u (Xt, Ut) ⊤+ E ∂ft ∂u (Xt, Ut, Wt+1) ⊤Λ t+1 At ! ∈ −∂χUps t (Ut) . (1.6e)
La démonstration est donnée par Dallagi (2007, Théorème II.16). Le processus aléa-toire Λ, qui est de la même dimension que l’état, est appelé l’état adjoint.
L’état adjoint représente la sensibilité du coût optimal à une variation infinitésimale de l’état. À l’aide de cette interprétation économique on comprend bien l’équation (1.6c), puisqu’arrivé au dernier pas de temps, une variation infinitésimale de l’état de système n’aurait d’autre effet que celui de faire varier le coût au dernier pas de temps. À l’image de l’équation de programmation dynamique7, on a naturellement une relation rétrograde en
temps liant l’état adjoint à un certain instant à son successeur : l’influence d’une variation infinitésimale de l’état à l’instant t se ressent à la fois à travers le coût à l’instant t mais également à travers les coûts futurs, du fait de la dynamique de l’état (1.3b).
On peut obtenir à partir de (1.6) des conditions spécifiques au cadre markovien. On suppose, comme pour le principe de programmation dynamique, que les bruits sont indé-pendants pas de temps par pas de temps. On peut alors, sous des hypothèses essentielle-ment similaires à celles de la proposition 1.8 (voir Carpentier et al., 2009b, Théorème 2.6), réécrire les conditions d’optimalité (1.6) de la façon suivante. On a les dynamiques pro-grades :
X0 = W0, (1.7a)
Xt+1= ft(Xt, Ut, Wt+1) , (1.7b)
les dynamiques rétrogrades :
ΛT = ∂CT ∂x (XT, UT) ⊤ , (1.7c) Λt = ∂Ct ∂x (Xt, Ut) ⊤+ E ∂ft ∂x (Xt, Ut, Wt+1) ⊤Λ t+1 Xt ! , (1.7d)
et la condition sur le gradient :
∂Ct ∂u (Xt, Ut) ⊤+ E ∂ft ∂u (Xt, Ut, Wt+1) ⊤Λ t+1 Xt ! ∈ −∂δUtps(Ut) . (1.7e)
7. Il existe bien sûr, sous certaines hypothèses, un lien étroit entre l’équation de la programmation dynamique et les conditions d’optimalité (1.6). Ce lien est très clairement mis en évidence par Bertsekas (2000).
1.2. RÉSOLUTION DE PROBLÈMES DE COMMANDE OPTIMALE STOCHASTIQUE
On a donc qu’à l’optimum, conditionner par rapport à l’état optimal Xt, tel que c’est
le cas dans les équations (1.7d) et (1.7e), revient à conditionner par rapport au passé du bruit. Il faut cependant être attentif au fait que le gradient mis en évidence dans la relation (1.7e) n’est un gradient qu’à l’optimum.
Méthodes particulaires
Il existe plusieurs versions de méthodes particulaires, qui correspondent aux différentes versions des conditions d’optimalité (nous venons d’en citer deux). Elles diffèrent dans leur mise en œuvre ainsi que dans leur complexité, mais consistent toutes en une discrétisa-tion de condidiscrétisa-tions d’optimalité, à l’aide de scénarios que l’on appelle ici particules. Nous introduisons la version qui nous servira au cours du chapitre 2, que l’on appelle version markovienne adaptée, ou encore “espérance du gradient, espérance de l’état adjoint”.
On se donne N variables aléatoires W1, . . . , WN i.i.d. de même loi que W , que nous
appelons échantillons de W . La méthode particulaire est une méthode itérative qui calcule de manière prograde des particules d’état, pour tout i = 1, . . . , N :
Xit+1 = ft
Xit, Uit, Wit+1, (1.8a)
Xi0 = Wi0, (1.8b)
de manière rétrograde des particules d’état adjoint :
Λi T = K′ XiT, (1.8c) Λi t= 1 N N X j=1 ∂Ct ∂x Xit, Uit+Λ˜i,jt+1⊤ ∂ft ∂x Xit, Uit, Wjt+1 ! , (1.8d) et cherche à vérifier, à l’issue du processus itératif, la condition sur le gradient :
N X j=1 ∂Ct ∂u Xit, Uit +Λ˜i,jt+1⊤∂ft ∂u Xit, Uit, Wjt+1 ! ∈ −∂χUtps Uit, (1.8e)
où ˜Λi,jt+1 est une estimation de la variable aléatoire EΛt+1| Xt= ft(Xit, Uit, W j t+1)
à l’aide des échantillons de la variable d’état (Xi
t+1)i et de l’état adjoint (Λit+1)i.
La procédure est la suivante. Supposons que l’on ait des particules de commande Ui t.
1. On propage l’état en utilisant les dynamiques (1.8a) et les particules de commande courantes.
2. On propage l’état adjoint en utilisant les dynamiques (1.8d), les particules d’état que nous venons de calculer, et les particules de commande courantes.
3. On calcule les particules de gardient :
Git = N X j=1 ∂Ct ∂u Xit, Uit+Λ˜i,jt+1⊤ ∂ft ∂u Xit, Uit, Wjt+1 ! .
4. On met à jour les particules de commande par la règle :
Uit+= ΠUps
t
h
Uit− ρ × Giti,
CHAPITRE 1. PRÉLIMINAIRES
Ainsi, si la méthode particulaire converge, on a trouvé une stratégie qui vérifie les condi-tions (1.8). Au cours de cette procédure, on a à chaque pas de temps N particules d’état et de commande qui permettent, à l’aide d’opérateurs de régression, de synthétiser un contrôle sous la forme d’un feedback sur l’état X. Contrairement à la programmation dynamique, on n’opère des calculs que pour un nombre N fixé de valeurs possibles d’état. Or, pour certains types de problèmes, même en grande dimension, il y a lieu de penser que l’état optimal se concentre dans certaines régions de l’espace. Nous observerons par exemple cette propriété dans les exemples numériques des chapitres 2 et 4.
Nous reviendrons en détail sur la mise en œuvre de cette méthode au §2.3, en particulier sur la manière dont sont effectuées les opérations de régression sur l’état adjoint.
1.3
Organisation du mémoire
On présente maintenant le plan du reste du mémoire. Au cours du chapitre 2, nous nous intéressons à la comparaison de deux méthodes numériques basées sur l’usage de scénarios pour discrétiser les problèmes d’optimisation stochastique dynamique : les arbres de scénarios et les méthodes particulaires. Après avoir défini une notion d’erreur pour des lois de commande, nous montrons que les stratégies issues des méthodes particulaires “souffrent” moins d’un accroissement de l’horizon de temps que les arbres de scénarios. Ce constat rend les premières plus adaptées que les secondes aux problèmes dynamiques. Partant du constat que, même avec les méthodes particulaires, nous faisons toujours face à la malédiction de la dimension inhérente aux problème de commande optimale8,
nous adaptons dans le chapitre 3 des résultats bien connus dans le cas déterministe, concer-nant la décomposition des grands systèmes, au cas de la boucle fermée. Cette application n’est pas directe et nécessite d’approcher la variable duale qui est, dans le cadre de notre étude, un processus stochastique. Nous proposons un algorithme qui permet de construire des lois de commande pour des problèmes de grande taille, et étudions sa convergence. Nous traitons ensuite, au chapitre 4, un tel problème à l’aide de l’algorithme proposé. Ce problème de gestion dynamique de portefeuille consiste à placer la production d’un grand nombre de réserves d’énergie à un horizon pluri-annuel, tout en garantissant l’équilibre production-demande du système à chaque instant, le tout devant se faire au moindre coût. Enfin, au chapitre 5, nous étudions une propriété structurelle des problèmes d’optimi-sation dynamique : la consistance dynamique. Après avoir défini de façon informelle cette notion, qui n’est pas nouvelle mais qui a suscité beaucoup d’intérêt dans la littérature récente, nous dressons un parallèle avec le concept de structure d’état, concept central en commande optimale. Cela nous permet de montrer, pour une classe assez importante de problèmes d’optimisation stochastique dynamique, que l’on peut toujours bénéficier de cette propriété, quitte à changer la variable d’état du système.
Remarque 1.4. Un travail dont nous ne parlerons pas ici a pour autant fait l’objet d’un
article publié pendant la durée de la thèse dans la revue Monte Carlo Methods and
Ap-plications (Barty, Girardeau, Roy, et Strugarek, 2008). Il s’agit d’une application de la
méthode du gradient stochastique en boucle fermée proposée par Barty, Roy, et Strugarek (2007) à un problème de mathématiques financières : la valorisation d’options américaines. Cela avait fait l’objet d’une partie de mon stage de césure, encadré par Kengy Barty, Jean-Sébastien Roy et Cyrille Strugarek, au sein du département OSIRIS d’EDF R&D, alors
8. même si elle ne se présente pas tout à fait de la même façon dans le cas des méthodes particulaires que dans le cas de la programmation dynamique
1.3. ORGANISATION DU MÉMOIRE