• Aucun résultat trouvé

CHAPITRE 2 ÉTAT DE L’ART

2.4 Programmation dynamique stochastique

2.4.1 Principes de base de la programmation dynamique stochastique

La PD permet d’identifier la « meilleure séquence de décisions » pour passer d’un stade 𝑡 à un autre jusqu’à la fin de l’horizon de gestion 𝑇. Pour identifier les décisions à chaque stade, le bénéfice 𝐵𝑡 associé à la décision prise pour passer d’un stade 𝑡 à un autre ainsi qu’aux stades subséquents doit être calculé. Comme l’illustrent les équations (1a) – (1d), la fonction 𝑓𝑡(∙)

représentant le bénéfice global de la séquence de décisions du stade 𝑡 jusqu’à la fin de l’horizon de gestion 𝑇 dépend donc du bénéfice associé aux décisions à chacun des stades sur cet horizon.

𝑓𝑡(∙) = 𝐵𝑡+ 𝑓𝑡+1(∙) 𝑓𝑡+1(∙) = 𝐵𝑡+1+ 𝑓𝑡+2(∙) (… ) 𝑓𝑇−1(∙) = 𝐵𝑇−1+ 𝑓𝑇(∙) 𝑓𝑇(∙) = 𝐵𝑇 (1a) (1b) (1c) (1d) Dans le cas simplifié de la gestion d’un réservoir unique, chaque stade 𝑡 représente une période de temps définie, un pas de temps variant de quelques heures à plusieurs mois, dépendamment du système modélisé. L’état du système à une période 𝑡 peut être caractérisé par le volume 𝑠𝑡 contenu dans celui-ci et la variable décisionnelle peut être caractérisée par le soutirage 𝑣𝑡 (voir Figure 6). De plus, à cause des aléas météorologiques, les volumes d’apport naturels 𝑞𝑡 pour les périodes futures ne peuvent pas être prévus avec certitude. Cette particularité complexifie l’identification de règles de gestion optimales.

Figure 6 - Représentation schématique d'un réservoir simple

Lorsque les apports sont aléatoires d’une période à l’autre et qu’ils répondent à un processus stochastique, le problème d’optimisation peut être résolu à l’aide de la programmation dynamique stochastique (PDS). La PDS appliquée à la gestion de réservoirs considère de multiples valeurs discrètes de volume d’apport (𝑞𝑡), de multiples valeurs discrètes de volume

dans la réserve (𝑠𝑡) ainsi que leurs probabilités d’occurrence à chaque pas de temps 𝑡 (Loucks et coll., 2005). L’état du système est donc caractérisé par deux variables distinctes, 𝑠𝑡 et 𝑞𝑡. Comme la valeur du volume d’apport à chaque stade 𝑞𝑡 est incertaine, la résolution du problème d’optimisation dans son ensemble implique l’utilisation de probabilités. Si le volume d’apport 𝑞𝑡 peut prendre jusqu’à 𝐼 valeurs discrètes différentes lors d’un stade 𝑡, alors la probabilité que la variable 𝑞𝑡 soit égale à la valeur discrète 𝑞𝑡,𝑖 (où 𝑖 = [1,2 … , 𝐼]) s’exprime de la façon suivante :

𝑃𝑟𝑡,𝑖 = 𝑃𝑟(𝑞𝑡 = 𝑞𝑡,𝑖) (2)

Sachant que, pour un stade 𝑡 donné :

∑ 𝑃𝑟𝑡,𝑖 𝐼

𝑖=1

= 1 (3)

Or, si la valeur du volume d’apport 𝑞𝑡 est incertaine à chaque stade, la valeur du bénéfice global maximal ne peut elle non plus être connue avec certitude. La fonction-objectif que l’on cherche à optimiser doit alors s’exprimer en fonction de l’espérance du bénéfice maximal. On cherche ainsi à identifier, à chaque stade, la décision sur le soutirage 𝑣𝑡 qui permet d’obtenir la valeur la plus élevée du bénéfice probable. Dans le cas d’un réservoir simple, la fonction-objectif s’exprimera de la façon suivante :

𝑀𝑎𝑥 E [∑ 𝐵𝑡(𝑠𝑡, 𝑣𝑡) 𝑇

𝑡=1

] (4)

Pour résoudre ce problème d’optimisation dans son ensemble à l’aide de la PDS, la méthode de résolution récursive détaillée précédemment doit être adaptée afin de répondre à l’utilisation de probabilités. Les sous-problèmes d’optimisation à chaque stade 𝑡 peuvent alors s’exprimer de la façon suivante :

𝑓𝑡(𝑠𝑡) = E𝑞 𝑡[𝑔𝑡(𝑠𝑡, 𝑞𝑡)] = ∑ 𝑃𝑟𝑡,𝑖 𝐼 𝑖=1 𝑔𝑡,𝑖(𝑠𝑡, 𝑞𝑡,𝑖) (5) où : 𝑔𝑡,𝑖(𝑠𝑡, 𝑞𝑡,𝑖) = 𝑚𝑎𝑥{𝐵𝑡(𝑠𝑡, 𝑣𝑡) + 𝑓𝑡+1(𝑠𝑡+1)} (6)

De façon générale, la résolution du problème d’optimisation dans son ensemble s’effectue donc en résolvant l’équation récursive suivante :

𝑓𝑡(𝑠𝑡) = E[𝑚𝑎𝑥{𝐵𝑡(𝑠𝑡, 𝑣𝑡) + 𝑓𝑡+1(𝑠𝑡+1)}] (7) Les apports suivant le dernier pas de temps de l’horizon de gestion (pour 𝑡 > 𝑇) ne sont pas connus avec certitude. Il est donc souvent difficile d’évaluer le volume souhaité dans le réservoir au dernier pas de temps de l’horizon de gestion (𝑠𝑇). Or, la résolution récursive du problème d’optimisation de PDS nécessite malgré tout la connaissance de la fonction de valeur de l’eau 𝑓𝑇+1(𝑠𝑇+1) après le dernier stade. Un nombre 𝑋 d’itérations récursives peut alors être exécuté pour permettre d’identifier des règles de soutirage qui assurent un volume adéquat dans le réservoir pour un horizon 𝑡 > 𝑇. Avec cette technique, une première itération est exécutée en utilisant un volume (𝑠𝑇+1) fixé par l’utilisateur en fin d’horizon. Les valeurs de l’eau au premier pas de temps (𝑓𝑡=1) obtenues après la résolution de la première itération récursive sont alors appliquées au dernier pas de temps de la seconde itération :

𝑓𝑇+1

𝑥=2(𝑠𝑇+1) = 𝑓𝑥=11 (𝑠1) (8)

Une fois la seconde itération récursive effectuée, les valeurs de l’eau au premier pas de temps 𝑓1

𝑥=2sont appliqués au dernier pas de temps de la troisième itération et ainsi de suite jusqu’à ce que, après un nombre 𝑋 d’itérations, la différence entre deux itérations soit inférieure au critère défini par l’utilisateur.

2.4.2 Utilisation d’une variable hydrologique

Pour améliorer le modèle d’apports (en diminuant les incertitudes sur ceux-ci), une information complémentaire permettant de définir l’état du système peut être intégrée au système d’équations. Dans un problème de PDS appliqué à la gestion de barrage, cette seconde variable d’état permet d’émettre une hypothèse sur la distribution de la valeur probable du volume d’apport 𝑞 au pas de temps subséquent. Comme la valeur du volume d’apport à un pas de temps donné dépend de facteurs à la fois météorologiques et hydrologiques associés au système étudié, l’état du système peut donc être caractérisé à l’aide d’une « variable hydrologique ».

À un pas de temps 𝑡 donné, la probabilité 𝑃𝑟𝑡,𝑖 que le volume d’apport 𝑞𝑡 prenne l’une des valeurs discrètes 𝑞𝑡,𝑖 s’évalue à partir de la valeur de la variable hydrologique ℎ𝑡 au début du pas de temps considéré. À chaque stade 𝑡, la variable hydrologique ℎ𝑡 peut prendre jusqu’à 𝐽 valeurs discrètes différentes. Pour une valeur discrète donnée de la variable hydrologique ℎ𝑡,𝑗, on évalue la probabilité conditionnelle que le volume d’apport prenne une valeur discrète 𝑞𝑡,𝑖 de la façon suivante :

𝑃𝑟𝑡,𝑖|𝑗 = 𝑃𝑟(𝑞𝑡= 𝑞𝑡,𝑖|ℎ𝑡 = ℎ𝑡,𝑗) (9) De plus, la transition de ℎ𝑡 à ℎ𝑡+1 est généralement stochastique aussi. Dans te tels cas, pour chaque combinaison possible (𝑞𝑡,𝑖, ℎ𝑡,𝑗), des probabilités conditionnelles pour la valeur de la variable hydrologique ℎ𝑡+1,𝑘 au pas de temps suivant sont évaluées :

𝑃𝑟𝑘|𝑞𝑡,ℎ𝑡 = 𝑃𝑟(ℎ𝑡+1 = ℎ𝑡+1,𝑘|𝑞𝑡, ℎ𝑡) (10)

Cette relation ne s’applique cependant pas lorsque la transition de ℎ𝑡 vers ℎ𝑡+1 est déterministe. Dans le cas de l’équation 10, notons que, pour chaque combinaison possible de variable hydrologique et de volume d’apport (ℎ𝑡,𝑗, 𝑞𝑡,𝑖) au stade étudié, les probabilités 𝑃𝑟𝑘|ℎ𝑡,𝑞𝑡 d’obtenir une valeur discrète particulière de la variable hydrologique ℎ𝑡+1 au stade suivant peuvent être différentes. La combinaison des équations 5 et 6 en tenant compte de ces probabilités conditionnelles devient donc :

𝑓𝑡(𝑠𝑡, ℎ𝑡) = ∑ max {𝐵𝑡+ E

𝑡+1|ℎ𝑡,𝑞𝑡[𝑓𝑡+1(𝑠𝑡+1, ℎ𝑡+1)]}

𝐽

𝑗=1

× Pr(𝑞𝑡 = 𝑞𝑗,𝑡|ℎ𝑡) (11)

De façon générale, lorsque les apports de la période 𝑡 sont supposés connus, la résolution du problème d’optimisation dans son ensemble s’effectue donc en résolvant l’équation récursive suivante :

𝑓𝑡(𝑠𝑡, ℎ𝑡) = 𝐸

𝑞𝑡|ℎ𝑡(𝑚𝑎𝑥𝑢𝑡, 𝑣𝑡{𝐵𝑡+ℎ𝑡+1𝐸|ℎ𝑡,𝑞𝑡[𝑓𝑡+1(𝑠𝑡+1, ℎ𝑡+1)]})

(12)

Le soutirage optimal 𝑣𝑡 identifié pour chaque combinaison discrète possible (𝑠𝑡, ℎ𝑡,𝑗, 𝑞𝑡,𝑖), à chaque pas de temps 𝑡, définit la politique de gestion décrite sous forme de tableaux liant les soutirages aux volumes, apports et variables hydrologiques caractérisant le système à résoudre.