• Aucun résultat trouvé

III.2 Sélection d’une approche mathématique

IV.1.2 Étude de la forme des solutions

Le modèle SPC MDP est particulièrement intéressant en ce qu’il n’est pas réductible à un MDP simple : il n’existe pas de fonctions ou d’algorithmes permettant de transformer un problème SPC MDP en un problème MDP, de résoudre ce problème MDP, puis de transformer à nouveau cette solution dans l’espace du SPC MDP d’origine pour obtenir une solution du SPC MDP. Ce résultat est énoncé dans le théorème suivant, et les paragraphes suivants vont en particulier être consacrés à prouver ce théorème au travers de l’étude d’un contre-exemple :

Théorème 3 (Non inclusion de SPC MDP dans MDP)

La classe de problème SPC MDP n’est pas incluse dans la classe de problème MDP. A fortiori, la classe de problème PCMDP n’est pas incluse dans la classe de problème MDP.

Ce résultat est important puisqu’il nous permet d’étudier de façon univoque dans quelle mesure les algorithmes de résolution existants s’appliquent : toute classe de problème pouvant se ramener à la résolution d’un MDP est incluse strictement dans la classe SPC MDP, et ses algorithmes ne sont donc pas suffisants pour résoudre des problèmes SPC MDP.

CHAPITRE IV. SATURATED PATH CONSTRAINED MDP

Pour prouver le théorème (Théorème 3 page 79), nous allons montrer dans les paragraphes suivants que de nombreuses démonstrations et résultats que nous avions dans le cas de MDP ne sont plus valables ici. Nous montrerons ainsi que la réduction classique du problème MDP à la résolution de l’équation de Bellman n’est plus valide, en particulier puisqu’il n’est plus possible de se ramener aux seules politiques déterministes ; nous verrons ensuite en quoi la définition même d’optimalité peut ne pas avoir de sens telle qu’elle est définie pour des processus décisionnels markoviens.

Invalidation du résultat classique sur les politiques déterministes

L’un des principaux résultats appliqué traditionnellement dans la résolution des MDP est qu’il est possible de se réduire aux seules politiques déterministes : en effet, il est possible de prouver que pour toute politique stochastique il existe au moins une politique déterministe de valeur supérieure ou égale ; trouver une politique stochastique optimale peut donc se réduire à trouver une politique déterministe optimale. À titre de rappel, une politique stochastique est une politique où un jet aléatoire doit être effectué dans chaque état pour déterminer l’action à prendre (Définition 18 page 24).

À l’inverse, dès lors qu’on ajoute des contraintes PCTL cette propriété n’est plus valide, comme le prouve le contre-exemple suivant :

On considère un système à deux états, A l’état initial et F ; comme sur le schéma ci-après, on définit deux actions a1 et a2 donnant respectivement des récompenses de +1 et 0. On y ajoute la contrainte PCTL d’état obligatoire disant qu’on doit nécessairement arriver dans l’état F avec une probabilité 1 : trueU

=1f où f est une fonction booléenne sur les états valant uniquement vrai dans l’état F . Un tel modèle défini donc un SPC MDP minimal.

On remarque qu’il n’existe qu’une seule politique déterministe valide : celle qui consiste à choisir a2 en A. On remarque aussi que toute politique stochastique avec π(A, a2) > 0 est valide : la probabilité à un instant t donné qu’on soit en F étant

Pr(st+1= F ) = Pr(st= F ) + Pr(st= A) ∗ π(A, a2) = (1 − π(A, a2)) ∗ Pr(st= F ) + π(A, a2) donc (suite arithmético-géométrique) on obtient :

Pr(st= F ) = 1 − (1 − π(A, a2))tt→∞1

La seule politique stochastique non valide est celle choisissant a1 en A. Comme toute politique ayant π(A, a1) > 0 a une valeur Vπ

γ(A) > 0, la politique déterministe valide (choisissant toujours a2) n’est pas optimale, elle est même la "moins bonne" de toutes les politiques valides.

A F a1 +1 a2 0 e 0

F i g u r e 13 – Contre-exemple : plusieurs politiques stochastiques sont supérieures aux politiques déterministes valides

Le contre-exemple précédent nous montre bien que la réduction aux politiques déterministes n’est plus correcte ; pire, dans le cas d’un PCMDP il est possible de trouver des exemples simples où il est nécessaire de s’appuyer sur des politiques stochastiques pour trouver une solution :

On considère un système à trois états (A, G1et G2) et deux actions a1 et a2qui lient respectivement A à G1 et A à G2. G1 et G2 possèdent une seule action epsilon bouclant sur eux-mêmes. Toutes les récompenses sont à 0 et A est le seul état initial.

On ajoute la contrainte PCTL 

trueU≥0.5 g1



trueU≥0.5 g2



. On souhaite ainsi imposer que l’on ait une chance sur deux d’arriver en G1 en partant de l’état initial et une chance sur deux d’arriver en G2.

L’exemple a bien sûr été construit spécialement pour les besoins de ce contre-exemple, il semble donc évident que seule une politique stochastique pourra répondre à ces deux conditions : une politique

A G1 G2 a1 a2 e 0 e0

F i g u r e 14 – Contre-exemple : cas où aucune politique déterministe n’est valide

déterministe arrivera soit en G1 soit en G2 avec une probabilité 1 et violera donc notre contrainte. Il existe en vérité une seule politique valide, celle ayant π(A, a1) = π(A, a2) = 0.5

Il existe donc des modèles pour lesquels il n’existe aucune politique déterministe valide. Ceci nous force donc, pour un problème PCMDP général, a toujours raisonner sur des politiques stochastiques. Ceci est d’autant plus difficile que l’on change d’espace (on dispose d’un spectre continu de politiques, impossibilité de prendre simplement "argmax",...) et que la littérature qui a été consacrée à l’étude de la recherche de politiques stochastiques optimales est sensiblement plus réduite.

Invalidation de l’existence d’une politique optimale

Pour montrer plus en avant les problèmes spécifiques à SPC MDP et PCMDP, reprenons le premier contre-exemple, représenté sur le schéma (Figure 13 page 80).

Cet exemple présente en vérité un autre point d’étude intéressant. Nous avons en effet montré que toute politique stochastique est valide hormis celle choisissant a1 avec une probabilité 1 ; nous pouvons aussi calculer la fonction de valeur d’une politique avec :

Vγπ(A) = π(A, a1) + γ ∗ π(A, a1) ∗ Vπ

γ(A) = π(A, a1) 1 − γ ∗ π(A, a1)

Cette fonction de valeur est donc strictement croissante en fonction de π(A, a1) : plus la politique choisit l’action a1, plus on peut s’attendre à ce qu’elle collecte une récompense élevée. Ceci implique notamment que pour toute politique stochastique valide, il existe une politique valide ayant une valeur supérieure (par exemple celle ayant π0(A, a1) = (π(A, a1) + 1)/2). La politique optimale et valide n’existe donc pas.

Cela est évidemment dû au fait que la "meilleure" des politiques ne soit pas valide : la borne supérieure de l’ensemble des politiques valides n’est pas atteinte, il est donc impossible d’en exhiber un élément particulier.

Ceci prouve donc le théorème 3, puisque ce contre-exemple montre les deux propriétés suivantes : – Pour un SPC MDP, il peut n’y avoir aucune politique déterministe markovienne. Dans la figure (Figure 13 page 80), la meilleure (et seule) politique déterministe markovienne valide πdet, celle

qui choisit l’action a2, a la plus petite valeur pour ce MDP.

– Pour un SPC MDP, il est possible qu’aucune politique optimale n’existe. Pour la politique déter-ministe et histoire-dépendante πi

d.h. de la figure (Figure 13 page 80), où la politique πi

d.h. répète l’action a1 ifois et choisit ensuite l’action a2, plus i est grand et plus la politique a de récompense. De manière similaire, pour la politique markovienne aléatoire πr.M., la récompense accumulée par la politique augmente lorsque la probabilité πr.M.(A, a2) tend vers 0.

Ce contre exemple prouve donc qu’il est trivial de construire un SPC MDP tel qu’aucune conversion en MDP ne permette de trouver une solution optimale qui puisse être convertie en solution optimale de ce SPC MDP, pour la raison simple qu’aucune solution optimale n’existe dans l’espace des politiques stochastiques et histoire-dépendantes.

Redéfinition de l’optimalité

L’une des solutions pour contourner ce problème est de définir néanmoins une notion d’optimalité et de rechercher la meilleure politique valide à un epsilon près. Formellement :

CHAPITRE IV. SATURATED PATH CONSTRAINED MDP

Définition 24 (Epsilon-optimalité)

Soit un processus de décision markovien à chemins contraints hS, A, R, T , s0, γ, ξi, SoitΠ l’ensemble des politiques stochastiques valides,

Soit  ∈ R+\ {0} un réel strictement positif,

Une politique π est dite solution -optimale d’un PCMDP si elle vérifie : π ∈Π

∀π0 ∈Π, Vγπ(s) ≥ Vπ0 γ (s) − 

Notre problème n’est donc plus de trouver la politique valide optimale, puisqu’elle n’existe pas toujours, mais de trouver une politique valide et epsilon-optimale, c’est-à-dire meilleure que les autres à epsilon près. Une telle politique existe toujours dès lors que la fonction de valeur Vπ

γ est toujours finie. Ceci est en particulier le cas lorsque toutes les récompenses sont finies et que γ < 1, puisqu’on peut simplement borner Vπ

γ.

L’exemple (Figure 13 page 80) nous donne ainsi deux intuitions sur la nature des solutions d’un SPC MDP, qui nous permettent de nous orienter vers la recherche de solutions avec une forme particulière :

– 1) La valeur de certaines politiques valides est arbitrairement proche de la valeur optimale. Dans l’exemple ci dessus, les politiques qui effectuent une boucle sur l’état A pendant très longtemps puis se rendent en F ont des valeurs qui sont proches de 1

1−γ, c’est-à-dire qu’elles sont "presque optimales" selon la définition (Définition 24 page 82).

– 2) Les meilleures politiques valides pour un SPC MDP ressemblent à certaines politiques détermi-nistes Markoviennes.Dans l’exemple ci-dessus, la meilleure (mais invalide) politique déterministe effectue une boucle sur l’état A pour un temps infiniment long, tandis que les politiques valides -optimales effectuent une boucle en A pour un temps "très" long avant d’effectuer une transition vers F .

Dans la suite de ce chapitre, nous allons prouver que ces intuitions sont correctes pour les modèles SPC MDP en général : pour tout  > 0, tout SPC MDP a une politique stochastique valide -optimal qui est similaire à une politique déterministe (mais invalide) pour ce MDP.

IV.2 Implémentation et preuve de validité d’un algorithme de