Discussion - Planification Optimiste pour Systèmes Déterministes

4.4 Expérimentations

5.1.3 Discussion

Comme nous avons pu l'observer au cours des diérentes expérimenta- tions, les résultats pour l'algorithme de planication lipschitzienne ne sont pas probants. La raison principale se situe dans l'hypothèse de départ qui demande que la fonction transition ainsi que la fonction récompense soient lipschitziennes. Cependant cette hypothèse est trop forte pour obtenir des résultats convainquant.

De plus l'estimation de la constante de Lipschitz L à fournir à l'algorithme est une tâche aussi complexe que la résolution du problème lui même. En supposant que nous connaissions la constante de Lipschitz spé- cique au problème, celle-ci serait une borne supérieure sur les constantes Lfx, Lfa, Lrx, Lxa produisant une borne supérieure pas assez ne et altérant

ainsi les performances de l'algorithme.

Il est à noter que l'utilisation même d'une constante de Lipschitz produit une borne supérieure dont la porté est globale. Il serait plus opportun si la borne supérieure étant plus en phase avec le paysage local de la fonction de transition et de la fonction récompense.

Nous pouvons prendre l'exemple du problème du cart-pole où deux phases distinctes sont visibles.

La première consiste à augmenter la vitesse angulaire du mat pour le met- tre en position verticale demandant ainsi une recherche plus en profondeur pour obtenir le mouvement de balancier. Cette recherche en profondeur est favorisée par une constante de Lipschitz faible incitant à la prolongation des séquences d'actions plutôt qu'à la trisection de sous-espaces.

Dans la seconde phase, le mat doit être maintenu en équilibre ce qui demande des actions plus précises et donc une discrétisation plus ne dans les profondeurs les plus faibles. Cette exploration en largeur est obtenue par une constante de Lipschitz élevée favorisant la trisection des sous-espaces plutôt que la prolongation des séquences d'actions.

Par cet exemple, on peut ainsi voir qu'il est problématique de choisir une constante de Lipschitz car il peut être intéressant pour un même problème mais suivant l'état courant de l'adapter ce qui comme l'estimation n'est pas chose facile.

Ainsi la constante de Lipschitz est un paramètre déterminant la na- ture de l'exploration de l'arbre des possibilités. Cela n'est pas sans rappeler [Maes et al., 2011] qui propose d'optimiser les paramètres d'une politique de

recherche dans l'arbre des possibilités et ce en utilisant le temps disponible hors ligne. Ces paramètres sont optimisés sur un échantillon représentatif des états atteignables du problème courant puis ils sont utilisés pour contrôler le système déni par le problème en ligne. Cette approche consistant à utiliser le temps hors ligne pour optimiser un paramètre dépendant du problème courant peut être une voie à explorer en vue de trouver une constante de Lipschitz adaptée à notre algorithme de planication lipschitzienne.

En dehors de la diculté de déterminer la constante de Lipschitz d'un problème, les ressources computationnelles nécessaires à l'exécution de l'algorithme ne sont pas négligeables. Ceci est dû d'une part aux diérents calculs de bornes eectués pour choisir quel type de discrétisation appli- quer et d'autre part à la complexité de la structure de données requise pour stocker les sous-ensembles de sous-espaces ainsi que les valeurs associées. En eet, si les ressources computationnelles sont exprimées en terme de limite de temps entre deux prises de décisions, il devient alors nécessaire de min- imiser le temps propre à l'algorithme vis-à-vis du temps utilisé par le modèle génératif permettant ainsi de maximiser le nombre d'appels à celui-ci.

De plus et contrairement aux algorithmes de planication uniforme et optimiste, la réutilisation entres deux prises de décisions d'un sous-ensemble des séquences d'actions explorées est complexe.

Dans le cas des algorithmes de planication uniforme et optimiste, Il convient de garder le sous-arbre correspondant à l'action optimale retournée précédemment dans le cas où le nouvel état du système issu de cette action est identique à l'état présent en racine du sous-arbre.

Dans le cas de l'algorithme de planication lipschitzienne, il faut garder les sous-ensemble Aidont l'action aci0 est identique à celle retournée par l'al-

gorithme et ce seulement si le nouvel état du système est identique à ceux étendus par l'algorithme. Il convient donc de lier ensemble les sous-ensembles Ai possédant la même première action aci0 compliquant encore la structure

de données. Cependant l'union des sous-espaces bi

0 des sous-ensemble Ai

récupérés de l'utilisation précédente de l'algorithme de planication lipschitzienne peut ne pas être égale à A. Il est donc nécessaire de calculer le sous-espace de A non couvert par les sous-espaces bi

0. Préserver les calculs

eectués lors de la prise de décision précédente est donc un choix viable si et seulement si un appel au modèle génératif est couteux en terme de ressources computationnelles.

Dans le chapitre 3, nous avons présenté l'algorithme HOOT voir page 39 combinant l'algorithme UCT et l'algorithme HOO. En partant du même principe, nous pouvons construire un nouvel algorithme tirant parti des régularités présentes dans le problème pour discrétiser l'espace d'action mais en empruntant une approche plus intuitive que théorique que celle util- isée dans cette section et essayer ainsi d'obtenir de meilleures performances.

Dans le document Planification Optimiste pour Systèmes Déterministes (Page 104-106)