Planication et ordonnancement en environnement dynamique

)

: eect (at end (calibrated ?i)) )

( : durative-action take_image

: parameters ( ?s - satellite ?d - direction ?i - instrument ?m - mode) : duration (= ?duration 7)

: condition (and (over all (calibrated ?i)) (over all (on_board ?i ?s)) (over all (supports ?i ?m) ) (over all (power_on ?i)) (over all (pointing ?s ?d)) (at end (power_on ?i))

(over all (>= (data-capacity ?s) (data ?d ?m))) (at end (>= (data-capacity ?s) (data ?d ?m))) )

: eect (and (at start (decrease (data-capacity ?s) (data ?d ?m))) (at end (have_image ?d ?m))

(at end (increase (data-stored) (data ?d ?m))) )

)

1.5. Planication et ordonnancement en environnement dynamique 33 1.5.1 Exigences éventuelles sur la solution

En situations incertaines et dynamiques, diérentes exigences peuvent se présenter (Verfaillie et Jussien 2005).

Premièrement, il peut être souhaité de limiter, autant que possible, le besoin de résolutions en ligne successives, car ces résolutions sont consommatrices en temps de calcul et en ressources.

Ensuite, il peut être souhaité de limiter, autant que possible, les changements dans les so-lutions produites parce que les changements trop importants sont généralement indésirables.

Ceci est valable lorsque la précédente solution n'est plus valide et la production en ligne d'une solution est nécessaire.

On peut également chercher à limiter, autant que possible, le temps de calcul et les ressources nécessaires car l'utilité d'une solution décroît, dans beaucoup d'applications, avec le temps écoulé pour la livrer. Ceci est valable lorsque la précédente solution n'est plus valide et la production en ligne d'une solution est nécessaire.

Enn, on essaie généralement de continuer à produire des solutions cohérentes et optimales.

Notons que cette exigence éventuelle peut interférer avec la deuxième : il y a une possible con-tradiction entre optimalité et stabilité d'une solution. La combinaison des objectifs de qualité et de stabilité est notamment étudiée en planication (Fox et al. 2006, Cushing et al. 2008), en ordonnancement (Sakkout et al. 1998), et en satisfaction de contraintes (Verfaillie et Jussien 2005).

Les approches qui suivent (réactive, progressive et proactive) sont notamment étudiées dans (Vidal 2004). L'article (Bidot et al. 2009) propose quant à lui un cadre générique pour l'ordonnancement en environnement stochastique.

1.5.2 Approche réactive

L'approche réactive n'utilise aucune information sur les changements futurs possibles (voir Figure 1.15). L'inconvénient de cette absence de connaissance peut être le manque de ro-bustesse des solutions. En revanche, l'avantage peut être une capacité à réagir à toutes sortes de changements.

Elle prend la forme d'un plan prédit hors ligne et remis en cause en ligne, ou d'une simple règle d'exécution (Smith 1994).

0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000

nouveau plan en exéc.

plan en exécution

Réaction

interrompu

événement imprévu

temps

Figure 1.15 Illustration de l'approche réactive.

Cette approche nécessite une décision très rapide, ce qui implique une solution en général sous-optimale localement. Évidemment, les événements déclencheurs ne doivent pas se pro-duire trop fréquemment. Enn, un faible besoin en mémoire est constaté.

1.5.3 Approche progressive

L'approche progressive en horizon glissant (voir Figure 1.16) consiste à planier en ligne à court terme et à reprendre au fur et à mesure que l'exécution lève les incertitudes (Chien, Knight, Stechert, Sherwood et Rabideau 2000).

événement prévu

temps

Intégrer et

propager poursuite du plan plan en exécution

Figure 1.16 Illustration de l'approche progressive.

Cette approche, qui ore du temps pour décider, peut produire des solutions optimales localement. Là encore, les événements déclencheurs ne doivent pas se produire trop fréquem-ment. Enn, un faible besoin en mémoire est constaté.

1.5.4 Approche proactive

L'approche proactive utilise toutes les informations qu'il est envisageable d'obtenir sur les changements futurs possibles. Il s'agit de prendre des décisions qui résisteront au mieux à ces changements. Cette approche consiste en général à produire des plans robustes (qui restent des solutions convenables malgré les changements), des plans exibles (qui peuvent être facilement modiés pour obtenir une solution au nouveau problème), des plans conditionnels (contenant des branches pour les diérentes éventualités) ou des politiques.

Une première technique est celle du recouvrement maximal : un plan prédictif unique est calculé pour couvrir le maximum de cas (Dubois et al. 1993, Daniels et Carrillo 1997). Un compromis entre optimalité et robustesse est eectué.

Une autre technique consiste à laisser en suspens certaines décisions d'ordonnancement. On peut opter par exemple pour des activités ottantes (exibilité sur le temps ; voir Figure 1.17) ou pour des branches conditionnelles (Drummond et al. 1994, Morris et al. 2001) (voir Fig-ure 1.18). Tandis que le premier ache un besoin faible en mémoire, le second en nécessite une quantité élevée et le temps de calcul hors ligne est en général prohibitif.

1.5. Planication et ordonnancement en environnement dynamique 35

000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000

111111111111111 111111111111111 111111111111111 111111111111111 111111111111111 111111111111111 111111111111111 111111111111111 111111111111111 111111111111111 111111111111111 111111111111111

0000000000000 0000000000000 0000000000000 0000000000000 0000000000000 0000000000000 0000000000000 0000000000000 0000000000000 0000000000000 0000000000000 0000000000000

1111111111111 1111111111111 1111111111111 1111111111111 1111111111111 1111111111111 1111111111111 1111111111111 1111111111111 1111111111111 1111111111111 1111111111111

000000000000 000000000000 000000000000 000000000000 000000000000 000000000000 000000000000 000000000000 000000000000 000000000000 000000000000 000000000000

111111111111 111111111111 111111111111 111111111111 111111111111 111111111111 111111111111 111111111111 111111111111 111111111111 111111111111 111111111111

temps fin d’une tâche observée

plan en exécution

Figure 1.17 Illustration des activités ottantes.

00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000

11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000 00000000000000

11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111 11111111111111

000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000 000000000000000

temps fin d’une activité ou

récolte d’informations

plan en exécution

branche 1

Figure 1.18 Illustration des branches conditionnelles.

Enn, l'emploi de processus de décision markovien (Puterman 1994, Sigaud et Buet 2010) (en anglais Markov Decision Process ou MDP) est une autre alternative. Il s'agit d'un modèle stochastique qui permet de prendre des décisions avec incertitudes sur l'eet des actions. Il se base sur la notion d'état décrivant la situation courante, d'action aectant la dynamique du processus, et de récompense pour chaque transition franchie entre deux états. En fait, un MDP peut se dénir comme étant un espace d'états dans lequel les transitions sont probabilistes.

Un tel processus décrit la probabilité de déclencher une transition vers l'état s⁰ et de recevoir une certaine récompenser, après avoir choisi l'actionadans l'états. Puisque l'eet des actions est stochastique, les solutions d'un MDP correspondent généralement à des politiques (stratégies), qui spécient quelle action entreprendre à chaque étape du processus de décision et pour tout état atteint.

Formellement, les MDP sont décrits par un quadruplethS, A, T, Ri : . S désigne l'espace des états possibles.

. Adésigne l'ensemble des actions possibles pour contrôler la dynamique du système.

. T désigne la fonction de transition (probabilité d'être dans un état à un instant donné

sachant l'état et l'action eectuée à l'instant précédent).

. Rdésigne la fonction de récompense dénie sur les transitions entre états.

L'algorithme de résolution classique d'un problème de décision séquentielle relatif à un MDP (sur horizon ni) suit le principe de la programmation dynamique. Une politique est optimale si elle maximise l'espérance du gain sur l'horizon.

1.5.5 Lien avec le problème traité

Cette section a sa place dans l'état de l'art car notre problème se veut dynamique, dans le sens où les données sont susceptibles d'évoluer au cours du temps. En eet, des requêtes urgentes d'observation surviennent en cours d'exécution du plan. Dès lors, il convient de s'accorder sur le nouvel objectif et d'opter pour une stratégie face aux aléas sachant qu'aucun modèle d'arrivée des requêtes urgentes n'est disponible.

Dans le document THÈSE. En vue de l'obtention du JURY (Page 51-55)