• Aucun résultat trouvé

Chapitre III - Contrôle par modélisation de la dynamique globale du SMA. 55

B.3 Étapes de la proposition

La mise en oeuvre de la proposition passe par trois étapes qui impliquent des choix pour

un utilisateur humain :

• la caractérisation et la mesure du comportement,

• la détermination des informations utiles pour le contrôle,

• la méthode d'apprentissage.

Pour chacune d'elles, nous indiquons les choix qui se présentent lorsqu'il s'agit des les

appliquer à un SMA donné, et les difficultés qu'elles peuvent poser.

B.3.1 Mesure du comportement global

Il faut caractériser le comportement global du SMA observé par un utilisateur à partir

d'informations Y

t

locales. La mesure du comportement dépend bien entendu du SMA étudié,

et ne peut pas être généralisée d'un système à un autre, mais nous fournissons ici des

spécificités qu'elle doit respecter. Cette mesure est utilisée pour :

• comparer le comportement courant et la cible lors de l'apprentissage, afin

d'encourager les actions qui permettent d'atteindre cette dernière,

• identifier en temps réel l'état de contrôle du système, à la fois pour l'apprentissage

du modèle et pour son exploitation,

• évaluer une solution de contrôle proposée, en vérifiant sur de nombreuses

simulations si la cible est atteinte.

Lorsque le SMA est en évolution, il présente soit un comportement qui apparaît stable,

c'est-à-dire avec une durée non négligeable au niveau global, soit un régime transitoire

pendant lequel aucun comportement n'est identifiable. Le rôle de la mesure est de fournir des

informations sur le comportement lorsqu'il est stable, et de ne donner aucun résultat dans le

cas contraire. Elle possède donc une certaine dimension temporelle et prend en compte

plusieurs observations Y

t

successives du SMA pour vérifier la stabilité.

Pour choisir la mesure, il faut trouver un équilibre entre

• la justesse de son estimation du comportement, c'est-à-dire à la fois le fait qu'elle

trouve le même comportement que celui identifié par un humain, et sa capacité à

reconnaître un régime transitoire,

• et le temps nécessaire pour estimer ce comportement, dont dépend la durée de

l'apprentissage et du contrôle.

Si la mesure du comportement est erronée, l'état de contrôle n'est pas correctement

identifié, et l'action de contrôle qui en résulte risque d'éloigner le SMA du comportement

cible. Il est donc préférable d'avoir une mesure qui donne des résultats sûrs à une mesure

plus rapide mais approximative. De plus, il vaut mieux considérer à tort que la cible n'est pas

atteinte plutôt que de surestimer les capacités du contrôle.

B.3.2 Choix des états de contrôle

L'objectif de cette étape est de choisir un ensemble d'états S du graphe qui modélise le

SMA, à la fois suffisamment vaste pour autoriser un contrôle efficace, et suffisamment

restreint pour limiter l'exploration donc la durée de l'apprentissage. Nous avons choisi de

considérer comme état le comportement global courant du SMA. Il s'agit de ce que nous

avons appelé au chapitre précédent les informations de contrôle. Plusieurs descriptions de

ces comportements sont envisageables.

Le choix des informations à prendre en compte comme antécédents d'une politique est un

problème classique. Des travaux comme ceux de Sertan Girgin [Girgin 08] proposent de

découvrir automatiquement les meilleures informations possibles, à l'aide d'un algorithme

génétique dans ce cas. Mais une telle solution systématique augmente la durée de l'approche,

car un apprentissage doit être réalisé pour chaque ensemble S. Dans le cas d'un SMA, la

durée de chaque simulation est élevée, ce qui nous pousse à réduire le nombre de simulations

pour effectuer l'apprentissage. Nous ne pouvons donc pas nous permettre d'effectuer un

grand nombre d'apprentissages pour trouver le meilleur ensemble d'états.

Nous choisirons un premier ensemble S d'états en fonction d'observations de la dynamique

lorsque des actions sont effectuées. Cet ensemble sera éventuellement amélioré par la suite.

Nous introduisons un état particulier qui sera toujours présent dans le modèle, et que nous

notons S

0

. Il représente l'absence de comportement identifiable. Il permet de ne pas laisser le

SMA présenter un comportement incertain indéfiniment, en effectuant une action de contrôle

associée à cet état S

0

. Il assure donc la terminaison d'un cycle de contrôle, même lorsque le

comportement n'est pas assez stable ou n'est pas reconnu.

B.3.3 Méthode d'apprentissage

Le modèle que nous proposons de construire peut être considéré comme un processus de

décision markovien

1

. Les états de ce MDP correspondent à l'ensemble S, et ses actions aux

moyens d'action A. Ses transitions sont inconnues a priori. Elles représentent la probabilité

de passer d'un état à un autre en effectuant une action de contrôle, et seront estimées

expérimentalement. Comme la cible est un sous-ensemble des comportements du SMA, c'est

aussi un sous-ensemble des états du MDP. La fonction de récompense du MDP est donc facile

à définir : elle donne une récompense fixe, par exemple 1, lorsque la cible est atteinte, et 0

sinon. L'arrêt des simulations lorsque la cible est atteinte assure que la récompense ainsi

obtenue est toujours bornée, sans recourir à un horizon des récompenses (discounted return).

La résolution du MDP fournit une politique qui associe une action de contrôle à un

comportement courant du SMA. Il existe des outils, comme ceux de l'apprentissage par

renforcement, qui permettent de calculer automatiquement cette politique. Ces outils

permettent également de réduire le temps d'exploration pour la résolution du problème de

contrôle. Ils explorent l'espace des actions et celui des états en suivant des principes

similaires aux plans d'expériences dynamiques.

Un autre avantage des outils d'apprentissage par renforcement est qu'ils estiment le

bénéfice à long terme de chaque action a∈A dans chaque état s∈S, noté Q(s,a). En effet, une

bonne politique doit prendre en compte non seulement l'effet direct d'une action donnée dans

un état donné, mais également son influence à long terme. C'est le cas en particulier s'il

existe des états à partir desquels aucune action ne permet d'atteindre directement la cible.

L'apprentissage par renforcement suit et apprend une politique, qui dépend de l'estimation

courante des Q(s,a) et d'un type de politique, c'est-à-dire une manière de choisir l'action à

effectuer en fonction des valeurs Q(s,a). Une politique déterministe choisit toujours l'action

qui maximise les Q(s,a) dans un état s. Si au contraire le contrôleur fait intervenir le hasard

dans ce choix, elle est stochastique, par exemple :

• ε-gloutonne si elle choisit une action au hasard avec une probabilité ε, et reste

déterministe avec une probabilité 1- ε,

• softmax si elle choisit aléatoirement les actions avec une distribution de probabilités

de Boltzmann calculée à partir des valeurs Q(s,a)

1

• proportionnelle si elle choisit les actions avec des probabilités proportionnelles aux

valeurs Q(s,a).

Nous préconisons l'utilisation d'une politique d'exploitation stochastique. En effet, cela évite

de persister inutilement à faire une action considérée comme bonne, en moyenne parmi

toutes les situations locales que regroupe un état donné. Il pourrait alors exister certaines

situations particulières auxquelles cette action ne changerait rien, ce qui résulterait en un

blocage du contrôle.

Nous choisissons l'algorithme d'apprentissage Sarsa [Sutton & Barto 98], qui est adapté au

calcul de politiques stochastiques, quand les transitions et les récompenses sont inconnues a

priori. C'est le cas pour notre problème, et ces valeurs doivent être estimées par les résultats

d'expériences. Il existe des améliorations à cet algorithme, comme l'algorithme Sarsa(λ), qui

permettent entre autres d'augmenter sa rapidité pour arriver au même résultat. Dans ce

document, toutefois, nous ne considérons que l'algorithme Sarsa originel.

L'apprentissage se fait sur un nombre de simulations déterminé en fonction de la

complexité du problème, en particulier du nombre d'états et d'actions de contrôle. Nous

proposons de choisir un petit nombre de simulations et de vérifier a posteriori s'il est

suffisamment élevé pour que l'apprentissage n'améliore plus la politique de contrôle. Dans le

cas contraire, une nouvelle série de simulations est ajoutée pour parfaire l'apprentissage.

Pour assurer la terminaison rapide de chaque simulation, et donc limiter la durée totale de

1 La probabilité de choisir l'action a dans l'état s est alors Pa= e

−Qs ,a T

a '

e

Qs , a '

T

où T est un paramètre

l'apprentissage, nous proposons aussi d'arrêter les simulations à un nombre maximal k de

cycles. La valeur de k dépend du SMA étudié et elle est choisie empiriquement, en fonction de

la connaissance que l'on possède du système.

L'algorithme ci-dessous détaille le déroulement de l'apprentissage, sans préciser le

fonctionnement des outils d'apprentissage par renforcement.

Documents relatifs