Étapes de la proposition

Chapitre III - Contrôle par modélisation de la dynamique globale du SMA. 55

−^Q^^{s ,a}^ T 

^ −Qs , a '

Chapitre III - Contrôle par modélisation de la dynamique globale du SMA. 55

B.3 Étapes de la proposition

La mise en oeuvre de la proposition passe par trois étapes qui impliquent des choix pour

un utilisateur humain :

• la caractérisation et la mesure du comportement,

• la détermination des informations utiles pour le contrôle,

• la méthode d'apprentissage.

Pour chacune d'elles, nous indiquons les choix qui se présentent lorsqu'il s'agit des les

appliquer à un SMA donné, et les difficultés qu'elles peuvent poser.

B.3.1 Mesure du comportement global

Il faut caractériser le comportement global du SMA observé par un utilisateur à partir

d'informations Y

locales. La mesure du comportement dépend bien entendu du SMA étudié,

et ne peut pas être généralisée d'un système à un autre, mais nous fournissons ici des

spécificités qu'elle doit respecter. Cette mesure est utilisée pour :

• comparer le comportement courant et la cible lors de l'apprentissage, afin

d'encourager les actions qui permettent d'atteindre cette dernière,

• identifier en temps réel l'état de contrôle du système, à la fois pour l'apprentissage

du modèle et pour son exploitation,

• évaluer une solution de contrôle proposée, en vérifiant sur de nombreuses

simulations si la cible est atteinte.

Lorsque le SMA est en évolution, il présente soit un comportement qui apparaît stable,

c'est-à-dire avec une durée non négligeable au niveau global, soit un régime transitoire

pendant lequel aucun comportement n'est identifiable. Le rôle de la mesure est de fournir des

informations sur le comportement lorsqu'il est stable, et de ne donner aucun résultat dans le

cas contraire. Elle possède donc une certaine dimension temporelle et prend en compte

plusieurs observations Y

successives du SMA pour vérifier la stabilité.

Pour choisir la mesure, il faut trouver un équilibre entre

• la justesse de son estimation du comportement, c'est-à-dire à la fois le fait qu'elle

trouve le même comportement que celui identifié par un humain, et sa capacité à

reconnaître un régime transitoire,

• et le temps nécessaire pour estimer ce comportement, dont dépend la durée de

l'apprentissage et du contrôle.

Si la mesure du comportement est erronée, l'état de contrôle n'est pas correctement

identifié, et l'action de contrôle qui en résulte risque d'éloigner le SMA du comportement

cible. Il est donc préférable d'avoir une mesure qui donne des résultats sûrs à une mesure

plus rapide mais approximative. De plus, il vaut mieux considérer à tort que la cible n'est pas

atteinte plutôt que de surestimer les capacités du contrôle.

B.3.2 Choix des états de contrôle

L'objectif de cette étape est de choisir un ensemble d'états S du graphe qui modélise le

SMA, à la fois suffisamment vaste pour autoriser un contrôle efficace, et suffisamment

restreint pour limiter l'exploration donc la durée de l'apprentissage. Nous avons choisi de

considérer comme état le comportement global courant du SMA. Il s'agit de ce que nous

avons appelé au chapitre précédent les informations de contrôle. Plusieurs descriptions de

ces comportements sont envisageables.

Le choix des informations à prendre en compte comme antécédents d'une politique est un

problème classique. Des travaux comme ceux de Sertan Girgin [Girgin 08] proposent de

découvrir automatiquement les meilleures informations possibles, à l'aide d'un algorithme

génétique dans ce cas. Mais une telle solution systématique augmente la durée de l'approche,

car un apprentissage doit être réalisé pour chaque ensemble S. Dans le cas d'un SMA, la

durée de chaque simulation est élevée, ce qui nous pousse à réduire le nombre de simulations

pour effectuer l'apprentissage. Nous ne pouvons donc pas nous permettre d'effectuer un

grand nombre d'apprentissages pour trouver le meilleur ensemble d'états.

Nous choisirons un premier ensemble S d'états en fonction d'observations de la dynamique

lorsque des actions sont effectuées. Cet ensemble sera éventuellement amélioré par la suite.

Nous introduisons un état particulier qui sera toujours présent dans le modèle, et que nous

notons S

. Il représente l'absence de comportement identifiable. Il permet de ne pas laisser le

SMA présenter un comportement incertain indéfiniment, en effectuant une action de contrôle

associée à cet état S

. Il assure donc la terminaison d'un cycle de contrôle, même lorsque le

comportement n'est pas assez stable ou n'est pas reconnu.

B.3.3 Méthode d'apprentissage

Le modèle que nous proposons de construire peut être considéré comme un processus de

décision markovien

. Les états de ce MDP correspondent à l'ensemble S, et ses actions aux

moyens d'action A. Ses transitions sont inconnues a priori. Elles représentent la probabilité

de passer d'un état à un autre en effectuant une action de contrôle, et seront estimées

expérimentalement. Comme la cible est un sous-ensemble des comportements du SMA, c'est

aussi un sous-ensemble des états du MDP. La fonction de récompense du MDP est donc facile

à définir : elle donne une récompense fixe, par exemple 1, lorsque la cible est atteinte, et 0

sinon. L'arrêt des simulations lorsque la cible est atteinte assure que la récompense ainsi

obtenue est toujours bornée, sans recourir à un horizon des récompenses (discounted return).

La résolution du MDP fournit une politique qui associe une action de contrôle à un

comportement courant du SMA. Il existe des outils, comme ceux de l'apprentissage par

renforcement, qui permettent de calculer automatiquement cette politique. Ces outils

permettent également de réduire le temps d'exploration pour la résolution du problème de

contrôle. Ils explorent l'espace des actions et celui des états en suivant des principes

1 La probabilité de choisir l'action a dans l'état s est alors Pa= ^e