Chapitre III - Contrôle par modélisation de la dynamique globale du SMA. 55
B.3 Étapes de la proposition
La mise en oeuvre de la proposition passe par trois étapes qui impliquent des choix pour
un utilisateur humain :
• la caractérisation et la mesure du comportement,
• la détermination des informations utiles pour le contrôle,
• la méthode d'apprentissage.
Pour chacune d'elles, nous indiquons les choix qui se présentent lorsqu'il s'agit des les
appliquer à un SMA donné, et les difficultés qu'elles peuvent poser.
B.3.1 Mesure du comportement global
Il faut caractériser le comportement global du SMA observé par un utilisateur à partir
d'informations Y
tlocales. La mesure du comportement dépend bien entendu du SMA étudié,
et ne peut pas être généralisée d'un système à un autre, mais nous fournissons ici des
spécificités qu'elle doit respecter. Cette mesure est utilisée pour :
• comparer le comportement courant et la cible lors de l'apprentissage, afin
d'encourager les actions qui permettent d'atteindre cette dernière,
• identifier en temps réel l'état de contrôle du système, à la fois pour l'apprentissage
du modèle et pour son exploitation,
• évaluer une solution de contrôle proposée, en vérifiant sur de nombreuses
simulations si la cible est atteinte.
Lorsque le SMA est en évolution, il présente soit un comportement qui apparaît stable,
c'est-à-dire avec une durée non négligeable au niveau global, soit un régime transitoire
pendant lequel aucun comportement n'est identifiable. Le rôle de la mesure est de fournir des
informations sur le comportement lorsqu'il est stable, et de ne donner aucun résultat dans le
cas contraire. Elle possède donc une certaine dimension temporelle et prend en compte
plusieurs observations Y
tsuccessives du SMA pour vérifier la stabilité.
Pour choisir la mesure, il faut trouver un équilibre entre
• la justesse de son estimation du comportement, c'est-à-dire à la fois le fait qu'elle
trouve le même comportement que celui identifié par un humain, et sa capacité à
reconnaître un régime transitoire,
• et le temps nécessaire pour estimer ce comportement, dont dépend la durée de
l'apprentissage et du contrôle.
Si la mesure du comportement est erronée, l'état de contrôle n'est pas correctement
identifié, et l'action de contrôle qui en résulte risque d'éloigner le SMA du comportement
cible. Il est donc préférable d'avoir une mesure qui donne des résultats sûrs à une mesure
plus rapide mais approximative. De plus, il vaut mieux considérer à tort que la cible n'est pas
atteinte plutôt que de surestimer les capacités du contrôle.
B.3.2 Choix des états de contrôle
L'objectif de cette étape est de choisir un ensemble d'états S du graphe qui modélise le
SMA, à la fois suffisamment vaste pour autoriser un contrôle efficace, et suffisamment
restreint pour limiter l'exploration donc la durée de l'apprentissage. Nous avons choisi de
considérer comme état le comportement global courant du SMA. Il s'agit de ce que nous
avons appelé au chapitre précédent les informations de contrôle. Plusieurs descriptions de
ces comportements sont envisageables.
Le choix des informations à prendre en compte comme antécédents d'une politique est un
problème classique. Des travaux comme ceux de Sertan Girgin [Girgin 08] proposent de
découvrir automatiquement les meilleures informations possibles, à l'aide d'un algorithme
génétique dans ce cas. Mais une telle solution systématique augmente la durée de l'approche,
car un apprentissage doit être réalisé pour chaque ensemble S. Dans le cas d'un SMA, la
durée de chaque simulation est élevée, ce qui nous pousse à réduire le nombre de simulations
pour effectuer l'apprentissage. Nous ne pouvons donc pas nous permettre d'effectuer un
grand nombre d'apprentissages pour trouver le meilleur ensemble d'états.
Nous choisirons un premier ensemble S d'états en fonction d'observations de la dynamique
lorsque des actions sont effectuées. Cet ensemble sera éventuellement amélioré par la suite.
Nous introduisons un état particulier qui sera toujours présent dans le modèle, et que nous
notons S
0. Il représente l'absence de comportement identifiable. Il permet de ne pas laisser le
SMA présenter un comportement incertain indéfiniment, en effectuant une action de contrôle
associée à cet état S
0. Il assure donc la terminaison d'un cycle de contrôle, même lorsque le
comportement n'est pas assez stable ou n'est pas reconnu.
B.3.3 Méthode d'apprentissage
Le modèle que nous proposons de construire peut être considéré comme un processus de
décision markovien
1. Les états de ce MDP correspondent à l'ensemble S, et ses actions aux
moyens d'action A. Ses transitions sont inconnues a priori. Elles représentent la probabilité
de passer d'un état à un autre en effectuant une action de contrôle, et seront estimées
expérimentalement. Comme la cible est un sous-ensemble des comportements du SMA, c'est
aussi un sous-ensemble des états du MDP. La fonction de récompense du MDP est donc facile
à définir : elle donne une récompense fixe, par exemple 1, lorsque la cible est atteinte, et 0
sinon. L'arrêt des simulations lorsque la cible est atteinte assure que la récompense ainsi
obtenue est toujours bornée, sans recourir à un horizon des récompenses (discounted return).
La résolution du MDP fournit une politique qui associe une action de contrôle à un
comportement courant du SMA. Il existe des outils, comme ceux de l'apprentissage par
renforcement, qui permettent de calculer automatiquement cette politique. Ces outils
permettent également de réduire le temps d'exploration pour la résolution du problème de
contrôle. Ils explorent l'espace des actions et celui des états en suivant des principes
similaires aux plans d'expériences dynamiques.
Un autre avantage des outils d'apprentissage par renforcement est qu'ils estiment le
bénéfice à long terme de chaque action a∈A dans chaque état s∈S, noté Q(s,a). En effet, une
bonne politique doit prendre en compte non seulement l'effet direct d'une action donnée dans
un état donné, mais également son influence à long terme. C'est le cas en particulier s'il
existe des états à partir desquels aucune action ne permet d'atteindre directement la cible.
L'apprentissage par renforcement suit et apprend une politique, qui dépend de l'estimation
courante des Q(s,a) et d'un type de politique, c'est-à-dire une manière de choisir l'action à
effectuer en fonction des valeurs Q(s,a). Une politique déterministe choisit toujours l'action
qui maximise les Q(s,a) dans un état s. Si au contraire le contrôleur fait intervenir le hasard
dans ce choix, elle est stochastique, par exemple :
• ε-gloutonne si elle choisit une action au hasard avec une probabilité ε, et reste
déterministe avec une probabilité 1- ε,
• softmax si elle choisit aléatoirement les actions avec une distribution de probabilités
de Boltzmann calculée à partir des valeurs Q(s,a)
1• proportionnelle si elle choisit les actions avec des probabilités proportionnelles aux
valeurs Q(s,a).
Nous préconisons l'utilisation d'une politique d'exploitation stochastique. En effet, cela évite
de persister inutilement à faire une action considérée comme bonne, en moyenne parmi
toutes les situations locales que regroupe un état donné. Il pourrait alors exister certaines
situations particulières auxquelles cette action ne changerait rien, ce qui résulterait en un
blocage du contrôle.
Nous choisissons l'algorithme d'apprentissage Sarsa [Sutton & Barto 98], qui est adapté au
calcul de politiques stochastiques, quand les transitions et les récompenses sont inconnues a
priori. C'est le cas pour notre problème, et ces valeurs doivent être estimées par les résultats
d'expériences. Il existe des améliorations à cet algorithme, comme l'algorithme Sarsa(λ), qui
permettent entre autres d'augmenter sa rapidité pour arriver au même résultat. Dans ce
document, toutefois, nous ne considérons que l'algorithme Sarsa originel.
L'apprentissage se fait sur un nombre de simulations déterminé en fonction de la
complexité du problème, en particulier du nombre d'états et d'actions de contrôle. Nous
proposons de choisir un petit nombre de simulations et de vérifier a posteriori s'il est
suffisamment élevé pour que l'apprentissage n'améliore plus la politique de contrôle. Dans le
cas contraire, une nouvelle série de simulations est ajoutée pour parfaire l'apprentissage.
Pour assurer la terminaison rapide de chaque simulation, et donc limiter la durée totale de
1 La probabilité de choisir l'action a dans l'état s est alors Pa= e
−Qs ,a T
∑
a 'e
−Qs , a 'T
où T est un paramètre
l'apprentissage, nous proposons aussi d'arrêter les simulations à un nombre maximal k de
cycles. La valeur de k dépend du SMA étudié et elle est choisie empiriquement, en fonction de
la connaissance que l'on possède du système.
L'algorithme ci-dessous détaille le déroulement de l'apprentissage, sans préciser le
fonctionnement des outils d'apprentissage par renforcement.
Dans le document
Contrôle d'un Système Multi-Agents Réactif par Modélisation et Apprentissage de sa Dynamique Globale
(Page 64-67)