Architectures de contrôle

4.3 Processus décisionnels de Markov et systèmes multiagents

4.3.5 Architectures de contrôle

Résoudre un problème de décision dans un système multiagent consiste à calculer une politique jointe π =< π1, ..., πm>où πicorrespond à la politique de l'agent i et m est

le nombre d'agents. La politique d'un agent i est une fonction notée πi: S × Ai 7→ [0; 1]

qui dénit une distribution de probabilités sur la perception s ∈ S de l'agent (ou sur l'état global si celui-ci est individuellement observable) et son action ai ∈ Ai. Comme

dans le cas mono-agent, un contrôleur récupère l'ensemble des informations nécessaires (état, récompense), calcule la politique de l'agent et décide de l'action à eectuer. Lors de l'extension d'un PDM aux SMA, le processus qui construit les politiques individuelles peut être déni à diérents niveaux :

un niveau global : on parle alors d'architecture centralisée (cf. gure4.6a). Un contrôleur central dispose de l'ensemble des informations : l'état global du système s ∈ S, l'action jointe a ∈ A et la récompense R. Il calcule la politique jointe π

(a) centralisée (b) hétérarchique ou décentralisée

Figure 4.6 Architectures de contrôle possibles pour un groupe de robots mobiles. et distribue les commandes individuelles a1, ..., am parmi les m agents selon cette

politique. Il détient donc le pouvoir de décision et maintient l'information globale sur l'ensemble des agents.

un niveau local : on parle alors d'architecture hétérarchique ou décentra- lisée (cf. gure 4.6b). La notion essentielle de cette structure est la considéra- tion d'agents totalements autonomes. Chaque agent i a son propre contrôleur qui construit une politique individuelle πi à partir d'informations locales : la percep-

tion locale de l'agent, son action individuelle ai et la récompense individuelle Ri.

Les agents sont donc tous considérés au même niveau, collectent de l'information locale et agissent sur une partie du système. Ce sont souvent des structures coopé- ratives regroupant de multiples unités de contrôle en interaction an de réaliser un objectif global.

Imaginons un système composé de plusieurs robots mobiles qui doivent eectuer une tâche commune. Deux approches sont alors possibles. La première consiste à utiliser un ordinateur qui contrôle l'ensemble des robots et a accès à l'état global du système, grâce par exemple à une caméra qui lme toute la scène. Le système utilise donc un contrôleur unique centralisé ; on parle alors d'architecture centralisée. Une seconde approche dote chaque robot de capacités de réexion, de perception et de décision propres. Dans ce cas, chaque robot est autonome et l'architecture est appelée hétérarchique ou dé- centralisée.

Ces deux architectures de contrôle présentent chacune certains avantages et inconvé- nients que nous détaillons ici de manière non exhaustive :

architecture centralisée : Les principaux inconvénients d'une architecture cen- tralisée sont qu'elle est peu robuste en cas de défaillance du contrôleur central et dicilement modiable à cause de la non modularité. Concernant les perceptions, le contrôleur central doit disposer à chaque instant de l'information globale sur le système, ce qui n'est pas toujours réaliste. Enn, la construction d'une politique jointe de manière centralisée est un problème très complexe [BGIZ02]. Les avan-

tages sont qu'un nombre limité d'unités de contrôles et de moyens de traitement sont nécessaires. De plus, aucun mécanisme de coordination ne doit être im- plémenté car le contrôleur central calcule directement la politique jointe optimale. Concernant les communications, le contrôleur central doit communiquer à tous les agents les actions individuelles.

architecture hétérarchique ou décentralisée : Les avantages sont une amé- lioration de la modularité du système avec la possibilité d'ajouter ou de retirer facilement des agents et une plus grande robustesse. De plus, les agents autonomes ont aussi souvent des tâches simples à résoudre et le comportement global émerge de leurs interactions. La politique locale a aussi souvent besoin de considé- rer moins de variables. Nous pouvons toutefois souligner quelques inconvénients de cette structure, tels que l'accès à des perceptions partielles. La construction des politiques individuelles se fait alors à partir d'observations parfois incomplètes. La communication entre les agents peut être nécessaire pour que chacun ait accès aux actions jointes ou pour partager des perceptions locales. Enn, la coordination reste la diculté majeure des architectures décentralisées. Outre la diculté de calculer des politiques individuelles optimales avec des perceptions limitées, s'ajoute le problème d'assurer que ces politiques individuelles optimales dénissent une politique jointe optimale.

L'extension des PDM aux SMA conduit naturellement aux architectures décen- tralisées. En eet, ces approches considèrent des entités totalement autonomes, ce qui est en accord avec notre dénition d'agents et de SMA. On remarque d'ailleurs l'em- ploi abusif du terme système multiagent pour des systèmes qui ne sont pas vraiment décentralisés. Par exemple, dans le cas des robots mobiles, ce système est appelé sys- tème multiagent car plusieurs robots sont recensés dans l'environnement. Néanmoins, si une architecture centralisée est choisie, ce système n'est pas multiagent au sens où nous l'avons déni précédemment car il n'y a qu'une unité de contrôle centrale. Pour que ce système soit réellement multiagent, il faut que chaque robot dispose de sa propre capacité de réexion et de décision.

4.3.6 Conclusion

Dans cette section, l'ensemble des notions propres à un PDM ont été redénies dans le cas d'une extension à des SMA. Les diérentes possibilités d'extension nécessitent le choix du niveau de dénition de ces notions de perception de l'état, de distribution des récompenses et de communication. Les diérents formalismes utilisés dans le cadre de l'apprentissage par renforcement multiagent permettent de recouvrir l'ensemble de ces possibilités. Nous allons maintenant présenter les formalismes supposant une perception individuelle totale de l'état par chaque agent indépendant, ce qui correspond au cadre de notre étude.

4.4 Diérents modèles multiagents issus des processus dé-

Dans le document Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation. (Page 90-93)

4.3 Processus décisionnels de Markov et systèmes multiagents

4.3.5 Architectures de contrôle

4.4 Diérents modèles multiagents issus des processus dé-

4.4 Diérents modèles multiagents issus des processus dé-