• Aucun résultat trouvé

L'objectif de ce chapitre était de proposer des algorithmes robustes face à l'explora- tion et capables de surmonter les facteurs de non-coordination dans les jeux de Markov d'équipe. Pour cela, une ligne directrice de ce chapitre est de permettre à un agent in- dépendant de correctement évaluer ses actions individuelles. En partant du fait que les valeurs réelles de chaque action se situent entre les valeurs optimistes et moyennes, deux algorithmes ont été développés. Le premier est le Q-learning hystérétique, qui per- met de doser l'optimisme des agents grâce à deux vitesses d'apprentissage. Le second est l'algorithme Swing between Optimistic or Neutral (SOoN), capable de découpler les diverses causes de bruit dans un jeu de Markov d'équipe faiblement bruité. Une heu- ristique utilisant une fréquence d'occurrence permet aux évaluations des actions de se régler automatiquement entre les évaluations optimistes et moyennes selon la stochas- ticité détectée dans le jeu. L'algorithme SOoN surmonte ainsi les principaux facteurs de non-coordination évoqués dans ce mémoire et est de plus robuste face à l'exploration des autres. Des résultats sur de multiples benchmarks multiagents ont permis de comparer les performances de ces deux algorithmes aux principaux algorithmes de la littérature. Ils ont notamment illustré la première phase d'adaptation automatique des évaluations puis la phase de coordination. Ils ont aussi permis de conrmer que l'interpolation linéaire est une bonne heuristique d'évaluation des actions proche des valeurs réelles.

Dans ce chapitre a aussi été précisée une notion importante dans les systèmes multia- gents : l'exploration globale. Celle-ci permet de quantier le bruit dans le système dû à l'exploration de tous les agents. Ce bruit est un paramètre important qui peut notam- ment mettre en défaut un agent indépendant. En eet, le bruit dû à un comportement aléatoire des autres rend dicile, voire impossible si le bruit est trop important, une évaluation correcte des valeurs d'un état par un agent indépendant.

La robustesse des algorithmes d'apprentissage pour agents indépendants face à cette exploration globale est nécessaire ; c'est d'ailleurs un des enjeux de l'apprentissage par renforcement d'agents indépendants. En eet, si cette robustesse n'est pas assurée, on peut assister à des phénomènes de  destruction  des politiques apprises ou des fré- quences d'occurrence par exemple. Des méthodes ont été proposées dans ce chapitre pour choisir correctement divers paramètres d'apprentissage an d'assurer cette robus- tesse. Cependant, une autre solution se dégage de ce constat. Il serait intéressant de permettre aux agents de savoir si les actions des autres sont des actions d'exploration ou d'exploitation (sans connaître exactement quelles sont ces actions). Cette forme de communication est simple à mettre en oeuvre même avec un grand nombre d'agents :

d'une part, l'information à transmettre est binaire ( j'explore et donc j'émets  ou  je n'explore pas et j'écoute ), et d'autre part, elle ne nécessite qu'un seul canal de com- munication partagé par tous les agents (réseau de diusion). Cette forme simple de communication entre agents leur permettrait de découpler aisément les diverses causes de bruit. Les agents qui exploitent pourraient alors suspendre leur mise à jour lorsqu'un ou plusieurs de leurs congénères explorent. Cette méthode pourrait de plus être appliquée facilement à de nombreux algorithmes.

Chapitre

8

Application `a la commande d’un syst`eme

distribu´e de micromanipulation

Dans ce chapitre une application de nos travaux à la commande d'un système distribué de micromanipulation, appelé smart surface, est proposée. Le pro- totype de surface pneumatique déjà existant ainsi que le modèle de convoyage d'objets en 2D développé sont présentés. L'approche par apprentissage par renforcement est ensuite comparée à une méthode classique de contrôle des systèmes distribués de micromanipulation, et validée sur une tâche de posi- tionnement. Enn, une extension de nos algorithmes à la commande décen- tralisée de la smart surface dans un cas partiellement observable est proposée et testée sur une tâche de convoyage.

8.1 Introduction

C

e chapitre présente l'application à la commande d'un système distribué de micro- manipulation des méthodes décentralisées par apprentissage par renforcement dé- veloppées dans ce mémoire. Cette application, appelée smart surface, se place dans le cadre d'un projet de l'agence nationale de la recherche (ANR PSIROB). L'objectif de ce projet est la conception, le développement et le contrôle d'un système de microcon- voyage et micropositionnement sur coussin d'air de micropièces à l'échelle mésoscopique (µm au mm). Les applications visées par ce système sont la micromanipulation et le tri automatisés de mini et microproduits, dans lesquels les fonctions d'alimentation, de convoyage et de positionnement des composants constituent un challenge important lié aux dimensions de ces pièces.

Le projet smart surface s'est orienté vers la réalisation d'un système distribué consti- tué d'une matrice de microactionneurs pneumatiques, de capteurs et de modules de traitement. La réalisation concrète d'une smart surface intégrant des cellules capteur-

calcul-actionneur reste aujourd'hui un challenge. Le projet smart surface étant actuel- lement toujours en cours, nous ne disposons pas encore d'une telle surface totalement intégrée. Par conséquent, deux approches sont envisagées pour tester des méthodes de contrôle décentralisé. La première consiste à développer un modèle approché de la smart surface et à tester en simulation les algorithmes de contrôle. La seconde méthode est d'utiliser une surface active, c'est-à-dire une matrice distribuée d'actionneurs pneuma- tiques, déjà existante mais non-intégrée (donc sans capteurs et modules de calcul). Le contrôle décentralisé peut alors être  émulé  à l'aide d'une caméra, d'un mécanisme d'allocation individuelle des actionneurs et d'une unité centrale de calcul.

Ce chapitre est tout d'abord consacré à la présentation des systèmes distribués de micromanipulation de manière générale, puis il se focalise sur le prototype de surface active pneumatique mis à notre disposition. Le modèle de la smart surface développé est quant à lui détaillé en deuxième partie de ce chapitre. Avec ces deux méthodes à disposition, nous proposons alors d'expérimenter un contrôle par apprentissage par renforcement décentralisé pour positionner ou convoyer un objet sur la surface active pneumatique. Deux objectifs sont poursuivis :

 tout d'abord, nous souhaitons valider l'approche par apprentissage par renforce- ment en tant que méthode de contrôle adaptée à ce système. Pour cela, une ap- proche usuelle de contrôle des systèmes distribués de micromanipulation est com- parée à l'apprentissage par renforcement décentralisé. Nous nous plaçons pour cela dans le cadre des jeux de Markov d'équipe et les travaux eectués dans cette thèse sont appliqués,

 ensuite, une extension de nos travaux au cadre plus réaliste des observabilités partielles est proposée.

8.2 Les systèmes distribués de micromanipulation