Plan - Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.App

Ce mémoire se compose de neuf chapitres. Outre l'introduction et la conclusion, deux parties se distinguent : la première, constituée des chapitres 2 et 3, concerne l'apprentissage par renforcement mono-agent ; la seconde, constituée des chapitres 4 à 8, s'intéresse à l'apprentissage par renforcement dans le cadre multiagent.

Le chapitre 2 présente l'apprentissage par renforcement. Il commence par en déve- lopper les fondements psychologiques et historiques, puis décrit la théorie et énumère les principaux algorithmes qui nous semblent les plus pertinents par rapport à nos problé- matiques.

Dans le troisième chapitre, diérentes approches d'injection de connaissances dans le cas de problèmes de plus court chemin stochastique sont étudiées. La connaissance que l'on a a priori sur une tâche donnée peut être injectée dans les valeurs initiales ou dans la fonction de récompense an d'accélérer l'apprentissage d'un agent. Une de nos contributions, présentée dans ce chapitre, est de proposer une fonction d'inuence générique ecace et non risquée.

Le chapitre 4 a pour objectif de faire la liaison entre l'apprentissage par renforcement et les systèmes multiagents. Ces derniers sont tout d'abord introduits avec une mise en avant des diérents concepts associés à ces systèmes multiagents. L'extension du cadre de l'apprentissage par renforcement aux systèmes multiagents conduit ensuite à préciser diverses notions nouvelles. Ces notions sont nécessaires à l'exposition des diérents formalismes dans lesquels se situe l'apprentissage par renforcement multiagent. A l'issue de ce chapitre, une synthèse fait le lien entre les concepts propres aux systèmes multiagents et ces formalismes.

Dans le chapitre 5 est exposée une contribution qui est l'étude des enjeux que doivent surmonter des agents indépendants apprenant par renforcement dans les jeux de Markov d'équipe. Nous nous intéressons notamment à préciser les objectifs du groupe et ceux de chaque agent, et nous détaillons un certain nombre de dicultés rencontrées dans ce contexte, en particulier les facteurs de non-coordination. La fonction de ce chapitre est l'établissement des problématiques théoriques abordées dans la partie multiagent de cette thèse.

Le chapitre 6 est consacré à un état de l'art des travaux concernant l'apprentissage par renforcement d'agents indépendants dans le cadre des jeux de Markov d'équipe. Une notation uniformisée est utilisée, permettant de faire apparaître des points com- muns entre certains d'entre eux. Une synthèse est aussi proposée concernant les enjeux (présentés au chapitre précédent) surmontés par chacun de ces algorithmes.

Le chapitre 7 expose deux approches développées qui concernent l'apprentissage par renforcement d'agents indépendants dans le cadre des jeux de Markov d'équipe. La pre- mière approche, appelée Q-learning hystérétique, repose sur une extension du Q-learning décentralisé utilisant des agents à tendance optimiste réglable . La seconde contribution est un algorithme, appelé Swing between Optimistic or Neutral (SOoN), qui permet à des agents indépendants d'adapter automatiquement leurs évaluations à la stochasti- cité de l'environnement. Le fonctionnement de ces deux algorithmes et la démarche pour

y aboutir sont décrits en détail. Ils sont validés par des expérimentations présentées en n de chapitre.

Le chapitre 8 présente l'application de ces travaux à la commande d'un système distribué de micromanipulation. Il détaille en particulier le prototype de surface active pneumatique et le modèle du convoyage d'objets en 2D que nous avons réalisé au cours de cette thèse. L'approche par apprentissage par renforcement décentralisé est comparée à une méthode classique de contrôle de systèmes distribués de micromanipulation. Une extension de nos méthodes à la commande décentralisée de la smart surface dans un cas partiellement observable est enn proposée.

Le dernier chapitre conclue cette thèse, tirant un bilan des travaux qui y sont pré- sentés et dévoilant les perspectives et travaux futurs qui se dessinent.

Chapitre

2

Apprentissage par renforcement

Ce chapitre présente les origines psychologiques et historiques de l'apprentissage par renforcement, ainsi que ses fondements théoriques. Il décrit le cadre fondamental de l'apprentissage par renforcement ainsi que les objectifs et principes utilisés pour la résolution. Les méthodes de résolution sont détaillées avec tout d'abord une brève présentation de la programmation dyna- mique puis les algorithmes d'apprentissage par renforcement basés sur la mé- thode des diérences temporelles et en rapport avec nos travaux (Q-learning, Sarsa, Q(λ)).

2.1 Introduction

D

éveloppé depuis les années 1980, l'apprentissage par renforcement est une méthode de contrôle automatique qui ne nécessite pas de connaître le modèle du système mais simplement un critère de satisfaction, appelé renforcement, comme par exemple la satisfaction d'atteindre la consigne ou de réussir la tâche demandée. L'intérêt de cette approche est de pouvoir réaliser un contrôleur capable d'apprendre à commander un système inconnu sans avoir à spécier comment la tâche doit être réalisée. Le contrôleur apprend par essais et erreurs, c'est-à-dire à partir d'expériences où il teste les commandes appliquées au système. L'objectif est de trouver la commande adéquate pour chaque si- tuation. En d'autres termes, l'apprentissage par renforcement permet la synthèse de contrôleurs dans le cas où l'on ne dispose pas d'assez d'informations (par exemple pas de modèle du système) pour utiliser les approches classiques de l'automatique. Les appli- cations de cette méthode sont nombreuses, notamment en robotique mobile ainsi qu'en microrobotique, compte tenu de la complexité du micromonde.

Ce chapitre se compose de trois parties. Nous nous sommes inspirés des ouvrages de référence de Leslie Pack Kaelbling, Michael L. Littman et Andrew W. Moore [KLM96] et de Richard S. Sutton et Andrew G. Barto [SB98] ainsi que des références [Lau02,Gar04] pour écrire ce chapitre. Nous commençons par replacer l'apprentissage par renforcement

dans son contexte originel, c'est-à-dire les recherches menées en psychologie comporte- mentale sur l'apprentissage du comportement animal ainsi que la théorie de la commande optimale. Nous présentons ensuite les fondements théoriques avec le cadre général des processus décisionnels de Markov, qui permettent de formaliser les algorithmes d'apprentissage par renforcement. Ceux-ci sont exposés dans la troisième partie où sont princi- palement étudiées les méthodes basées sur les diérences temporelles.

Dans le document Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation. (Page 36-39)