• Aucun résultat trouvé

Partie I Deux domaines 11

7.2 Description

   a) blocage de degré 1

...

   b) blocage de degré 2

FIG. 7.1 – Ce qui se passe quand on se contente d’ajouter une règle pour lever un blocage simple (ici dans un cas déterministe).

7.1.2 Apprendre de nouveaux comportements de base

Une autre solution est d’apprendre de nouveaux comportements de base complets pour chaque type de configuration complexe qui ne serait pas correctement géré par la combinaison des comportements de base initialement prévus. Dans le cas de la figure 6.7, il s’agirait donc simplement d’apprendre un comportement simple impliquant deux tuiles et un trou.

C’est un solution certes rudimentaire, mais là où une règle d’“exception” apprise dans un cadre fixé ne peut être réutilisée de manière systématique dans de nouvelles situations, un nouveau comportement peut pour sa part venir simplement s’ajouter aux comportements de base déjà utilisés. Ce nouveau com-portement de base vient ainsi proposer ses décisions là où les autres ne savaient auparavant comment agir.

Approche incrémentale suivie

Malheureusement, on a vu dans les expérimentations présentées en section 6.3.1.1 qu’apprendre un comportement complet s’avère particulièrement difficile pour un agent néophyte, même avec un nombre d’observations possibles apparemment raisonnable. C’est précisément ce qui arrive si l’agent essaye d’apprendre de manière directe un comportement “pousser” (une tuile dans un trou) avec deux tuiles et un trou comme il le faut dans le cas de la figure 6.7.

Or on a aussi déjà vu qu’un comportement obtenu par combinaison bc est proche d’un bon compor-tement (seules quelques observations posant problème). L’idée que nous proposons de suivre est alors de faciliter l’apprentissage de chaque nouveau comportement bnen le faisant débuter à partir du com-portement combiné bc (dont seuls les paramètres θ ont dû être appris), lequel est amélioré à travers un apprentissage par montée de gradient.

7.2 Description

Nous présentons maintenant le schéma général de l’approche incrémentale proposée, laquelle vise donc à concevoir de nouveaux comportements simples, pouvant éventuellement servir de comportements de base.

7.2.1 Principe

Pour définir le nouveau comportement à apprendre, il faut expliciter son type de configuration CT

et une récompense globaleR qui fera office de motivation. Les trois phases consécutives qui suivent forment alors l’algorithme employé, comme l’illustre aussi la figure 7.2 :

1. Combinaison : Un ensemble de comportements de base BB ={bb1, bb2. . . bbn} étant choisi et un nouveau “but” étant considéré (décrit par la fonctionR), l’algorithme 5 (page 140) est exécuté pour adapter une combinaison de comportements à travers la recherche de paramètres de pondération optimaux.

2. Conversion : Le comportement scalable obtenu (voir définition 10 page 142) par cette combinaison optimale est converti en un comportement d’initialisation b =hCT, π, Qi.

Un problème est de pouvoir réutiliser ces données pour faire un nouvel apprentissage. Dans notre cas, la politique π est décrite comme une politique stochastique paramétrée propre à l’utilisation de l’un des algorithmes de montée de gradient de Baxter et Bartlett [Baxter et Bartlett, 2001; Baxter et al., 2001], avec la paramétrisation décrite en section 2.3.3.2. La table des Q-valeurs, elle, est initialement mise à zéro.

3. Apprentissage : π sert de politique de départ pour apprendre un comportement complet b0(de poli-tique localement optimale π0) par l’algorithme en ligne OLPOMDP que nous avons déjà présenté (toujours en section 2.3.3.2). On en profite pour estimer simultanément les Q-valeurs (sur l’espace observation-action) associées à cette politique.

...

(combinaison)

(conversion)

(AR)

      

L’algorithme proposé combine les comportements de base bb1, bb2. . . bbn (apprend les paramètres de pondération), obtient une politique π, et l’uti-lise comme racine d’une nouvelle phase d’appren-tissage conduisant à un nouveau comportement b0 (de politique localement optimale π0).

FIG. 7.2 – Principe de la méthode incrémentale.

Pour compléter cette description générale de l’algorithme, nous en développons quelques aspects ci-après.

7.2.2 Compléments

7.2.2.1 Estimation des Q-valeurs

Comme on l’a noté, du fait que l’on cherche à obtenir un nouveau comportement simple (dans l’idée de l’utiliser comme comportement de base), l’un des objectifs de l’algorithme qui vient d’être présenté est aussi d’apprendre une estimation de la table des Q-valeurs correspondant à π0 (politique optimale obtenue).

Pour rappel, en étudiant dans le chapitre précédent les formes de poids à utiliser, on a choisi de faire usage, en tant que Q-valeurs, de la classique espérance de gain décomptée (les autres définitions considérées s’avérant inappropriées à l’usage que nous souhaitions en faire). Avec ce choix, et en pre-nant en compte le caractère non-markovien de notre cadre de travail, la formule de mise à jour devient

simplement (c’est l’équation 6.8) :

Q(o, a) ← (1 − α) ∗ Q(o, a) + α ∗ r + γ X

a0∈A

[π(o0, a0)∗ Q(o0, a0)] !

Ayant déjà abordé ce sujet (page 145), nous n’entrerons pas ici dans plus de détails. Ce bref rappel devrait être suffisant.

Par contre, on va pouvoir s’intéresser à la définition de la fonction de récompense que va requérir la dernière phase de l’algorithme proposé, celle de l’apprentissage.

7.2.2.2 Et en ce qui concerne les récompenses ?

Un autre aspect dont il faut discuter est la façon de gérer les récompenses lors de la conception de nouveaux comportements simples.

Le problème du monde des tuiles considéré dans nos expérimentations ne correspond pas à une situa-tion où seule une forme unique de récompense est accessible. Les deux comportements de base donnés en exemple correspondent à deux causes différentes de récompenses : l’une négative en cas de chute dans un trou, et l’autre positive si une tuile est poussée dans un trou. C’est même sur cette idée de plusieurs sources de signaux de renforcement qu’est fondée notre idée de combinaison de comportements.

On va donc regarder maintenant les possibilités offertes par la différenciation des sources de récom-penses, et discuter en même temps des limites de la décomposition ainsi opérée.

Récompenses élémentaires

Lors de la réalisation d’un agent, être capable de distinguer les sources de renforcements semble une hypothèse raisonnable. Cela dépend toutefois du point de vue adopté dans la conception de l’agent. Mais dans les cas appropriés, nous suggérons d’introduire à dessein ces différentes sources de renforcement sous la forme de récompenses élémentaires (notéesRe). Techniquement, cela rend possible la sélection des buts suivis par l’agent au cours de l’apprentissage d’un nouveau comportement.

Cette capacité de séparer les comportements de base selon des types de récompense a un double intérêt :

– D’une part cela permet d’affiner la “classification” de ces comportements de base, et donc éven-tuellement de les utiliser de diverses façons selon qu’ils agissent comme des motivations inhibi-trices ou incitainhibi-trices (par exemple).

– D’autre part, les algorithmes d’apprentissage par renforcement sont enclins à tomber dans des op-tima locaux. Cela va pouvoir être évité en faisant des apprentissages préliminaires qui ne tiennent compte que d’un but parmi plusieurs.

Le premier argument concerne des perspectives de recherche de meilleures formes de combinaisons (tenant compte de cette possible classification). Mais il n’a pas été mis en œuvre au cours de cette thèse. Au contraire, le second argument va apporter des améliorations directes à la méthodologie employée, comme le reflèteront nos expérimentations sur le monde des tuiles.

Combinaison de récompenses

Un quelconque comportement pouvant mettre en jeu plusieurs sources de renforcement, on parlera assez naturellement de combinaison de récompensesRcpour désigner la fonction résultant de l’ensemble

des récompenses élémentaires mises en jeu. On considère alors classiquement qu’on a une relation addi-tive entre les signaux élémentaires, ce qui s’écrit :

Rc = X

i

Rei (7.1)

Cette discussion nous ramène au problème du soin qui doit être apporté à la définition des fonc-tions de récompense (déjà abordé en section 1.3.1.1). Dans notre présent problème de combinaison de récompenses, il faut bien noter que définir des fonctions de récompense élémentaires, lesquelles per-mettent d’obtenir des politiques satisfaisant séparément chacun des objectifs visés, n’est pas suffisant. L’interaction entre buts peut rendre la re-combinaison problématique, comme illustré par l’exemple de la figure 7.3. Mais la principale question qui va se poser dans notre cas est de savoir comment pondérer les différents gains en jeu (nous faisons l’hypothèse de récompenses indépendantes).

ZZ

Z...

?

+3 +1

Supposons un agent doté de deux récompenses élémentaires : l’une quand il mange et l’autre quand ildort. Toute combinaison simple de ces deux récompenses va conduire l’agent à ne faire que manger, puisque c’est l’activité la plus rému-nératrice.

Assez logiquement, le modèle de renforcement choisi est mal choisi, et c’est un compromis entre les deux activités qui serait le plus sain. Une solu-tion possible est ici de faire intervenir une nosolu-tion de ressources à gérer.

FIG. 7.3 – Pourquoi décomposer en récompenses élémentaires n’est pas simple.

Bilan

En résumé, décomposer un signal de renforcement en signaux élémentaires va permettre de distinguer plus finement les tâches pour lesquelles un agent doit connaître un comportement de base. On simplifie d’ailleurs d’autant les apprentissages en s’attachant à des objectifs plus simples. Le problème est qu’une telle décomposition n’est pas toujours viable : si deux buts sont liés, on risque d’avoir des difficultés ne serait-ce qu’au moment de recomposer les comportements obtenus.

Note : Mentionnons finalement le fait que tenir compte de types de récompense était sans utilité

quand il ne s’agissait que de combiner des comportements de base, puisque les politiques et les Q-valeurs suffisaient à résumer l’information utile. C’est en fait une question qui est apparue quand il s’est agi de gérer l’initialisation de nouveaux comportements simples.