Réflexions sur les poids - Détails de la combinaison

Partie I Deux domaines 11

6.2 Détails de la combinaison

6.2.3 Réflexions sur les poids

Les différentes formes de fcombiemployées ne peuvent être décrites sans s’être au préalable intéressé aux fonctions utilisées comme poids équilibrant l’importance relative des distributions de probabilité entrant en compte dans la combinaison. Deux rôles principaux vont apparaître, correspondant :

– aux Q-valeurs (section 6.2.3.1), une table étant liée à chaque comportement, et fixée avant d’entrer dans le processus de combinaison ; et

– aux paramètres θ, dédiés chacun à un comportement de base (section 6.2.3.2), et appris pendant le processus d’adaptation de la combinaison.

Toutefois, toutes les formes de fcombin’utiliseront pas ces deux termes.

6.2.3.1 Utilisation des Q-valeurs dans les poids

Nous avons déjà mentionné l’intérêt des Q-valeurs dans la définition des comportements de base (voir section 6.2.1). Dans le cadre des PDM, elles donnent une grande quantité d’informations. Néanmoins, différentes formes de Q-valeurs existent, chacune ayant sa propre interprétation. Ainsi, la question qui se pose maintenant est de savoir quelle forme d’utilité choisir ? Nous allons revenir ici sur trois définitions possibles déjà rencontrées au chapitre 2, et en profiterons pour donner des arguments pour ou contre leur emploi dans la perspective d’une recombinaison.

Note : cette fois-ci, on a préféré homogénéiser les notations entre les trois définitions, et ce afin

qu’une comparaison directe soit possible. De plus, l’ordre des trois présentations est différent par rapport à celui adopté au chapitre 2, progressant vers la définition ici la plus intéressante.

Récompense moyenne Q^π(o, a) = lim h→∞ 1 h^E π " h X k=1 r_k|o0= o, a₀ = a # (6.3)

L’espérance de gain moyen d’une politique π est un critère d’optimalité très intuitif. Pourtant, son usage pour définir des Q-valeurs n’a un sens réel que pour des PDM à horizon fini. Dans les autres cas, tels que le nôtre, il ne donne aucune information propre aux paires observation-action, puisque toutes les observations ont la même valeur, en l’occurence l’espérance de gain moyen à long terme (dans le cas d’un unique régime stationnaire possible) :

∀(o, a) ∈ O × A, Q^π(o, a) = V^π. (6.4)

Distance à la récompense moyenne Q^π(o, a) = lim h→∞E^π " h X k=1 rk− R|o0 = o, a0= a # (6.5) où R = lim h→∞ 1 h^E " h X k=1 rk # . (6.6)

Dans [Jaakkola et al., 1994a], comme dans [Baxter et Bartlett, 2001], l’algorithme proposé apprend une politique stochastique optimisant une récompense moyenne à long terme (E[r]). Mais cet article présente une autre définition des Q-valeurs (originalement introduite dans [Bertsekas, 1987]). Q^π(o, a) peut ici être décrit comme l’espérance de “gain additionnel” à court terme (éventuellement négatif) “par rapport au gain moyen à long terme” quand l’action a est choisie pour l’observation o.

Comme cette utilité est l’outil principal dans un cadre de processus de décision non-markoviens, elle pourrait s’avérer adaptée à notre problème. Elle ne donne malheureusement pas d’informations satis-faisantes sur la politique. En effet, si pour une observation o on a deux actions possibles a1 et a2 pour lesquelles les probabilités (localement) optimales trouvées P (o, a₁) et P (o, a₂) sont non nulles, alors leurs Q-valeurs respectives sont nécessairement égales : Q^π(o, a1) = Q^π(o, a2), quelle que soit la dif-férence entre ces probabilités (voir la description de l’algorithme en section 2.3.3.3). Ce rapide exemple montre que cette utilité n’est pas une mesure appropriée de l’importance relative de différentes décisions possibles. Récompense décomptée Q^π(o, a) = E^π "∞ X k=1 γ^kr_k|o0 = o, a0 = a # (6.7) La plus classique espérance de gain décompté souffre de la perspective à court terme induite par son facteur de décompte γ (γ ∈ [0, 1)). Elle reste pourtant la seule définition de Q-valeurs qui semble être une bonne référence pour pondérer les différentes actions. C’est la définition que nous avons décidé de conserver dans nos travaux.

Une petite remarque sur cette Q-valeur est qu’elle est habituellement rencontrée dans le Q-learning [Watkins, 1989], où la formule de mise à jour est spécifiquement adaptée à la recherche d’une politique

déterministe optimale (d’où le max). Pour apprendre une estimation de l’espérance de gain décompté

liée à l’accomplissement de l’action a quand l’agent observe o, on a employé le calcul plus approprié suivant : Q(o, a) ← (1 − α) ∗ Q(o, a) + α ∗ r + γ ^X a0∈A [π(o⁰, a⁰)∗ Q(o⁰, a⁰)] ! (6.8) où o⁰est la prochaine observation, r est le renforcement reçu et π la politique stochastique à évaluer.

Chacune des trois définitions de Q-valeurs vues ici permet une estimation à travers des expérimenta-tions. Toutefois, une question qui n’est pas développée dans ces lignes est de comparer les complexités effectives des apprentissages de chacune d’elles.

On retiendra que c’est la troisième définition, l’espérance de gain décompté, qui sera utilisée par la suite, les autres apportant peu d’information utile.

6.2.3.2 A quoi servent les paramètres ?

Les Q-valeurs peuvent être de bonnes références pour comparer l’importance relative entre deux choix d’actions (notons qu’une probabilité nulle est aussi un choix) venant tous deux d’un même com-portement : ils ont été appris précisément en tant que mesure d’une grandeur (l’espérance de gain) dans un espace observation-action. Même si la politique d’un comportement est utilisée dans un nouveau contexte (comme dans un comportement scalable), les Q-valeurs apprises restent une évaluation cor-recte d’une décision. En effet, si elles étaient ré-apprises dans ce nouveau contexte, toutes les Q-valeurs seraient généralement modulées d’une façon comparable : dans un monde plus grand par exemple, le principal changement est un rapprochement des valeurs vers zéro, puisque le temps avant d’obtenir une récompense est plus long.

Au contraire, les Q-valeurs de deux comportements de base distincts, si elles sont utilisées comme poids dans une nouvelle situation complexe, ne sont pas nécessairement directement comparables, selon la fonction de récompense de chacun d’eux ou selon la taille de l’environnement dans lequel elles ont été apprises. De plus, l’importance d’un comportement de base peut dépendre du problème dans lequel il est utilisé (tomber dans un trou pourrait être jugé plus dangereux dans un nouveau problème).

A cause de cela, un équilibrage est requis pour corriger ces phénomènes aussi bien que possible au sein de la combinaison. Nous proposons d’introduire un simple paramètre θ (pour chaque comportement de base), lequel servira à définir un facteur d’échelle e^θ > 0 pour les Q-valeurs. L’utilisation de e^θ se justifie pour des raisons pratiques : cela permet de faire une exploration sur tout l’ensemble des réels alors que les échelles doivent être positives. La figure 6.4 illustre l’emploi de ce paramètre comme un biais dans la comparaison de deux valeurs.

FIG. 6.4 – Les paramètres θ peuvent être vus comme définissant les longueurs des bras d’une balance, lesquels doivent être ajustés pour comparer Q1à ^e_e^θ2_θ1 ∗ Q2.

6.2.3.3 Apprentissage

Ces paramètres θ qui viennent d’être décrits dépendent de la tâche complexe considérée, contrai-rement aux Q-valeurs. En tant que tels, ils doivent être appris spécifiquement, ce qui résulte en une combinaison adaptative des comportements de base.

Apprendre par l’intermédiaire d’une approche classique d’apprentissage par renforcement (telle que celles vues au chapitre 2) n’est pas possible dans la mesure où d’une part il ne s’agit pas d’apprendre directement une politique complète, et d’autre part un algorithme tel que la descente de gradient (en ligne) de Baxter et Bartlett [Baxter et al., 2001] nécessite un certain nombre de propriétés mathématiques qui ne peuvent être ici assurées. Nous avons pour cette raison opté pour des algorithmes d’optimisation simples tels que le recuit simulé, la principale limitation étant que l’évaluation d’un ensemble donné de paramètres requiert une phase de simulation non négligeable.

L’apprentissage des paramètres θ est abordé de manière plus approfondie dans l’analyse de nos expé-riences. Pour l’instant nous allons nous concentrer sur les différentes fonctions de combinaison qui sont

présentées dans ces expérimentations.

Dans le document Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs (Page 167-170)