Int´ egrit´ e des ´ etats - syst` emes multi-agents

syst` emes multi-agents

5.6.2 Int´ egrit´ e des ´ etats

Les changements d’état sont orchestrés par l’assistant personnel, en fonction des informations qu’il re¸coit des autres modules de l’environnement. Avant de soumettre un changement d’état au processus d’apprentissage, il est nécessaire de vérifier sa cohérence. Par exemple, lorsque l’utilisateur entre dans le bureau, il ne faut pas seulement remplir le prédicat inOffice, mais également vider le

5.6 – Interactions avec l’environnement 119

prédicat absent car les deux ne peuvent pas avoir des valeurs non nulles dans un même état. Ceci est effectué par l’agent d’ar en se basant plutôt sur la valeur de l’estampille des prédicats afin d’être indépendant de l’assistant et de pouvoir vérifier la cohérence d’un état à tout moment. Les valeurs du prédicat dont l’estampille a la plus haute valeur (donc le prédicat le moins récemment mis à jour) sont effacées. En effet, ce prédicat est alors considéré obsolète. Un autre exemple est le prédicat alarm qui ne garde sa valeur que pour un pas. Lorsqu’un rappel est émis, une action est immédiatement choisie et exécutée, puis le rappel est effacé. Cette action peut être de ne rien faire, mais une décision est prise immédiatement.

Ce mécanisme est modélisé sous forme d’un ensemble de règles sur les valeurs d’arguments de prédicats ou bien sur les estampilles. Ces règles sont enregistrées dans la base de données (décrite section 4.4), dans les tables de la figure 5.4. Une règle est l’association d’une ou plusieurs parties gauches (les conditions `

a remplir pour déclencher la règle) et d’une ou plusieurs parties droites (les actions à exécuter si toutes les conditions sont remplies). Les actions possibles sont (pour un argument) : effacer la valeur (la remplacer par <null>), mettre une valeur donnée ou bien mettre la valeur d’un autre argument (d’un autre prédicat). Les parties gauches et droites font référence aux prédicats et à leurs arguments, également enregistrés dans la base.

Fig.5.4 – Une partie du sch´ema services de la base de donn´ees.

5.6.3 D´efinition d’une action

Notre ensemble d’actions est formé de toutes les actions que nous pouvons exécuter dans l’environnement. Il serait facile de rajouter des actions si nous développons d’autres modules effecteurs. Ajouter une action en cours de route

ne perturbe pas le système. La nouvelle action s’intégrera progressivement dans la q-table, sans que nous perdions le comportement appris jusque là.

Les actions ´el´ementaires dont nous disposons sont les suivantes :

– Transférer un rappel à l’utilisateur. Nous disposons de plusieurs modalités pour cette action, la modalité choisie étant le paramètre de l’action. Le choix de la modalité s’appuie sur le contexte de l’utilisateur (y compris les ressources disponibles) et sur ses préférences. Nous pouvons transférer le rappel par synthèse vocale, en utilisant des haut-parleurs se trouvant dans la même pièce que l’utilisateur. Nous pouvons lui afficher un message écrit sur un écran qu’il serait susceptible de remarquer, y compris son appareil mobile (téléphone ou pda). Enfin, nous pouvons simplement envoyer un mail à l’utilisateur.

– Informer l’utilisateur d’un nouveau mail qu’il vient de recevoir. Nous dis-posons également de différentes modalités : la synthèse vocale ou bien un message écrit.

– Verrouiller l’écran de l’utilisateur. – Déverrouiller l’écran de l’utilisateur.

– Mettre en pause la musique qui joue sur l’ordinateur de l’utilisateur. – Reprendre la lecture de la musique.

– Ne rien faire est ´egalement une action.

L’ensemble des actions de l’assistant est l’ensemble form´e par toutes les com-binaisons des actions possibles pour chacune des quatre parties suivantes : que faire `a propos

1. du rappel ; 2. du nouveau mail ; 3. de l’´ecran ; 4. de la musique.

Pour chacune de ces parties, il y a trois possibilit´es : faire quelque chose (par exemple transf´erer ou verrouiller), faire l’inverse (ne pas informer du mail, relancer la musique) ou bien ne rien faire.

Chaque action est définie avec un attribut indiquant si cette action modifie ou non l’environnement. Par exemple, ✭✭ ne pas informer l’utilisateur d’un mail ✮✮ ne modifie pas l’état de l’environnement, ce qui n’est pas le cas de ✭✭ verrouiller l’écran ✮✮.

Ayant défini les actions, nous sommes en mesure de présenter un extrait de la q-table : la figure5.5montre les q-valeurs de toutes les actions possibles pour l’état suivant :

alarm(minute =<*>, title =<*>, hour =<*>) ; xActivity(isActive =<true>, machine =<+>) ; inOffice(office =<+>, user =<+>) ;

absent(user =<*>) ;

hasUnreadMail(from =<*>, to =<*>, body =<*>, subject =<*>) ; entrance(isAlone =<*>, friendlyName =<*>, btAddress =<*>) ; exit(isAlone =<*> friendlyName =<*>, btAddress =<*>) ; task(taskName =<*>) ;

user(login =<+>) ;

userOffice(office =<+>, login =<+>) ; userMachine(login =<+>, machine =<+>) ;

5.6 – Interactions avec l’environnement 121

Fig. 5.5 – Un extrait de la q-table pour l’état ci-dessus, dans lequel l’utilisa-teur est simplement présent dans son bureau. Nous pouvons constater que la meilleure action est de déverrouiller l’écran et de jouer la musique.

Un extrait plus complet est fourni en annexeC.1.

5.6.4 Collecte des r´ecompenses

L’apprentissage par renforcement se base sur les récompenses (ou renforce-ments) que l’utilisateur donne pour des actions que l’assistant décide d’exécu-ter. L’apprentissage est d’autant meilleur (rapide et précis) que les renforce-ments re¸cus sont fréquents. Mais il est fort probable que l’utilisateur ne donne pas un renforcement pour chaque action, simplement parce qu’il sera trop oc-cupé ou n’y pensera pas. D’après [Richard et Yamada, 2007], les utilisateurs sont souvent réfractaires à fournir des informations précises ou une récom-pense explicite à un système d’apprentissage. De plus, comme le mettent en avant [Isbell et al., 2001], les récompenses données par l’utilisateur peuvent sou-vent être incohérentes et se décaler dans le temps :

✭✭ Individual users may be inconsistent in the rewards they provide (even when they implicitly have a fixed set of preferences), and their preferences may change over time (for example, due to becoming bored or irritated with an action). Even when their rewards are consistent, there can be great temporal variation in their reward pattern. ✮✮

[Thomaz et al., 2006] ont étudié spécifiquement l’apprentissage par renfor-cement guidé par des utilisateurs humains non experts. La conclusion de cette étude est que, pour les humains, l’entraˆınement est un processus à double sens. Les humains ont tendance à vouloir communiquer avec le système, à voir l’en-traˆınement comme un enseignement, un partenariat. Les participants ont éga-lement montré une tendance à considérer les renforcements plutôt comme une guidance, une indication sur le comportement à avoir dans le futur et non pas une appréciation de la dernière action effectuée.

En outre, les participants ont plus souvent donné des renforcements positifs que négatifs, indépendamment de la qualité de l’apprentissage. Dans le cadre où l’entraˆınement est per¸cu comme un enseignement, les humains ont tendance `

a vouloir motiver l’élève qu’est le système par des récompenses encourageantes. D’autre part, les participants attendaient une amélioration immédiate suite à un

renforcement négatif. Les algorithmes d’AR ne réagissant pas aussi rapidement, les personnes sentaient donc leur retours négatifs ignorés.

Enfin, l’étude a montré une adaptation des personnes au système. Au fur et `

a mesure de l’interaction, les participants ont construit un modèle mental du système et s’y sont adaptés. Constatant les résultats de leur entraˆınement, ils ont augmenté la fréquence de leurs renforcements.

Les conclusions de cette étude sont intéressantes pour nous, mais, pour le moment, nous ne savons pas comment en tenir compte. Comment savoir si l’uti-lisateur donne un renforcement positif parce qu’il est satisfait du système, ou bien parce qu’il essaye de l’encourager ?

Il est possible de se demander si ces participants réagiraient de la même fa¸con en entraˆınant un système dans le cadre de leur vie quotidienne et à long terme, comme c’est le cas pour notre assistant. Dans l’étude menée par [Thomaz et al., 2006], les participants étaient là clairement pour une ex-périence et n’avaient qu’une seule tâche en tête : entraˆıner le robot. Comme le soutiennent [Richard et Yamada, 2007], les utilisateurs d’un système au quoti-dien seront plus réticents et moins participatifs.

Par conséquent, nous devons adapter notre système au fait que les renfor-cements donnés seront rares et que, lorsqu’une récompense est donnée, il se peut qu’elle ne concerne pas seulement la dernière action, mais plusieurs actions récentes. Ce dernier point est pris en compte par l’algorithme d’apprentissage (le q-Learning avec traces d’éligibilité, algorithme2) qui propage en arrière les renforcements.

Pour pallier le manque de renforcements, une idée est de recueillir des renfor-cements implicites, en plus des renforrenfor-cements explicitement donnés par l’utilisa-teur. Ces récompenses implicites proviendraient d’indices tels que la réaction de l’utilisateur quant à la dernière action du système. Prenons par exemple l’action d’informer l’utilisateur d’un e-mail. Si la personne lit l’e-mail immédiatement, alors l’action était probablement appropriée, et le renforcement implicite – posi-tif. Si, au contraire, l’utilisateur ignore le message, alors la récompense déduite est négative. Cependant, ces récompenses implicites devraient avoir une valeur numérique limitée, car elles sont incertaines et ne devraient pas avoir un im-pact trop important et trop immédiat sur le comportement. Cette solution est préconisée par [Richard et Yamada, 2007] et [Maes, 1994].

Enfin, nous devons tenir compte de l’incohérence éventuelle des renforce-ments. En effet, l’utilisateur peut être influencé par des éléments que nous ne pouvons pas percevoir lorsqu’il donne une récompense (tels que son humeur ou l’influence d’une tierce personne, ou il peut simplement commettre une erreur). Nous gérons cette possibilité en limitant l’influence d’un renforcement. Ceci sera expliqué en détail section 5.9.2, qui traite de l’apprentissage supervisé du mo-dèle de renforcement. En effet, ce momo-dèle n’est pas totalement modifié par un renforcement contradictoire avec la connaissance actuelle du monde, mais évo-lue lentement. Si ce renforcement incohérent est une observation aberrante, il ne causera pas de problèmes ; s’il est représentatif d’un changement dans les pré-férences de l’utilisateur, il se répétera et le modèle s’adaptera peu à peu. Il est d’ailleurs préférable de ne pas modifier radicalement le comportement du sys-tème afin de ne pas perturber l’utilisateur (nous mentionnons ceci section5.2.1). Les renforcements explicites sont collectés au travers d’une interface gra-phique montrée figure5.6. Cette interface est toujours à disposition de l’utilisa-teur et affiche à tout moment la dernière action exécutée et l’état dans lequel

5.6 – Interactions avec l’environnement 123

cette action a été choisie. Le prédicat ayant été mis à jour dans cet état est en gras afin d’être facilement repérable. Dans l’exemple de la figure 5.6, l’uti-lisateur vient de passer absent et l’action qui a été choisie est de verrouiller l’écran et de mettre la musique en pause. Enfin, l’interface contient un curseur `

a positionner sur la valeur de renforcement désirée. Puis, le bouton Set permet de soumettre cette récompense. L’avantage d’un tel curseur est que les valeurs numériques n’ont pas d’importance. Dans la version finale de cette interface, il serait même inutile de les afficher. L’important est que l’utilisateur donne une récompense relative au minimum, maximum et milieu des valeurs possibles. La valeur exacte n’est pas importante pour l’utilisateur qui positionne le curseur de manière intuitive. [Schiaffino et Amandi, 2004] ont étudié le comportement des utilisateurs face à un système qui leur demande un retour d’information. Les auteurs ont conclu que les usagers sont, en général, d’accord pour donner des retours simples qui ne leur demandent pas beaucoup d’effort, c’est-à-dire une évaluation sur une échelle quantitative ou qualitative. Les utilisateurs sont d’autant plus enclins à fournir ce retour s’ils savent que cela aide à entraˆıner le système. Par contre leur motivation diminue dans le temps car ils estiment que le système doit avoir fini son apprentissage au bout d’un certain temps.

Remarque : L’interface de la figure 5.6 n’est pas la version définitive, mais plutôt un prototype. En effet, cette interface doit être toujours disponible mais d’une manière non intrusive et non dérangeante. Elle ne devrait pas être visible en permanence, mais plutôt être facilement invoquable par l’utilisateur. De plus, bien que l’état soit compréhensible tel quel, il serait préférable de trouver un moyen de l’afficher d’une manière encore plus lisible. Par exemple, en masquant les prédicats vides ou encore en construisant une phrase à partir des noms des prédicats, des arguments et de leurs valeurs.

5.6.5 Interactions en direct

Dans un système d’apprentissage par renforcement classique, seules les ac-tions de l’agent modifient l’état. Comme nous l’avons mentionné dans les sec-tions 4.5.1 et 5.6.2, l’assistant personnel re¸coit des événements des capteurs de l’environnement et en déduit les modifications correspondantes de l’état de l’agent d’ar. Dans notre cas, des événements extérieurs dans l’environne-ment provoquent égalel’environne-ment des changel’environne-ments d’état. Par exemple, les rappels de l’agenda de l’utilisateur sont détectés par le service KdeEventsService et envoyés, formatés en xml, à l’assistant. Celui-ci modifie alors le prédicat alarm en remplissant ses arguments avec les valeurs re¸cues.

L’assistant personnel est placé dans un environnement modifié par des élé-ments extérieurs sur lesquels il n’a aucun contrôle. L’utilisateur fait partie de ces éléments extérieurs qui agissent sur l’environnement. Ses allées et venues, les e-mails qu’il re¸coit, son activité courante, les rappels de son agenda, etc. sont autant d’éléments non déterministes provoquant des changements d’état.

Deux choix se présentent alors. Nous pouvons considérer que l’utilisateur (et avec lui tous les événements imprévisibles) fait partie de l’environnement ou bien qu’il n’en fait pas partie. Il nous est impossible de connaˆıtre l’état interne de l’utilisateur. Si celui-ci fait partie de l’environnement, alors l’assis-tant personnel n’a pas complètement accès à l’état de l’environnement. Nous ne pouvons alors pas modéliser le problème sous la forme d’un pdm, nous nous trouvons dans le cas d’application des pdmpo (introduits section5.3). Comme

Fig.5.6 – L’interface de collecte des renforcements.

l’explique [Buffet, 2003], nous avons alors un problème non-markovien station-naire. Le problème sous-jacent est en réalité toujours markovien, mais l’assistant ne peut pas observer le pdm entièrement, il n’a donc accès qu’à un processus non-markovien. Le problème est stationnaire car toute la non-stationnarité in-troduite par l’utilisateur est déjà prise en compte dans la partie non-observable. L’environnement lui-même peut être considéré comme stationnaire.

Dans le deuxième cas, nous ne considérons pas l’utilisateur comme faisant partie de l’environnement, mais comme un élément extérieur qui perturbe l’envi-ronnement de manière non déterministe. L’envil’envi-ronnement est désormais consti-tué de seuls éléments que nous pouvons observer grâce à nos capacités de per-ception. Étant donné que nous sommes revenus à un environnement entière-ment observable, nous sommes revenus à un pdm. L’utilisateur est alors pris en compte par le fait que l’environnement est non-stationnaire. Pour reprendre le terme de [Buffet, 2003], nous avons un problème markovien non-stationnaire.

Nous avons choisi d’adopter la deuxième manière d’aborder le problème, c’est-à-dire en restant dans le cadre des pdm et en considérant que la loi d’évo-lution de l’environnement n’est pas stable. Nous pouvons nous permettre ce choix à cause d’une hypothèse très importante : l’évolution de notre environne-ment est lente. En effet, l’environneenvironne-ment est modifié par l’ajout ou le retrait de dispositifs, ou bien la modification du fonctionnement de ces dispositifs. L’hypo-thèse que ceci n’arrive pas fréquemment est réaliste. Les préférences utilisateur changent également à une faible vitesse. L’utilisateur ne change très probable-ment pas d’avis tous les jours. L’apprentissage supervisé va intégrer dans le modèle, à partir des exemples, les modifications de l’environnement. Mais il est envisageable de vérifier en plus si le modèle s’applique entièrement aux exemples

5.6 – Interactions avec l’environnement 125

récents (observés dans les derniers x jours, semaines voire mois selon la vitesse d’évolution de l’environnement), et de supprimer les parties du modèle qui n’ont plus été observées.

Pour la raison de ce choix, les prédicats que nous avons sélectionnés pour modéliser les états (voir le tableau5.1) correspondent chacun à un de nos cap-teurs (décrits section 4.5.1). Ainsi seuls les éléments per¸cus font partie de l’état, qui est alors entièrement observable. Les autres éléments ne sont pas modélisés et sont traités comme des événements imprévisibles.

Notre problème est similaire au problème d’apprentissage par renforce-ment dans un cadre multi-agent. Les agents apprennent tous simultanérenforce-ment à agir dans un même environnement, sans se connaˆıtre mutuellement. Chaque agent per¸coit donc les autres agents comme des perturbations de l’environ-nement. Dans notre cas, il n’y a qu’un agent mais l’on peut voir l’utilisa-teur comme l’autre agent perturbant l’environnement. C’est le cadre étudié par [Buffet, 2003].

La non-stationnarité de l’environnement est souvent traitée en laissant une part d’adaptation dans le comportement de l’agent [Sutton, 1990]. Au lieu de progressivement faire décroˆıtre le taux d’apprentissage α du q-Learning (algo-rithme1) jusqu’à zéro, on ne le décroˆıt que jusqu’à une limite non nulle, dont la valeur reflète la vitesse d’évolution de l’environnement.

Cette non-stationnarité a plusieurs conséquences. Elle implique que nous ne savons pas tout de l’environnement et de l’utilisateur, et qu’ils peuvent toujours évoluer. Nous avons déjà abordé ce point dès la section 2.3. En effet, nous appliquerons un apprentissage à vie, ce qui nous permet de prendre en compte les évolutions de l’environnement et de l’utilisateur. Pour l’environnement, il s’agit de l’apprentissage supervisé des modèles dont il sera question section 5.9. De plus, l’environnement étant non déterministe, son modèle est, par conséquent, probabiliste. Ce point sera abordé section5.7.

D’après [Sutton, 1990], l’avantage de dyna est justement de pouvoir être ap-pliquée à des environnements stochastiques. La planification peut être effectuée sur des modèles incomplets, changeants et probablement incorrects, construits par apprentissage. Pour pallier ces problèmes, différentes techniques peuvent être appliquées [Sutton et Barto, 1998]. Notamment, il est possible de garder en mémoire le nombre de pas effectués depuis la dernière fois qu’un exemple a été observé dans le monde réel. Dans la phase de planification, pour tester ces ac-tions obsolètes, un renforcement ✭✭ bonus ✮✮ est donné aux expériences simulées impliquant ces actions. En effet, un état qui n’a pas été observé depuis long-temps peut avoir évolué dans le monde réel. Par conséquent, il est nécessaire de le re-tester.

Si nous choisissons de considérer notre cas comme un problème non-markovien stationnaire, le formalisme du pdm ne s’applique plus et il est nécessaire de modéliser le problème sous la forme d’un pdmpo, voire d’un dec-pdmpo (un pdmpo décentralisé), dont il est question section 5.3.

Dans le document Apprentissage par renforcement de modeles de contexte pour l'informatique ambiante (Page 119-143)