Exp´ erience n ➦1 : environnement simul´e, mo-

Mise en place des

6.3 Exp´ erience n ➦1 : environnement simul´e, mo-

mo-d`ele de l’environnement connu

Pour faire un premier test de notre algorithme d’apprentissage par renforce-ment dans un environnerenforce-ment ambiant, nous avons r´eduit le probl`eme en

a) utilisant le simulateur plutôt que l’environnement réel afin de pouvoir facilement rejouer l’expérience en faisant varier des paramètres de l’algo-rithme ;

b) utilisant un modèle de l’environnement supposé correct, sans l’apprendre afin de mesurer l’efficacité de l’apprentissage par renforcement seul. Nous avons exécuté un scénario minimal, composé de trois événements : 0. ✭✭ Sofia est dans le bureau ✮✮ ;

1. ✭✭ Sofia quitte le bureau ✮✮ ; 2. ✭✭ Sofia entre dans le bureau ✮✮.

A chaque pas, neuf actions sont possibles. Elles concernent l’´economiseur d’´ecran et la musique :

Economiseur d’´ecran Musique

Action Verrouiller D´everrouiller Rien Pause Jouer Rien

1 × × 2 × × 3 × × 4 × × 5 × × 6 × × 7 × × 8 × × 9 × ×

Tab.6.1 – Les neuf actions possibles lorsqu’un événement d’entrée ou sortie de personnes est détecté.

Le comportement que nous souhaitons obtenir de l’assistant est le suivant : lorsque l’utilisateur quitte le bureau, la musique se met en pause et l’écran est verrouillé. Lorsque l’utilisateur entre dans son bureau, à l’inverse, la musique rejoue et l’écran est déverrouillé.

La règle pour donner les récompenses est la suivante : lorsque l’action est bonne pour les deux paramètres (l’écran et la musique), le renforcement est très bon (50). Lorsque les deux paramètres sont mauvais, on donne un renforcement fortement négatif (−50). Enfin, lorsque seule l’une des deux actions est mauvaise, le renforcement donné est moins négatif (−25). Le modèle de renforcement fourni est fait ✭✭ à la main ✮✮ pour correspondre à ces valeurs. Le modèle de transitions est également fait ✭✭ à la main ✮✮ et englobe les états rencontrés lors de ce simple scénario.

Au départ de l’expérience, la q-table est vide et l’on commence par exécuter un épisode de q-Learning de 20 itérations. Après cet épisode exécuté pour initia-liser le comportement, nous exécuterons un épisode plus court, de 10 itérations,

6.4 – Exp´erience n➦2 : autour de l’apprentissage initial 149

chaque minute. Chaque épisode démarre dans le même état initial par défaut et rejoue des événements choisis au hasard dans la base de données.

Afin d’évaluer la politique apprise, le simulateur joue en parallèle et en boucle le scénario décrit ci-dessus. Après 50 épisodes, nous modifions le taux d’explo-ration de notre politique ǫ-gloutonne de 0.5 à 0.1. Ceci signifie que 90% des fois, c’est la meilleure action qui est choisie. Pour mesurer l’évolution de la somme des renforcements donnés, nous avons rejoué ce scénario près de 800 fois et nous avons calculé cette somme des renforcements re¸cus pour chaque instance du scénario.

Remarque : L’exécution d’un scénario n’a aucune influence sur l’apprentis-sage (elle en aurait sur l’apprentisl’apprentis-sage du modèle du monde, mais celui-ci n’est pas effectué dans cette expérience). Elle permet simplement de visualiser l’évo-lution de la politique apprise. Cette expérience ne veut donc en aucun cas dire que l’utilisateur devrait entrer et sortir de son bureau 800 fois !

Les résultats de cette expérience sont présentés dans la section 7.2.

6.4 Exp´erience n➦2 : autour de l’apprentissage

initial

Cette expérience a pour but de comparer les différents paramètres pouvant varier dans la phase initiale, au premier démarrage du système. Cette phase consiste à transformer le modèle de l’environnement initial en une q-table initiale et donc un comportement initial. En effet, il est plus facile de spécifier des transitions et des exemples de récompenses que des q-valeurs (la section 5.8

traite de cet aspect). Afin d’initialiser la q-table de manière à refléter ce modèle de l’environnement initial, nous exécutons des épisodes hors-ligne de q-Learning. On intègre ainsi à la q-table la connaissance que nous avons du monde.

Les param`etres que nous pouvons faire varier sont les suivants : 1. Le nombre d’´episodes (NB_EP) ;

2. Le nombre d’it´erations de chaque ´episode (NB_ITER) ;

3. L’état initial de chaque épisode (INIT_STATE) avec les trois possibilités : – L’état par défaut (tous les arguments ont des valeurs nulles <null>)

(DEF) ;

– Un ´etat dont toutes les valeurs sont tir´ees au hasard (RND) ;

– Un état tiré au hasard parmi tous les états déjà rencontrés (pour cette option il faut donc attendre que le système ait commencé à tourner et `

a enregistrer dans la base de données les états rencontrés) (RND_DB). 4. Le choix de l’événement à chaque pas de chaque épisode (EVENT_GEN),

deux possibilit´es :

– Un événement généré aléatoirement (RND) ;

– Un événement choisi aléatoirement parmi tous les événements enregis-trés dans la base de données (de même, ceci ne peut être fait qu’après le démarrage du système) (RND_DB).

Nous avons donc exécuté des tests pour déterminer les meilleurs choix parmi les valeurs suivantes des paramètres définis ci-dessus (tableau6.2).

Remarque : Il est int´eressant de remarquer pourquoi nous choisissons d’ef-fectuer plusieurs ´episodes pour cette phase initiale, au lieu d’un seul plus long,

Param`etre Valeurs possibles NB_EP de 1 `a 100 INIT_STATE DEF, RND, RND_DB

NB_ITER 10, 25, 50, 100 EVENT_GEN RND, RND_DB

Tab.6.2 – Param`etres variant dans l’exp´erience n➦2 et leurs valeurs.

comme nous avons d’abord pensé le faire (section6.3). D’abord, plusieurs épi-sodes représentent plusieurs chemins dans le graphe formé par le modèle de tran-sition. Effectuer plusieurs chemins apporte une plus grande probabilité d’explo-rer davantage l’espace d’états-actions, d’autant plus si chaque épisode démarre dans un état aléatoire. Ensuite, un épisode a toujours une possibilité de se blo-quer. Comme il est expliqué section 5.10, si le modèle de transition ne peut pas fournir l’état suivant lors d’une itération, alors l’itération est abandonnée et un nouvel événement est choisi1. Ainsi, les épisodes dépendent du modèle de l’environnement, de la connaissance actuelle qu’a l’assistant du monde. Dans le cas de cette initialisation du comportement, le modèle du monde est particu-lièrement réduit. Il y a, par conséquent, une probabilité forte qu’il existe des états terminaux dans lesquels le modèle ne connaˆıt l’issue d’aucune action ni d’aucun événement. Si nous effectuons un seul épisode et que nous rencontrons un tel état, le résultat de l’apprentissage risque d’être particulièrement faible. Faire plusieurs épisodes permet de se débloquer d’une telle situation.

Les résultats de cette expérience sont présentés dans la section 7.3.

6.5 Exp´erience n➦3 : Int´egration des interactions

avec l’utilisateur et de l’apprentissage par

renforcement et supervis´e

Enfin, nous avons lancé ensemble toutes les parties de notre assistant. Tou-tefois, nous avons subdivisé cette expérience car, dans un premier temps, nous avons encore utilisé le simulateur du monde, mais d’une manière différente de la première expérience.

6.5.1 ✭✭ Le tableau de bord ✮✮

Le tableau de bord est une interface graphique intégrée au simulateur de l’en-vironnement et qui propose des boutons pour envoyer à l’assistant tous les types événements définis dans l’environnement. Cette interface est montrée figure6.3. Ceci se rapproche beaucoup plus du cas réel que l’utilisation précédente du si-mulateur (avec des scénarios) et permet simplement d’éviter les problèmes liés

Remarque: ce n’est pas le cas avec le modèle de récompense. En effet, lorsque celui-ci n’a pas d’informations à fournir, il retourne un renforcement de zéro. Ceci n’est pas une raison pour abandonner l’itération car, dans le cas réel, si l’utilisateur ne fournit pas de renforcement, l’algorithme s’effectue avec un renforcement nul (alors que, dans le cas réel, il y a toujours un ´

6.5 – Expérience n➦3 : Intégration des interactions avec l’utilisateur et de l’apprentissage par renforcement et supervisé 151

aux capteurs réels, mais aussi de simplifier la vie du développeur qui souhaite générer des événements pour tester le système.

Fig. 6.3 – Une capture d’écran de l’interface ✭✭ tableau de bord ✮✮. L’onglet sélectionné ici permet d’envoyer des événements d’entrée/sortie de dispositifs Bluetooth enregistrés dans la base de données.

6.5.2 Exp´erience

Pour cette expérience, nous sommes partis de la q-table gagnante de l’expé-rience précédente (section6.4), qui représente le comportement initial de notre assistant, obtenu en ✭✭ traduisant ✮✮ le modèle du monde par défaut en compor-tement.

L’assistant interagit avec le simulateur de l’environnement, contrôlé par l’ex-périmentateur. Tous les six pas (événements de l’environnement ou actions de l’assistant), l’apprentissage supervisé des modèles de transition et de récom-pense se déclenche afin d’intégrer les dernières informations enregistrées. Les épisodes d’apprentissage par renforcement hors-ligne s’exécutent en tâche de fond un par un, avec une minute d’intervalle entre deux épisodes. Ces inter-valles d’une minute et de six pas ont été choisis afin d’accélérer l’expérience, puisque l’expérimentateur est là pour générer des événements fréquents. Dans ✭✭ la vie réelle ✮✮, les événements seront moins fréquents et l’intervalle pourra être augmenté progressivement. Après une première phase d’adaptation active `

a l’utilisateur, nous pourrons exécuter un épisode2 par jour par exemple. En ef-fet, l’utilisateur pourra bien sûr modifier ses préférences, pour cette raison nous n’arrêterons jamais définitivement l’apprentissage, mais ces modifications seront peu fréquentes et à grande échelle.

Nous avons laissé ✭✭ tourner ✮✮ l’assistant dans ces conditions pendant plu-sieurs jours, en passant un peu de temps à lui fournir de nouveaux événements et des renforcements. Certains de ces renforcements étaient dans la continuité de ce qui était déjà présent dans le modèle initial, et certains étaient nouveaux car ils répondaient à des événements non modélisés par défaut. Les résultats de cette expérience seront présentés section7.4.

Une phase d’apprentissage par renforcement qui int´egrera les entr´ees de l’utilisateur au comportement.

6.6 Validation crois´ee de l’algorithme

d’appren-tissage supervis´e de la fonction de transition

L’algorithme d’apprentissage supervisé du modèle de transition est décrit section 5.9.1. Nous avons mis en avant le fait que cet algorithme permet une généralisation des exemples sur lesquels il apprend le modèle. Ceci permet à l’ap-prentissage par renforcement hors ligne (algorithme 7 section 5.10) d’explorer une plus grande partie de l’espace d’états-actions, et ainsi d’avoir une estimation du bon comportement dans un état qui n’a encore jamais été observé.

Afin de vérifier cette capacité de généralisation, nous avons effectué une validation croisée à 10 plis (10-fold cross-validation). L’ensemble des exemples de transition Ex = {{s, o, s′

}} de la base de données a été aléatoirement divisé en un ensemble de 10 sous-parties disjointes formant une partition : Ex = {exi, i ∈ [0, 9]}. L’algorithme de validation croisée est résumé par l’algorithme8

ci-dessous.

Algorithme 8: Validation croisée de l’apprentissage supervisé du modèle de transition.

Entr´ee: Une partition de l’ensemble d’exemples Ex = {exi, i ∈ [0, 9]} Sortie: Une matrice de confusion

Pour chaquepartition exk, k ∈ [0, 9] faire

Apprendre le mod`ele de transition sur les exemples des partitions exj, j ∈ [0, 9] \ k;

Tester le mod`ele appris sur les exemples de la partition exk;

Cet algorithme permet de tester le modèle appris sur des exemples ne faisant pas partie de l’ensemble d’apprentissage et ainsi d’estimer sa capacité de géné-ralisation. De plus, la partition étant aléatoire et l’apprentissage étant effectué dix fois sur différents ensembles d’exemples, ce test est indépendant des données et du choix de la partition. Le résultat de cette validation croisée est présenté dans la section7.5.

Chapitre 7

R´esultats et interpr´etation

Dans ce chapitre, nous allons décrire et commenter les résultats de chacune des expériences décrites dans le chapitre précédent (chapitre 6). Avant cela, dans la section 7.1, nous allons préciser les critères importants pour évaluer notre assistant et le système de mesure que nous avons mis en place.

Dans le document Apprentissage par renforcement de modeles de contexte pour l'informatique ambiante (Page 149-154)