R´ esum´ e des exp´ eriences

Mise en place des

6.1 R´ esum´ e des exp´ eriences

Nous avons effectué plusieurs expériences afin de tester notre système. Ces expériences sont de plus en plus complètes. La première expérience (section6.3) vise à se détacher de la partie ✭✭ environnement ambiant ✮✮ afin d’éviter les pro-blèmes de fausses détections, de latence, de communication entre modules, etc. Elle écarte également les deux algorithmes d’apprentissage du modèle de l’en-vironnement (l’apprentissage supervisé du modèle de transition – algorithme5, et du modèle de renforcement – algorithme6). Ceci nous permettra de ne tes-ter que l’algorithme d’apprentissage par renforcement (algorithme3). Pour ceci, nous avons utilisé des modèles écrits à la main, et un simulateur de l’environne-ment, décrit section6.2. La deuxième expérience (section6.4) se concentre sur la partie ✭✭ initialisation ✮✮ de l’assistant. Comme il est expliqué section5.8, lorsque l’assistant est mis en route pour la première fois, sa q-table est vide (son com-portement est donc totalement aléatoire) mais il possède un modèle du monde initial. Ce modèle est très incomplet mais permet à l’assistant d’initialiser sa q-table en effectuant d’entrée des épisodes d’apprentissage par renforcement in-direct (algorithme7). La deuxième expérience vise donc à choisir les paramètres optimaux pour cette phase initiale. Enfin, la troisième expérience (section 6.5) vise à évaluer le système dans sa globalité. L’assistant débute avec la q-table résultante de l’expérience précédente, et s’exécute dans l’environnement en inter-agissant avec l’utilisateur pendant une période de temps prolongée. L’assistant

apprend en tâche de fond le modèle du monde avec ses algorithmes supervisés, ce qui permet d’intégrer les éléments du monde qui n’étaient pas inclus dans le modèle initial. Il exécute également, à intervalles de temps réguliers, l’algo-rithme d’apprentissage hors ligne afin d’intégrer dans la q-table ces nouvelles observations.

6.2 Le simulateur de l’environnement

Nous avons mis en place une plate-forme expérimentale pour tester nos al-gorithmes. Le monde est simulé. Cette plate-forme remplace tous les capteurs et effecteurs de l’environnement (décrits sections4.5.1 et4.5.2). Le simulateur envoie des événements de la même manière que le font les capteurs. Il re¸coit les commandes et y répond comme les effecteurs le feraient.

Il est possible de fournir un scénario d’échanges prédéfini. Dans ce cas, on peut considérer que l’utilisateur est également simulé. La section 6.5.1 décrit une utilisation du simulateur qui n’intègre pas l’utilisateur.

Ces échanges suivent un scénario prédéfini.

Un scénario est une séquence d’événements, par exemple : 0. ✭✭ Sofia est dans le bureau ✮✮ ;

1. ✭✭ Nouvel email de diffusion ✮✮ ;

2. ✭✭ Rappel : barbecue de l’´equipe `a 13h ✮✮ ; 3. ✭✭ Sofia quitte le bureau ✮✮ ;

4. ✭✭ Bob entre dans le bureau ✮✮ ; 5. ✭✭ Sofia entre dans le bureau ✮✮ ; et ainsi de suite.

Le simulateur re¸coit un tel scénario en entrée et envoie les événements corres-pondants de fa¸con séquentielle. De plus, il re¸coit les actions prises par l’assistant et renvoie des récompenses à celui-ci. Ces récompenses sont prédéfinies dans le scénario et l’assistant les traite exactement de la même fa¸con que les récom-penses réelles de l’utilisateur.

Le scénario prédéfinit à chaque étape l’état souhaité et la récompense à en-voyer si cet état est effectivement atteint. Dans le cas contraire, nous diminuons la récompense en fonction de la distance entre l’état réellement atteint et l’état souhaité (se référer à la section6.2.1). Pour cela, le simulateur a accès à l’état courant de l’assistant.

Ce système permet de tester facilement et automatiquement les algorithmes d’apprentissage. Les scénarios déterministes permettent de faire des expérimen-tations simplement car on peut tester plusieurs hypothèses dans les mêmes conditions.

6.2.1 Distance entre ´etats

La distance entre deux états s1 et s2 est calculée comme le nombre de pas nécessaires pour obtenir s2en partant de s1, c’est-à-dire le nombre de transitions entre s1 et s2 dans le graphe défini par le modèle de transition. L’algorithme de calcul de la distance est un algorithme récursif de recherche en largeur dans l’arbre formé par l’état de départ s1et ses successeurs. Cet arbre est représenté

6.2 – Le simulateur de l’environnement 147

Fig.6.1 – Le service simulant l’environnement connect´e `a l’assistant personnel.

sur la figure6.2. Dans cet exemple, l’état recherché s2est trouvé parmi les états successeurs des successeurs de s1, la distance entre s1 et s2 vaut donc 2.

Fig. 6.2 – Exemple d’arbre produit par le mod`ele de transition. Dans cet exemple, d(s1, s2) = 2.

La recherche se fait sur un maximum de six étages dans l’arbre, ce chiffre étant choisi en raison du temps de calcul. Les états successeurs d’un état s sont obtenus en effectuant toutes les transitions possibles. Les transitions peuvent se faire par suite d’une action de l’assistant ou bien d’un événement de l’environ-nement (ceci est expliqué en détail section 5.6.5). Dans un état donné s, tous les événements peuvent survenir car ils sont indépendants de l’état de l’assis-tant. Par contre, l’ensemble d’actions possibles dans un état dépend de cet état. Lorsque le modèle de transition est incomplet pour un couple (s, a) ou (s, e), l’état suivant renvoyé est l’état de départ s ; dans ce cas la transition est ignorée pour le calcul de la distance. La distance entre deux mêmes états dépend donc de la connaissance actuelle qu’a l’assistant du monde.

Dans le document Apprentissage par renforcement de modeles de contexte pour l'informatique ambiante (Page 146-149)