Simulation - Vers l’apprentissage en ligne des politiques

3.5 Vers l’apprentissage en ligne des politiques

3.5.1 Simulation

Le régime d’apprentissage et de test qui est souvent considéré comme le plus simple

et le plus efficace consiste à avoir recours à la simulation. En effet, la construction

et l’exploitation d’environnements simulés permet d’automatiser l’exploration d’une

large couverture de l’espace des dialogues possibles, selon une gamme variée de

scé-narios tout en offrant la capacité de pouvoir modifier les conditions expérimentales

telle que le niveau d’erreurs des modules de compréhension (Watanabe et al., 1998;

Ai et Weng,2008). Ainsi, ces systèmes permettent la conduite d’interactions fictives à

même de générer des comportements utilisateur, auxquels le concepteur du système

n’a pas forcement pensé (Pietquin et Hastie,2013). De plus, la simulation a longtemps

été considérée comme une étape incontournable pour initier l’optimisation de la

straté-gie d’interaction en ligne par RL (Schatzmann et al.,2007b;Young et al.,2010;Thomson

et Young,2010) avant de pouvoir procéder à des raffinements en interagissant avec de

vrais utilisateurs. Ceci s’explique notamment par le fait que les techniques

d’appren-tissage employées jusqu’alors avaient des propriétés lentes de convergence (plusieurs

milliers d’interactions étaient généralement nécessaires), ce qui proscrivait leur

utilisa-tion directe (apprentissage de zéro).

Un simulateur repose sur la définition d’unmodèle utilisateur (on parlera

égale-ment d’utilisateur simulé) et d’unmodèle d’erreurs(on parlera également de

simula-teur d’erreurs).

Simulateur

d’erreurs

Gestionnaire

de dialogue

Actes de

dialogue

Ressources

(base de données,

web, …)

Utilisateur simulé

F

IGURE

3.8 –Cycle d’interaction au niveau intentionnel entre un utilisateur simulé et le

La figure 3.8illustre le cycle du dialogue tel que généralement mis en œuvre

lors-qu’un simulateur est considéré. Il s’agit là d’une représentation usuelle de la simulation

qui vise à reproduire le comportement d’un utilisateur au niveau intentionnel (actes de

dialogue). En suivant ce paradigme, l’utilisateur simulé génère sa réponse courante

sous forme d’actes de dialogue en tenant compte de l’historique de l’interaction. Ces

actes sont ensuite transmis à un simulateur d’erreurs qui génère des confusions

sem-blables à celle que ferait la chaîne de compréhension et produit des scores de confiances

adéquats. Puis le système répond à l’utilisateur sans avoir recours à la chaîne de

géné-ration.

Il à noter qu’il existe également des environnements de simulation qui ne se contente

pas du simple niveau intentionnel mais vont également jusqu’au niveau des mots (

Schatz-mann et al., 2007a; Jung et al., 2009; Khouzaimi et al., 2015). Dans ce cas les actions

utilisateur (actes de dialogue) telles que sélectionnées par le simulateur servent en tout

premier lieu à générer des formes de surface. Ces dernières sont ensuite traitées par un

simulateur d’erreurs capable de reproduire, à l’instar des erreurs que ferait le module

ASR, des confusions au niveau des mots. Ceci permet notamment d’employer sur ces

formes bruitées le même module SLU qui est employé lorsque le système se trouve face

à de vrais utilisateurs.

Le modèle utilisateur

Un modèle vise à reproduire le comportement d’un utilisateur au niveau

intention-nel (actes de dialogue). En se plaçant à ce niveau plus abstrait, l’apprentissage en est

facilité. Pour ce faire, le modèle utilisateur détermine la distribution sur l’ensemble des

réponses utilisateur possibles sachant l’historique de l’interaction (actes de dialogue

utilisateur et système), notée :

p(u

|a

,u

_t₋₁

,a

_t₋₁

,u

_t₋₂

, ...) (3.25)

Cette distribution est généralement apprise sur un corpus de dialogue. Ainsi, on

retrouve dans la littérature plusieurs techniques pour estimer cette distribution sur la

base de données. Parmi les plus anciennes, on peut mentionner l’approche N-grammes

(Eckert et al., 1997; Levin et al., 1997) qui consiste à estimer la réponse utilisateur la

plus probable compte tenu d’un historique réduit (N=2 ou N=3) . Cependant, une des

limitations de cette approche et qu’en pratique N doit être grand pour pouvoir générer

des comportements cohérents. Or du fait du manque de données (quelques centaines

de dialogues seulement) considérer un N trop grand (N=4, N=5) conduirait

nécessaire-ment à des modèles peu fiables.

Une réponse à cette problématique consiste à employer des solutions garantissant

le suivi d’un but tout au long de l’interaction et reposant principalement sur la mise en

place d’heuristiques de contrôle dans lesquelles certains paramètres décisionnels sont

initialisés par expertise, puis éventuellement optimisés à l’aide de données. On pourra

donner comme exemple de ce type de techniques celles reposant sur le maintien d’un

particulièrement cette solution dans la section4.2.2pour en avoir fait l’usage dans nos

travaux préliminaires. Si en pratique de telles techniques obtiennent de bonnes

perfor-mances elles nécessitent généralement un gros travail de raffinement des heuristiques

sur lesquelles elles reposent pour générer des comportements cohérents.

D’autres approches utilisent les HMM (Pietquin,2004;Cuayáhuitl et al.,2005) ou

en-core les réseaux bayésiens (Pietquin et Dutoit,2006;Rossignol et al.,2011) pour garantir

un cadre formel incorporant explicitement le but utilisateur (structure), modélisant des

dépendances conditionnelles riches et ayant de nombreux paramètres estimables via

des techniques d’apprentissage. Certains travaux ont également envisagé l’utilisation

de méthodes discriminantes telles que les CRF (Jung et al.,2009) qui présentent

l’avan-tage de pouvoir modéliser plus efficacement de grandes séquences d’observations.

Une autre technique consiste à développer un simulateur défini de façon symétrique

au DM, à savoir via un modèle de type MDP ou POMDP. Dans cette vision du

pro-blème le DM et le simulateur peuvent interagir ensemble tout en optimisant leur

po-litique respective via l’observation de leurs propres récompenses. Le principal frein à

cette idée réside dans la définition d’une fonction de récompense immédiate pour

per-mettre l’optimisation de la politique d’interaction de l’utilisateur. Parmi les solutions

envisagées, des techniques telles que celles de l’IRL (Ng et al.,2000) ont été proposées

dans (Chandramohan et al.,2011) pour estimer cette fonction sur la base d’un corpus

d’interactions.

La simulation des erreurs

Comme dans des conditions d’interaction réelles, le système de dialogue n’a à sa

disposition que des observations bruitées des vraies réponses de l’utilisateur, un

mo-dèle d’erreur est également employé pour améliorer le réalisme de l’outil de simulation.

Ce dernier doit pouvoir être à même de reproduire les erreurs faites par la chaîne de

compréhension (ASR et SLU) sur l’énoncé tel qu’émis par l’utilisateur tout en étant

ca-pable de produire des scores de confiances pertinents. En effet, les scores de confiances

attribués à la distribution complète des hypothèses de compréhension ont un rôle

pri-mordial dans la modélisation de l’état de croyance comme le montre l’étude dans (

Thom-son et al.,2008). Il peut également être intéressant que ledit module soit paramétrable,

permettant par exemple de pouvoir jouer sur le niveau de performance simulé de

la chaîne de compréhension. Ceci permet de pouvoir faciliter la tenue d’évaluations

contrastives sur des cas d’utilisations limites (pour par exemple étudier la tolérance

aux bruits).

Pour ce faire, plusieurs techniques ont été étudiées dans la littérature. La plupart

d’entre elles se sont concentrées sur la modélisation des erreurs faites par l’ASR et ce

en ne considérant que la première hypothèse de transcription. Certains travaux ont fait

l’usage de taux d’erreurs fixes dépendant de la tâche réalisée par le système

(reconnais-sance de numéro, de date, parole libre) (Pietquin et Renals,2002), du profil utilisateur

Lemon et al.,2006). D’autres approches se sont quant à elle concentrées sur une

mo-délisation plus fine des erreurs au travers de la momo-délisation de possibles confusions

phonétiques (Deng et al., 2003; Pietquin, 2004; Stuttle et al., 2004;Pietquin et Dutoit,

2006;Schatzmann et al.,2007a;Jung et al.,2009) et de l’étude de leurs incidences sur la

compréhension (Schatzmann et al.,2007a).

Limites de la simulation

Même si le recours à la simulation présente certains avantages une fois le

simula-teur en place (facilité de mise en place des expériences), leur utilisation pour

l’évalua-tion pose problème puisque les performances obtenues en simulal’évalua-tion ne peuvent être

uniquement interprétées que comme le résultat de l’adéquation entre les conditions de

simulation et la politique de dialogue, que l’on sait très sensible aux performances du

simulateur (Schatzmann et al.,2005; Ai et al., 2007; Pietquin et Hastie,2013). Afin de

s’assurer de l’adéquation des politiques apprises face à de vrais utilisateurs certaines

études ont proposé de les tester en conditions réelles (Schatzmann et al.,2007b).

Cependant quand le système doit être développé de zéro, les conditions nécessaires

à l’établissement d’un simulateur ne sont pas toujours réunies, du fait du manque de

données pour modéliser l’utilisateur et/ou les erreurs (d’autant plus si la nature de

l’interaction est complexe - cas d’un système multimodal). Plutôt que d’envisager une

collecte de données coûteuses avec WoZ, dans cette thèse nous prenons le parti de dire

que dans la mesure où l’apprentissage RL est rendu suffisamment efficace, il peut être

intéressant d’envisager un apprentissage direct face à de vrais utilisateurs

(éventuelle-ment des utilisateurs moins sensibles aux conditions difficiles - concepteur du système

/ panel réduit).

Dans le document Apprentissage automatique en ligne pour un dialogue homme-machine situé (Page 80-83)