Simulation - Vers l’apprentissage en ligne des politiques

3.5 Vers l’apprentissage en ligne des politiques

3.5.1 Simulation

Le régime d’apprentissage et de test qui est souvent considéré comme le plus simple et le plus efficace consiste à avoir recours à la simulation. En effet, la construction et l’exploitation d’environnements simulés permet d’automatiser l’exploration d’une large couverture de l’espace des dialogues possibles, selon une gamme variée de scé-narios tout en offrant la capacité de pouvoir modifier les conditions expérimentales telle que le niveau d’erreurs des modules de compréhension (Watanabe et al., 1998;

Ai et Weng,2008). Ainsi, ces systèmes permettent la conduite d’interactions fictives à même de générer des comportements utilisateur, auxquels le concepteur du système n’a pas forcement pensé (Pietquin et Hastie,2013). De plus, la simulation a longtemps été considérée comme une étape incontournable pour initier l’optimisation de la straté-gie d’interaction en ligne par RL (Schatzmann et al.,2007b;Young et al.,2010;Thomson et Young,2010) avant de pouvoir procéder à des raffinements en interagissant avec de vrais utilisateurs. Ceci s’explique notamment par le fait que les techniques d’appren-tissage employées jusqu’alors avaient des propriétés lentes de convergence (plusieurs milliers d’interactions étaient généralement nécessaires), ce qui proscrivait leur utilisa-tion directe (apprentissage de zéro).

Un simulateur repose sur la définition d’unmodèle utilisateur (on parlera égale-ment d’utilisateur simulé) et d’unmodèle d’erreurs(on parlera également de simula-teur d’erreurs).

Simulateur d’erreurs

Gestionnaire de dialogue Actes de

dialogue

Ressources (base de données,

web, …) Utilisateur simulé

FIGURE3.8 –Cycle d’interaction au niveau intentionnel entre un utilisateur simulé et le gestion-naire de dialogue.

La figure 3.8illustre le cycle du dialogue tel que généralement mis en œuvre lors-qu’un simulateur est considéré. Il s’agit là d’une représentation usuelle de la simulation qui vise à reproduire le comportement d’un utilisateur au niveau intentionnel (actes de dialogue). En suivant ce paradigme, l’utilisateur simulé génère sa réponse courante sous forme d’actes de dialogue en tenant compte de l’historique de l’interaction. Ces actes sont ensuite transmis à un simulateur d’erreurs qui génère des confusions sem-blables à celle que ferait la chaîne de compréhension et produit des scores de confiances adéquats. Puis le système répond à l’utilisateur sans avoir recours à la chaîne de géné-ration.

Il à noter qu’il existe également des environnements de simulation qui ne se contente pas du simple niveau intentionnel mais vont également jusqu’au niveau des mots (Schatz-mann et al., 2007a; Jung et al., 2009; Khouzaimi et al., 2015). Dans ce cas les actions utilisateur (actes de dialogue) telles que sélectionnées par le simulateur servent en tout premier lieu à générer des formes de surface. Ces dernières sont ensuite traitées par un simulateur d’erreurs capable de reproduire, à l’instar des erreurs que ferait le module ASR, des confusions au niveau des mots. Ceci permet notamment d’employer sur ces formes bruitées le même module SLU qui est employé lorsque le système se trouve face à de vrais utilisateurs.

Le modèle utilisateur

Un modèle vise à reproduire le comportement d’un utilisateur au niveau intention-nel (actes de dialogue). En se plaçant à ce niveau plus abstrait, l’apprentissage en est facilité. Pour ce faire, le modèle utilisateur détermine la distribution sur l’ensemble des réponses utilisateur possibles sachant l’historique de l’interaction (actes de dialogue utilisateur et système), notée :

p(u_t|^at,u_t₋₁,a_t₋₁,u_t₋₂, ...) (3.25) Cette distribution est généralement apprise sur un corpus de dialogue. Ainsi, on retrouve dans la littérature plusieurs techniques pour estimer cette distribution sur la base de données. Parmi les plus anciennes, on peut mentionner l’approche N-grammes (Eckert et al., 1997; Levin et al., 1997) qui consiste à estimer la réponse utilisateur la plus probable compte tenu d’un historique réduit (N=2 ou N=3) . Cependant, une des limitations de cette approche et qu’en pratique N doit être grand pour pouvoir générer des comportements cohérents. Or du fait du manque de données (quelques centaines de dialogues seulement) considérer un N trop grand (N=4, N=5) conduirait nécessaire-ment à des modèles peu fiables.

Une réponse à cette problématique consiste à employer des solutions garantissant le suivi d’un but tout au long de l’interaction et reposant principalement sur la mise en place d’heuristiques de contrôle dans lesquelles certains paramètres décisionnels sont initialisés par expertise, puis éventuellement optimisés à l’aide de données. On pourra donner comme exemple de ce type de techniques celles reposant sur le maintien d’un agenda (Schatzmann et al.,2007b; Keizer et al., 2010). Nous détaillons d’ailleurs tout

3.5. Vers l’apprentissage en ligne des politiques

particulièrement cette solution dans la section4.2.2pour en avoir fait l’usage dans nos travaux préliminaires. Si en pratique de telles techniques obtiennent de bonnes perfor-mances elles nécessitent généralement un gros travail de raffinement des heuristiques sur lesquelles elles reposent pour générer des comportements cohérents.

D’autres approches utilisent les HMM (Pietquin,2004;Cuayáhuitl et al.,2005) ou en-core les réseaux bayésiens (Pietquin et Dutoit,2006;Rossignol et al.,2011) pour garantir un cadre formel incorporant explicitement le but utilisateur (structure), modélisant des dépendances conditionnelles riches et ayant de nombreux paramètres estimables via des techniques d’apprentissage. Certains travaux ont également envisagé l’utilisation de méthodes discriminantes telles que les CRF (Jung et al.,2009) qui présentent l’avan-tage de pouvoir modéliser plus efficacement de grandes séquences d’observations.

Une autre technique consiste à développer un simulateur défini de façon symétrique au DM, à savoir via un modèle de type MDP ou POMDP. Dans cette vision du pro-blème le DM et le simulateur peuvent interagir ensemble tout en optimisant leur po-litique respective via l’observation de leurs propres récompenses. Le principal frein à cette idée réside dans la définition d’une fonction de récompense immédiate pour per-mettre l’optimisation de la politique d’interaction de l’utilisateur. Parmi les solutions envisagées, des techniques telles que celles de l’IRL (Ng et al.,2000) ont été proposées dans (Chandramohan et al.,2011) pour estimer cette fonction sur la base d’un corpus d’interactions.

La simulation des erreurs

Comme dans des conditions d’interaction réelles, le système de dialogue n’a à sa disposition que des observations bruitées des vraies réponses de l’utilisateur, un mo-dèle d’erreur est également employé pour améliorer le réalisme de l’outil de simulation.

Ce dernier doit pouvoir être à même de reproduire les erreurs faites par la chaîne de compréhension (ASR et SLU) sur l’énoncé tel qu’émis par l’utilisateur tout en étant ca-pable de produire des scores de confiances pertinents. En effet, les scores de confiances attribués à la distribution complète des hypothèses de compréhension ont un rôle pri-mordial dans la modélisation de l’état de croyance comme le montre l’étude dans (Thom-son et al.,2008). Il peut également être intéressant que ledit module soit paramétrable, permettant par exemple de pouvoir jouer sur le niveau de performance simulé de la chaîne de compréhension. Ceci permet de pouvoir faciliter la tenue d’évaluations contrastives sur des cas d’utilisations limites (pour par exemple étudier la tolérance aux bruits).

Pour ce faire, plusieurs techniques ont été étudiées dans la littérature. La plupart d’entre elles se sont concentrées sur la modélisation des erreurs faites par l’ASR et ce en ne considérant que la première hypothèse de transcription. Certains travaux ont fait l’usage de taux d’erreurs fixes dépendant de la tâche réalisée par le système (reconnais-sance de numéro, de date, parole libre) (Pietquin et Renals,2002), du profil utilisateur (Prommer et al.,2006) ou d’une estimation établie sur des données (Georgila et al.,2005;

Lemon et al.,2006). D’autres approches se sont quant à elle concentrées sur une mo-délisation plus fine des erreurs au travers de la momo-délisation de possibles confusions phonétiques (Deng et al., 2003; Pietquin, 2004; Stuttle et al., 2004;Pietquin et Dutoit, 2006;Schatzmann et al.,2007a;Jung et al.,2009) et de l’étude de leurs incidences sur la compréhension (Schatzmann et al.,2007a).

Limites de la simulation

Même si le recours à la simulation présente certains avantages une fois le simula-teur en place (facilité de mise en place des expériences), leur utilisation pour l’évalua-tion pose problème puisque les performances obtenues en simulal’évalua-tion ne peuvent être uniquement interprétées que comme le résultat de l’adéquation entre les conditions de simulation et la politique de dialogue, que l’on sait très sensible aux performances du simulateur (Schatzmann et al.,2005; Ai et al., 2007; Pietquin et Hastie,2013). Afin de s’assurer de l’adéquation des politiques apprises face à de vrais utilisateurs certaines études ont proposé de les tester en conditions réelles (Schatzmann et al.,2007b).

Cependant quand le système doit être développé de zéro, les conditions nécessaires à l’établissement d’un simulateur ne sont pas toujours réunies, du fait du manque de données pour modéliser l’utilisateur et/ou les erreurs (d’autant plus si la nature de l’interaction est complexe - cas d’un système multimodal). Plutôt que d’envisager une collecte de données coûteuses avec WoZ, dans cette thèse nous prenons le parti de dire que dans la mesure où l’apprentissage RL est rendu suffisamment efficace, il peut être intéressant d’envisager un apprentissage direct face à de vrais utilisateurs (éventuelle-ment des utilisateurs moins sensibles aux conditions difficiles - concepteur du système / panel réduit).

Dans le document Apprentissage automatique en ligne pour un dialogue homme-machine situé ~ Association Francophone de la Communication Parlée (Page 83-86)