3.5 Vers l’apprentissage en ligne des politiques
3.5.1 Simulation
Le régime d’apprentissage et de test qui est souvent considéré comme le plus simple
et le plus efficace consiste à avoir recours à la simulation. En effet, la construction
et l’exploitation d’environnements simulés permet d’automatiser l’exploration d’une
large couverture de l’espace des dialogues possibles, selon une gamme variée de
scé-narios tout en offrant la capacité de pouvoir modifier les conditions expérimentales
telle que le niveau d’erreurs des modules de compréhension (Watanabe et al., 1998;
Ai et Weng,2008). Ainsi, ces systèmes permettent la conduite d’interactions fictives à
même de générer des comportements utilisateur, auxquels le concepteur du système
n’a pas forcement pensé (Pietquin et Hastie,2013). De plus, la simulation a longtemps
été considérée comme une étape incontournable pour initier l’optimisation de la
straté-gie d’interaction en ligne par RL (Schatzmann et al.,2007b;Young et al.,2010;Thomson
et Young,2010) avant de pouvoir procéder à des raffinements en interagissant avec de
vrais utilisateurs. Ceci s’explique notamment par le fait que les techniques
d’appren-tissage employées jusqu’alors avaient des propriétés lentes de convergence (plusieurs
milliers d’interactions étaient généralement nécessaires), ce qui proscrivait leur
utilisa-tion directe (apprentissage de zéro).
Un simulateur repose sur la définition d’unmodèle utilisateur (on parlera
égale-ment d’utilisateur simulé) et d’unmodèle d’erreurs(on parlera également de
simula-teur d’erreurs).
Simulateur
d’erreurs
Gestionnaire
de dialogue
Actes de
dialogue
Ressources
(base de données,
web, …)
Utilisateur simulé
F
IGURE3.8 –Cycle d’interaction au niveau intentionnel entre un utilisateur simulé et le
La figure 3.8illustre le cycle du dialogue tel que généralement mis en œuvre
lors-qu’un simulateur est considéré. Il s’agit là d’une représentation usuelle de la simulation
qui vise à reproduire le comportement d’un utilisateur au niveau intentionnel (actes de
dialogue). En suivant ce paradigme, l’utilisateur simulé génère sa réponse courante
sous forme d’actes de dialogue en tenant compte de l’historique de l’interaction. Ces
actes sont ensuite transmis à un simulateur d’erreurs qui génère des confusions
sem-blables à celle que ferait la chaîne de compréhension et produit des scores de confiances
adéquats. Puis le système répond à l’utilisateur sans avoir recours à la chaîne de
géné-ration.
Il à noter qu’il existe également des environnements de simulation qui ne se contente
pas du simple niveau intentionnel mais vont également jusqu’au niveau des mots (
Schatz-mann et al., 2007a; Jung et al., 2009; Khouzaimi et al., 2015). Dans ce cas les actions
utilisateur (actes de dialogue) telles que sélectionnées par le simulateur servent en tout
premier lieu à générer des formes de surface. Ces dernières sont ensuite traitées par un
simulateur d’erreurs capable de reproduire, à l’instar des erreurs que ferait le module
ASR, des confusions au niveau des mots. Ceci permet notamment d’employer sur ces
formes bruitées le même module SLU qui est employé lorsque le système se trouve face
à de vrais utilisateurs.
Le modèle utilisateur
Un modèle vise à reproduire le comportement d’un utilisateur au niveau
intention-nel (actes de dialogue). En se plaçant à ce niveau plus abstrait, l’apprentissage en est
facilité. Pour ce faire, le modèle utilisateur détermine la distribution sur l’ensemble des
réponses utilisateur possibles sachant l’historique de l’interaction (actes de dialogue
utilisateur et système), notée :
p(u
t|a
t,u
t−1,a
t−1,u
t−2, ...) (3.25)
Cette distribution est généralement apprise sur un corpus de dialogue. Ainsi, on
retrouve dans la littérature plusieurs techniques pour estimer cette distribution sur la
base de données. Parmi les plus anciennes, on peut mentionner l’approche N-grammes
(Eckert et al., 1997; Levin et al., 1997) qui consiste à estimer la réponse utilisateur la
plus probable compte tenu d’un historique réduit (N=2 ou N=3) . Cependant, une des
limitations de cette approche et qu’en pratique N doit être grand pour pouvoir générer
des comportements cohérents. Or du fait du manque de données (quelques centaines
de dialogues seulement) considérer un N trop grand (N=4, N=5) conduirait
nécessaire-ment à des modèles peu fiables.
Une réponse à cette problématique consiste à employer des solutions garantissant
le suivi d’un but tout au long de l’interaction et reposant principalement sur la mise en
place d’heuristiques de contrôle dans lesquelles certains paramètres décisionnels sont
initialisés par expertise, puis éventuellement optimisés à l’aide de données. On pourra
donner comme exemple de ce type de techniques celles reposant sur le maintien d’un
particulièrement cette solution dans la section4.2.2pour en avoir fait l’usage dans nos
travaux préliminaires. Si en pratique de telles techniques obtiennent de bonnes
perfor-mances elles nécessitent généralement un gros travail de raffinement des heuristiques
sur lesquelles elles reposent pour générer des comportements cohérents.
D’autres approches utilisent les HMM (Pietquin,2004;Cuayáhuitl et al.,2005) ou
en-core les réseaux bayésiens (Pietquin et Dutoit,2006;Rossignol et al.,2011) pour garantir
un cadre formel incorporant explicitement le but utilisateur (structure), modélisant des
dépendances conditionnelles riches et ayant de nombreux paramètres estimables via
des techniques d’apprentissage. Certains travaux ont également envisagé l’utilisation
de méthodes discriminantes telles que les CRF (Jung et al.,2009) qui présentent
l’avan-tage de pouvoir modéliser plus efficacement de grandes séquences d’observations.
Une autre technique consiste à développer un simulateur défini de façon symétrique
au DM, à savoir via un modèle de type MDP ou POMDP. Dans cette vision du
pro-blème le DM et le simulateur peuvent interagir ensemble tout en optimisant leur
po-litique respective via l’observation de leurs propres récompenses. Le principal frein à
cette idée réside dans la définition d’une fonction de récompense immédiate pour
per-mettre l’optimisation de la politique d’interaction de l’utilisateur. Parmi les solutions
envisagées, des techniques telles que celles de l’IRL (Ng et al.,2000) ont été proposées
dans (Chandramohan et al.,2011) pour estimer cette fonction sur la base d’un corpus
d’interactions.
La simulation des erreurs
Comme dans des conditions d’interaction réelles, le système de dialogue n’a à sa
disposition que des observations bruitées des vraies réponses de l’utilisateur, un
mo-dèle d’erreur est également employé pour améliorer le réalisme de l’outil de simulation.
Ce dernier doit pouvoir être à même de reproduire les erreurs faites par la chaîne de
compréhension (ASR et SLU) sur l’énoncé tel qu’émis par l’utilisateur tout en étant
ca-pable de produire des scores de confiances pertinents. En effet, les scores de confiances
attribués à la distribution complète des hypothèses de compréhension ont un rôle
pri-mordial dans la modélisation de l’état de croyance comme le montre l’étude dans (
Thom-son et al.,2008). Il peut également être intéressant que ledit module soit paramétrable,
permettant par exemple de pouvoir jouer sur le niveau de performance simulé de
la chaîne de compréhension. Ceci permet de pouvoir faciliter la tenue d’évaluations
contrastives sur des cas d’utilisations limites (pour par exemple étudier la tolérance
aux bruits).
Pour ce faire, plusieurs techniques ont été étudiées dans la littérature. La plupart
d’entre elles se sont concentrées sur la modélisation des erreurs faites par l’ASR et ce
en ne considérant que la première hypothèse de transcription. Certains travaux ont fait
l’usage de taux d’erreurs fixes dépendant de la tâche réalisée par le système
(reconnais-sance de numéro, de date, parole libre) (Pietquin et Renals,2002), du profil utilisateur
Lemon et al.,2006). D’autres approches se sont quant à elle concentrées sur une
mo-délisation plus fine des erreurs au travers de la momo-délisation de possibles confusions
phonétiques (Deng et al., 2003; Pietquin, 2004; Stuttle et al., 2004;Pietquin et Dutoit,
2006;Schatzmann et al.,2007a;Jung et al.,2009) et de l’étude de leurs incidences sur la
compréhension (Schatzmann et al.,2007a).
Limites de la simulation
Même si le recours à la simulation présente certains avantages une fois le
simula-teur en place (facilité de mise en place des expériences), leur utilisation pour
l’évalua-tion pose problème puisque les performances obtenues en simulal’évalua-tion ne peuvent être
uniquement interprétées que comme le résultat de l’adéquation entre les conditions de
simulation et la politique de dialogue, que l’on sait très sensible aux performances du
simulateur (Schatzmann et al.,2005; Ai et al., 2007; Pietquin et Hastie,2013). Afin de
s’assurer de l’adéquation des politiques apprises face à de vrais utilisateurs certaines
études ont proposé de les tester en conditions réelles (Schatzmann et al.,2007b).
Cependant quand le système doit être développé de zéro, les conditions nécessaires
à l’établissement d’un simulateur ne sont pas toujours réunies, du fait du manque de
données pour modéliser l’utilisateur et/ou les erreurs (d’autant plus si la nature de
l’interaction est complexe - cas d’un système multimodal). Plutôt que d’envisager une
collecte de données coûteuses avec WoZ, dans cette thèse nous prenons le parti de dire
que dans la mesure où l’apprentissage RL est rendu suffisamment efficace, il peut être
intéressant d’envisager un apprentissage direct face à de vrais utilisateurs
(éventuelle-ment des utilisateurs moins sensibles aux conditions difficiles - concepteur du système
/ panel réduit).
Dans le document
Apprentissage automatique en ligne pour un dialogue homme-machine situé
(Page 80-83)