Techniques de résolution d’un MDP - Apprentissage automatique en ligne pour un dialogue homme-m

2.4 Bilan

3.1.2 Techniques de résolution d’un MDP

Bien qu’une approche exhaustive de type « force brute » (brute forceen anglais), qui teste l’ensemble des politiques possibles et prend celle ayant la meilleure espérance sur

<, est envisageable sur des problèmes très simples, le nombre extrêmement grand de politiques envisageables (voire infini pour certains problèmes) fait que la résolution d’un MDP requiert généralement l’adoption de techniques de résolution d’une tout

3. Bien qu’il existe d’autres manières de représenter cette politique, par exemple en adoptant une vue stochastique du processus décisionnel, dans cette thèse nous nous concentrerons sur une définition déter-ministe.

4. Le fait de définirγstrictement inférieur à 1 permet dans des cas où l’horizon est infini de garantir que l’équation3.5est bornée (sachant que la fonction de récompense immédiate l’est).

3.1. Processus de Décision Markovien (MDP)

autre nature. Parmi elles on pourra distinguer quelques grandes familles, comme les approches basées sur l’estimation d’une fonction de valeur ou encore celles faisant une recherche directe de politique.

Dans la suite de ce manuscrit les techniques que nous emploierons reposent sur l’estimation d’une fonction de valeur (et ses dérivées) afin de résoudre le problème du MDP. C’est pourquoi nous les détaillerons tout particulièrement ci-dessous. Cepen-dant il faut savoir qu’une des stratégies alternatives est de voir le problème comme celui d’une optimisation stochastique (Spall,2005) où l’agent est à la recherche d’une politique dans (une sous-partie) l’espace complet des politiques (comme par exemple (Daubigney et al.,2013) voir ci-après).

Méthodes basées sur l’estimation d’une fonction de valeur

La fonction de valeur est définie par V^π : S → R. Elle représente l’espérance moyenne sur<(voir l’équation3.5) en suivant une politique donnéeπ⁵. Ainsi, pour une stratégieπdonnée et un état initials₀, cette fonction est définie comme suit :

V^π(s₀) =E_π[<^πt |^st= s₀] =E_π[

∑

i≥⁰

γ^tr_t₊_i|^st=s₀,a_i =π(s_i)] (3.6)

La fonction de valeur peut également être définie récursivement par :

V^π(s) =E[rt+γV^π(s_t+1)|^st =s,at= π(s)] (3.7) Trouver une politique optimaleπ^∗pour le MDP consiste à déterminer une politique qui maximise la fonction de valeur. Soit :

π^∗(s) =arg max

π V^π(s) (3.8)

Par convention on noteraV^∗ la fonction de valeur associée à la stratégies optimale π^∗⁶où :

V^∗(s) =max

a E_s_t₊₁_|_s_t_,a_t[r_t+γV^∗(s_t+1)|^st =s,a_t =a] (3.9) L’équation3.9correspond à celle de l’optimalité de Bellman (Bellman,1957a).

De façon similaire, on peut définir lafonction de qualitéparQ^π :S×^A→R. Cette fonction ajoute un degré de liberté sur la première action sélectionnée :

Q^π(s,a) = E[r_t+γQ^π(s_t+1,π(s_t+1))|^st =s,a_t =a] (3.10)

5. La fonctionV^πest également dénommée comme étant l’équation d’évaluation de Bellman (Bellman, 1957a) dans la littérature.

6. Pour une fonction de valeur donnée il peut exister plusieurs politiques optimales et vice versa (Sut-ton et Barto,1998).

Il est à noter qu’entre les équations3.7et3.10il existe la relation suivante :

V^π(s) =Q^π(s,π(s)) (3.11) Q^∗ correspond à la fonction qualité de la stratégie optimale π^∗. Elle est définie comme suit :

Q^∗(s,a) =E_s_t₊₁_|_s_t_,a_t[r_t+γmax

a⁰

Q^π(s_t+1,a⁰)|^st =s,a_t= a] (3.12) Si cette fonction est connue, la stratégie optimale consiste à suivre systématiquement la meilleure action, choix de l’action gloutonne (greedy en anglais), selonQ^∗. C’est à dire :

π^∗(s) =arg max

a Q^∗(s,a) (3.13)

Le fait de chercher à déterminer π^∗ au travers de l’équation 3.9ou3.12est appelé

« résoudre » ou « optimiser » le MDP. Un des principaux débats scientifiques dans la littérature du RL porte sur l’utilisation ou non d’un modèle pour effectuer cette résolu-tion.

Dans le cas des approches dites sur modèle (model-based en anglais), les dyna-miques du MDP, à savoir les probabilités de transitions définies par T et la fonction de récompense immédiate R, sont supposées connues et représentées au travers d’un modèle. Dans ces conditions la politique optimale peut alors être déterminée hors-ligne (off-line en anglais), c’est-à-dire sans interaction directe avec l’environnement.

Les techniques issues de la programmation dynamique (Bertsekas,1995) sont notam-ment capables de résoudre le problème de façon exacte à condition que les espaces S etAconsidérés soient de petites dimensions. Nous pouvons citer deux algorithmes de ce type, celui de l’itération de la politiqueet celui de l’itération de la valeur. Malgré leur efficacité notable, leur application reste limitée. Premièrement du fait qu’ils sont diffi-cilement applicables dans des cas où l’espace espace d’état est grand. Deuxièmement, à cause du fait qu’ils requièrent la connaissance des dynamiques du système, ce qui est rarement le cas pour des problèmes réels.

À contrario, les approches ditessans modèle(model-free en anglais) ne requièrent quant à elles aucune connaissance a priori sur les dynamiques de l’environnement et ne cherchent pas à les représenter explicitement. Elles reposent exclusivement sur l’es-timation d’une forme approximée de la fonction de valeur (ou de la fonction de qua-lité) sur la base des trajectoires observées (quadruplets {^st,a_t,r_t,s_t+1}). Ces méthodes permettent d’obtenir des solutions (quasi-)optimales à condition de faire une explora-tion de l’espace suffisante (tests des couples état-acexplora-tion). On peut faire menexplora-tion de la méthode de Monte-Carlo mais aussi de celles basées sur lesdifférences temporelles(e.g.

SARSA, Q-learning, TD(λ), etc.). Un panorama plus complet de ces techniques est dis-ponible dans (Sutton et Barto,1998).

Il est également utile de faire une distinction supplémentaire entre les techniques ditessur politique (on-policy en anglais) et celles dites hors politique (off-policy en anglais).

3.2. Limites théoriques du MDP pour le problème du dialogue

Le méthodes sur politique sont des méthodes itératives alternant des phase d’éva-luation et d’amélioration de la politique. Elles se basent sur l’estimation courante de la fonction valeur (resp. qualité) en l’état courant pour déterminer le choix de la prochaine action (contrôle), après observation du nouvel état courant et du signal de renforcement reçu, le modèle qui a été employé est mis à jour. Un exemple classique de ce type de méthode est l’algorithme SARSA.

Les méthodes hors politique ne sont quant à elles pas sensibles à la manière dont les actions sont sélectionnées à chaque instant mais seulement au fait d’observer une poli-tique de contrôle présentant un niveau d’exploration suffisant. De ce fait elles peuvent librement observer une politique de contrôle différente (pouvant être sous-optimale).

Une exemple classique d’algorithme hors politique est l’algorithme Q-learning.

De façon générale, les méthodes sur politique obtiennent de meilleures récompenses durant la phase d’apprentissage en-ligne et convergent plus rapidement vers la poli-tique optimale. Cependant elles présentent la limite théorique de se baser uniquement sur les trajectoires réellement observées, contrairement aux méthodes hors politique qui elles sont capables de généraliser. Ceci est dû au fait que ces méthodes utilisent l’équa-tion d’optimalité de Bellman (voir équal’équa-tion3.12) et donc l’opérateur non-linéaire max dans leur processus d’optimisation. Ces dernières sont très utiles dans les situations où un corpus d’apprentissage obtenu avec une politique sous-optimale est à disposition, car elles pourront tout de même espérer apprendre une politique optimale. Le lecteur pourra se référer au problème de « la traversée de la falaise » (Cliff Walking problem en anglais) tel que présenté dans (Sutton et Barto,1998) pour avoir une illustration du fonctionnement de ces deux techniques sur un cas concret d’apprentissage.

Nous reviendrons plus en détail sur ces notions dans leur application au contexte du dialogue dans la section3.5.

3.2 Limites théoriques du MDP pour le problème du dialogue

La première application du modèle MDP à la problématique du dialogue a été pré-sentée dans (Levin et al.,1997). Par la suite de nombreux travaux ont également adopté ce formalisme pour optimiser la gestion de l’interaction sur la base de données (Singh et al., 1999; Levin et Pieraccini, 2000; Litman et al., 2000; Goddeau et Pineau, 2000;

Young,2000;Singh et al.,2002). La plupart des travaux avaient alors recours soit à des technique d’apprentissage sur modèle soit à la simulation d’utilisateurs (voir section 3.5.1). Grâce à l’adoption de cette modélisation du problème, de nombreux travaux ont montré qu’il était possible d’obtenir de meilleurs résultats (sur des critères objectifs et subjectifs) que ceux obtenus avec des approches déterministes faisant l’usage d’heuris-tiques expertes (Litman et al.,2000;Singh et al.,2002).

Cependant, la mise en œuvre d’un tel formalisme n’est pas sans difficulté dans la pratique. En effet, une bonne définition des éléments de base du formalisme MDP est essentielle. En effet, les espaces S, A et R doivent être choisis avec précaution pour permettre l’apprentissage.

ConcernantS, la contrainte est que l’état du dialogue doit à la fois pouvoir respecter la propriété de Markov (condition sine qua none pour l’utilisation du modèle MDP) tout en restant assez compact pour pouvoir permettre l’apprentissage d’une politique de qualité en des temps raisonnables. Dans la littérature, de nombreuses techniques ont été employées pour définir un espace d’état de taille réduite sur la base de corpus d’in-teractions. Dans (Singh et al.,1999), les informations utiles à la poursuite du dialogue sont conservées au travers d’un ensemble d’indicateurs booléens au prix d’une perte en expressivité de la modélisation. D’autres travaux, comme (Young,2000), ont considéré l’utilisation d’heuristiques pour passer d’un état très informatif à un état réduit pour rendre possible l’apprentissage. Dans (Denecke et al.,2004) une méthode de regroupe-ment (clusteringen anglais) est employée pour agréger les états jugés « similaires ».

De façon similaire, A doit lui aussi avoir une taille raisonnable pour permettre l’apprentissage. Pour ce faire, dans la plupart des travaux (dont ceux mentionnés ci-dessus), des actions haut niveau (ou méta-actions) ont été employées conjointement à des heuristiques pour les faire correspondre à de vraies actions système. Des méthodes d’approximation de la fonction de valeur sont également employées pour interpoler l’espace de recherche et ainsi réduire le nombre de paramètres à apprendre. Nous dé-taillons ces techniques dans la section3.4.3.

Pour ce qui est de R, la plupart des études font usage d’une définition experte et fortement dépendante du domaine. Généralement cette fonction repose sur des infor-mations objectives telles que le critère réussite de la tâche, le nombre de tours système (traduisant son efficacité) ou encore le nombre d’accès à la base de données. Dans (Paek, 2006), l’auteur considère même qu’il s’agit là de l’aspect le plus artisanal du modèle. Outre l’aspect sous-optimal que cela peut représenter (puisqu’elle représente à elle seule le critère d’optimisation du RL), il peut se poser également leproblème de l’affectation temporaire de valeur, en anglaistemporal credit assignment problem, dans le mécanisme d’apprentissage. En effet, bien souvent en employant de telles fonctions de récompenses, l’agent apprenant n’aura accès aux retours les plus pertinents que tardi-vement dans le processus d’apprentissage (temporellement parlant). Pour le cas parti-culier du dialogue, avant que l’agent conduise le dialogue jusqu’à la fin de l’interaction, étape à laquelle il recevra la récompense la plus importante liée à la réussite ou à l’échec de la tâche utilisateur, il va d’abord devoir passer par un ensemble d’états pour lesquels ses décisions seront récompensées de façon identique (pénalité d’un tour de parole). La conséquence de cet éloignement temporel (les premiers dialogues étant généralement longs) est que le signal de récompense final ne sera que faiblement répercuté sur les décisions locales qui l’ont précédé.

Ainsi, l’influence d’une récompense devient de plus en plus faible au fil du temps, ce qui peut conduire à de mauvaises propriétés de convergence du mécanisme de RL lors de l’initiation du processus d’apprentissage. De ce fait, la conduite (ou l’observation) par l’agent de nombreux épisodes d’apprentissage (dialogues) est généralement de ri-gueur pour réussir à propager de façon itérative l’influence du signal de renforcement tardif à tous les couples état-action qui ont contribué à sa génération. Certaines études se sont attachées à déterminer des récompenses plus diffuses pour accélérer l’appren-tissage notamment à l’aide de technique comme lereward shaping(El Asri et al.,2013;

3.3. Processus de Décision Markovien Partiellement Observable (POMDP)

Su et al., 2015) ou proposer des techniques comme celle de l’apprentissage par ren-forcement inverse (Inverse Reinren-forcement Learning- IRL) (Russell,1998) pour apprendre une fonction de récompense sur la base de données (Paek et Pieraccini,2008;Boularias et al.,2010;El Asri et al.,2012) ou encore par régression linéaire (Rieser et Lemon,2011).

Cependant toutes ces techniques supposent que des exemples d’interactions de qualité sont disponibles. Ces données sont obtenues en ayant recours à des collectes par WoZ ou par l’utilisation de système pré-existant avant d’être annotées par des experts, ou encore en utilisant un outil de simulation d’utilisateurs pour collecter des dialogues artificiels.

Pour autant, la principale limite de l’application de la modélisation par MDP à la problématique du DM n’est pas pratique mais théorique. En effet ce modèle suppose l’observabilité totale de l’état du dialogue. Or, l’état mental de l’utilisateur n’est pas quelque chose d’accessible pour la Machine mais quelque chose de perçu au travers de ses actes. De plus, les modules de compréhension sont eux-même sujets aux erreurs.

De ce fait, l’agent apprenant n’a à sa disposition qu’une observation incertaine de l’état sous-jacent dans lequel se trouve l’environnement. Bien que la définition de l’état du MDP peut en pratique inclure des informations relatives à l’incertitude (Bohus et Rud-nicky,2005), une approche qui semble plus fondée théoriquement est d’avoir recours à un POMDP (Sondik,1971). Ce modèle, décrit plus en détail dans la prochaine section, modélise l’état du dialogue comme une variable latente dont la distribution est estimée sur la base des observations du système. Par cette prise en compte explicite de l’incerti-tude, ce formalisme dispose de caractéristiques capables d’améliorer la robustesse d’un système de dialogue.

Dans la littérature des approches alternatives au POMDP ont été proposées. Une d’entre elle repose sur l’utilisation de techniques « boîte noire », comme dans (Daubi-gney et al.,2013) où un algorithme d’optimisation par essaims particulaires est employé pour résoudre le problème du contrôle optimal sous incertitude du DM. On pourra également mentionner l’étude réalisée dans (Cuayáhuitl et al.,2007) qui fait usage d’un mécanisme de RL hiérarchique (Barto et Mahadevan, 2003) en ayant recours au dé-coupage du problème MDP initial en sous-tâches par l’adoption d’une hiérarchie de processus décisionnels semi-Markoviens⁷.

3.3 Processus de Décision Markovien Partiellement Observable (POMDP)

3.3.1 Définition

Un POMDP est défini par le n-uplet{^S,^A,^T,^R,^O,^Z,^γ,^b0}^{, où :}

— {^S,^A,^T,^R,^γ}^{est un MDP}

7. Un modèle semi-Markovien est une généralisation du modèle Markovien classique obtenue par l’ajout du facteur temps dans la probabilité de transition du modèle ; ainsi, le temps de séjour dans un état sera modélisé et pris en compte.

o

_t+1

r

s

_t+1

s

a

_t+1

r

_t+1

pas de temps t pas de temps t+1

o

a

FIGURE3.3 – Diagramme d’influence d’un POMDP. Dans cette figure les cercles grisés corres-pondent aux variables aléatoires non-observables, les cercles clairs sont les variables aléatoires ob-servables, les carrés sont les actions du système, les losanges sont les récompenses à valeurs réelles et les flèches montrent les relations de causalités qui existent entre ces variables.

— Oest l’espace d’observation

— Zest un jeu de probabilité sur les observations tel que :

Z={^P(o_t+1|^st+1,a_t),∀(o_t+1,s_t+1,a_t)∈^O×^S×^A} ^(3.14)

— b₀est l’état de croyance initial (avant que la première action système soit prise) Dans ce cadre formel, à un instantt, le monde est dans un état non observables_t. Du fait de cette non observabilité, le système maintient une distribution sur l’ensemble des états possibles appeléétat de croyanceet notéb_t, oùb_t(s_t)correspond à la probabilité d’être dans l’état de dialogues_t. Sur la base de b_t, le système choisit l’action a_t, reçoit une récompense immédiatertet transite vers un nouvel état non observablest+1selon un loi de transition markovienne (dépendance se limitant àst etat). La Machine reçoit comme indice de cette transition une observationo_t+1qui dépend uniquement des_t+1

etat, et met à jour son état de croyance selon l’équation suivante : b_t+1(s_t+1) =ηP(o_t+1|^st+1,a_t)

∑

st∈^S

P(s_t+1|^st,a_t)b_t(s_t) (3.15)

où

η= ¹

(_∑_s_t₊₁_∈_SP(o_t+1|^st+1,a_t)_∑_s_t_∈_SP(s_t+1|^st,a_t)b_t(s_t) ^(3.16) est une constante de normalisation.

Ce processus est illustré sur la figure3.3grâce à un diagramme d’influence. Il est à noter que dans ce modèle les états sous-jacents respectent la propriété de Markov, mais pas les observations.

3.4. Application au dialogue du POMDP

Dans le document Apprentissage automatique en ligne pour un dialogue homme-machine situé ~ Association Francophone de la Communication Parlée (Page 62-69)