Reconstruction d'état caché avec cartes auto-organisatrices récurrentes

(1)

HAL Id: hal-01840627

https://hal.inria.fr/hal-01840627

Submitted on 16 Jul 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Reconstruction d’état caché avec cartes auto-organisatrices récurrentes

Alain Dutech, Jérémy Fix, Hervé Frezza-Buet

To cite this version:

Alain Dutech, Jérémy Fix, Hervé Frezza-Buet. Reconstruction d’état caché avec cartes auto-

organisatrices récurrentes. JFPDA 2018 - Journées Francophones sur la Planification, la Décision

et l’Apprentissage pour la conduite de systèmes, Jul 2018, Nancy, France. pp.1-3. �hal-01840627�

(2)

Reconstruction d’´ etat cach´ e avec cartes auto-organisatrices r´ ecurrentes.

A. Dutech ¹ J. Fix ² H. Frezza-Buet ²

1 Universit´ e de Lorraine, CNRS, Inria, LORIA ; F-54000 Nancy, France

2 Centrale-Sup´ elec, LORIA ; F-57070 Metz, France contact : alain.dutech@loria.fr

Mots Clef

Reconstruction d’´ etat, Chaˆınes de Markov Cach´ ees, Cartes auto-organisatrices

1 Motivations

Quand les ´ etats d’un processus ne sont pas Mar- koviens (POMDP par exemple), la convergence des algorithmes d’apprentissage par renforcement n’est pas garantie. Une solution est de recons- truire un processus Markovien en partant de la s´ equence des ´ etats. Dans ce but, nous ex- plorons les capacit´ es d’architectures r´ ecurrentes qui s’appuient sur des cartes neuronales auto- organisatrices pour apprendre ` a pr´ edire des s´ equences d’observations issues de HMM.

Les algorithmes classiques d’apprentissage par renforcement [10] offrent des garanties de conver- gence quand ils sont appliqu´ es ` a des probl` emes qui peuvent se mod´ eliser comme des Processus D´ ecisionnels de Markov [8]. Or, dans de nom- breux cas, la s´ equence d’information dont dispose l’agent pour apprendre n’est pas un processus markovien, l’agent n’a pas acc` es au v´ eritable ´ etat du syst` eme (au sens de la physique ou de l’auto- matique), il n’en a qu’une observation partielle, bruit´ ee, bien incompl` ete.

Si on se place dans le cadre formel des POMDP ([1, 2]), une mani` ere de proc´ eder est de consid´ erer que cet ´ etat d’information est constitu´ e des n derni` eres paires (o, a) d’observation et d’action.

Dans le cas g´ en´ eral, n doit ˆ etre infini pour s’assu- rer que l’´ etat d’information ainsi extrait est bien complet ¹ .

Nous voulons ici exploiter la puissance des r´ eseaux de neurones r´ ecurrents pour extraire des

´

etats d’information les plus complets possibles dans le cadre de processus non-Markoviens. Mais contrairement ` a [6, 4, 7, 3] o` u ces ´ etats d’in- formation sont appris indirectement, comme un

1. C’est-` a-dire qu’il permet de contruire un Processus D´ ecisionnel Markovien dont la solution est ´ equivalente au POMDP original

moyen pour estimer la Q-fonction, nous voulons ici apprendre explicitement ` a extraire des ´ etats d’information. Pour cela, nous proposons une ar- chitecture neuronale r´ ecurrente qui s’appuie sur des

Dynamic Self-Organizing Maps

(DSOM) [9]. Les DSOM s’apparentent aux cartes auto- organisatrices de Kohonen qui sont connues pour leur bonnes propri´ et´ es dans le cadre de la quan- tification vectorielle [5], elles en diff` erent par une sensibilit´ e r´ eduite ` a la densit´ e des ´ echantillons d’apprentissage. Cette derni` ere propri´ et´ e nous int´ eresse tout particuli` erement dans le cadre g´ en´ eral de l’apprentissage par renforcement. En effet, lors de l’apprentissage, il nous paraˆıt per- tinent d’accorder a priori autant d’importance aux r´ egions de l’espace sensorimoteur visit´ ees ra- rement qu’aux r´ egions visit´ ees souvent.

2 Architecture

L’architecture neuronale r´ ecurrente que nous uti- lisons est d´ ecrite ` a la figure 1. En fonction de l’ob- servation courante et de l’´ etat actuel du r´ eseau (le contexte), un neurone

vainqueur

est d´ etermin´ e et l’´ etat d’information est port´ e par ce neurone vainqueur, cela peut ˆ etre son indice ou la valeur de son prototype.

DSOM

état d'information

neurone vainqueur

contexte

_t

observation

_t

contexte

t+1 t

Figure 1 – DSOM r´ ecurrent.

3 Exp´ erimentations

Dans un premier temps, nous avons v´ erifi´ e que

pour des HMM totalement observables (donc

(3)

Markoviens), l’architecture ´ etait convainquante.

Par exemple, la figure 2 montre les ´ etats recons- truits pour un HMM qui produit la suite d’obser- vation “A-B-C-D-A-B-...”. Dans l’arc de cercle

`

a droite, on positionne les derniers neurones vain- queur de cette carte mono-dimensionnelle par des petits ronds, la couleur des ronds est li´ ee ` a l’ob- servation de leur prototype et la fl` eche indique le contexte auquel ils r´ eagissent. Les courbes montrent l’´ evolution de la distance du prototype vainqueur (observation en noir, contexte en bleu) et l’erreur de pr´ ediction en observation. Ici, le r´ eseau est capable d’apprendre la structure de la s´ equence (les ronds et fl` eches s’enchaˆınent bien).

Figure 2 – ABCD.

Cela fonctionne aussi avec des HMM o` u il faut “compter” pour savoir quand l’observation change, comme par exemple avec des s´ equences du type “A-A-A-A-A-F”, figure 3.

Figure 3 – AAAAF.

Mais les r´ esultats sont – pour l’instant – d´ ecevants dans des cas comme “A-B-C-B-A-...”, voir figure 4. Nous travaillons donc actuellement sur une meilleure diff´ erenciation des prototypes li´ es au contexte.

4 R´ ef´ erences R´ ef´ erences

[1] Astr¨ om, K. Optimal control of Markov de- cision processes with incomplete state esti- mation. Journal of Mathematical Analysis and Applications 10 (1965), 174–205.

Figure 4 – ABCBABCBA....

[2] Cassandra, A. Exact and Approximate Algorithms for Partially Observable Markov Decision Processes. PhD thesis, Brown Uni- versity, Department of Computer Science, Providence, RI, 1998.

[3] Daswani, M., Sunehag, P., Hutter, M., et al. Feature reinforcement learning using looping suffix trees. In 10th European Work- shop on Reinforcement Learning : JMLR : Workshop and Conference Proceedings 24 (2012), Journal of Machine Learning Re- search.

[4] Dutech, A., and Samuelides, M. Ap- prentissage par renforcement pour les pro- cessus d´ ecisionnels de Markov partiellement observ´ es. Revue d’Intelligence Artificielle (RIA) 17(4) (2003), 559–589.

[5] Kohonen, T. Self-organized formation of topologically correct feature maps. Biologi- cal Cybernetics 43 (1982), 59–69.

[6] McCallum, A. Learning to use selective attention and short-term memory in sequen- tial tasks. In From Animals to Animats, Proc. of the Fourth Int. Conf. on Simulating Adaptive Behavior (1996).

[7] Nguyen, P., Sunehag, P., and Hutter, M. Feature reinforcement learning in prac- tice. In European Workshop on Reinforce- ment Learning (2011), Springer, pp. 66–77.

[8] Puterman, M. Markov Decision Pro- cesses : discrete stochastic dynamic program- ming. John Wiley & Sons, Inc. New York, NY, 1994.

[9] Rougier, N. P., and Boniface, Y. Dyna- mic Self-Organising Map. Neurocomputing 74, 11 (2011), 1840–1847.

[10] Sutton, R. Generalization in reinforce- ment learning : Successful examples using sparse coarse coding. In Advances in Neural Information Processing Systems 8 (NIPS) (1996), MIT Press, pp. 1038–1044.

2

(4)

5 Annexe : Architecture d’un RDSOM

L’architecture neuronale r´ ecurrente que nous uti- lisons est d´ ecrite ` a la figure 1. En fonction de l’ob- servation courante et de l’´ etat actuel du r´ eseau (le contexte), un neurone vainqueur est d´ etermin´ e et l’´ etat d’information est port´ e par ce neurone vain- queur, cela peut ˆ etre son indice ou la valeur de son prototype.

Plus formellement, les RDSOM que nous utilisons sont constitu´ es d’un ensemble de N neurones qui sont chacun d´ efinis par :

— i ∈ [0 . . . N ) : un indice

— pos(i) ∈ [0, 1] : une position dans l’es- pace des neurones (ici, un espace uni- dimensionnel, mais c’est arbitraire)

— w(i) = (w _in (i), w _rec (i)) : un prototype o` u

— w in (i) ∈ [0, 1] : vecteur de l’espace des entr´ ee X (ici de dimension 1, mais c’est arbitraire).

— w rec (i) ∈ [0, 1] : vecteur des poids r´ ecurrents dans l’espace des positions des neurones (et donc, ici, de dimen- sion 1).

L’algorithme d’apprentissage se d´ eroule en deux

´ etapes.

Activation et d´ etermination du neurone vainqueur A l’instant t, on pr´ esente au r´ eseau une entr´ ee x t = (o t , c t ) compos´ ee d’une obser- vation o t et d’un contexte c t . On calcule la si- milarit´ e entre chaque neurone i et cette entr´ ee, similarit´ e qui se d´ ecompose en :

sim _in (o _t , i) = exp − ||o _t − w _in (i)|| ₂ ² 2σ _in ²

! , (1)

sim _rec (c _t , i) = exp − ||c t − w rec (i)|| 2 2

2σ ² _rec

! . (2) Ces deux similarit´ es sont combin´ ees en une simi- larit´ e globale

sim g (x t , i) = p

sim in (o t , i) × β(1 − β)sim rec (c t , i) (3) o` u β est un r´ eel de [0; 1].

La similarit´ e globale est elle-mˆ eme convolu´ ee ² avec une gaussienne pour la lisser

sim(x t , i) = 1 N

k=N/2

X

k=−N/2

sim g (x t , i + k) exp

− k ² 2σ ²

(4)

2. Pour cette convolution, nous consid` erons que la si- milarit´ e est un signal p´ eriodique, de p´ eriode N.

avec σ un param` etre ` a choisir et o` u i + k = (i + k)(modN), ce qui permet de d´ eterminer le neurone vainqueur au temps t, dont l’indice est not´ e i ^∗ _t :

i ^∗ _t = argmax

i

sim(x _t , i). (5) On obtient aussi le contexte pour le pas de temps suivant en fonction de la position du neu- rone vainqueur.

c t+1 = pos(i ^∗ _t ) (6) Apprentissage des prototypes Le principe de l’apprentissage ` a l’instant t est de rapprocher les poids d’entr´ ees et les poids r´ ecurents du couple (x _t , c _t ). Chaque sch´ ema d’apprentissage suit la mˆ eme logique. On a donc pour tout neurone j ∈ [0 . . . N) :

w in (j) ← w in (j) + . h(ν in , j, d

¯ (x t , w in (i ^∗ _t ))

× d

¯ (x _t , w _in (j)) (x _t − w _in (j)) (7) w _rec (j) ← w _rec (j) + . h(ν _rec , j, d

¯ (c _t , w _rec (i ^∗ _t ))

× d

¯ (c t , w rec (j)) (c t − w rec (j)) (8) avec

h(ν, j, d) = exp − ||pos(i ^∗ _t ) − pos(j)|| ₂ ² ν ² d ²

! (9) o` u ν, r´ e´ el, est le param` etre d’´ elasticit´ e de l’archi- tecture.

Ici, on utilise des “distances norm´ ees”, not´ ees d ¯ (., .) qui sont toutes comprises entre 0 et 1.

d ¯ (x, y) = ||x − y|| ₂ max x,y ||x − y|| 2

(10) Le noyau h(ν, j, d) permet de r´ eguler la tendance des prototypes de chaque neurone j ` a se rappro- cher de (x _t , c _t ) en tenant compte de trois fac- teurs :

— plus le neurone vainqueur i ^∗ _t est proche du prototype cible (x t ou c t ), moins les autres neurones sont modifi´ es ;

— plus un neurone j est ´ eloign´ e du vainqueur i ^∗ _t (dans l’espaces des positions pos), moins il sera modifi´ e ;

— enfin, plus le param` etre d’´ elasticit´ e ν est petit, moins les neurones sont modifi´ es.

3

Reconstruction d'état caché avec cartes auto-organisatrices récurrentes

HAL Id: hal-01840627

https://hal.inria.fr/hal-01840627

Submitted on 16 Jul 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Reconstruction d’état caché avec cartes auto-organisatrices récurrentes

Alain Dutech, Jérémy Fix, Hervé Frezza-Buet

To cite this version:

Alain Dutech, Jérémy Fix, Hervé Frezza-Buet. Reconstruction d’état caché avec cartes auto-

organisatrices récurrentes. JFPDA 2018 - Journées Francophones sur la Planification, la Décision

et l’Apprentissage pour la conduite de systèmes, Jul 2018, Nancy, France. pp.1-3. �hal-01840627�

Reconstruction d’´ etat cach´ e avec cartes auto-organisatrices r´ ecurrentes.

A. Dutech 1 J. Fix 2 H. Frezza-Buet 2

1 Universit´ e de Lorraine, CNRS, Inria, LORIA ; F-54000 Nancy, France

2 Centrale-Sup´ elec, LORIA ; F-57070 Metz, France contact : alain.dutech@loria.fr

Mots Clef

Reconstruction d’´ etat, Chaˆınes de Markov Cach´ ees, Cartes auto-organisatrices

1 Motivations

Si on se place dans le cadre formel des POMDP ([1, 2]), une mani` ere de proc´ eder est de consid´ erer que cet ´ etat d’information est constitu´ e des n derni` eres paires (o, a) d’observation et d’action.

Dans le cas g´ en´ eral, n doit ˆ etre infini pour s’assu- rer que l’´ etat d’information ainsi extrait est bien complet 1 .

Nous voulons ici exploiter la puissance des r´ eseaux de neurones r´ ecurrents pour extraire des

´

etats d’information les plus complets possibles dans le cadre de processus non-Markoviens. Mais contrairement ` a [6, 4, 7, 3] o` u ces ´ etats d’in- formation sont appris indirectement, comme un

1. C’est-` a-dire qu’il permet de contruire un Processus D´ ecisionnel Markovien dont la solution est ´ equivalente au POMDP original

moyen pour estimer la Q-fonction, nous voulons ici apprendre explicitement ` a extraire des ´ etats d’information. Pour cela, nous proposons une ar- chitecture neuronale r´ ecurrente qui s’appuie sur des

Dynamic Self-Organizing Maps

2 Architecture

L’architecture neuronale r´ ecurrente que nous uti- lisons est d´ ecrite ` a la figure 1. En fonction de l’ob- servation courante et de l’´ etat actuel du r´ eseau (le contexte), un neurone

vainqueur

est d´ etermin´ e et l’´ etat d’information est port´ e par ce neurone vainqueur, cela peut ˆ etre son indice ou la valeur de son prototype.

DSOM

contexte

observation

contexte

Figure 1 – DSOM r´ ecurrent.

3 Exp´ erimentations

Dans un premier temps, nous avons v´ erifi´ e que

pour des HMM totalement observables (donc

Markoviens), l’architecture ´ etait convainquante.

Par exemple, la figure 2 montre les ´ etats recons- truits pour un HMM qui produit la suite d’obser- vation “A-B-C-D-A-B-...”. Dans l’arc de cercle

`

Figure 2 – ABCD.

Cela fonctionne aussi avec des HMM o` u il faut “compter” pour savoir quand l’observation change, comme par exemple avec des s´ equences du type “A-A-A-A-A-F”, figure 3.

Figure 3 – AAAAF.

Mais les r´ esultats sont – pour l’instant – d´ ecevants dans des cas comme “A-B-C-B-A-...”, voir figure 4. Nous travaillons donc actuellement sur une meilleure diff´ erenciation des prototypes li´ es au contexte.

4 R´ ef´ erences R´ ef´ erences

[1] Astr¨ om, K. Optimal control of Markov de- cision processes with incomplete state esti- mation. Journal of Mathematical Analysis and Applications 10 (1965), 174–205.

Figure 4 – ABCBABCBA....

[2] Cassandra, A. Exact and Approximate Algorithms for Partially Observable Markov Decision Processes. PhD thesis, Brown Uni- versity, Department of Computer Science, Providence, RI, 1998.

[3] Daswani, M., Sunehag, P., Hutter, M., et al. Feature reinforcement learning using looping suffix trees. In 10th European Work- shop on Reinforcement Learning : JMLR : Workshop and Conference Proceedings 24 (2012), Journal of Machine Learning Re- search.

[4] Dutech, A., and Samuelides, M. Ap- prentissage par renforcement pour les pro- cessus d´ ecisionnels de Markov partiellement observ´ es. Revue d’Intelligence Artificielle (RIA) 17(4) (2003), 559–589.

[5] Kohonen, T. Self-organized formation of topologically correct feature maps. Biologi- cal Cybernetics 43 (1982), 59–69.

[6] McCallum, A. Learning to use selective attention and short-term memory in sequen- tial tasks. In From Animals to Animats, Proc. of the Fourth Int. Conf. on Simulating Adaptive Behavior (1996).

[7] Nguyen, P., Sunehag, P., and Hutter, M. Feature reinforcement learning in prac- tice. In European Workshop on Reinforce- ment Learning (2011), Springer, pp. 66–77.

[8] Puterman, M. Markov Decision Pro- cesses : discrete stochastic dynamic program- ming. John Wiley & Sons, Inc. New York, NY, 1994.

[9] Rougier, N. P., and Boniface, Y. Dyna- mic Self-Organising Map. Neurocomputing 74, 11 (2011), 1840–1847.

[10] Sutton, R. Generalization in reinforce- ment learning : Successful examples using sparse coarse coding. In Advances in Neural Information Processing Systems 8 (NIPS) (1996), MIT Press, pp. 1038–1044.

2

5 Annexe : Architecture d’un RDSOM

Plus formellement, les RDSOM que nous utilisons sont constitu´ es d’un ensemble de N neurones qui sont chacun d´ efinis par :

— i ∈ [0 . . . N ) : un indice

— pos(i) ∈ [0, 1] : une position dans l’es- pace des neurones (ici, un espace uni- dimensionnel, mais c’est arbitraire)

— w(i) = (w in (i), w rec (i)) : un prototype o` u

— w in (i) ∈ [0, 1] : vecteur de l’espace des entr´ ee X (ici de dimension 1, mais c’est arbitraire).

— w rec (i) ∈ [0, 1] : vecteur des poids r´ ecurrents dans l’espace des positions des neurones (et donc, ici, de dimen- sion 1).

L’algorithme d’apprentissage se d´ eroule en deux

´ etapes.

sim in (o t , i) = exp − ||o t − w in (i)|| 2 2 2σ in 2

! , (1)

sim rec (c t , i) = exp − ||c t − w rec (i)|| 2 2

2σ 2 rec

! . (2) Ces deux similarit´ es sont combin´ ees en une simi- larit´ e globale

sim g (x t , i) = p

sim in (o t , i) × β(1 − β)sim rec (c t , i) (3) o` u β est un r´ eel de [0; 1].

La similarit´ e globale est elle-mˆ eme convolu´ ee 2 avec une gaussienne pour la lisser

sim(x t , i) = 1 N

k=N/2

X

k=−N/2

A. Dutech ¹ J. Fix ² H. Frezza-Buet ²

Dans le cas g´ en´ eral, n doit ˆ etre infini pour s’assu- rer que l’´ etat d’information ainsi extrait est bien complet ¹ .

— w(i) = (w _in (i), w _rec (i)) : un prototype o` u

sim _in (o _t , i) = exp − ||o _t − w _in (i)|| ₂ ² 2σ _in ²

sim _rec (c _t , i) = exp − ||c t − w rec (i)|| 2 2

2σ ² _rec

La similarit´ e globale est elle-mˆ eme convolu´ ee ² avec une gaussienne pour la lisser

− k ² 2σ ²

avec σ un param` etre ` a choisir et o` u i + k = (i + k)(modN), ce qui permet de d´ eterminer le neurone vainqueur au temps t, dont l’indice est not´ e i ^∗ _t :

i ^∗ _t = argmax

sim(x _t , i). (5) On obtient aussi le contexte pour le pas de temps suivant en fonction de la position du neu- rone vainqueur.

¯ (x t , w in (i ^∗ _t ))

¯ (x _t , w _in (j)) (x _t − w _in (j)) (7) w _rec (j) ← w _rec (j) + . h(ν _rec , j, d

¯ (c _t , w _rec (i ^∗ _t ))

h(ν, j, d) = exp − ||pos(i ^∗ _t ) − pos(j)|| ₂ ² ν ² d ²

d ¯ (x, y) = ||x − y|| ₂ max x,y ||x − y|| 2

(10) Le noyau h(ν, j, d) permet de r´ eguler la tendance des prototypes de chaque neurone j ` a se rappro- cher de (x _t , c _t ) en tenant compte de trois fac- teurs :

— plus le neurone vainqueur i ^∗ _t est proche du prototype cible (x t ou c t ), moins les autres neurones sont modifi´ es ;

— plus un neurone j est ´ eloign´ e du vainqueur i ^∗ _t (dans l’espaces des positions pos), moins il sera modifi´ e ;