• Aucun résultat trouvé

Finite sample analysis of Least Squares Temporal Differences

N/A
N/A
Protected

Academic year: 2021

Partager "Finite sample analysis of Least Squares Temporal Differences"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: inria-00510324

https://hal.inria.fr/inria-00510324

Submitted on 18 Aug 2010

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Finite sample analysis of Least Squares Temporal

Differences

Rémi Munos

To cite this version:

(2)

Journées MAS 2010, Bordeaux

Session : Apprentissage par renforcement

Finite sample analysis of Least Squares Temporal

Die-rences

par Rémi Munos

L'exposé commencera par une brève introduction à l'apprentissage par ren-forcement, en insistant sur le compromis exploration-exploitation. Nous abor-derons d'abord les solutions optimistes du problème des bandits multi-bras, avant d'en arriver aux problèmes de bandits sur les espaces métriques, qui peuvent être traités par un algorithme d'optimisation optimiste hiérarchique. Ensuite, je m'intéresserai spéciquement au problème de l'évaluation de po-litique, c'est-à-dire à l'apprentissage de la valeur d'une politique donnée, par la méthode des diérences temporelles par moindres carrés (Least-Squares Temporal-Dierence). Je présenterai une analyse non asymptotique de LSTD. La borne proposée est générale, dans le sens où aucune hypothèse n'est faite sur l'existence d'une distribution stationnaire de la chaîne de Markov résul-tante. Je terminerai par la présentation des extensions à diérentes versions de LSTD.

Adresse : Rémi Munos

INRIA Lille - Nord Europe, équipe SequeL 40 avenue Halley

59650 Villeneuve d'Ascq, FRANCE E-mail : [email protected]

<http://sequel.futurs.inria.fr/munos>

Références

Documents relatifs

Later in the clinical course, measurement of newly established indicators of erythropoiesis disclosed in 2 patients with persistent anemia inappropriately low

Households’ livelihood and adaptive capacity in peri- urban interfaces : A case study on the city of Khon Kaen, Thailand.. Architecture,

3 Assez logiquement, cette double caractéristique se retrouve également chez la plupart des hommes peuplant la maison d’arrêt étudiée. 111-113) qu’est la surreprésentation

Et si, d’un côté, nous avons chez Carrier des contes plus construits, plus « littéraires », tendant vers la nouvelle (le titre le dit : jolis deuils. L’auteur fait d’une

la RCP n’est pas forcément utilisée comme elle devrait l’être, c'est-à-dire un lieu de coordination et de concertation mais elle peut être utilisée par certains comme un lieu

The change of sound attenuation at the separation line between the two zones, to- gether with the sound attenuation slopes, are equally well predicted by the room-acoustic diffusion

Si certains travaux ont abordé le sujet des dermatoses à l’officine sur un plan théorique, aucun n’a concerné, à notre connaissance, les demandes d’avis

Using the Fo¨rster formulation of FRET and combining the PM3 calculations of the dipole moments of the aromatic portions of the chromophores, docking process via BiGGER software,