• Aucun résultat trouvé

Apprentissage séquentiel budgétisé pour la classification extrême et la découverte de hiérarchie en apprentissage par renforcement

N/A
N/A
Protected

Academic year: 2021

Partager "Apprentissage séquentiel budgétisé pour la classification extrême et la découverte de hiérarchie en apprentissage par renforcement"

Copied!
126
0
0

Texte intégral

Loading

Figure

Figure 2.2: Hierarchical-DQN ; figure tirée de [Kul+16]. Des réseaux neuronaux profonds sont utilisés pour modéliser deux fonctions de valeur : Q 2 correspond à la politique du contrôleur haut-niveau (meta controler) qui permet de choisir un but (intermédi
Figure 2.3: Achitecture Option-Critic ; figure tirée de [BP15b]. La politique π Ω per- per-met de choisir une nouvelle option ω qui choisit les actions à effectuer dans l’environnement
Figure 3.3: (a) Modèle RDT avec deux enfants pour chaque noeud : chaque décision est associée à un bit "0" (gauche) ou "1" (droite) (b) Modèle RECOC : les paramètres des noeuds d’un même niveau sont partagés et les choix à chaque noeud sont
Table 3.1: Résultats pour 16 classes - W est la largeur de l’arbre (ie le nombre d’enfants par noeud), D est la profondeur (la longueur du code pour RECOC) et L est le nombre résultants de feuilles (le nombre de codes différents pour RECOC).
+7

Références

Documents relatifs

À chaque gare centrale sont rattachées des gares satellites et on peut aussi aller directement d’une gare centrale à une de ses gares satellites rattachées.. Par contre, on ne peut

Dans de nombreuses situations, le résultat d’une action ne peut être prédit avec certitude. Par

I Arbre peu performant pour la prédiction Le bruit dans les exemples peut conduire à un surajustement de l ’arbre. I E15= (Soleil,Chaude,Normale,

– ε-Greedy: at each time step, explore uniformly over actions with probability ε or take the action with minimal average loss otherwise.. – Thomson-sampling: choose the action

L’insertion et la suppression utilisent la rotation ` a gauche et ` a droite d’un arbre lorsqu’il est trop d´ es´ equilibr´ e :.

Mike Assistant Prof 3 no.

Variantes de la base d’apprentissage obtenues par tirages aléatoires avec remise depuis la base initiale. (sorte de « bootstrap » duplication/disparition aléatoires de

{ Apprentissage automatique et évolution artificielle, revue extraction des connaissances et apprentissage, Volume1, n°3, éditions hermes, 2001. { Algorithmes d ’apprentissages