Fonctions coût et budgets optimaux

budget a posteriori

7.3 Fonctions coût et budgets optimaux

Dans le but de quantifier l’apport de l’augmentation des budgets à la performance en classification, nous mettons en place un critère qui calcule le gain relatif entre un budget et un autre budget supérieur. Ce critère est défini comme :

RG(i) = ^{(P erf (B = i)}− P erf(B = i − 2))

(1− P erf(B = i − 2)) ^(7.1)

Ce critère nous donnera une indication de l’utilité d’une augmentation du budget selon les performances retournées pour chacun de ces budgets. Comme nous l’avons vu dans le chapitre 6, il apparaît qu’entre B = 1 et B = 3 la performance augmente en moyenne de 12% à 23% alors qu’entre B = 3 et B = 5 cette performance n’augmente que de 5% à 6% ce qui interroge l’utilité d’une augmentation du budget pour une augmentation en performance faible.

De plus, dans le but de définir un budget optimal pour chaque famille d’environnement donnée, nous définissons une simple fonction servant de critère coût-bénéfice calculant un compromis entre la performance et le budget de cette façon :

CB(i) = ^{P erf (B = i)}

n √

(B = i) (7.2)

où n est un paramètre appartenant à N+ qui détermine l’importance de l’effet du bud-get. Plus n est grand, plus ce critère aura tendance à accepter des budgets plus grands pour de petits gains de performances.

La figure 7.2 montre les résultats obtenus de ces deux critères sur les performances obtenues dans les environnements simulés A et B, pour n = 3. La figure montre que le meilleur ratio coût-bénéfice ainsi que le gain relatif correspondent à une politique limitée avec un budget de B = 3 dans l’environnement complexe A et de B = 1 dans l’environ-nement simple B.

Ceci peut être utilisé comme un critère de sélection a priori du budget le plus adéquat dans des environnements de même nature sans devoir réapprendre la tâche depuis le début.

Figure 7.2 – Courbe de Coût-Bénéfice/Gain en performance relatif : Les lignes bleues le critère

de coût-bénéfice/gain relatif en performance dans le labyrinthe A, en vert dans le labyrinthe B. Les lignes pleines montrent le critère Coût-bénéfice (7.2) et les pointillés le critère de gain en performance relatif (7.1).

7.4 Conclusion

Dans ce chapitre nous avons montré que le modèle décrit dans le chapitre 6 peut ap-prendre à généraliser les politiques qui peuvent être apprises sur différents environnements qui sont de différentes ou de mêmes nature. Nous avons aussi montré que des politiques apprises dans des environnements plus grands peuvent être transférées vers des environ-nements plus petits mais que l’inverse n’est pas utile. Enfin nous avons introduit une manière simple d’implémenter une fonction coût-bénéfice à maximiser en sélectionnant différents budgets optimaux pour chaque famille d’environnements. Ces modèles peuvent être utilisés comme base de construction de robots navigant dans des environnements en utilisant ces critères sans devoir réapprendre de base les différentes politiques une fois qu’il est dans un environnement considéré comme de même famille qu’un des environnements visités précédemment. Malgré tout, le critère coût-bénéfice proposé ici reste préliminaire, il serait plus efficace de trouver une formule CB plus ancrée dans la réalité robotique (liée aux coûts réels du robot) ainsi qu’augmenter le nombre de simulations. Cette amé-lioration est actuellement en cours, ainsi que l’augmentation des types d’environnements testés dans le cadre du transfert.

Chapitre 8

Conclusion

8

8.1 Résumé des contributions . . . . 97 8.2 Limites et perspectives . . . . 98 8.3 Conclusion . . . . 99

8.1 Résumé des contributions

Dans le travail présenté dans ce manuscrit nous nous sommes intéressés aux processus de décision d’un point de vue neurosciences et d’un point de vue robotique. Du côté des neurosciences, nous avons testé la capacité des modèles d’apprentissage par renforcement à réguler dynamiquement le taux d’exploration d’agents apprenants. Nous avons proposé une régulation basée sur une estimation de la récompense de la part de l’agent à long et court terme et avons observé que cette régulation est importante pour la capacité des modèles d’AR à expliquer les données obtenues chez les rats. Ceci suggère que les rats s’emploient en effet à réguler leur exploration de manière à maximiser les retours obtenus en se basant sur une estimation continue de la récompense.

D’un point de vue robotique, nous avons proposé une architecture de sélection sé-quentielle d’actions budgétisée prenant en compte un budget explicite limitant le nombre d’actions autorisées au robot pouvant implicitement représenter un certain coût de l’ac-tion comme celui lié aux limital’ac-tions matérielles du robot. Nous avons appliqué ce modèle à une tâche de navigation robotique en simulation et dans un cas réel. Nous avons pu voir que ce type de modèle était avantageux pour minimiser les données récoltées par des agents en environnement simulé, en réussissant à apprendre à partir de rien des séquences d’actions lui permettant de se localiser efficacement dans son environnement. Nous avons aussi pu montrer les limites de ce type de modèle lors de l’application sur des tâches en environnement réel. Malgré la capacité du modèle à apprendre des politiques efficaces alternant entre des actions d’acquisition de donnée et des actions de mouvement, il reste

malgré tout peu satisfaisant quant à sa capacité à généraliser sur les images tirées du robot. Dans le cas d’une application simulée nous avons observé que la performance en moyenne obtenue n’augmentait que de peu en augmentant le budget, ce qui nous a fait supposer que le modèle atteignait un maximum de performance pour un certain budget dans un environnement donné. Dans cette optique, nous avons testé des fonctions de calcul de gain relatif en performance pour différents budgets et de déterminer le rapport coût/bénéfice de façon à pouvoir trouver un budget ”optimal” (i.e. qui maximise ce rapport) dans un environnement donné. Nous avons ensuite proposé un protocole expérimental pour tes-ter la capacité du modèle à transférer des politiques apprises dans des environnements d’une certaine nature vers des environnements de même ou différente nature et de tes-ter par la même occasion la possibilité de l’existence d’un budget optimal pour chaque type d’environnement en utilisant une fonction de gain relatif et une fonction coût qui ont montré qu’en effet à chaque type d’environnement correspondait un budget optimal, une connaissance qui pourrait être utilisée à priori lors de modélisations de même nature. Ce travail nous permet d’ouvrir des perspectives sur les connaissances apprises par notre modèle qui pourraient être généralisées à d’autres environnements, de façon à éviter au robot de ré-apprendre les tâches depuis le début à chaque fois.

Dans le document Apprentissage actif sous contraite de budget en robotique et en neurosciences computationnelles : Localisation robotique et modélisation comportementale en environnement non stationnaire. (Page 95-99)