3.5 Famille SEARN
3.5.1 Politique non-stationnaire
Les algorithmes r´eunis dans cette section sont tr`es similaires. Chacun d’eux sera pr´esent´e avec ses garanties th´eoriques de mani`ere `a pr´esenter au lecteur le principe des changements locaux ´etape par ´etape. Contrairement `a SEARN qui sera pr´esent´e dans la section suivante, les algorithmes pr´esent´es ici utilisent des politiques telles que la r`egle de choix de l’action change en fonction de num´ero d’ordre de l’action, autrement dit des politiques que nous pouvons qualifier de « non-stationnaires ».
Algorithme FORWARD L’algorithme FORWARD original, tel qu’il est pr´esent´e dans [Ross and Bagnell, 2010], repose sur le probl`eme d’apprentis-sage expert. Dans ce travail, nous le pr´esentons en utilisant le probl`eme d’apprentissage tuteur afin de mettre en avant la structure commune qu’il partage avec les algorithmes BACKWARD et RANDOMWARD, que nous d´efinissons dans la suite de la section.
La politique πn = PushForward(πn−1, τn) est une politique qui est diff´erente de la politique πn−1 juste pour la n-`eme d´ecision : elle utilise le classifieur τn alors que la politique πn−1 fait appel `a l’expert pour la n-`eme d´ecision. Les d´ecisions de 1 `a n − 1 sont r´ealis´ees avec les classifieurs τ1, ...τn−1 appris lors des it´erations pr´ec´edentes, puis avec l’expert pour les d´ecisions `a partir de n+1. La politique peut donc ˆetre d´efinie par la formule
3.5. FAMILLE SEARN 53
Algorithme 7 : FORWARD
Donn´ees : donn´ees d’apprentissage repr´esentant fD+, ensemble param´etrique Π, longueur minimale assurant le chemin complet T , politique de l’expert d´eterministe πexp
1 Initialisation : π0 ← πexp;
2 pour n = 1..T faire
3 Construire le probl`eme d’apprentissage TutProbn−1(πn−1);
4 Apprendre τn r´esolvant TutProbn−1(πn−1);
5 πn= PushForward(πn−1, τn); 6 fin 7 retourner πN; r´ecursive suivante : πn= PushForward(πn−1, τn) = πn−1 pour 1 ≤ t ≤ n − 1 τn pour t = n π∗ pour t ≥ n + 1 (3.15)
Par la suite, nous utiliserons une formulation diff´erente de cette d´efinition, ne marquant pas explicitement l’appel `a l’expert :
πn = PushForward(πn−1, τn) = (
πn−1 pour t 6= n
τn pour t = n (3.16) L’algorithme FORWARD poss`ede la garantie th´eorique suivante : Lemme 3.5.1. Soit πT la politique obtenue `a l’aide de l’algorithme forward. L’´egalit´e suivante est v´erifi´ee :
L(πT) = L(πexp) +
T
X
n=1
lloc(τn; πn−1) (3.17)
Ce lemme a ´et´e d´emontr´e dans [Ross and Bagnell, 2010] en s’appuyant sur la formule (3.15). ´Etant donn´ee son importance dans notre travail, nous allons donner une d´emonstration tr`es d´etaill´ee de ce premier lemme et un peu plus g´en´erale que la preuve originale, sans utiliser explicitement le fait que la politique πn fait appel `a l’expert pour les positions (n + 1, ..., T ) et en nous appuyant pour cela sur la formule (3.16).
D´emonstration. (Cette d´emonstration est une g´en´eralisation de la d´emonstration pr´esent´ee dans [Ross and Bagnell, 2010].) Consid´erons la
perte associ´ee `a la politique πn. Soit esdiv la distribution des ´etats o`u le nouveau classifieur τn est appliqu´e. Autrement dit, esdiv est la distribution des ´etats d’arriv´ee apr`es n − 1 actions faites par la politique πn :
e
sdiv =sei◦ πn−1 n
Comme πn−1 est ´egale `a πn−1 pour les n − 1 premi`eres actions, il est ´egalement vrai que :
e
sdiv =sei◦ πn−1 n−1
V (esi; πn−1) s’exprime donc de la mani`ere suivante :
V (esi; πn−1) = R(esi −π−−−−−n−1, n−1→esdiv) + R(esdiv −π−−−n−1→ S, · f) = R(esi −π−−−−−n−1, n−1→esdiv) + V (esdiv; πn−1)
(3.18)
La premi`ere ´egalit´e vient de la fonction de valeur d´ecompos´ee sur deux morceaux de trajectoire de la politique πn−1 : (si, sdiv) ∪ (sdiv, sfin ∈ Sf). La deuxi`eme ´egalit´e provient directement de la d´efinition de V . Nous avons une d´ecomposition similaire de V (esi; πn) :
V (esi; πn) = R(esi −−−−→πn, n−1 esdiv) + R(esdiv −−→ ·πn, 1 πn, ·
−−→ Sf) = R(sei −π−−−−−n−1, n−1→esdiv) + R(sediv −−→ ·τn, 1 −π−−−n−1→ S, · f) = R(esi −π−−−−−n−1, n−1→esdiv) + Q(esdiv, τn(esdiv); πn−1)
(3.19)
La premi`ere ´egalit´e vient `a nouveau de la fonction de valeur d´ecompos´ee cette fois-ci sur trois morceaux de trajectoire de la politique πn : de l’´etat initial jusqu’`a sdiv, de sdiv jusqu’`a πn(sdiv) et de πn(sdiv) jusqu’`a l’´etat final. La deuxi`eme ´egalit´e utilise la formule de r´ecurrence (3.15). La troisi`eme ´egalit´e utilise la d´efinition de Q.
En utilisant les deux repr´esentations (3.18) et (3.19) on obtient l’expres-sion suivante pour la fonction de valeur V (esi; πn) :
V (esi; πn) = V (esi; πn−1) − V (esdiv; πn−1) + Q(esdiv, τn(esdiv); πn−1) = V (esi; πn−1) + llocn (τn; πn−1)
(3.20)
ce qui nous am`ene `a :
L(πn) = V (sei; πn) − V (esi; πexp)
= V (sei; πn−1) + lnloc(τn; πn−1) − V (esi, πexp) = L(πn−1) + lnloc(τn, πn−1)
3.5. FAMILLE SEARN 55
La perte de la politique πn par rapport `a la politique πn−1 se trouve donc ˆ
etre simplement la perte locale associ´ee `a l’utilisation du nouveau classifieur τn. Remarquons que certaines suites d’actions peuvent avoir moins de n actions. Dans ce cas, la perte correspondante llocn (τn; πn−1) est consid´er´ee ´
egale `a 0, ce qui permet de ne pas traiter sp´ecialement ce cas.
Il suffit maintenant d’appliquer la proc´edure pr´esent´ee N fois afin d’ob-tenir le r´esultat recherch´e (3.17).
Cette garantie signifie que la qualit´e de chaque nouvelle politique ap-prise est d´etermin´ee par la qualit´e de la politique pr´ec´edente et par la perte locale du nouveau classifieur. Autrement dit, la politique apprise est ga-rantie de ne pas ˆetre sujette aux effets d’avalanche. Il est intuitif dans ce cas de comprendre le m´ecanisme qui permet d’´eviter l’effet d’avalanche. Chaque nouveau classifieur est entrain´e `a faire ses choix connaissant la po-litique qui va engendrer l’´etat o`u il sera appliqu´e. Il va donc rencontrer lors de l’inf´erence des situation similaires `a celles qu’il a pu observer lors de l’apprentissage.
Algorithme BACKWARD Nous proposons l’algorithme suivant afin de montrer un m´ecanisme diff´erent de gestion de l’effet d’avalanche et faire une transition plus lisse avec les sections suivantes de ce chapitre. Comme son nom le sugg`ere, l’algorithme BACKWARD est le sym´etrique de l’algorithme FORWARD. Les classifieurs qui composent la politique non-stationnaire sont entrain´es dans l’ordre inverse : du dernier au premier. Pour chaque classifieur, les exemples d’apprentissage sont construits de la mani`ere suivante : les ´etats sont issus de l’application de la politique expert, alors que les coˆuts des actions sont estim´es `a l’aide des classifieurs appris lors des it´erations pr´ec´edentes.
La politique πn = PushBackward(πn−1, τn) diff`ere de la politique πn−1
uniquement pour la T − n + 1-`eme d´ecision pour laquelle elle utilise le classifieur τn au lieu de faire appel `a l’expert. Les autres d´ecisions sont r´ealis´ees `a l’aide de l’expert pour les d´ecisions de 1 `a T − n, et par des classifieurs τ1, ..., τn−1 pour les d´ecisions suivantes. Ce qui donne la formule r´ecursive suivante : πn= PushBackward(πn−1, τn) = π∗ pour 1 ≤ t ≤ T − n τn pour t = T − n + 1 πn−1 pour t > T − n + 1 (3.22)
Algorithme 8 : BACKWARD
Donn´ees : donn´ees d’apprentissage repr´esentant fD+, ensemble param´etrique Π, longueur minimale assurant un chemin complet T , politique de l’expert d´eterministe πexp
1 Initialisation : π0 ← πexp;
2 pour n = 1..T faire
3 Construire le probl`eme d’apprentissage TutProbT −n(πn−1);
4 Apprendre τn r´esolvant TutProbT −n(πn−1);
5 πn= PushBackward(πn−1, τn); 6 fin 7 retourner πT; cette formule : πn= PushBackward(πn−1, τn) = ( τn pour t = T − n + 1 πn−1 pour t 6= T − n + 1 (3.23)
Les garanties th´eoriques et la d´emonstration correspondante sont tr`es proches de celles de l’algorithme FORWARD.
Lemme 3.5.2. Soit πT la politique obtenue `a l’aide de l’algorithme BACK-WARD. L’´egalit´e suivante est respect´ee :
L(πT) = L(πexp) +
T
X
n=1
lT −n+1loc (τn; πn−1) (3.24)
D´emonstration. La d´emonstration se d´eroule comme pour l’algorithme FORWARD, `a la diff´erence que sdiv =sei◦πT −n
n ; le reste de la d´emonstration est inchang´ee.
Comme dans le cas de FORWARD, la qualit´e de chaque nouvelle poli-tique apprise est d´etermin´ee par la qualit´e de la politique pr´ec´edente et par la perte locale du nouveau classifieur. L’effet d’avalanche n’est donc `a nou-veau pas pr´esent, mais le m´ecanisme qui permet de l’´eviter est diff´erent de celui mis en œuvre pour l’algorithme FORWARD. Dans ce cas, le nouveau classifieur ne poss`ede pas de connaissances sur la politique qui le pr´ec`ede dans la construction du chemin, il a donc une mauvaise connaissance des ´etats dans lesquels il devra prendre des d´ecisions. Par contre, cette fois-ci, le classifieur poss`ede une connaissance parfaite de la politique qui sera ap-pliqu´ee apr`es sa d´ecision. Cela lui permet d’estimer exactement le coˆut de
3.5. FAMILLE SEARN 57
chaque action et donc d’´eviter les chemins que la politique suivante ne sait pas g´erer.
Notons que, contrairement au cas de FORWARD, BACKWARD n´ecessite une estimation des coˆuts des actions sachant que la politique qui agira ensuite n’est pas celle de l’expert ; le probl`eme d’apprentissage expert ne peut donc pas ˆetre appliqu´e ici et il est donc n´ecessaire d’avoir recours `
a un tuteur.
Algorithme RANDOMWARD Nous avons donc vu deux m´ecanismes qui permettent, chacun `a sa mani`ere, d’´eviter l’effet d’avalanche : une connaissance parfaite du pass´e dans le cas de FORWARD et du futur dans le cas de BACKWARD. Il est aussi possible d’utiliser des solutions interm´ediaires, c’est-`a-dire des connaissances partielles sur le pass´e et sur le futur. Pour cela, on apprend les classifieurs dans un ordre quelconque, ce que fait l’algorithme RANDOMWARD, qui est, comme son pr´ed´ecesseur, propos´e dans ce travail `a titre d’illustration.
RANDOMWARD est un algorithme tr`es similaire aux deux pr´ec´edents `
a ceci pr`es que les classifieurs qui composent les politiques non-stationnaires sont entrain´es dans un ordre arbitraire. Les algorithmes FORWARD et BA-CKWARD ne sont donc que des cas particuliers de celui-ci.
Algorithme 9 : RANDOMWARD
Donn´ees : donn´ees d’apprentissage repr´esentant fD+, ensemble param´etrique Π, suite de positions O, nombre
d’it´erations N = |O|, politique de l’expert d´eterministe πexp
1 Initialisation : π0 ← πexp;
2 pour n ∈ 1..N faire
3 Construire le probl`eme d’apprentissage TutProbon−1
πn−1);
4 Apprendre τn r´esolvant TutProbon−1
(πn−1);
5 πn= PushRandomward(πn−1, τn, on);
6 fin
7 retourner πN;
La politique πn = PushRandomward(πn−1, τn, o) est une politique qui est diff´erente de la politique πn−1 juste pour la o-`eme d´ecision pour laquelle elle utilise le classifieur τn. Les autres d´ecisions sont r´ealis´ees `a l’aide de la
politique πn−1. Ce qui donne la formule r´ecursive suivante :
πn = PushRandomward(πn−1, τn, o) = (
τn pour t = o
πn−1 pour t 6= o (3.25)
La suite de positions O est une suite d’indices compris entre 1 et T in-diquant chacun la position pour laquelle un nouveau classifieur doit ˆetre entrain´e. Cette suite peut contenir un nombre arbitraire d’indices et il est donc possible que certaines positions ne soient pas entrain´ees et que d’autre le soient au contraire plusieurs fois. On appellera couvrante une suite de positions contenant chaque position au moins une fois.
Les garanties th´eoriques de RANDOMWARD dans le cas d’une suite de positions couvrantes sont tr`es proches de celles des algorithmes FORWARD et BACKWARD :
Lemme 3.5.3. Soit πN la politique obtenue `a l’aide de l’algorithme RAN-DOMWARD avec la suite de positions O couvrante. L’´egalit´e suivante est respect´ee : L(πN) = L(πexp) + N X n=1 lon loc(τn; πn−1) (3.26)
D´emonstration. La d´emonstration est similaire `a celle de l’algorithme FORWARD, avec pour diff´erence que sdiv = sei ◦ πon−1
n ; le reste de la d´emonstration est inchang´ee.
Dans le cas o`u la suite O n’est pas couvrante, la politique apprise n´ecessite l’expert au moment du test alors que celui n’est plus disponible. Dans ce travail nous consid´erons ce cas comme exceptionnel et les strat´egies de choix de l’ordre doivent chercher `a l’´eviter. N´eanmoins, dans le cas o`u la politique apprise continuerait `a faire appel `a l’expert, celui-ci sera remplac´e par une politique al´eatoire et nous consid´erons que la perte ne peut ˆetre limit´ee pour ce cas.
Corollaire 3.5.1. Soit πN la politique obtenue `a l’aide de l’algorithme RANDOMWARD, et ¯πN la politique obtenue depuis πN en rempla¸cant les appels `a l’expert par des d´ecisions al´eatoires. L’in´egalit´e suivante est res-pect´ee : L(¯πN) = ( L(πexp) +PN n=1lon loc(τn; πn−1) si O couvrante
Lmax si O non − couvrante (3.27)
3.5. FAMILLE SEARN 59