• Aucun résultat trouvé

3.5 Famille SEARN

3.5.1 Politique non-stationnaire

Les algorithmes r´eunis dans cette section sont tr`es similaires. Chacun d’eux sera pr´esent´e avec ses garanties th´eoriques de mani`ere `a pr´esenter au lecteur le principe des changements locaux ´etape par ´etape. Contrairement `a SEARN qui sera pr´esent´e dans la section suivante, les algorithmes pr´esent´es ici utilisent des politiques telles que la r`egle de choix de l’action change en fonction de num´ero d’ordre de l’action, autrement dit des politiques que nous pouvons qualifier de « non-stationnaires ».

Algorithme FORWARD L’algorithme FORWARD original, tel qu’il est pr´esent´e dans [Ross and Bagnell, 2010], repose sur le probl`eme d’apprentis-sage expert. Dans ce travail, nous le pr´esentons en utilisant le probl`eme d’apprentissage tuteur afin de mettre en avant la structure commune qu’il partage avec les algorithmes BACKWARD et RANDOMWARD, que nous d´efinissons dans la suite de la section.

La politique πn = PushForward(πn−1, τn) est une politique qui est diff´erente de la politique πn−1 juste pour la n-`eme d´ecision : elle utilise le classifieur τn alors que la politique πn−1 fait appel `a l’expert pour la n-`eme d´ecision. Les d´ecisions de 1 `a n − 1 sont r´ealis´ees avec les classifieurs τ1, ...τn−1 appris lors des it´erations pr´ec´edentes, puis avec l’expert pour les d´ecisions `a partir de n+1. La politique peut donc ˆetre d´efinie par la formule

3.5. FAMILLE SEARN 53

Algorithme 7 : FORWARD

Donn´ees : donn´ees d’apprentissage repr´esentant fD+, ensemble param´etrique Π, longueur minimale assurant le chemin complet T , politique de l’expert d´eterministe πexp

1 Initialisation : π0 ← πexp;

2 pour n = 1..T faire

3 Construire le probl`eme d’apprentissage TutProbn−1n−1);

4 Apprendre τn r´esolvant TutProbn−1n−1);

5 πn= PushForward(πn−1, τn); 6 fin 7 retourner πN; r´ecursive suivante : πn= PushForward(πn−1, τn) =      πn−1 pour 1 ≤ t ≤ n − 1 τn pour t = n π pour t ≥ n + 1 (3.15)

Par la suite, nous utiliserons une formulation diff´erente de cette d´efinition, ne marquant pas explicitement l’appel `a l’expert :

πn = PushForward(πn−1, τn) = (

πn−1 pour t 6= n

τn pour t = n (3.16) L’algorithme FORWARD poss`ede la garantie th´eorique suivante : Lemme 3.5.1. Soit πT la politique obtenue `a l’aide de l’algorithme forward. L’´egalit´e suivante est v´erifi´ee :

L(πT) = L(πexp) +

T

X

n=1

llocn; πn−1) (3.17)

Ce lemme a ´et´e d´emontr´e dans [Ross and Bagnell, 2010] en s’appuyant sur la formule (3.15). ´Etant donn´ee son importance dans notre travail, nous allons donner une d´emonstration tr`es d´etaill´ee de ce premier lemme et un peu plus g´en´erale que la preuve originale, sans utiliser explicitement le fait que la politique πn fait appel `a l’expert pour les positions (n + 1, ..., T ) et en nous appuyant pour cela sur la formule (3.16).

D´emonstration. (Cette d´emonstration est une g´en´eralisation de la d´emonstration pr´esent´ee dans [Ross and Bagnell, 2010].) Consid´erons la

perte associ´ee `a la politique πn. Soit esdiv la distribution des ´etats o`u le nouveau classifieur τn est appliqu´e. Autrement dit, esdiv est la distribution des ´etats d’arriv´ee apr`es n − 1 actions faites par la politique πn :

e

sdiv =sei◦ πn−1 n

Comme πn−1 est ´egale `a πn−1 pour les n − 1 premi`eres actions, il est ´egalement vrai que :

e

sdiv =sei◦ πn−1 n−1

V (esi; πn−1) s’exprime donc de la mani`ere suivante :

V (esi; πn−1) = R(esiπ−−−−−n−1, n−1esdiv) + R(esdivπ−−−n−1→ S, · f) = R(esiπ−−−−−n−1, n−1esdiv) + V (esdiv; πn−1)

(3.18)

La premi`ere ´egalit´e vient de la fonction de valeur d´ecompos´ee sur deux morceaux de trajectoire de la politique πn−1 : (si, sdiv) ∪ (sdiv, sfin ∈ Sf). La deuxi`eme ´egalit´e provient directement de la d´efinition de V . Nous avons une d´ecomposition similaire de V (esi; πn) :

V (esi; πn) = R(esi −−−−→πn, n−1 esdiv) + R(esdiv −−→ ·πn, 1 πn, ·

−−→ Sf) = R(seiπ−−−−−n−1, n−1esdiv) + R(sediv −−→ ·τn, 1π−−−n−1→ S, · f) = R(esiπ−−−−−n−1, n−1esdiv) + Q(esdiv, τn(esdiv); πn−1)

(3.19)

La premi`ere ´egalit´e vient `a nouveau de la fonction de valeur d´ecompos´ee cette fois-ci sur trois morceaux de trajectoire de la politique πn : de l’´etat initial jusqu’`a sdiv, de sdiv jusqu’`a πn(sdiv) et de πn(sdiv) jusqu’`a l’´etat final. La deuxi`eme ´egalit´e utilise la formule de r´ecurrence (3.15). La troisi`eme ´egalit´e utilise la d´efinition de Q.

En utilisant les deux repr´esentations (3.18) et (3.19) on obtient l’expres-sion suivante pour la fonction de valeur V (esi; πn) :

V (esi; πn) = V (esi; πn−1) − V (esdiv; πn−1) + Q(esdiv, τn(esdiv); πn−1) = V (esi; πn−1) + llocnn; πn−1)

(3.20)

ce qui nous am`ene `a :

L(πn) = V (sei; πn) − V (esi; πexp)

= V (sei; πn−1) + lnlocn; πn−1) − V (esi, πexp) = L(πn−1) + lnlocn, πn−1)

3.5. FAMILLE SEARN 55

La perte de la politique πn par rapport `a la politique πn−1 se trouve donc ˆ

etre simplement la perte locale associ´ee `a l’utilisation du nouveau classifieur τn. Remarquons que certaines suites d’actions peuvent avoir moins de n actions. Dans ce cas, la perte correspondante llocnn; πn−1) est consid´er´ee ´

egale `a 0, ce qui permet de ne pas traiter sp´ecialement ce cas.

Il suffit maintenant d’appliquer la proc´edure pr´esent´ee N fois afin d’ob-tenir le r´esultat recherch´e (3.17).

Cette garantie signifie que la qualit´e de chaque nouvelle politique ap-prise est d´etermin´ee par la qualit´e de la politique pr´ec´edente et par la perte locale du nouveau classifieur. Autrement dit, la politique apprise est ga-rantie de ne pas ˆetre sujette aux effets d’avalanche. Il est intuitif dans ce cas de comprendre le m´ecanisme qui permet d’´eviter l’effet d’avalanche. Chaque nouveau classifieur est entrain´e `a faire ses choix connaissant la po-litique qui va engendrer l’´etat o`u il sera appliqu´e. Il va donc rencontrer lors de l’inf´erence des situation similaires `a celles qu’il a pu observer lors de l’apprentissage.

Algorithme BACKWARD Nous proposons l’algorithme suivant afin de montrer un m´ecanisme diff´erent de gestion de l’effet d’avalanche et faire une transition plus lisse avec les sections suivantes de ce chapitre. Comme son nom le sugg`ere, l’algorithme BACKWARD est le sym´etrique de l’algorithme FORWARD. Les classifieurs qui composent la politique non-stationnaire sont entrain´es dans l’ordre inverse : du dernier au premier. Pour chaque classifieur, les exemples d’apprentissage sont construits de la mani`ere suivante : les ´etats sont issus de l’application de la politique expert, alors que les coˆuts des actions sont estim´es `a l’aide des classifieurs appris lors des it´erations pr´ec´edentes.

La politique πn = PushBackward(πn−1, τn) diff`ere de la politique πn−1

uniquement pour la T − n + 1-`eme d´ecision pour laquelle elle utilise le classifieur τn au lieu de faire appel `a l’expert. Les autres d´ecisions sont r´ealis´ees `a l’aide de l’expert pour les d´ecisions de 1 `a T − n, et par des classifieurs τ1, ..., τn−1 pour les d´ecisions suivantes. Ce qui donne la formule r´ecursive suivante : πn= PushBackward(πn−1, τn) =      π pour 1 ≤ t ≤ T − n τn pour t = T − n + 1 πn−1 pour t > T − n + 1 (3.22)

Algorithme 8 : BACKWARD

Donn´ees : donn´ees d’apprentissage repr´esentant fD+, ensemble param´etrique Π, longueur minimale assurant un chemin complet T , politique de l’expert d´eterministe πexp

1 Initialisation : π0 ← πexp;

2 pour n = 1..T faire

3 Construire le probl`eme d’apprentissage TutProbT −nn−1);

4 Apprendre τn r´esolvant TutProbT −nn−1);

5 πn= PushBackward(πn−1, τn); 6 fin 7 retourner πT; cette formule : πn= PushBackward(πn−1, τn) = ( τn pour t = T − n + 1 πn−1 pour t 6= T − n + 1 (3.23)

Les garanties th´eoriques et la d´emonstration correspondante sont tr`es proches de celles de l’algorithme FORWARD.

Lemme 3.5.2. Soit πT la politique obtenue `a l’aide de l’algorithme BACK-WARD. L’´egalit´e suivante est respect´ee :

L(πT) = L(πexp) +

T

X

n=1

lT −n+1locn; πn−1) (3.24)

D´emonstration. La d´emonstration se d´eroule comme pour l’algorithme FORWARD, `a la diff´erence que sdiv =sei◦πT −n

n ; le reste de la d´emonstration est inchang´ee.

Comme dans le cas de FORWARD, la qualit´e de chaque nouvelle poli-tique apprise est d´etermin´ee par la qualit´e de la politique pr´ec´edente et par la perte locale du nouveau classifieur. L’effet d’avalanche n’est donc `a nou-veau pas pr´esent, mais le m´ecanisme qui permet de l’´eviter est diff´erent de celui mis en œuvre pour l’algorithme FORWARD. Dans ce cas, le nouveau classifieur ne poss`ede pas de connaissances sur la politique qui le pr´ec`ede dans la construction du chemin, il a donc une mauvaise connaissance des ´etats dans lesquels il devra prendre des d´ecisions. Par contre, cette fois-ci, le classifieur poss`ede une connaissance parfaite de la politique qui sera ap-pliqu´ee apr`es sa d´ecision. Cela lui permet d’estimer exactement le coˆut de

3.5. FAMILLE SEARN 57

chaque action et donc d’´eviter les chemins que la politique suivante ne sait pas g´erer.

Notons que, contrairement au cas de FORWARD, BACKWARD n´ecessite une estimation des coˆuts des actions sachant que la politique qui agira ensuite n’est pas celle de l’expert ; le probl`eme d’apprentissage expert ne peut donc pas ˆetre appliqu´e ici et il est donc n´ecessaire d’avoir recours `

a un tuteur.

Algorithme RANDOMWARD Nous avons donc vu deux m´ecanismes qui permettent, chacun `a sa mani`ere, d’´eviter l’effet d’avalanche : une connaissance parfaite du pass´e dans le cas de FORWARD et du futur dans le cas de BACKWARD. Il est aussi possible d’utiliser des solutions interm´ediaires, c’est-`a-dire des connaissances partielles sur le pass´e et sur le futur. Pour cela, on apprend les classifieurs dans un ordre quelconque, ce que fait l’algorithme RANDOMWARD, qui est, comme son pr´ed´ecesseur, propos´e dans ce travail `a titre d’illustration.

RANDOMWARD est un algorithme tr`es similaire aux deux pr´ec´edents `

a ceci pr`es que les classifieurs qui composent les politiques non-stationnaires sont entrain´es dans un ordre arbitraire. Les algorithmes FORWARD et BA-CKWARD ne sont donc que des cas particuliers de celui-ci.

Algorithme 9 : RANDOMWARD

Donn´ees : donn´ees d’apprentissage repr´esentant fD+, ensemble param´etrique Π, suite de positions O, nombre

d’it´erations N = |O|, politique de l’expert d´eterministe πexp

1 Initialisation : π0 ← πexp;

2 pour n ∈ 1..N faire

3 Construire le probl`eme d’apprentissage TutProbon−1

πn−1);

4 Apprendre τn r´esolvant TutProbon−1

n−1);

5 πn= PushRandomward(πn−1, τn, on);

6 fin

7 retourner πN;

La politique πn = PushRandomward(πn−1, τn, o) est une politique qui est diff´erente de la politique πn−1 juste pour la o-`eme d´ecision pour laquelle elle utilise le classifieur τn. Les autres d´ecisions sont r´ealis´ees `a l’aide de la

politique πn−1. Ce qui donne la formule r´ecursive suivante :

πn = PushRandomward(πn−1, τn, o) = (

τn pour t = o

πn−1 pour t 6= o (3.25)

La suite de positions O est une suite d’indices compris entre 1 et T in-diquant chacun la position pour laquelle un nouveau classifieur doit ˆetre entrain´e. Cette suite peut contenir un nombre arbitraire d’indices et il est donc possible que certaines positions ne soient pas entrain´ees et que d’autre le soient au contraire plusieurs fois. On appellera couvrante une suite de positions contenant chaque position au moins une fois.

Les garanties th´eoriques de RANDOMWARD dans le cas d’une suite de positions couvrantes sont tr`es proches de celles des algorithmes FORWARD et BACKWARD :

Lemme 3.5.3. Soit πN la politique obtenue `a l’aide de l’algorithme RAN-DOMWARD avec la suite de positions O couvrante. L’´egalit´e suivante est respect´ee : L(πN) = L(πexp) + N X n=1 lon locn; πn−1) (3.26)

D´emonstration. La d´emonstration est similaire `a celle de l’algorithme FORWARD, avec pour diff´erence que sdiv = sei ◦ πon−1

n ; le reste de la d´emonstration est inchang´ee.

Dans le cas o`u la suite O n’est pas couvrante, la politique apprise n´ecessite l’expert au moment du test alors que celui n’est plus disponible. Dans ce travail nous consid´erons ce cas comme exceptionnel et les strat´egies de choix de l’ordre doivent chercher `a l’´eviter. N´eanmoins, dans le cas o`u la politique apprise continuerait `a faire appel `a l’expert, celui-ci sera remplac´e par une politique al´eatoire et nous consid´erons que la perte ne peut ˆetre limit´ee pour ce cas.

Corollaire 3.5.1. Soit πN la politique obtenue `a l’aide de l’algorithme RANDOMWARD, et ¯πN la politique obtenue depuis πN en rempla¸cant les appels `a l’expert par des d´ecisions al´eatoires. L’in´egalit´e suivante est res-pect´ee : L(¯πN) = ( L(πexp) +PN n=1lon locn; πn−1) si O couvrante

Lmax si O non − couvrante (3.27)

3.5. FAMILLE SEARN 59