M´ethodes Formelles Approche Probabiliste
Arnaud Sangnier IRIF - Universit´e de Paris
Cours 9
Processus de d´ecision Markovien - I
• Variante des chaˆınes de Markov qui associe non-d´eterminisme et probabilit´e
• Les choix non-d´eterministes peuvent ˆetre utilis´es par exemple pour repr´esenter l’interaction du syst`eme avec son
environnement
• Par exemple: un distributeur de boissons a une chance sur deux de tomber en panne si l’on choisit un cappuccino et une chance sur dix si l’on choisit un caf´e ! le choix de la boisson est non-d´eterministe et la possibilit´e de tomber en panne est probabiliste
• Autre motivation pour le non d´eterminisme : algorithmes
probabilistes distribu´es, ici le non d´eterminisme est utilis´e pour
repr´esenter la concurrence
Processus de d´ecision Markovien - II
D´efinition
Un processus de d´ecision Markovien (PDM) M est un n-uplet (S, Act, P, s in , PA, L) o`u :
• S est l’ensemble des ´etats
• Act est l’ensemble des actions
• P : S ⇥ Act ⇥ S 7! [0; 1] est la fonction de transitions probabiliste telle que ⌃ s
02S P(s, a, s 0 ) 2 {0, 1} pour tout s 2 S et tout a 2 Act
• s in 2 S est l’´etat initial
• PA est l’ensemble des propositions atomiques
• L : S 7! 2 PA est la fonction d’´etiquetage
• [0; 1] correspond aux r´eels compris entre 0 et 1
• La fonction P d´efinit pour chaque ´etat s et chaque action a la probabilit´e P (s, a, s 0 ) d’aller ans l’´etat s 0 si on choisit l’action a
• Dans le cours, nous supposerons que S est fini et P(s, a, s 0 ) est
rationnel.
Processus de d´ecision Markovien - III
• Pour tout s 2 S et tout a 2 Act, ⌃ s
02S P(s, a, s 0 ) vaut 0 ou 1
• Si ⌃ s
02S P(s, a, s 0 ) = 1, on dit que l’action a est disponible dans s
• On note Act(s) l’ensemble des actions disponibles dans l’´etat s
• On suppose que Act(s) 6 = ; pour tout s 2 S
• Intuitivement quand on est dans un ´etat s 2 S, on fait un choix non d´eterministe parmi les actions dans Act(s) et ensuite l’´etat suivant est choisi selon la distribution P(s, a, · )
Remarque : Une chaˆıne de Markov est un PDM tel que Act(s) est un
singleton pour chaque ´etat s 2 S
Exemple
.
..
④ - - ④ ①
X. 1 ÷
Adrfsil
-.K
.B )
Act rule AWH
=Lr )
Quelques d´efinitions
Soit M = (S, Act, P, s in , PA, L) un PDM.
• Un chemin fini est une s´equence finie d’´etats et d’actions s 0 a 1 s 1 a 2 s 2 . . . a n s n telle que pour tout i 2 0, . . . , n 1, on a P(s i , a i+1 , s i+1 ) > 0
• On note un tel chemin s o a
1! s 1 a
2! s 2 . . . a !
ns n .
• On ´etend cette d´efinition aux chemins infinis
• Une ex´ecution est un chemin infini partant de s in
Quelle mesure utiliser dans les PDM ?
• Action ↵ : on lance une pi`ece parfaite
• Action : on lance une pi`ece biais´ee avec 1 chance sur 6 d’avoir
’face’
• Sans faire de , la probabilit´e d’avoir ’pile’ au moins une fois au bout de n lancers est 1 1 2 n
• Si est choisie les n premi`eres fois, cette probabilit´e devient 1 1 6 n
• D’autres valeurs sont possibles
" "
riled faced
Politique d’ex´ecution
Il n’y a pas une unique mesure de probabilit´e dans les PDM
• Pour obtenir une mesure, il faut pr´eciser les actions choisies et `a quel moment on les choisit
• Pour cela on se sert de politiques d’ex´ecution
D´efinition
Pour un PDM M = (S, Act, P, s in , PA, L), une politique d’ex´ecution est une fonction ✓ : S + 7! Act telle que ✓(s 0 . . . s n ) 2 Act(s n ) pour toute s 0 . . . s n 2 S +
• Une ex´ecution s o a
1! s 1 a
2! s 2 a
3! . . . est appel´ee une
✓-ex´ecution si a i = ✓(s 0 . . . s i 1 ) pour tout i > 0
• Une politique d’ex´ecution est parfois appel´ee strat´egie
• On note Pol(M), l’ensemble des politiques d’ex´ecution du PDM
M
Chaˆıne de Markov induite
• Lorsque l’on donne une politique d’ex´ecution, il n’y a plus de non-d´eterminisme, on obtient alors une chaˆıne de Markov
• Soit M = (S, Act, P, s in , PA, L) un PDM et ✓ une politique d’ex´ecution. On d´efinit la chaˆıne de Markov
M ✓ = (S + , P ✓ , , s in , PA, L 0 ) o`u :
• Pour = s
0. . . s
n, on a P
✓( , s
0) = P(s
n, ✓( ), s
0)
• L
0( ) = L(s
n)
• On voit que M ✓ est infini mˆeme si M est fini
Exemple - I
B
,'re
r
.1 A B
.k
- -
④ c- ④ I
x
.
1 8
.1
Odd =L si r
:so oh
. . .si
Oa lol
,g day les autres ay
,
"
!
% Hi B si r
iso s
n ...si
Op Col
=8 dam les antics coy
Exemple - II
.
④ I ④ ④
Roa
: →④ TssiTsit y
. . .sis
" ' 'sI→sissin→
. . . .NO B
:→
④
Z⇒ _^sh
is .. -V´erification de PDM
• Soit M = (S, Act, P, s in , PA, L) un PDM et ✓ une politique d’ex´ecution.
• Consid´erons une propri´et´e temporelle lin´eaire P ✓ (2 PA ) ! mesurable
• On s’int´eresse alors `a la probabilit´e suivante :
P M,✓ (s in | = P) = P M
✓(⇡ 2 Exec(M ✓ ) | L(⇡) 2 P)
• On rappelle que mˆeme si les ´etats de M ✓ sont des s´equences finies d’´etats, leur ´etiquette est celle du dernier ´etat
• Si on assimile PA avec S et on d´efinit P ✓ S ! on prendra le dernier ´etat de la s´equence pour d´efinir la mesure
• On s’int´eresse alors `a la plus petite et la plus grande probabilit´e en regardant toutes les politiques d’ex´ecution
P M,inf (s in | = P) = inf ✓ 2Pol(M) P M,✓ (s in | = P)
P M,sup (s in | = P) = sup ✓ 2Pol(M) P M,✓ (s in | = P)
Exemple - I
→
① ① ④
Da "
'
b¥0 Fox
,
③ Da
: ib
:0.3 I Win )
Pn
.
mp ( s
.FF Win )
=K
Pn
.
inf ( so f- F Win )
=O
Exemple - II
→
④ ① ④
Da "
¥7
airb
: O.
3 I Win )
Pn
.
mp ( Dot F Win )
=1
Pn
.
inf ( so t F Win )
=Of
Des politiques d’ex´ecution particuli`eres
Prendre des politiques o `u dans chaque ´etat on fera le mˆeme choix peu importe le pass´e
• Une politique d’ex´ecution ✓ est dite sans m´emoire ssi pour toute s´equences finies d’´etats s 0 . . . s n et t 0 . . . t m telles que s n = t m on a ✓(s 0 . . . s n ) = ✓(t 0 . . . t m )
• Dans ce cas, on peut voir ✓ comme une fonction S 7! Act (seul l’´etat o`u l’on est compte)
• La chaˆıne de Markov induite est aussi plus simple.
• Soit M = (S, Act, P, s in , PA, L) un PDM et ✓ : S 7! Act une politique d’ex´ecution sans m´emoire. On a alors
M ✓ = (S, P ✓ , s in , PA, L) o`u :
• P
✓(s, s
0) = P(s, ✓(s), s
0)
• Ici si M est fini alors M ✓ est fini, on peut donc utiliser les
m´ethodes de v´erification sur les chaˆınes de Markov vues
pr´ec´edemment pour calculer P M,✓ (s in | = P) quand ✓ est sans
m´emoire
Accessibilit´e dans les PDM - I
• Soit M = (S, Act, P, s in , PA, L) un PDM et B ✓ S. Nous voulons calculer : P M,sup (s in | = FB) = sup ✓ 2Pol(M) P M,✓ (s in | = FB)
• On peut se servir d’un syst`eme d’´equations
• Pour s 2 S, les inconnus seront x s 2 [ 0, 1 ] avec :
• x
s= 1 si s 2 B et x
s= 0 si il n’y a pas de chemins de s vers B dans M
• Dans les autres cas, on a:
x
s= max ( X
t2S
P(s, a, t) | a 2 Act(s))
• On peut alors montrer que ce syst`eme admet une unique solution et que
x s
in= P M,sup (s in | = FB) = sup ✓ 2Pol(M) P M,✓ (s in | = FB)
Exemple
a:
he
a:he
- - fair
④ ④ ,
¥ ④ gain
On vent calabi In .my/sut- Fsu )
.X ,
--O et Xi it
.II.
marker this
.k "
that
.naefazx.tk/KxotYxg=1zxo-sXo--3fetxi--
too
Accessibilit´e dans les PDM - II
• On peut aussi proc´eder diff´eremment grˆace `a la proposition suivante
Proposition
Soit M = (S, Act, P, s in , PA, L) un PDM fini et B ✓ S. Alors il existe une politique d’ex´ecution sans m´emoire ✓ telle que pour tout s 2 S, on a : P M,sup (s | = FB) = P M,✓ (s | = FB)
• Il suffit donc d’´enum´erer les politiques d’ex´ecution sans m´emoire (il y en a un nombre fini) et de trouver celle qui maximise
P M,✓ (s in | = FB)
Accessibilit´e dans les PDM - III
• Soit M = (S, Act, P, s in , PA, L) un PDM et B ✓ S. Nous voulons calculer : P M,inf (s in | = FB) = inf ✓2Pol(M) P M,✓ (s in | = FB)
• On peut se servir d’un syst`eme d’´equations
• Avant on calcule l’ensemble T = S
n 0 T n avec :
• T
0= B
• T
n+1= T
n[ {s 2 S | 8a 2 Act(s). 9t 2 T
n.P(s, a, t) > 0}
• Le calcul de T termine et T repr´esente les ´etats pour lesquels aucun choix ne permet d’´eviter B
• On a en effet inf ✓ 2Pol(M) P M,✓ (s | = FB) > 0 ssi s 2 T
• Pour s 2 S, les inconnus seront y s 2 [0, 1] avec :
• y
s= 1 si s 2 B et y
s= 0 si s 2 S \ T
• Dans les autres cas, on a:
y
s= min( X
t2S