M´ethodes Formelles Approche Probabiliste

(1)

M´ethodes Formelles Approche Probabiliste

Arnaud Sangnier IRIF - Universit´e de Paris

Cours 9

(2)

Processus de d´ecision Markovien - I

• Variante des chaˆınes de Markov qui associe non-d´eterminisme et probabilit´e

• Les choix non-déterministes peuvent être utilisés par exemple pour représenter l’interaction du système avec son

environnement

• Par exemple: un distributeur de boissons a une chance sur deux de tomber en panne si l’on choisit un cappuccino et une chance sur dix si l’on choisit un café ! le choix de la boisson est non-déterministe et la possibilité de tomber en panne est probabiliste

• Autre motivation pour le non d´eterminisme : algorithmes

probabilistes distribués, ici le non déterminisme est utilisé pour

repr´esenter la concurrence

(3)

Processus de d´ecision Markovien - II

D´efinition

Un processus de d´ecision Markovien (PDM) M est un n-uplet (S, Act, P, s _in , PA, L) o`u :

• S est l’ensemble des ´etats

• Act est l’ensemble des actions

• P : S ⇥ Act ⇥ S 7! [0; 1] est la fonction de transitions probabiliste telle que ⌃ _s

0

2S P(s, a, s ⁰ ) 2 {0, 1} pour tout s 2 S et tout a 2 Act

• s _in 2 S est l’´etat initial

• PA est l’ensemble des propositions atomiques

• L : S 7! 2 ^PA est la fonction d’´etiquetage

• [0; 1] correspond aux r´eels compris entre 0 et 1

• La fonction P définit pour chaque état s et chaque action a la probabilité P (s, a, s ⁰ ) d’aller ans l’état s ⁰ si on choisit l’action a

• Dans le cours, nous supposerons que S est fini et P(s, a, s ⁰ ) est

rationnel.

(4)

Processus de d´ecision Markovien - III

• Pour tout s 2 S et tout a 2 Act, ⌃ _s

0

2S P(s, a, s ⁰ ) vaut 0 ou 1

• Si ⌃ _s

0

2S P(s, a, s ⁰ ) = 1, on dit que l’action a est disponible dans s

• On note Act(s) l’ensemble des actions disponibles dans l’´etat s

• On suppose que Act(s) 6 = ; pour tout s 2 S

• Intuitivement quand on est dans un état s 2 S, on fait un choix non déterministe parmi les actions dans Act(s) et ensuite l’état suivant est choisi selon la distribution P(s, a, · )

Remarque : Une chaˆıne de Markov est un PDM tel que Act(s) est un

singleton pour chaque ´etat s 2 S

(5)

Exemple

.

④ ^- _- ④ ^①

X. 1 ÷

Adrfsil

^-.

K

^.

^B ⁾

Act rule AWH

⁼

Lr )

(6)

Quelques d´efinitions

Soit M = (S, Act, P, s _in , PA, L) un PDM.

• Un chemin fini est une s´equence finie d’´etats et d’actions s ₀ a ₁ s ₁ a ₂ s ₂ . . . a _n s _n telle que pour tout i 2 0, . . . , n 1, on a P(s _i , a _i+1 , s _i+1 ) > 0

• On note un tel chemin s o a

1

! s 1 a

2

! s 2 . . . ^a !

ⁿ

s n .

• On ´etend cette d´efinition aux chemins infinis

• Une ex´ecution est un chemin infini partant de s in

(7)

Quelle mesure utiliser dans les PDM ?

• Action ↵ : on lance une pi`ece parfaite

• Action : on lance une pi`ece biais´ee avec 1 chance sur 6 d’avoir

’face’

• Sans faire de , la probabilit´e d’avoir ’pile’ au moins une fois au bout de n lancers est 1 ¹ ₂ ⁿ

• Si est choisie les n premi`eres fois, cette probabilit´e devient 1 ¹ ₆ ⁿ

• D’autres valeurs sont possibles

" "

riled ^faced

(8)

Politique d’ex´ecution

Il n’y a pas une unique mesure de probabilit´e dans les PDM

• Pour obtenir une mesure, il faut pr´eciser les actions choisies et `a quel moment on les choisit

• Pour cela on se sert de politiques d’ex´ecution

D´efinition

Pour un PDM M = (S, Act, P, s _in , PA, L), une politique d’ex´ecution est une fonction ✓ : S ⁺ 7! Act telle que ✓(s ₀ . . . s _n ) 2 Act(s _n ) pour toute s ₀ . . . s _n 2 S ⁺

• Une ex´ecution s o a

1

! s 1 a

2

! s 2 a

3

! . . . est appel´ee une

✓-ex´ecution si a i = ✓(s 0 . . . s i 1 ) pour tout i > 0

• Une politique d’exécution est parfois appelée stratégie

• On note Pol(M), l’ensemble des politiques d’ex´ecution du PDM

M

(9)

Chaˆıne de Markov induite

• Lorsque l’on donne une politique d’ex´ecution, il n’y a plus de non-d´eterminisme, on obtient alors une chaˆıne de Markov

• Soit M = (S, Act, P, s _in , PA, L) un PDM et ✓ une politique d’ex´ecution. On d´efinit la chaˆıne de Markov

M ✓ = (S ⁺ , P ✓ , , s _in , PA, L ⁰ ) o`u :

• Pour = s

0

. . . s

n

, on a P

✓

( , s

⁰

) = P(s

n

, ✓( ), s

⁰

)

• L

⁰

( ) = L(s

n

)

• On voit que M ✓ est infini mˆeme si M est fini

(10)

Exemple - I

B

_,

're

r

_.

1 A ^B

^.

^k

- -

④ _c- ④ I

x

.

1 ⁸

^.

1 Odd ^=L ^si ^r

^:

^so ^oh

^. ^. ^.

^si

Oa lol

^,

^g day les autres _ay

,

"

!

% ^Hi ^B ^si ^r

ⁱ

^so ^s

ⁿ ^.^.^.

^si

Op ^Col

⁼

⁸ ^dam ^les ^antics coy

(11)

Exemple - II

.

④ I ^④ ^④

Roa

^: ^→

④ TssiTsit y

^. ^. ^.

sis

^" ^'^'

sI→sissin→

^. ^. ^. ^.

NO B

^:

→

④

^Z

⇒ _^sh

^is ^.^. ^-

(12)

V´erification de PDM

• Soit M = (S, Act, P, s _in , PA, L) un PDM et ✓ une politique d’ex´ecution.

• Considérons une propriété temporelle linéaire P ✓ (2 ^PA ) ^! mesurable

• On s’intéresse alors à la probabilité suivante :

P M,✓ (s in | = P) = P M

✓

(⇡ 2 Exec(M ✓ ) | L(⇡) 2 P)

• On rappelle que même si les états de M ✓ sont des séquences finies d’états, leur étiquette est celle du dernier état

• Si on assimile PA avec S et on définit P ✓ S ^! on prendra le dernier état de la séquence pour définir la mesure

• On s’intéresse alors à la plus petite et la plus grande probabilité en regardant toutes les politiques d’exécution

P M,inf (s _in | = P) = inf ✓ 2Pol(M) P M,✓ (s _in | = P)

P M,sup (s _in | = P) = sup ✓ 2Pol(M) P M,✓ (s _in | = P)

(13)

Exemple - I

→

① ① ④

Da ^"

'

b¥0 Fox

,

③ _Da

: i

b

:

0.3 I ^Win )

Pn

.

mp ( ^s

.

FF ^Win )

=

K

Pn

.

inf ⁽ ^so ^f- ^F ^Win )

⁼

^O

(14)

Exemple - II

→

④ ① ④

Da ^"

¥7

^air

b

^: ^O

.

3 I ^Win )

Pn

.

mp ( Dot ^F ^Win )

₌

₁

Pn

.

inf ( so t F Win )

=

Of

(15)

Des politiques d’ex´ecution particuli`eres

Prendre des politiques o ù dans chaque état on fera le même choix peu importe le passé

• Une politique d’exécution ✓ est dite sans mémoire ssi pour toute séquences finies d’états s 0 . . . s n et t 0 . . . t m telles que s n = t m on a ✓(s 0 . . . s n ) = ✓(t 0 . . . t m )

• Dans ce cas, on peut voir ✓ comme une fonction S 7! Act (seul l’´etat o`u l’on est compte)

• La chaˆıne de Markov induite est aussi plus simple.

• Soit M = (S, Act, P, s in , PA, L) un PDM et ✓ : S 7! Act une politique d’ex´ecution sans m´emoire. On a alors

M ✓ = (S, P ✓ , s _in , PA, L) o`u :

• P

✓

(s, s

⁰

) = P(s, ✓(s), s

⁰

)

• Ici si M est fini alors M ✓ est fini, on peut donc utiliser les

m´ethodes de v´erification sur les chaˆınes de Markov vues

pr´ec´edemment pour calculer P M,✓ (s _in | = P) quand ✓ est sans

m´emoire

(16)

Accessibilit´e dans les PDM - I

• Soit M = (S, Act, P, s _in , PA, L) un PDM et B ✓ S. Nous voulons calculer : P M,sup (s _in | = FB) = sup ✓ 2Pol(M) P M,✓ (s _in | = FB)

• On peut se servir d’un syst`eme d’´equations

• Pour s 2 S, les inconnus seront x s 2 [ 0, 1 ] avec :

• x

s

= 1 si s 2 B et x

s

= 0 si il n’y a pas de chemins de s vers B dans M

• Dans les autres cas, on a:

x

s

= max ( X

t2S

P(s, a, t) | a 2 Act(s))

• On peut alors montrer que ce syst`eme admet une unique solution et que

x s

in

= P M,sup (s _in | = FB) = sup ✓ 2Pol(M) P M,✓ (s _in | = FB)

(17)

Exemple

a:

he

_a:

he

- - fair

④ ④ ^,

¥ ④ ^gain

On vent calabi _In .my/sut- ^Fsu ⁾

^.

^X _,

^-^-

^O ^et Xi it

.

II. marker _this

^.

_k ^"

that

^.

naefazx.tk/KxotYxg=1zxo-sXo--3fetxi--

too

(18)

Accessibilit´e dans les PDM - II

• On peut aussi procéder différemment grâce à la proposition suivante

Proposition

Soit M = (S, Act, P, s in , PA, L) un PDM fini et B ✓ S. Alors il existe une politique d’ex´ecution sans m´emoire ✓ telle que pour tout s 2 S, on a : P M,sup (s | = FB) = P M,✓ (s | = FB)

• Il suffit donc d’énumérer les politiques d’exécution sans mémoire (il y en a un nombre fini) et de trouver celle qui maximise

P M,✓ (s _in | = FB)

(19)

Accessibilit´e dans les PDM - III

• Soit M = (S, Act, P, s in , PA, L) un PDM et B ✓ S. Nous voulons calculer : P M,inf (s in | = FB) = inf _✓2Pol(M) P M,✓ (s in | = FB)

• On peut se servir d’un syst`eme d’´equations

• Avant on calcule l’ensemble T = S

n 0 T n avec :

• T

0

= B

• T

n+1

= T

n

[ {s 2 S | 8a 2 Act(s). 9t 2 T

n

.P(s, a, t) > 0}

• Le calcul de T termine et T représente les états pour lesquels aucun choix ne permet d’éviter B

• On a en effet inf ✓ 2Pol(M) P M,✓ (s | = FB) > 0 ssi s 2 T

• Pour s 2 S, les inconnus seront y s 2 [0, 1] avec :

• y

s

= 1 si s 2 B et y

s

= 0 si s 2 S \ T

• Dans les autres cas, on a:

y

s

= min( X

t2S

P(s, a, t) | a 2 Act (s))

• On peut alors montrer que ce syst`eme admet une unique solution et que

y _s

_in

= P M,sup

_ippv

(s _in | = FB) = inf ✓ 2Pol(M) P M,✓ (s _in | = FB)

(20)

Accessibilit´e dans les PDM - IV

• On peut aussi procéder différemment grâce à la proposition suivante

Proposition

Soit M = (S, Act, P, s in , PA, L) un PDM fini et B ✓ S. Alors il existe une politique d’ex´ecution sans m´emoire ✓ telle que pour tout s 2 S, on a : P M,inf (s | = FB) = P M,✓ (s | = FB)

M´ethodes Formelles Approche Probabiliste

M´ethodes Formelles Approche Probabiliste

Arnaud Sangnier IRIF - Universit´e de Paris

Cours 9

Processus de d´ecision Markovien - I

• Variante des chaˆınes de Markov qui associe non-d´eterminisme et probabilit´e

• Les choix non-déterministes peuvent être utilisés par exemple pour représenter l’interaction du système avec son

environnement

• Par exemple: un distributeur de boissons a une chance sur deux de tomber en panne si l’on choisit un cappuccino et une chance sur dix si l’on choisit un café ! le choix de la boisson est non-déterministe et la possibilité de tomber en panne est probabiliste

• Autre motivation pour le non d´eterminisme : algorithmes

probabilistes distribués, ici le non déterminisme est utilisé pour

repr´esenter la concurrence

Processus de d´ecision Markovien - II

D´efinition

Un processus de d´ecision Markovien (PDM) M est un n-uplet (S, Act, P, s in , PA, L) o`u :

• S est l’ensemble des ´etats

• Act est l’ensemble des actions

• P : S ⇥ Act ⇥ S 7! [0; 1] est la fonction de transitions probabiliste telle que ⌃ s

2S P(s, a, s 0 ) 2 {0, 1} pour tout s 2 S et tout a 2 Act

• s in 2 S est l’´etat initial

• PA est l’ensemble des propositions atomiques

• L : S 7! 2 PA est la fonction d’´etiquetage

• [0; 1] correspond aux r´eels compris entre 0 et 1

• La fonction P définit pour chaque état s et chaque action a la probabilité P (s, a, s 0 ) d’aller ans l’état s 0 si on choisit l’action a

• Dans le cours, nous supposerons que S est fini et P(s, a, s 0 ) est

rationnel.

Processus de d´ecision Markovien - III

• Pour tout s 2 S et tout a 2 Act, ⌃ s

2S P(s, a, s 0 ) vaut 0 ou 1

• Si ⌃ s

2S P(s, a, s 0 ) = 1, on dit que l’action a est disponible dans s

• On note Act(s) l’ensemble des actions disponibles dans l’´etat s

• On suppose que Act(s) 6 = ; pour tout s 2 S

• Intuitivement quand on est dans un état s 2 S, on fait un choix non déterministe parmi les actions dans Act(s) et ensuite l’état suivant est choisi selon la distribution P(s, a, · )

Remarque : Une chaˆıne de Markov est un PDM tel que Act(s) est un

singleton pour chaque ´etat s 2 S

Exemple

.

.

④ - - ④ ①

X. 1 ÷

Adrfsil

K

B )

Act rule AWH

Lr )

Quelques d´efinitions

Soit M = (S, Act, P, s in , PA, L) un PDM.

• Un chemin fini est une s´equence finie d’´etats et d’actions s 0 a 1 s 1 a 2 s 2 . . . a n s n telle que pour tout i 2 0, . . . , n 1, on a P(s i , a i+1 , s i+1 ) > 0

• On note un tel chemin s o a

! s 1 a

! s 2 . . . a !

s n .

• On ´etend cette d´efinition aux chemins infinis

• Une ex´ecution est un chemin infini partant de s in

Quelle mesure utiliser dans les PDM ?

• Action ↵ : on lance une pi`ece parfaite

• Action : on lance une pi`ece biais´ee avec 1 chance sur 6 d’avoir

’face’

• Sans faire de , la probabilit´e d’avoir ’pile’ au moins une fois au bout de n lancers est 1 1 2 n

• Si est choisie les n premi`eres fois, cette probabilit´e devient 1 1 6 n

• D’autres valeurs sont possibles

" "

riled faced

Politique d’ex´ecution

Il n’y a pas une unique mesure de probabilit´e dans les PDM

• Pour obtenir une mesure, il faut pr´eciser les actions choisies et `a quel moment on les choisit

• Pour cela on se sert de politiques d’ex´ecution

D´efinition

Pour un PDM M = (S, Act, P, s in , PA, L), une politique d’ex´ecution est une fonction ✓ : S + 7! Act telle que ✓(s 0 . . . s n ) 2 Act(s n ) pour toute s 0 . . . s n 2 S +

• Une ex´ecution s o a

! s 1 a

! s 2 a

! . . . est appel´ee une

✓-ex´ecution si a i = ✓(s 0 . . . s i 1 ) pour tout i > 0

• Une politique d’exécution est parfois appelée stratégie

• On note Pol(M), l’ensemble des politiques d’ex´ecution du PDM

M

Chaˆıne de Markov induite

• Lorsque l’on donne une politique d’ex´ecution, il n’y a plus de non-d´eterminisme, on obtient alors une chaˆıne de Markov

Un processus de d´ecision Markovien (PDM) M est un n-uplet (S, Act, P, s _in , PA, L) o`u :

• P : S ⇥ Act ⇥ S 7! [0; 1] est la fonction de transitions probabiliste telle que ⌃ _s

2S P(s, a, s ⁰ ) 2 {0, 1} pour tout s 2 S et tout a 2 Act

• s _in 2 S est l’´etat initial

• L : S 7! 2 ^PA est la fonction d’´etiquetage

• La fonction P définit pour chaque état s et chaque action a la probabilité P (s, a, s ⁰ ) d’aller ans l’état s ⁰ si on choisit l’action a

• Dans le cours, nous supposerons que S est fini et P(s, a, s ⁰ ) est

• Pour tout s 2 S et tout a 2 Act, ⌃ _s

2S P(s, a, s ⁰ ) vaut 0 ou 1

• Si ⌃ _s

2S P(s, a, s ⁰ ) = 1, on dit que l’action a est disponible dans s

④ ^- _- ④ ^①

^B ⁾

Soit M = (S, Act, P, s _in , PA, L) un PDM.

• Un chemin fini est une s´equence finie d’´etats et d’actions s ₀ a ₁ s ₁ a ₂ s ₂ . . . a _n s _n telle que pour tout i 2 0, . . . , n 1, on a P(s _i , a _i+1 , s _i+1 ) > 0

! s 2 . . . ^a !

• Sans faire de , la probabilit´e d’avoir ’pile’ au moins une fois au bout de n lancers est 1 ¹ ₂ ⁿ

• Si est choisie les n premi`eres fois, cette probabilit´e devient 1 ¹ ₆ ⁿ

riled ^faced

Pour un PDM M = (S, Act, P, s _in , PA, L), une politique d’ex´ecution est une fonction ✓ : S ⁺ 7! Act telle que ✓(s ₀ . . . s _n ) 2 Act(s _n ) pour toute s ₀ . . . s _n 2 S ⁺

• Soit M = (S, Act, P, s _in , PA, L) un PDM et ✓ une politique d’ex´ecution. On d´efinit la chaˆıne de Markov

M ✓ = (S ⁺ , P ✓ , , s _in , PA, L ⁰ ) o`u :

1 A ^B

^k

④ _c- ④ I

1 ⁸

Odd ^=L ^si ^r

^so ^oh

^si

^g day les autres _ay

% ^Hi ^B ^si ^r

^so ^s

^si

Op ^Col

⁸ ^dam ^les ^antics coy

④ I ^④ ^④

• Soit M = (S, Act, P, s _in , PA, L) un PDM et ✓ une politique d’ex´ecution.

• Considérons une propriété temporelle linéaire P ✓ (2 ^PA ) ^! mesurable

• Si on assimile PA avec S et on définit P ✓ S ^! on prendra le dernier état de la séquence pour définir la mesure

P M,inf (s _in | = P) = inf ✓ 2Pol(M) P M,✓ (s _in | = P)

P M,sup (s _in | = P) = sup ✓ 2Pol(M) P M,✓ (s _in | = P)

Da ^"

③ _Da

0.3 I ^Win )

mp ( ^s

FF ^Win )

inf ⁽ ^so ^f- ^F ^Win )

^O