• Aucun résultat trouvé

Approche algorithmique de la recherche d'une stratégie RDU-optimale dans un arbre de décision

N/A
N/A
Protected

Academic year: 2021

Partager "Approche algorithmique de la recherche d'une stratégie RDU-optimale dans un arbre de décision"

Copied!
17
0
0

Texte intégral

(1)

HAL Id: hal-01303913

https://hal.archives-ouvertes.fr/hal-01303913

Submitted on 30 Jun 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Approche algorithmique de la recherche d’une stratégie

RDU-optimale dans un arbre de décision

Gildas Jeantet, Olivier Spanjaard

To cite this version:

Gildas Jeantet, Olivier Spanjaard. Approche algorithmique de la recherche d’une stratégie

RDU-optimale dans un arbre de décision. 9ème Congrès de la Société Française de Recherche

Opéra-tionnelle et d’Aide à la Décision (ROADEF 2008), Feb 2008, Clermont-Ferrand, France. pp.79-94.

�hal-01303913�

(2)

stratégie RDU-optimale dans un arbre de dé ision

G.Jeantetet O.Spanjaard

LIP6,4pla eJussieu,75252Paris edex05

{gildas.jeantet,olivier.span jaard }lip 6.fr

Résumé Leproblèmedelare her hed'unestratégieEU-optimale(i.e.,

optimaleausensdel'utilitéespérée)dansunarbredé isionhasardse

ré-soutentempslinéaireenfon tiondunombred'ar sparprogrammation

dynamique [11 ℄. Nous nousintéressons i i à unevariante plusdi ile

de eproblème,oùl'onre her heunestratégieRDU-optimale(i.e.,

opti-maleausensdel'utilitédépendantdurang).L'utilitédépendantdurang

[10 ℄présenteuneplusgranderi hessedes riptivequel'utilitéespérée ar

ellepermetuntraitementnonlinéairedesprobabilités. Leproblème

al-gorithmiquequis'ensuit dans les arbresdé ision hasardest ependant

plusdi ile ar laprogrammationdynamiquenes'applique plus.Nous

établissonsi iqueleproblèmeestNP-di ile.Nousproposonsun

algo-rithmede séparation etévaluation pourle résoudre, etprésentons des

résultatsnumériquesmontrantl'e a itédenotreappro he.

Mots-Clefs. Théoriedeladé ision;Algorithmique;Utilitédépendant

durang;Arbresdé isionhasard;Complexité;Séparationetévaluation.

1 Introdu tion

Ilest dessituationsde hoixoùles onséquen es desa tionspotentielles ne

peuventêtredéterminées ave ertitude. Lorsque ettein ertitudeest

probabi-lisée (autrement dit lorsque la probabilité d'o urren e de ha une des

onsé-quen es est onnue),onparlededé ision dansle risque.Unea tionpotentielle

peut alors être vue omme une distribution de probabilité sur l'ensemble des

onséquen es.L'objetdelathéoriedeladé isiondanslerisqueestentreautres

d'étudier et demodéliserle omportementd'undé ideur ensituation de hoix

entredetelles a tionspotentielles (pouruneintrodu tionaudomaine,voirpar

exemple l'ouvragede Gayant[4℄).Les premiers travauxdans ette optique

re-montent aumodèle de l'espéran ed'utilité (EU) proposé parvonNeumannet

Morgenstern[12℄.Dans emodèle,lesindividusassignentunevaleurnumérique,

nommée utilité, à haque onséquen e.L'évaluation d'unedistribution de

pro-babilité se fait ensuite via un al ul d'espéran e d'utilité. Une distribution de

probabilitéestalorspréféréeàuneautresisonespéran ed'utilitéestplusgrande.

Enpratique,l'ensembledesa tionspotentiellesestsouventdénien

ompré-hension. C'est le as enparti ulier dans lesproblèmesde dé isionséquentielle,

(3)

événe-arbre dé ision hasard. Il s'agit d'une arbores en e omportant trois types de

n÷uds:lesn÷udsde dé ision (représentéspardes arrés),lesn÷udsde hasard

(représentés pardes er les), et lesn÷uds terminaux (lesfeuilles de

l'arbores- en e). Les bran hes issues d'un n÷ud de dé ision orrespondent àdiérentes

dé isionspossibles,tandisque ellesissuesd'unn÷uddehasard orrespondent

auxdiérentsévénementspossibles,donton onnait lesprobabilités.Enn,les

valeursgurantau niveaudesfeuilles del'arbores en e orrespondentaux

uti-lités des diérentes onséquen es.Remarquons que l'usage veut qu'on omette

les orientations des ar s lorsqu'on représente les arbres dé ision hasard. Nous

illustrons maintenant l'usage de et outil sur un exemple de hoix de ontrat

d'assuran epourunbienimmobilier[3℄.

Exemple 1 Considéronsun ontratd'assuran eauquelonpeutdé iderde

sous- rire pour une année

1

et/ou uneannée

2

.Bien évidemment,on ne sait passi l'on seraamenéounon àlefairevaloiràla suited'undommage ( ambriolage,

inondation...).Onsupposei iquelaprise en harged'undommagenon ouvert

oûte 2. Par ailleurs, la probabilité de subir undommage durant l'année

2

est onditionnée aux événements de l'année

1

: elle est de

3

5

l'année 1, mais elle passeà

1

4

l'année2si ona déjà subiundommage lorsde l'année 1(sinon elle restein hangée). Lapremièreannée,on peutsous rire(dé ision 1)ounon

(dé- ision 0)un ontrat d'assuran e ouvrant les dommages dont le oût est de 1.

Ladeuxième année, on peut ou non renouveller e ontrat pour lemême oût.

L'utilitédudé ideurest al uléeenfon tiondu oûttotal

x = 2s + a

,où

s

estle nombrededommagesnon ouvertset

a

estlenombredesous riptionsau ontrat d'assuran e.Onposei iquelafon tiond'utilité

u

est

u(x) = 4 − x

.L'arbre dé- ision hasard orrespondantà eproblème estreprésentésurla gure1.

Ilestimportantderemarquerquedansunarbredé isionhasardbinaire

om-plet(i.e., omportantdeuxdé isions(resp.événements)possiblesà haquen÷ud

de dé ision (resp.hasard) et dont haque niveauest omplètement rempli), le

nombredestratégiespossiblesestexponentieldanslenombreden÷udsde

dé i-sion(rappelonsqu'unestratégieest ara tériséeparladonnéedes hoixee tués

auxdiérentsn÷uds dedé ision).Plus pré isément, sionnote

n

lenombrede n÷uds de dé ision, on peut montrer que le nombre de stratégies possibles est

en

Θ(2

n

)

(se tion3).Ilest ependantbien onnuqu'ilexisteunalgorithme

li-néaire(i.e.,en

O(n)

)permettantdedéterminer,parprogrammationdynamique, une stratégie optimaleau sensdu modèle EU. En eet, une telle stratégie

vé-rie le prin iped'optimalité : toute sous-stratégied'une stratégieoptimale est

optimale.L'idée de l'algorithme onsistedon àpro éderparindu tion arrière

àpartirdes n÷uds terminaux, an dedétermineren haquen÷ud l'espéran e

d'utilité d'unesous-stratégieoptimale:

 enunn÷uddehasard,l'espéran ed'utilitéoptimaleestégaleàl'espéran e

desutilitésoptimales desessu esseurs;

 enunn÷udde dé ision,l'espéran ed'utilité optimaleest égaleàlaplus

(4)

D

1

H

1

0

D

2

2/5

H

3

0

b

u(0) = 4

2/5

b

u(2) = 2

3/5

H

4

1

b

u(1) = 3

2/5

b

u(1) = 3

3/5

D

3

3/5

H

5

0

b

u(2) = 2

3/4

b

u(4) = 0

1/4

H

6

1

b

u(3) = 1

3/4

b

u(3) = 1

1/4

H

2

1

D

4

2/5

H

7

0

b

u(1) = 3

2/5

b

u(3) = 1

3/5

H

8

1

b

u(2) = 2

2/5

b

u(2) = 2

3/5

D

5

3/5

H

9

0

b

u(1) = 3

3/4

b

u(3) = 1

1/4

H

10

1

b

u(2) = 2

3/4

b

u(2) = 2

1/4

Fig.1.Exempled'arbredé isionhasard.

Exemple 2 Dans l'exemple pré édent du ontrat d'assuran e, l'algorithme

re-montelavaleur

max(

14

5

, 3) = 3

en

D

2

,

3

2

en

D

3

,

2

en

D

4

(enprenantladé ision 1) et

10

4

en

D

5

(en prenant la dé ision 0). Par onséquent, l'espéran e en

H

1

vaut

3 ×

2

5

+

3

2

×

3

5

=

21

10

eten

H

2

ellevaut

23

10

.Lastratégieoptimale ausensde EU onsistedon àsous rire au ontratla première annéeetàne sous rireau

ontratlase ondeannéequesil'onn'apassubidedommagelorsdelapremière.

La simpli ité d'utilisation du modèle EU, ainsi que son attrait sur le plan

normatif, lui ontpermis de régner sans partage es soixante dernières années.

Pourtant,lesmises endéfaut répétéesdumodèlesur leplan des riptifontni

par éroder sa position. En parti ulier, de nombreuses expérien es mettent en

éviden equelesindividus sous-évaluentlesfortesprobabilitésetsurévaluentles

faiblesprobabilités[1,7℄.De efait,biensouvent,lemodèleEUn'estpasàmême

de rendre ompte du omportement dé isionnel observé. Fa e à e onstat,de

nouveauxmodèlesontétédéveloppés: ertainssefondentsurunereprésentation

alternativedel'in ertitude ommel'oreparexemplelathéoriedespossibilités

[2℄,d'autresprennenten ompte expli itement laper eptiondéforméedes

pro-babilitésparledé ideur.Dans ette dernièredémar he,Quiggin[10℄aproposé

le modèleRank Dependent Utility (RDU), qui permet de rendre ompte d'un

plus largeéventailde omportementsdé isionnels. Cependant,la non-linéarité

(5)

unréelproblèmealgorithmiqueauvudunombre ombinatoiredestratégies

pos-sibles,qui rendimprati ableleurénumération omplète.

Leproposde epapierestpré isémentd'étudierleproblème onsistantà

dé-terminerlastratégieoptimaledansunarbredé isionhasardausensdeRDUet

deproposeruneméthodeparénumérationimpli itepourlerésoudre.Lepapier

estorganisé ommesuit.Dansunpremiertempsnousformalisonsla

probléma-tiqueetrappellonslesbasesdumodèleRDU.Nousmettonsensuiteenéviden e

l'impossibilitédepro éderparprogrammationdynamiquepourrésoudre e

pro-blèmeetnousprouvonsque edernierestNP-di ile(se tion3.3).Nous

expo-sonsalorsunalgorithmederésolutionparénumérationimpli ite, fondésurune

borne al ulable en temps quadratique, et nous terminons enn en présentant

lesrésultatsd'expérimentationsnumériques(se tion4).

2 Formalisation du problème

2.1 Notationset Dénitions

Dans unarbre dé isionhasard

T = (N , E)

ayantpourra ine unn÷ud de dé ision

N

r

, nous notons

N

D

⊂ N

(resp.

N

H

⊂ N

)l'ensemble desn÷uds de dé ision(resp.hasard).De plus,nousnotons

C ⊂ N

l'ensembledesn÷uds ter-minaux. Le grapheest valué omme suit : àtout ar

E = (H, N ) ∈ E

telque

H ∈ N

H

, on asso ie laprobabilité

p(E)

de l'événement orrespondant;à tout n÷udterminal

C ∈ C

, onasso ie sonutilité notée

u(C)

. Parailleurs, nous ap-pelons

past(N )

le passé de

N ∈ N

, i.e. l'ensemble des ar sle longdu hemin allant de

N

r

à

N

dans

T

. Enn, nous notons

S(N )

l'ensemble dessu esseurs de

N

dans

T

,et

T (N )

lesous-arbrede

T

dera ine

N

.

Soit

T

un arbredé isionhasardet

N

⊆ N

un ensemble den÷uds

onte-nant:

 lara ine

N

r

de

T

,

 unet unseulsu esseurpour haquen÷uddedé ision

N ∈ N

D

= N

D

N

,

 touslessu esseurspour haquen÷uddehasard

N ∈ N

H

= N

H

∩ N

. L'ensembled'ar s

∆ = {(N, N

) : N ∈ N

D

, N

∈ N

} ⊆ E

dénit unestratégie de

T

dès lorsque lesous-grapheinduit par

N

est un arbre.Etant donnéun

n÷uddedé ision

N

,larestri tiond'unestratégiede

T

ausous-arbre

T (N )

,qui n'estautrequ'unestratégiede

T (N )

,estappelléesous-stratégie.Nousnotons

D

l'ensembledesstratégies.

Soit

S = {u

1

, . . . , u

k

}

un ensemble ni d'utilités. On appelle loterie une distributiondeprobabilité

P

sur

S

.Onnote

L = (p

1

, u

1

; . . . ; p

k

, u

k

)

laloteriequi aboutitàuneutilité

u

i

ave uneprobabilité

p

i

= P ({u

i

})

.And'alléger ertaines notations,onpeut onsidérerlaloterie

L

ommeunefon tionde

S 7→ [0, 1]

telle

(6)

que

L(u

i

) = p

i

.Dans unarbredé isionhasard,àtoutestratégieil est possible d'asso ier une loterie.En eet, onpeut déterminerlaprobabilité

p

C

d'obtenir une onséquen e

C ∈ C

en al ulant:

p

C

=

Q

(H,N )∈past(C)

p((H, N ))

H ∈ N

H

Lavaleurd'unestratégieselonEU(resp.RDU)estégaleàlavaleurdelaloterie

orrespondanteselonEU (resp.RDU).

Exemple 3 Dans l'exemple du ontrat d'assuran e, la stratégie EU-optimale

orrespondàlaloterie

(

3

20

, 1;

8

20

, 2;

9

20

, 3)

dontl'espéran e estbien

46

20

=

23

10

.

2.2 Rappelssur RDU

Lemodèle RDU reposesur deuxparamètres: une fon tiond'utilité qui est

déjàprésentedanslemodèleEU,etunefon tion

ϕ

dedéformationdes probabi-lités.Ils'agit d'unefon tionstri tement roissantesur

[0, 1]

telle que

ϕ(0) = 0

et

ϕ(1) = 1

. Cettedéformationdesprobabilitésporte, nonsurdesprobabilités simples,maissurdes umulsdeprobabilités.Pourrappel,étantdonnéeune

lo-terie

L = (p

1

, u

1

; . . . ; p

k

, u

k

)

,onappellefon tion dé umulative de

L

lafon tion

G

L

: S 7→ [0, 1]

qui asso ie à haqueutilité

u

i

la probabilité d'avoirau moins etteutilité.Plusformellement,

G

L

(x) =

P

i:u

i

≥x

p

i

.LavaleurselonRDUd'une loterie

L

estalorsdéniedelamanièresuivante :

RDU (L) = u

(1)

+

P

k

i=2

[u

(i)

− u

(i−1)

]ϕ(G

L

(u

(i)

))

où (.) orrespondà une permutation de

{1, . . . , k}

telle que

u

(1)

≤ . . . ≤ u

(k)

. Ce ritère peut être interprété omme suit : on est sûr d'obtenir au moins

une utilité de

u

(1)

, puis on est sus eptible d'obtenir un supplément d'utilité de

u

(2)

− u

(1)

ave une massede probabilité

ϕ(G

L

(u

(2)

))

, puis un supplément d'utilité de

u

(3)

− u

(2)

ave une massede probabilité

ϕ(G

L

(u

(3)

))

, et ainsi de suite...

Exemple 4 ConsidéronslastratégieEU-optimaledel'exemple2.Laloterie

or-respondante est

L = (

3

20

, 1;

8

20

, 2;

9

20

, 3)

.Sa valeur RDU se al ule omme suit:

RDU (L) = 1 + ϕ(

17

20

) × (2 − 1) + ϕ(

9

20

) × (3 − 2)

. Supposons que

ϕ(p) = 0.25

pour

0 < p ≤ 0.5

,et

ϕ(p) = 0.75

pour

0.5 < p < 1

.Onobtientalors

RDU (L) =

1 + 0.75 × 1 + 0.25 × 1 = 2

.

L'intérêtdedéformerdes umulsdeprobabilités,etnondire tementles

pro-babilitéselles-mêmes( omme 'estparexemplele asdanslemodèledeHanda

[5℄), est d'obtenir un ritère de hoix ompatible ave la dominan e

sto has-tique. On dit qu'une loterie

L = (p

1

, u

1

; . . . ; p

k

, u

k

)

domine sto hastiquement une loterie

L

= (p

1

, u

1

; . . . ; p

k

, u

k

)

si

∀x ∈ R, G

L

(x) ≥ G

L

(x)

, autrementdit, pourtout

x ∈ R

,laprobabilitéd'obteniruneutilitéd'aumoins

x

ave laloterie

L

est aumoins aussi grandequ'ave laloterie

L

. La ompatibilité ave la

do-minan e sto hastiquesignieque

RDU (L) ≥ RDU (L

)

dèslorsque

L

domine sto hastiquement

L

[10℄.Cettepropriétéestbien entendusouhaitablepour

(7)

3.1 Espa e des solutions

Considéronsunarbredé isionhasardbinaire omplet

T

deprofondeur

2p

tel quelesn÷udsdeprofondeurpairesoientdesn÷udsdedé ision(oudesn÷uds

terminaux) et les n÷uds de profondeur impaire soient des n÷uds de hasard.

Nousnousintéressonsi ià omptabiliser lenombredestratégiespossibles

(au-trement dit de solutions réalisables) en fon tion de la taille de l'instan e. On

dénit omme taille de l'instan ele nombre de n÷uds de dé ision.Ce nombre

est eneetdumême ordredegrandeurquelenombreden÷udsde

T

. Remar-quons qu'ily a1n÷udde dé isionpourlaprofondeur

0

,

4

n÷uds dedé ision pourlaprofondeur

2

,

16

pourlaprofondeur

4

... Le nombretotalde n÷uds de dé ision dans

T

est don égal àla sommedes termes d'une suite géométrique de raison 4:

n = |N

D

| =

P

p−1

i=0

4

i

=

4

p

−1

4−1

. Exprimonsmaintenant le nombre destratégiesenfon tionde laprofondeur.Pour ela,onpro ède parindu tion

arrièresur

T

, enremontantlenombredestratégiesjusqu'àlara ine.On om-men eparétiqueterà

2

lesn÷uds dedé isionquinepossèdentau un n÷udde dé isiondansleurdes endan e. Onappliqueensuitelesrelationsde ré urren e

suivantes:lenombredestratégiesàpartird'unn÷uddehasarddonnéestégal

auproduit dunombredestratégiesàpartirdesessu esseurs,etlenombrede

stratégiesàpartird'unn÷uddedé isiondonnéestégalàlasommedunombre

de stratégiesàpartir de sessu esseurs.Ainsi, lenombre totalde stratégiesà

partird'unn÷uddedé ision

N

D

peutse al uleràl'aidedelasuiteré urrente

(u

k

)

suivante :

u

0

= 2

,

u

k

= 2u

2

k−1

, où

k

indique le nombre de n÷uds de dé- ision(

N

D

ex lu)sur un heminquel onquede

N

D

versunn÷udterminal.Le terme généralde ette suite est

2

(2

k+1

−1)

. On peut vérier fa ilementqu'on a

k = p − 1

àlara ine.Par onséquent,lenombretotaldestratégiesdans

T

est

|D| = u

p−1

= 2

(2

p

−1)

∈ Θ(2

n

)

(puisque

n = (4

p

− 1)/3

).Ainsi,le nombrede

stratégies potentielles étant exponentiel de la taille de l'instan e, il est

né es-sairededévelopperunalgorithmed'optimisation ombinatoirepourdéterminer

la stratégieoptimale.Nous montrons i-dessous que latâ heest d'autantplus

déli atequelaprogrammationdynamiquenes'appliquepluslorsqu'onoptimise

selonRDU.

3.2 Monotonie etindépendan e

Ilestbien onnuquelaprogrammationdynamiquereposesurlerespe td'une

ondition de monotonie [9℄ sur la fon tion de valuation. Dans notre ontexte,

ette onditionpeutseformuler ommesuitsur lafon tiondevaluation

V

des loteries:

∀α ∈ [0, 1],

V (L) ≥ V (L

) =⇒ V (αL + (1 − α)L

′′

) ≥ V (αL

+ (1 − α)L

′′

)

L, L

, L

′′

sontdesloteriesquel onqueset

αL + (1 − α)L

′′

estlaloteriedénie

par

(αL + (1 − α)L

′′

)(x) = αL(x) + (1 − α)L

′′

(x)

.Cette onditionalgorithmique

(8)

deuxloteries

L

et

L

ave unetroisième

L

′′

n'inversepasl'ordredespréféren es

(induit par

V

) : si

L

est stri tement préférée à

L

, alors

αL + (1 − α)L

′′

est stri tementpréféréeà

αL

+ (1 − α)L

′′

.Pour

V ≡ EU

lapropriétédemonotonie estvériée.Par ontre,pour

V ≡ RDU

,lapropriétén'estplusvalide, ommele montrel'exemplesuivant.

Exemple 5 Soient trois loteries

L = (0.5, 1; 0.5, 10)

,

L

= (1, 5)

et

L

′′

= L

.

Supposonsquelespréféren esdudé ideursuiventlemodèleRDUave lafon tion

ϕ

suivante :

ϕ(0) = 0

,

ϕ(p) = 0.45

si

0 < p ≤ 0.7, ϕ(p) = 1

si

p > 0.7

. Les valeursselon

RDU

de

L

et

L

sont:

RDU (L) = 1 + (10 − 1)ϕ(0.5) = 5.05

RDU (L

) = 5

Ainsi, ona

RDU (L) ≥ RDU (L

)

.D'après la propriétéde monotonie pour

α =

0.6

,ondevraitdon avoir

RDU (0.6L+0.4L

′′

) ≥ RDU (0.6L

+0.4L

′′

)

.Pourtant, on a:

RDU (0.6L + 0.4L

′′

) = 1 + (10 − 1)ϕ(0.5) = 5.05

RDU (0.6L

+ 0.4L

′′

) = 1 + (5 − 1)ϕ(0.6 + 0.2) + (10 − 5)ϕ(0.2) = 7.25

etdon

RDU (0.6L+0.4L

′′

) < RDU (0.6L

+0.4L

′′

)

.Par onséquent,lapropriété

de monotonie n'estpasvériée.

Depar laviolationduprin ipedemonotonie, la miseen ÷uvre d'une

pro- éduredeprogrammationdynamiquepour

RDU

dansunarbredé isionhasard peut onduire à une stratégie sous-optimale. Une telle pro édure peut même

onduireàunestratégiesto hastiquementdominée.Eneet, onsidéronsl'arbre

dedé isiondelagure2, onstruitàl'aidedel'exemple5.Dans etarbre

dé i-sionhasard,lesvaleurs

RDU

desdiérentesstratégiespossiblesàlara inesont:

RDU ({(D

1

, H

2

)}) = 1 + (5 − 1)ϕ(0.6 + 0.2) + (8 − 5)ϕ(0.2) = 6.35

RDU ({(D

1

, H

1

), (D

2

, H

3

), (D

3

, H

4

)}) = 1 + (10 − 1)ϕ(0.5) = 5.05

RDU ({(D

1

, H

1

), (D

2

, δ

1

), (D

3

, δ

2

)}) = 5

RDU ({(D

1

, H

1

), (D

2

, δ

1

), (D

3

, H

4

)}) = 7.25

RDU ({(D

1

, H

1

), (D

2

, H

3

), (D

3

, δ

2

)}) = 5.05

Ainsi,lastratégieoptimaleàlara ine est

{(D

1

, H

1

), (D

2

, δ

1

), (D

3

, H

4

)}

. Pour-tant,enpro édantparprogrammationdynamique,onobtienten

D

2

:

RDU ({(D

2

,

H

3

)}) = 1 + (10 − 1)ϕ(0.5) = 5.05

et

RDU ({(D

2

, δ

1

)}) = 5

. C'est don la sous-stratégie

{(D

2

, H

3

)}

qui est retenue en

D

2

, et de même la sous-stratégie

{(D

3

, H

4

)}

quiestretenueen

D

3

.Parsuite,en

D

1

, 'estlastratégie

{(D

1

, H

2

)}

(6.35 ontre5.05pour

{(D

1

, H

2

)}

),dominéesto hastiquementpar

{(D

1

, H

1

), (D

2

,

δ

1

), (D

3

, H

4

)})

,quiestretournée.

Un dé ideur utilisant le ritère RDU doit don faire du hoix résolu [8℄,

'est-à-dire qu'il doit hoisir une stratégie à la ra ine de l'arbre et s'y tenir

(faute de quoi il pourrait se retrouver omme i-dessus à suivre une stratégie

sto hastiquementdominée).Nous nousintéressonsi i àdéterminer une

straté-gieRDU-optimalevuedelara ine(puisànepasendévier).Remarquonsqu'un

(9)

D

1

H

1

D

2

0.6

H

3

b

10

0.5

b

1

0.5

b

5(δ

1

)

D

3

0.4

H

4

b

10

0.5

b

1

0.5

b

5(δ

2

)

H

2

b

1

0.2

b

5

0.6

b

8

0.2

Fig.2.RDUnevériepaslapropriétédemonotonie.

selonRDU.D'autresappro hesde hoixrésoluontétéenvisagéespour

détermi-ner une stratégieraisonnable àl'aide du ritèreRDU. Onpeut mentionneren

parti ulierlestravauxdeJarayetNielsen[6℄,dontladémar hedièrede elle

duprésentpapier.En eet, ils onsidèrent haquen÷udde dé isiondel'arbre

dé isionhasard ommeétantunegodudé ideur,etvisentàdéterminerune

stra-tégieréalisantun ompromisentre es diérentsegos,en s'assurantquetoutes

les sous-stratégies sont pro hes de l'optimum pour RDU et sto hastiquement

non-dominées.

3.3 Complexité du problème

Nousprouvonsmaintenantqueleproblème onsistantàdéterminerune

stra-tégie RDU-optimale est NP-di ile, si onpose que lataille d'uneinstan e du

problème orrespondaunombreden÷uds dedé isionimpliqués.

Proposition1 La re her he d'une stratégie RDU-optimale (problème

RDU-OPT)dansunarbre dé ision hasardest unproblème NP-di ile.

Démonstration.Ons'appuiesurunerédu tionpolynomialeduproblème3-SAT

versleproblèmeRDU-OPT.Leproblème3-SATseformule ommesuit:

INSTANCE:unensemble

X

devariablesbooléennes,une olle tion

C

de lauses sur

X

telleque

|c| = 3

pourtoute lause

c ∈ C

.

QUESTION : Existe-t-il une instan iation des variables booléennes de

X

qui satisfaitsimultanémenttoutesles lausesde

C

?

Soient

X = {x

1

, . . . , x

n

}

et

C = {c

1

, . . . , c

m

}

.La onstru tionpolynomialed'un arbre dé ision hasard à partir d'une instan e du problème 3-SAT se réalise

ommesuit. Ondénitunn÷uddedé isionpour haquevariable de

X

. Etant donnée

x

i

une variable de

X

, le n÷ud de dé ision asso ié dans l'arbre dé i-sionhasard,notéégalement

x

i

,adeuxls:lepremier(n÷uddehasardnoté

V

i

) orrespondàl'instan iationvraide

x

i

,etlese ond(n÷uddehasardnoté

F

i

) or-respond àl'instan iationfaux de

x

i

. Soient

{c

i

(10)

de lauses dans lesquelles gurent le littéral positif

x

i

, et

{c

i

1

, . . . , c

i

k

} ⊆ C

le sous-ensemble de lauses dans lesquelles gurent le littéral négatif

x

¯

i

. Pour haque lause

c

i

h

(

1 ≤ h ≤ j

) on rée ommelsde

V

i

unn÷udterminalnoté

c

i

h

, orrespondantà la lause

c

i

h

. On rée en outre un ls supplémentaire de

V

i

noté

c

0

, orrespondant à une onséquen e

c

0

 tive. De même, on rée un ls de

F

i

pour haque lause

c

i

h

(

1 ≤ h ≤ k

), ainsi qu'un ls supplémentaire orrespondantàla onséquen e

c

0

 tive.Len÷ud

V

i

omportedon

j + 1

ls, tandis quele n÷ud

F

i

omporte

k + 1

ls. Ande onstituerun uniquearbre dé ision hasard, on ajoute un n÷ud de hasard

H

père de tous les n÷uds de dé ision

x

i

(

1 ≤ i ≤ n

). Enn, on rajoute un n÷ud de dé ision à la ra ine, ayant

H

omme unique ls. L'arbre dé ision hasard ainsi onstruit omporte

n + 1

n÷uds dedé ision,

2n + 1

n÷uds dehasardet auplus

2n(m + 1)

n÷uds terminaux. Sa taille est don en

O(nm)

, e qui garantitbien la polynomialité de latransformation. A titre d'illustration, surla partie gau hede lagure3,

nousdonnonsl'arbredé isionhasardobtenupourl'instan esuivantede3-SAT:

(x

1

∨ x

2

∨ x

3

) ∧ (x

1

∨ x

3

∨ x

4

) ∧ (x

2

∨ x

3

∨ x

4

)

.

Remarquonsqu'onpeutétablirunebije tionentrel'ensembledesstratégiesdans

l'arbredé isionhasardetl'ensembledesinstan iationsdansleproblème3-SAT

dedépart.Il sut pour e fairede poser

x

i

= 1

dansle problème3-SATsiet seulementsil'ar

(x

i

, V

i

)

guredanslastratégie,et

x

i

= 0

sietseulementsi 'est l'ar

(x

i

, F

i

)

quiguredanslastratégie.Uneinstan iationsatisfaisante(i.e.,qui satisfaitsimultanémenttoutesles lauses)dans3-SAT orrespondàune

straté-gieoùtoute lause

c

i

(

1 ≤ i ≤ m

)gure omme onséquen epossible(ellegure don deuneàtroisfois).Pour ompléterlarédu tion,ils'agitdon maintenant

dedénird'unepartlesprobabilitésassignéesauxar sissusdesn÷uds

H

,

V

i

et

F

i

,etd'autrepartlesutilitésdes onséquen esetlafon tion

ϕ

.Larédu tionva onsisteràlesdénirdefaçonà equeseuleslesstratégies orrespondantàdes

instan iations satisfaisantes maximisent RDU.Plus pré isément, nousvisonsà

eque:

(i)

la valeur RDU d'une stratégie ne dépende que de l'ensemble (et non du multi-ensemble) de ses onséquen es possibles (autrement dit l'ensemble des

lausessatisfaitesparl'instan iation orrespondante),

(ii)

lavaleurRDU d'unestratégie orrespondantàuneinstan iation satisfai-santevailleexa tement

m

,

(iii)

siunestratégieestsus eptiblede onduireàunensemblede onséquen es possiblesquieststri tementin lusdansl'ensembledes onséquen esd'uneautre

stratégie,lavaleurRDU de ettedernièresoit stri tementsupérieure.

Pour efaire,aprèsavoirae télaprobabilité

1

n

auxar sissusde

H

,ondénit lesautresprobabilitéset lesutilitésdelafaçonsuivante(

i 6= 0

):

(

p

i

= (

10

1

)

i

u(c

i

) =

P

i

j=1

10

j−1

p

i

désignelaprobabilitédetoutar onduisantàla onséquen e

c

i

.Pourles ar sdetype

(V

j

, c

0

)

(resp.

(F

j

, c

0

)

),onpose

u(c

0

) = 0

etonae telaprobabilité

(11)

D

L

x

1

1

4

V

1

b

c

0

= 0

0.9

b

c

1

= 1

0.1

F

1

b

c

0

= 0

0.99

b

c

2

= 11

0.01

x

2

1

4

V

2

b

c

0

= 0

0.9

b

c

1

= 1

0.1

F

2

b

c

0

= 0

0.999

b

c

3

= 111

0.001

x

3

1

4

V

3

b

c

0

= 0

0.89

b

c

1

= 1

0.1

b

c

2

= 11

0.01

F

3

b

c

0

= 0

0.999

b

c

3

= 111

0.001

x

4

1

4

V

4

b

c

0

= 0

0.99

b

c

2

= 11

0.01

F

4

b

c

0

= 0

0.999

b

c

3

= 111

0.001

ϕ(p) =

8

>

>

>

<

>

>

>

:

0,

si

p

∈ [0;

1

4×1000

[

1

100

,

si

p

∈ [

1

4×1000

;

1

4×100

[

1

10

,

si

p

∈ [

1

4×100

;

1

4×10

[

1,

si

p

∈ [

1

4×10

; 1[

Fig.3.Exemplederédu tion

qui omplémente à 1l'ensemble desprobabilités ae téesauxar s issus de

V

j

(resp.

F

j

).Notonsque ettedernièreprobabilitéest bienpositive arlasomme des

p

i

eststri tementinférieureà1.Enn,lafon tion

ϕ

estdénie ommesuit

1 :

ϕ(p) =

0

si

p ∈ [0;

p

m

n

[

p

i

si

p ∈ [

p

i+1

n

;

p

i

n

[

pour

i < m

1

si

p ∈ [

p

1

n

; 1[

Atitred'illustration,surlapartiedroitedelagure3,nousindiquonslafon tion

ϕ

obtenuepourl'instan ede3-SATindiquée plushaut.

Danslasuite,on onsidèreunestratégiequel onque

,induisantuneloterie notée

L

,etonnote

I ⊆ {0, . . . , m}

l'ensembledesindi esdes onséquen es pos-sible de

. Remarquonsque la onséquen e

c

0

est toujoursprésente dans une stratégie

.Onappelle

α

i

∈ {1, 2, 3}

lenombred'o urren esdela onséquen e

c

i

dans

.Parabusdenotation,nous onfondons i-dessous

c

i

et

u(c

i

)

. Preuve de

(i)

.La valeur RDU d'une stratégie

quel onque vaut

RDU (L) =

c

0

×ϕ(1)+

P

i∈I

(c

i

−c

prec

I

(i)



P

j∈I

j≥i

α

j

p

j

n



,où

prec

I

(i) = max{j ∈ I : j < i}

. Montronsque

∀i ∈ I, ϕ



P

j∈I

j≥i

α

j

p

j

n



= ϕ



P

j∈I

j≥i

p

j

n



. 1

Remarquons qu'entouterigueur ette fon tion

ϕ

est roissanteseulement ausens large,maislele teurpourrase onvain refa ilementqu'onpeutl'adapterlégèrement

(12)

Par roissan ede

ϕ

,ona

ϕ



P

j∈I

j≥i

p

j

n



≤ ϕ



P

j∈I

j≥i

α

j

p

j

n



≤ ϕ



P

j∈I

j≥i

3

p

j

n



. Onadon

ϕ



P

j∈I

j≥i

1

n

1

10



j



≤ ϕ



P

j∈I

j≥i

α

j

p

j

n



≤ ϕ



P

j∈I

j≥i

3

n

1

10



j



. Comme

ϕ(

P

j∈I

j≥i

1

n

(

1

10

)

j

) = ϕ(

P

j∈I

j≥i

3

n

(

1

10

)

j

) = p

i−1

, on a par en adrement

ϕ(

P

j∈I

j≥i

α

j

p

j

n

) = ϕ(

P

j∈I

j≥i

p

j

n

)

.Or

c

0

×ϕ(1) = 0

.On on lutdon que

RDU (L) =

P

i∈I

(c

i

− c

prec

I

(i)

)ϕ(

P

j∈I

j≥i

p

j

n

)

.

Preuvede

(ii)

.Considéronsunestratégie

orrespondantàuneinstan iation

satisfaisante,etlaloterieinduite

L

oùtoutesles onséquen es

c

i

de

C

sont pos-sibles.D'après

(i)

,ona

RDU (L

) =

P

m

i=1

(c

i

− c

i−1

)ϕ(

P

m

j=i

p

j

n

)

. Onremarque quepourtout

i ≤ m

,

(c

i

−c

i−1

)ϕ(

P

m

j=i

p

j

n

) = 10

i−1

×p

i−1

= 10

i−1

×(

1

10

)

i−1

= 1

. Par onséquent,

RDU (L

) = m

.

Preuvede

(iii)

.Soient

(resp.

)une stratégiequel onquedeloterieinduite

L

(resp.

L

)et

I ⊆ {0, . . . , m}

(resp.

J = I ∪ {k}

)l'ensembledesindi esde ses onséquen espossibles.On suppose i ique

k < max I

, le as

k = max I

étant évident.Pardénition,

{i ∈ I : i 6= k} = {i ∈ J : i 6= k}

.Onpeutdon é rirela valeurRDUde

ommeunesommesdetroistermes:

RDU (L) =

P

i∈J

i≤k−1

(c

i

− c

prec

J

(i)



P

j∈I

j≥i

p

j

n



+ (c

k

− c

prec

J

(k)



P

j∈I

j≥k

p

j

n



+

P

i∈J

i≥k+1

(c

i

− c

prec

J

(i)



P

j∈J

j≥i

p

j

n



Delamêmemanière,lavaleurRDU delastratégie

s'é ritégalement omme

unesommedetroistermes :

RDU (L

) =

P

i∈J

i≤k−1

(c

i

− c

prec

J

(i)



P

j∈J

j≥i

p

j

n



+ (c

k

− c

prec

J

(k)



P

j∈J

j≥k

p

j

n



+

P

i∈J

i≥k+1

(c

i

− c

prec

J

(i)



P

j∈J

j≥i

p

j

n



Par roissan e de

ϕ

, on a

I ⊆ J ⇒ ∀i ≤ k − 1, ϕ(

P

j∈I

j≥i

p

j

n

) ≤ ϕ(

P

j∈J

j≥i

p

j

n

)

. Ainsi le premier terme de

RDU (L)

est inférieur ou égal au premier terme de

RDU (L

)

.Onvériefa ilementque

ϕ(

P

j∈I

j≥k

p

j

n

) = p

succ

I

(k)−1

et

ϕ(

P

j∈J

j≥k

p

j

n

) =

p

prec

J

(k)

= p

k−1

, où

succ

I

(i) = min{j ∈ I : j > i}

. Or

p

succ

I

(k)−1

< p

k−1

ar

succ

I

(k) − 1 > k − 1

.Don lese ond termede

RDU (L)

est stri tement in-férieur au se ond terme de

RDU (L

)

. Enn, le troisième terme de

RDU (L)

est bien évidemment égal au troisième terme de

RDU (L

)

. Par onséquent

RDU (L) < RDU (L

)

.

On on lut de

(i)

,

(ii)

et

(iii)

que toute stratégie orrespondantà une instan- iationnon-satisfaisanteprésenteunevaleurRDUstri tementinférieureà

m

,et quetoutestratégie orrespondantàune instan iationsatisfaisanteprésenteune

valeurRDU exa tementégaleà

m

.Trouveruneinstan iationsatisfaisantedans 3-SATrevientdon àtrouverunestratégievalant

m

dansRDU-OPT.



Dans lase tion suivante,nous dé rivonsun algorithmepour déterminerla

stratégie optimaledepuis lara ine au sens de RDU.Nous pro édons par

(13)

4.1 Algorithmed'énumérationimpli ite

Nous présentons i i une méthode par séparation et évaluation pour

déter-miner lastratégieoptimaleausensde RDU dansunarbre dé isionhasard.Le

prin ipedeséparation onsisteàpartitionnerl'ensembledesstratégiespossibles

en fon tion du hoix d'une arête

(N, N

)

donnée en un n÷ud de dé ision

N

. Plus formellement, lesn÷uds de l'arbrede re her hesont ara tériséspar une

stratégie partielle, qui dénit un sous-ensemble de stratégies. Soit

T

un arbre dé isionhasardet

N

Γ

unensembleden÷uds ontenant:

 lara ine

N

r

de

T

,

 unet unseulsu esseurpour haquen÷uddedé ision

N ∈ N

Γ

D

= N

D

N

Γ

.

L'ensembledesar sorientés

Γ = {(N, N

) : N ∈ N

Γ

D

, N

∈ N

Γ

} ⊆ E

dénitune stratégiepartielle de

T

dèslorsquelesous-grapheinduitpar

N

Γ

est unarbre.

Unestratégie

estdite ompatible ave une stratégiepartielle

Γ

si

Γ ⊆ ∆

.Le sous-ensemble destratégies ara térisé parune stratégiepartielle orrespondà

l'ensembledes stratégies ompatibles.Toutestratégiepartielle n'est ependant

passus eptibled'êtreenvisagéedansl'arbredere her he.Eneet,lesstratégies

partiellesren ontréesdansl'arbredere her herespe teunordredeprioritésur

lesn÷udsdedé isionséle tionnésdans

N

Γ

(and'éviterlesdoublons):sideux

n÷uds de dé isionsontsus eptiblesde prolongerune mêmestratégie partielle,

eluidepluspetitrangseraprioritairesurl'autrepourentrerdans

N

Γ

.Lerang

d'unn÷udestdonnéparunefon tion

rg : N

D

7→ {1, 2, . . . , |N

D

|}

telle que:

rg(N

r

) = 1

|past(N )| > |past(N

)| ⇒ rg(N ) > rg(N

)

|past(N )| = |past(N

)|

et

EU (T (N )) > EU (T (N

)) ⇒ rg(N ) < rg(N

)

EU (T (N ))

orrespondàlavaleuroptimaledeEU dans

T (N )

.

Exemple 6 Pour l'arbre dé ision hasard de la gure 1, il existe une unique

fon tion

rg

possibledéniepar :

rg(D

1

) = 1, rg(D

2

) = 2, rg(D

3

) = 4, rg(D

4

) =

3, rg(D

5

) = 5

.

L'algorithme 1 dé rit la pro édure d'énumération impli ite que nous

pro-posons. Il prend en argumentune stratégiepartielle

Γ

et unréel

RDU

opt

qui orrespond à lavaleur RDU de lameilleure stratégie trouvée jusqu'alors dans

l'exploration.Cettedernièreestee tuéeenprofondeurd'abord.L'ensemble

N

1

désignelesn÷uds dedé ision andidats pourprolongerlastratégiepartielle

Γ

. Parmi eux- i,le n÷uddont lavaleur dela fon tion

rg

est minimaleest noté

N

min

. L'ensemble

E

min

de ses arêtesin identes dénit les diérents prolonge-mentsde

Γ

envisagés(autrementdit, lesls dun÷udasso ié à

Γ

dansl'arbre dere her he).Pourtoutestratégiepartielle

Γ

(autrementdit,en haquen÷ud del'arbredere her he),ondisposed'unefon tiond'évaluation

ev

représentant unebornesupérieuredelavaleurRDU detoutestratégie ompatibleave

Γ

.

(14)

Algorithme 1:BB

(Γ, RDU

opt

)

N

1

← {N

1

∈ N

D

: ∀(N, H) ∈ N

D

× N

H

,

((N, H) ∈ past(N

1

) ⇒ (N, H) ∈ Γ )};

N

min

← arg min

N ∈N

1

rg(N );

E

min

← {(N

min

, H) ∈ E : H ∈ S(N

min

)};

pour haque

(N, H) ∈ E

min

faire

si

ev(Γ ∪ {(N, H)}) > RDU

opt

alors

RDU

temp

BB

(Γ ∪ {(N, H)}, RDU

opt

);

si

RDU

temp

> RDU

opt

alors

RDU

opt

← RDU

temp

;

n

n

n

retourner

RDU

opt

Bienque ela nesoit paspré isé dans l'algorithme, remarquonsqu'en

pra-tiquenousutilisonsl'heuristique onsistantàdévelopperenprioritélelsdontla

valeurdelafon tiond'évaluationestlaplusélevée.Nousdétaillonsmaintenant

lesprin ipales ara téristiquesdenotrealgorithme.

Initialisation.Uneméthodeparséparationet évaluationest notoirementplus

e a e quand une bonne solution est onnue avant de démarrer la re her he.

Dansnotreméthode,labornesupérieure(

RDU

opt

)estinitialiséeave lavaleur RDUdelastratégieobtenueparprogrammationdynamiqueselonle ritèreEU.

En eet, on peut penser que la stratégie ainsi obtenue sera de bonne qualité,

et permettradon d'éviteruneexplorationtropapprofondiedesous-espa esne

omportantpasdebonnessolutions.

Fon tion d'évaluation. L'évaluation d'un ensemble de stratégies induit par

une stratégiepartielle

Γ

sefait àl'aided'unefon tion

ev

.Le prin ipede ette évaluationestdedéterminerune loteriequidominesto hastiquementtoutesles

loteriesasso iéesauxstratégies ompatiblesave

Γ

,etd'évaluer etteloterie se-lonle ritèreRDU.Ons'assureainsique ette évaluation estbien unmajorant

puisquele ritèreRDUrespe teladominan esto hastique, 'est-à-direquesiune

loterie

L

domine sto hastiquementune loterie

L

, alors

RDU (L) ≥ RDU (L

)

.

Pour déterminer une telle loterie, on pro ède par programmation dynamique

surl'arbredé isionhasard.L'initialisationdelapro éduresefaitauniveaudes

n÷uds terminaux: àtoutn÷udterminal

C ∈ C

est ae télaloterie

(1, u(C))

. Ensuite, en haquen÷ud

N ∈ N

,onremonte uneloteriequidomine sto hasti-quementtouteslesloteriesdusous-arbre

T (N )

.Plus pré isément,en unn÷ud de hasard

H

, on al ule la loterie

L

H

induite par les loteries de sesls de la

manièresuivante:

∀u, L

H

(u) =

P

N ∈S(H)

p((H, N )) × L

N

(u)

L

N

orrespond à la loterie remontée au n÷ud

N

. Par ailleurs, en haque n÷uddedé ision

D

,onappliquelarelationderé urren esuivanteexpriméesur lesfon tionsdé umulatives

2

(poursimplierl'é riture):

2

(15)

 ∀u, G

L

D

(u) = G

L

N

(u)

si

∃N ∈ S(D) : (D, N ) ∈ Γ

∀u, G

L

D

(u) = max

N ∈S(D)

G

L

N

(u)

sinon

Enn,lavaleurretournéepar

ev

est

RDU (L

N

r

)

.

Exemple 7 Reprenons l'arbre dé ision hasard de la gure1 et faisons

l'hypo-thèse que

Γ = {(D

1

, H

1

), (D

3

, H

6

)}

.Lesloteriesremontées en haquen÷ud se-rontalors :

L

H

3

= (

3

5

, 2;

2

5

, 4)

,

L

H

4

= (1, 3)

,

L

H

6

= (1, 1)

,

L

D

2

= (

3

5

, 3;

2

5

, 4)

( ar

G

L

D2

= (max(1, 1), 2; max(

2

5

, 1), 3; max(

2

5

, 0), 4)

),

L

D

3

= L

H

6

= (1, 1)

,

L

H

1

=

(

3

5

× 1, 1,

2

5

×

3

5

, 3;

2

5

×

2

5

, 4) = (

3

5

, 1,

6

25

, 3;

4

25

, 4)

,

L

D

1

= L

H

1

= (

3

5

, 1,

6

25

, 3;

4

25

, 4)

. Lavaleur retournéeparla fon tiond'évaluation pour

Γ = {(D

1

, H

1

), (D

3

, H

6

)}

seradon

ev(Γ ) = RDU ((

3

5

, 1;

6

25

, 3;

4

25

, 4))

. 4.2 Expérimentations numériques

L'algorithmeaétéimplémentéenC++etlestestontétémenéssurun

ordi-nateur équipéd'unbipro esseurIntelà2.13Ghzave 3.5Go demémoirevive.

Lesarbresdé isionhasardsurlesquelsnousavonstesténotrealgorithmesontdes

arbresbinaires ompletsdeprofondeurpaire.Lesutilitéset lesprobabilitésont

étégénéréesdemanièrealéatoire.Lesutilitésvarientde

1

à

500

.Laprofondeur desarbresvariequantàellede

4

à

14

(don de

5

à

5461

n÷udsdedé ision),ave unealternan eden÷udsdedé isionetden÷udsdehasard.Pour haqueniveau

de profondeur, 100arbres ont été générés. La ourbede gau he (resp. droite)

de la gure 4 représente le nombre moyen de n÷uds développés dans l'arbre

d'exploration (resp. le temps moyen d'exé ution en se . de l'algorithme) selon

la profondeur. L'axe des ordonnées est exprimé sur une é helle logarithmique

(enbase 4) arlenombrede n÷udsdedé isionest multipliépar4en ordrede

grandeurpour haquein rémentdelaprofondeur.Onremarqueque,surles

ins-tan estiréesaléatoirement,la roissan edunombreden÷udsdéveloppés(resp.

dutempsd'exé ution)apparaît ommelinéairedunombreden÷udsdedé ision

pourlestaillestraitéesi i.Lesplusgrandesinstan esserappro hentdestailles

d'arbredé isionhasardlimitessto kablesenma hine(uneaugmentationde30%

seulementdelaprofondeurpeutêtre envisagée).Lesautde omplexité sesitue

au-delàdestaillestraitées i i.

(16)

Dans e papier,nous avonsmené une étude algorithmique duproblème de

lare her hed'unestratégieRDU-optimaledansunarbredé isionhasard.Nous

avonsenparti uliermontréque eproblèmeestNP-di ile.Nousavonsensuite

proposé un algorithme d'énumération impli ite pour déterminer une stratégie

RDU-optimale.Lestestsnumériques onduitsmontrentque etalgorithme

per-metderésoudreave destemps ompétitifsdesinstan esdontlatailleappro he

lalimitemémoireimposéeparlama hine.Unsujetd'étudeintéressantpourdes

travauxfutursseraitjustementde on evoirdesalgorithmesderésolutionpour

desproblèmesdedé isiondanslerisquemodélisésàl'aided'undiagramme

d'in-uen e.Undiagrammed'inuen eestungrapheorientésans ir uitreprésentant

defaçon ompa teunarbredé isionhasardenexploitantlessymétriesprésentes.

Parexemple, sur l'arbredela gure2, lesn÷uds

D

2

et

D

3

peuventêtre fa -torisés en unseul arlessous-arbresasso iés sontidentiques.Néanmoins, une

di ulté supplémentairepourla résolutionest qu'unestratégie RDU-optimale

peut onduireànepasfairelemême hoixendeuxn÷udsdedé isiondistin ts

asso iés à des sous-arbres pourtant identiques (alors qu'il existe toujours une

stratégieEU-optimaleoùl'onprendlamêmedé ision).C'estle asparexemple

en

D

2

et

D

3

pourl'arbredelagure2.

Remer iements

Nousremer ionsPatri ePernyquiaporténotreattentionsurlesujetétudié

i i, ChristopheGonzalesave qui nous avonseude multiples é hanges qui ont

ontribué à e travail,ainsique lesrele teursanonymespourleurs suggestions

pertinentes.

Référen es

1. Allais,M. (1979):Thefoundationofapositivetheoryof hoi einvolvingriskans

a riti ism ofthe postulateand axiomsoftheameri ans hool. InExpe ted utility

hypotheses andtheAllaisparadox,pages27145.Dordre ht,Holland.Originalwork

publishedin1952.

2. Dubois,D.,Prade,H.and Sabbadin,R.(2001) :De ision-theoreti foundations of

qualitative possibility theory. European Journal of Operational Resear h, 128(3),

459-478.

3. Es oer,B.andSpanjaard,O.(2005):Programmationdynamique.Dansl'ouvrage

olle tifOptimisation ombinatoire, Volume1.EditéparV.Th.Pas hos.Hermes.

4. Gayant,J.-P.(2001):Risqueetdé ision,Vuibert.

5. Handa, J.(1977):Risk,probabilities andanewtheoryof ardinal utility.Journal

of Politi alE onomi s,85,97-122.

6. Jaray,J-Y.andNielsen,T.D.(2006):Anoperationalapproa htorationalde ision

(17)

underRisk.E onometri a,47,263-291.

8. M Clennen,E.F.(1990):RationalityandDynami hoi e :Foundational

Explora-tions,CambridgeUniversityPress,Cambridge.

9. Morin, T.L.(1982):Monotoni ityand theprin ipleofoptimality.Journalof

Ma-themati alAnalysisandAppli ations,86, 665-674.

10. Quiggin,J.(1982):Atheoryofanti ipatedutility.JournalofE onomi Behavior

andOrganisation,3(4),323-343.

11. Raia, H. (1968) : De ision Analysis : Introdu tory Le tures on Choi es under

Un ertainty,Addison-Wesley.

12. von Neuman, J. and Morgenstern, O. (1947) : Theory of games and e onomi

Figure

Fig. 1. Exemple d'arbre déision hasard.
Fig. 2. RDU ne vérie pas la propriété de monotonie.
Fig. 3. Exemple de rédution
Fig. 4. Comportement de l'algorithme en fontion de la profondeur.

Références

Documents relatifs

Pour y parvenir, nous considérons dans cette thèse la stratégie optimale de trading avec une utilité logarith- mique dans le cadre d’un modèle d’actif risqué à

We show that the geodesic equation for Sobolev-type metrics with constant coefficients of order 2 and higher is globally well-posed for smooth initial data as well as for initial

Les participants ont également relevé leur besoin d’informations claires et complètes concernant la maladie et les stratégies pour y faire face ainsi que leur

On appelle ……… la répétition de …… épreuves de Bernoulli identiques et indépendantes, de probabilité de succès p pour chacune d’entre elles.. Le nombre entier ……

Louis Wirth (1938) a montré il y a longtemps, et à sa suite de nombreux auteurs plus ou moins proches de l’Ecole de Chicago, que des traits comportementaux

a)  Le modèle dynamique non-linéaire est écrit sous forme de représentation d’état 1-7 et une valeur de départ est donnée pour les paramètres à identifier.

Il est peut-être plus réaliste de supposer que le douanier place chaque entry dans une catégo- rie déterminée parmi n (par exemple, de risque fort, moyen, ou bas). D'autre part

La formula- tion qui est élaborée dans la deuxième partie, permet d'appliquer à diverses versions du modèle les méthodes de résolution suivantes : utilisation du théorème