Approche algorithmique de la recherche d’une stratégie RDU-optimale dans un arbre de décision

(1)

HAL Id: hal-01303913

https://hal.archives-ouvertes.fr/hal-01303913

Submitted on 30 Jun 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Approche algorithmique de la recherche d’une stratégie RDU-optimale dans un arbre de décision

Gildas Jeantet, Olivier Spanjaard

To cite this version:

Gildas Jeantet, Olivier Spanjaard. Approche algorithmique de la recherche d’une stratégie RDU- optimale dans un arbre de décision. 9ème Congrès de la Société Française de Recherche Opéra- tionnelle et d’Aide à la Décision (ROADEF 2008), Feb 2008, Clermont-Ferrand, France. pp.79-94.

�hal-01303913�

(2)

stratégie RDU-optimale dans un arbre de déision

G.Jeantetet O.Spanjaard

LIP6,4plaeJussieu,75252Parisedex05

{gildas.jeantet,olivier.span jaard }lip 6.fr

Résumé Leproblèmedelareherhed'unestratégieEU-optimale(i.e.,

optimaleausensdel'utilitéespérée)dansunarbredéisionhasardseré-

soutentempslinéaireenfontiondunombred'arsparprogrammation

dynamique [11 ℄. Nous nousintéressons ii à unevariante plusdiile

deeproblème,oùl'onreherheunestratégieRDU-optimale(i.e.,opti-

maleausensdel'utilitédépendantdurang).L'utilitédépendantdurang

[10 ℄présenteuneplusgranderihessedesriptivequel'utilitéespéréear

ellepermetuntraitementnonlinéairedesprobabilités. Leproblèmeal-

gorithmiquequis'ensuit dans les arbresdéision hasardest ependant

plusdiilear laprogrammationdynamiquenes'applique plus.Nous

établissonsiiqueleproblèmeestNP-diile.Nousproposonsunalgo-

rithmede séparation etévaluation pourle résoudre, etprésentons des

résultatsnumériquesmontrantl'eaitédenotreapprohe.

Mots-Clefs. Théoriedeladéision;Algorithmique;Utilitédépendant

durang;Arbresdéisionhasard;Complexité;Séparationetévaluation.

1 Introdution

Ilest dessituationsdehoixoùlesonséquenes desationspotentielles ne

peuventêtredéterminées aveertitude. Lorsqueetteinertitudeest probabi-

lisée (autrement dit lorsque la probabilité d'ourrene de haune des onsé-

quenes estonnue),onparlededéision dansle risque.Uneationpotentielle

peut alors être vue omme une distribution de probabilité sur l'ensemble des

onséquenes.L'objetdelathéoriedeladéisiondanslerisqueestentreautres

d'étudier et demodéliserleomportementd'undéideur ensituation de hoix

entredetelles ationspotentielles (pouruneintrodutionaudomaine,voirpar

exemple l'ouvragede Gayant[4℄).Les premiers travauxdans ette optiquere-

montent aumodèle de l'espéraned'utilité (EU) proposé parvonNeumannet

Morgenstern[12℄.Dansemodèle,lesindividusassignentunevaleurnumérique,

nommée utilité, àhaque onséquene.L'évaluation d'unedistribution depro-

babilité se fait ensuite via unalul d'espérane d'utilité. Une distribution de

probabilitéestalorspréféréeàuneautresisonespéraned'utilitéestplusgrande.

Enpratique,l'ensembledesationspotentiellesestsouventdénienompré-

hension. C'est leas enpartiulier dans lesproblèmesde déisionséquentielle,

oùl'on doitprendreuneséquene dedéisionsonditionnellementàdesévéne-

(3)

arbre déision hasard. Il s'agit d'une arboresene omportant trois types de

n÷uds:lesn÷udsde déision (représentéspardesarrés),lesn÷udsde hasard

(représentés pardes erles), et lesn÷uds terminaux (lesfeuilles de l'arbores-

ene). Les branhes issues d'un n÷ud de déisionorrespondent àdiérentes

déisionspossibles,tandisqueellesissuesd'unn÷uddehasardorrespondent

auxdiérentsévénementspossibles,dontononnait lesprobabilités.Enn,les

valeursgurantau niveaudesfeuilles del'arboreseneorrespondentauxuti-

lités des diérentes onséquenes.Remarquons que l'usage veut qu'on omette

les orientations des ars lorsqu'on représente les arbres déision hasard. Nous

illustrons maintenant l'usage de et outil sur un exemple de hoix de ontrat

d'assuranepourunbienimmobilier[3℄.

Exemple 1 Considéronsunontratd'assuraneauquelonpeutdéiderdesous-

rire pour une année

1

êt/ou ûneânnée

2

^.^Bien évidemment,on ne sait passi l'on seraamenéounon àlefairevaloiràla suited'undommage (ambriolage,

inondation...).Onsupposeiiquelaprise enharged'undommagenonouvert

oûte 2. Par ailleurs, la probabilité de subir undommage durant l'année

2

^est

onditionnée aux événements de l'année

1

^: ^elle ^est ^de

³ ₅

^l'année ^1, ^mais ^elle

passeà

1

4

^l'année²^si ônâ ^déjà ^subiûn^dommage ^lors^de ^l'année ¹^(sinon êlle

resteinhangée). Lapremièreannée,on peutsousrire(déision 1)ounon (dé-

ision 0)un ontrat d'assurane ouvrant les dommages dont le oût est de 1.

Ladeuxième année, on peut ou non renouveller e ontrat pour lemême oût.

L'utilitédudéideurestaluléeenfontionduoûttotal

x = 2s + a

^,^où

s

^est^le

nombrededommagesnonouvertset

a

^est^le^nombre^desousriptionsauontrat d'assurane.Onposeiiquelafontiond'utilité

u

^est

u(x) = 4 − x

^.^L'arbre^dé-

ision hasardorrespondantàeproblème estreprésentésurla gure1.

Ilestimportantderemarquerquedansunarbredéisionhasardbinaireom-

plet(i.e.,omportantdeuxdéisions(resp.événements)possiblesàhaquen÷ud

de déision (resp.hasard) et dont haque niveauest omplètement rempli), le

nombredestratégiespossiblesestexponentieldanslenombreden÷udsdedéi-

sion(rappelonsqu'unestratégieestaratériséeparladonnéedeshoixeetués

auxdiérentsn÷uds dedéision).Plus préisément, sionnote

n

^le^nombre^de

n÷uds de déision, on peut montrer que le nombre de stratégies possibles est

en

Θ(2 ^√ ⁿ )

^(setion^3).Îlêstêpendant^bienônnu^qu'ilêxisteûnâlgorithme^li-

néaire(i.e.,en

O(n)

⁾^permettant^dedéterminer,parprogrammationdynamique, une stratégie optimaleau sensdu modèle EU. En eet, une telle stratégie vé-

rie le priniped'optimalité : toute sous-stratégied'une stratégieoptimale est

optimale.L'idée de l'algorithmeonsistedon àproéderparindution arrière

àpartirdes n÷uds terminaux, an dedétermineren haquen÷ud l'espérane

d'utilité d'unesous-stratégieoptimale:

enunn÷uddehasard,l'espéraned'utilitéoptimaleestégaleàl'espérane

desutilitésoptimales desessuesseurs;

enunn÷udde déision,l'espéraned'utilité optimaleest égaleàlaplus

grandedesespéranesd'utilitéoptimales desessuesseurs.

(4)

D ¹

H ¹

0

D ²

2/5

H ³

0

b u(0) = 4

2/5

b u(2) = 2

3/5

H ⁴

1

b u(1) = 3

2/5

b u(1) = 3

3/5

D ³

3/5

H ⁵

0

b u(2) = 2

3/4

b u(4) = 0

1/4

H ⁶

1

b u(3) = 1

3/4

b u(3) = 1

1/4

H ²

1

D ⁴

2/5

H ⁷

0

b u(1) = 3

2/5

b u(3) = 1

3/5

H ⁸

1

b u(2) = 2

2/5

b u(2) = 2

3/5

D ⁵

3/5

H ⁹

0

b u(1) = 3

3/4

b u(3) = 1

1/4

H ¹⁰

1

b u(2) = 2

3/4

b u(2) = 2

1/4

Fig.1.Exempled'arbredéisionhasard.

Exemple 2 Dans l'exemple préédent du ontrat d'assurane, l'algorithme re-

montelavaleur

max( ¹⁴ ₅ , 3) = 3

^en

D 2

^,

3

2

^en

D 3

^,

2

^en

D 4

^(en^prenant^la^déision

1) et

10

4

^en

D 5

^(en ^prenant ^la ^déision ^0). ^Par ^onséquent, ^l'espérane ^en

H 1

vaut

3 × ² ₅ + ³ ₂ × ³ ₅ = ²¹ ₁₀

^et^en

H 2

^elle^vaut

23

10

^.^La^stratégie^optimale ^au^sens^de

EU onsistedon àsousrire auontratla première annéeetàne sousrireau

ontratlaseondeannéequesil'onn'apassubidedommagelorsdelapremière.

La simpliité d'utilisation du modèle EU, ainsi que son attrait sur le plan

normatif, lui ontpermis de régner sans partage es soixante dernières années.

Pourtant,lesmises endéfaut répétéesdumodèlesur leplan desriptifontni

par éroder sa position. En partiulier, de nombreuses expérienes mettent en

évidenequelesindividus sous-évaluentlesfortesprobabilitésetsurévaluentles

faiblesprobabilités[1,7℄.Deefait,biensouvent,lemodèleEUn'estpasàmême

de rendre ompte duomportement déisionnel observé. Fae àe onstat,de

nouveauxmodèlesontétédéveloppés:ertainssefondentsurunereprésentation

alternativedel'inertitudeommel'oreparexemplelathéoriedespossibilités

[2℄,d'autresprennentenompte expliitement lapereptiondéforméedespro-

babilitésparledéideur.Dansette dernièredémarhe,Quiggin[10℄aproposé

le modèleRank Dependent Utility (RDU), qui permet de rendre ompte d'un

plus largeéventailde omportementsdéisionnels. Cependant,la non-linéarité

du ritère RDU (i.e., RDU

(λX + Y ) 6= λ

^RDU

(X ) +

^RDU

(Y )

⁾ ^invalide ^toute

(5)

unréelproblèmealgorithmiqueauvudunombreombinatoiredestratégiespos-

sibles,qui rendimpratiableleurénumérationomplète.

Leproposdeepapierestpréisémentd'étudierleproblèmeonsistantàdé-

terminerlastratégieoptimaledansunarbredéisionhasardausensdeRDUet

deproposeruneméthodeparénumérationimpliitepourlerésoudre.Lepapier

estorganiséommesuit.Dansunpremiertempsnousformalisonslaprobléma-

tiqueetrappellonslesbasesdumodèleRDU.Nousmettonsensuiteenévidene

l'impossibilitédeproéderparprogrammationdynamiquepourrésoudreepro-

blèmeetnousprouvonsqueedernierestNP-diile(setion3.3).Nousexpo-

sonsalorsunalgorithmederésolutionparénumérationimpliite, fondésurune

borne alulable en temps quadratique, et nous terminons enn en présentant

lesrésultatsd'expérimentationsnumériques(setion4).

2 Formalisation du problème

2.1 Notationset Dénitions

Dans unarbre déisionhasard

T = (N , E)

^ayant^pour^raine ^un^n÷ud ^de

déision

N r

^, ^nous ^notons

N D ⊂ N

^(resp.

N H ⊂ N

⁾^l'ensemble ^des^n÷uds ^de

déision(resp.hasard).De plus,nousnotons

C ⊂ N

^l'ensemble^des^n÷uds ^ter-

minaux. Le grapheest valuéomme suit : àtout ar

E = (H, N ) ∈ E

^tel^que

H ∈ N H

^, ^on ^assoie ^laprobabilité

p(E)

^de l'événement orrespondant;à tout

n÷udterminal

C ∈ C

^, ônâssoie ^sonûtilité ^notée

u(C)

^. ^Par^ailleurs, ^nous^ap-

pelons

past(N )

^le ^passé ^de

N ∈ N

^, ^i.e. ^l'ensemble ^des ^ars^le ^long^du ^hemin

allant de

N r

^à

N

^dans

T

^. ^Enn, ^nous ^notons

S (N )

^l'ensemble ^des^suesseurs

de

N

^dans

T

^,^et

T (N)

^le^sous-arbre^de

T

^de^raine

N

^.

Soit

T

ûn ârbre^déision^hasardêt

N ^∆ ⊆ N

ûn ênsemble ^de^n÷uds ônte-

nant:

laraine

N r

^de

T

^,

unet unseulsuesseurpourhaquen÷uddedéision

N ∈ N _D ^∆ = N D ∩ N ^∆

^,

touslessuesseurspourhaquen÷uddehasard

N ∈ N _H ^∆ = N _H ∩ N ^∆

^.

L'ensembled'ars

∆ = {(N, N ^′ ) : N ∈ N _D ^∆ , N ^′ ∈ N ^∆ } ⊆ E

^dénit ^une^stratégie

de

T

^dès ^lors^que ^lesous-grapheinduit par

N ^∆

êst ûn ârbre.Êtant ^donnéûn

n÷uddedéision

N

^,^la^restrition^d'une^stratégie^de

T

^au^sous-arbre

T (N )

^,^qui

n'estautrequ'unestratégiede

T (N )

^,^est^appelléesous-stratégie.Nousnotons

D

l'ensembledesstratégies.

Soit

S = {u 1 , . . . , u k }

^un ^ensemble ⁿⁱ d'utilités. On appelle loterie une distributiondeprobabilité

P

^sur

S

^.^On^note

L = (p 1 , u 1 ; . . . ; p k , u k )

^la^loterie^qui

aboutitàuneutilité

u i

^ave^uneprobabilité

p i = P({u i })

^.^An^d'alléger^ertaines

notations,onpeutonsidérerlaloterie

L

^omme^une^fontion^de

S 7→ [0, 1]

^telle

(6)

que

L(u i ) = p i

^.^Dans ûnârbre^déision^hasard,^à^toute^stratégieîl êst ^possible

d'assoier une loterie.En eet, onpeut déterminerlaprobabilité

p C

^d'obtenir

uneonséquene

C ∈ C

^en^alulant^:

p C = Q

(H,N ) ∈past(C) p((H, N ))

^où

H ∈ N H

Lavaleurd'unestratégieselonEU(resp.RDU)estégaleàlavaleurdelaloterie

orrespondanteselonEU (resp.RDU).

Exemple 3 Dans l'exemple du ontrat d'assurane, la stratégie EU-optimale

orrespondàlaloterie

( ₂₀ ³ , 1; ₂₀ ⁸ , 2; ₂₀ ⁹ , 3)

^dont^l'espérane ^est^bien

⁴⁶ ₂₀ = ²³ ₁₀

^.

2.2 Rappelssur RDU

Lemodèle RDU reposesur deuxparamètres: une fontiond'utilité qui est

déjàprésentedanslemodèleEU,etunefontion

ϕ

^dedéformationdesprobabi- lités.Ils'agit d'unefontionstritementroissantesur

[0, 1]

^telle ^que

ϕ(0) = 0

et

ϕ(1) = 1

^. ^Cettedéformationdesprobabilitésporte, nonsurdesprobabilités simples,maissurdesumulsdeprobabilités.Pourrappel,étantdonnéeunelo-

terie

L = (p 1 , u 1 ; . . . ; p k , u k )

^,^on^appelle^fontion déumulative de

L

^la^fontion

G L : S 7→ [0, 1]

^qui ^assoie ^à^haque^utilité

u i

^la probabilité d'avoirau moins etteutilité.Plusformellement,

G L (x) = P

i:u i ≥x p i

^.^La^valeur^selon^RDU^d'une

loterie

L

^est^alors^dénie^de^la^manière^suivante ^:

RDU(L) = u (1) + P k

i=2 [u (i) − u (i − 1) ]ϕ(G L (u (i) ))

où (.)orrespondà une permutation de

{1, . . . , k}

^telle ^que

u (1) ≤ . . . ≤ u (k)

^.

Ce ritère peut être interprété omme suit : on est sûr d'obtenir au moins

une utilité de

u (1)

^, ^puis ôn êst ^suseptible ^d'obtenir ûn ^supplément ^d'utilité

de

u (2) − u (1)

^ave ^une ^masse^de probabilité

ϕ(G L (u (2) ))

^, ^puis ^un ^supplément

d'utilité de

u (3) − u (2)

^ave ^une ^masse^de probabilité

ϕ(G L (u (3) ))

^, ^et ^ainsi ^de

suite...

Exemple 4 ConsidéronslastratégieEU-optimaledel'exemple2.Laloterieor-

respondante est

L = ( ₂₀ ³ , 1; ₂₀ ⁸ , 2; ₂₀ ⁹ , 3)

^.^Sa ^valeur ^RDU ^se ^alule^omme ^suit^:

RDU(L) = 1 + ϕ( ¹⁷ ₂₀ ) × (2 − 1) + ϕ( ₂₀ ⁹ ) × (3 − 2)

^. ^Supp^osons ^que

ϕ(p) = 0.25

pour

0 < p ≤ 0.5

^,^et

ϕ(p) = 0.75

^pour

0.5 < p < 1

^.Ônôbtientâlors

RDU(L) = 1 + 0.75 × 1 + 0.25 × 1 = 2

^.

L'intérêtdedéformerdesumulsdeprobabilités,etnondiretementlespro-

babilitéselles-mêmes(omme'estparexempleleasdanslemodèledeHanda

[5℄), est d'obtenir un ritère de hoix ompatible ave la dominane stohas-

tique. On dit qu'une loterie

L = (p 1 , u 1 ; . . . ; p k , u k )

^domine stohastiquement une loterie

L ^′ = (p ^′ ₁ , u ^′ ₁ ; . . . ; p ^′ _k , u ^′ _k )

^si

∀x ∈ R, G L (x) ≥ G L ^′ (x)

^, ^autrement^dit,

pourtout

x ∈ R

^,^laprobabilitéd'obteniruneutilitéd'aumoins

x

^ave^la^loterie

L

êst âu^moins âussi ^grande^qu'ave ^la^loterie

L ^′

^. ^Laompatibilité ave lado-

minane stohastiquesignieque

RDU (L) ≥ RDU (L ^′ )

^dès^lors^que

L

^domine

stohastiquement

L ^′

^[10℄.^Cette^propriété^est^bien ^entendusouhaitablepourdé- rire un omportement rationnel, et elle est bien vériée par le modèle RDU

(7)

3.1 Espae des solutions

Considéronsunarbredéisionhasardbinaireomplet

T

^de^profondeur

2p

^tel

quelesn÷udsdeprofondeurpairesoientdesn÷udsdedéision(oudesn÷uds

terminaux) et les n÷uds de profondeur impaire soient des n÷uds de hasard.

Nousnousintéressonsiiàomptabiliser lenombredestratégiespossibles(au-

trement dit de solutions réalisables) en fontion de la taille de l'instane. On

dénit omme taille de l'instanele nombre de n÷uds de déision.Ce nombre

est eneetdumême ordredegrandeurquelenombreden÷udsde

T

^.^Remar-

quons qu'ily a1n÷udde déisionpourlaprofondeur

0

^,

4

^n÷uds ^de^déision

pourlaprofondeur

2

^,

16

^pour^la^profondeur

4

^... ^Le ^nombre^total^de ^n÷uds ^de

déision dans

T

^est ^don ^égal ^à^la ^somme^des ^termes ^d'une ^suite géométrique de raison 4:

n = |N D | = P p−1

i=0 4 ⁱ = ⁴ ₄₋₁ ^p ⁻ ¹

^. ^Exprimons^maintenant ^le ^nombre

destratégiesenfontionde laprofondeur.Pourela,onproède parindution

arrièresur

T

^, ên^remontant^le^nombre^de^stratégies^jusqu'à^la^raine.Ônôm-

meneparétiqueterà

2

^les^n÷uds ^de^déision^qui^ne^possèdent^auun ^n÷ud^de

déisiondansleurdesendane. Onappliqueensuitelesrelationsde réurrene

suivantes:lenombredestratégiesàpartird'unn÷uddehasarddonnéestégal

auproduit dunombredestratégiesàpartirdesessuesseurs,etlenombrede

stratégiesàpartird'unn÷uddedéisiondonnéestégalàlasommedunombre

de stratégiesàpartir de sessuesseurs.Ainsi, lenombre totalde stratégiesà

partird'unn÷uddedéision

N D

^peut^se^aluler^à^l'aide^de^la^suite^réurrente

(u k )

^suivante ^:

u 0 = 2

^,

u k = 2u ² _k ₋ ₁

^, ^où

k

^indique ^le ^nombre ^de ^n÷uds ^de ^dé-

ision(

N D

^exlu)^sur ^un^hemin^quelonque^de

N D

^vers^un^n÷ud^terminal.^Le

terme généralde ette suite est

2 ⁽² ^k+1 ⁻¹⁾

^. ^On ^peut ^vérier ^failement^qu'on ^a

k = p − 1

^à^la^raine.^Par^onséquent,^le^nombre^total^de^stratégies^dans

T

^est

|D| = u p − 1 = 2 ⁽² ^p ⁻ ¹⁾ ∈ Θ(2 ^√ ⁿ )

^(puisque

n = (4 ^p − 1)/3

^).^Ainsi,^le ^nombre^de

stratégies potentielles étant exponentiel de la taille de l'instane, il est nées-

sairededévelopperunalgorithmed'optimisationombinatoirepourdéterminer

la stratégieoptimale.Nous montrons i-dessous que latâheest d'autantplus

déliatequelaprogrammationdynamiquenes'appliquepluslorsqu'onoptimise

selonRDU.

3.2 Monotonie etindépendane

Ilestbienonnuquelaprogrammationdynamiquereposesurlerespetd'une

ondition de monotonie [9℄ sur la fontion de valuation. Dans notre ontexte,

etteonditionpeutseformulerommesuitsur lafontiondevaluation

V

^des

loteries:

∀α ∈ [0, 1], V (L) ≥ V (L ^′ ) = ⇒ V (αL + (1 − α)L ^′′ ) ≥ V (αL ^′ + (1 − α)L ^′′ )

où

L, L ^′ , L ^′′

^sont^des^loteries^quelonques^et

αL + (1 − α)L ^′′

^est^la^loterie^dénie

par

(αL + (1 − α)L ^′′ )(x) = αL(x) + (1 − α)L ^′′ (x)

^.^Cette^onditionalgorithmique peutêtreinterprétée,dansleadredelathéoriedeladéision,ommeuneforme

(8)

deuxloteries

L

^et

L ^′

^ave^une^troisième

L ^′′

^n'inverse^pas^l'ordre^des^préférenes

(induit par

V

⁾ ^: ^si

L

^est ^stritement ^préférée ^à

L ^′

^, ^alors

αL + (1 − α)L ^′′

^est

stritementpréféréeà

αL ^′ + (1 − α)L ^′′

^.^Pour

V ≡ EU

^la^propriété^de^monotonie

estvériée.Parontre,pour

V ≡ RDU

^,^la^propriété^n'est^plus^valide,^omme^le

montrel'exemplesuivant.

Exemple 5 Soient trois loteries

L = (0.5, 1; 0.5, 10)

^,

L ^′ = (1, 5)

^et

L ^′′ = L

^.

SupposonsquelespréférenesdudéideursuiventlemodèleRDUavelafontion

ϕ

^suivante ^:

ϕ(0) = 0

^,

ϕ(p) = 0.45

^si

0 < p ≤ 0.7, ϕ(p) = 1

^si

p > 0.7

^. ^Les

valeursselon

RDU

^de

L

^et

L ^′

^sont^:

RDU(L) = 1 + (10 − 1)ϕ(0.5) = 5.05 RDU(L ^′ ) = 5

Ainsi, ona

RDU(L) ≥ RDU (L ^′ )

^.^D'après ^la ^propriété^de ^monotonie ^pour

α = 0.6

^,^on^devrait^don^avoir

RDU(0.6L+0.4L ^′′ ) ≥ RDU(0.6L ^′ +0.4L ^′′ )

^.^Pourtant,

on a:

RDU(0.6L + 0.4L ^′′ ) = 1 + (10 − 1)ϕ(0.5) = 5.05

RDU(0.6L ^′ + 0.4L ^′′ ) = 1 + (5 − 1)ϕ(0.6 + 0.2) + (10 − 5)ϕ(0.2) = 7.25

etdon

RDU(0.6L+0.4L ^′′ ) < RDU (0.6L ^′ +0.4L ^′′ )

^.^Par^onséquent,^la^propriété

de monotonie n'estpasvériée.

Depar laviolationduprinipedemonotonie, la miseen ÷uvre d'unepro-

éduredeprogrammationdynamiquepour

RDU

^dans^un^arbre^déision^hasard

peut onduire à une stratégie sous-optimale. Une telle proédure peut même

onduireàunestratégiestohastiquementdominée.Eneet,onsidéronsl'arbre

dedéisiondelagure2,onstruitàl'aidedel'exemple5.Dansetarbredéi-

sionhasard,lesvaleurs

RDU

^des^diérentes^stratégies^possibles^à^la^raine^sont^:

RDU({(D 1 , H 2 )}) = 1 + (5 − 1)ϕ(0.6 + 0.2) + (8 − 5)ϕ(0.2) = 6.35

RDU({(D 1 , H 1 ), (D 2 , H 3 ), (D 3 , H 4 )}) = 1 + (10 − 1)ϕ(0.5) = 5.05 RDU({(D 1 , H 1 ), (D 2 , δ 1 ), (D 3 , δ 2 )}) = 5

RDU({(D 1 , H 1 ), (D 2 , δ 1 ), (D 3 , H 4 )}) = 7.25 RDU({(D 1 , H 1 ), (D 2 , H 3 ), (D 3 , δ 2 )}) = 5.05

Ainsi,lastratégieoptimaleàlaraine est

{(D 1 , H 1 ), (D 2 , δ 1 ), (D 3 , H 4 )}

^. ^Pour-

tant,enproédantparprogrammationdynamique,onobtienten

D 2

^:

RDU({(D 2 , H 3 )}) = 1 + (10 − 1)ϕ(0.5) = 5.05

^et

RDU({(D 2 , δ 1 )}) = 5

^. ^C'est ^don ^la

sous-stratégie

{(D 2 , H 3 )}

^qui ^est ^retenue ^en

D 2

^, ^et ^de ^même ^la sous-stratégie

{(D 3 , H 4 )}

^qui^est^retenue^en

D 3

^.^Par^suite,^en

D 1

^,^'est^la^stratégie

{(D 1 , H 2 )}

(6.35ontre5.05pour

{(D 1 , H 2 )}

^),^dominéestohastiquementpar

{(D 1 , H 1 ), (D 2 , δ 1 ), (D 3 , H 4 )})

^,^qui^est^retournée.

Un déideur utilisant le ritère RDU doit don faire du hoix résolu [8℄,

'est-à-dire qu'il doit hoisir une stratégie à la raine de l'arbre et s'y tenir

(faute de quoi il pourrait se retrouver omme i-dessus à suivre une stratégie

stohastiquementdominée).Nous nousintéressonsii àdéterminer unestraté-

gieRDU-optimalevuedelaraine(puisànepasendévier).Remarquonsqu'un

telproédénousassuredenepasrenontrerdesous-stratégiestohastiquement

(9)

D ¹

H ¹

D ²

0.6 H ³

b 10

0.5 b 1

0.5 b 5(δ ¹ )

D ³

0.4 H ⁴

b 10

0.5 b 1

0.5 b 5(δ 2 )

H ²

b 1

0.2 b 5

0.6 b 8

0.2

Fig.2.RDUnevériepaslapropriétédemonotonie.

selonRDU.D'autresapprohesdehoixrésoluontétéenvisagéespourdétermi-

ner une stratégieraisonnable àl'aide duritèreRDU. Onpeut mentionneren

partiulierlestravauxdeJarayetNielsen[6℄,dontladémarhedièredeelle

duprésentpapier.En eet, ils onsidèrenthaquen÷udde déisiondel'arbre

déisionhasardommeétantunegodudéideur,etvisentàdéterminerunestra-

tégieréalisantunompromisentrees diérentsegos,en s'assurantquetoutes

les sous-stratégies sont prohes de l'optimum pour RDU et stohastiquement

non-dominées.

3.3 Complexité du problème

Nousprouvonsmaintenantqueleproblèmeonsistantàdéterminerunestra-

tégie RDU-optimale est NP-diile, si onpose que lataille d'uneinstane du

problèmeorrespondaunombreden÷uds dedéisionimpliqués.

Proposition1 La reherhe d'une stratégie RDU-optimale (problème RDU-

OPT)dansunarbre déision hasardest unproblème NP-diile.

Démonstration.Ons'appuiesurunerédutionpolynomialeduproblème3-SAT

versleproblèmeRDU-OPT.Leproblème3-SATseformuleommesuit:

INSTANCE:unensemble

X

^de^variablesbooléennes,uneolletion

C

^de^lauses

sur

X

^telle^que

|c| = 3

^pour^toute^lause

c ∈ C

^.

QUESTION : Existe-t-il une instaniation des variables booléennes de

X

^qui

satisfaitsimultanémenttoutesleslausesde

C

^?

Soient

X = {x 1 , . . . , x n }

^et

C = {c 1 , . . . , c m }

^.^La^onstrutionpolynomialed'un arbre déision hasard à partir d'une instane du problème 3-SAT se réalise

ommesuit. Ondénitunn÷uddedéisionpourhaquevariable de

X

^. ^Etant

donnée

x i

^une ^variable ^de

X

^, ^le ^n÷ud ^de ^déision ^assoié ^dans ^l'arbre ^déi-

sionhasard,notéégalement

x i

^,^a^deux^ls^:^le^premier^(n÷ud^de^hasard^noté

V i

⁾

orrespondàl'instaniationvraide

x i

^,^et^le^seond^(n÷ud^de^hasard^noté

F i

⁾^or-

respond àl'instaniationfaux de

x i

^. ^Soient

{c i 1 , . . . , c i j } ⊆ C

^le sous-ensemble

(10)

de lauses dans lesquelles gurent le littéral positif

x i

^, ^et

{c _i ^′

1 , . . . , c _i ^′ _k } ⊆ C

le sous-ensemble de lauses dans lesquelles gurent le littéral négatif

x ¯ i

^. ^Pour

haquelause

c i h

⁽

1 ≤ h ≤ j

⁾ ^on^rée^omme^ls^de

V i

^un^n÷ud^terminal^noté

c i h

^, orrespondantà la lause

c i h

^. Ôn ^rée ên ôutre ûn ^ls supplémentaire de

V i

^noté

c 0

^, orrespondant à une onséquene

c 0

^tive. ^De ^même, ^on ^rée ^un

ls de

F i

^pour ^haque ^lause

c i ^′ _h

⁽

1 ≤ h ≤ k

^), ^ainsi ^qu'un ^ls supplémentaire orrespondantàlaonséquene

c 0

^tive.^Le^n÷ud

V i

^omporte^don

j + 1

^ls,

tandis quele n÷ud

F i

^omporte

k + 1

^ls. Ân^de ônstituerûn ûniqueârbre

déision hasard, on ajoute un n÷ud de hasard

H

^père ^de ^tous ^les ^n÷uds ^de

déision

x i

⁽

1 ≤ i ≤ n

^). Ênn, ôn ^rajoute ûn ^n÷ud ^de ^déision ^à ^la ^raine,

ayant

H

ômme ûnique ^ls. ^L'arbre ^déision ^hasard âinsi ônstruit ômporte

n + 1

^n÷uds ^de^déision,

2n + 1

^n÷uds ^de^hasard^et ^au^plus

2n(m + 1)

^n÷uds

terminaux. Sa taille est donen

O(nm)

^, ^e ^qui ^garantit^bien ^la polynomialité de latransformation. A titre d'illustration, surla partie gauhede lagure3,

nousdonnonsl'arbredéisionhasardobtenupourl'instanesuivantede3-SAT:

(x 1 ∨ x 2 ∨ x 3 ) ∧ (x 1 ∨ x 3 ∨ x 4 ) ∧ (x 2 ∨ x 3 ∨ x 4 )

^.

Remarquonsqu'onpeutétablirunebijetionentrel'ensembledesstratégiesdans

l'arbredéisionhasardetl'ensembledesinstaniationsdansleproblème3-SAT

dedépart.Il sut poure fairede poser

x i = 1

^dans^le ^problème^3-SAT^si^et

seulementsil'ar

(x i , V i )

^gure^dans^la^stratégie,^et

x i = 0

^si^et^seulement^si^'est

l'ar

(x i , F i )

^qui^gure^dans^la^stratégie.^Uneinstaniationsatisfaisante(i.e.,qui satisfaitsimultanémenttoutesleslauses)dans3-SATorrespondàunestraté-

gieoùtoutelause

c i

⁽

1 ≤ i ≤ m

⁾^gure^omme^onséquene^possible^(elle^gure

dondeuneàtroisfois).Pourompléterlarédution,ils'agitdonmaintenant

dedénird'unepartlesprobabilitésassignéesauxarsissusdesn÷uds

H

^,

V i

^et

F i

^,êt^d'autre^part^lesûtilités^desônséquenesêt^la^fontion

ϕ

^.^La^rédution^va

onsisteràlesdénirdefaçonàequeseuleslesstratégiesorrespondantàdes

instaniations satisfaisantes maximisent RDU.Plus préisément, nousvisonsà

eque:

(i)

^la ^valeur ^RDU ^d'une ^stratégie ^ne ^dépende ^que ^de ^l'ensemble ^(et ^non ^du

multi-ensemble) de ses onséquenes possibles (autrement dit l'ensemble des

lausessatisfaitesparl'instaniation orrespondante),

(ii)

^la^valeur^RDU ^d'une^stratégieorrespondantàuneinstaniationsatisfai- santevailleexatement

m

^,

(iii)

^siûne^stratégieêst^suseptible^deônduire^àûnênsemble^deônséquenes

possiblesquieststritementinlusdansl'ensembledesonséquenesd'uneautre

stratégie,lavaleurRDU deettedernièresoit stritementsupérieure.

Pourefaire,aprèsavoiraetélaprobabilité

1 n

âuxârsîssus^de

H

^,^on^dénit

lesautresprobabilitéset lesutilitésdelafaçonsuivante(

i 6= 0

⁾^:

( p i = ( ₁₀ ¹ ) ⁱ

u(c i ) = P i

j=1 10 ^j−1

où

p i

^désigne^laprobabilitédetoutaronduisantàlaonséquene

c i

^.^Pour^les

arsdetype

(V j , c 0 )

^(resp.

(F j , c 0 )

^),^on^pose

u(c 0 ) = 0

êtônâete^laprobabilité

(11)

D L

x ¹

1 4

V ¹

b c ⁰ = 0

0.9 b c ¹ = 1

0.1 F ¹

b c ⁰ = 0

0.99 b c ² = 11

0.01 x ²

1 4

V ²

b c ⁰ = 0

0.9 b c ¹ = 1

0.1 F ²

b c ⁰ = 0

0.999 b c ³ = 111

0.001 x ³

1 4

V ³

b c ⁰ = 0

0.89 b c ¹ = 1

0.1 b c ² = 11

0.01 F ³

b c ⁰ = 0

0.999 b c ³ = 111

0.001 x ⁴

1 4

V ⁴

b c ⁰ = 0

0.99 b c ² = 11

0.01 F ⁴

b c ⁰ = 0

0.999 b c ³ = 111

0.001 ϕ(p) = 8

> >

> <

> >

> :

0,

^si

p ∈ [0; _4×1000 ¹ [

1 100 ,

^si

p ∈ [ _4×1000 ¹ ; _4×100 ¹ [

1 10 ,

^si

p ∈ [ _4×100 ¹ ; _4×10 ¹ [ 1,

^si

p ∈ [ _4×10 ¹ ; 1[

Fig.3.Exemplederédution

qui omplémente à 1l'ensemble desprobabilités aetéesauxars issus de

V j

(resp.

F j

^).^Notons^que^ette^dernièreprobabilitéest bienpositivearlasomme des

p i

êst^stritementînférieure^à^1.Ênn,^la^fontion

ϕ

^est^dénie^omme^suit¹^:

ϕ(p) =



 

 

0

^si

p ∈ [0; ^p _n ^m [

p i

^si

p ∈ [ ^p ⁱ⁺¹ _n ; ^p _n ⁱ [

^pour

i < m 1

^si

p ∈ [ ^p _n ¹ ; 1[

Atitred'illustration,surlapartiedroitedelagure3,nousindiquonslafontion

ϕ

^obtenue^pour^l'instane^de^3-SAT^indiquée ^plus^haut.

Danslasuite,ononsidèreunestratégiequelonque

∆

^,^induisant^une^loterie

notée

L

^,^et^on^note

I ⊆ {0, . . . , m}

^l'ensemble^des^indies^des^onséquenes^pos-

sible de

∆

^. ^Remarquons^que ^la^onséquene

c 0

^est ^toujours^présente ^dans ^une

stratégie

∆

^.^On^appelle

α i ∈ {1, 2, 3}

^le^nombre^d'ourrenes^de^la^onséquene

c i

^dans

∆

^.^Parâbus^de^notation,^nousônfondonsî-dessous

c i

^et

u(c i )

^.

Preuve de

(i)

^.^La ^valeur ^RDU ^d'une ^stratégie

∆

^quelonque ^vaut

RDU(L) = c 0 ×ϕ(1)+ P

i∈I (c i −c _prec _I _(i) )ϕ P j∈I

j≥i α j p j

n

,où

prec I (i) = max{j ∈ I : j < i}

^.

Montronsque

∀i ∈ I, ϕ P j∈I

j≥i α j p j

n

= ϕ P j∈I

j≥i

p j

n

.

1

Remarquons qu'entouterigueurette fontion

ϕ

^est ^roissante^seulement ^au^sens

large,maisleleteurpourraseonvainrefailementqu'onpeutl'adapterlégèrement

(12)

Parroissanede

ϕ

^,^on^a

ϕ P j∈I

j≥i

p j

n

≤ ϕ P j∈I

j≥i α j p j

n

≤ ϕ P j∈I

j≥i 3 ^p _n ^j

.

Onadon

ϕ P j∈I

j≥i

1 n

1 10

j

≤ ϕ P j∈I

j≥i α j p j

n

≤ ϕ P j∈I

j≥i

3 n

1 10

j

.

Comme

ϕ( P

j∈I j≥i

1 n ( ₁₀ ¹ ) ^j ) = ϕ( P

j∈I j≥i

3 n ( ₁₀ ¹ ) ^j ) = p _i− 1

^, ôn â ^par ênadrement

ϕ( P

j∈I j≥i α j p j

n ) = ϕ( P

j∈I j≥i

p j

n )

^.^Or

c 0 ×ϕ(1) = 0

^.^On^onlut^don^que

RDU(L) = P

i ∈ I (c i − c _prec _I (i) )ϕ( P

j∈I j≥i

p j

n )

^.

Preuvede

(ii)

^.Considéronsunestratégie

∆ ^∗

orrespondantàuneinstaniation satisfaisante,etlaloterieinduite

L ^∗

^où^toutes^les^onséquenes

c i

^de

C

^sont^pos-

sibles.D'après

(i)

^,^on^a

RDU(L ^∗ ) = P m

i=1 (c i − c _i− 1 )ϕ( P m j=i

p j

n )

^. ^On^remarque

quepourtout

i ≤ m

^,

(c i −c _i−1 )ϕ( P m j=i

p j

n ) = 10 ⁱ ⁻ ¹ ×p _i−1 = 10 ⁱ ⁻ ¹ ×( ₁₀ ¹ ) ⁱ ⁻ ¹ = 1

^.

Paronséquent,

RDU(L ^∗ ) = m

^.

Preuvede

(iii)

^.^Soient

∆

^(resp.

∆ ^′

⁾^une ^stratégie^quelonque^de^loterie^induite

L

^(resp.

L ^′

⁾^et

I ⊆ {0, . . . , m}

^(resp.

J = I ∪ {k}

⁾^l'ensemble^des^indies^de ^ses

onséquenespossibles.On suppose iique

k < max I

^, ^le^as

k = max I

^étant

évident.Pardénition,

{i ∈ I : i 6= k} = {i ∈ J : i 6= k}

^.^On^peut^don^érire^la

valeurRDUde

∆

^omme^une^sommes^de^trois^termes^:

RDU(L) = P

i∈J

i≤k−1 (c i − c _prec _J (i) )ϕ P j∈I

j≥i

p j

n

+ (c k − c _prec _J (k) )ϕ P j∈I

j≥k

p j

n

+

P i∈J

i≥k+1 (c i − c _prec _J (i) )ϕ P j∈J

j≥i

p j

n

Delamêmemanière,lavaleurRDU delastratégie

∆ ^′

^s'érit^également^omme

unesommedetroistermes :

RDU(L ^′ ) = P

i∈J

i≤k−1 (c i − c prec J (i) )ϕ P

j∈J j≥i

p j

n

+ (c k −c prec J (k) )ϕ P

j∈J j≥k

p j

n

+

P i∈J

i≥k+1 (c i − c prec J (i) )ϕ P j∈J

j≥i

p j

n

Par roissane de

ϕ

^, ^on ^a

I ⊆ J ⇒ ∀i ≤ k − 1, ϕ( P

j∈I j≥i

p j

n ) ≤ ϕ( P

j∈J j≥i

p j

n )

^.

Ainsi le premier terme de

RDU (L)

êst înférieur ôu ^égal âu ^premier ^terme ^de

RDU(L ^′ )

^.^On^vérie^failement^que

ϕ( P

j∈I j≥k

p j

n ) = p _succ _I (k) − 1

^et

ϕ( P

j∈J j≥k

p j

n ) = p _prec _J (k) = p _k−1

^, ^où

succ I (i) = min{j ∈ I : j > i}

^. ^Or

p _succ _I (k) − 1 < p _k−1

ar

succ I (k) − 1 > k − 1

^.^Don^le^seond ^terme^de

RDU(L)

^est ^stritement^in-

férieur au seond terme de

RDU(L ^′ )

^. ^Enn, ^le ^troisième ^terme ^de

RDU(L)

est bien évidemment égal au troisième terme de

RDU(L ^′ )

^. ^Par ^onséquent

RDU(L) < RDU (L ^′ )

^.

On onlut de

(i)

^,

(ii)

^et

(iii)

^que ^toute ^stratégie orrespondantà une instan- iationnon-satisfaisanteprésenteunevaleurRDUstritementinférieureà

m

^,^et

quetoutestratégieorrespondantàune instaniationsatisfaisanteprésenteune

valeurRDU exatementégaleà

m

^.^T^rouver^uneinstaniationsatisfaisantedans 3-SATrevientdonàtrouverunestratégievalant

m

^dans^RDU-OPT.

Dans lasetion suivante,nous dérivonsun algorithmepour déterminerla

stratégie optimaledepuis laraine au sens de RDU.Nous proédons par énu-

mération impliitepuisqueniuneénumérationexhaustivedesstratégiesni une

(13)

4.1 Algorithmed'énumérationimpliite

Nous présentons ii une méthode par séparation et évaluation pour déter-

miner lastratégieoptimaleausensde RDU dansunarbre déisionhasard.Le

prinipedeséparationonsisteàpartitionnerl'ensembledesstratégiespossibles

en fontion du hoix d'une arête

(N, N ^′ )

^donnée ^en ^un ^n÷ud ^de ^déision

N

^.

Plus formellement, lesn÷uds de l'arbrede reherhesont aratériséspar une

stratégie partielle, qui dénit un sous-ensemble de stratégies. Soit

T

^un ^arbre

déisionhasardet

N ^Γ

ûnênsemble^de^n÷uds ôntenant^:

laraine

N r

^de

T

^,

unet unseulsuesseurpourhaquen÷uddedéision

N ∈ N _D ^Γ = N D ∩ N ^Γ

^.

L'ensembledesarsorientés

Γ = {(N, N ^′ ) : N ∈ N _D ^Γ , N ^′ ∈ N ^Γ } ⊆ E

^dénit^une

stratégiepartielle de

T

^dès^lors^que^lesous-grapheinduitpar

N ^Γ

êst ûnârbre.

Unestratégie

∆

êst^diteômpatible âveûne ^stratégie^partielle

Γ

^si

Γ ⊆ ∆

^.^Le

sous-ensemble destratégiesaratérisé parune stratégiepartielle orrespondà

l'ensembledes stratégiesompatibles.Toutestratégiepartielle n'estependant

passuseptibled'êtreenvisagéedansl'arbredereherhe.Eneet,lesstratégies

partiellesrenontréesdansl'arbredereherherespeteunordredeprioritésur

lesn÷udsdedéisionséletionnésdans

N ^Γ

^(an^d'éviter^les^doublons)^:^si^deux

n÷uds de déisionsontsuseptiblesde prolongerune mêmestratégie partielle,

eluidepluspetitrangseraprioritairesurl'autrepourentrerdans

N ^Γ

^.^Le^rang

d'unn÷udestdonnéparunefontion

rg : N _D 7→ {1, 2, . . . , |N _D |}

^telle ^que^:



 

 

rg(N r ) = 1

|past(N )| > |past(N ^′ )| ⇒ rg(N ) > rg(N ^′ )

|past(N )| = |past(N ^′ )|

^et

EU (T (N )) > EU(T (N ^′ )) ⇒ rg(N ) < rg(N ^′ )

où

EU (T (N ))

ôrrespond^à^la^valeurôptimale^deÊU ^dans

T (N )

^.

Exemple 6 Pour l'arbre déision hasard de la gure 1, il existe une unique

fontion

rg

^possible^dénie^par ^:

rg(D 1 ) = 1, rg(D 2 ) = 2, rg(D 3 ) = 4, rg(D 4 ) = 3, rg(D 5 ) = 5

^.

L'algorithme 1 dérit la proédure d'énumération impliite que nous pro-

posons. Il prend en argumentune stratégiepartielle

Γ

^et ^un^réel

RDU opt

^qui

orrespond à lavaleur RDU de lameilleure stratégie trouvée jusqu'alors dans

l'exploration.Cettedernièreesteetuéeenprofondeurd'abord.L'ensemble

N 1

désignelesn÷uds dedéisionandidats pourprolongerlastratégiepartielle

Γ

^.

Parmi eux-i,le n÷uddont lavaleur dela fontion

rg

^est ^minimale^est ^noté

N min

^. ^L'ensemble

E min

^de ^ses ^arêtes^inidentes ^dénit ^les ^diérents ^prolonge-

mentsde

Γ

^envisagés^(autrement^dit, ^les^ls ^du^n÷ud^assoié ^à

Γ

^dans^l'arbre

dereherhe).Pourtoutestratégiepartielle

Γ

^(autrement^dit,^en^haque^n÷ud

del'arbredereherhe),ondisposed'unefontiond'évaluation

ev

représentant unebornesupérieuredelavaleurRDU detoutestratégieompatibleave

Γ

^.

(14)

Algorithme 1:BB

(Γ, RDU opt )

N ¹ ← {N ¹ ∈ N D : ∀(N, H) ∈ N D × N H , ((N, H) ∈ past(N ¹ ) ⇒ (N, H ) ∈ Γ )};

N min ← arg min N∈N ₁ rg(N);

E min ← {(N min , H) ∈ E : H ∈ S(N min )};

pourhaque

(N, H ) ∈ E min

^faire

si

ev(Γ ∪ {(N, H )}) > RDU opt

^alors

RDU temp ←

^BB

(Γ ∪ {(N, H )}, RDU opt );

si

RDU temp > RDU opt

^alors

RDU opt ← RDU temp ;

n

retourner

RDU opt

Bienque ela nesoit paspréisé dans l'algorithme, remarquonsqu'en pra-

tiquenousutilisonsl'heuristiqueonsistantàdévelopperenprioritélelsdontla

valeurdelafontiond'évaluationestlaplusélevée.Nousdétaillonsmaintenant

lesprinipalesaratéristiquesdenotrealgorithme.

Initialisation.Uneméthodeparséparationet évaluationest notoirementplus

eae quand une bonne solution est onnue avant de démarrer la reherhe.

Dansnotreméthode,labornesupérieure(

RDU opt

⁾^estinitialiséeavelavaleur RDUdelastratégieobtenueparprogrammationdynamiqueselonleritèreEU.

En eet, on peut penser que la stratégie ainsi obtenue sera de bonne qualité,

et permettradond'éviteruneexplorationtropapprofondiedesous-espaesne

omportantpasdebonnessolutions.

Fontion d'évaluation. L'évaluation d'un ensemble de stratégies induit par

une stratégiepartielle

Γ

^se^fait ^à^l'aide^d'une^fontion

ev

^.^Le ^prinipe^de^ette

évaluationestdedéterminerune loteriequidominestohastiquementtoutesles

loteriesassoiéesauxstratégiesompatiblesave

Γ

^,^et^d'évaluer^ette^loterie^se-

lonleritèreRDU.Ons'assureainsiqueette évaluation estbien unmajorant

puisqueleritèreRDUrespeteladominanestohastique,'est-à-direquesiune

loterie

L

^domine stohastiquementune loterie

L ^′

^, ^alors

RDU(L) ≥ RDU(L ^′ )

^.

Pour déterminer une telle loterie, on proède par programmation dynamique

surl'arbredéisionhasard.L'initialisationdelaproéduresefaitauniveaudes

n÷uds terminaux: àtoutn÷udterminal

C ∈ C

^est ^aeté^la^loterie

(1, u(C))

^.

Ensuite, enhaquen÷ud

N ∈ N

^,^on^remonte ^une^loterie^qui^domine^stohasti-

quementtouteslesloteriesdusous-arbre

T (N )

^.^Plus préisément,en unn÷ud de hasard

H

^, ^on ^alule ^la ^loterie

L ^H

^induite ^par ^les ^loteries ^de ^ses^ls ^de ^la

manièresuivante:

∀u, L ^H (u) = P

N∈S(H) p((H, N )) × L ^N (u)

où

L ^N

^orrespond ^à ^la ^loterie ^remontée ^au ^n÷ud

N

^. ^Par ^ailleurs, ^en ^haque

n÷uddedéision

D

^,ônâpplique^la^relation^de^réurrene^suivanteêxprimée^sur

lesfontionsdéumulatives 2

(poursimplierl'ériture):

2

Notonsqu'onpeutmanipulerindiéremmentuneloterieousafontiondéumulative,

(15)

∀u, G _L ^D (u) = G _L ^N (u)

^si

∃N ∈ S (D) : (D, N ) ∈ Γ

∀u, G _L ^D (u) = max _N _∈S(D) G _L ^N (u)

^sinon

Enn,lavaleurretournéepar

ev

^est

RDU(L ^N ^r )

^.

Exemple 7 Reprenons l'arbre déision hasard de la gure1 et faisons l'hypo-

thèse que

Γ = {(D 1 , H 1 ), (D 3 , H 6 )}

^.^Les^loteries^remontées ^en^haque^n÷ud ^se-

rontalors :

L ^H ³ = ( ³ ₅ , 2; ² ₅ , 4)

^,

L ^H ⁴ = (1, 3)

^,

L ^H ⁶ = (1, 1)

^,

L ^D ² = ( ³ ₅ , 3; ² ₅ , 4)

^(ar

G _L ^D 2 = (max(1, 1), 2; max( ² ₅ , 1), 3; max( ² ₅ , 0), 4)

^),

L ^D ³ = L ^H ⁶ = (1, 1)

^,

L ^H ¹ = ( ³ ₅ × 1, 1, ² ₅ × ³ ₅ , 3; ² ₅ × ² ₅ , 4) = ( ³ ₅ , 1, ₂₅ ⁶ , 3; ₂₅ ⁴ , 4)

^,

L ^D ¹ = L ^H ¹ = ( ³ ₅ , 1, ₂₅ ⁶ , 3; ₂₅ ⁴ , 4)

^.

Lavaleur retournéeparla fontiond'évaluation pour

Γ = {(D 1 , H 1 ), (D 3 , H 6 )}

seradon

ev(Γ ) = RDU(( ³ ₅ , 1; ₂₅ ⁶ , 3; ₂₅ ⁴ , 4))

^.

4.2 Expérimentations numériques

L'algorithmeaétéimplémentéenC++etlestestontétémenéssurunordi-

nateur équipéd'unbiproesseurIntelà2.13Ghzave3.5Go demémoirevive.

Lesarbresdéisionhasardsurlesquelsnousavonstesténotrealgorithmesontdes

arbresbinairesompletsdeprofondeurpaire.Lesutilitéset lesprobabilitésont

étégénéréesdemanièrealéatoire.Lesutilitésvarientde

1

^à

500

^.^La^profondeur

desarbresvariequantàellede

4

^à

14

^(don^de

5

^à

5461

^n÷uds^de^déision),^ave

unealternaneden÷udsdedéisionetden÷udsdehasard.Pourhaqueniveau

de profondeur, 100arbres ont été générés. La ourbede gauhe (resp. droite)

de la gure 4 représente le nombre moyen de n÷uds développés dans l'arbre

d'exploration (resp. le temps moyen d'exéution en se. de l'algorithme) selon

la profondeur. L'axe des ordonnées est exprimé sur une éhelle logarithmique

(enbase 4)arlenombrede n÷udsdedéisionest multipliépar4en ordrede

grandeurpourhaqueinrémentdelaprofondeur.Onremarqueque,surlesins-

tanestiréesaléatoirement,laroissanedunombreden÷udsdéveloppés(resp.

dutempsd'exéution)apparaîtommelinéairedunombreden÷udsdedéision

pourlestaillestraitéesii.Lesplusgrandesinstanesserapprohentdestailles

d'arbredéisionhasardlimitesstokablesenmahine(uneaugmentationde30%

seulementdelaprofondeurpeutêtre envisagée).Lesautdeomplexité sesitue

au-delàdestaillestraitées ii.

Fig.4.Comportementdel'algorithmeenfontiondelaprofondeur.

(16)

Dans e papier,nous avonsmené une étude algorithmique duproblème de

lareherhed'unestratégieRDU-optimaledansunarbredéisionhasard.Nous

avonsenpartiuliermontréqueeproblèmeestNP-diile.Nousavonsensuite

proposé un algorithme d'énumération impliite pour déterminer une stratégie

RDU-optimale.Lestestsnumériquesonduitsmontrentqueetalgorithmeper-

metderésoudreavedestempsompétitifsdesinstanesdontlatailleapprohe

lalimitemémoireimposéeparlamahine.Unsujetd'étudeintéressantpourdes

travauxfutursseraitjustementdeonevoirdesalgorithmesderésolutionpour

desproblèmesdedéisiondanslerisquemodélisésàl'aided'undiagrammed'in-

uene.Undiagrammed'inueneestungrapheorientésansiruitreprésentant

defaçonompateunarbredéisionhasardenexploitantlessymétriesprésentes.

Parexemple, sur l'arbredela gure2, lesn÷uds

D 2

^et

D 3

^peuvent^être ^fa-

torisés en unseularlessous-arbresassoiés sontidentiques.Néanmoins, une

diulté supplémentairepourla résolutionest qu'unestratégie RDU-optimale

peutonduireànepasfairelemêmehoixendeuxn÷udsdedéisiondistints

assoiés à des sous-arbres pourtant identiques (alors qu'il existe toujours une

stratégieEU-optimaleoùl'onprendlamêmedéision).C'estleasparexemple

en

D 2

^et

D 3

^pour^l'arbre^de^la^gure^2.

Remeriements

NousremerionsPatriePernyquiaporténotreattentionsurlesujetétudié

ii, ChristopheGonzalesavequi nous avonseude multiples éhanges qui ont

ontribué àe travail,ainsique lesreleteursanonymespourleurs suggestions

pertinentes.

Référenes

1. Allais,M. (1979):Thefoundationofapositivetheoryofhoieinvolvingriskans

aritiism ofthe postulateand axiomsoftheamerianshool. InExpeted utility

hypotheses andtheAllaisparadox,pages27145.Dordreht,Holland.Originalwork

publishedin1952.

2. Dubois,D.,Prade,H.and Sabbadin,R.(2001) :Deision-theoretifoundations of

qualitative possibility theory. European Journal of Operational Researh, 128(3),

459-478.

3. Esoer,B.andSpanjaard,O.(2005):Programmationdynamique.Dansl'ouvrage

olletifOptimisationombinatoire, Volume1.EditéparV.Th.Pashos.Hermes.

4. Gayant,J.-P.(2001):Risqueetdéision,Vuibert.

5. Handa, J.(1977):Risk,probabilities andanewtheoryofardinal utility.Journal

of PolitialEonomis,85,97-122.

6. Jaray,J-Y.andNielsen,T.D.(2006):Anoperationalapproahtorationaldeision

makingbasedonrankdependentutility.EuropeanJournalofOperationalResearh,

(17)

underRisk.Eonometria,47,263-291.

8. MClennen,E.F.(1990):RationalityandDynamihoie :FoundationalExplora-

tions,CambridgeUniversityPress,Cambridge.

9. Morin, T.L.(1982):Monotoniityand theprinipleofoptimality.Journalof Ma-

thematialAnalysisandAppliations,86, 665-674.

10. Quiggin,J.(1982):Atheoryofantiipatedutility.JournalofEonomiBehavior

andOrganisation,3(4),323-343.

11. Raia, H. (1968) : Deision Analysis : Introdutory Letures on Choies under

Unertainty,Addison-Wesley.

12. von Neuman, J. and Morgenstern, O. (1947) : Theory of games and eonomi

behaviour.PrinetonUniversityPress, 2ndedition.

Approche algorithmique de la recherche d’une stratégie RDU-optimale dans un arbre de décision

HAL Id: hal-01303913

https://hal.archives-ouvertes.fr/hal-01303913

Submitted on 30 Jun 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Approche algorithmique de la recherche d’une stratégie RDU-optimale dans un arbre de décision

Gildas Jeantet, Olivier Spanjaard

To cite this version:

Gildas Jeantet, Olivier Spanjaard. Approche algorithmique de la recherche d’une stratégie RDU- optimale dans un arbre de décision. 9ème Congrès de la Société Française de Recherche Opéra- tionnelle et d’Aide à la Décision (ROADEF 2008), Feb 2008, Clermont-Ferrand, France. pp.79-94.

�hal-01303913�

1

2

2

1

3 5

1

4

x = 2s + a

s

a

u

u(x) = 4 − x

n

Θ(2 √ n )

O(n)

D 1

H 1

D 2

2/5

H 3

b u(0) = 4

2/5

b u(2) = 2

3/5

H 4

b u(1) = 3

2/5

b u(1) = 3

3/5

D 3

3/5

H 5

b u(2) = 2

3/4

b u(4) = 0

1/4

H 6

b u(3) = 1

3/4

b u(3) = 1

1/4

H 2

D 4

2/5

H 7

b u(1) = 3

2/5

b u(3) = 1

3/5

H 8

b u(2) = 2

2/5

b u(2) = 2

3/5

D 5

3/5

H 9

b u(1) = 3

3/4

b u(3) = 1

1/4

H 10

b u(2) = 2

3/4

b u(2) = 2

1/4

max( 14 5 , 3) = 3

D 2

3

³ ₅

Θ(2 ^√ ⁿ )

D ¹

H ¹

D ²

H ³

H ⁴

D ³

H ⁵

H ⁶

H ²

D ⁴

H ⁷

H ⁸

D ⁵

H ⁹

H ¹⁰

max( ¹⁴ ₅ , 3) = 3

3 × ² ₅ + ³ ₂ × ³ ₅ = ²¹ ₁₀

N ^∆ ⊆ N

N ∈ N _D ^∆ = N D ∩ N ^∆

N ∈ N _H ^∆ = N _H ∩ N ^∆

∆ = {(N, N ^′ ) : N ∈ N _D ^∆ , N ^′ ∈ N ^∆ } ⊆ E

N ^∆

( ₂₀ ³ , 1; ₂₀ ⁸ , 2; ₂₀ ⁹ , 3)

⁴⁶ ₂₀ = ²³ ₁₀