R ENDICONTI
del
S EMINARIO M ATEMATICO
della
U NIVERSITÀ DI P ADOVA
G. A NDREATTA
Problemi di ottimizzazione nella teoria delle code
Rendiconti del Seminario Matematico della Università di Padova, tome 53 (1975), p. 123-134
<http://www.numdam.org/item?id=RSMUP_1975__53__123_0>
© Rendiconti del Seminario Matematico della Università di Padova, 1975, tous droits réservés.
L’accès aux archives de la revue « Rendiconti del Seminario Matematico della Università di Padova » (http://rendiconti.math.unipd.it/) implique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/conditions).
Toute utilisation commerciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
G. ANDREATTA
(*)
Introduzione.
Nel 1957 Bellman
(cfr. [2],
cap.XI)
propose di arricchire la no- zione di catena(finita
edomogenea)
di Markovaggiungendovi:
a)
delle «ricompense »
associate adogni
transizione effettuata dal processo in evoluzionestocastica;
b )
lapossibilità
di influire sul processoprendendo
certe « deci-sioni » atte a modificare le
probabilità
e lericompense
dellesuccessive transizioni.
Su un modello stocastico cos arricchito
(denominato
catena diMarkov con
decisione)
è allora naturale cercare di instaurare un pro- cedimento di « ottimizzazione » :questi suggerimenti
di Bellman sonostati
ripresi
nel 1960 da Howard(cfr. [4])
ilquale
ha messo apunto
un
algoritmo
iterativo capace dideterminare,
sottoopportune ipotesi,
le « decisioni ottime » .
In
questo
lavoroprenderemo
in esamequella particolare
classedi catene di Markov con decisione costituita dai modelli
M/M
dellaTeoria delle Code: a
questi processi
non èperò applicabile l’algoritmo
di
Howard, poichè,
come faremo vedere in un successivoparagrafo,
una delle
ipotesi
richieste da Howard[4]
non èverificata,
salvo casiparticolari.
(*)
Indirizzo dell’A. : Istituto di Statistica dell’Università di Padova.Lavoro
eseguito
nell’ambito dell’attività deigruppi
di Ricerca matema-tica del C.N.R.
Finora
questo problema
è statoparzialmente risolto,
nel caso incui la decisione da
prendere
sia il numero delle « stazioni di servizio » da attivare determinando una volta per tuttequesto
numero,indipen-
dentemente dal numero di « clienti » in coda
(lo
stato delprocesso) :
a
questo
modoperò
si esclude lapossibilità
di un dimensionamento dinamico(in
cui cioè il numero di stazioni di servizio possa variare indipendenza
del numero di clienti incoda).
In
questo
lavoro si affronta e risolvequesto problema,
mediantel’esposizione
di un nuovoalgoritmo
iterativo cheappartiene
sostan-zialmente alla
Programmazione
Dinamica.I. Notazioni.
Terminologia. Ipotesi.
Sia n + 1 il numero
degli
stati accessibili al processo : indicheremo tali stati coi simboliEo ,
... ,En .
Quando
il processo si trova nello stato_Ei
si devescegliere
fra uncerto numero
(finito)
di «alternative »: siaUi
i l’insieme di tali alter- native(relative
allo statoEi)
e ui un suogenerico
elemento.Chiameremo «
strategia
» e la indicheremo con u(oppure w)
qua-lunque regola
che adogni
stato associ inqualche
modo una alternativa :una
strategia quindi
è unafamiglia
di alternative u -(uo, ... , un) ;
sia U la totalità di tutte le
strategie:
è evidente che U è ilprodotto
cartesiano
degli
insiemiUi
i(i = 0, ... , n).
Poichè il processo evolve in
dipendenza
di un certoparametro (che
spesso ha fisicamente ilsignificato
deltempo)
è naturale associare adogni
valore delparametro
unastrategia (che
apriori
non è dettosia sempre la
stessa):
allafamiglia
distrategia
che ne risulta daremo il nome di «politica
».Ottimizzare un processo vorrà dire per noi trovare una
politica
acui
corrisponda
il massimo dellaricompensa
media per unità di «tempo »
in
regime ergodico, nell’ipotesi
che il processo continui la sua evolu- zione per untempo
che siprolunga
all’infinito.Blackwell ha dimostrato
(cfr. [3])
che fra lepolitiche
ottimali ven’è una
stazionaria,
che associa cioè adogni
valore delparametro
lamedesima
strategia (daremo l’appellativo
di « ottima» » ad una talestrategia):
di conseguenza per ottimizzare un processo è sufhciente trovare unastrategia
ottima.Indicheremo con
g(u)
laricompensa
media per unità ditempo
inregime ergodico (in inglese « gain » :
cfr.[4])
relativa allapolitica
sta-zionaria ottenuta a
partire
dallastrategia
u.Per le rimanenti notazioni e
terminologie
faremo ingenerale
rife-rimento a
quelle
usate da Howard in[4].
Howard nel suo lavoro
ipotizza
che laricompensa
associata ad una effettivatransizione, ricompensa
che indica col simbolodipenda
solo dalla
alternativa u,
relativa allo stato « iniziale » della transizione mentre èragionevole
supporre che ingenerale
talericompensa dipenda
anche
dall’alternativa u;
relativa allo stato « finale » come prova ilseguente esempio: pensiamo
ad un processo di code concreto in cui la decisione daprendere
sia il numero di stazioni di servizio daaprire,
tenuto conto che
ogni
stazione di servizio funzionantecomporta
deicosti e che si vuole minimizzare il costo medio di esercizio : se
improvvi- samente, perchè
è aumentato il numero di clienti in coda(lo stato),
si decide di aumentare il numero di stazioni di servizio
(l’alternativa)
si dovrà
probabilmente
sostenere un costoimpulsivo (una ricompensa negativa)
dovuto all’aumento del numero di stazioni: tale costoproprio perchè legato
ad un aumento e cioè ad una variazionedipende
da duesuccessive alternative
(quella
iniziale » equella
« finale»).
A differenza di Howard noi ci
poniamo
nel casopiù generale:
indi-cheremo con la
generica ricompensa.
Supporremo
invece verificate(come
in[4])
leseguenti
dueipotesi:
Hl)
adogni strategia
sia associato un processocompletamente ergodico ;
H2)
il numero delle alternative relative ad uno statoqualunque
siafinito.
2.
L’algoritmo
di risoluzione : descrizionegenerale.
L’algoritmo
di risoluzione è ditipo
iterativo e ciascuna iterazione è costituita di due « fasi »che,
inanalogia
alla nomenclatura di Howard(vD0 =
Value-DeterminationOperation,
PIR =Policy-Improvement Routine),
denomineremorispettivamente
« SIR » e « GDO »(Strategy- Improvement
Routine e Gain-DeterminationOperation).
Prima di descrivere
queste
duefasi,
introduciamo perogni
fissatastrategia
una funzione da U in R a cui daremo il nome di« pseudo-scarto
».Supposto (la probabilità
asintotica che il pro-eesso si trovi nello stato
Eo (cfr. [3])
diverso da zeroqualunque
sia lastrategia ( 1),
sia:Sono evidenti le
seguenti proporzioni:
P1 )
la funzionepseudo-scarto
èmaggiore (rispettivamente:
uguale, minore)
di zero se e soltanto se laricompensa
mediag(u)
relativa alla
strategia u
èmaggiore (rispettivamente: uguale, minore)
dellaricompensa
mediag(w)
relativa allastrategia
w;P2)
fissata w, il massimo(al
variare di u inU) (2)
della funzionepseudo-scarto
èmaggiore
ouguale
a zero;P3)
se, fissata w, il massimo di èuguale
a zero allora w èpoli-
tica
ottima;
P4)
se, fissata w, il massimo diL1w(u)
èmaggiore
di zero e ~c* è unastrategia
in cuiA w(u)
assume tale valore massimo allora la ricom- pensa media associata allastrategia
u* èmaggiore
della ricom- pensa media associata allastrategia w (3).
Nella fase SIR si calcola
appunto
il massimo(al
variare diu)
dellafunzione
pseudo-scarto A,,(u):
leproposizioni P2, P3,
P4 dimostrano che apartire
da unastrategia w
la SIRpermette
di stabilire se w è unastrategia
ottima(nel qual
caso ilprocedimento
siarresta)
altrimentifornisce una
strategia
u*« migliore
».Nella fase
GDO,
perogni strategia
~c* trovata dalla SIR si calcola lacorrispondente ricompensa
mediag(u*)
mediante laseguente
for-mula :
dopo
di che si inizia una nuova iterazione sostituendo u* a w nella fase SIR.Il
procedimento
si innesca nella fase SIRfingendo
che esista unastrategia w
a cuicorrisponde
unaricompensa
media nulla(g(w)
=0) (4).
(1)
I1 casogenerale comporta complicazioni
unicamente di carattere formale.(2)
L’esistenza di tale massimo ègarantita dall’ipotesi
H2.(3)
Naturalmente non è detto ce u* sia unastrategia ottima;
per esserlo dovrebbe massimizzare anche la funzioneg(u).
(4) Supponendo
che lericompense
siano nonnegative;
in caso contrariosi pone
g(w) uguale
ad un numeronegativo opportunamente
scelto.L’algoritmo può quindi
essere schematizzato nel modoseguente:
OSSERVAZIONI:
1)
la convergenzadell’algoritmo
è assicuratadall’ipotesi
H2 edalle
proposizioni P2, P3, P4;
2)
i risultati numerici hanno dimostrato una discretarapidità
diconvergenza: per
esempio
inproblemi
con una decina di stati e unadecina di alternative per
ogni
stato(il
numero dellestrategie possibili
è
quindi
dell’ordine di101°)
si è avuta la convergenza entro la sestaiterazione;
3)
calcolare il massimo della funzionepseudo-scarto L1w(u)
nelcaso di un processo non di code è in
generale
tutt’altro che facile espesso materialmente
impossibile
dati i limiti dei mezzi di calcolo adisposizione:
per tale motivo abbiamo ristretto le nostre considera- zioniproprio
aiprocessi
di code per iquali
tale calcolo risulta sicura- mentepossibile,
come faremovedere;
4)
per calcolareg(u*)
sipotrebbe
utilizzare anche la VDO di Howard[4]:
èperò più
conveniente utilizzare la GDOperchè
a diffe-renza della VDO non occorre risolvere un sistema lineare: per calco- lare si sfrutta la formula
(3.3)
del successivoparagrafo.
3.
Teoria
delle Code: alcuni richiami.Consideriamo
quei processi
di code che sonomarkoviani, omogenei
e finiti
(cioè
i modelliM/M chiusi).
Per tali
processi
le « velocità di transizione »(in inglese
« transi-tion rates
»)
aij sonouguali
a zero non appenali - ;
nella lette- ratura si usano spesso isimboli Âi
anzichè(i = 0, ... , n -1 )
e ~t i anzichè
( i = 1,
... ,n) . Naturalmente A
e ,udipendono
dallastrategia u
epiù precisamente
dalla suacomponente
i-esima: la alter- nativa u i .Per rendere meno
pesante
la trattazione assumeremo laseguente ipotesi (peraltro
non restrittiva(5)):
Si osservi che
l’ipotesi
CIimplica
chegli
statiEo , ... , En
costitui-scono una unica catena irriducibile: risulta
perciò
soddisfattal’ipo-
tesi H1
(il
processo risultacompletamente ergodico),
yinoltre,
nonessendoci stati
transienti,
risulta diverso da zeroqualunque
siala
strategia
di U(ipotesi
formulata nella definizione della funzionepseudo-scarto
(5)
Se peresempio
= 0 tuttigli
statiEo, ...,
risultano transientie
perciò
non incidono sullaricompensa
media inregime ergodico: possiamo
quindi
rinumeraregli
statidopo
di che risulta verificatal’ipotesi
C1.Dalla Teoria delle Code è noto che
(nell’ipotesi
che o0):
da cui consegue:
che a sua volta
implica:
Si noti che mentre ciascun è funzione di tutte le alternative
(UO 9... ~ U.), dipende
solo dalleprime k + 1
alternative(2l’0,
...,Ricordiamo che in
[4]
si dimostra che laricompensa
media sipuò
ricavare dalla
seguente
formula:dove nel caso
generale qi(u)
è dato dallaseguente espressione:
che nel caso di un modello
M/M
chiuso(con
la convenzione~,n = ,uo = 0)
diventa:
4. Modello
M/M
chiuso :computabilità
della SIR.Fissata una
strategia
w,poniamo:
r ,
(s) Ricordiamo
che nj,
è laprobabilità
asintotica che il processo si trovi nello statoEk .
al variare di ... , un in modo che
Dalla
(3.4)
e per ben noteproprietà probabilistiche
è evidenteche si ha:
L’importanza
delle funzioni ed-Fo
risiede nel fatto che es-sendo
(come dimostreremo)
funzioni ditipo
ricorsivopermettono
diatteggiare
aproblema
dinamico a stadi successivi la ricerca del mas-simo della funzione
pseudo-scarto.
Infatti:TEOREMA. Sussistono le
seguenti
relazioni ditipo
ricorsivo:DIMOSTRAZIONE. Siamo
infatti,
tenuto conto delle(3.1), (3.6)
edopo opportune
identificazioni disimboli,
nelleipotesi
del corollario 1.6.2 di[5],
cap.2°,
ilquale,
fral’altro, garantisce
l’asserto.Si osservi che il «
Principio
di Ottimalità » di Bellman(cfr. [2])
afferma
quello
che il Teorema dimostra(’).
Il calcolo di
Fn(Un-l)
mostra come dobbiamoscegliere
un in funzione di un_1: indichiamo tale alternativa conU:(Un-1); analogamente
il cal-colo di
quando
i >0,
mostra comescegliere
~ci in funzione di ui-,: indichiamola con e finalmente il calcolo di.F"o
porge l’alternativamigliore u:.
Una
strategia
che sicuramente massimizza la funzionepseudo-
scarto è
quindi
lastrategia composta
dalleseguenti
alternative:e)
Sullaproblematica
che nasce dal «principio »
di ottimalità si vedaVolpato (15],
cap.2).
Con
questo
Teorema e le considerazioni appena svolte èprovata
laeffettiva
computabilità
della SIR(e quindi
dell’interoalgoritmo)
nelcaso di
processi
della Teoria delle Code.5. Un
procedimento
di subottinùzzazione.Agli
effettioperativi
è spesso sufhciente trovare unastrategia
lacui
ricompensa
media sia vicina(con
unaapprossimazione
arbitraria- menteprefissata)
aquella
ottima.In
questo paragrafo
descriveremo una variantedell’algoritmo
vistofinora che consentirà di individuare una
strategia ú
arbitrariamente« vicina »
(8)
ad unastrategia
ottima con ilvantaggio
che mentre ilnumero di iterazioni richiesto
dall’algoritmo originario (pur
essendosicuramente
finito)
non è noto apriori
epuò magari
risultarepiuttosto elevato, quello
invece richiesto dalla variante che descriveremo orapossiede
un confinesuperiore
noto apriori (in
funzionedell’approssi-
mazione
richiesta).
Ricordiamo che la GDO fornisce alla SIR un numero
(che
è la ricom- pensa media relativa ad una certastrategia dopo
di che la SIRpermette
di stabilire se esiste oppure no unastrategia
a cuicorrisponda
una
ricompensa
media il cui valore siasuperiore
aquel
numero.Che cosa succede se alla SIR forniamo un numero a caso c
(senza
che esso
rappresenti
necessariamente laricompensa
diqualche
stra-tegia) :
Riscriviamo la funzione
pseudo-scarto
come segue:Risultano evidenti le
seguenti proposizioni (conveniamo,
per evitare inutiliripetizioni,
che u* sia unastrategia
ottima e ú unastrategia
tale che
’l1eu
P1’ )
la funzionepseudo-scarto
èmaggiore (rispettivamente:
uguale, minore)
di zero se e soltanto se il valore dellaricompensa
media
g(u)
relativa allastrategia u
èmaggiore (rispettivamente:
uguale, minore)
del numero c ;(8)
Tale cioè cheig(d)
-g(u* ) ~
8(se
8 è unprefissato
numeropositivo
e u* una
strategia ottima).
P2’)
fissato c, il massimo dipuò
risultare siamaggiore
siauguale
sia minore di zero ;
P3’)
se Max =0,
allora îc èstrategia ottima;
P4’ )
se Max èmaggiore
di zero, allora sia il valore della ricom- pensa media relativa allastrategia ú
siaquello
relativo allastrategia
ottima u* risultanomaggiori
di c;se Max
L1c(u)
è minore di zero, allora non esiste alcunastrategia
la cui
ricompensa
media siasuperiore
a c.La variante
dell’algoritmo
consiste nel sostituire la alposto
della e nell’introdurre la
seguente procedura
ditipo
sostanzial- mente dicotomico.Ad
ogni iterazione,
come valore di c da fornire allaSIR,
sisceglie
il valor medio fra due numeri a e b che inizialmente vengono fissati in modo che la
ricompensa
mediag(u*)
relativa ad unastrategia
ot-tima u* sia sicuramente compresa fra ac e b :
(9) ;
succes-sivamente invece vengono fissati tenendo conto dei
seguenti
tre casi:I)
se(10) (questo
vuol dire(per
laP4’)
che ancheg(u*) c)
è evidente che nella successiva iterazione converràscegliere g(ú)
come nuovo valore di a e c come nuovo va-lore di
b ;
II)
se e anche é èstrategia
ottima(per
laP3’)
edunque l’algoritmo
siarresta;
III)
se(questo
vuol dire(per
laP4’)
che ancheg(u*)
>c)
è evidente che nella successiva iterazione converràscegliere
come nuovo valore di ac e lasciare inalterato il valore di b.Il numero
(b
-a)
divienequindi
semprepiù piccolo:
adogni
itera-zione viene
più
chedimezzato ;
non appenaquesto
numero risulta infe- riore ad e èl’approssimazione prescelta) l’algoritmo
si arresta:l’ultima
strategia
fornita dalla SIRè,
perquanto visto,
lastrategia
richiesta.
(9)
Peresempio
(se lericompense
sono nonnegative) ponendo
(lo)
Continuiamo ad indicare con û lastrategia
fornita dalla SIR e con2~* una
strategia
ottima,L’algoritmo può quindi
essere schematizzato nel modoseguente:
6. Osservazione conclusiva.
Per
saggiare
il nostroalgoritmo
abbiamo considerato il « Problema della Manutenzione »(che
rientra fra iprocessi M/M chiusi) prendendo
in esame un certo numero di casi
specifici (particolarizzando
costi evelocità di
transizione)
e fornendo per ciascuno un « dimensionamento dinamico » del servizio di manutenzione.I risultati numerici ottenuti
(cfr. [1])
confermano lacomputabi-
lità
dell’algoritmo
e la sua efhcienza per risolvere ilproblema posto.
Avvertiamo
però che,
avendo utilizzato una versionedell’algoritmo precedente
aquella presentata
inquesto lavoro,
itempi
di calcolo indicati in[1] potrebbero
essere considerevolmente diminuiti: nella versioneprecedente,
per calcolare laricompensa media,
si risolvevaun sistema lineare utilizzando la « Value-Determination
Operation
»di Howard anzichè la
più semplice
GDOqui
descritta.BIBLIOGRAFIA
[1] G. ANDREATTA, Dimensionamento ottimale di un servizio di manutenzione, in corso di
pubblicazione
su « RicercaOperativa »,
Milano.[2] R. BELLMAN,
Dynamic Programming,
PrincetonUniversity
Press, Prin- ceton, N. J., 1957.[3]
D. BLACKWELL, DiscreteDynamic Programming,
Annals of Mathematical Statistics, 33 (1962), pp. 719-726.[4] R. A. HOWARD,
Dynamic Programming
and Markov Processes, MITPress, Cambridge,
Mass.(1960).
[5]
M. VOLPATO, Nuovi studi e modelli di Ricercaoperativa,
Unionetipografico-
editrice torinese, Torino
(1971).
Manoscritto