HAL Id: inria-00000093
https://hal.inria.fr/inria-00000093
Submitted on 27 May 2005
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Plus d’inférence et moins de reherche pour la résolution de problèmes de planification simples
Vincent Vidal, Hector Geffner
To cite this version:
Vincent Vidal, Hector Geffner. Plus d’inférence et moins de reherche pour la résolution de problèmes
de planification simples. Premières Journées Francophones de Programmation par Contraintes, CRIL
- CNRS FRE 2499, Jun 2005, Lens, pp.355-364. �inria-00000093�
Plus d'inférene et moins de reherhe pour la
résolution de problèmes de planiation simples
Vinent Vidal
1 ∗
Hétor Gener
2 † 1
CRIL - Universitéd'artois
rue de l'université - SP16
62307 Lens Cedex, Frane
2
ICREA & Universitat Pompeu Fabra
Paseo de Cirunvalaion8
08003 Barelona,Espagne
vidalr il.univ-artois.fr hetor.g effnerupf.edu
Résumé
De nombreux problèmes utilisés en planiation
de tâhes dans le domaine de l'Intelligene Artiielle
ommeBloks,Logistis, Gripper,Satelliteetd'autres,
ne possèdent pas les interations qui aratérisent
les puzzles. Ils peuvent être résolus rapidement mais
non optimalement en temps polynomial. Ce sont en
eet des problèmes failes pour les humains, mais
omme beauoup d'autres problèmes en Intelligene
Artiielle,diilespourlesmahines.Dansetravail,
nous étudions le type d'inférenes requises dans un
planiateur indépendant du domaine pour résoudre
desproblèmessimplesen évitantaumaximumde faire
des retours arrière, en ajoutant uniquement quelques
opérations polynomiales à haque n÷ud de l'arbre de
reherhe. A ette n, nous utilisons le planiateur
temporel optimal CPT qui ombine un shéma de
branhementde typePOCL avedesméanismesd'in-
férene puissants,et montronsquel'ajoutde quelques
règles d'inférene simples et générales susent pour
éliminerlesretoursarrièrepourdenombreuxdomaines.
Il s'agit làd'un résultat empirique intéressant,à notre
avis, qui pourrait ontribuer au développement de
planiateurs automatiques plus robustes, et à une
meilleure ompréhension de la façon de planier des
humains. Nous rapportons aussi une amélioration des
performanessigniativeparrapportàCPT.
∗
V.Vidalestenpartiesupportéparl'IUTdeLens,leCNRS
etlaRégonNord/Pas-de-CalaissousleprogrammeCOCOA.
†
H. Gener est en partie supporté par le programme
Abstrat
ManyproblemsusedinAIplanninginludingBloks,
Logistis,Gripper,Satellite,andotherslaktheintera-
tionsthatharaterizepuzzles andan be solvednon-
optimallyinlowpolynomialtime.Theyareindeedeasy
problemsforpeople,althoughaswithmanyotherprob-
lemsinAI,notalwayseasy formahines.Inthiswork,
we study the type of inferenes that are requiredin a
domain-independentplannerforsolvingsimpleproblems
suh as these ina baktrak-free manner by perform-
ing polynomialnodeoperations.Forthis,wemake use
oftheoptimaltemporalplannerCPTwhihombinesa
POCL branhingsheme withstrong inferene meha-
nisms,andshowthatafewsimpleandgeneraladditional
inferenemehanisms sueto renderthe searhover
various domains baktrak free. This is an interesting
empirialnding,webelieve,thatmayontributetothe
developmentofmorerobustautomatedplanners,andto
abetter understandingof human planning. Signiant
performanegainsinrelationtoCPTarealsoreported.
1 Introdution
De nombreux problèmes utilisés en planiation
de tâhes dans le domaine de l'Intelligene Arti-
ielle omme Bloks, Logistis, Gripper, Satellite et
d'autres, nepossèdent pasles interations qui ara-
térisentlespuzzles.Ilspeuventêtrerésolusrapidement
maisnonoptimalemententempspolynomial.Cesont
en eetdes problèmesfailespour leshumains,mais
omme beauoup d'autres problèmes en Intelligene
un planiateur indépendant du domaine pour ré-
soudredesproblèmessimplesenévitantaumaximum
de faire des retours arrière, en ajoutant uniquement
quelques opérations polynomiales à haque n÷ud de
l'arbredereherhe.Pourela,nousutilisonsleplani-
ateurtemporeloptimalptquiombineunshéma
debranhementde typePOCL ave desméanismes
d'inférenepuissants[26, 28℄, etmontronsquel'ajout
dequelquesrèglesd'inférenesimplesetgénéralessu-
isent pour éliminer les retours arrière pour de nom-
breuxdomaines.
Pour disuter des planiateurs indépendants du
domaine dont le but est de résoudre des problèmes
de planiation simples sans retour arrière en ee-
tuant des opérations polynomiales à haque n÷ud,
nousutiliseronsleterme deplaniateursaisés.Nous
pensons que ledéveloppement deplaniateurs aisés
est une tâhe partiulièrementsensée et motivée, qui
pourrait ontribuernon seulementau développement
de planiateurs automatiques plus robustes, mais
aussiàune meilleureompréhension desméanismes
deplaniationdel'êtrehumain.Leshumainssonten
eet apables de résoudre failement es problèmes;
etbien qu'ilsoitsouventonsidéréqueette apaité
estle résultatde stratégiesdépendantes dudomaine,
nosrésultatssuggèrentqu'ellepeutaussidéouler de
méanismesd'inférenesimplesetgénéraux.
Les planiateurs aisés sontdes planiateurs non
optimaux, mais tandis que les planiateurs non op-
timauxherhentàrésoudredes problèmesparn'im-
porte quel moyen, et que les planiateurs optimaux
herhent à les résoudre optimalement, les plania-
teurs aisés herhent à résoudre les problèmes sim-
plesave desopérationspolynomialesrapideset sans
reherhe . Cela nesignie pasqu'ilsdoiventrésoudre
es problèmes plus rapidement, ou qu'ils doivent en
résoudre plus, mais qu'ils doivent tenir ompte d'in-
férenesqui rendentes problèmesfailes. Nouspen-
sons qu'une telle utilisation d'inférenes peut être
bénéquepourlesperformanesdesplaniateurs,et
montrons que 'est le as pour pt. En lui-même,
pt,ommelesautresplaniateursbaséssurleson-
traintesousurSAT,n'estpasunbonplaniateurnon
optimaletenoremoinsunplaniateuraisé.Eneet,
lesplaniateursoptimauxbaséssurlesontraintesou
surSAT[15, 23, 6℄ utilisésave unhorizon susam-
mentlargepourrésoudredesproblèmesnonoptimale-
ment,renontrentdeuxproblèmes:
1. Les odages SAT et CSP basés sur une variable
parunité detemps, lesplusourants,aquièrent
une tailletropimportantepourunhorizonélevé.
2. Lesontraintesquirequièrentlavaliditédesbuts
horizonest tropélevé.
Le premier point n'est pas un problème pour pt,
étant donné qu'il s'agit d'un planiateur temporel
utilisant une représentation temporelle plutt que
booléenne. Ainsi, l'utilisation d'une borne élevée sur
laduréetotaled'exéutiond'unplan (lemakespan)a
desonséquenesdiretessurledomainedesvariables
temporelles,etnonsurleurnombre .
pt, d'un autre té, n'éhappe pas au deuxième
problème : ave une borne élevée sur le makespan,
la reherhe devient beauoup moins ontrainte et
dirigée,et mêmedes problèmesrésolusoptimalement
sans retour arrière ne peuvent être résolus après un
nombre onsidérable de retours arrière quand une
borne élevée sur le makespan est spéiée. Dans e
travail, nous nous attaquons à e problème en éten-
dant les apaités d'inférene de pt de telle sorte
qu'il dépende moins desinférenes eetuées grâe à
la borne sur le makespan et plus sur des inférenes
indépendantes dudomaine qui ne sontpas apturées
par pt. La nouvelle version de pt, que nous ap-
pelons ept, eetue un raisonnement simple mais
plusétendu,tirantpartidel'adaptationdetehniques
omme les points de passage obligatoires [22, 30℄ et
desdistanes[25℄,parmi d'autres.
Cet artile est organiséde la façonsuivante. Nous
passons d'aborden revue leplaniateurpt, disu-
tons de sesfores omme planiateuroptimal et de
sesfaiblessesommeplaniateurnonoptimal,et in-
troduisons des extensions à son moteur d'inférenes
quiéliminentlesretoursarrièredelareherhesurun
grandnombrededomainesdetest.Nousévaluonsen-
n le planiateurqui en résulte,ept, et disutons
lesimpliationsetpistesdereherhe.
2 CPT
pt est un planiateur temporel indépendant du
domainequiombineunshémadebranhementbasé
sur la planiationdans lesespaesde plans partiels
ave liens ausaux (POCL : Partial Order Causal
Link) avedes règlesd'élagagepuissantes et saines
implémentées par des ontraintes [26℄. La prinipale
innovationdeptparrapportàd'autresformulations
[13, 19, 29℄ est la apaité de raisonner sur les sup-
ports, préédenes et liens ausaux impliquant aussi
les ations qui n'appartiennent pasenore à unplan
partiel.Ainsi,ptpeutréduirelesbornes surladate
de début et le domaine des supports des ations qui
ne sont pas enoredans le plan, éliminer des ations
de tout plan partiel, déteter des inonsistanes au
plus tt, et. Les inférenes dans pt sont support-
traintes. Par exemple, à haque ation
a
dans le do-maine est assoiée une variable
T (a)
qui représentela date de début de
a
; et à haque préonditionp
de
a
, est assoiéeune variableS(p, a)
qui représentele support de la préondition
p
pour l'ationa
. Unlienausal
a
′[p]a
estainsireprésentéparlaontrainteS(p, a) = a
′,tandisquesanégationestreprésentéepar la ontrainteS(p, a) 6= a
′. Cependant, àla diérened'autresplaniateursdetypePOCLbaséssurleson-
traintes[11,12,16,21℄,ptreprésenteetrésonneave
touteslesvariables,qu'uneationappartienneounon
auplanpartiel ourant.
pt utilise une extension simpledu langageStrips
qui ombine les ations onurrentes ave des durées
entières(bienquel'onpuisse,parunesimpletransfor-
mation,utiliserdesduréesrationnelles).Un problème
deplaniationtemporelestuntuple
P = hA, I, O, Gi
où
A
est un ensemble d'atomes de base,I ⊆ A
etG ⊆ A
représentent lasituation initialeet le but, etO
estl'ensembledesopérateursStripsdebase(totale-ment instaniés),haun ave listesdepréonditions,
ajouts et retraits
pre(a)
,add(a)
, etdel(a)
, et duréedur(a)
. De manière lassiqueen planiation POCL,on trouvelesations
Start
etEnd
de duréenulle, lapremièresanspréonditionetommeajoutslesatomes
de
I
, et la seonde ave préonditions les atomes deG
et auuneet. Commedans graphplan[3℄,deuxations
a
eta
′ interfèrentquand l'une retireune pré- ondition ou un ajout de l'autre. pt suit le mod-èle temporel simple de [24℄, dans lequel des ations
interférentes ne peuvent se reouvrir dans le temps,
et produit desplansaveduréed'exéution minimale
( makespan minimal).
La formulation de base du planiateur pt peut
être dérite en quatre parties : pré-traitement, vari-
ables, ontraintes, et branhement. Après le pré-
traitement,les variablessontrééeset lesontraintes
sontintroduitesetpropagées.Siuneinonsistaneest
renontrée,iln'existe auunplanvalidepourleprob-
lème.Sinon,laontrainte
T(End) = B
,pourlaborneB
surlemakespaninitialiséeàladate dedébut min- imale de l'ationEnd
, est introduiteet propagée.Leshémadebranhemententrealorsenationetsiau-
une solution n'est trouvée, e proédé se répète en
rétratant la ontrainte
T (End) = B
et en la rem-plaçant par
T (End) = B + 1
, et ainsi desuite. Pourplus desimpliité, nous suivronsle modèle de[26℄ et
supposeronsqu'auuneationdudomainenepeutêtre
présenteplusd'unefoisdansleplan.Cetterestrition
est suppriméedansladernièreversiondept quiest
elle que nous utilisons, par la diéreniation entre
lestypesd'ationetlesinstanesd'ation.Cesdétails
dérits dans[27℄nesontpasutilesiiet serontomis.
Dans la phase de pré-traitement, pt alule les
valeursheuristiques
h
2T(a)
eth
2T({p, q})
pourhaqueation
a ∈ O
et haquepaire d'atomes{p, q}
ommedans[7℄.Cesvaleursprourentdesbornesinitialessur
ladateminimaledeprodutiondespréonditionsde
a
etdespairesd'atomes
p, q
,depuislasituationinitialeI
.Lesmutexstruturelssontalorsidentiésommelespairesd'atomes
p, q
tellesqueh
2T({p, q}) = ∞
.Unea-tion
a
e-retireunatomep
quandsoita
retirep
,soita
ajoute unatome
q
tel queq
etp
sontmutex, ouunepréondition
r
dea
estmutexavep
eta
n'ajoutepasp
. Dans tousles as, sia
e-retirep
,p
est faux aprèsl'exéutionde
a
[20℄.En addition, l'heuristique plus simple
h
1T est util-iséepourdénirdesdistanes entreations[25℄.Pour
haque ation
a ∈ O
, l'heuristiqueh
1T est aluléedepuislasituationinitial
I
a quiinluttouslesatomesexepté eux qui sont e-retirés par a. Les distanes
dist(a, a
′)
sontalorsinitialiséesavelesvaleursrésul- tantesh
1T(a
′)
.Ces distanesenodentlesbornesmin-imales sur l' éart temporel qui existe entre la n de
l'exéution de
a
et ledébut de l'exéutiondea
′ danstoutplanvalidedanslequel
a
′ suita
.Ellesnesontengénéralpassymétriqueset leuralul,qui restepoly-
nomial,implique
|O|
exéutionsdel'heuristiqueh
1T.2.2 Variables etdomaines
Unétatduplaniateurestreprésentéparuneol-
letion de variables, de domaines, et de ontraintes.
Comme mis en valeur plus haut, les variables sont
dénies pour toutes les ations
a ∈ O
et pas seule-mentpourlesationsduplanpartielourant.Deplus,
lesvariablessontrééespourhaquepréondition
p
dehaqueation
a
ommepréiséi-dessous.Ledomained'une variable
X
est notéD[X ]
ou plus simplementX :: [X
min, X
max]
siX
est une variable numérique.Lesvariables,leurdomaineinitial,etleursigniation
sont:
T (a) :: [0, ∞]
enodeladate dedébut dehaqueation
a
,aveT(Start) = 0
S(p, a)
enode le support de la préonditionp
de l'ation
a
ave domaine initialD[S(p, a)] = O(p)
oùO(p)
estl'ensembledesationsdeO
quiajoutent
p
T (p, a) :: [0, ∞]
enodeladatededébutdeS (p, a)
InP lan(a) :: [0, 1]
indiquelaprésenedea
dansleplan;
InP lan(Start) = InP lan(End) = 1
(vrai)Les variables
T(a)
,S(p, a)
, etT (p, a)
assoiées auxations
a
quinesontni présentes dansleplanpartielni exlues de tout plan partiel (i.e., les ations pour
lesquelleslavariable
InP lan(a)
peutêtreaetéeà0
ou
1
), sont onditionnelles dans le sens suivant : essous l'hypothèse qu'ils font partie du plan. An de
s'assurerdeetteinterprétation,ertainespréautions
danslapropagationdesontraintesdoiventêtreprises,
ommedérit dans[26℄.
2.3 Contraintes
Lesontraintesorrespondentessentiellementàdes
disjontions,desrèglesetdespréédenestemporelles,
et à leurs ombinaisons. Les ontraintes temporelles
sontpropagéesparonsistanedeborne[18℄.Leson-
traintes s'appliquent à toutes les ations
a ∈ O
ettoutesles préonditions
p ∈ pre(a)
; nousutilisons lanotation
δ(a, a
′)
pourdur(a) + dist(a, a
′)
.Bornes :pourtout
a ∈ O
T(Start) + dist(Start, a) ≤ T (a) T (a) + dist(a, End) ≤ T (End)
Préonditions :lesupport
a
′d'unepréonditionp
dea
doitpréédera
d'unequantité quidépendde
δ(a
′, a)
T (a) ≥ min
a′∈[D(S(p,a)]
(T (a
′) + δ(a
′, a)) T (a
′) + δ(a
′, a) > T (a) → S(p, a) 6= a
′Contraintes de liens ausaux : pour tout
a ∈ O
,p ∈ pre(a)
eta
′ qui e-retirep
,a
′ préèdeS (p, a)
ousuita
T (a
′)+dur(a
′)+ min
a′′∈D[S(p,a)]
dist(a
′, a
′′) ≤ T (p, a)
∨ T (a) + δ(a, a
′) ≤ T (a
′)
Contraintes de mutex : pour deux ations
eet-interférentes
a
eta
′1T (a) + δ(a, a
′) ≤ T(a
′) ∨ T (a
′) + δ(a
′, a) ≤ T (a)
Contraintesdesupport:
T (p, a)
etS(p, a)
sontreliéespar
S(p, a) = a
′→ T(p, a) = T (a
′) T (p, a) 6= T (a
′) → S(p, a) 6= a
′min
a′∈D[S(p,a)]
T (a
′) ≤ T (p, a) ≤ max
a′∈D[S(p,a)]
T (a
′)
1
Deuxationssonteet-interférentesdansptquandl'une
retireunajoutdel'autre,etauunenee-retireunepréondition
del'autre.
Comme en planiation POCL, le branhement
dans pt fontionne en séletionnant et en réparant
itérativementlesdéfautsd'états nonterminaux
σ
,eneetuantunretourarrièreenasd'inonsistane.Un
état
σ
est dérit parles variables, leursdomaines, etles ontraintes qui les lient. L'état initial
σ
0 ontientlesvariables,lesdomainesetlesontraintesi-dessus,
ainsi que la ontrainte d'horizon
T (End) = B
oùB
est la borne ourante sur le makespan, qui est dans
le as optimal initialiséeàune valeurminimale, puis
inrémentéejusqu'àl'obtentiond'unplan.Unétatest
inonsistantquand unevariablenononditionnellese
trouve ave undomaine vide, tandis qu'un état on-
sistant
σ
sans défaut est un état but duquel unplanvalide
P
deborneB
peutêtreextraitenxantladatededébutdesationsduplanàleurborneinférieure.
Ladénitiondesdéfautsestellequel'onrenontre
enplaniationPOCL,expriméeàl'aidedesvariables
temporelles et des variables de support, ave l'ajout
desmenaesdemutex.
Menaes de Support :
a
′ menae un sup-port
S(p, a)
quand les deux ationsa
eta
′ sontdans le plan partiel ourant,
a
′ e-retirep
, et niT
min(a
′) + dur(a
′) ≤ T
min(p, a)
niT
min(a) + dur(a) ≤ T
min(a
′)
nesontvériées,ConditionsOuvertes:
S(p, a)
estuneonditionouverte quand
|D[S(p, a)]| > 1
est vériée pouruneation
a
duplan,Menae de Mutex :
a
eta
′ onstituent unemenae de mutex quand les deux ations sont
dans le plan, elles sont eet-interférentes, et ni
T
min(a) + dur(a) ≤ T
min(a
′)
niT
min(a
′) + dur(a
′) ≤ T
min(a)
nesontvériées.Les défauts sont séletionnéspourréparationdans
l'ordresuivant:d'abordlesMenaesdeSupport(MS),
puis lesConditionsOuvertes(OC), et enn les Men-
aesdeMutex(MM).LesMSetMMsontréparéesen
introduisant et propageant des ontraintes de préé-
dene,tandis quelesOC sontréparéesenhoisissant
un support, ommeen planiation POCLlassique.
Ontrouveraplusdedétailsdans[26℄.
3 eCPT
pt est unplaniateur temporel optimal ave de
bonnes performanes, ompétitif ave les meilleurs
planiateurs parallèlesbasés sur SAT quand lesa-
tions ont une duréeuniforme. De plus, pour laplan-
iation non optimale, pt possède l'avantage suiv-
ant:latailleduodagen'augmentepasavelaborne.
En eet, la borne dans pt est représentée entière-
ment par la ontrainte