HAL Id: inria-00000219
https://hal.inria.fr/inria-00000219
Submitted on 14 Sep 2005
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
Etat de l’art des stratégies multi-agents de patrouille
Fabrice Lauri
To cite this version:
Fabrice Lauri. Etat de l’art des stratégies multi-agents de patrouille. [Interne] lauri05, 2005, pp.9.
�inria-00000219�
patrouille
Fabri e Lauri
Rapport interne LORIA -INRIA Lorraine
1 Introdu tion
Selonledi tionnairePetitLarousse, unepatrouilleest"unemissionde
ren-seignements, de surveillan e ou de liaison onée à une formation militaire
(aérienne, terrestreou navale) ou poli ière ;désigne également la formation
elle-même ".
Selon le di tionnaire Oxford, "patrolling is the a tof walking or travelling
aroundanarea, at regularinterval, inorder to prote t or to superviseit.".
Unepatrouille onsistedon àvisiteràintervallerégulierleslieuxstratégiques
d'unerégion,dansle but:
•
de olle terdesrenseignementsables,régulièrement misàjour parla patrouille,•
delasurveiller en vuede ladéfendre ontre uneinvasion ennemie,•
oudefairetransiterdesinformationsentreplusieurslieuxd'unerégion. Patrouillere a ementdansunenvironnement,éventuellementdynamiqueetbruité,né essiteque:
•
ledélai entre deuxvisites d'unmême lieusoit minimal,•
dansle asd'unemissionde surveillan e,lesmembresd'unepatrouille doivent suivre de préféren e des traje toires non prédi tibles par desagentsdésirant s'inltrer danslazonepatrouillée.
Lesstratégiesde patrouilles'adressent àtousles domainesdanslesquels
une surveillan e ou un ontrle distribué est requis. En parti ulier, elles
•
aiderles administrateurs àsurveiller unréseau ontretoute attaque,•
êtreutiliséespardesmoteursdere her hepourindexerlespagesWeb nouvellement rééesou elles ré emment modiées,•
être employées par des personnages non joueurs (PNJ) dans des jeux vidéos,•
permettre à un groupe de robots d'explorer puis de surveiller ontin-uellement leur environnement2 Etat de l'Art
2.1 Cadre mathématique
L'ensemble destravauxportant surles stratégies de patrouilledansles
sys-tèmes multi-agents [1, 2, 3 , 4 , 7, 8, 9℄ onsidèrent que l'environnement à
patrouiller est onnu, bidimensionnel et qu'il peut être réduit à un graphe
G(V, E)
.V
= {v
1
, v
2
,
· · · , v
N
}
représente l'ensemble desN
positions(x, y)
à visiter dansl'environnement.E
= {e
ij
}
est l'ensemble desK
ar s valuése
i
j
reliant deux positionsv
i
etv
j
, tels quee
ij
= (v
i
, v
j
, c
ij
)
, une valuationc
ij
représentant par exemple ladistan eentre lespositionsv
i
etv
j
.Supposonsquel'ondisposede
R
agentspour patrouillerlegrapheG
. Le problème de la patrouille peut être envisagé selon deux points de vue. Lepremier[1,2,3,4,7 ,8,9℄ onsidèrequelesagentssontrépartissurlesn÷uds
du graphe et qu'ils doivent les par ourir ontinuellement de telle sorte que
le délai entre deux visites pour ha un des n÷uds du graphe soit minimal.
Lese ondpointdevue[11 ,12℄ onsidèrequelesagentssontdisposéssurles
ar s du graphe, le but étant alors de traverser les ar sdu graphe selon une
fréquen equasi-uniforme.
Plusieurs ritères peuvent être utilisés an d'évaluer la qualité d'une
stratégie de patrouille. En onsidérant que les agents sont situés sur les
n÷uds, les ritères suivants devront être al ulés au niveau d'un n÷ud ou
auniveau dugraphe :
•
Critèresrelatifs à l'Idleness(oisiveté):Instantaneous Node Idleness (INI) :nombre de pas de temps où
unn÷udestresté non visité
InstantaneousGraphIdleness(IGI):moyenne del'Instantaneous
Average Graph Idleness (AvgI) : moyenne des IGI sur n pas de
temps
WorstIdleness(WI) :plusgrandeINI apparuependant lesnpas
detemps de lasimulation
•
Exploration Time (ET) : nombre de pas de temps né essaires auxagentspour visiter aumoinsune fois tousles n÷udsdu graphe
Dansle asoùl'on onsidèrequelesagentssont disposéssurlesar s,les
ritères suivantspourront alors être utilisés:
•
Cover Time (CT) : nombre de pas de temps né essaires aux agentspour visiter au moins une fois tous les ar s du graphe ( orrespond à
l'ExplorationTimedéni i-dessusmaisà proposdes ar s)
•
Blanket Time (BT) : instant où le ratio entre le nombre de visites entre n'importe lesquels des ouples d'ar s est inférieur ou égal à 2.BT appré ie don le ara tère d'uniformité fréquentielle de par ours
desar s.
2.2 Travaux antérieurs
Chevaleyre [3,4℄ onsidère leproblèmede lapatrouille ommeun problème
d'optimisation ombinatoireets'appuiedon surles onnaissan esthéoriques
a umulées danslesdomainesdelare her he opérationnelleet delathéorie
desgraphes. Il adonné lespreuvesmathématiques,d'unepart, quele
prob-lèmedelapatrouilleave unseulagentestéquivalentàune ertainevariante
du problème du voyageur de ommer e (graph-TSP), d'autre part, que e
problème pouvait alors être résolu ave un des algorithmes permettant de
déterminer une solution d'une instan e du problème du voyageur de
om-mer e (Travelling Salesman Problem). Pour le problème multi-agent de
la patrouille, Chevaleyre a réalisé une étude formelle sur plusieurs
straté-gies possibles de patrouille. Il a entre autres montré qu'en utilisant une "
stratégieà y leunique 1
",le ritère(WIouAvgI)àminimiserestbornépar
3*opt+4*maxij ij. Sur desgraphes omportant d'importantes variations de
valuationsdesar s, etteappro hepeutdon s'avérermoinsintéressante. En
1
Unestratégiemulti-agentestditeà y leuniquesitouslesagentspar ourentlemême
y ledanslemêmesensetqu'à haqueinstantiln'yapasdeuxagentsquisoientsurle
utilisantune"stratégierégionalisée 2
",leproblèmedevient15-approximable.
Dans[8,7℄,lesauteursontétudiéseptar hite turespossiblesdotant
ha- undesagentsd'ungroupedestinéàréaliserdestâ hesdepatrouille. Quatre
paramètres entrant enjeu dansl'ar hite ture d'unagentfurent explorés: le
type d'agent (réa tif ou ognitif), le type de ommuni ation (au une, par
marques, via un tableau noir ou par messages), la stratégie pour hoisir le
pro hain n÷ud à visiter et enn la stratégie de oordination (émergent ou
entrale). A proposdu hoixdupro hainn÷ud,deuxaspe ts furentprisen
ompte : letype du hamps de vision de l'agent (soitlo al, 'est-à-dire que
lepro hainn÷udestadja entaun÷ud ourant;soitglobal, 'est-à-direque
l'agentperçoittoutlegraphe)etl'heuristiquededé ision: ave l'heuristique
baséesur l'Idlenessindividuelle, l'agent ne onsidère que sespropres visites
tandis qu'ave l'heuristique basée sur l'Idleness partagée, l'agent prend en
ompteledépla ementdesautresagents. Sixstratégiesde hoixdupro hain
n÷udontainsiété onsidérées: LR(lo allyrandom),LII(lo allyindividual
idleness),LSI(lo allyshared idleness),GR(globallyrandom),GII(globally
individualidleness)etGSI(globally sharedidleness).
Dans et arti le,seul des graphes omportant des ar sde longueur unitaire
furent onsidérés. Par ailleurs, pour hoisir le pro hain n÷ud à visiter, un
agent ne prend en ompte que le nombre d'ar s le séparant du pro hain
n÷ud envisagé. L'Idleness instantanée des n÷uds voisins n'est don pas
utiliséedanslaprise de dé isiond'unagent.
Par rapport à [8 , 7℄, les agents dans [1℄ sont pourvusd'une heuristique
qui leur permet de prendre en ompte la distan e etl'Idleness du pro hain
n÷ud. L'heuristique permet ainsi d'éviter de séle tionner omme pro hain
n÷udunn÷ud quia l'Idlenesslaplus grandeetquise situeà une distan e
importante dun÷udoù sesitue a tuellement un agent.
Almeida etal. ont amélioré l'ar hite ture desagents de [8 , 7℄en
on e-vantdans[2℄desagents apablesde ommuniqueràl'aidedemessagesetde
s'entendremutuellementsurle hoixdupro hainn÷udàvisiter. Cesagents
peuventnégo ier,àl'aided'unsystèmed'en hères[5 ℄quipermet defa iliter
l'entente mutuelle [6℄. A l'instant initial, haque agent reçoitaléatoirement
lesn÷udsqu'ildoitvisiter. Toutaulongdelapatrouille, haqueagenttente
alorsde se onstituer unensemblede n÷udspro heslesuns desautres,an
2
Unestratégie multi-agentrégionalisée onsidèreque legrapheestpartitionnéen
de minimiser le délai entre deux visites. Lorsqu'un agent reçoit un n÷ud
qu'il estimene paspouvoir visiterdansun temps raisonnable, ilinitie alors
une en hère : il devient demandeur. Les autres agents (alors potentiel
of-freur)vérient dansleur ensemble den÷uds s'ilexiste un n÷udéloignédes
autres qu'ilspourraient éventuellement é hanger ave elui qui estproposé.
Si un tel n÷ud est trouvé, l'agent orrespondant fait alors une ore. Une
foistouteslesoresdéposées,ledemandeur les onsulte, hoisit ellequiest
laplusintéressantepour lui et on lut l'aaireave l'oreur.
Dans [9 ℄, Santana et al. ont développé des agents adaptatifs apables
d'apprendre à patrouiller dans un environnement à l'aide de te hniques
is-suesdudomainede l'apprentissagepar renfor ement (Reinfor ement
Learn-ingou RL).Pour ela,lesauteursonttransposéleproblèmedelapatrouille
dansleformalismedesPro essusDé isionnelsdeMarkov(MDP). Unespa e
d'a tions et un espa e d'états furent dénis individuellement pour haque
agent etdes modèles de ré ompense instantanée (modèle d'utilité selshet
modèle d'utilité wonderful life) menant à des performan es satisfaisantes
àlong termefurent développés. L'algorithme Q-Learning [10 ℄fut enn
em-ployépourréaliserl'apprentissageindividuelde haqueagent. Deux
ar hite -tures ont été onsidérées : l'ar hite ture Bla k-BoxLearner Agent (BBLA)
etl'ar hite tureGray-BoxLearnerAgent(GBLA).Lesagentsdelapremière
ar hite turene ommuniquentpasexpli itemententreeuxtandisquedansla
deuxième ar hite ture, les agents peuvent ommuniquer leurs intentions au
sujetdeleursfuturesa tions. Pour esdeuxar hite tures,l'espa ed'a tions
desagentsest onstituéd'unnombred'a tionségalaudegrédugraphe. Pour
l'ar hite ture BBLA,l'espa e d'étatsde haqueagent estreprésentépar :
1) len÷udoù l'agent sesitue,
2) l'ar d'oùl'agent vient,
3) len÷udvoisinqui possède l'Idlenessla plusgrande,
4) len÷udvoisinqui possède l'Idlenessla pluspetite
Pour l'ar hite ture GBLA,l'espa e d'étatsest onstitué enplus :
5) desn÷uds voisinsdestinés àêtre visitéspar les autres agents
L'espa e d'états ainsi déni répertorie environ 10000 et 200000 états
GBLA.
Wagneretal. [11,12 ℄utilisentdesalgorithmesinspirésdu omportement
des fourmis lorsqu'elles explorent un environnement. Dans [12 ℄, les agents
par ourent legraphedesommeten sommet,endéposant et"reniant "des
phéromonesdéposées surlesn÷uds. Chaquen÷ududugraphe omportele
oupledevaleurs(su,tu),où suindiquelenombredemarques déposées (en
d'autrestermes,lenombredefoisoù en÷udaétévisité)ettuestletemps
où laplus ré entemarque a été déposée. Initialement, tous les n÷uds sont
initialisésave le ouple (0,0). Supposonsmaintenant qu'unagent setrouve
sur lesommet u à l'instant t. Pour déterminer vers quel sommet il doit se
diriger, l'agent séle tionne parmi tous les sommets voisins de u elui qui a
le ouple de valeursle plus petit. Notons v e sommet. Avant de se diriger
vers v, l'agent met à jour s(u) = s(v)+1 et t(u) = t et t est in rémenté.
Cetterègleestrépétéepour haqueagentindéniment. Dans[11℄,lesagents
par ourent legraphed'ar enar enutilisantégalementdesphéromonesan
deles guider danslegraphe.
2.3 Résultats théoriques ou expérimentaux
[2 ℄présenteuneétudeexpérimentaledeplusieursstratégiesdepatrouille. Les
auteursont omparé septdeste hniquesde patrouilleles plusperformantes
qu'ilsont développé dansleurs équipes,à savoir:
•
Cons entious Rea tive (CR) etCognitive Coordinated (CC)[8, 7℄,•
Heuristi Pathnder Cognitive Coordinated (HPCC) [1℄,•
lastratégie à y le unique(Single Cy leou SC) [3,4℄,•
Gray-Box LearnerAgent (GBLA) ave lemodèle d'utilitéselsh[9℄,•
Heuristi PathnderTwo-shotsBidder(HPTB)etHeuristi PathnderMediatedTradeBidder(HPMB) [2℄.
La omparaison de esstratégiesaportésurle ritère WI.Chaque
te h-niquefûtévaluéesursix artes( arteAetButiliséesdans[1,2,3,4,7,8,9℄,
arteave unitinéraire ir ulaire, arteave un ouloir, arteave desîleset
arte représentant une grille de nuds), en utilisant 15000 pasde temps et
unepopulationde5oude15agents. Chaqueexpérien e( arte+ar hite ture)
l'instant initial,len÷udde départvariant pour ha unedes10 expérien es.
Les résultatsmontrent que SCobtient les meilleurs résultats(plus petit
WI) pour toutes les artes, saufpour la arte ave les îleset 15 agents. A
l'autreextrême, esontleste hniquesCRetCCquiobtiennentlesplus
mau-vaisrésultats. Pour toutesles artesetpour5agents,HPCCetGBLA
don-nent les deuxièmesmeilleures performan es. Pour 15 agents etpour toutes
les artes, HPCC, HPTB et GBLA fournissent des performan es
équiva-lentes.
Dans[11 ,12℄,Wagneretal. montrentqueVAWetEAWsont apablesde
ouvrirunenvironnement en,auplus, n*detp*n2/kétapesrespe tivement,
n étant le nombre de sommets du graphe, d son diamètre
3
, p le degré du
grapheetklenombre d'agentsde patrouille.
2.4 Limites des appro hes
SCestune stratégiede patrouille entralisé, prédénieetxeetentant que
telle,elleserasus eptiblederen ontrerdesproblèmeslorsquel'environnement
est dynamique, qu'il omporte plusieurs milliers de n÷uds (en raison de la
omplexitédeTSP)etlorsquelatâ hedepatrouilledevraprendreen ompte
desrégionsayant des prioritésdiérentes.
HPCCestplusadaptivequeSC,maisellené essiteunparamétragepour
haque situation (topologie de la arte et nombre d'agents), an d'aner
l'importan e relative de ladistan e surl'Idleness lors du hoix du pro hain
n÷ud. CommeSC,HPCCrisqueégalementdedemanderune hargepro esseur
importante dansle asdegraphesdegrandetailleenraisondela omplexité
del'algorithme de pathnding.
GBLA montre une très bonne apa ité d'adaptation, même lorsque la
populations'a roît. Parailleurs 'estlaseulear hite turequiutilise
unique-ment des informations lo ales. Néanmoins, le temps né essaire à la phase
d'apprentissagedesparamètres(del'ordred'unedizainedemillionsd'itérations)
peutlarendre prohibitive dansle as degraphes de grandetaille.
HPTB etHPMPnefournissent pasd'aussi bonnesperforman esqueles
troisar hite tures pré itées, maisellesne sourent pasde leurslimitations.
3
Lediamètred'ungraphe
G
,notédiam
(G)
,estladistan emaximaleren ontréedansG
entredeux ouplesdesommets.EAWetVAWsontdeste hniquestrèsé onomiquesentermede
omplex-ité algorithmique et de pla e mémoire. Ce sont des te hniques totalement
distribuées,danslesensoùlemême omportementdepatrouilleestappliqué
à haque agent. Par ailleurs, haque agent utilise uniquement des
informa-tions lo ales etla ommuni ation entreagents, stigmergique, estminimale.
Referen es
[1℄ A. Almeida. Patrulhamento Multi-Agente em Grafos om Pesos. In
MS . Dissertation, Universidade Federal de Pernambu o, 2003.
[2℄ A. Almeida, G. Ramalho, and al. Re ent Advan es on Multi-Agent
Patrolling. In 17th BrazilianSymposium on AI,2004.
[3℄ Y.Chevaleyre. ThePatrollingProblem.InInternalReportofUniversity
Paris 9,2003.
[4℄ Y.Chevaleyre. Theoreti alAnalysisoftheMulti-AgentPatrolling
Prob-lem. InInternationalJoint Conferen e onIntelligentAgent Te hnology,
2004.
[5℄ P. Faratin, C. Sierra, and N.R. Jennings. Using Similarity Criteria to
Make Issue Trade-Os inAutomated Nego iations. In Arti ial
Intel-ligen e Journal, volume 2,pages 205237, 2002.
[6℄ P.Faratin, C.Sierra, and al. Nego iations De isions Fun tionsfor
Au-tonomousAgents.InInternationalJournalofRoboti sandAutonomous
Systems, volume 24,pages159182, 1998.
[7℄ A. Ma hado, A. Almeida, and al. Multi-Agent Movement
Coordina-tioninPatrolling. InThirdInternational Conferen e on Computer and
Game, 2002.
[8℄ A. Ma hado, G. Ramalho, andal. Multi-Agent Patrolling : an
Empir-i al Analysis of Alternatives Ar hite tures. In Pro eedings of the 3rd
International Workshop on Multi-Agent Based Simulation,2002.
[9℄ H.Santana,G.Ramalho,andal.Multi-AgentPatrollingwith
Reinfor e-ment Learning. In Pro eedings of the 3rd International Joint
Confer-en eonAutonomousAgentsandMulti-AgentSystems,pages11221129,
[10℄ R. Sutton and A. Barto. Reinfor ement Learning : An Introdu tion.
Cambridge,MA,1998.
[11℄ I.A. Wagnerand al. E iently Sear hing aGraph byaSmell-Oriented
Vertex Pro ess. In Ameri an Asso iation for Arti ial Intelligen e,
1997.
[12℄ V. Yanowski, I.A. Wagner, and al. A Distributed Ant Algorithm for
E iently Patrolling a Network. In Algorithmi a, volume 37, pages