Etat de l'art des stratégies multi-agents de patrouille

(1)

HAL Id: inria-00000219

https://hal.inria.fr/inria-00000219

Submitted on 14 Sep 2005

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

Etat de l’art des stratégies multi-agents de patrouille

Fabrice Lauri

To cite this version:

Fabrice Lauri. Etat de l’art des stratégies multi-agents de patrouille. [Interne] lauri05, 2005, pp.9.

�inria-00000219�

(2)

patrouille

Fabri e Lauri

Rapport interne LORIA -INRIA Lorraine

1 Introdu tion

Selonledi tionnairePetitLarousse, unepatrouilleest"unemissionde

ren-seignements, de surveillan e ou de liaison onée à une formation militaire

(aérienne, terrestreou navale) ou poli ière ;désigne également la formation

elle-même ".

Selon le di tionnaire Oxford, "patrolling is the a tof walking or travelling

aroundanarea, at regularinterval, inorder to prote t or to superviseit.".

Unepatrouille onsistedon àvisiteràintervallerégulierleslieuxstratégiques

d'unerégion,dansle but:

•

de olle terdesrenseignementsables,régulièrement misàjour parla patrouille,

•

delasurveiller en vuede ladéfendre ontre uneinvasion ennemie,

•

oudefairetransiterdesinformationsentreplusieurslieuxd'unerégion. Patrouillere a ementdansunenvironnement,éventuellementdynamique

etbruité,né essiteque:

•

ledélai entre deuxvisites d'unmême lieusoit minimal,

•

dansle asd'unemissionde surveillan e,lesmembresd'unepatrouille doivent suivre de préféren e des traje toires non prédi tibles par des

agentsdésirant s'inltrer danslazonepatrouillée.

Lesstratégiesde patrouilles'adressent àtousles domainesdanslesquels

une surveillan e ou un ontrle distribué est requis. En parti ulier, elles

(3)

•

aiderles administrateurs àsurveiller unréseau ontretoute attaque,

•

êtreutiliséespardesmoteursdere her hepourindexerlespagesWeb nouvellement rééesou elles ré emment modiées,

•

être employées par des personnages non joueurs (PNJ) dans des jeux vidéos,

•

permettre à un groupe de robots d'explorer puis de surveiller ontin-uellement leur environnement

2 Etat de l'Art

2.1 Cadre mathématique

L'ensemble destravauxportant surles stratégies de patrouilledansles

sys-tèmes multi-agents [1, 2, 3 , 4 , 7, 8, 9℄ onsidèrent que l'environnement à

patrouiller est onnu, bidimensionnel et qu'il peut être réduit à un graphe

G(V, E)

.

V

= {v

1 , v

2 ,

· · · , v

N

}

représente l'ensemble des

N

positions

(x, y)

à visiter dansl'environnement.

E

= {e

ij

}

est l'ensemble des

K

ar s valués

e

i

j

reliant deux positions

v

i

et

v

j

, tels que

e

ij

= (v

i

, v

j

, c

ij

)

, une valuation

c

ij

représentant par exemple ladistan eentre lespositions

v

i

et

v

j

.

Supposonsquel'ondisposede

R

agentspour patrouillerlegraphe

G

. Le problème de la patrouille peut être envisagé selon deux points de vue. Le

premier[1,2,3,4,7 ,8,9℄ onsidèrequelesagentssontrépartissurlesn÷uds

du graphe et qu'ils doivent les par ourir ontinuellement de telle sorte que

le délai entre deux visites pour ha un des n÷uds du graphe soit minimal.

Lese ondpointdevue[11 ,12℄ onsidèrequelesagentssontdisposéssurles

ar s du graphe, le but étant alors de traverser les ar sdu graphe selon une

fréquen equasi-uniforme.

Plusieurs ritères peuvent être utilisés an d'évaluer la qualité d'une

stratégie de patrouille. En onsidérant que les agents sont situés sur les

n÷uds, les ritères suivants devront être al ulés au niveau d'un n÷ud ou

auniveau dugraphe :

•

Critèresrelatifs à l'Idleness(oisiveté):

Instantaneous Node Idleness (INI) :nombre de pas de temps où

unn÷udestresté non visité

InstantaneousGraphIdleness(IGI):moyenne del'Instantaneous

(4)

Average Graph Idleness (AvgI) : moyenne des IGI sur n pas de

temps

WorstIdleness(WI) :plusgrandeINI apparuependant lesnpas

detemps de lasimulation

•

Exploration Time (ET) : nombre de pas de temps né essaires aux

agentspour visiter aumoinsune fois tousles n÷udsdu graphe

Dansle asoùl'on onsidèrequelesagentssont disposéssurlesar s,les

ritères suivantspourront alors être utilisés:

•

Cover Time (CT) : nombre de pas de temps né essaires aux agents

pour visiter au moins une fois tous les ar s du graphe ( orrespond à

l'ExplorationTimedéni i-dessusmaisà proposdes ar s)

•

Blanket Time (BT) : instant où le ratio entre le nombre de visites entre n'importe lesquels des ouples d'ar s est inférieur ou égal à 2.

BT appré ie don le ara tère d'uniformité fréquentielle de par ours

desar s.

2.2 Travaux antérieurs

Chevaleyre [3,4℄ onsidère leproblèmede lapatrouille ommeun problème

d'optimisation ombinatoireets'appuiedon surles onnaissan esthéoriques

a umulées danslesdomainesdelare her he opérationnelleet delathéorie

desgraphes. Il adonné lespreuvesmathématiques,d'unepart, quele

prob-lèmedelapatrouilleave unseulagentestéquivalentàune ertainevariante

du problème du voyageur de ommer e (graph-TSP), d'autre part, que e

problème pouvait alors être résolu ave un des algorithmes permettant de

déterminer une solution d'une instan e du problème du voyageur de

om-mer e (Travelling Salesman Problem). Pour le problème multi-agent de

la patrouille, Chevaleyre a réalisé une étude formelle sur plusieurs

straté-gies possibles de patrouille. Il a entre autres montré qu'en utilisant une "

stratégieà y leunique 1

",le ritère(WIouAvgI)àminimiserestbornépar

3*opt+4*maxij ij. Sur desgraphes omportant d'importantes variations de

valuationsdesar s, etteappro hepeutdon s'avérermoinsintéressante. En

1

Unestratégiemulti-agentestditeà y leuniquesitouslesagentspar ourentlemême

y ledanslemêmesensetqu'à haqueinstantiln'yapasdeuxagentsquisoientsurle

(5)

utilisantune"stratégierégionalisée 2

",leproblèmedevient15-approximable.

Dans[8,7℄,lesauteursontétudiéseptar hite turespossiblesdotant

ha- undesagentsd'ungroupedestinéàréaliserdestâ hesdepatrouille. Quatre

paramètres entrant enjeu dansl'ar hite ture d'unagentfurent explorés: le

type d'agent (réa tif ou ognitif), le type de ommuni ation (au une, par

marques, via un tableau noir ou par messages), la stratégie pour hoisir le

pro hain n÷ud à visiter et enn la stratégie de oordination (émergent ou

entrale). A proposdu hoixdupro hainn÷ud,deuxaspe ts furentprisen

ompte : letype du hamps de vision de l'agent (soitlo al, 'est-à-dire que

lepro hainn÷udestadja entaun÷ud ourant;soitglobal, 'est-à-direque

l'agentperçoittoutlegraphe)etl'heuristiquededé ision: ave l'heuristique

baséesur l'Idlenessindividuelle, l'agent ne onsidère que sespropres visites

tandis qu'ave l'heuristique basée sur l'Idleness partagée, l'agent prend en

ompteledépla ementdesautresagents. Sixstratégiesde hoixdupro hain

n÷udontainsiété onsidérées: LR(lo allyrandom),LII(lo allyindividual

idleness),LSI(lo allyshared idleness),GR(globallyrandom),GII(globally

individualidleness)etGSI(globally sharedidleness).

Dans et arti le,seul des graphes omportant des ar sde longueur unitaire

furent onsidérés. Par ailleurs, pour hoisir le pro hain n÷ud à visiter, un

agent ne prend en ompte que le nombre d'ar s le séparant du pro hain

n÷ud envisagé. L'Idleness instantanée des n÷uds voisins n'est don pas

utiliséedanslaprise de dé isiond'unagent.

Par rapport à [8 , 7℄, les agents dans [1℄ sont pourvusd'une heuristique

qui leur permet de prendre en ompte la distan e etl'Idleness du pro hain

n÷ud. L'heuristique permet ainsi d'éviter de séle tionner omme pro hain

n÷udunn÷ud quia l'Idlenesslaplus grandeetquise situeà une distan e

importante dun÷udoù sesitue a tuellement un agent.

Almeida etal. ont amélioré l'ar hite ture desagents de [8 , 7℄en

on e-vantdans[2℄desagents apablesde ommuniqueràl'aidedemessagesetde

s'entendremutuellementsurle hoixdupro hainn÷udàvisiter. Cesagents

peuventnégo ier,àl'aided'unsystèmed'en hères[5 ℄quipermet defa iliter

l'entente mutuelle [6℄. A l'instant initial, haque agent reçoitaléatoirement

lesn÷udsqu'ildoitvisiter. Toutaulongdelapatrouille, haqueagenttente

alorsde se onstituer unensemblede n÷udspro heslesuns desautres,an

2

Unestratégie multi-agentrégionalisée onsidèreque legrapheestpartitionnéen

(6)

de minimiser le délai entre deux visites. Lorsqu'un agent reçoit un n÷ud

qu'il estimene paspouvoir visiterdansun temps raisonnable, ilinitie alors

une en hère : il devient demandeur. Les autres agents (alors potentiel

of-freur)vérient dansleur ensemble den÷uds s'ilexiste un n÷udéloignédes

autres qu'ilspourraient éventuellement é hanger ave elui qui estproposé.

Si un tel n÷ud est trouvé, l'agent orrespondant fait alors une ore. Une

foistouteslesoresdéposées,ledemandeur les onsulte, hoisit ellequiest

laplusintéressantepour lui et on lut l'aaireave l'oreur.

Dans [9 ℄, Santana et al. ont développé des agents adaptatifs apables

d'apprendre à patrouiller dans un environnement à l'aide de te hniques

is-suesdudomainede l'apprentissagepar renfor ement (Reinfor ement

Learn-ingou RL).Pour ela,lesauteursonttransposéleproblèmedelapatrouille

dansleformalismedesPro essusDé isionnelsdeMarkov(MDP). Unespa e

d'a tions et un espa e d'états furent dénis individuellement pour haque

agent etdes modèles de ré ompense instantanée (modèle d'utilité selshet

modèle d'utilité wonderful life) menant à des performan es satisfaisantes

àlong termefurent développés. L'algorithme Q-Learning [10 ℄fut enn

em-ployépourréaliserl'apprentissageindividuelde haqueagent. Deux

ar hite -tures ont été onsidérées : l'ar hite ture Bla k-BoxLearner Agent (BBLA)

etl'ar hite tureGray-BoxLearnerAgent(GBLA).Lesagentsdelapremière

ar hite turene ommuniquentpasexpli itemententreeuxtandisquedansla

deuxième ar hite ture, les agents peuvent ommuniquer leurs intentions au

sujetdeleursfuturesa tions. Pour esdeuxar hite tures,l'espa ed'a tions

desagentsest onstituéd'unnombred'a tionségalaudegrédugraphe. Pour

l'ar hite ture BBLA,l'espa e d'étatsde haqueagent estreprésentépar :

1) len÷udoù l'agent sesitue,

2) l'ar d'oùl'agent vient,

3) len÷udvoisinqui possède l'Idlenessla plusgrande,

4) len÷udvoisinqui possède l'Idlenessla pluspetite

Pour l'ar hite ture GBLA,l'espa e d'étatsest onstitué enplus :

5) desn÷uds voisinsdestinés àêtre visitéspar les autres agents

L'espa e d'états ainsi déni répertorie environ 10000 et 200000 états

(7)

GBLA.

Wagneretal. [11,12 ℄utilisentdesalgorithmesinspirésdu omportement

des fourmis lorsqu'elles explorent un environnement. Dans [12 ℄, les agents

par ourent legraphedesommeten sommet,endéposant et"reniant "des

phéromonesdéposées surlesn÷uds. Chaquen÷ududugraphe omportele

oupledevaleurs(su,tu),où suindiquelenombredemarques déposées (en

d'autrestermes,lenombredefoisoù en÷udaétévisité)ettuestletemps

où laplus ré entemarque a été déposée. Initialement, tous les n÷uds sont

initialisésave le ouple (0,0). Supposonsmaintenant qu'unagent setrouve

sur lesommet u à l'instant t. Pour déterminer vers quel sommet il doit se

diriger, l'agent séle tionne parmi tous les sommets voisins de u elui qui a

le ouple de valeursle plus petit. Notons v e sommet. Avant de se diriger

vers v, l'agent met à jour s(u) = s(v)+1 et t(u) = t et t est in rémenté.

Cetterègleestrépétéepour haqueagentindéniment. Dans[11℄,lesagents

par ourent legraphed'ar enar enutilisantégalementdesphéromonesan

deles guider danslegraphe.

2.3 Résultats théoriques ou expérimentaux

[2 ℄présenteuneétudeexpérimentaledeplusieursstratégiesdepatrouille. Les

auteursont omparé septdeste hniquesde patrouilleles plusperformantes

qu'ilsont développé dansleurs équipes,à savoir:

•

Cons entious Rea tive (CR) etCognitive Coordinated (CC)[8, 7℄,

•

Heuristi Pathnder Cognitive Coordinated (HPCC) [1℄,

•

lastratégie à y le unique(Single Cy leou SC) [3,4℄,

•

Gray-Box LearnerAgent (GBLA) ave lemodèle d'utilitéselsh[9℄,

•

Heuristi PathnderTwo-shotsBidder(HPTB)etHeuristi Pathnder

MediatedTradeBidder(HPMB) [2℄.

La omparaison de esstratégiesaportésurle ritère WI.Chaque

te h-niquefûtévaluéesursix artes( arteAetButiliséesdans[1,2,3,4,7,8,9℄,

arteave unitinéraire ir ulaire, arteave un ouloir, arteave desîleset

arte représentant une grille de nuds), en utilisant 15000 pasde temps et

unepopulationde5oude15agents. Chaqueexpérien e( arte+ar hite ture)

(8)

l'instant initial,len÷udde départvariant pour ha unedes10 expérien es.

Les résultatsmontrent que SCobtient les meilleurs résultats(plus petit

WI) pour toutes les artes, saufpour la arte ave les îleset 15 agents. A

l'autreextrême, esontleste hniquesCRetCCquiobtiennentlesplus

mau-vaisrésultats. Pour toutesles artesetpour5agents,HPCCetGBLA

don-nent les deuxièmesmeilleures performan es. Pour 15 agents etpour toutes

les artes, HPCC, HPTB et GBLA fournissent des performan es

équiva-lentes.

Dans[11 ,12℄,Wagneretal. montrentqueVAWetEAWsont apablesde

ouvrirunenvironnement en,auplus, n*detp*n2/kétapesrespe tivement,

n étant le nombre de sommets du graphe, d son diamètre

3

, p le degré du

grapheetklenombre d'agentsde patrouille.

2.4 Limites des appro hes

SCestune stratégiede patrouille entralisé, prédénieetxeetentant que

telle,elleserasus eptiblederen ontrerdesproblèmeslorsquel'environnement

est dynamique, qu'il omporte plusieurs milliers de n÷uds (en raison de la

omplexitédeTSP)etlorsquelatâ hedepatrouilledevraprendreen ompte

desrégionsayant des prioritésdiérentes.

HPCCestplusadaptivequeSC,maisellené essiteunparamétragepour

haque situation (topologie de la arte et nombre d'agents), an d'aner

l'importan e relative de ladistan e surl'Idleness lors du hoix du pro hain

n÷ud. CommeSC,HPCCrisqueégalementdedemanderune hargepro esseur

importante dansle asdegraphesdegrandetailleenraisondela omplexité

del'algorithme de pathnding.

GBLA montre une très bonne apa ité d'adaptation, même lorsque la

populations'a roît. Parailleurs 'estlaseulear hite turequiutilise

unique-ment des informations lo ales. Néanmoins, le temps né essaire à la phase

d'apprentissagedesparamètres(del'ordred'unedizainedemillionsd'itérations)

peutlarendre prohibitive dansle as degraphes de grandetaille.

HPTB etHPMPnefournissent pasd'aussi bonnesperforman esqueles

troisar hite tures pré itées, maisellesne sourent pasde leurslimitations.

3

Lediamètred'ungraphe

G

,noté

diam

(G)

,estladistan emaximaleren ontréedans

G

entredeux ouplesdesommets.

(9)

EAWetVAWsontdeste hniquestrèsé onomiquesentermede

omplex-ité algorithmique et de pla e mémoire. Ce sont des te hniques totalement

distribuées,danslesensoùlemême omportementdepatrouilleestappliqué

à haque agent. Par ailleurs, haque agent utilise uniquement des

informa-tions lo ales etla ommuni ation entreagents, stigmergique, estminimale.

Referen es

[1℄ A. Almeida. Patrulhamento Multi-Agente em Grafos om Pesos. In

MS . Dissertation, Universidade Federal de Pernambu o, 2003.

[2℄ A. Almeida, G. Ramalho, and al. Re ent Advan es on Multi-Agent

Patrolling. In 17th BrazilianSymposium on AI,2004.

[3℄ Y.Chevaleyre. ThePatrollingProblem.InInternalReportofUniversity

Paris 9,2003.

[4℄ Y.Chevaleyre. Theoreti alAnalysisoftheMulti-AgentPatrolling

Prob-lem. InInternationalJoint Conferen e onIntelligentAgent Te hnology,

2004.

[5℄ P. Faratin, C. Sierra, and N.R. Jennings. Using Similarity Criteria to

Make Issue Trade-Os inAutomated Nego iations. In Arti ial

Intel-ligen e Journal, volume 2,pages 205237, 2002.

[6℄ P.Faratin, C.Sierra, and al. Nego iations De isions Fun tionsfor

Au-tonomousAgents.InInternationalJournalofRoboti sandAutonomous

Systems, volume 24,pages159182, 1998.

[7℄ A. Ma hado, A. Almeida, and al. Multi-Agent Movement

Coordina-tioninPatrolling. InThirdInternational Conferen e on Computer and

Game, 2002.

[8℄ A. Ma hado, G. Ramalho, andal. Multi-Agent Patrolling : an

Empir-i al Analysis of Alternatives Ar hite tures. In Pro eedings of the 3rd

International Workshop on Multi-Agent Based Simulation,2002.

[9℄ H.Santana,G.Ramalho,andal.Multi-AgentPatrollingwith

Reinfor e-ment Learning. In Pro eedings of the 3rd International Joint

Confer-en eonAutonomousAgentsandMulti-AgentSystems,pages11221129,

(10)

[10℄ R. Sutton and A. Barto. Reinfor ement Learning : An Introdu tion.

Cambridge,MA,1998.

[11℄ I.A. Wagnerand al. E iently Sear hing aGraph byaSmell-Oriented

Vertex Pro ess. In Ameri an Asso iation for Arti ial Intelligen e,

1997.

[12℄ V. Yanowski, I.A. Wagner, and al. A Distributed Ant Algorithm for

E iently Patrolling a Network. In Algorithmi a, volume 37, pages