Protocoles d'échanges d'hypothèses sous contraintes communicationnelles : application au raisonnement abductif

(1)

Contraintes Communicationnelles :

Application au Raisonnement Abductif

Gauvain Bourgne

LAMSADE, Université Paris-Dauphine Paris 75775 Cedex 16 (France) bourgne@lamsade.dauphine.fr

Résumé : Cet article étudie un système multi-agent où chaque agent a accès à des observations différentes d’un environnement évolutif et forme une hypothèse sur le système à partir de celles-ci pour compenser le caractère partiel de ses perceptions. Chaque agent s’assure que son hypothèse reste en adéquation avec ses connaissances, et communique avec les autres agents pour tenter de raffiner cette hypothèse en la confrontant à d’autres connaissances. Ces communications sont cependant restreintes par des contraintes topologiques et temporelles. Nous présentons dans cet article un protocole bilatéral d’échange d’information qui s’articule avec des protocoles globaux régissant la façon dont les agents initient ces échanges malgré les contraintes communicationnelles. Ce protocole est appli-qué au raffinement d’hypothèses formées par abduction, et expérimenté dans le cadre d’une situation critique où des agents tentent de s’échapper d’un bâtiment en flammes. Nos résultats montrent l’intérêt de cet échange argumentatif dans des situations complexes, pour lesquelles l’observation directe ou le simple échange d’observations ne sont pas suffisants (ou bien trop coûteux). Ils soulignent aussi l’importance de développer pour les agents des heuristiques appropriées afin de choisir les dialogues prioritaires à établir.

Mots-clés : agent, argumentation, construction d’hypothèses, communication, protocoles d’interaction, abduction

1 Introduction

On considère un système multi-agent dans un environnement dynamique où chaque agent ne perçoit que partiellement l’état de l’environnement (par exemple, du fait d’un champ de vision réduit). Chaque agent tente de construire des hypothèses pour ex-pliquer ses observations et en déduire l’état global ou futur de l’environnement. Il est alors naturel de chercher à pallier cette carence d’informations en permettant aux agents de coordonner et raffiner leurs hypothèses par une confrontation aux observations des autres agents. Idéalement, chaque agent échange des informations avec les autres jus-qu’à obtenir une hypothèse qui soit en adéquation avec les observations de chacun des

(2)

autres agents. Si l’on met quelques contraintes sur les communications, en restreignant les interlocuteurs potentiels des agents et le nombre de conversations auxquelles ils peuvent participer dans un laps de temps donné, il devient crucial pour eux de bien choisir leurs interlocuteurs et les informations qu’ils échangent. On proposera donc ici un protocole local, l’échange bilatéral d’hypothèses, basé sur des notions d’argumen-tation, pour choisir les informations à communiquer, ainsi qu’un protocole global pour permettre à l’agent de choisir au mieux ses interlocuteurs. Cet article poursuit les tra-vaux présenté dans [Bourgne et al. (2006)] et [Bourgne et al. (2007a)]. Il présente une version légèrement modifiée du protocole local présenté dans [Bourgne et al. (2006)] et des résultats utilisant une carte spécifique pour mieux mettre en valeur les différences entre les protocoles locaux. Surtout, il propose une étude plus poussée des protocoles globaux.

Le reste de cet article s’organise de la façon suivante : la section 2 présente une for-malisation de notre problème et resitue celui-ci par rapport à d’autres recherches. La section 3 montre ensuite le mécanisme de raisonnement à base d’abduction que nous utilisons dans ce système. La section 4 détaille le module de communication et les protocoles employés pour l’échange d’hypothèses et l’établissement des communica-tions. La section 5 présente nos expérimentations, instanciant le cadre proposé de façon plus explicite. L’exemple retenu est celui d’agents tentant de s’enfuir d’un bâtiment en flammes. Les résultats en terme d’efficience et d’efficacité des protocoles exposés sont alors discutés. Enfin, la section 6 conclut.

2 Formalisation du problème

2.1 Description du système et du problème

On considère un système multi-agent a1, a2, ..., an. Chaque agent ai possède des

connaissances que l’on regroupe en trois catégories :

– un ensemble de faits F , considérés comme certains et non révisables, commun à tous les agents. Il s’agit des connaissances initiales des agents sur le système ; – un ensemble d’observations Oi, contenant toutes les observations qu’il a mémorisé,

qu’il considère comme certaines et donc non révisables. Ses senseurs sont donc supposés parfaits. Cet ensemble représente les connaissances certaines acquises par l’agent sur le système. On note O l’ensemble des observations possibles dans le système. On a donc Oi⊆ O ;

– un ensemble de croyances Bi, contenant les connaissances incertaines de l’agent,

inférées à partir des précédentes à l’aide de raisonnements. Ces inférences, fon-dées sur des observations partielles, peuvent se révéler fausses, et les croyances de l’agents sont donc révisables. Elles peuvent cependant servir aux prises de déci-sions de l’agent.

Parmi les croyances de l’agent, on isole une hypothèse hiqui sous-tend toutes les autres.

Comme les croyances sont incertaines, elles peuvent aboutir à des contradictions. On souhaite donc s’assurer que l’hypothèse hi(et par extension, les croyances Biqui en

sont dérivées) respecte certaines propriétés, dont notamment la cohérence logique avec les connaissances certaines (F et Oi, que l’on regroupe sous la notation Ki). On note

(3)

Cons(Bi, Ki) le fait que Ki et Bi respectent les propriétés désirées. Celles-ci ne se

limitant pas forcément à la cohérence (voir section 3 pour un exemple pratique), on utilisera l’anglicisme consistance pour s’y référer. F étant commun à tous les agents, et Biétant dérivé de hi, on peut introduire F dans la notion de consistance et

simpli-fier l’écriture en Cons(hi, Oi). On définira alors la consistance comme une relation

binaire Cons(h, O) entre une hypothèse et un ensemble d’observation indépendam-ment des agents (ou plus généraleindépendam-ment entre un ensemble de croyances et un ensemble d’informations en la notant Cons(B, K)). Selon l’application, cette consistance pourra prendre différentes formes. Elle peut indiquer l’adéquation d’une hypothèse inductive ou abductive à un ensemble d’observation dans des cas de raisonnements abductifs ou inductifs, la cohérence logique interne d’un ensemble de croyances dans un contexte de révision des croyances, voir même correspondre à l’arc-consistance (voir [Yokoo & Hi-rayama (2000)]) dans un système de satisfaction de contraintes distribuées. On élargit la notion de consistance par les définitions suivantes :

Définition 1 Nous dirons que :

– aiest a-consistant ssi Cons(hi, Oi) ;

– aiest sma-consistant ssi Cons(hi,Sk∈{1,..n}Ok) (on note que cela implique son

a-consistance) ;

– aiet ajsont mutuellement consistants ssi Cons(hi, Oj) et Cons(hj, Oi) ;

– Le système est consistant ssi ∀i ∈ {1, .., n}, ai est sma-consistant. Cela revient

aussi à avoir : ∀(i, j) ∈ {1, .., n}2_{, a}

iet ajsont mutuellement consistants.

Pour assurer son a-consistance, chaque agent est doté d’un mécanisme de raisonne-ment interne abstrait que nous symboliserons par une fonction εhappelée fonction de

formation d’hypothèse. Cette fonction (supposée déterministe) forme une unique hypo-thèse à partir de F et de Oi. F étant commun à tous les agents, on l’intégrera dans la

fonction εhqui prend donc pour seul argument un ensemble d’observations. εh(Oi) est

consistant avec Oipar définition de εh, on utilisera donc cette fonction pour déterminer

l’hypothèse hide l’agent afin d’assurer sa consistance1. On considèrera que hine peut

être modifié qu’à travers l’application de εh. L’agent est alors autonome : aucun autre

agent ne peut lui imposer directement une hypothèse donnée. Par conséquent, seule une nouvelle observation (obtenue par les senseurs ou communiquée par un autre agent) peut provoquer une modification de hi.

Le problème est donc, étant donné ce système d’agents ayant des observations diffé-rentes, de les faire communiquer pour assurer la consistance du système, et ce malgré quelques contraintes sur les communications que nous exposerons ensuite. Pour cela on se propose de permettre aux agents de confronter leurs hypothèses et de s’échan-ger des observations selon un protocole décrit en section 4. L’incertitude portant sur l’hypothèse hiétant due au caractère partiel des observations Oi, cela permettra de la

raffiner.

Notons enfin pour terminer que la formulation présenté ici est volontairement assez générale. Nous montrons dans cet article un exemple d’application au travers d’un cadre

1_{On remarquera cependant qu’une hypothèse peut être consistante avec O}

(4)

de raisonnement abductif, mais les protocoles présentés sont applicables dans d’autres contextes. En particulier, on peut modéliser avec cette formulation des problèmes d’ap-prentissage inductif. La traduction est quasi directe, induction et abduction étant parfois très proches. Nous en resterons dans cet article à une application abductive, mais ce tra-vail a aussi été appliqué à un problème inductif d’apprentissage supervisé, présenté dans [Bourgne et al. (2007b)].

2.2 Contraintes et cadre du problème

On se situe dans le cadre d’un environnement dynamique. Les agents y évoluent pas à pas selon le cycle système suivant :

1. Évolution de l’environnement : celui-ci évolue selon les règles prédéfinies. 2. Étape de perception : Les agents reçoivent leurs observations de l’environnement.

Celle ci sont typiquement partielles (limitées par exemple par un champ de vision réduit), mais certaines (les senseurs sont supposés parfaits).

3. Étape de raisonnement : Les agents comparent leur observations à leur croyances, et calculent une nouvelle hypothèse avec εhsi une inconsistance est révélée. Ils

mettent alors à jour leurs croyances.

4. Étape de communication : Chaque agent peut alors échanger des informations avec un unique autre agent. Un protocole global permet aux agents de choisir avec qui ils vont échanger leurs informations, tandis qu’un protocole local gère l’échange d’informations proprement dit.

5. Étape d’action : Les agents modifient l’environnement en exécutant l’action choi-sie dans les étapes de délibération précédentes.

On a donc une contrainte sur les communications portant sur le nombre et la simul-tanéité des communications : un agent ne peux échanger des informations qu’avec un seul agent par étape de communication. A cela se rajouteront des contraintes cationnelles d’ordre topologique. Durant un cycle donné, un agent ne pourra communi-quer qu’avec un groupe limité d’agents, ses voisins, dont la composition sera variable. Typiquement, un agent ne pourra communiquer qu’avec les agents qu’il peut percevoir, mais on pourrait imaginer des contraintes topologiques évolutives basées sur un réseau de communication entre les agents dont les liens ne seraient pas toujours actifs.

2.3 Problèmes similaires

La recherche de la convergence du système vers un état consistant est un problème classique dont on trouve de nombreuses variations en Intelligence Artificielle Distri-buée. Les types de raisonnement nécessaires pour assurer la consistance interne d’un agent varient, mais il est possible de s’inspirer des mécanismes de communication utili-sés pour propager les informations. Cependant, les contraintes de communications sont souvent faibles, beaucoup d’études autorisant tous les agents à communiquer entre eux, et l’aspect dynamique de l’évolution du système avant d’atteindre sa consistance est rarement étudié.

(5)

Un problème classique de l’IAD est le gossip problem : chaque agent détenant au départ une information distincte (appelée rumeur), le but est de faire en sorte que tous les agents connaissent toutes les rumeurs [Even & Monien (1989)]. Cela a aussi été uti-lisé pour atteindre des consensus [Chlebus & Kowalski (2002)]. Ces approches étudient la façon de propager efficacement des informations dans un système, mais cherchent à propager toutes les informations, alors que notre approche vise à sélectionner les infor-mations critiques pour la consistance du système.

Dans le cadre des diagnostics multi-agents distribués, où des entités distribuées tentent de parvenir à un diagnostic global satisfaisant du système, Roos et ses collègues ont en particulier montré que le nombre de messages nécessaires à l’établissement d’un diagnostic global complet est prohibitif si l’on n’améliore pas les communications avec un protocole adapté [Roos et al. (2004)]. Bien que nos agents tentent aussi de détermi-ner l’état du système à travers des observations partielles réparties, la nature dynamique de notre problème et les contraintes gouvernant les interactions entre nos agents nous empêchent d’appliquer les mêmes méthodes. Le domaine abondamment étudié de la sa-tisfaction de contraintes distribuée (DCSP) propose aussi des mécanismes de recherche de consistance pour les méthodes à base de maintien de l’arc-consistance [Yokoo & Hi-rayama (2000)]. Dans [Jung & Tambe (2001)], des liens sont établis entre l’argumen-tation et la propagation de contraintes. L’idée d’améliorer les communications entre agents en ajoutant des informations supplémentaires sous la forme d’arguments est as-sez présente depuis quelques années dans la communauté multi-agent [Parsons et al. (1998)]. Cependant, bien que cette approche apporte des avantages certains (améliorant l’expressivité ou facilitant les vérifications de pertinence), son efficacité en termes de vitesse et d’impact sur la complétion du but de l’interaction a rarement été testée (à l’exception de travaux comme [Jung & Tambe (2001)] ou [Karunatillake & Jennings (2004)]).

Nous montrons uniquement dans cet article un exemple d’application de ce cadre au raisonnement abductif, mais nous l’avons aussi étudié dans le domaine du raisonnement inductif avec un système d’apprentissage supervisé incrémental multi-agent, SMILE, dont on peut trouver une présentation, interprété en terme de maintien de la consistance, dans [Bourgne et al. (2007b)]. Ce travail se restreint pour l’instant aux cliques d’agents en utilisant un protocole local unilatéral d’échange d’hypothèses itéré. On notera que ce protocole local d’échange unilatéral d’hypothèses, restriction du protocole d’échange bilatéral d’hypothèses présenté ici, est très proches des requêtes d’équivalence utilisées dans [Angluin et al. (1992)], mais ces dernières sont adressées au système plutôt qu’à d’autres agents.

3 Raisonnement des agents

Cette section introduit le formalisme impliqué dans le processus de raisonnement des agents. La situation décrite suggère que les agents soient capables de gérer des perceptions partielles du monde, de construire des hypothèses à partir des observations qu’ils font, de tirer des conclusions à partir de ces hypothèses, et de communiquer ensemble des informations pour affiner leur explications. On utilisera un raisonnement abductif pour contruire ces hypothèses, combiné à un raisonnement déductif pour en

(6)

tirer des prédictions.

Pour cela, leur processus de raisonnement s’inspirera fortement des travaux de Poole, qui permet de combiner élégamment les processus d’explication et de prédiction en usant d’une seule axiomatisation. On utilise des formules bien formées de la logique du premier ordre. Chaque agent sera donc modélisé comme une instance (légèremment altérée) d’un système Theorist [Poole (1989)] :

hF, ∆, H, ≤p, Oi, Θi, hii

où

– F est l’ensemble des faits, formules closes considérées comme vraies ;

– ∆ est l’ensemble des défauts, formules considérées comme vraies jusqu’à preuve du contraire. Ils sont utilisés pour les prédictions et contribuent aux explications ; – H est l’ensemble des conjectures. Ces formules définissent l’ensemble des

hypo-thèses possibles, sous la forme d’un jeu de prédicats abductibles ; – ≤pest la relation de préférence, un pré-ordre sur les hypothèses ;

– Oiest un jeu de formules instanciées représentant les observations mémorisées par

l’agent, qui les considère comme vraies ;

– Θiest l’ensemble des hypothèses préférées de l’agent, définies plus loin ;

– hiest l’hypothèse favorite de l’agent, dont l’agent se sert de base pour prédire les

états futurs de l’environnement (qui formeront ses croyances Bi).

F, ∆, H, ≤psont communs à tous les agents. F et ∆ réprésentent les connaissances

antérieuresde l’agent sur la dynamique de l’environnement.

On donne ici quelques définitions pour expliciter la formation de Θidont est tiré hi:

Définition 2 (Explication d’une formule close (Poole (1989)))

Si g est une formule close, alors une explication de g par (F, A) est un ensemble θ ∪ F où θ est un ensemble d’éléments instanciés de A tel que θ ∪ F soit cohérent et implique g.

Définition 3 (Observation positive / négative)

Une observation positive (resp. négative) est une observation o ∈ O telle qu’il existe une explication de o (resp. ¬o) par (F, H ∪ ∆).

On notera par la suite P (Oi) (resp. N (Oi)) l’ensemble des observations positives

(resp. négatives) de Oi. Ce n’est pas une partition de Oi: certaines observations peuvent

être positives et négatives, et d’autres n’être ni positives ni négatives. On remarquera aussi que le caractère positif ou négatif d’une observation ne dépend pas de l’agent qui fait l’observation (et de son ensemble d’observations Oi) : si ∃O ⊂ O tel que

o ∈ P (O), alors ∀O0_{⊂ O, o ∈ O}0_{ssi o ∈ P (O}0_).

Définition 4 (Explication d’un ensemble d’observations)

Si O est un ensemble d’observations, une explication de O par (F, H ∪ ∆) est une ex-plication ξ de P (O) par (F, H ∪ ∆) telle que ξ ∪ N (O) soit cohérent (ce qui implique la cohérence de ξ ∪ O).

Autrement dit, ξ = H ∪ D ∪ F où H et D sont des éléments instanciés de, respective-ment, H et ∆ tels que ξ |= P (O) et H ∪ D ∪ F ∪ N (O) soit cohérent.

(7)

Par la suite, on appellera hypothèse associée à l’explication la conjonction h de tous les éléments de H. On dira que cette hypothèse est justifiable si H est minimal au sens de l’inclusion d’ensembles, c’est-à-dire si aucun sous-ensemble strict H0 ⊂ H ne donne d’ensemble H0∪ D0_{∪ F qui soit une explication de O.}

Comme nous l’avons vu, différentes explications existent pour une formule donnée, et une relation paraît nécessaire pour classer celles-ci. C’est le rôle du pré-ordre ≤p

que nous définirons en fonction des applications. Nous utiliserons alors notamment la relation suivante, tirée de [Poole (1989)] :

Définition 5 (Explication moins présomptive)

Une explication est moins présomptive qu’une autre si les conclusions qui peuvent être tirées de ses hypothèses sont moins fortes (c’est-à-dire que l’ensemble de ce qui peut être impliqué par ces hypothèses en corrélation avec les faits est plus petit).

Sur la base de ces définitions, on peut maintenant préciser Θiet hi:

– Θiest l’ensemble des hypothèses associées à chacune des explications justifiables

de l’ensemble d’observations Oi. Pour un ensemble d’observations Oi donné, la

fonction d’explicationεΘrenvoie l’ensemble de toutes les hypothèses associées à

des explications justifiables de Oipar (F, H ∪ ∆).

– hi, l’hypothèse favorite, est un élément de Θichoisi par l’agent parmi les

hypo-thèses minimales selon le pré-ordre ≤p. On a hi ∈ min≤p(Θi). On peut alors

incorporer cela dans la fonction de formation d’hypothèse : εhassocie donc à tout

ensemble d’observations Oiun élément de min≤p(εΘ(Oi)).

On définit alors la consistance Cons(Oi, hi) comme étant la combinaison de deux

propriétés2_:

– la cohérence, c’est-à-dire le fait que ∀o ∈ Oi, hi 6|= ¬o que l’on peut aussi écrire

∀o ∈ N (Oi), hi 6|= ¬o, car seules des observations négatives peuvent être

contre-dites.

– la complétude, c’est-à-dire le fait que ∀o ∈ P (Oi), hi |= o (ou plus précisément,

hi∪ F ∪ ∆ |= o).

On remarquera que cette définition de la consistance correspond bien à la définition logique des explications abductives. On a Cons(O, h) ssi h est une explication de O pour la théorie F ∪ ∆.

La définition de εhque nous avons définie assure bien toutes ces propriétés, et

per-met ainsi à chaque agent d’assurer son a-consistance. Dans notre application, εh est

déterministe et commun à tous les agents.

4 Communication entre les agents

Cependant, de fortes contraintes gouvernent ces échanges. Cette section décrit les protocoles et stratégies gouvernant les échanges de messages entre agents. On distingue deux niveaux : le niveau local, qui régule les échanges d’informations bilatéraux entre les agents, durant lequel les agents s’échangent des informations pour améliorer leur hypothèse, et le niveau global, qui régit principalement la façon dont les agents initient

2_{On pourrait aussi ajouter à la consistance une exigence de minimalité pour ≤} p.

(8)

des échanges, la façon dont les agents choisissent leur interlocuteur. Il s’agit alors de maximiser l’apport de ce choix malgré les contraintes, un agent donné ne pouvant en effet établir d’échanges d’observations qu’avec un seul de ses voisins durant un cycle donné.

4.1 Protocoles locaux

On présente ici un protocole d’échange d’echange bilatéral d’hypothèses (BHE) ins-piré de protocoles argumentatifs.

FIG. 1 – Protocole d’échange d’hypothèses bilatéral (BHE).

La figure 1 indique le fonctionnement du protocole. On explicite ci-dessous la straté-gie associée :

Quand il reçoit une hypothèse h1(via propose(h1)) de l’agent a1, l’agent a2est dans

l’état 2 et peut fournir les réponses suivantes :

– Si ∃o2 ∈ N (O2) t.q. h1 |= ¬o2 ou ∃o2 ∈ P (O2) t.q. h1 6|= o2, alors l’agent

possède une observation qui n’est pas consistante avec l’hypothèse : il l’envoie alors (via contre − exemple(o2)) à son interlocuteur, qui recalcule son hypothèse

en fonction et propose h01.

– Sinon, on a Cons(h1, O2). Dans ce cas :

– Si h1est différent de h2, alors l’agent a2contre − propose(h2). On se retrouve

dans l’état 3. L’agent a1recevant h2répondra par contre − exemple ou accepte

sur les mêmes critères jusqu’à assurer Cons(h2, O1).

– Sinon, a2accepte, concluant l’échange.

Ce protocole, associé au comportement des agents décrit ci-dessus, se termine dans tous les cas. On trouvera la preuve de la terminaison d’un protocole similaire dans [Bourgne et al. (2006)]. Pour assurer la convergence au niveau local, il suffit que la consistance soit additive3_{. Le fait que F et ∆ soit commun à tous les agents dans notre}

application assure cela. Si l’on voulait retrouver ce résultat avec des agents dont les connaissances initiales sont hétérogènes, il faudrait s’assurer que l’agents cherche aussi ses contre-exemples parmi les faits, et que la forme logique des faits permette de

conser-3_{Cons est additive ssi pour tout ensembles d’observations O}

1et O2et pour toute hypothèse h, on a

(9)

ver l’additivité de la consistance (c’est notamment le cas tant que l’on introduit pas de disjonctions). Après sa terminaison, la consistance mutuelle de a1et a2est assurée.

4.2 Protocoles globaux

4.2.1 Protocole de base

Le protocole global régule la façon dont les échanges bilatéraux sont initiés entre les agents. Il est divisé en tour de requêtes. A chaque tour de requêtes, chaque agent peut envoyer à l’un de ses voisins une requête pondérée selon le protocole décrit dans la figure 2. Il envoie aussi un message ignore4_{à ses autres voisins pour qu’ils n’attendent}

pas de requête de sa part. La requête a un poids, valeur mesurant la volonté de l’agent de communiquer avec la cible. L’envoi d’une telle requête est une sorte d’engagement conditionnel. Par cela, l’agent s’engage à initier une conversation avec la cible à moins qu’il ne reçoive et accepte lui-même une requête de poids supérieur. Une fois toutes les requêtes reçues, chaque agent répond aux requêtes qui lui ont été destinées par soit rejette5, soit accepte. Répondre avec accepte est un engagement à participer à un échange avec l’agent si celui-ci n’annule pas sa requête. Un agent ne peut donc envoyer qu’un seul accepte durant un tour de requêtes (et seulement si cela ne rompt pas l’engagement pris par sa propre requête). Quand toutes les réponses sont arrivées, les agents dont les requêtes ont été acceptées peuvent soit les annuler par annule s’ils ont accepté une autre requête, soit répondre par un conf irme et initier l’échange bilatéral dès qu’ils reçoivent un message prˆet de leur interlocuteur. On recommence ensuite un nouveau tour de requêtes, en écartant les agents déjà engagés dans une conversation, jusqu’à ce que plus aucun agent n’ait de requête.

FIG. 2 – Protocole global de requête pondérée.

4_{On peut spécifier plus ce message en le divisant en deux selon que le refus de communication concerne}

ce tour de requêtes (ignoretemp) ou bien l’étape de communication complète (ignoretout). Un agent

re-cevant un message ignoretoutd’un autre agent n’attendra plus de requêtes de sa part durant cette étape de

communication.

5_{Comme pour ignore, on spécifie ce message en rejette}

tempet rejettetout, ce dernier message

signi-fiant qu’aucune autre requête de l’agent de sera acceptée pendant ce cycle système. Ainsi, un agent recevant un rejettetoutd’un autre agent ne lui enverra plus de requêtes pour ce cycle système.

(10)

4.2.2 Stratégie globale : sélection et pondération

La stratégie globale des agents comporte deux étapes. Une première étape de prése-lection leur permet de choisir parmi leurs voisins ceux avec qui un échange pourrait être bénéfique. En l’occurence, chaque agent garde en mémoire les agents avec lesquels il est arrivé à une consistance mutuelle et leur hypothèse, et leur envoie ignoretout,

n’ayant pas de raison de communiquer avec eux. Cette liste des agents avec lesquels il a atteint une consistance mutuelle est mise à jour à la fin de la phase de perception pour en éliminer les agents dont l’hypothèse supposée n’est plus consistante avec les observations. De plus, cette liste est vidée chaque fois que l’agent change sa propre hypothèse. Si un agent ajest sur la liste de ai, il est donc inutile pour aide lui envoyer

une requête. ai sait qu’il n’a reçu aucune observation mettant en question sa

consis-tance avec hj. S’il se trouve que aj a changé d’hypothèse ou reçu des observations

inconsistantes avec hi, c’est à ajde réclamer un échange avec ai. Le fait d’envoyer un

message ignoretoutà un agent n’empêche en effet pas d’accepter ensuite une requête

de cet agent, cela signifie juste que l’on n’enverra pas de requête à cet agent. Tous ses autres voisins sont des interlocuteurs potentiels.

Dans un second temps, l’agent doit choisir parmi ceux-ci celui à qui il enverra sa première requête, et déterminer un poids pour cette requête. En pratique, il détermine un poids pour chacun des interlocuteurs potentiels, et sélectionne celui de poids maximal pour lui envoyer sa requête, envoyant un ignoretempaux autres.

La pondération en elle-même se fait selon une heuristique à adapter au cadre d’ap-plication. Le système le plus neutre consiste à utiliser une pondération fixe avec une variation aléatoire minime pour éviter les égalités. On pourra aussi utiliser une heuris-tique de pondération topologique, les poids étant distribués en fonction des positions relatives.

4.2.3 Protocole ACAWAS : repondération en fonction du contexte

On se propose de modifier le protocole afin de maximiser le nombre de conversations entre les agents. Les agents adoptent alors une attitude plus altruiste en effectuant une deuxième pondération prenant en compte toutes les requêtes concernant eux-mêmes ou les agents avec lesquels ils envisagent de communiquer. Pour cela, avant l’envoi des requêtes, les agents effectuent leur première pondération et envoient des demandes de contexte requˆete − contexte à tous les interlocuteurs potentiels qu’ils ont sélectionnés, y joignant la description de leur propre contexte (c’est-à-dire leur liste de poids). Après reception de toutes ces requêtes de contexte, les agents y répondent soit par inf orme, contenant la liste des poids de leurs requêtes et de celles qu’ils ont reçues, soit par rejettetout.

A partir de ces listes, chaque agent recalcule une pondération de ses requêtes. Le poids final d’une requête est donné par :

Wi,j= wi,j+ ej,iwj,i− Ωi,j

avec Ωi,j= X k∈R(i)\{j} wi,k+ X k∈S(i)\{j} wk,i+ X k∈R(j)\{i} wj,k+ X k∈S(j)\{i} wk,j

(11)

Wi,jest le poids final de la requête de l’agent aià l’agent aj, wi,jle poids initial, R(i)

est l’ensemble des indices des agents ayant reçu une requête de ai, S(i) l’ensemble des

indices des agents ayant envoyé une requête à ai, et ej,i = 1 si wi,j > wj,i, 0 sinon.

Le premier terme correspond au poid de la requête, le second, à celui de la requête réciproque si elle a moins de poids (on favorise en effet les requêtes réciproques, mais pour éviter des poids égaux, on ne cumule ces poids que dans un sens). Enfin, le terme Ωi,j que l’on soustrait à cette base est constitué de quatre termes correspondant aux

sommes des poids des autres requêtes qui, sont respectivement, envoyées par ai, reçues

par ai, envoyées par ajet reçues par aj. Ωi,jreprésente donc le poids cumulé de toutes

les requêtes qui seraient rendues impossibles par l’acceptation de la requête de ai à

aj. On notera que Ωi,j est symétrique par rapport à i et j. Seul le facteur ej,i assure

la dissymétrie de la formule du poids, permettant de favoriser un des agents comme initiateur du potentiel dialogue.

Chaque agent peut alors choisir sa meilleure requête et l’envoyer comme décrit en 4.2.1 avec son nouveau poids. On appelle ce protocole ACAWAS, pour Altruist Context Aware Weight Attribution Strategy (stratégie de pondération altruiste avec connaissance du contexte).

4.2.4 Propriétés

On a démontré dans [Bourgne et al. (2007a)] que ce protocole, associé à un protocole local qui assure la consistance mutuelle entre ses participants, permettait d’atteindre la consistance du système sous les conditions suivantes :

– (CONS) Le protocole local assure la consistance ;

– (SOLVE) Chaque agent veut communiquer avec tout autre agent avec lequel il ne croit pas être mutuellement consistant ;

– (FOCUS) Aucun n’agent ne tente de communiquer avec un agent avec lequel il croit être mutuellement consistant ;

– (COMM) Un agent ne peut refuser une requête de communication pondérée que s’il a envoyé ou qu’il reçoit dans le même tour une requête de poids supérieur ; – (REQU) Un agent ne peut accepter une requête de communication que s’il n’a pas

lui-même envoyé de requête de poids supérieur (ainsi il ne peut annuler sa requête que s’il reçoit une requête de poids supérieur) ;

– Les perceptions sont bornées, c’est à dire qu’il n’existe pas une infinité d’observa-tions pertinentes ;

– La relation de consistance est transitive. Cela est assuré dans notre application par le caractère déterministe et commun à tous les agents de εhqui nous assure

que deux agents ont la même hypothèse après un échange local. On peut aussi garantir cela en transformant ≤pen ordre total et commun. Si l’on veut garder une

hétérogénéité des hypothèses après convergence, on doit utiliser un système plus complexe où chaque agent mémorise et propose en plus de son hypothèse favorite toutes les hypothèses consistantes avec ses observations qu’il a reçues d’autres agents. Cela dépasse le cadre de cet article ;

– Les agents sont temporellement connexes. Cette notion définie dans [Bourgne et al. (2007a)] signifie qu’il est toujours possible d’etablir une chaine d’agents pour

(12)

transmettre une information d’un agent à un autre en un temps fini. Cette pro-priété n’est pas vérifiée par notre système, les agents pouvant disparaître du SMA (en étant brûlés ou en sortant).

On s’intéresse ici à l’efficacité du protocole avant sa convergence, dans un cadre évo-luant rapidement, nécessitant l’exploitation par les agents de leur hypothèses intermé-diaires. Afin d’illustrer cela, la section 5 teste l’efficacité et l’efficience de ces protocoles dans un exemple d’application.

5 Étude expérimentale

Cette section donne un exemple d’application du cadre général introduit auparavant. Les paramètres de l’application sont d’abord exposés, puis le protocole expérimental est indiqué et les résultats commentés.

5.1 Description de la situation

Cette expérience implique des agents tentant de s’échapper d’un bâtiment en feu. Le temps est divisé en cycles, et l’environnement est décrit par une grille spatiale avec un jeu de murs et (heureusement) quelques sorties.

Les agents sont localisés par leurs coordonnées sur la grille. Dans un cycle, un agent peut bouger d’une case dans les 4 directions cardinales si aucun mur ne le bloque. Il peut aussi communiquer avec un agent visible.

Au temps t0, inconnu des agents, un feu survient dans ces locaux, sur une ou

plu-sieurs cases nommées origines du feu, elles aussi inconnues des agents. Dès lors, le feu se propage. À chaque cycle, depuis chaque case en feu, il se propage dans les quatre directions, sans traverser les murs. Un agent sur une case enflammée brûle : il est retiré du système. Si un agent arrive à une sortie, il est sauvé.

Les connaissances antérieures de l’agent sont le plan des lieux et les règles de pro-pagation du feu. A une distance de 3 cases autour d’eux, les agents perçoivent si les cases sont ou non en feu, et les agents qui y sont, mais ils ne voient pas à travers les murs. Toutes ces observations sont mémorisées dans l’ensemble d’observations O. Elles sont de la forme Fire(ti, at (x,y)), Nofire(ti, at (x,y)) ou Agent aj

(ti, at (x,y)). On n’a pas d’observation du type NoAgent (ti, at(x,y))

car les agents ne cherchent pas à modéliser la position des autres agents. L’observa-tion Agent aj (ti, at (x,y)) a donc principalement pour but de permettre à un

agent de connaître ses voisins pour un tour donné. Elle permet la communication, mais n’entre pas dans le raisonnement (comme nous allons le voir, elle n’est ni positive ni négative).

Pour décider de leurs actions, les agents maintiennent une liste de leurs hypothèses préférées Θ donnant leurs différentes interprétations de leurs observations sur le feu. L’ensemble des conjectures H est l’ensemble des conjonctions de termes du type FireOrigin(ti, at (x,y)). De ce fait, les observations du type Fire(ti, at

(x,y)) sont positives, celles du types Nofire(ti, at (x,y)) sont négatives et

enfin celles du type Agent aj (ti, at (x,y)) sont indifférentes (ni positives, ni

(13)

Les agents prédisent alors la propagation du feu à partir de leur hypothèse favorite h, choisie selon la relation de préférence ≤psuivante :

– l’agent préfère les explications de cardinal minimum, c’est-à-dire impliquant le moins d’origines possibles,

– pour un nombre identique d’origines supposées, l’agent préfèrera l’explication la moins présomptive. En pratique, cela veut dire que l’agent favorisera les explica-tions donnant une origine du feu aussi proche que possible du feu observé. A partir de la prédiction effectuée, l’agent calcule aussi un plan de fuite, sélectionnant le plus court chemin viable vers une sortie.

5.2 Méthode expérimentale

5.2.1 Paramètres des expériences

On utilisera pour les expériences la carte suivante, conçue pour favoriser la découverte par raisonnement de l’origine du feu par rapport à une observation directe. Les zones grisées représentent les cases enflammées, les croix indiquent les sorties, et les points correspondent à une possible distribution des positions initiales des agents. On illustre l’importance dans cette carte d’une hypothèse exacte en montrant deux exemples de développement du feu avec des origines différentes (dans le premier cas, l’origine est en O(7, 1), et dans le deuxième en O0(7, 6)). Dans les deux cas, on peut observer au temps t = 15 ou 12 des feux sur les cases A et B. La seule différence à ce moment provient de la présence ou non de feu sur la case C, qui ne change rien à court terme pour l’agent. Pourtant, dans le premier cas il vaut mieux fuir par la droite, alors que dans le second, la gauche est plus indiquée. Ainsi, il est important pour les agents de bien différencier les origines pour savoir quel couloir de sortie emprunter.

Sur cette carte, 50 exécutions seront lancées, avec à chaque fois une répartition ini-tiale différente (ces répartitions iniini-tiales mettant cependant toujours les agents hors des couloirs). Ces répartitions initiales sont stockées pour que chaque protocole soit testé avec les mêmes répartitions. Pour chaque protocole, on exécutera ces 50 expériences pour un nombre d’agents variant de deux en deux entre 2 et 36 agents.

(14)

5.2.2 Protocoles comparés

On testera 3 protocoles globaux : Base-Alea, le protocole de base décrit dans la section 4.2.1 avec une pondération aléatoire, Base-Topo, utilisant cette fois-ci une pondération topologique, et ACAWAS-Alea, le systeme de pondération décrit en 4.2.3, se basant sur une première pondération aléatoire. La pondération topologique utilisée pour Base-Topo est une heuristique très simple favorisant les agents les plus éloi-gnés et donnant la préférence aux agents situés latéralement au sens de fuite, sans tenir compte des murs.

En guise de référence, nous les comparerons à un protocole MultComm pour lequel la contrainte d’une communication par agent et par tour est relâchée. Le protocole est donc plus simple, chaque agent pouvant faire plusieurs requêtes qui déboucheront toutes sur une conversation.

Pour comparer au protocole local d’Échange Bilatéral d’Hypothèses (BHE), nous utiliserons un protocole simpliste d’échange d’observations. Chaque agent stocke les observations qui ont participé activement à la construction de son hypothèse et les deux agents s’échangent cette liste. On décline ce protocole en deux variantes selon que l’agent donne tous ses arguments (Échange d’Observations complet ou OE) ou qu’il ne donne que les observations positives, c’est-à-dire les observations du type Fire(t,at(x,y)), jugées plus critiques (Échange d’Observations Positives ou POE).

5.3 Résultats

On donne ici les courbes de résultats pour l’efficacité et l’efficience des protocoles locaux et globaux. L’efficacité est mesurée par le pourcentage d’agents survivants, tan-dis que que l’efficience est mesurée par la taille du flux total de données échangées entre les agents. On ne prend en compte que les messages locaux pour l’étude locale (et respectivement que les messages globaux pour l’étude globale).

5.3.1 Étude des protocoles locaux

Les résultats pour les protocoles locaux sont présentés dans la figure 3. Les courbes d’efficacité ont été réalisées avec un protocole global MultComm, assurant une faible part de hasard dans les résultats, tandis que les courbes d’efficience l’ont été avec un protocole Base-Topo, assurant une séparation des conversations facilitant le dé-compte des échanges de données.

On remarque tout d’abord que le gain d’efficacité causé par la communication est important, et qu’il augmente avec le nombre d’agents. Cette augmentation se ralentit à partir d’une vingtaine d’agents, ce qui correspond à une proportion d’agents sur la carte d’un peu plus de 50%. Le protocole d’échange bilatéral d’hypothèse (BHE) s’avère sen-siblement meilleur que les autres. Au niveau de l’efficience, celle-ci semble progresser quasi linéairement avec le nombre d’agents. La pente du protocole d’échange d’obser-vations complet (OE) est plus importante que les deux autres. Ce protocole est plus coû-teux que BHE pour moins d’efficacité. Bien que moins coûcoû-teux que BHE, POE offre une

(15)

FIG. 3 – Résultats d’efficacité et d’efficience pour les protocoles locaux.

FIG. 4 – Résultats d’efficacité et d’efficience pour les protocoles globaux.

efficacité inférieure. Au final, notre protocole d’échange bilatéral d’hypothèses offre les meilleures performances pour un coût raisonnable.

Ce bon résultat est cependant à modérer. Avec un protocole global plus restrictif comme Base-Topo, les courbes d’efficacité de BHE et OE se confondent quasiment, et le gain par rapport à POE, bien que toujours sensible, est moins important. De plus, sur des cartes aléatoires, les différents protocoles locaux ont tendance à donner des ré-sultats très proches [Bourgne et al. (2007a)], et le protocole POE peut alors être plus rentable.

5.3.2 Étude des protocoles globaux

Les protocoles globaux ont été testés en utilisant le protocole local BHE. La figure 4 donne les résultats en terme d’efficacité et d’efficience. Sans surprise, on constate que le protocole MultComm est au-dessus des autres en termes d’efficacité. L’écart impor-tant suggère que l’impact de la contrainte sur les messages est fort. Deuxième constat,

(16)

la pondération topologique, bien que très basique, donne de meilleurs résultats que la repondération altruiste (ACAWAS). Cela suggère qu’il est plus important de maximiser l’impact des conversations que de maximiser leur nombre, même si cela donne tout de même de meilleurs résultats que la pondération aléatoire simple. Au niveau de l’effi-cience, on constate que MultComm, en évitant la nécessité de confirmer les requêtes et tous les mécanismes de synchronisation, compense aisément le nombre supérieur de requêtes effectuées (ce résultat se retrouve même si on prend aussi en compte les messages locaux). Si la contrainte d’une conversation par agent peut être relâchée, il est donc rentable de le faire. Par contre, le protocole ACAWAS s’avère particulièrement inefficient, le nombre de messages globaux nécessité par l’échange de contexte étant vraiment prohibitif. Pour une meilleure efficacité, la pondération topologique n’aug-mente en rien le coût en communication.

Au final, développer des heuristiques de pondération simples adaptées aux applica-tions considérées apparaît comme un moyen économique d’augmenter l’efficacité de façon significative.

6 Conclusion

Nous avons présenté dans cet article un protocole en deux niveaux pour permettre à des agents n’ayant accès qu’à des observations partielles, à partir desquelles ils veulent construire des hypothèses sur l’état de l’environnement, d’initier entre eux des échanges d’observations pertinents pour raffiner leurs hypothèses, et ce en dépit de fortes contraintes communicationnelles. Le niveau local de ce protocole, l’échange bi-latéral d’hypothèses, use efficacement de processus argumentatifs pour sélectionner les observations les plus pertinentes et permettre aux agents d’atteindre une consistance mutuelle en un nombre raisonnable d’échanges. Au niveau global, nous avons mis en évidence l’impact des contraintes communicationnelles et l’importance de construire de bonnes heuristiques de pondération des requêtes pour établir des communications, en favorisant notamment la qualité des échanges par rapport à leur nombre. Nous avons étudié ce problème général dans le cadre des raisonnements abductifs, mais il est ap-plicable à d’autres méthodes de construction d’hypothèses ou de synchronisation de croyances. Tester l’efficacité de ces protocoles pour d’autres applications de cette classe de problèmes pourrait confirmer les résultats obtenus. Il est aussi envisagé d’étendre la classe de problèmes en relâchant certaines hypothèses telle que la perfection des sen-seurs, en étudiant des fonctions de formations d’hypothèses incrémentales (c’est-à-dire εh dépend non seulement de Oi mais aussi de l’hypothèse en cours hi) ou bien en

modifiant les contraintes communicationnelles.

Remerciements.

Nous tenons ici à remercier les relecteurs anonymes de cet article dont les commen-taires très précis et pertinents ont été d’une grande utilité dans la rédaction de la version finale.

(17)

Références

ANGLUIND., FRAZIERM. & PITTL. (1992). Learning conjunctions of horn clauses. Machine Learning, 9, 147–164.

BOURGNEG., HETTEG., MAUDETN. & PINSONS. (2007a). Hypothesis refinement under topological communication constraints. In Proceedings of the Sixth internatio-nal joint conference on Autonomous Agents and Multi-Agent Systems (AAMAS07). BOURGNE G., MAUDETN. & PINSON S. (2006). When agents communicate

hypo-theses in critical situations. In Proceedings of the Fourth International Workshop on Declarative Agent Languages and Technologies (DALT–2006).

BOURGNEG., SEGROUCHNIA. E. F. & SOLDANOH. (2007b). Smile : Sound multi-agent incremental learning ;-). In Proceedings of the Sixth international joint confe-rence on Autonomous Agents and Multi-Agent Systems (AAMAS07).

CHLEBUSB. & KOWALSKID. (2002). Gossiping to reach consensus. In Proceedings of the 14th ACM Symp. on Parallel Algorithms and Architectures, p. 220–229. EVENS. & MONIENB. (1989). On the number of rounds needed to disseminate

infor-mation. In Proceedings of the First Annual ACM Symposium on Parallel Algorithms and Architectures, p. 318–327.

JUNG H. & TAMBEM. (2001). Argumentation as distributed constraint satisfaction : Applications and results. In Proceedings of the fifth international conference on Autonomous agents (AGENTS01), p. 324–331.

KARUNATILLAKEN. C. & JENNINGSN. R. (2004). Is it worth arguing ? In Procee-dings of the First International Workshop on Argumentation in Multi-Agent Systems (ArgMAS 2004), p. 62–67.

PARSONSS., SIERRAC. & JENNINGSN. R. (1998). Agents that reason and negotiate by arguing. Journal of Logic and Computation, 8(3), 261–292.

POOLED. (1989). Explanation and prediction : An architecture for default and abduc-tive reasoning. Computational Intelligence, 5(2), 97–110.

ROOSN.,TENTIJEA. & WITTEVEENC. (2004). Reaching diagnostic agreement in multiagent diagnosis. In Proceedings of the Third International joint conference on Autonomous Agents and Multi-Agent System (AAMAS04), p. 1254–1255.

YOKOO M. & HIRAYAMAK. (2000). Algorithms for distributed constraint satisfac-tion : A review. Autonomous Agents and Multi-Agent Systems, 3(2), 185–207.