• Aucun résultat trouvé

valeur V Π (s) d’un état par :

6 Omniscient : qui sait tout

96 faire progresser leurs connaissances. Cette communication peut aider à augmenter la vitesse avec laquelle le système accomplit sa tâche. Toutefois, la communication non restrictive peut réduire un système multi-agent à un système constitué d’un seul agent[Sto 00].

Le comportement intelligent des agents dans un système multi-agent peut avoir plusieurs causes, incluant la façon dont les agents apprennent, comment ils coopèrent, et comment ils modélisent les autres agents ainsi que leur environnement. La communication entre les agents peut également varier de très simple à hautement sophistiqué. Exemple :lorsqu’il s’agit d’une coopération pour réaliser une tâche et partager de la connaissance, les agents peuvent entrer dans des débats ou des sessions de négociation sur la façon de résoudre des problèmes ou de prendre des décisions vis-à-vis des connaissances contradictoires. Ces propriétés propres à ces systèmes multi-agents en font d’eux un puissant outil de recherche dans ce sens.

3.4.3.1 Apprentissage en groupe

Nous allons discuter, ici, du partage des connaissances et de l'intégration dans les systèmes d'agents. L'apprentissage collectif se fait sentir lorsque les membres d’un groupe coopèrent et coordonnent leurs actions pour apprendre une tâche. La collaboration peut avoir lieu dans des situations de partage de connaissances, d’incidents ou de politiques globales. En travaillant ensemble, les groupes prétendent à ce que leurs membres puissent apprendre à exécuter une tâche avec une efficacité accrue.L'adaptation et le comportement émergent peuvent alors être des produits qui dérivent de l'interaction intelligente du groupe.Les groupes humains peuvent être considérés comme des systèmes formés de plusieurs agents intelligents qui apprennent en commun et interagissent les uns sur les autres. Ainsi, la connaissance est répartie entre les membres du groupe. Ces connaissances distribuées peuvent être combinées pour exploiter l'expertise de tout un système, étant donné que chaque entité détient des parties différentes de la connaissance collective.

La majorité des efforts de l'apprentissage en groupe focalise sur l’utilisation d’une seule méthode d’apprentissage pour tous les membres du groupe. Certains algorithmes d'apprentissage présentent une meilleure performance individuelle que d'autres dans des tâches spécifiques. Les combiner ensemble peut améliorer substantiellement la robustesse globale et augmenter les capacités du groupe.

Les techniques d’apprentissage sont nécessaires au groupe pour, d’une part, lui permettre de s’adapter au changement de l’environnement au fil du temps, et d’autre part, pour déterminer sa composition, sa taille, ainsi que les diverses capacités de ses membres [Pak 99]. L'adaptation peut être accomplie en surveillant des robots intégrés dans le groupe et en ajustant les paramètres de contrôle en conséquence [Pak 99]. Cette adaptation pourra avoir besoin d’une longue période de temps pour se dérouler, représentant ainsi l’obligation d’un apprentissage à long terme. Les tâches à long terme sont, par nécessité, de caractère à agir sur les agents ou sur les robots afin que ceux-ci soient en mesure de répondre aux changements, aussi bien de l’environnement que ceux des capacités des autres membres du groupe. Ces capacités pourraient être : - des comportements appris, - une représentation de connaissances, ou - des algorithmes d'apprentissage.

Dans son travail sur l’apprentissage par renforcement d’un groupe multi-agents, Tan déclare que les novices peuvent apprendre rapidement des experts [Tan 97]. Dans le processus d’apprentissage, il a été constaté que le partage d’incidents ou de politiques globales amorce une accélération d'apprentissage, mais au prix d'une communication accrue. Il est à noter que le partage peut être utilisé par des agents hétérogènes, tant qu'ils peuvent interpréter les incidents et les utiliser en conséquence. Il est mentionné qu’un groupe hétérogène d'apprenants par renforcement pourrait être employé, là où l'hétérogénéité est basée sur l’ampleur et la profondeur du champ visuel de chaque agent.

3.4.3.2 Diversité, spécialisation et hétérogénéité du groupe

Pan dans son article [Pan 05] a établit un état de l'art sur l'apprentissage coopératif multi-agents en déclarant que l'hétérogénéité dans un groupe est un axe de recherche qui n'a pas été suffisamment exploré. Les agents concrétisent souvent des capacités différentes, cependant la plupart des travaux dans la littérature du genre suppose que tous les agents sont identiques dans les comportements et les capacités d’apprentissage. On qualifie un groupe d’hétérogène s’il est constitué de membres qui utilisent différentes techniques d'apprentissage. Exemple : un groupe composé d'un apprenant par renforcement et de trois apprenants par réseau de neurones est considéré comme hétérogène. D'autre part, on reconnait un groupe comme homogène si les techniques d'apprentissage sont les mêmes pour tous les membres de l'équipe. Exemple : une équipe composée entièrement d’apprenant par renforcement.

La littérature contient différentes définitions d’hétérogène et d’homogène, découlant principalement d’applications spécifiques. Exemple : certains définissent l’hétérogénéité en focalisant sur différents problèmes ou tâches. D'autres définissent les agents dans un groupe comme hétérogènes s’ils utilisent la même méthode d'apprentissage, le renforcement par exemple, avec différents rythmes d'apprentissage, ou des fonctions de récompense hétérogènes

[Pan 05].En outre, l’hétérogénéité d’un groupe peut être exprimée en fonction des politiques de ses membres après apprentissage. L'hétérogénéité peut également provenir des capteurs et des capacités sensorielles de chaque entité.La plupart des travaux impliquant des groupes artificiels hétérogènes focalisant sur la plateforme des agents plutôt que sur les mécanismes sous-jacents de l'apprentissage.

L'utilisation d’agents hétérogènes et le concept de groupe ont un certain écho dans la littérature. Des études sur des groupes hétérogènes et sur leurs diversités relatent que l’hétérogénéité peut être bénéfique pour certains types de tâches, mais non recommandables pour d'autres. Selon la tâche ciblée, une approche homogène peut ne pas être en mesure d’accomplir un résultat optimal [Li 04].Des résultats de recherche ont montré que les systèmes hétérogènes sont favorables à l'apprentissage et que les apprenants avec des taux d'apprentissage élevés aident ceux avec un taux d'apprentissage faible, et vice versa.D’autres résultats stipulent que des systèmes ayant une complexité hétérogène peuvent apprendre plus rapidement à l'aide de systèmes d'apprentissage par renforcement simple.

Avec l'apprentissage collectif, les concepts de diversité et spécialisation sont importants.

Exemple : un groupe d'apprenants peut au début être homogène en termes de connaissances et

devenir hétérogène au fur et à mesure que la tâche évolue à cause des expériences d’apprentissage qui ne peuvent toucher à chaque fois que quelques membres du groupe ; une spécialisation, qu’elle soit due à des expériences individuelles ou qu’elle soit restreintes à quelques membres seulement, peut surgir, créant ainsi la diversité. Un système peut être appelé à se spécialiser dans la mesure où la diversité de ses agents, qui est un avantage en soi, offre à tout le groupe l’opportunité de devenir performant. [Li 04]. En supposant que les agents sont regroupés en fonction de la similitude, chaque groupe peut être considéré comme un groupe de spécialistes. Un surplus de membres spécialisés se traduit évidemment par un surplus de diversité dans le système. En général, la diversité exprime la différence, en brillance ou en médiocrité, entre les individus d’un même groupe tout en respectant la performance de ce dernier. Pour certain, la spécialisation est définie comme une partie de la diversité qui est requise pour de meilleures performances [Li 04]. Par ailleurs, si la diversité améliore les performances, elle n’est plus spécialisée.Exemple : un travailleur qui accomplit beaucoup de travaux différents devient moins spécialisé qu’un travailleur qui se concentre sur une seule tâche. Donc, si le rendement augmente, généralement, avec plus de diversité, le degré de spécialisation devrait augmenter aussi [Li 04]. Une plus grande diversité n’améliore pas nécessairement les performances dans tous les cas.

98 Un comportement au sein de groupes d’agent-robots utilisant l’apprentissage par renforcement a été étudié, focalisant principalement sur les différences de comportements au sein d’un groupe d’apprenants robots mécaniquement similaires, apprenant le football. Les robots semblables mécaniquement ne sont différents que du coté de leur comportement seulement. Ainsi, en tant qu'agents ils continuent à apprendre, leurs comportements changent et ils deviennent de plus en plus diversifiés. Le comportement d'un seul robot affecte le groupe tout entier, en se propageant à travers le groupe via les processus de partage et de coopération. Même si les agent-robots sont initialement homogènes, leurs comportements respectifs finiront par devenir hétérogènes. En plus, l'utilisation d'agents avec des comportements hétérogènes, usant de différents algorithmes d'apprentissage, peut rendre les tâches de modélisation et de prédiction d’actions (des agents) difficiles pour les autres membres du groupe.

Des résultats ont montré que, dans de nombreux cas, la diversité des comportements se fait automatiquement au cours du processus d'apprentissage pour une tâche en groupe.Cependant, le niveau de la diversification et spécialisation dépend de la structure de récompense.Pour le jeu de football, il a été rapporté que le renforcement global a causé la formation de politiques hétérogènes, et que le renforcement local a généré des politiques identiques. Le renforcement local exprime l'apprentissage de politiques égoïstes, dégradant les performances du groupe. Cependant, des résultats montrent que le renforcement local peut aboutir à des politiques très différentes pour les agents, même pour ceux qui utilisent le même algorithme d'apprentissage et les mêmes paramètres. Cette spécialisation locale peut s’apprêter bien au succès du groupe, où les effets de la structure de récompense sur le rendement pourraient être reliés au problème du domaine ou à la discrétisation de l'environnement.

Les différences au sein d’un groupe (caste) peuvent également être identifiées et étudiées.

Exemple : les agents dans un groupe peuvent être mis en réseau et peuvent coordonner leurs processus d'adaptation de telle sorte que l'homogénéité du groupe demeure intacte. Balch soulève une question intéressante : « est-ce que la taille du groupe influe sur la qualité d’une politique ?». Ce qui est clair, c’est que la taille du groupe influe forcement sur le rôle de la spécialisation ; pour autant que le nombre d’agents augmente, l’importance de la spécialisation diminue. Il est utile d'étudier et d'évaluer l'impact des types de l'apprentissage sur les systèmes de robots. Il est également intéressant d’utiliser la diversité pour accroître la spécialisation du groupe dans une tâche donnée. Toutefois, le partage des connaissances peut réduire, d’une certaine manière, à la fois, la diversité et la spécialisation.

3.4.3.3 Apprentissage automatique multi-agents

On se concentre, ici, sur l’apprentissage automatique agents, où un système multi-agent participe à une forme d'apprentissage par événements.L'apprentissage est réparti entre des agents intelligents au sein d’un groupe, où ces derniers collaborent en partageant périodiquement de la connaissance afin d’accomplir un but commun.L’apprentissage avec des robots réels présente un défi encore plus difficile, car l'environnement est moins discret et plus complexe (voir Section 4.8).

L’utilisation des systèmes multi-agents pour l'apprentissage coopératif présente plusieurs avantages. L’utilisation de plusieurs agents permet aux agents ayant des ressources limitées, individuellement, d’augmenter leurs capacités via l'utilisation de la coopération. L'exploitation de plusieurs apprenants peut aussi accroitre la vitesse et l'efficacité pour des tâches importantes et complexes. En plus, les systèmes distribués ont tendance à se dégrader moins rapidement en situations d'échec, et la vérification des résultats entre plusieurs apprenants aide le système pour qu’il soit plus fiable et plus tolérant aux pannes.En dernier, des apprenants multiples permettent au système d'encapsuler des connaissances spécialisées ou de l'expertise dans des agents particuliers.Tous ces aspects motivent l'utilisation de plusieurs agent-apprenants. Les systèmes d'apprentissage multi-agent sont composés de trois éléments principaux :