• Aucun résultat trouvé

Exemple de poursuite et capture selon le modèle prédateurs-proies

valeur V Π (s) d’un état par :

2. Leurs algorithmes d'apprentissage 3. Leurs tâches

3.4.4 Exemple de poursuite et capture selon le modèle prédateurs-proies

Il y a généralement plusieurs manières permettant de résoudre un problème. Certaines de ces options utilisent différents algorithmes, approches, paramètres, niveaux d'adaptation, combinaisons de méthodes et d'autres moyens pour converger vers la solution. Ces décisions

découlent généralement de la façon dont un individu ou un groupe apprend une tâche ou une combinaison de connaissances, d'expérience et d'expertise. En ce qui concerne un groupe, le succès peut émerger de la composition du groupe, de la variance dans les connaissances, de la communication et du transfert de ces connaissances, ainsi que de différents niveaux d'expérience pour la tâche. Plus les problèmes deviennent complexes et plus on a besoin de ressources (membres dans le groupe, du temps) pour y faire face avec succès. Cela témoigne aussi de la composition de l'équipe en termes d'expertise, de la spécialisation et de la diversité de ses membres. La constitution d’une équipe est un aspect important dans les groupes de recherche et les organisations commerciales. Réunir une équipe très diversifiée est souhaitable afin qu’une grande variété de connaissances ne soit pas seulement utilisée, mais aussi partagée entre les individus au sein de l'équipe en vue d'accroître l'efficacité globale de ces derniers et celle des compétences individuelles. Le transfert de connaissances est donc un aspect majeur de l'apprentissage collectif, de l'efficacité et du succès.

L'apprentissage mutuel coopératif peut être défini comme le processus par lequel plusieurs entités travaillent ensemble pour apprendre une tâche, un processus ou des aspects d'un environnement. Ceci implique que les différentes entités du groupe apprennent de manières indépendantes, puis ils partagent ce qu'ils ont appris (leurs connaissances/expériences) avec une partie de l'équipe.De cette manière, le groupe peut apprendre plus rapidement dans l’ensemble et construire une base de connaissances plus détaillées. Exemple : un groupe d'élèves qui apprennent le même cours, où chaque élève apprend, selon son potentiel, différemment et avec une vitesse d’apprentissage différente. Lorsque ce groupe d’étudiants est en place pour travailler ensemble sur des problèmes concernant ce cours, ils peuvent partager efficacement ce qu'ils ont appris, pour parvenir à une compréhension partagée et peut-être aboutir à une solution très efficace en guise de résolution commune de ces problèmes.

Le problème de poursuite prédateur-proie est un exemple type d’apprentissage collaboratif dans un groupe hétérogène où apparaît clairement le problème de la représentation interconnaissances et la résolution des conflits de connaissances.

Le problème prédateurs-proies représente un domaine d’investigation par excellence pour l’intelligence artificielle distribuée (IAD) via la simulation orientée agents impliquant, entre autres, des mécanismes de coordination, de coopération et de concurrence multi-agents. Il s'agit d'un jeu de poursuite entre un ou plusieurs agent-prédateurs et un ou plusieurs agent-proies. L'objectif est de capturer une proie en la touchant avec un agent-prédateur ou en l'entourant simultanément par plusieurs agent-prédateurs. Ce jeu peut intégrer différentes stratégies utilisées par un ou plusieurs agent-prédateurs pour capturer ces proies. Ces approches peuvent être égoïstes ou impliquer des comportements plus intelligents issus de l'apprentissage et/ou d’un travail coopératif. Les approches prédateurs-égoïstes ont tendance à conduire à une impasse, où les agent-prédateurs sont coincés les uns derrière les autres en essayant de réduire leur distance vers la proie. Dans ces conditions, l'intégration aléatoire de mouvements périodiques peut aider ces agent-prédateurs à éviter l’inter-blocage en choisissant des actions non-égoïstes avec une fréquence faible et aléatoire.

La proie peut aussi utiliser plusieurs approches différentes: courir en ligne droite, au hasard, choisir des actions, courir jusqu'à ce qu'un obstacle soit percuté et choisir une nouvelle direction aléatoire (proie-linéaire), ou agir plus intelligemment en maximisant sa distance loin de tous les prédateurs. Notons que la proie linéaire s'est avérée être en mesure d’échapper constamment à la capture de certains algorithmes de prédateurs[Hay 96]. Ce type de proie est efficace parce qu'il permet d'éviter la localité du mouvement, où les stratégies égoïstes obligent la proie à se maintenir dans la même position au sein d’un espace hostile et restreint de l’environnement. On peut utiliser comme environnement de simulation une grille de 30x30 cellules. Chaque cellule disponible peut être occupée soit par une proie ou un prédateur. Pour des raisons de simplicité (éviter le problème de frontières) l'environnement est torique. L'environnement est discrétisé

102 comme une simplification du monde réel, qui est en réalité continu, de la façon suivante : - cinq actions {N,S,E,W,∅}, - un pas de temps ∆t, - une visibilité complète, et - une aptitude à estimer avec précision la distance.

En utilisant cet environnement, on peut calculer le nombre d'états possibles, pour 4 prédateurs et une seule proie. Comme il y a 5 positions possibles pour chaque agent, il existe un nombre de combinaisons égale à C (30x30 cellules, 5 agents) = C (900, 5) ≈ 4,866 x 1012

configurations possibles. Avec cinq directions possibles pour les agents, cela se traduit par environ 5 x 4,866 x 1012 états possibles. Pour apprendre les meilleures règles on peut utiliser les algorithmes génétiques, les réseaux de neurones ou le renforcement de manière homogène ou hétérogène.

Conclusion

Depuis l'avènement de l’informatique, une grande quantité de données est générée dans différents domaines. Ces données sont récoltées pour être analysées. Par exemple, dans le monde scientifique, des observations sur des phénomènes étudiés sont enregistrées. Dans le monde des finances, on collecte des données concernant le comportement des clients, l'évolution des indices boursiers ou encore les marchés financiers. Toutes ces données sont enregistrées car on pense qu'elles ne sont pas aléatoires mais qu'il y a, plutôt, un processus qui explique les différents patterns et tendances qui en découlent. Il est possible qu'on ne sache pas identifier le processus complètement mais une simple approximation peut être très utile. Une analyse de ces données permettrait de mieux comprendre certains comportements inscrits dans ces données, ou encore de faire des prévisions [Alp 04].

Donc, plusieurs disciplines tentent d'extraire de l'information à partir de pareilles données. Il existe plusieurs appellations pour la procédure de recherche d'informations dans les données, à savoir, l'extraction de la connaissance, l'analyse des patterns, la fouille des données et le traitement de ces dernières. Plus généralement, les techniques et outils d'analyse et de modélisation à partir des données sont groupés sous une même appellation : l'apprentissage

automatique [Bon 08].

Dans ce chapitre on à définit l’apprentissage en général et l’apprentissage automatique en particulier. Nous avons présenté aussi les types d’apprentissage automatique les plus courants. Notons que l’apprentissage collectif ou distribué, soutenu par l’évolution remarquable des SMA, s’avère très prometteur dans l’avenir.

On peut dire que l'apprentissage automatique, une fois métrisé complètement, sera la clé de tous les systèmes physiques et logiciels ; il va libérer toutes les constructions artificielles de l’homme pour les doter d’autonomie (dans le raisonnement et l’action), d’adaptation, d’évolution et même d’anticipation. Ceci dans un contexte d’évaluation mesurée et intelligente. En somme, se sera l’ère de la machine complète, qui pourra dépasser les capacités intellectuelles et émotionnelles de son constructeur, comme elle a déjà dépassé, depuis longtemps, ses capacités physiques.

Le prochain chapitre traite du domaine d’étude ciblé dans ce projet. Il s’agit de la robotique de groupe qui commence à s’affirmer comme une discipline à part entière, ouvrant des horizons d’investigations très prometteuses.

Références Bibliographiques

[Alp 04] E. Alpaydin. « Introduction To Machine Learning», MIT Press, 2004.

[Alp 10] E. Alpaydın, «Introduction to Machine Learning», MIT Press Cambridge, Massachusetts London, England, 2010.

[Ama 05] B.H. Amadou, S. Lecoeuche & S. Maouche, « Self-Adaptive Kernel Machine: Online Clustering in RKHS», IEEE IJCNN05, Montreal, Canada, 2005.

[Ber 86] R.C. Berwick, «Learning from positive-only examples: the subset principle and three cases studies», Machine Learning, Tome 2, Chapter 21, Morgan Kaufmann, 1986.

[Bon 08] G. Bontempi, «Statistical Foundations of Machine Learning», Course, 2008. [Bou 08] K. Boukharouba & S. Lecoeuche, « Online Clustering of Non-stationary Data

Using Incremental and Decremental SVM», ICANN 08, pp: 336-345, 2008.

[Bor 97] D. Borderie, « Conception et implémentation d'un système de simulation du processus de catégorisation chez l'enfant : les systèmes ROCE», Thèse de

l’Université de Droit, d'Economie et des Science d'Aix Marseille III, 1997.

[Bor 03] S. Borer, «New Support Vector Algorithms for Multi-categorical Data: Applied to Real-Time Object Recognition», Ph. D. Thesis, EPFL, Lausanne Swiss, 2003. [Bos 92] B.E. Boser, I.M. Guyon & V.N. Vapnik, «A training algorithm for optimal margin

classifiers», 5th Annual Workshop on Computational Learning Theory, pp: 144-152, Pittsburgh, USA, 1992.

[Col 90] G.W. Cottrell, «Extracting features from faces using compression networks :faces, identity, emotion and gender recognition using holons», Connection Models

:proceedings of the 1990 summer school, D.Touretsky editor, Morgan Kaufmann, San Mateo CA, 1990.

[Cox 94] T. Cox & M. Cox, «Multidimensional Scaling», Chapman & Hall, London, 1994. [Duf 09] F. Dufrenois, J. Colliez & D. Hamad, «Bounded Influence Support Vector

Regression for Robust Single-Model Estimation», IEEE Transactions on Neural

Networks 20 (11), pp: 1689-1706, 2009.

[Dre 08] G. Dreyfus, J.-M. Martinez, M. Samuelides, M. B. Gordon, F. Badran, S. Thiria, «Apprentissage statistique», ÉDITIONS EYROLLES, 2008.

[Fel 01] R. M. Felder and R. Brent, «Effective Strategies for Cooperative Learning»,

Journal of Cooperation and Collaboration in College Teaching, vol. 10, no. 2,

pp. 69–75, 2001.

[Gar 83] H. Gardner, «Frames of Mind: The Theory of Multiple Intelligences», New York:

Basic Books, 1983.

[Gue 02] Y. Guermeur, «Combining Discriminant Models with New Multi-Class SVMs»,

Pattern Analysis and Applications, vol. 5(2), pp: 168-179, 2002.

[Gui 05] V. Guigue, «Méthodes à noyaux pour la représentation et la discrimination de signaux non-stationnaires», Thèse de Doctorat de l'INSA de Rouen, France, 2005.

[Hal 00] C. R. Haller, V. J. Gallagher, T. L. Weldon, and R. M. Felder, « Dynamics of Peer Education in Cooperative Learning Workgroups», Journal of Engineering

Education, vol. 89, no. 3, pp. 285-293, 2000.

[Hat 93] J.P. Haton & M.C. Haton, «L'Intelligence Artificielle», PUF, Paris, 3e édition corrigée, 1993.

[Hay 96] T. Haynes and S. Sen, «Cooperation of the Fittest», in Late Breaking Papers at the

Genetic Programming Conference, Stanford University, July 1996, pp. 47-55.

[Hit 00] D. Hitchcock, «Dispelling Myths about Teams», AXIS Advisory, Spring 2000. [Jol 86] I.T. Jolliffe, «Principal Component Analysis», Springer-Verlag, New York, 1986.

104 [Jon 00] D. W. Johnson, R. T. Johnson & M. B. Stanne, «Cooperative Learning Methods: A Meta-Analysis», Methods of Cooperative Learning: What Can We Prove

Works, 2000.

[Kan 96] J-D. Kant, «Modélisation et mise en œuvre de processus cognitifs de catégorisation à l'aide d'un réseau connexionniste», Thèse de l’Université de Rennes 1, 1996. [Kar 05] U. Kartoun, H. Stern, Y. Edan, C. Feied, J. Handler, M. Smith, and M. Gillam,

«Collaborative Q(lambda) Reinforcement Learning Algorithm - A Promising Robot Learning Framework», Proceedings of the IASTED International

Conference on Robotics and Applications, Oct. 31 - Nov. 2 2005, pp. 13-19.

[Kha 99] N.N. Kharma & R.K. Ward, «Systèmes de reconnaissance de caractères pour les non-experts», IEEE , Canadien review, Issue 33,1999.

[Kov 02] R. Kohavi & R. Quinlan, « Decision Tree Discovery», Handbook of Data Mining

and Knowledge Discovery, Klosgen & Zytkow Editors, Chapter 16.1.3, pages

267-276, Oxford University Press, 2002.

[Lan 90] K.J. Lang, A.H. Waibel, G.E. Hinton, « A time-delay neural network architecture for isolated word recognition», Neural Network vol 3, 33-43, 1990.

[Lar 08] H. Larochelle, «Étude de techniques d’apprentissage non-supervisé pour l’amélioration de l’entraînement supervisé de modèles connexionnistes», Thèse de

l’Université de Montréal, 2009.

[Lec 89] Y. LeCun, B. Boser, J.S. Denker, D. Henderson, J.E. Howard, W. Hubbard & L.D. Jackel, « Backpropagation applied to handwritten zip code recognition», Neural

computation Vol 1(4), 1989.

[Li 04] L. Li, A. Martinoli, and Y. S. Abu-Mostafa, «Learning and Measuring Specialization in Collaborative Swarm Systems», Adaptive Behavior - Animals,

Animats, Software Agents, Robots, Adaptive Systems, vol. 12, no. 3-4, pp.

199-212, 2004.

[Mac 67] J. MacQueen, «Some methods for classification and analysis of multivariate observations», Proceedings of the Fifth Berkeley Symposium on Mathematics,

Statistics and Probability, Vol. 1, pp: 281-296, 1967.

[Man 99] C. Manning & H. Schütze, « Foundations of Statistical Natural Language Processing», MIT Press, Cambridge, 1999.

[Mat 96] M. Mataric, «Learning in Robot Systems», Adaption and Learning in Multi-Agent Systems, pp: 152–163, 1996.

[Mic 83] R.S. Michalski & R.E Stepp, «Learning form observation: conceptual Clustering»,

Machine Learning, Tome 1, Chapitre 11, Morgan Kaufmann, 1983.

[Mit 97] T. Mitchell, «Machine Learning», McGraw-Hill, 1997.

[Oso 98] F.S. Osório, «INSS : Un Système Hybride Neuro-Symbolique pour l’Apprentissage Automatique Constructif», Thèse de L’Institut National

Polytechnique de Grenoble - I.N.P.G., Laboratoire LEIBNIZ – IMAG, 1998.

[Pak 99] L. Parker, «A Case Study for Life-long Learning and Adaptation in Cooperative Robot Teams», Proceedings of the SPIE Sensor Fusion and Decentralized

Control in Robotic Systems II, vol. 3839, 1999, pp. 92–101.

[Pan 05] L. Panait and S. Luke, «Cooperative Multi-Agent Learning: The State of the Art»,

Autonomous Agents and Multi-Agent Systems, vol. 11, no. 48, pp. 387-434,

November 2005.

[Pay 98] J. Payne-Anderson, «Training and Learning in Teams», University of North

[Pia 78] J. Piaget et B. Inhelder, «La psychologie de l'enfance», Paris, P.U.F, p. 101,1978. [Qui 93] R. Quinlan, «C4.5: Programs for Machine Learning», Morgan Kaufman

Publishers, 1993.

[Rai 07] R. Raina, Alexis Battle, Honglak Lee, Benjamin Packer et Andrew Y. Ng. «Selftaught learning : transfer learning from unlabeled data», ICML, pp: 759-766, 2007.

[Rak 05] R. Rakomalala, «Arbres de Décision», pp : 163-187, N° 33, Revue MODULAD, 2005.

[Ran 07] M.A. Ranzato, C. Poultney, S. Chopra & Y. LeCun, «Efficient learning of sparse representations with an energy-based model», B. Schölkopf, J. Platt et T.

Hoffman, éditeurs, Advances in Neural Information Processing Systems 19, MIT Press, 2007.

[Ras 00] S. Rascale, «Apprentissage et Enseignement : La Recherche d’un Eldorado»,

CEFEDEM - MUSIQUE de Lyon, Discipline : Alto, Promotion 1998-2000.

[Roy 90] J-C. Royer «MANDRIN: Un système d'apprentissage pour l'aide au réglage d'un instrument», Thèse de l’Institut National Polytechnique de Grenoble, 1990. [Rüp 01] S. Rüping, «Incremental Learning with Support Vector Machines», IEEE

International Conference on Data Mining (ICDM 01), San Jose, CA, 2001.

[Sal 01] J. Salomon, «Support Vector Machines for Phoneme Classification», Master of science, School of Artificial Intelligence, University of Edinburgh, 2001.

[Sam 59] A.L. Samuel, « Somme studies in machine learning using the game of heckers»,

IBM Journal of resarch and development 3, 211-229, 1959.

[Sch 07] S. R. Schach, «Object-Oriented and Classical Software Engineering», Seventh Edition, McGraw-Hill Science/Engineering/Math, 2007.

[Sim 99] J. SIMON, «Modèles Formels de l’Apprentissage et Catégorisation : Contribution à une étude comparée», Thèse de l’université des sciences et technologie de

Lille, 1999.

[Smi 95] K. A. Smith, « Cooperative Learning: Effective Teamwork for Engineering Classrooms», Proceedings of the Frontiers in Education Conference, vol. 1, no. 1-4, 1995, pp. 2b5.13–2b5.18.

[Sto 00] P. Stone and M. Veloso, «Multiagent Systems: A Survey from a Machine Learning Perspective», Autonomous Robots, vol. 8, no. 3, pp. 345–383, July 2000.

[Suc 06] H-M. Suchier, «Nouvelles Contributions du Boosting en Apprentissage Automatique», Thèse de l’Université Jean Monnet de Saint-Étienne, 2006.

[Sut 98] R.S. Sutton et A.G. Barto, « Reinforcement Learning: An Introduction », A

Bradford Book, The MIT Press, Cambridge, Massachusetts, London, England,

1998.

[Suy 99] J.A.K. Suykens & J. Vandewalle, «Least squares support vector machine classifiers», Neural Processing Letters 9 (3), pp: 293-300, 1999.

[Tan 97] M. Tan, «Multi-Agent Reinforcement Learning: Independent vs. Cooperative Learning», Readings in Agents. Morgan Kaufmann, 1997, pp. 487-494. [Tur 00] N. Turenne, «Apprentissage statistique par l’extraction de concepts à partir de

textes. Application au filtrage d’informations textuelles», Thèse de l’université de

106 [Van 08] L.J.P. Van der Maaten & G.E. Hinton, «Visualizing high-dimensional data using

t-sne», Journal of Machine Learning Research, 2008.

[Vap 95] V.N.Vapnik, «The Nature of Statistical Learning Theory», Springer-Verlag New

York, 1995.

[Wei 04] K.Q. Weinberger, F. Sha et L.K. Saul, «Learning a kernel matrix for nonlinear dimensionality reduction», Proceedings of the Twenty First International

Conference on Machine Learning (ICML-04), pp: 839-846, Banff, Canada,

2004.

[Yil 04] M. Yildizoglu & T. Vallée, «Présentation des algorithmes génétiques et de leurs applications en économie», Revue d'Economie Politique, n° 114, pp : 711-745,

2004.

Site Web

Chapitre 4