Environnement virtuel - Mod`ele d’´evolution

8.3 Mod`ele d’´evolution

8.3.2 Environnement virtuel

Fig. 8.6 – L’environnement virtuel, compos´e d’animaux (proies en bleu, pr´edateurs en

rouge) et de points noirs. L’individu apparait en haut `a gauche

Nous avons redéfini un environnement virtuel déjà existant (Reynaud et Puzenat, 2001), permettant d’effectuer l’évaluation d’un individu controlé par le RNA définit dans la section précédente. L’environnement (figure 8.6) est composé de 40*25 cases, pouvant etre chacune occupée par l’individu, un animal ou un point noir. L’individu apparaˆıt en haut à gauche sur la figure. Les animaux sont prédéfinis comme étant des prédateurs (en rouge sur la figure 8.6) ou des proies (en bleu). Les comportements des animaux sont stochastiques, avec une tendance à se rapprocher de l’individu pour les prédateurs, et à s’éloigner de l’individu pour les proies. Les animaux en gris sont neutres et se déplacent aléatoirement. La disposition des animaux et de l’individu dans l’environnement est ini-tialement toujours la même. L’individu peut passer sur les proies, les animaux neutres, et les points noirs, en les faisant disparaˆıtre. En revanche, Il ne peut pas avancer sur une case

o`u se trouve un pr´edateur ni sur un mur (constituant les bords de l’environnement). Il y a

13 types d’animaux différents dans l’environnement (2 prédateurs, 8 proies, 3 neutres) et l’individu accède à plusieurs types d’informations perceptives : chaque animal est associé à un motif visuel et un motif auditif. Les murs correspondent à un motif visuel particulier (une croix), et n’émettent pas de sons.

Les motifs, auditifs et visuels, qui sont envoyés au RNA par l’intermédiaire des groupes d’entrée, dépendent de la distance séparant l’objet per¸cu de l’individu. Un niveau de bruit

est ajout´e au motif re¸cu par le groupe, proportionnellement `a la distance entre l’individu et le stimulus.

Fig. 8.7 – Port´ee auditive et visuelle de l’individu

Les portées des champs auditifs et visuels sont définies différemment (voir figure 8.7). Pour la modalité visuelle, chacun des 5 groupes d’entrée correspond à une “ligne visuelle” dans l’environnement, par rapport à la tête de l’individu. Chaque ligne a une longueur différente, permettant la réalisation d’un cône de vision. Si un animal se trouve dans une ligne visuelle, l’image de cet animal est envoyée sur le goupe d’entrée correspondant. Si plusieurs animaux se trouvent sur la même ligne visuelle, seule l’image de l’animal le plus proche est envoyée. Si plusieurs animaux se trouvent dans des lignes différentes, les motifs correspondant sont envoyés aux différents groupes.

Pour la modalité auditive, le champ perceptif dépend également de la direction de la tête de l’individu. Si l’animal est à gauche par rapport à la direction de la tête , le signal auditif de l’animal le plus proche est envoyé à l’oreille gauche uniquement. Si l’animal est à droite, le signal de l’animal le plus proche est seulement envoyé à l’oreille droite. Si l’animal est devant, ou derrière l’individu, le signal est envoyé aux deux oreilles.

Un signal de punition est émis lorsque l’individu est en contact direct avec un prédateur, c.à.d sur une case voisine à l’horizontal ou à la verticale. Le signal est une activation si-multanée de tous les neurones du groupe correspondant. Un signal de récompense est émis dans deux cas : lorsque l’individu passe sur un des points noirs sur la figure 8.6, ou lorsque l’individu passe sur une proie et la détruit. Les deux signaux diffèrent par leurs intensités : l’ingestion d’un point noir correspond à une activation diffuse sur la largeur de l’intervalle de temps de tous les neurones du groupe correspondant, tandis que l’ingestion d’une proie active simultanément tous les neurones du groupe correspondant.

On définit le plus petit pas de temps de l’environnement comme étant la longueur de l’intervalle de temps defini dans la partie 8.3.1 pour que l’individu puisse percevoir ou se déplacer (1 pas de temps = 10ms de temps calculé).

En plus des perceptions envoyées au réseau de neurones, certaines situations ont une influence sur une variable interne, le niveau de vie. Au départ, le niveau de chaque

in-dividu est fixé à 200 points de vie. l’inin-dividu perd 10 points de vie par pas de temps où celui-ci est en contact avec le prédateur. Il gagne 20 points de vie pour chaque point noir atteint, et 200 points de vie pour chaque proie ingérée. Tous les 5 pas de temps, on lui retire un point de vie. Lorsque le niveau de vie de l’individu atteint 0, la simulation est arrétée. Un critère d’arrêt sur un nombre de pas de temps (10000) est également défini, afin de permettre à la simulation de se terminer relativement rapidement, si l’individu reste trop longtemps en vie.

Nous avons ajouté une contrainte pour le passage dans l’environnement. Le réseau est initialisé par l’activation simultanée de tous les groupes d’entrée, puis tourne à vide pendant 100ms. Si le réseau de neurones de l’individu est incapable de maintenir une activité interne pendant les 100 premières millisecondes, alors l’individu ne peut plus recevoir de nouvelles perceptions, et il ne pourra plus se déplacer. L’individu est alors statique dans l’environnement et son niveau de vie chute en raison de la baisse régulière de son niveau de vie, et de la proximité de prédateurs qu’il ne per¸coit plus. Le temps de vie correspondant à ce cas est le temps de vie minimal que peut passer un individu dans l’environnement.

Le passage d’un individu dans l’environnement permet l’évaluation du réseau, et défini le critère de performance utilisé dans l’AE.

8.3.3 Algorithme ´evolutionniste

L’algorithme évolutionniste utilisé est issu du paradigme classique de l’évolution ar-tificielle (voir section 5.2). Le programme est développé en C++.

Au départ, une population de chromosomes (100 individus) est générée aléatoirement, en respectant les contraintes du codage par projections défini à la section 8.3.1. Les individus de cette population sont ensuite placés successivement dans l’environnement virtuel, chaque individu étant contrôlé par le réseau de neurones dont la topologie est la traduction d’un chromosome par le codage par projection.

Pour créer une nouvelle génération, on enchaˆıne alors les trois étapes définies ci-dessous.

– ´Evaluation : L’´evaluation permet de connaˆıtre la performance de chaque individu.

Ici, la performance d’un individu est l’intégrale de son niveau de vie dans le temps. Cette mesure permet de privilégier les individus restant un grand nombre de pas de temps dans l’environnement, avec un niveau de vie élevé.

– Sélection : Une fois chacun des individus évalué, on effectue une sélection par

tournois. Le principe en est le suivant : chaque tournoi implique une partie (ici, 10 chromosomes) de la population totale. Les chromosomes qui prennent part à un tournoi sont tirés aléatoirement dans l’ensemble de la population. Le vainqueur du tournoi est le chromosome de l’individu qui a la performance la plus élevée. Ce chromosome est recopié dans la nouvelle population. On effecte autant de tour-nois que de chromosomes à sélectionner pour la nouvelle population. L’avantage de ce processus est qu’il est stochastique, tout en privilégiant les individus ayant de

bonnes performances.

– Variation : Dans la nouvelle population, les chromosomes ne sont pour l’instant que des copies des chromosomes de la population initiale. Afin d’introduire de nouvelles combinaisons de gènes, on brasse la population en appliquant avec une certaine pro-babilité les deux opérateurs génétiques, de mutation et d’enjambement (voir section 5.2). Les probabilités de mutation et d’enjambement sont ici choiseis de manière à ce que, en moyenne, chaque chromosome voit un de ces gènes muter, et participe à un enjambement avec un autre chromosomes.

Afin de garantir que les meilleurs individus sont toujours présents d’une génération sur l’autre, une procédure dite d’élitisme est mise en place. Les 10 meilleurs individus de la population courante sont recopiés tels quels dans la nouvelle population, sans passer par les étapes de sélection et de variation. De plus, ces individus sont aussi susceptibles d’être choisis pour participer à un tournoi, et peuvent aussi se retrouver dans la partie de la nouvelle population qui être soumise à l’étape de variation.

Il peut arriver que le même individu soit présent en plusieurs exemplaires identiques dans la nouvelle population, parce qu’il a été selectionné plusieurs fois, puis a echappé plu-sieurs fois à l’étape de variation. Afin de garantir un plus fort brassage des gènes présents dans la population, et pour éviter d’évaluer plusieurs fois le même individu, un système de réinitialisation des doublons a été introduit : on ne garde qu’une seule version de chaque individu, les autres versions sont remplacées par des chromosomes complètement aléatoires. Avec des taux relativement élevés de mutation et d’enjambement, ce cas est cependant relativement rare.

L’algorithme s’arrête au bout d’un nombre de générations fixées à l’avance, ici 30

générations. Nous ferons par la suite référence à la population évoluée pour désigner la

population obtenue après 30 générations, et à la population aléatoire pour désigner la

population initiale.

Nous avons con¸cu un système où le comportement de l’individu s’adapte à

l’envi-ronnement, sans tenir compte des propriétés topologiques ou dynamiques du réseau de neurones qui le contrôle. Au cours du chapitre 9, nous montrons que le comportement de l’individu est effectivement amélioré au cours de l’évolution (section 9.1), et que ses capacités d’apprentissage le sont également, sans que cette propriété n’intervienne dans le calcul de la performance (section 9.2). Nous nous intéresserons par la suite à la topologie (chapitre 10) et à la dynamique (chapitre 11) des réseaux évolués.

Chapitre 9

R´esultats sur l’´evolution et

l’apprentissage

Dans ce chapitre, nous montrons que le protocole d’évolution fonctionne correctement, et qu’il permet d’améliorer les performances des individus au cours des générations (sec-tion 9.1). D’autre part, nous étudions les capacités d’apprentissage des réseaux au fur et à mesure de l’évolution. Ces résultats ont fait l’objet d’une publication (Meunier et Paugam-Moisy, 2005).

9.1 R´esultats sur le comportement

Dans le document Une modélisation évolutionniste du liage temporel (Page 104-108)