Evolution et apprentissage - Evolution et cerveau

5.3 Evolution et cerveau

5.3.1 Evolution et apprentissage

Les processus d’évolution et d’apprentissage peuvent être considérés comme faisant partie d’une même famille. En effet, ils permettent tous deux l’acquision de connais-sances sur l’environnement. On parle ainsi respectivement de connaisconnais-sances acquises phylogénétiquement et ontogénétiquement (Wozniak, 2006a). Cependant, ces processus agissent à des échelles de temps et sur des objets différents : l’évolution agit à l’echelle des générations sur des populations d’individus, tandis que l’apprentissage agit sur l’individu à l’échelle de sa durée de vie. L’utilisation de l’évolution conjointe des RNA et des AE permet d’introduire un apprentissage “multi-échelle”. L’utilisation de l’évolution permet alors de superviser le comportement du RNA sans avoir recours à des algorithmes

d’ap-prentissage supervisé où l’on indique explicitement au RNA la sortie désirée (voir section

4.1.1). Cette sortie optimale émerge d’elle-même au cours de l’évolution, puisque si l’in-dividu ne se comporte pas de manière appropriée, sa performance sera faible et ces gènes ne seront pas propagés dans les générations ultérieures .

Algorithmes ´evolutionnistes et r´eseaux de neurones

Les algorithmes évolutionnistes et les réseaux de neurones peuvent être vus comme deux techniques d’intelligence artificielle, partant toutes deux d’une inspiration biolo-gique, et pouvant être utilisées en optimisation. De nombreuses études ont comparé leurs performances respectives sur un même problème (Kitano, 1990b; Seiffert, 2001; Soula et al., 2005). Sur le modèle du perceptron multi-couches (voir section 4.1.1), on peut apprendre un ensemble de motifs en optimisant les poids du réseau soit grâce à un AE, soit par la méthode de retropropagation du gradient d’erreur. La comparaison des per-formances d’apprentissage montrent que, si la taille du réseau est grande, l’AE donnent de bons résultats plus rapidement que l’algorithme d’apprentissage (Seiffert, 2001).

On peut utiliser les deux techniques de manière conjointe, pour exploiter les propriétés respectives de l’évolution et de l’apprentissage. En effet, les avantages de ces techniques

sont diff´erents. Les AE sont capables de trouver la zone o`u se trouve l’optimum global, par

une recherche dans tout l’espace des solutions, mais sans forc´ement parvenir rapidement `a atteindre le point optimal dans la zone. En revanche, les algorithmes d’optimisation par

Performances

Valeurs des parametres Valeurs des parametres

Fig. 5.3 – Représentation schématique du fonctionnement d’un AE (à gauche) et d’un

algorithme d’optimisation par descente en gradient (à droite). Le point rouge correspond à la meilleure solution trouvée par les algorithmes. L’AE est capable de trouver

rapi-dement la zone o`u se trouve l’optimum global, sans forc´ement l’atteindre. L’algorithme

d’optimisation par descente en gradient est d´ependant de la position de d´epart, mais trouvera l’optimum local le plus proche.

descente en gradient sont capables d’affiner une solution en partant d’un point proche (voir figure 5.3). Ainsi, en combinant les deux techniques, on peut tout d’abord faire une recherche globale grâce à un AE, puis une fois qu’une solution proche de l’optimum globale est trouvée, l’affiner par un algorithme d’apprentissage connexioniste.

Un exemple d’utilisation conjointe est la sélection par un AE des valeurs de poids initiaux dans un RNA, le perceptron multi-couches (voir section 4.1.1). En effet, un des problèmes de l’apprentissage par retro-propagation est l’initialisation des poids. Lorsque les poids initiaux sont choisis aléatoirement, le tirage aléatoire va avoir une grande in-fluence sur les propriétés d’apprentissage du modèle. Kinnebrock (1994) montre ainsi que dans ce cas, l’apprentissage aboutit à de meilleures perfomrances que dans le cas d’un tirage initial aléatoire, et surtout beaucoup plus rapidement.

Chalmers (1990) combine un AE et une règle d’apprentissage d’une autre manière. Cette fois, ce ne sont pas les poids initiaux qui sont optimisés, ce sont les paramètres de la règle d’apprentissage dont sont optimisés. L’auteur définit une regle d’apprentissage comme la combinaison linéaire de quatre variables, ainsi que les six produits de chaque paire de variables. Les paramètres codés sur les chromosomes sont les 10 coefficients définit par cette règle. En utilisant comme critère de performance le taux de classification sur un problème classique, l’auteur montre que l’AE retrouve la règle delta (Widrow et Hoff, 1960).

L’un des problèmes de l’utilsation conjoite d’un AE et d’un RNA est le problème de l’enjambement (Kitano (1990b); Yao (1999)). En effet, le fonctionnement d’un AE se base sur la notion de bloc de construction (voir section 5.2.2), c.à.d. un sous-ensemble de gènes, proches sur le chromosome et produisant des individus aux performances élevées, quel que soit le reste des gènes. Or le fonctionnement d’un réseau de neurones est par nature distribué, et c’est le réseau pris dans sa globalité, du fait de l’interaction de l’ensemble de ses variables qui constitue une bonne solution. Deux ensembles de valeurs de poids synaptiques donnant chacune de bonnes performances ont toutes les chances d’aboutir à une performance médiocre après recombinaison.

Mod`elisation de l’effet Baldwin

Différents modèles de l’effet Baldwin (section 5.1.2) ont été réalisés. La plupart de ces modèles, hormis celui de Hinton et Nowlan (1987), se basent sur l’utilisation conjointe

d’un AE et d’un perceptron multi-couches, o`u l’AE optimise les valeurs initiales des poids

synaptiques (voir section pr´ec´edente).

Hinton et Nowlan (1987) sont les premiers à avoir proposé un modèle qui montre comment la transmission de gènes, non déterminés initialement, mais appris au cours de la vie, peut aboutir à la fixation des gènes au fur et à mesure de l’évolution. Dans cette simulation, les gènes peuvent prendre trois valeurs : 0, 1, ou ?, correspondant à la présence (1), ou non (0) d’une connection. Le ? signifie que la présence de la connection est indéterminée. L’apprentissage correspond à 1000 tirages aléatoires des loci correspon-dant aux ?, qui prennent les valeurs 0 ou 1. Le critère de performance est d’atteindre une configuration donnée par exemple, uniquement des 1, le plus rapidement possible. Les résultats montrent que la proportion de 0 diminue au cours du temps, tandis que la proportion de 1 augmente. Ainsi, ce qui est appris (les ? initiaux) devient progressivement inscrit dans les gènes (des 1), pour permettre à l’individu de répondre plus rapidement.

L’expérience de Hinton et Nowlan (1987) a été contestée, notamment par Mayley (1997). En effet, dans l’expérience de Hinton et Nowlan (1987), le critère de performance tient compte du temps que l’individu passe à apprendre la bonne combinaison, et il force l’évolution à l’inscription génétique de caractères prédéterminés. Or, le fait de pouvoir apprendre comporte également des avantages. Mayley introduit l’effet de masquage de l’apprentissage (hiding effect) : la possibilité d’apprentissage pendant la vie permet de masquer à la sélection naturelle le fait que l’individu n’était pas directement adapté, de manière innée. Cet effet permet d’expliquer pourquoi tous les comportements rencontrés par nos ancêtres ne sont pas systématiquement encodés dans nos gènes, et ainsi pourquoi nous sommes capables de flexibilité dans nos comportements.

D’autre part, l’apprentissage joue un grand rˆole dans un environnement fluctuant.

Sasaki et Tokoro (2000) utilisent un environnement simplifié où des items présentés aux

individus peuvent être de la nourriture ou du poison. Chaque individu peut choisir, par l’intermédiaire des sorties du réseau de neurones lui correspondant, de manger, ou non, ces items. Le critère de performance est calculé par le nombre d’items “nourriture” mangés, moins le nombre d’items “poison” mangés. Si les items gardent toujours la même nature au cours de l’évolution, un processus d’encodage au niveau génétique, sans apprentissage, produit un accroissement des performances au cours de l’évolution. En revanche, si l’en-vironnement fluctue, c.à.d si les items changent de nature au cours due l’évolution, les individus capables d’apprendre ont de meilleures performances que les individus dont le comportement est fixé génétiquement. Ainsi, dans un environnement statique, l’appren-tissage n’a aucun intérêt, l’ensemble des comportements pouvant être spécifié de manière génétique. Cependant, comme l’environnement dans lequel se déplacent les êtres vivants est en perpétuelle modification, il apparait vital que ceux-ci conservent la possibilité d’un apprentissage au cours de la vie.

Dans le document Une modélisation évolutionniste du liage temporel (Page 61-64)