• Aucun résultat trouvé

Evolution et apprentissage

5.3 Evolution et cerveau

5.3.1 Evolution et apprentissage

Les processus d’´evolution et d’apprentissage peuvent ˆetre consid´er´es comme faisant partie d’une mˆeme famille. En effet, ils permettent tous deux l’acquision de connais-sances sur l’environnement. On parle ainsi respectivement de connaisconnais-sances acquises phylog´en´etiquement et ontog´en´etiquement (Wozniak, 2006a). Cependant, ces processus agissent `a des ´echelles de temps et sur des objets diff´erents : l’´evolution agit `a l’echelle des g´en´erations sur des populations d’individus, tandis que l’apprentissage agit sur l’individu `a l’´echelle de sa dur´ee de vie. L’utilisation de l’´evolution conjointe des RNA et des AE permet d’introduire un apprentissage “multi-´echelle”. L’utilisation de l’´evolution permet alors de superviser le comportement du RNA sans avoir recours `a des algorithmes

d’ap-prentissage supervis´e o`u l’on indique explicitement au RNA la sortie d´esir´ee (voir section

4.1.1). Cette sortie optimale ´emerge d’elle-mˆeme au cours de l’´evolution, puisque si l’in-dividu ne se comporte pas de mani`ere appropri´ee, sa performance sera faible et ces g`enes ne seront pas propag´es dans les g´en´erations ult´erieures .

Algorithmes ´evolutionnistes et r´eseaux de neurones

Les algorithmes ´evolutionnistes et les r´eseaux de neurones peuvent ˆetre vus comme deux techniques d’intelligence artificielle, partant toutes deux d’une inspiration biolo-gique, et pouvant ˆetre utilis´ees en optimisation. De nombreuses ´etudes ont compar´e leurs performances respectives sur un mˆeme probl`eme (Kitano, 1990b; Seiffert, 2001; Soula et al., 2005). Sur le mod`ele du perceptron multi-couches (voir section 4.1.1), on peut apprendre un ensemble de motifs en optimisant les poids du r´eseau soit grˆace `a un AE, soit par la m´ethode de retropropagation du gradient d’erreur. La comparaison des per-formances d’apprentissage montrent que, si la taille du r´eseau est grande, l’AE donnent de bons r´esultats plus rapidement que l’algorithme d’apprentissage (Seiffert, 2001).

On peut utiliser les deux techniques de mani`ere conjointe, pour exploiter les propri´et´es respectives de l’´evolution et de l’apprentissage. En effet, les avantages de ces techniques

sont diff´erents. Les AE sont capables de trouver la zone o`u se trouve l’optimum global, par

une recherche dans tout l’espace des solutions, mais sans forc´ement parvenir rapidement `a atteindre le point optimal dans la zone. En revanche, les algorithmes d’optimisation par

Performances

Performances

Valeurs des parametres Valeurs des parametres

Fig. 5.3 – Repr´esentation sch´ematique du fonctionnement d’un AE (`a gauche) et d’un

algorithme d’optimisation par descente en gradient (`a droite). Le point rouge correspond `a la meilleure solution trouv´ee par les algorithmes. L’AE est capable de trouver

rapi-dement la zone o`u se trouve l’optimum global, sans forc´ement l’atteindre. L’algorithme

d’optimisation par descente en gradient est d´ependant de la position de d´epart, mais trouvera l’optimum local le plus proche.

descente en gradient sont capables d’affiner une solution en partant d’un point proche (voir figure 5.3). Ainsi, en combinant les deux techniques, on peut tout d’abord faire une recherche globale grˆace `a un AE, puis une fois qu’une solution proche de l’optimum globale est trouv´ee, l’affiner par un algorithme d’apprentissage connexioniste.

Un exemple d’utilisation conjointe est la s´election par un AE des valeurs de poids initiaux dans un RNA, le perceptron multi-couches (voir section 4.1.1). En effet, un des probl`emes de l’apprentissage par retro-propagation est l’initialisation des poids. Lorsque les poids initiaux sont choisis al´eatoirement, le tirage al´eatoire va avoir une grande in-fluence sur les propri´et´es d’apprentissage du mod`ele. Kinnebrock (1994) montre ainsi que dans ce cas, l’apprentissage aboutit `a de meilleures perfomrances que dans le cas d’un tirage initial al´eatoire, et surtout beaucoup plus rapidement.

Chalmers (1990) combine un AE et une r`egle d’apprentissage d’une autre mani`ere. Cette fois, ce ne sont pas les poids initiaux qui sont optimis´es, ce sont les param`etres de la r`egle d’apprentissage dont sont optimis´es. L’auteur d´efinit une regle d’apprentissage comme la combinaison lin´eaire de quatre variables, ainsi que les six produits de chaque paire de variables. Les param`etres cod´es sur les chromosomes sont les 10 coefficients d´efinit par cette r`egle. En utilisant comme crit`ere de performance le taux de classification sur un probl`eme classique, l’auteur montre que l’AE retrouve la r`egle delta (Widrow et Hoff, 1960).

L’un des probl`emes de l’utilsation conjoite d’un AE et d’un RNA est le probl`eme de l’enjambement (Kitano (1990b); Yao (1999)). En effet, le fonctionnement d’un AE se base sur la notion de bloc de construction (voir section 5.2.2), c.`a.d. un sous-ensemble de g`enes, proches sur le chromosome et produisant des individus aux performances ´elev´ees, quel que soit le reste des g`enes. Or le fonctionnement d’un r´eseau de neurones est par nature distribu´e, et c’est le r´eseau pris dans sa globalit´e, du fait de l’interaction de l’ensemble de ses variables qui constitue une bonne solution. Deux ensembles de valeurs de poids synaptiques donnant chacune de bonnes performances ont toutes les chances d’aboutir `a une performance m´ediocre apr`es recombinaison.

Mod`elisation de l’effet Baldwin

Diff´erents mod`eles de l’effet Baldwin (section 5.1.2) ont ´et´e r´ealis´es. La plupart de ces mod`eles, hormis celui de Hinton et Nowlan (1987), se basent sur l’utilisation conjointe

d’un AE et d’un perceptron multi-couches, o`u l’AE optimise les valeurs initiales des poids

synaptiques (voir section pr´ec´edente).

Hinton et Nowlan (1987) sont les premiers `a avoir propos´e un mod`ele qui montre comment la transmission de g`enes, non d´etermin´es initialement, mais appris au cours de la vie, peut aboutir `a la fixation des g`enes au fur et `a mesure de l’´evolution. Dans cette simulation, les g`enes peuvent prendre trois valeurs : 0, 1, ou ?, correspondant `a la pr´esence (1), ou non (0) d’une connection. Le ? signifie que la pr´esence de la connection est ind´etermin´ee. L’apprentissage correspond `a 1000 tirages al´eatoires des loci correspon-dant aux ?, qui prennent les valeurs 0 ou 1. Le crit`ere de performance est d’atteindre une configuration donn´ee par exemple, uniquement des 1, le plus rapidement possible. Les r´esultats montrent que la proportion de 0 diminue au cours du temps, tandis que la proportion de 1 augmente. Ainsi, ce qui est appris (les ? initiaux) devient progressivement inscrit dans les g`enes (des 1), pour permettre `a l’individu de r´epondre plus rapidement.

L’exp´erience de Hinton et Nowlan (1987) a ´et´e contest´ee, notamment par Mayley (1997). En effet, dans l’exp´erience de Hinton et Nowlan (1987), le crit`ere de performance tient compte du temps que l’individu passe `a apprendre la bonne combinaison, et il force l’´evolution `a l’inscription g´en´etique de caract`eres pr´ed´etermin´es. Or, le fait de pouvoir apprendre comporte ´egalement des avantages. Mayley introduit l’effet de masquage de l’apprentissage (hiding effect) : la possibilit´e d’apprentissage pendant la vie permet de masquer `a la s´election naturelle le fait que l’individu n’´etait pas directement adapt´e, de mani`ere inn´ee. Cet effet permet d’expliquer pourquoi tous les comportements rencontr´es par nos ancˆetres ne sont pas syst´ematiquement encod´es dans nos g`enes, et ainsi pourquoi nous sommes capables de flexibilit´e dans nos comportements.

D’autre part, l’apprentissage joue un grand rˆole dans un environnement fluctuant.

Sasaki et Tokoro (2000) utilisent un environnement simplifi´e o`u des items pr´esent´es aux

individus peuvent ˆetre de la nourriture ou du poison. Chaque individu peut choisir, par l’interm´ediaire des sorties du r´eseau de neurones lui correspondant, de manger, ou non, ces items. Le crit`ere de performance est calcul´e par le nombre d’items “nourriture” mang´es, moins le nombre d’items “poison” mang´es. Si les items gardent toujours la mˆeme nature au cours de l’´evolution, un processus d’encodage au niveau g´en´etique, sans apprentissage, produit un accroissement des performances au cours de l’´evolution. En revanche, si l’en-vironnement fluctue, c.`a.d si les items changent de nature au cours due l’´evolution, les individus capables d’apprendre ont de meilleures performances que les individus dont le comportement est fix´e g´en´etiquement. Ainsi, dans un environnement statique, l’appren-tissage n’a aucun int´erˆet, l’ensemble des comportements pouvant ˆetre sp´ecifi´e de mani`ere g´en´etique. Cependant, comme l’environnement dans lequel se d´eplacent les ˆetres vivants est en perp´etuelle modification, il apparait vital que ceux-ci conservent la possibilit´e d’un apprentissage au cours de la vie.