• Aucun résultat trouvé

Description formelle rapide d’un algorithme génétique

A.2 Modélisation par chaînes de Markov

A.2.1 Description formelle rapide d’un algorithme génétique

Soit N la taille (fixe) de la population, notons Xkla population de la génération k : il s’agit d’une matrice Xk= (Xk1, Xk2, .. XkN) de ENdont les N éléments sont des chaînes de bits (chromosomes) de taille P . Le passage de la génération k à la génération k + 1, c’est-à-dire de Xkà Xk+1se décompose en trois étapes :

Xk M utation−→ Yk Croisement−→ Zk S ´election−→ Xk+1

Chacune de ces étapes peut être modélisée formellement. – Mutation Xk−→ Yk:

3Les données intéressantes sont bien entendu les données qui sont proches de la solution optimale. Un bon codage des données implique donc d’avoir une idée de la forme de l’optimum.

A.2. MODÉLISATION PAR CHAÎNES DE MARKOV 151

L’opérateur considéré ici est le suivant : pour chaque composante de chaque élément Xki, une variable de Bernouilli de paramètre Pm est tirée indépendamment et, suivant le résultat, l’élé-ment binaire examiné est changé ou non. (0 est changé en 1 et 1 en 0).

La probabilité Pmde mutation doit être préalablement choisie et est généralement faible. Comme nous le verrons par la suite, cet opérateur joue un rôle clé dans la convergence de l’algorithme génétique.

– Croisement Yk −→ Zk:

L’opérateur étudié ici est l’opérateur à un point (slicing crossover). Ici encore, la probabilité de croisement Pc est fixée initialement. Pour construire la population Zk, N/2 couples sont formés à partir de la population Yk (par exemple en appariant les individus consécutifs de Yk, ou bien en choisissant au hasard et uniformément des individus dans Yk). Pour chaque couple, une variable de Bernoulli de paramètre Pcest tirée pour décider si le croisement a lieu. Si c’est le cas, un site de coupure est tiré au hasard, et les segments finaux des deux chromosomes sont échangés.

Une nouvelle paire d’individus est ainsi obtenue (identique à l’ancienne s’il n’y a pas eu de croisement) et est stockée dans la population Zk. En général, le paramètre Pcest choisi grand. Remarquons que les opérateurs de mutation et de croisement ne font pas intervenir la fonction f , ce sont des opérateurs stochastiques d’exploration. C’est le troisième et dernier opérateur, la sélection, qui guide la population vers les valeurs élevées de la fonction f.

– Sélection Zk −→ Xk+1

Les N individus de la population Xk+1 sont obtenus après sélection des individus de Zk. On conserve ainsi les “meilleurs” individus de Zk, indépendamment à l’aide d’une distribution de probabilité qui favorise les individus de Zkles mieux adaptés.

Le choix le plus fréquent est l’unique distribution telle que la probabilité d’un individu soit proportionnelle à son adaptation, i.e la probabilité de sélection de l’individu Zki est :

Pi = P (Zki) = f (Z i k) N P j=1 f (Zkj)

En tirant les individus dans la population Zkconformément aux probabilités Pi, on constitue la nouvelle génération Xk+1.

A.2.2 Modélisation

La présentation rapide des opérateurs nous permet de modéliser la suite des (Xk)k∈N en une chaîne de Markov, d’espace d’états E = {0, 1}PN. L’algorithme génétique ne doit donc pas être interprété comme une procédure d’optimisation mais plutôt comme une marche aléatoire dans l’es-pace d’état, attirée vers les fortes valeurs de f .

La propriété première de cette formalisation est que la loi de Xkest déterminée de manière unique par :

– la loi de la génération initiale X0

– le mécanisme de transition de Xk à Xk+1, mécanisme scindé en trois étapes détaillées précé-demment.

Ce mécanisme de transition possède toutefois des propriétés essentielles qui font l’intérêt et la puissance de cette formalisation (voir [Cer94]) :

– Il est irréductible, la probabilité de joindre deux points quelconques de l’espace d’état, en un nombre fini de générations est non nulle soit :

∀x, y ∈ E ∃r ∈ N P [Xk+r = y | Xk= x] > 0

Le mécanisme permet donc d’explorer tout point de l’espace d’état, avec une probabilité non nulle.

– Il est apériodique, cette hypothèse n’est cependant pas fondamentale.

Ces propriétés permettent de conclure à l’ergodicité de la chaîne de Markov, et à l’existence d’un processus limite.

Théorème 2. Une chaîne de Markov homogène irréductible apériodique d’espace d’états fini est ergodique et possède une unique mesure de probabilité stationnaire ou invariante.

Cette mesure stationnaire correspond à la loi régissant l’équilibre du processus, elle est définie , pour tout y, comme :

µ(y) = lim

k→∞P [Xk= y | X0 = x]

Nous savons également que tout élément de l’espace d’état est de probabilité non nulle pour cette mesure.

Toutefois, si ce résultat nous permet de savoir qu’il existe une dynamique de fond de l’algorithme génétique, il nous reste à en déterminer les propriétés, l’influence des opérateurs (et des paramètres associés) qui jouent un grand rôle dans le processus.

Pour cela nous introduisons les notations suivantes :

Si x = (x1, ..., xN) est un élément de EN et i un point de E, nous noterons :

b f (x) = f (xb 1, ..., xN) = max {f (xi) : 1 ≤ i ≤ N } b x = n xk∈ arg max f (x)o [x] = {xk : 1 ≤ k ≤ N }

De manière générale, les lettres z, y, z, u, v.. désignent des populations, i.e. des éléments de EN, et les lettres i, j des points de E.

Processus de fond (Xk)

C’est à partir de ce processus de fond qu’est reconstitué l’algorithme génétique, en étudiant ses perturbations aléatoires par les différents opérateurs. Il est défini comme processus limite, lorsque les perturbations ont disparu. C’est également une chaîne de Markov sur EN dont le mécanisme de transition est très simple, puisque correspondant à la situation limite suivante :

Les N composantes de Xk+1 sont choisies indépendamment et suivant la loi uniforme sur l’en-semble dXk.

– Les individus dont l’adaptation n’est pas maximale en k, sont éliminés et n’apparaissent pas dans la génération k + 1 ;

– Les individus dont l’adaptation est maximale ont des chances de survie égales.

Cette chaîne est tout d’abord piégée dans l’ensemble S des populations ayant la même adaptation (ou ensemble des populations d’équi-adaptation),

A.2. MODÉLISATION PAR CHAÎNES DE MARKOV 153

Cette population représente les attracteurs de la chaîne (voir A.2.3 plus loin), puis elle est absorbée par une population uniforme, de sorte que :

∀x ∈ EN P [∃xi ∈xb ∃K ∀k ≥ K Xk= xi | X0= xini] = 1

Lorsque la population est devenue uniforme et en l’absence ici de perturbations, il ne se passe plus rien.

Ceci peut également se traduire en définissant les populations uniformes comme les états absor-bantsde la chaîne Xk. Nous allons maintenant étudier la situation où ce processus est perturbé.

Processus perturbé (Xkl)

La modélisation proposée par Cerf, part du processus de fond (Xk), décrit ci-dessus, qui est perturbé aléatoirement, les perturbations sont indicées par le paramètre l. La chaîne de Markov (Xk) devient donc une suite de chaînes de Markov (Xkl), dont le mécanisme de transition est donné par la succession des transformations engendrées par les opérateurs.

Xkl M utation−→ Ukl Croisement−→ Vkl S ´election−→ Xk+1l

Il nous faut pour cela modéliser précisément les opérateurs. – Mutations Xkl −→ Ul

k:

Les mutations sont définies comme de petites perturbations aléatoires, indépendante des indi-vidus, de la population Xkl. Il est assez naturel d’introduire la probabilité pl(i, j) de transition4 de mutation entre les points i et j de E, comme un noyau Markovien pl.

Trivialement on a :

∀i ∈ E X

j∈E

pl(i, j) = 1

Sur la chaîne Xkl, la probabilité de transition entre les points x et u de EN est :

PhUkl = u | Xkl = xi= pl(x1, u1) · pl(x2, u2) · · · pl(xN, uN)

Plus précisément, et afin d’analyser la dynamique de (Xkl) lorsque l tend vers l’infini, nous reportons ici les hypothèses sur le mode et la vitesse de convergence des probabilités de transi-tion. Pour cela nous supposons l’existence d’un noyau irréductible, α, sur E, i.e. : ∀ i, j ∈ E, ∃ io, i1,· · · , ir(c’est-à-dire un chemin dans E) tel que i0 = i et ir= j tel que :

Y 0≤s≤r−1

α(ik, ik+1) > 0

L’hypothèse d’irréductibilité du noyau α est essentielle, elle assure que tout point de l’espace est potentiellement atteignable.

La vitesse de convergence du noyau pl, est caractérisée par le réel positif a, tel que pladmette le développement suivant :

∀i, j ∈ E ∀s pl(i, j) =   

α(i, j) · l−a+ o(l−s) si i 6= j

1 − α(i, j) · l−a+ o(l−s) si i = j

(A.1)

4

La condition de positivité de a nous permet de faire disparaître les perturbations, lorsque l tend vers l’infini. ∀i, j ∈ E lim l→∞ pl(i, j) = δ(i, j) =  0 si i 6= j 1 si i = j (A.2) – Croisement Ukl −→ Vl

k : Ici encore l’opérateur est modélisé comme effectuant de petites per-turbations aléatoires sur des couples de la population Ukl. Ces couples sont ici formés par les éléments successifs de la population, les transitions sont gérées par le noyau Markovien qlsur E × E, cette fois, de sorte que :

P h

Vkl= v | Ukl = u i

= ql((u1, u2) · (u3, u4) · · · (uN −1, uN))

Pour ce noyau qlnous supposerons l’existence d’un noyau irréductible β sur E × E, la vitesse de convergence est alors paramétrée par le réel positif b tel que :

∀ (i1, j1) ∈ E × E ∀ (i2, j2) ∈ E × E ∀s ql((i1, j1) , (i2, j2)) =            β ((i1, j1) , (i2, j2)) · l−b+ o(l−s) si (i1, j1) 6= (i2, j2) 1 − β ((i1, j1) , (i2, j2)) · l−b+ o(l−s) si (i1, j1) = (i2, j2) (A.3)

L’évanouissement asymptotique des croisements est également imposée par la positivité de b :

∀i1, i2, j1, j2∈ E lim

l→∞ ql((i1, i2)(j1, j2)) = δ(i1, i2) · δ(j1, j2) (A.4)

– Sélection Vkl −→ Xl

k+1 : C’est l’opérateur le plus compliqué et également le plus important puisqu’il permet la convergence vers les optima de f.

Il est modélisé à l’aide d’une fonction de sélection Fl dont Cerf nous donne une définition précise, pouvant être résumée par :

Fl : {1, · · · , N } × (R+)N −→ [0, 1]

(i, f1, f2, · · · fN) −→ Fl(i, f1, f2, · · · , fN)

telle que :

1. F (·, f1, f2, · · · fN) est une probabilité sur {1, · · · , N }

2. Cette probabilité est indépendante de l’indexation des f1, f2, · · · fN (on peut permuter les fi)

3. La probabilité favorise les éléments i associés à des valeurs élevées (i.e.)

Si f1≥ f2≥ · · · ≥ fN Alors

A.2. MODÉLISATION PAR CHAÎNES DE MARKOV 155

Cet outil nous permet d’écrire la probabilité de transition correspondant à la dernière étape.

P h Xk+1l = x | Vkl = v i = N Y r=1 Υl(xr, vr)

Ceci signifie que la probabilité de transition est le produit des probabilités sur chacune des N composantes de E.

La probabilité Υlentre deux composantes (xr, vr) est donnée par :

Υl(xr, vr) = X k : vk=xk

Fl(k, f (v1), f (v2), · · · , f (vN))

De même que pour les autres opérateurs, la fonction de sélection doit être choisie et sa vitesse de convergence caractérisée : Fl(i, f1, f2, · · · , fN) = exp (c · fi· ln(l)) N P r=1 exp (c · fr· ln(l)) (A.5)

Ce choix correspond bien à une probabilité de sélection avantageant les fortes adaptations au détriment des faibles, le réel positif c indexant cette fonction.

Le mécanisme de sélection opérant sur le processus de fond (Xk), correspond à la fonction de sélection Fdéfinie par :

F(k, f (x1), f (x2), · · · , f (xN)) = 1bx(xk) card(x)b c’est-à-dire, la loi uniforme sur l’ensemblex = {xb k∈ arg max f (x)} La suite (Fl)l∈Ndes fonctions de sélection tend vers cette loi uniforme

∀x ∈ EN ∀k

liml→∞ Fl(k, f (x1), f (x2), · · · , f (xN)) = F(k, f (x1), f (x2), · · · , f (xN))

(A.6)

Les conditions A.2, A.4, et A.6 nous permettent d’assurer que le mécanisme de transition de la chaîne (Xkl) converge vers celui du processus de fond (Xk) :

∀y, z ∈ EN lim

l→∞ PhXk+1l = z | Xkl = yi= P X

k+1 = z | Xk= y

C’est également en ce sens que l’on interprète la chaîne (Xkl) comme une perturbation de la chaîne (Xk).

Les vitesses de convergence intervenant dans chacun des opérateurs jouent un rôle important. La formulation proposée en (A.1), (A.3) et (A.5), permet un ajustement équitable de ces vitesses (elles sont logarithmiquement du même ordre) de sorte qu’aucun opérateur ne domine les autres dans la dynamique. Lorsque l tend vers l’infini, les conditions (A.2), (A.4), et (A.6) nous permettent d’assurer que le mécanisme de transition de la chaîne (Xkl) converge vers celui du processus de fond (Xk), et on a :

∀y, z ∈ EN lim

l→∞ PhXk+1l = z | Xkl = yi= PX

k+1 = z | Xk= y

La chaîne (Xkl) se comporte alors comme le ferait (Xk). La théorie de Freidlin-Wentzell nous donne les outils pour simplifier l’étude de ces processus à temps continu.