Les algorithmes de colonies de fourmis - M´etaheuristiques ` a base de population

2.5 M´etaheuristiques pour l’optimisation combinatoire

2.5.5 M´etaheuristiques ` a base de population

2.5.5.2 Les algorithmes de colonies de fourmis

Une partie des informations présentées ci-après sont tirées du livre [Dori 04] et du rapport technique [Stut 10].

2.5.5.2.a Origines de l’approche

Les colonies de fourmis (ou ACO pour Ant Colony Optimization) sont une métaheuristique appartenant aux méthodes d’intelligence en essaim : elles mettent en œuvre un mécanisme de mémoire collective permettant de guider la recherche en mutualisant sur les bonnes solutions déjà trouvées. Mise au point au début des années 1990 [Dori 92, Dori 96] avec Ant System et dérivée par la suite (voir sections suivantes), cette méthode est issue de l’observation des fourmis réelles qui communiquent par signaux chimiques avec les autres membres de la colonie, afin de signaler un itinéraire à suivre (voir figure 2.19). Elles utilisent pour cela des phéromones, une substance attractive naturellement sécrétée par les fourmis, qu’elles dispersent à leur passage, notamment lorsqu’une source de nourriture a été trouvée. Ce processus d’échange d’information

Figure_{2.19 – Schéma de détermination d’un plus court chemin par les fourmis. 1) Une} fourmi trouve une source de nourriture (F) puis revient au nid (N) en disséminant de la phéromone sur son passage. 2) D’autres fourmis rencontrant cette piste vont alors suivre cette phéromone et découvrir la source, déposant à leur tour le traceur chimique. Les portions de chemin les plus courtes vont permettre aux fourmis d’accéder plus rapidement à la source et d’en revenir : elles seront donc davantage marquées que les portions plus longues dans le même laps de temps. 3) Les fourmis sont incitées à prendre le chemin le plus court, et la phéromone sur les portions longues s’évapore, perdant leur attractivité. Source : Wikipedia.

utilisant l’environnement ambiant est appelé stigmergie. La sécrétion de phéromones permet, dans le cas des fourmis, d’aboutir à des itinéraires de distance quasi-optimale au cours du temps (entre le nid et la source de nourriture), bien que les capacités cognitives de ces insectes soient très limitées.

2.5.5.2.b Méthode générale

La structure générique des algorithmes ACO est décrite par l’algorithme 4. Les problèmes traités par les colonies de fourmis sont souvent définis par le biais d’un graphe G = (V, E). Pour un TSP par exemple, V est l’ensemble des villes à parcourir et E l’ensemble des routes qui les relient. Ces routes sont caractérisées par leur distance, notée d(i, j), pour tout couple de villes i et j.

Construction des solutions Pour construire une solution, une fourmi part d’un sommet de G choisi aléatoirement. Elle élit itérativement le prochain sommet à emprunter parmi ceux non encore présents dans la solution. Ce choix est influencé par deux heuristiques : une fonction de guidage notée η : E → R et le modèle de phéromone qui correspond à une pondération (parfois appelé attractivité) sur les arêtes de G, et notée τ : E → R. La fonction de guidage va aider la fourmi à construire une solution adaptée au problème, tandis que la phéromone va inciter à emprunter les arêtes des bonnes solutions trouvées dans les précédentes recherches de l’algorithme. En général, deux paramètres α et β permettent de pondérer les influences de τ et

Algorithme 4 M´etaheuristique ACO

1: Définition des paramètres, initialisation des phéromones 2: tant que Condition d’arrêt non atteinte faire

3: Construire les solutions

4: Optionnel : appliquer une recherche locale 5: Mettre `a jour la ph´eromone

6: fin tant que

7: retourner La meilleure solution trouv´ee

η respectivement.

Actions optionnelles Des actions spécifiques peuvent être menées pour améliorer les itiné- raires des fourmis. On peut par exemple appliquer des méthodes de recherche locale comme 2-opt pour affiner les solutions (et supprimer les chevauchements d’arêtes). Ces méthodes doivent ce- pendant être légères en charge de calcul, pour ne pas trop pénaliser les temps d’exécution de la métaheuristique.

Mise à jour du modèle de phéromone Cette opération est propre à chaque variante. Ori- ginellement, elle se décompose en deux étapes : l’évaporation des phéromones — on diminue d’un facteur ρ, le taux d’évaporation, la valeur de τ sur chaque arête — et le renforcement des itinéraires empruntés par les fourmis. L’évaporation permet d’instaurer un facteur temporel dans la mémoire des bonnes solutions (celles qui ne sont plus intéressantes sont progressivement «oubliées »). Le paramètre ρ et l’importance du renforcement sont décisifs sur la qualité de l’algorithme. Ils vont avoir une influence sur la vitesse de convergence de l’algorithme : une évaporation forte et/ou un renforcement trop important des bonnes solutions vont rapidement contraindre les fourmis à emprunter à nouveau les solutions déjà trouvées, pénalisant l’exploration.

2.5.5.2.c Application au TSP

Les fourmis réelles étant réputées pour leur capacité à trouver des plus courts chemins, les colonies de fourmis artificielles ont logiquement été appliquées en premier lieu sur le problème NP-complet du voyageur de commerce. Plusieurs variantes majeures de la métaheuristique pour ce problème sont présentées maintenant. Pour une description exhaustive des différentes mé- thodes, nous renvoyons le lecteur à [Dori 04, Monm 09].

Ant System [Dori 96] C’est le premier algorithme ACO a avoir vu le jour. Dans cette approche, une fourmi élit le prochain sommet à emprunter à l’aide de l’équation (2.10). Pour une fourmi k située au sommet v, la probabilité d’élire le sommet v′ comme prochain point de passage est la suivante : ∀v′∈ Nk, (v, v′) ∈ E, Pv′(k) = τα v,v′η β v,v′ P v′′_∈N_k τα v,v′′.η β v,v′′ (2.10)

E ´etant l’ensemble des arcs du graphe et Nkl’ensemble des sommets successeurs de v non encore

graphe est alors complet), ou se restreindre à un ensemble de sommets localement voisins, afin de réduire la charge de calcul (on diminue drastiquement le nombre d’évaluations dans le cas de grandes instances de problèmes). P(v,v′₎ est une probabilité, sa valeur est donc comprise dans l’ensemble [0, 1]. La fonction de guidage est définie comme :

∀v′ ∈ V, η(v,v′₎= 1 d_(v,v′₎

(2.11) Elle incitera donc les fourmis à emprunter en priorité les villes à proximité de la ville courante. A l’issue de chaque cycle, lorsque toutes les fourmis ont construit une solution, le modèle de phéromone est mis à jour de la manière suivante :

∀(v, v′) ∈ E, τv,v′(c + 1) = (1 − ρ).τ_v,v′(c) + X

∆τ_v,vk ′ (2.12)

où le paramètre ∆τ , appelé facteur de renforcement, est défini comme suit :

∆τ_(v,vk ′₎(c) = ( _Q Lk(c) si (v, v ′_{) ∈ S} k(c), 0 sinon. (2.13)

o`u Lk est la longueur de la solution Sk(c) de la fourmi k au cycle c et Q une constante. Plus

une solution est de bonne qualité, plus la phéromone déposée (par unité de longueur) le sera en quantité importante.

Plusieurs implémentations alternatives de renforcement ont été développées, comme notamment :

– Elitist Ant [Whit 03] qui renforce davantage la meilleure solution locale ou globale trouv´ee afin d’orienter plus efficacement la recherche ;

– Rank-Based Ant System [Bull 99], qui s’appuie sur Elitist Ant et propose pour sa part de classer les solutions de chaque cycle par ordre de qualité, pour ne renforcer que les ω premières (ω étant une variable paramétrable) avec une pondération relative au rang de la solution ;

– Best-Worst Ant System [Cord 00], où seules les plus mauvaises solutions sont évaporées, tandis que les meilleures solutions locales sont renforcées.

MAX-MIN Ant System [Stut 97, Stut 00] Cet algorithme se base sur l’algorithme Ant Sys- tem et modifie certains mécanismes. Tout d’abord, une seule solution est utilisée pour le renforcement des phéromones (la meilleure solution locale ou globale, selon l’implémentation). De plus, le taux de phéromone associé à chaque arête de G est borné par deux valeurs τmin et τmax

(d’où le nom de la méthode). Chaque piste de phéromone est initialisée à la valeur maximum τmax, et mise à jour de fa¸con proportionnelle : lors d’un renforcement, les arêtes avec un taux de

phéromone faible seront davantage renforcées que celles disposant déjà d’une attractivité forte. Les auteurs présentent aussi des variantes avec réinitialisation des pistes au cours de la recherche. Les auteurs développent également une approche avec application d’une recherche locale. Capable de résoudre plus efficacement les problèmes de TSP que son prédécesseur, MAX-MIN Ant System est présenté comme une amélioration [Stut 10] par l’auteur même d’Ant System.

Ant Colony System [Dori 97] Cet algorithme dérive de Ant System et y introduit des mé- canismes tirés d’autres approches, tels que Ant-Q [Gamb 95]. Ant Colony System utilise ainsi une « loi proportionnelle pseudo-aléatoire » dans la construction des solutions. Une fourmi k actuellement à la ville v choisira la prochaine ville v′ comme suit :

v′ = (

arg maxv′′_∈N_k[τ_v,v′′.ηβ_v,v′′] si q ≤ q0,

J si q > q0.

(2.14) où q est une variable aléatoire uniformément distribuée sur [0, 1], q0 est une variable sur [0, 1]

fixée (paramètre de l’algorithme) et J est une ville sélectionnée aléatoirement grâce à la formule (2.10) dans laquelle α = 1. La variable q0 permet à la recherche d’adopter deux comportements

différents : la recherche tendra à une diversification si q > q0 avec un comportement similaire à

Ant System, o`u au contraire `a une intensification si q ≤ q0 par une approche purement gloutonne

de sélection de l’arête la plus attractive. Il est à noter que, dans cette implémentation des colonies de fourmis, le paramètre α est abandonné.

Ant Colony System met en œuvre deux mécanismes distincts de mise à jour des phéromones : une mise à jour locale, c’est-à-dire en cours de recherche, opérée par chaque fourmi de la manière suivante :

τi,j = (1 − ǫ).τi,j+ ǫ.τ0 (2.15)

où ǫ est appelé facteur de décroissance. Le paramètre τ0(valeur initiale du modèle de phéromone)

est fixé avec une valeur τ0 = _n.L1_{N N}, où n est le nombre de villes du problèmes et LN N la longueur

d’un tour préalablement calculé par recherche locale de plus proche voisin (voir section 2.5.2). Ce mécanisme de mise à jour locale permet de décroˆıtre l’attraction des arêtes empruntées par une fourmi et de les rendre moins attractives pour les autres fourmis, d’où une augmentation de la diversité des solutions. La mise à jour globale du modèle de phéromone (c’est-à-dire celle effectuée en fin de cycle) est similaire à celle de l’approche MAX-MIN Ant System : on ne met `

a jour que la meilleure solution (locale ou globale).

Dans chaque approche de colonies de fourmis, le paramétrage est spécifique au type d’ins- tance : répartition des villes — distribution homogène ou au contraire groupement en clusters —, nombre de villes, symétrie ou non dans les « distances » entre les villes... Un grand nombre de travaux traitent les problématiques de paramétrage de ces algorithmes : ils sont résumés dans [Stut 10].

Outre l’application au problème de TSP classique, plusieurs variantes d’algorithmes de colonies de fourmis ont été développées pour le problème de TSP dynamique. Dans ce problème, les distances entre les villes sont amenées à changer au cours du temps. Cette propriété a initialement été introduite pour modéliser le trafic routier, un embouteillage résultant en un allongement de la distance initiale (par distance, nous parlons ici en fait de coût, en l’occurrence le temps de parcours). Certaines versions de TSP dynamiques permettent également l’ajout ou la suppres- sion de villes. Une première approche pour traiter ces problèmes la littérature est P-ACO (pour Population-based ACO) [Gunt 02], parfois également appelé FIFO-Queue ACO en raison de la structure de données employée pour maintenir une population de bonnes solutions précédentes, utilisée pour construire une heuristique de guidage. Elle peut être vue comme une alternative `

a l’élitisme pour les problèmes dynamiques. La particularité de P-ACO est l’attention portée à la rapidité d’exécution. Notamment, les mécanismes d’élection d’une nouvelle ville et de mise à

jour du modèle de phéromone sont modifiés afin de réduire leur complexité temporelle et d’offrir une meilleure réactivité de l’algorithme. Une seconde approche, AS-DTSP [Eyck 02], est une adaptation de l’algorithme Ant System (décrit plus haut) pour le cas du TSP dynamique. Dans cette implémentation, une borne basse est définie pour les taux de phéromone afin de se prému- nir des cas où une arête ne serait plus empruntée. De plus, les auteurs proposent un mécanisme dit de shaking permettant, après une modification de l’environnement, de redistribuer en partie les quantités de phéromone afin de relancer l’exploration, tout en garantissant que l’ordre d’importance des valeurs entre les arêtes soit conservé (maintien de l’apprentissage).

Dans le document Des métaheuristiques pour le guidage d’un solveur de contraintes dédié à la planification automatisée de véhicules (Page 69-74)