Description formelle de TS–Div - TS–Div : recherche continue de r´ egions inconnues

4.2 TS–Div : recherche continue de r´ egions inconnues

4.2.1 Description formelle de TS–Div

TS–Div (voir Algorithme 4.1) est basé sur deux processus : (i) le processus explo- ratoire Tabou classique, (ii) le processus réactif d’apprentissage, voir Pas 4.(b)-(d) de l’Algorithme 4.1. Les principaux outils de la partie apprentissage sont la sphère et la mesure de distance, qui seront détaillées dans ce qui suit.

Pour le problème de coloration, nous employons la distance de transfert entre partitions (voir Section 4.2.2.1) ; sa méthode de calcul est décrite en détail au Chapitre 6, mais dans ce chapitre il suffit de dire que d(Ca, Cb) représente une mesure de type “plus courte

4.2 TS–Div : recherche continue de r´egions inconnues

chaˆıne de transitions de voisinage” pour relier Ca à Cb. Plus formellement, cette distance est le minimum nombre n tel qu’il existe C0, C1, . . . Cn ∈ Ω avec C0 = Ca, Cn = Cb et Ci+1 ∈ N (Ci) (∀i ∈ [0 . . . n − 1]). Des distances de type “plus court chemin via des transitions de voisinage” peuvent être définies pour d’autres problèmes (voir Section 4.5).

Etant donnée une telle distance, la R-sphère de C est définie comme la sphère fermée de rayon R centrée en C :

Definition 4.1. (Sphère) Étant donné une configuration (un centre) C ∈ Ω et un rayon R ∈ IN∗, la R-sphèreSR(C) est l’ensemble des configurations C0 ∈ Ω telles que d(C, C0) ≤ R.

Selon l’hypothèse de clusterisation (Section 3.3), nous utilisons uniquement des R- sphères de rayon R = ₁₀1 |V | dans le reste du chapitre. Si l’indice R de S_R n’est pas présent, alors nous parlons d’une “R-sphère” avec R = ₁₀1|V |. Deux configurations C_a et Cb telles que d(Ca, Cb) ≤ R = ₁₀1 |V | sont proches ou connexes ; sinon, elles sont distinctes ou R-distantes. Si d(Ca, Cb) > |V |₂ , nous disons que Caet Cb sont complètement différentes. Au début, TS–Div (Algorithme 4.1) effectue les mêmes mouvements que l’algorithme de base, mais il enregistre les centres des sphères visitées. À une itération donnée, notons Cp le dernier centre enregistré (de la sphère courante) et notons C la configuration courante. La première tâche de la composante d’apprentissage est de calculer d(C, Cp) pour savoir si C est toujours dans la sphère S (Cp) – voir Pas 4.(b) de l’Algorithme 4.1. Tant que C ∈ S (Cp), le processus de recherche est toujours dans la sphère de Cp et TS–Div fait essentiellement les mêmes mouvements que la recherche Tabou de base. Nous disons que le processus de recherche est en train de pivoter autour du pivot Cp.

Dès que la recherche sort de la sphère courante (dès que C /∈S (Cp)), la composante d’apprentissage se focalise sur des décisions de guidage. Elle compare d’abord C à l’archive des configurations (centres) enregistrées, voir procédure Already-Visited appelée dans le Pas 4.(b).iide l’Algorithme 4.1. Avec cette procédure, TS–Div vérifie si C fait partie d’une sphère déjà visitée. Si ce n’est pas le cas, alors C représente le centre d’une nouvelle sphère ; la composante d’apprentissage enregistre ce nouveau centre, mais le processus d’exploration continue normalement. Autrement, si C fait partie d’une sphère déjà visitée, la composante d’apprentissage intervient dans le processus de recherche : une phase de diversification est nécessaire. À cette fin, elle augmente la durée Tabou T` avec une valeur Taug, comme nous le détaillons dans la prochaine section.

Diversification via l’augmentation de durée Tabou La longueur de la liste Tabou (ou durée Tabou) fournit un mécanisme simple de diversification qui est déjà connu dans la littérature [Battiti et al., 2008]. Rappelons (Section 2.4) que l’effet principal produit par la liste Tabou est que la recherche peut choisir uniquement des mouvements qui n’ont pas ´

eté exécutés durant les dernières T`+ Taug itérations. Avec une liste Tabou plus longue, le processus est forcé de sélectionner des mouvements moins répétitifs et plus divers – les derniers T`+ Taug mouvements ne peuvent pas être répétés. D’autre part, une liste Tabou plus courte détermine une intensification plus forte ; il est plus facile de revenir à des configurations précédemment explorées, en re-exécutant des mouvements faits dans un passé proche.

Algorithme 4.1 : La (m´eta) heuristique TS–Div PROCÉDURE ALREADY-VISITED

Entrée : configuration courante C Valeur de retour : VRAI ou FAUX

1. Forall configurations enregistrées Crec : - Si d(C, Crec) ≤ R

Retour VRAI 2. Retour FAUX

ALGORITHME TABUSEARCH-DIV

Entrée : l’espace de recherche Ω

Valeur de retour : Cbest, la meilleure configuration jamais visitée C : la configuration courante

DÉBUT

1. C = configuration aléatoire de Ω

2. Cp = C /*le pivot, i.e. dernier centre de sphère enregistré*/ 3. Taug= 0 /*l’augmentation de liste Tabou déclenchée par TS-Div*/ 4. Tant que condition d’arrêt non atteinte

(a) C = le meilleur voisin non-Tabou en N (C) (b) Si d(C, Cp) > R

i. Cp= C

ii. Si ALREADY-VISITED(Cp) Alors - Incrémenter Taug

Sinon - Taug= 0

- Enregistrer Cp

/*T`=durée interne utilisée par l’Alg. Tabou de base*/ /*Taug= durée de diversification induite par l’alg. TS-Div*/ (d) Si (f (C) < f (Cp))

- remplacer Cp avec C dans l’archive

- Cp= C /*i.e. “re-centrer” la sphère courante*/

(e) Si (f (C) < f (Cbest)) - Cbest= C

5. Renvoyer Cbest FIN

Pour récapituler, la variation de la durée Tabou (via le facteur Taug) contrôle la balance entre la diversification et l’intensification : plus grande est la valeur Taug, plus il y a de la diversification. De cette fa¸con, un contrôle approprié de Taug garantit que TS–Div découvre de nouvelles régions à tout moment. En effet, notre réglage de Tauggarantit que le processus ne peut pas se coincer en (ré)explorant uniquement des sphères déjà visitées. Si cela arrivait, la liste Tabou pourrait croˆıtre indéfiniment – Taug ne décroˆıt que lorsque le processus de recherche trouve une nouvelle sphère. Une valeur suffisamment élevée de Tl+ Taug sera capable de diversifier (plus tôt ou plus tard) et d’arrêter tout bouclage entre des sphères déjà-visitées.

Notons qu’il existe de nombreuses manières de créer de la diversité au moment où TS– Div détecte qu’il re-visite une sphère. Par exemple, on aurait pu simplement appliquer un opérateur de marche aléatoire, ou une perturbation classique de recherche locale itérée.

4.2 TS–Div : recherche continue de r´egions inconnues

Dans le document Algorithmes Heuristiques et Techniques d'Apprentissage : Applications au Problème de Coloration de Graphe (Page 65-68)