Strat´ egie d’ajout it´ eratif - k-median/k-center : Strat´ egies de r´ esolution heuristiques

3.2 Les diff´ erentes approches li´ ees ` a notre objectif

3.2.3 k-median/k-center : Strat´ egies de r´ esolution heuristiques

3.2.3.1 Strat´ egie d’ajout it´ eratif

Cette stratégie consiste à choisir un point comme centre pour initialiser le sous-ensemble divers, puis à ajouter itérativement un centre à ce sous-ensemble. L’algorithme correspon-dant a donc besoin de deux paramètres en entrée : le choix du point initial et la méthode d’ajout d’un nouveau centre.

Parmi les heuristiques utilisant cette stratégie, il existe l’heuristique gloutonne (ou greedy) dont nous détaillerons 3 algorithmes, et l’heuristique Core-Sets proposée par Badoiu et al.

[146].

Heuristiques de type greedy ou gloutonnes On initialise l’ensemble représentatif à un jeu vide de centres. Puis le problème 1-median ou 1-center (cf. section 3.2.2.2) est résolu dans l’ensemble de centres possibles et ajouté à ce jeu. Chaque centre est donc ajouté un par un jusqu’à en obtenir k. A chaque itération le centre qui optimise le critère choisi est sélectionné (nous verrons quels critères sont utilisés en fonction de chaque méthode).

L’algorithme 2 présente ces étapes. Pour l’initialisation du premier centre, il existe trois possibilités :

– initialisation par une molécule tirée aléatoirement parmi les molécules deM – initialisation à la molécule centrale du jeu M

– initialisation à la molécule la plus éloignée des autres molécules deM

Il existe deux exemples de cette heuristique également utilisés en chemoinformatique pour la sélection par diversité : Farthest First Traversal (FFT) et Sphere-exclusion. En 1998, Snarey et al. [129] comparent la méthode Sphere-exclusion à la méthode Maximum

Dissimilarity (dont FFT est une variante) dans le cadre de la chemoinformatique. Nous présentons Maximum Dissimilarity ainsi que sa variante FFT et leur algorithme. Ensuite nous présentons Sphere-Exclusion et enfin l’heurisitique Core-Sets sera évoquée.

Algorithm 2 Algorithme générique de la stratégie Greedy

1: input k= taille de l’´echantillon

2: Generate C^∗=∅

7: return C^∗ l’ensemble des individus s´electionn´es

Maximum Dissimilarity Pour Maximum Dissimilarity [129] il existe 3 initialisa-tions possibles pour le premier centre (cf. Etape 1 de l’algorithme 2). Une fois le premier individu sélectionné, les suivants peuvent être ajoutés itérativement de deux fa¸cons diff´ e-rentes selon le critère que l’on souhaite optimiser (cf. Etape 2 de l’algorithme 2) :

Crit`ere MaxMin (cf. Figure 3.2(a)) : l’objet ajout´e est celui qui maximise la distance

a son plus proche dans le sous-ensemble déjà sélectionné. Soitm_i ∈ M le nouvel élément ajouté dansC^∗={c^∗_l} l’ensemble des centres sélectionnés :

mi est tel que M in

l=1...|C^∗|d(c_l, mi) =ArgM ax

i=1...n

l=1...|CM in^∗|d(c_l, mi)

Critère MaxSum (cf. Figure 3.2(b)) : l’objet ajouté est celui qui maximise la somme des distances entre lui-même et chaque centre du sous-ensemble :

m_i = ArgM ax

i=1...n

l=1...|C^∗|

d(m_i, c_l)

Ces critères, associés aux différentes initialisations proposées, donnent les différentes variantes de la méthode Maximum Dissimilarity dont l’algorithme suit. Notons que nous considérons la méthode Farthest First Traversal, présentée par Hochbaum et Shmoys en 1985 [147], comme une variante de Maximum Dissimilarity car elle utilise une initialisation aléatoire du premier centre, puis le critère MaxMin pour choisir les centres suivants.

Complexité: O(k²*N) avec k=le nombre de molécules à sélectionner et N le nombre total de molécules.

Sphere-Exclusion [148] En entrée de l’algorithme on donne le rayon et l’ensemble de moléculesM. Ensuite à l’intialisation, un premier individu est sélectionné selon les trois méthodes d’initialisation vues dans l’algorithme 2. Tous les individus situés dans le rayon, donné en entrée, autour de cet individu sélectionné sont supprimés. Puis le centre suivant

(a) MaxMin (b) MaxSum

Figure3.2: Illustration d’une sélection selon MaxMin et selon MaxSum : En vert, le sous-ensemble déjà sélectionné et entouré en rouge la molécule suivante sélectionnée parmi les molécules noires

Algorithm 3 La m´ethode Maximum Dissimilarity

1: input k= taille de l’´echantillon

2: GenerateC^∗ =∅

3: produce C^∗ =C^∗+mi ∈ M, i initialisé selon les méthodes citées plus haut

4: produce M= M −m_i

5: i←0

6: while!(i < k) do

7: C^∗ =C^∗+ (m_i = ArgM ax

i=1...n

l=1...|C^∗|

d(m_i, c_l) (crit`ere MaxSum)

8: OU

9: C^∗ =C^∗+m_i =ArgM ax

i=1...n

l=1...|CM in^∗|d(c^∗_l, m_i) (crit`ere MaxMin)

10: i←i+ 1

11: end while

12: return C^∗ l’ensemble des individus s´electionn´es

peut être sélectionné selon quatre critères différents : – un individu aléatoire

– l’individu dont la somme des distances au sous-ensemble est la plus petite : critère MinSum (résolution du problème k-median)

– l’individu dont la distance au plus proche du sous-ensemble est la plus petite : crit`ere MinMin

– l’individu dont la distance au plus proche du sous-ensemble est la plus grande : critère MinMax (résolution du problème k-center)

Enfin l’algorithme (cf. algorithme 4) it`ere jusqu’`a obtention de k centres.

On a vu qu’en entrée il faut déterminer un rayon. Or on ne connaˆıt pas le rayon optimal permettant d’obtenir une sélection de k molécules sur le jeuMde taille n. C’est pourquoi avant le lancement de l’algorithme, il faut déterminer le rayon maximum. On le fixe a priori et on observe combien de molécules sont sélectionnées avec celui-ci. Puis on itère de fa¸con à trouver le rayon optimal par rapport au nombre de molécules à sélectionner.

Algorithm 4 La m´ethode Sphere-Exclusion

1: input dseuil

9: return C^∗ l’ensemble des individus s´electionn´es

Complexité: O(k*N) k nombre d’itérations et N nombre total de molécules.

Pour conclure, les heuristiques gloutonnes que nous venons de présenter permettent de résoudre le problème k-center avec une complexité raisonnable pour nos jeux de données.

De plus elles ont été testées avec succès pour la diversité dans le domaine de la chemoin-formatique. Etant donné notre objectif très lié au problème k-center, nous avons choisi de comparer Maximum Dissimilarity, FFT et Sphere-Exclusion avec la méthode k-medo¨ıds

egalement très utilisée dans la sélection par diversité en chemoinformatique. Nous ajoute-rons à cette comparaison une heuristique résolvant le problème k-center que nous avons développée. Celle-ci combinera quelques unes des heuristiques présentées par la suite pour tenter d’obtenir de meilleurs résultats qu’avec les méthodes traditionnellement utilisées en diversité.

Heuristique Core-Sets Enfin Badoiu et al. [146] présentent une heuristique qui permet d’extraire un sous-ensemble approximant le clustering et notamment pour les problèmes k-center etk-median. Leur méthode a une complexité linéaire. Leur but est d’approximer des hyper-sphères entourant les groupes d’individus en faisant l’hypothèse que tous les points ne sont pas utiles pour le calcul. Notamment les points se trouvant à proximité du centre ne définissent pas l’hyper-sphère. Ils utilisent donc moins de points pour le calcul de ces sphères, réduisant ainsi la complexité de l’algorithme.

G¨artner [149] propose lui un algorithme nomm´e ”Mini-Balls” (dont nous nous inspirons

dans notre implémentation) pour résoudre également le calcul de la plus petite hyper-sphère englobant tous les points d’un groupe en un temps efficace.

Dans le document Chimiothèque : vers une approche rationnelle pour la sélection de sous-chimiothèques (Page 84-88)