Synth` ese sur la mod´ elisation des coˆ uts dans les CN P-Graphes

La modélisation des fonctions distance et leur transformation en distances réelle labélisant les arcs conclue la définition desCN P-Graphes. Tous les outils sont maintenant en place afin de mener à bien

le processus de résolution des problèmes liés à la répartition des ressources dans un environnement de grille : un problème peut être modélisé sous forme deCN P-Graphe compact, lequel, en intégrant les

informations de surveillance de la plateforme modélisées dans un grapheCN , peut être instancié en

unCN P-Graphe modélisant la réalité physique de problème.

L’étape suivant consiste à exploiter ce CN P-Graphe dans un algorithme afin d’en extraire les

6

Exploitation algorithmique des CN P-Graphes

Nous avons montré dans la partie précédente comment les problèmes liés à la répartition des ressources sur une grille pouvaient être modélisés sous forme deCN P-Graphes. Une fois un tel graphe

créé, la méthode la plus naturelle pour résoudre effectivement les problèmes est d’utilisation des algorithmes de graphes. Ceux-ci peuvent dans certains cas être extrêmement simples, comme lors de la résolution d’un problème de sélection simple : il suffit alors d’une simple recherche de l’arc de poids minimum. Dans d’autres cas, ils peuvent s’avérer plus compliqués. Parmi les plus compliqués, on trouve les problèmes liés au déploiement de ressources. Ces problèmes trouvent leurs solutions dans la théorie de la localisation discrète.

Une particularité de notre approche est qu’elle permet à l’utilisateur d’exploiter l’algorithme qui correspond le mieux à ses besoins pour résoudre son problème. Ceci implique une phase de sélection de cet algorithme par l’utilisateur. Les deux paramètres principaux qui doivent être pris en compte sont d’un côté la complexité, qui conditionne le temps d’exécution, d’un autre le facteur d’approximation, qui conditionne la précision des solutions obtenues.

Par exemple, face à un problème de taille modérée mais crucial au fonctionnement du système, on s´electionnera un algorithme exact mais gourmand en ressources. A contrario, pour un probl`eme de grande taille mais peu sensible, on sélectionnera un algorithme d’approximation peu gourmand en ressources. Á noter ici que la notion de« gourmand » est relative aux performances de l’infrastructure matérielle au temps d’exécution de l’algorithme, et peut être quantifiée grâce à notre proposition. Cet compromis précision/coût relève strictement des préférences utilisateur et nous ne pouvons proposer plus d’aide que la quantification du temps d’exécution de l’algorithme en fonction de sa complexité.

En revanche, les algorithmes possèdent également des contraintes relatives aux caractéristiques du graphe sur lequel ils sont exécutés. Ces caractéristiques sont en général présentées en tant qu’hypo-thèses de l’algorithme. La vérification de ces caractéristiques incombe à notre système puisque notre but est de fournir un environnement de gestion de distribution des ressources avec un minimum d’effort utilisateur. Ce dernier, pour pouvoir utiliser l’algorithme de son choix, doit donc pouvoir facilement

v´eriﬁer que cet algorithme est valide sur le CN P-Graphe cible.

Ces caract´eristiques sont relatives `a deux aspects des graphes.

Le premier aspect concerne la classe du graphe : orienté, complet, arbre, forêt, treillis, digraphe, etc. Ainsi que certaines statistiques telles que le nombre de nœuds, leur degré, le diamètre, etc. Ces aspects ont été largement étudiés dans la théorie des graphes et ne nécessitent donc pas d’implication supplémentaire.

Le deuxième aspect concerne les caractéristiques des labels des arcs. Cet aspect n’a pas été étudié dans la littérature car ces labels sont souvent représentatifs d’un problème issu de notre réalité phy-sique, et possèdent donc des propriétés naturelles non discutée. Par exemple, les algorithmes issus de la théorie de la localisation discrète prennent en général comme cas d’usage le placement de bâtiments, tels que des entrepôts ou des casernes de pompier, dans le but de réduire la distance kilométrique qui les séparent de leurs clients. Cette distance kilométrique est donc utilisée pour labéliser les arcs et possèdent naturellement des propriétés que les concepteurs des algorithmes sont amenés à exploiter. Dans le cadre de notre proposition, les distances sont comprises sur un réseau, et ne sont donc pas soumises aux mêmes propriétés. De plus, les utilisateurs sont en capacité de déclarer un large panel de fonctions distance, sans contraintes particulière. Ces dernières peuvent être très variées. Ainsi, certains algorithmes peuvent être inappropriés à leur exploitation.

Dans un premier temps, nous allons nous intéresser aux algorithmes de résolution des problèmes de placement en Section 6.1. Dans cette section, nous montrerons qu’il existe différentes classes de problèmes dont la pertinence dépend des objectifs de l’utilisateur. Nous nous intéresserons de plus près au probl`eme des k-m´edians et nous montrerons qu’il existe pour un même problème, plusieurs classes d’algorithmes dépendant des propriétés des labels.

Dans un second temps, en Section 6.2, nous détaillons notre approche permettant de quantifier la satisfaction de ces propriétés afin de permettre à l’utilisateur de sélectionner la classe d’algorithme la plus appropriée à la résolution de son problème.

6.1 Algorithmes de résolution des problèmes de déploiement

Un des problèmes génériques auxquels nous nous sommes particulièrement intéressés est celui du placement de ressources. Ce problème trouve ses principales solutions issues de la théorie des graphes dans la théorie de la localisation discrète. Cette théorie est composée de trois problèmes primaires, en anglais : clustering, Uncapacitated Facility Location ou UFL et Quadratic Assignment Problem ou QAP.

Clustering vise `a partitionner les nœuds en exactement k groupes minimisant un crit`ere donn´e.

L’ensemble des centro¨ıdes de ces groupes repr´esente la solution au probl`eme de placement.

Uncapacitated Facility Location (UFL) utilise des coˆuts associ´es au d´eploiement de nouvelles

ressources et vise à définir le nombre de ressources ainsi que leur position dans l’objectif de minimiser le coût de déploiement et la qualité de service client.

res-6.1 Algorithmes de résolution des problèmes de déploiement 81

source `a un nœud dans le but de minimiser les ﬂux entre elles.

On peut ainsi remarquer que U F L est pertinent lorsque les d´eploiements sont tr`es coˆuteux face `

a l’utilisation des ressources. Il correspond donc à un problème de placement de ressources au temps d’exécution pour une utilisation ponctuelle impliquant relativement peu de communications. Par exemple le déploiement d’un ensemble de services fortement découplés pour une seule utilisation.

QAP quant `a lui est pertinent lorsque l’accent doit être mis sur les communications entre res-sources. C’est le cas de services fortement couplés, par exemple dans une architecture dédiée à l’adap-tation de contenus multimédias. En revanche, on peut noter un certain manque de souplesse, le nombre de nœuds et de ressources devant être identique. Ce manque de souplesse est d’ailleurs confirmé par les algorithmes de résolution de QAP qui sont bien souvent basés sur la programmation linéaire, technique très efficace mais assez difficile à contrôler ou régler.

Le problème de clustering par contre est très vaste et très souple : il peut aisément être adapté grâce au critère qui peut être défini en fonction des besoins.

6.1.1 Probl`eme du clustering

Le problème du clustering peut être formalisé comme suit :

D´eﬁnition II.15 Probl`eme de clustering

Soit V un ensemble de points d’un espace équipé d’une fonction distance df, partitionner V en k clusters distincts C₁, . . . , C_k et déterminer ses centroides μ ={μ₁, . . . , μ_k} ⊂ V tels qu’une métrique « critere » est minimisée.

Dans notre cas, k est le nombre d’instances de la ressource¹ `a placer, tandis que les centro¨ıdes

μ₁, . . . , μ_k sont leur position optimale.

Il comporte ainsi plusieurs variantes dont les plus populaires sont d´ecrites ci-apr`es.

• k-median ou min-sum clustering vise à définir exactement k positions afin de minimiser la

somme de la distance entre des clients et leur ressource la plus proche. Dans notre contexte, cela revient à optimiser globalement l’aspect évalué par la fonction distance.

critere =

i∈V k

min

j=1 d(i, μ_j)

• k-center ou min-max clustering vise à définir exactement k positions afin de minimiser le

maximum de la distance entre les clients et leur ressource la plus proche, soit le diamètre maximal des clusters. Dans notre contexte, cela revient à éviter qu’un client soit lésé par rapport à l’aspect évalué par la fonction distance.

critere = max

i∈V k

min

j=1 d(i, μ_j)

Ces deux critères sont basés sur la qualité de service client, mais on peut également imaginer des critères basés sur l’équilibrage des charges des ressources.

• min-var clustering vise à définir exactement k positions et les membres des clusters, notés C₁, . . . , C_k afin de minimiser la variance de la somme des distances entre des clients et leur ressource attitrée dans le cluster. Dans notre contexte, cela revient à équilibrer l’aspect évalué par la fonction distance sur l’ensemble des ressources.

critere = var_j=1^k

i∈Cj

d(i, μ_j)

Nous nous sommes concentrés sur le probl`eme des k-m´edians, car il est celui qui représente le mieux les besoins classiques exprimés lors du déploiement d’une ressource : optimiser la qualité de service client, tout en minimisant la charge globale des ressources. Nous nous sommes donc intéressés aux différents algorithmes résolvant ce problème.

6.1.2 Le problème des k-médians et les propriétés des labels

Reese est l’auteur d’une bibliographie annotée [Reese 06] mise à jour chaque année sur les différents travaux menés sur ce thème. Avec plus de 120 citations, on peut mesurer l’étendue des solutions disponibles pour ce problème. Nous avons pu constater dans une grande majorité de ces travaux (comme dans beaucoup d’autres dans le champ scientifique des graphes) l’hypothèse récurrente que les nœuds des graphes se situent dans un espace euclidien doté d’une distance euclidienne (aussi appelés espace métrique et distance métrique).

Ces espaces, et leur distance associ´ee d, sont caract´erisés par quatre propriétés :

Soit E un ensemble de couples de sommets lab´elis´es avec une fonction distance d,

Nonn´egativit´e d nonnegative⇔ ∀(i, j) ∈ E, d(i, j) ≥ 0

S´eparabilit´e : d separability⇔ ∀(i, i) ∈ E, d(i, i) = 0

Sym´etrie : d symmetric⇔ ∀(i, j) ∈ E, d(i, j) = d(j, i)

In´egalit´e triangulaire : d triangle ⇔ ∀(i, j) ∈ V, ∀ k ∈ E, d(i, j) ≤ d(i, k) + d(k, j)

En réalité, il est presque impossible de concevoir des algorithmes efficaces sans heuristiques, les-quelles doivent se baser sur des hypothèses respectées par les données d’entrée. La popularité de l’espace euclidien est expliquée par son intuitivité et sa satisfaction dans notre monde physique. Comme les algorithmes sont à l’origine con¸cus pour résoudre les problèmes de ce monde, il est naturel que ces hypothèses soient exploitées.

De plus, on peut remarquer que ces hypothèses sont employées dans la description des problèmes aussi bien que dans le déroulement et les preuves des algorithmes. Aussi, l’impact de leur insatisfaction

6.1 Algorithmes de résolution des problèmes de déploiement 83

ne peut être déterminé que par une étude précise et spécifique de chaque algorithme en particulier. En règle générale, elle se traduit par une perte de la précision des solutions obtenues, mais elle peut ´

egalement impacter les temps d’ex´ecution.

Il est nécessaire avant d’aller plus loin dans notre réflexion, d’analyser dans ces hypothèses et leur exploitation dans les algorithmes de graphe.

• La nonnégativité est très souvent employée et peu discutée.

• La séparabilité, de même, est peu discutée car elle implique la présence de boucles dans le

graphe, ce qui est souvent n´eglig´e.

• La symétrie, en revanche, est souvent discutée car elle mène à différentes classes de problèmes

et algorithmes. Ceci s’explique par le fait qu’elle peut être présente dans certains problèmes de notre monde physique, l’exemple classique étant la durée nécessaire pour se déplacer d’un point à un autre qui n’est pas nécessairement symétrique de par le relief (monté dans un sens, descente dans l’autre) ou par le trafic (sens des départs en vacances).

• L’inégalité triangulaire mène rarement à différentes classes d’algorithmes. Par contre elle sert

souvent de base aux heuristiques. Dans la plupart des cas, elle doit donc ˆetre satisfaite.

Dans le cas particulier du probl`eme des k-m´edians, nonnégativité et réflexité sont effectivement peu (voire pas) citées. En revanche, l’inégalité triangulaire est absolument obligatoire dans le sens où si elle n’est pas satisfaite« même décider si l’optimum est fini est NP-difficile » [Archer 01]. La symétrie, quant à elle, mène à deux classes d’algorithmes : la classe symétrique, traitée par exemple dans les travaux de Jain et Vazirani dans [Jain 99], Bartal, Charikar dans [Bartal 01] ou encore Ostrovsky et Rabani dans [Ostrovsky 02] ; et la classe asymétrique, traitée par exemple par Archer dans [Archer 01], Gortz et Wirth dans [Gortz 06] ou encore Panigrahy et Vishwanathan dans [Panigrahy 98].

Il est donc n´ecessaire de pouvoir qualiﬁer les distances des CN P -Graphes aﬁn de pouvoir s´ elec-tionner les algorithmes applicables.

Il est également nécessaire de spécifier que quelle que soit la satisfaction des propriétés des distances et des graphes, il est toujours possible de résoudre n’importe quel probl`eme par un algorithme trivial (aussi désign´e par force brutale). Ce type d’algorithmes ´enumère et compare toutes les solutions candidates au problème donné. Leur complexité est généralement exponentielle, en particulier pour les problèmes NP-difficiles. En revanche, leur mise en œuvre est aisée, ce qui leur confère une grande souplesse d’utilisation, et les solutions obtenues sont exhaustives, ce qui permet non seulement de sélectionner la ou les meilleures, mais en plus de les situer dans l’espace des solutions.

Enfin, les problèmes rencontrés sur les réseaux sont bien souvent de taille modeste comparés aux problèmes cibles de la théorie des graphes (qui se chiffrent souvent en millions de solutions). Ainsi, l’utilisation d’heuristiques complexes n’est réellement utile que dans des cas très précis caractérisés par une fréquence d’utilisation élevée plutôt que par une grande taille. L’utilisation d’algorithmes triviaux ne doit donc pas être négligée.

Dans le document Modèle et outils génériques pour la résolution des problèmes liés à la répartition des ressources sur grilles (Page 89-95)