Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées

(1)

HAL Id: tel-00720204

https://tel.archives-ouvertes.fr/tel-00720204

Submitted on 24 Jul 2012

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Résolution du problème du p-médian, application à la

restructuration de bases de données semi-structurées

Jean-Christophe Gay

To cite this version:

Jean-Christophe Gay. Résolution du problème du p-médian, application à la restructuration de bases

de données semi-structurées. Autre [cs.OH]. Université Blaise Pascal - Clermont-Ferrand II, 2011.

Français. �NNT : 2011CLF22171�. �tel-00720204�

(2)

N◦ d’ordre : D.U. : 2171 EDSPIC : 536

Universit´

e Blaise Pascal - Clermont II

Ecole Doctorale

Sciences Pour l’Ing´enieur de Clermont-Ferrand

TH `

ESE

pr´esent´ee par

Jean-Christophe GAY

pour obtenir le grade de

Docteur d’Universit´

e

Sp´ecialit´e : Informatique

R´

esolution du Probl`

eme du

p-m´edian,

Application `

a la Restructuration de Bases de

Donn´

ees Semi-Structur´

ees

Soutenue publiquement le 19 octobre 2011 devant le jury compos´e de :

Pr´esident:

Alain QUILLOT Professeur des Universit´es, Universit´e Blaise Pascal, LIMOS

Rapporteurs:

A. Ridha MAHJOUB Professeur des Universités, Université Paris Dauphine, LAMSADE Fran¸cois VANDERBECK Professeur des Universités, Université Bordeau 1, IMB

Examinateurs:

Fatiha BENDALI Maˆıtre de Conférence, Université Blaise Pascal, LIMOS Farouk TOUMANI Professeur des Universités, Université Blaise Pascal, LIMOS Eric GOURDIN Chercheur chez Orange Labs R&D

Directeur de th`ese:

(3)

(4)

Remerciements

Je tiens tout d’abord à remercier mon directeur de thèse, Mourad Ba¨ıou, pour m’avoir encouragé tout au long de cette thèse. Il a su me motiver quand il fallait et me faire découvrir la recherche.

Je remercie Ridha Mahjoub, Fran¸cois Vanderbeck pour avoir pris le temps de relire ma thèse ainsi que pour leurs conseils et les différentes corrections qu’ils ont pu apporter.

Je remercie Fatiha Bendali, Farouk Toumani et Eric Gourdin pour avoir ac-cepté de participer à mon jury de thèse et pour leurs remarques pertinentes qui ont permis l’amélioration de ce manuscrit.

Je remercie mes collègues et amis (en particulier Romain, Cédric, Frédérique, Olivier, Hélène, Ren, Heitor, Raksmey, Virginie, Christophe, Pascale. . . pour ne citer qu’eux) pour tous les moments de détente que l’on a pu passer ensemble et leurs conseils.

Enfin je tiens à remercier ma conjointe pour m’avoir toujours encouragé et pour le soutient moral qu’elle a su m’apporter pendant toute la durée de cette thèse.

(5)

(6)

R´

esum´

e

Les problèmes que nous considérons dans cette thèse sont de nature combina-toire. Notre principal intérêt est le problème de restructuration de données semi-structurées. Par exemple des données stockées sous la forme d’un fichier XML sont des données semi-structurées. Ce problème peut être ramené à une instance du problème du p-médian. Le principal obstacle ici est la taille des in-stances qui peut devenir très grande. Certaines instances peuvent avoir jusqu’à 10000 ou 20000 sommets, ce qui implique plusieurs centaines de millions de variables. Pour ces instances, résoudre ne serait-ce que la relaxation linéaire du problème est très difficile. Lors d’expériences préliminaires nous nous sommes rendu compte que CPLEX peut résoudre des instances avec 1000 sommets dans des temps raisonnables. Mais pour des instances de 5000 sommets, il peut prendre jusqu’à 14 jours pour résoudre uniquement la relaxation linéaire. Pour ces raisons nous ne pouvons utiliser de méthodes qui considère la résolution de la relaxation linéaire comme une opération de base, comme par exemple les méthodes de coupes et de branchements. Au lieu d’utiliser CPLEX nous util-isons une implémentation parallèle (utilisant 32 processeurs) de l’algorithme du Volume. L’instance pour laquelle CPLEX demande 14 heures est résolue en 24 minutes par l’implémentation séquentielle et en 10 minutes par l’implémentation parallèle de l’algorithme du Volume.

La solution de la relaxation linéaire est utilisée pour construire une solution réalisable, grâce à l’application d’une heuristique de construction gloutonne puis d’une recherche locale. Nous obtenons des résultats comparables aux résultats obtenus par les meilleures heuristiques connues à ce jour, qui utilisent beaucoup plus de mémoire et réalisent beaucoup plus d’opérations. La mémoire est impor-tante dans notre cas, puisque nous travaillons sur des données de très grandes tailles.

Nous étudions le dominant du polytope associé au problème du p-médian. Nous discutons de sa relaxation linéaire ainsi que de sa caractérisation poly´ e-drale. Enfin, nous considérons une version plus réaliste du problème de restruc-turation de données semi-structurées. Grosso modo, nous ajoutons au problème du p-médian original des nouveaux sommets s’ils aident à réduire le coût global des affectations.

Mots-clés: p-médian, algorithme du Volume, relaxation linéaire, implémentation parallèle, base de donnée semi-structurée.

(7)

(8)

Abstract

The problems we consider in this thesis are of combinatorial nature. Our main interest is the problem of approximating typing of a semistructured data. For example XML is a semistructured data. This problem may be reduced to an instance of the p-median problem. The main obstacle here is the size of the instances that may be very huge, about 10000 and 20000 nodes which imply several hundreds of million variables. For these instances, even solving the linear relaxation is a hard task. In some preliminary results we noticed that Cplex may solve instances of size 1000 in an acceptable time. But for some instances having 5000 nodes, it may needs 14 days for solving only the linear relaxation. Therefore, we cannot use methods that consider the linear relaxation as an elementary operation, as for example branch-and-cut methods. Instead of using Cplex we use the Volume algorithm in a parallel implementation (32 processors). For the instance where the Cplex needs 14 hours, the Volume algorithm in sequential implementation needs 24 minutes and in parallel implementation it needs 10 minutes.

The solution of the linear relaxation is used to produce a feasible solution by ﬁrst applying a greedy and then a local search heuristic. We notice that the re-sults we obtain are relatively the same as those given by the best method known up today, which produces more eﬀort and consumes more memory. Memory is important in our case since the data we consider are huge.

We study the dominant of the polytope associated with the p-median prob-lem. We discuss linear relaxation and a polyhedral characterization. Finally, we consider a more realistic version of the p-median problem when applied to the problem of approximating typing of a semistructured data. Roughly speaking, we add new nodes to the underlying graph if this help to reduce the overall cost.

Keywords: p-median, Volume algorithm, linear relaxation, parallel implemen-tation, semi-structured database.

(9)

(10)

Table des mati`

eres

Introduction 17

1 Applications et M´ethodes 21

1.1 Quelques applications . . . 21

1.1.1 Le problème des centres de commutation dans les réseaux de télécommunication [54, 55] . . . 21

1.1.2 Le probl`eme des lieux d’ouverture de comptes bancaires [38] . . . 22

1.1.3 Le probl`eme des proxys web [75] . . . 22

1.2 M´ethodes . . . 23

1.3 Heuristiques . . . 25

1.4 Algorithmes d’approximations . . . 27

1.5 Approche poly´edrale . . . 28

2 Bases de données semi-structurées et le problème du p-médian 33 2.1 Base de données semi-structurée . . . 34

2.1.1 XML et bases de donn´ees semi-structur´ees . . . 38

2.1.2 Typage des donn´ees en base de donn´ees . . . 39

2.2 Restructuration de bases de donn´ees . . . 43

2.2.1 Principe . . . 43

2.2.2 Réduction du problème en une instance du problème du p-médian . . . 45

2.2.3 Variante du probl`eme . . . 46

2.3 Création de données pour le p-médian . . . 48

2.3.1 Création de donnée à partir d’une base de données semi-structurée . . . 48

2.3.2 Utilisation de probl`emes existants . . . 51

2.3.3 Génération aléatoire de données . . . 51

2.3.4 Génération de données à partir d’un DAG . . . 52

2.3.5 Environement de test . . . 54

3 Résolution du problème du p-médian 55 3.1 L’algorithme du Volume . . . 55

3.1.1 Relaxation Lagrangienne et sous-gradient . . . 55

3.1.2 Application au probl`eme du p-m´edian . . . 57

3.2 R´esultats de calcul pr´eliminaires . . . 59

3.3 Parallélisation de la résolution du problème du p-médian . . . 62

3.3.1 Vocabulaire . . . 64 9

(11)

10 TABLE DES MATI `ERES

3.3.2 Etude de l’algorithme du Volume . . . 65

3.3.3 Algorithmes de principe . . . 68

3.3.4 Gestion des communications . . . 71

3.3.5 Impl´ementation . . . 79

3.3.6 Etude sur le nombre de processus calculateurs . . . 79

3.3.7 R´esultats de calcul . . . 81

3.4 Heuristiques . . . 83

3.4.1 Lagrangienne . . . 84

3.4.2 Arrondi al´eatoire . . . 85

3.4.3 Respect des centres . . . 86

3.4.4 Construction gloutonne . . . 86

3.4.5 Recherche Locale . . . 91

3.5 R´esultats de calculs . . . 102

4 Modèles liés au problème du p-médian 109 4.1 Le dominant de la relaxation linéaire de LDSC . . . 109

4.2 Résolution de la variante du problème de restructuration de bases de données semi-structurées . . . 114

4.2.1 Instances . . . 114

4.2.2 Heuristiques . . . 115

4.2.3 R´esultats de calcul . . . 118

(12)

Liste des Figures

1 Base de donn´ees relationnelle repr´esentant un journal . . . 35

2 Document semi-structur´e . . . 36

3 Graphe associ´e au document de la Figure 2 . . . 37

4 Fichier XMl repr´esentant des donn´ees . . . 38

5 Graphe d’une base de donn´ees semi-structur´ee . . . 39

6 Une base de donn´ees simple . . . 41

7 Graphe des distances d’une base de donn´ees. . . 46

8 Solutions optimale `a deux probl`emes . . . 47

9 Exemple de ﬁchier XML . . . 49

10 Exemple de fichier XML avec des références . . . 50

11 Simpliﬁcation du diagramme de classe l’impl´ementation de l’algorithme du Volume. . . 66

12 Récapitulatif des accès aux données par les différents processus. . 74

13 R´ecapitulatif des ´echanges par pipes entre les processus. . . 75

14 Liste des informations `a faire passer d’un processus calculateur au processus XtComputeur . . . 76

15 Forme des messages entre un calculateur et l’Agregateur . . . 78

16 Evolution du temps de résolution de la relaxation linéaire de notre problème en fonction du nombre de processus calculateurs. . . . 80

17 Les carrés sont ˙C, en noir sont les sommets dans ˆC et les blancs sont ceux de ˜C. (a) désigne un cycle g-impair qui n’est pas un Y -cyle et (b) désigne un Y -cycle. Les arcs du cycle sont en gras. 113 18 Le même cycle que celui de la Figure 17 (b). La valeur y∗(v) est 1 quand v n’est pas dans le cycle. Les arcs qui ne sont pas représentés dans la figure prennent la valeur 0. . . 114

(13)

(14)

Liste des Tableaux

1 Liste des méthodes principales du parseur Xerces-C . . . 49 2 Liste des instances du p-médian générées aléatoirement à partir

d’une liste d’objets respectant des définitions de types avec les paramètres employés pour leur génération. . . 53 3 Temps de calculs obtenus avec CPLEX lors de résolution de la

relaxation lin´eaire du p-m´edian pour des instances de la TSPLIB. 61 4 Comparaison en temps et en valeur sur de petites instances

en-tre l’algorithme du Volume et CPLEX pour la résolution de la relaxation linéaire du p-médian. . . 62 5 Suite du Tableau 4 . . . 63 6 Résultats de l’algorithme du Volume séquentiel sur des instances

de petites et moyennes tailles. . . 64 7 Liste non exhaustive des IPCs disponibles. . . 73 8 Accélérations constatées pour la version parallèle de l’algorithme

du Volume pour le problème du p-médian. . . 81 9 Comparaison entre l’algorithme du Volume séquentiel et parallèle

pour des instances de petites tailles. . . 82 10 Suite du Tableau 9. . . 83 11 Comparaison en valeur entre l’heuristique gloutonne “classique”

et la version modifiée tenant compte de la solution de la relaxation linéaire sur des instances de petite taille de la TSPLIB. . . 88 12 Suite du tableau 11. . . 89 13 Comparaison entre les version modifiée et originelle de l’heuristique

de construction gloutonne sur des petites instances. . . 90 14 Comparaison entre la solution trouv´ee par application de l’heuristique

de construction gloutonne puis d’une recherche locale et les solu-tions trouvée par notre méthode de résolution ainsi que la solution fournie par l’heuristique hybride. . . 92 15 Comparaison en temps entre l’implémentation na¨ıve et l’impl´

e-mentation de Whitaker de la recherche locale pour le probl`eme du p-m´edian. . . 95 16 Comparaison entre trois versions de la recherche locale pour le

probl`eme du p-m´edian. . . 99 17 Comparaison entre les deux versions de l’heuristique de

construc-tion gloutonne suivie d’une proc´edure de recherche locale. . . 100 18 Suite du Tableau 17 . . . 101

(15)

14 LISTE DES TABLEAUX 19 Comparaison en valeur entre l’heuristique hybride [90], l’heuristique

décrite dans [5] et l’algorithme du Volume parallèle suivit de l’heuristique gloutonne puis d’une recherche locale. . . 104 20 Suite du Tableau 19. . . 105 21 Résolution d’instances du p-médian de petites tailles par l’algorithme

du Volume puis application d’une heuristique gloutonne de con-struction et d’une recherche locale. . . 106 22 R´esolution d’instances du p-m´edian de tailles moyennes par l’algorithme

du Volume puis application de l’heuristique gloutonne modifiée et d’une recherche locale. . . 107 23 Résolution d’instances du p-médian de grandes tailles par l’algorithme

du Volume puis application de l’heuristique gloutonne modifiée et d’une recherche locale. . . 108 24 Différents résultats de l’applications de la première heuristique

décrite par l’Algorithme 21 sur des instances simulant des bases de données semi-structurées. . . 119 25 Différents résultats de l’applications de la seconde heuristique

décrite par l’Algorithme 22 sur des instances simulant des bases de données semi-structurées. . . 120

(16)

Liste des Algorithmes

1 Forme générique de la méthode du sous-gradient . . . 25

2 Forme simpliﬁ´ee de l’heuristique Hybride [90] . . . 27

3 Generation BDD(q, k, n) . . . 52

4 SubGradient(P ) . . . 56

5 Volume(P ) . . . 57

6 R´esolution du sous-probl`eme Lagrangien . . . 59

7 Algorithme du Volume appliqué au problème du p-médian . . . . 59

8 Algorithme du Volume appliqué au problème du p-médian . . . . 67

9 Résolution du sous-problème Lagrangien (détails) . . . 68

10 Algorithme des processus Calculateurs . . . 69

11 Algorithme du processus Agregateur . . . 70

12 Algorithme du processus Maˆıtre . . . 71

13 Gestion des communications complexe dans un processus lecteur 78 14 Heuristique Lagrangienne . . . 84

15 Heuristique d’arondis al´eatoires . . . 85

16 Heuristique de construction gloutonne . . . 87

17 localSearch(J) . . . 93

18 ﬁndOut(J , fi, φ1, φ2) . . . 94

19 rechercheLocale(J, φ₁, φ₂) . . . 97

20 updateStructures(u, gain, loss, extra, φ₁, φ₂) . . . 97

21 Heur1(w, A, s₁, s₂, n, k, q) . . . 116

22 Heur(G, n, p, A, k) . . . 117

(17)

(18)

Introduction

Dans cette thèse, nous nous intéressons au problème de restructuration de données semi-structurées. Nous montrerons comment ce problème peut se r´ e-duire à une instance du problème du p-median et comment le résoudre pour des instances de très grandes tailles. Le problème du p-médian est un problème d’optimisation combinatoire, c’est-à-dire qu’il peut se formuler par un pro-gramme linéaire en nombres entiers. La différence entre les programmes linéaires classiques et les programmes linéaires en nombres entiers est que, dans cette deuxième classe, les variables de la solution optimale doivent être entières alors que, dans les programmes classiques, nous n’avons pas cette restriction.

Le problème du p-median est une variante de la classe des problèmes de localisation dans le domaine de l’optimisation combinatoire. Malgré une riche littérature dans ce domaine et les nombreuses méthodes développées pour r´ e-soudre ce genre de problème, il n’existe pas de méthode pour résoudre des instances de très grandes tailles. Il est même difficile de résoudre la relax-ation linéaire classique associée à ce problème. Bien entendu, plusieurs heuris-tiques ont été développées et donnent des résultats satisfaisants, mais sans une évaluation de la borne inférieure (nous traitons un problème de minimisation) les résultats des heuristiques qui ne se basent pas sur la résolution de la relaxation linéaire ne peuvent pas être interprétés. Une des bornes inférieures connues dans la littérature est la valeur de la solution optimale de la relaxation linéaire, bien entendu, on pourra l’améliorer avec l’ajout de contraintes valides. Une raison de plus qui rend indispensable la résolution de cette relaxation linéaire, et il est crucial de pouvoir la résoudre dans des temps raisonnables.

Etant donné un graphe dirigé G = (V, A) et des coûts c(u, v) associés à chaque arc (u, v), le problème du p-médian (pMP) consiste en la sélection de p sommets appelés des centres et l’affectation des sommets non sélectionnés aux centres tout en minimisant la somme totale de l’affectation. Ce problème est NP-Complet même lorsque la fonction coût c est une métrique [49, 70, 87, 80]. Il est polynomial dans certaines classes de graphes comme les arbres [70] où la fonction coût a une certaine forme. Il est aussi polynomial dans des classes de graphes définies par des structures interdites [8].

La relaxation linéaire classique du problème du p-median associé au graphe G, noté par RLpMP(G), est la suivante :

(19)

18

Introduction

RLpMP(G) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ minimiser (u,v)∈A c(u, v)x(u, v), v_∈V y(v) = p, (u,v)∈A x(u, v) + y(u) = 1 ∀ u ∈ V, x(u, v)≤ y(v) ∀(u, v) ∈ A,

x(u, v)≥ 0 ∀(u, v) ∈ A,

y(u)≥ 0 ∀u ∈ V.

Les instances qui nous intéressent contiennent plusieurs centaines de mil-lions de variables. Et, compte tenu de la dégénérescence naturelle du problème, les solveurs commerciaux basés sur la méthode du simplexe ne peuvent pas résoudre de telles instances. Une des méthodes utilisées pour résoudre cette re-laxation linéaire est la relaxation Lagrangienne [38, 41, 17, 5, 22] qui s’avère très performante, mais le nombre de variables dans les instances traitées est moins important que les centaines de millions de variables que nous voulons traiter. De plus, la relaxation Lagrangienne est utilisée comme outil pour obtenir une borne inférieure et non pour obtenir la solution de la relaxation linéaire. Dans cette thèse, nous utilisons l’algorithme du Volume [2] pour obtenir une solution approchée de la solution optimale de RLpMP(G). Cet algorithme utilise la relax-ation Lagrangienne et la méthode du sous-gradient pour maximiser la fonction Lagrangienne de la relaxation. À chaque étape de la méthode du sous-gradient, l’algorithme du Volume produit une solution primale par des combinaisons con-vexes des différentes solutions du sous-problème Lagrangien. Les coefficients de cette combinaison sont mis à jour à chaque itération. L’algorithme s’arrête quand la violation des contraintes relaxées est négligeable. Nous verrons que l’algorithme du Volume résoud des instances intraitables par CPLEX, mais les temps d’exécution peuvent être importants. Pour les réduire, nous proposons une parallélisation de l’algorithme du Volume, nous avons noté que la diminution du temps est fortement liée au nombre de processeurs de la machine. Plusieurs expérimentations sont menées pour évaluer la performance et la comparaison de plusieurs heuristiques.

Nous nous intéresserons également au problème de localisation de dépôts sans capacités (LDSC), un problème lié au problème du p-median. Dans le problème LDSC, le nombre de centres à ouvrir n’est pas fixé à l’avance et chaque ouverture entraine un coût fixe. Donc, le problème LDSC est défini par la donnée d’un graphe dirigé G = (V, A), un coût c(u, v) pour chaque arc (u, v) ∈ A et un coût f (u) pour chaque sommet u∈ V . La relaxation linéaire classique du problème LDSC, notée par LDSC(G), est la suivante:

LDSC(G) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ minimiser (u,v)∈A c(u, v)x(u, v) + u_∈V f (u)y(u), (u,v)∈A

x(u, v) + y(u) = 1 ∀u ∈ V,

x(u, v)≤ y(v) ∀(u, v) ∈ A,

x(u, v)≥ 0 ∀(u, v) ∈ A,

(20)

19 Comme pour le problème du p-médian la résolution de LDSC(G) par CPLEX est difficile pour les instances de très grandes tailles, même si le problème est un peu plus facile que celui du p-médian. L’algorithme du Volume a été appliqué dans [12] pour résoudre LDSC(G). Des modifications de la méthode du simplexe pour traiter les contraintes x(u, v)≤ y(v) séparément des autres contraintes ont été proposées dans [95, 101], alors que dans [83] ces contraintes sont traitées comme des coupes et sont ajoutées au fur et à mesure quand c’est nécessaire. Nous donnons la description du dominant du polytope de la relaxation linéaire LDSC(G) et nous montrons la similitude entre l’optimisation sur ce dominant et la méthode dans [83].

Les problèmes de localisation proches de la forme étudiée dans cette thèse ont été introduits dans les années 50, l’application typique est la distribution d’un certain bien depuis des entrepôts potentiels aux clients au moindre coût [16]. Un entrepôt potentiel signifie que la construction d’un entrepôt dans un site, qui gènère un certain coût pris en compte dans le coût total, n’est effective que s’il contribue à la solution optimale. Donc, si nous connaissons les entrepôts de la solution optimale, les seuls coûts qui restent variables sont ceux de livraison (transport) aux clients qui est un problème facile à résoudre. Dans sa version originale, les entrepôts peuvent avoir des capacités et les clients des demandes. La version plus simple (sans capacités) formulée par le programme linéaire en nombres entiers LDSC(G) auquel nous ajoutons l’exigence sur l’intégrité des variables a été initialement rencontrée dans [77, 11]. D’autres types de problèmes de localisation ont été traités à savoir quand le site d’installation d’un entrepôt n’est pas connu et se situe dans une région “continue” (voir [47]). Dans cette thèse nous étudions la version dans laquelle les entrepôts se situent dans une région discrète (voir [82]).

Cette thèse est organisée comme suit. Dans le Chapitre 1, nous présenterons diverses applications du problème du p-médian ainsi que des méthodes utilisées pour le résoudre. Nous présenterons aussi, plus en détails, la formulation clas-sique de ce problème et deux reformulations de la littérature.

Dans le Chapitre 2, nous introduirons le problème d’extraction de schéma d’une base de données semi-structurée. Nous discuterons de sa forme générale qui est intraitable et ensuite nous présenterons une version simplifiée et nous montrerons comment elle peut se réduire au problème du p-médian.

Le Chapitre 3 introduit l’algorithme du Volume et son application pour résoudre la relaxation linéaire RLpMP(G) du problème du p-médian. Nous dis-cuterons des détails qui permettent une implémentation parallèlle de ce problème. Dans ce même chapitre, plusieurs expérimentations seront effectuées pour es-timer la qualité de cette parallélisation et nous présenterons quelques heuris-tiques naturelles qui se basent sur la solution de RLpMP(G) pour donner une solution réalisable.

Enfin, dans le Chapitre 4, nous présentons le problème de localisation de dépôt et la caractérisation du dominant du polytope de sa relaxation linéaire, LDSC(G). Il sera discuté quelques cas où ce dominant défini un polyèdre en-tier. Des résultats expérimentaux seront donnés pour comparer la résolution de LDSC(G) et celle sur le dominant par la méthode du simplex. Dans ce même chapitre, nous présenterons des heuristiques permettant de résoudre une variation du problème de restructuration des bases de données semi-structurées. Les notations et définitions seront données juste avant leur première intro-duction. Les notations suivent en général ce qui est souvent utilisé dans la

(21)

20

Introduction

(22)

Chapitre 1

Applications et M´

ethodes

1.1 Quelques applications

1.1.1 Le probl`

eme des centres de commutation dans les

r´

eseaux de t´

el´

ecommunication [54, 55]

L’information qui transite dans un réseau général doit passer par un certain nombre de commutateurs S₁, . . . , Sp. Cette information peut être le contenu

d’un message dans un réseau de télécommunication. Nous imaginons un réseau de télécommunication comme un graphe G = (V, A), où les sommets représentent des centres téléphoniques et les arêtes des connexions potentielles (en fibre op-tique) entre ces centres téléphoniques. Chaque sommet v est associé avec un poids hv qui désigne le nombre de fils (lignes) nécessaires pour connecter le

sommet v à un commutateur, et chaque arête (u, v) désigne le coût unitaire d’utilisation de cette connexion. Il est important de noter que les commuta-teurs sont installés sur les sommets et/ou sur les arêtes. Le problème est de trouver l’installation qui minimise la somme totale de la longueur des lignes entre les sommets et les commutateurs.

La distance entre toute paire de sommets u et v, not´ee par d(u, u), est la longueur de la plus courte chaˆıne dans G entre u et v. La longueur d’une chaˆıne est la somme des poids de ses arˆetes. Soit Xpun ensemble de points x1, . . . , xp

dans G qui ne sont pas n´ecessairement tous des sommets. Soit d(vi, Xp) = min{d(vi, x₁), . . . , d(vi, xp)},

où les visont précisément les sommets de G. Le problème revient à trouver

un ensemble “p-m´edian” de points Xp∗tel que pour n’importe quel ensemble de

points Xp de cardinalit´e p, nous avons :

vi∈V hid(vi, Xp∗)≤ vi∈V hid(vi, Xp).

Il n’est pas diﬃcile de voir qu’il existe toujours un ensemble de points Xp∗

qui correspond `a un ensemble de sommets Vp∗ de V . Mais la r´eciproque n’est

pas vraie. Dans l’article [55], Hakimi propose une réduction au problème de couverture de sommets, ensuite il énumère toutes les solutions possibles de ce problème via les fonctions booléennes [78, 61]

(23)

22 CHAPITRE 1. APPLICATIONS ET M ´ETHODES

1.1.2 Le probl`

eme des lieux d’ouverture de comptes

ban-caires [38]

Le nombre de jours nécessaires pour encaisser un chèque dans une banque située dans une ville i depend de la ville j où le chèque a été déposé. Par conséquent, une compagnie qui doit régler ses factures à plusieurs clients a intérêt à ouvrir des comptes dans plusieurs endroits stratégiques afin de maximiser ses fonds disponibles. Elle aimerait payer un client de la ville i à partir d’une banque d’une ville j qui maximise le nombre de jours nécessaires pour l’encaisser.

La formulation de ce problème est la suivante : soit I ={1, . . . , m} l’ensemble de sites où se situent les clients et J = {1, . . . , n} les sites potentiels où des comptes bancaires peuvent être ouverts. Soient dj le coût fixe pour maintenir

un compte au site j, fila valeur (en euros) totale des ch`eques `a payer aux clients

dans le site i et φij est le nombre de jours n´ecessaires pour encaisser un ch`eque

dans le site i et qui est d´epos´e dans le site j. Soient yj =

1 si un compte est maintenu dans le site j, 0 sinon,

xij =

1 si le client dans le site i est pay´e depuis un compte dans le site j, 0 sinon.

Donc le probl`eme des lieux d’ouverture de comptes bancaires peut se for-muler par le programme lin´eaire en nombres entiers suivant:

(LOCB) ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ Maximiser i_∈I j_∈J cijxij− j_∈J djyj j_∈J xij = 1, ∀i ∈ I 1≤ j yj ≤ K, 0≤ xij ≤ yj ≤ 1 ∀i ∈ I, j ∈ J xij, yj∈ {0, 1}, ∀i ∈ I, j ∈ J.

1.1.3 Le probl`

eme des proxys web [75]

Un proxy est un programme servant d’intermédiaire pour accéder à un réseau, généralement Internet. Dans ce cas, le réseau est supposé être une arborescence T avec un sommet racine r. L’ensemble des sommets de T est noté par V (T ). Les arcs de T sont dirigés des feuilles vers la racine. Un sommet v de T fait une demande de service, comme la connexion à une adresse http. Cette demande se propage du sommet v vers la racine à travers l’arborescence. Cette propagation s’arrête quand un proxy est rencontré. Le problème revient à placer un nombre fixe de proxys dans les sommets de T de sorte que la distance parcourue par les demandes faites au niveau de chaque sommet soit minimale.

Chaque sommet v de T a un poids w(v) qui correspond en général à la fréquence des demandes passées depuis ce sommet. Chaque arc (u, v) est associé avec une distance d(u, v) qui prend en compte le trafic et la congestion observée sur cet arc. La définition de la distance peut être étendue d’un sommet à un de ses ancêtres et pas seulement d’un sommet à son père. C’est-à-dire que la distance d’un sommet u à v est la somme des distances des arcs composants le chemin de u à v (v est un ancêtre de u donc il est sur le chemin de u vers la racine

(24)

1.2. M ÉTHODES 23 r). Soit V⊆ V (T ) un sous-ensemble de sommets de T , si v est un sommet de T , v désigne l’ancêtre le plus proche de v dans V. Donc, le problème revient `

a définir les p proxys qui minimisent{c(T, V) : V⊆ V (T ), |V| = p}, où c(T, V) =

v_{∈V (T )}

w(v)d(v, v).

La différence entre ce modèle et le problème du p-médian classique pMP introduit plus haut, réside dans l’affectation des sommets non-sélectionnés aux centres. Dans le modèle classique, l’affectation se fait d’un voisin à un autre, alors que, dans ce modèle, elle se fait d’un sommet u à un sommet v même s’ils ne sont pas voisins, mais il faut qu’ils se trouvent dans le chemin unique de u vers t la racine de l’arborescence.

Un algorithme de complexité O(p2n2), où n = |V (T )|, a été donné dans [70]. Un autre algorithme de complexité O(pn3) a été developpé par Hsu [66]. Par l’application de la programmation dynamique un algorithme de complexité O(pn2) est présenté dans [98]. Plus récemment, nous relevons un algorithme en O(P p2) [103] basé sur la programmation dynamique, où P désigne la somme du nombre d’ancêtres de chaque sommet de l’arborescence. D’autres algorithmes basés sur les mêmes techniques existent pour des cas plus simples. Dans le cas d’une chaˆıne, il existe un algorithme en O(pn) [60]. Dans le cas d’arbres, pour p = 2 et p = 3, des algorithmes en O(n log n) et O(n log2n) ont été développés par Chrobak et al. [33].

1.2 M´

ethodes

La définition du problème du p-médian et sa relaxation linéaire

La donnée est une constante p et un graphe dirigé G = (V, A), où chaque arc (u, v)∈ A est associé avec un poids d(u, v) (qui, en général et dans plusieurs applications, est une métrique) et chaque sommet v ∈ V est associé avec un poids w(v). Etant donné un sous-ensemble S ⊆ V et v ∈ V \ S, le sommet Sv

est d´eﬁni comme suit :

Sv= argminu_∈S{w(v)d(v, u)}.

Noter que pour deux sommets diﬀ´erents v et vdans V\S, Svet Sv peuvent

co¨ıncider. Les sommets dans S sont appel´es m´edians ou centres.

Le problème du p-médian (classique) pMP revient à déterminer un sous-ensemble S⊆ V , |S| = p, qui minimise

v_{∈V \S}

w(v)d(u, Sv).

Quand on écrit pMP(G), c’est pour préciser que le problème du p-médian est associé au graphe G où, au préalable, nous avons défini les poids des arcs et des sommets. Le problème pMP(G) peut ainsi se formuler par le programme linéaire en nombres entiers suivant :

(25)

24 CHAPITRE 1. APPLICATIONS ET M ´ETHODES Z(pMP(G)) = minimiser (u,v)∈A w(u)d(u, v)x(u, v) (1.1) v_∈V y(v) = p, (1.2) v_:(u,v)∈A

x(u, v) = 1− y(u) ∀u ∈ V, (1.3) x(u, v)≤ y(v) ∀(u, v) ∈ A, (1.4)

y(v)≥ 0 ∀v ∈ V, (1.5)

x(u, v)≥ 0 ∀(u, v) ∈ A, (1.6)

x∈ {0, 1}|A|, y∈ {0, 1}|V |. (1.7) La variable y(u) prend la valeur 1, si le sommet u est s´electionn´e c’est-`

a-dire qu’il est considéré comme un médian, et 0 sinon. La variable x(u, v) prend la valeur 1 quand un sommet u non-sélectionné est affecté au médian v. Donc l’égalité (1.2) impose la sélection d’exactement p médians. L’addition des inégalités (1.4) qui indiquent qu’aucun sommet ne peut être affecté à un sommet qui n’est pas un médian, implique que, dans les égalités (1.3), si u n’est pas un médian alors il doit être affecté à un médian.

Nous donnons maintenant une définition du problème du k-centres pour permettre aux lecteurs de différencier les deux problèmes k-centres et p-médian. Même si parfois nous appelons les médians des centres, les deux problèmes sont différents.

Le problème duk-centres. La donn´ee du problème et l’ensemble des solutions réalisables sont les mêmes que pour le problème du p-médian ci-dessus. Par contre, nous cherchons un sous-ensemble S ⊆ V , |S| = k qui minimise la fonction objective suivante:

max{minu_∈S{w(v)d(u, v)}; v ∈ V \ S}. Relaxation Lagrangienne dup-m´edian

Avant de rentrer dans les détails de certaines méthodes, nous allons d’abord présenter la relaxation Lagrangienne (une méthode duale) appliquée au pMP initialement appliquée pour ce problème dans [50]. Si nous dualisons les égalités (1.3) et nous notons par π le vecteur des multiplicateurs duaux, généralement appelés les multiplicateurs de Lagrange, le sous-problème Lagrangien s’écrira comme suit : L(π) = Minimiser (u,v)∈A ¯ c(u, v)x(u, v)− u_∈V π(u)y(u) + u_∈V π(u) (1.8)

(26)

1.3. HEURISTIQUES 25

u∈V

y(u) = p, (1.9)

x(u, v)≤ y(v) for all (u, v) ∈ A, (1.10) 0≤ y(u) ≤ 1 for all u∈ V, (1.11) x(u, v)≥ 0 for all (u, v) ∈ A. (1.12) o`u ¯c(u, v) = w(u)d(u, v)− π(u).

Le calcul de L(π) est facile [18] et se fait comme suit : pour chaque sommet v∈ V , nous calculons :

μ(v) =

(u,v):¯c(u,v)≤0

¯

c(u, v)− π(v).

Ensuite, nous choisissons les p plus petites valeurs μ(v) pour v ∈ V , ap-pelons les μ(v₁), . . . , μ(vp). Alors la solution optimale de (1.8)-(1.12) est obtenue

comme suit : y(vi) = 1 pour i = 1, . . . , p; x(u, vi) = 1 si ¯c(u, vi)≤ 0, pour chaque

arc (u, vi)∈ A, avec u ∈ V \{v₁, . . . , vp}, i = 1 . . . , p. Toutes les autres variables

prennent la valeur 0. Il est clair que

maxπ∈IR{L(π)} ≤ z(pMP(G)).

Le probl`eme

L(π∗) = maxπ∈IR{L(π)} (1.13)

se résout par une méthode itérative appelée la méthode du sous-gradient.

Algorithme 1Forme générique de la méthode du sous-gradient 0. Poser t = 0; πt_{= 0.}

1. Calculer L(πt_{) en r´}_{esolvant (1.8)-(1.12); soit (x}t_{, y}t_{) la solution optimale}

obtenue; d´eﬁnir vt_{, o`}_{u v}t_{(u) = 1}_{− y}t_(u)₋ (u,v)∈A

xt(u, v).

2. Si|vt_{| ≤ ou que la valeur L(π}t_{) ne change pas beaucoup apr`}_{es un}

cer-tain nombre d’itérations ou que le nombre d’itérations a atteint une certaine limite, arrêter la procédure.

3. Poser t = t + 1; πt

= πt−1+ s∗ vt−1, aller `a l’´etape 1.

Le pas s de l’avancement de cette méthode est une valeur empirique et elle est fixée selon des critères heuristiques qui peuvent changer d’un problème à un autre.

1.3 Heuristiques

Dans ce qui suit, nous présenterons les heuristiques qui ne sont pas basées sur la solution de la relaxation linéaire (1.1)-(1.6). En effet, les heuristiques basées sur cette relaxation linéaire n’ont jamais été considérées pour le problème du p-median où les instances contiennent plusieurs centaines de millions d’arcs, car

(27)

26 CHAPITRE 1. APPLICATIONS ET M ÉTHODES il est déjà assez coûteux de résoudre uniquement la relaxation linéaire. Nean-moins, nous trouvons des heuristiques utilisant la valeur de la relaxation linéaire du problème de localisation de dépôts [12]. Comme le principal travail de cette thèse est l’accéleration de la résolution de (1.1)-(1.6) pour les grandes tailles, nous avons également investi plusieurs heuristiques basées sur la solution de cette relaxation, ces heuristiques seront présentées dans la Section 3.4.

• Heuristiques gloutonnes [73, 96, 69, 38, 105]. Les heuristiques gloutonnes sont les plus simples. Initialement, nous avons un médian v∗, choisi comme étant le meilleur parmi tous les sommets lorsque nous décidons de n’en sélectionner qu’un seul. La valeur de cette solution, ap-pelée la solution courante est_u_∈V w(u)d(u, v∗). L’heuristique gloutonne classique sélectionne un par un les médians jusqu’à ce qu’elle arrive à p médians. A chaque étape, elle sélectionne le médian qui procure la plus grande diminution de la valeur de la solution courante. D’autres variantes, dont la plupart sont basées sur certaines règles de choix aléatoires ont été présentées par Resende et Werneck [90]. Nous avons introduit une heuris-tique gloutonne basée sur la solution de la relaxation linéaire (1.1)-(1.6), cette heuristique sera détaillée dans la Section 3.4.4.

• Heuristiques de recherche locale [77, 99, 65, 58, 59, 48, 89]. Le principe de ces heuristiques est de sélectionner un ensemble S de cardi-nalité p de sommets et de les considérer comme médians. Ensuite pour chaque sommet v /∈ S on cherche un sommet u dans S, on évalue la valeur de la nouvelle solution induite par les médians (S\{v})∪{u}, si on diminue la valeur de la solution courante alors S sera mis à jour, il devient (S\ {v}) ∪ {u}. On continue ainsi de suite jusqu’à ce qu’aucune amélioration ne soit possible, en respectant toujours cette règle d’interchanger deux sommets. Ces heuristiques varient par le choix de la solution initiale et le choix de la règle d’interchanger les sommets, comme par exemple inter-changer des sommets qui génèrent la plus grande diminution ou bien le faire dès qu’il est possible.

• Heuristiques Lagrangiennes [18]. Ces heuritiques se basent sur la so-lution (x, y) donnée par le sous-problème Lagrangien (1.8)-(1.12). Comme nous l’avons vu ci-dessus, la solution (x, y) est entière, alors l’heuristique choisi comme médians les p sommets tel que y(u) = 1. Ensuite chaque sommet avec y(u) = 0 est affecté au plus proche sommet v avec y(v) = 1. Cette heuristique est rapide, elle est donc appliquée plusieurs fois durant le processus de la méthode du sous-gradient. La meilleure solution trouvée sera gardée comme étant la solution heuristique. Nous avons remarqué que cette heuritique ne produit pas de solutions de bonne qualité. La mesure de la qualité d’une solution est toujours comparée avec la borne duale (1.13).

• Heuristique Hybride [90]. C’est l’une des meilleures heuristiques sur le plan des résultats empiriques. Bien entendu pour pouvoir évaluer sa performance nous avons besoin de la valeur de la borne dual (1.13) qui ne peut être obtenue que par la parallélisation de l’algorithme du Vol-ume pour les très grandes instances, parallélisation qui sera détaillée dans

(28)

1.4. ALGORITHMES D’APPROXIMATIONS 27 la Section 3.3. L’idée principale de cette heuristique est l’application in-tensive de la recherche locale en suivant la procédure du chemin-reliant “path-relinking”. Soit S₁et S₂deux sous-ensembles de V , chacun de car-dinalité p. La procédure du chemin-reliant de S₁à S₂transforme S₁en S₂ en incluant à chaque étape un élément de S₂\S₁à S₁, et elle fait sortir un ´

elément de S₁\ S₂. Nous pourrons également imaginer un chemin-reliant de S₂ à S₁ et appliquer l’idée inversement. La procédure chemin-reliant donne la meilleure solution trouvée en allant de S₁ à S₂. Dans [90], une autre stratégie est adoptée. Elle donne un minimum local, c’est-à-dire une solution qui est succédée et précédée, dans le chemin-reliant, par des so-lutions moins bonnes. Si un tel minimum n’existe pas, alors elle retourne une des solutions extrêmes.

Algorithme 2Forme simpliﬁ´ee de l’heuristique Hybride [90] 0. it = 0; Liste-Elite=∅

1. Si it≤ Max it, soit S ⊆ V , |S| = p, généré aléatoirement; améliorer la valeur de S par recherche locale, S est l’ensemble des médians qui donne la meilleure solution.

2. Choisir S dans Liste-Elite selon certaines r`egles.

3. Si S existe, appliquer la procédure du chemin-reliant de S à S, soit S la solution retournée; ajouter S à Liste-Elite; it = it + 1; aller à l’Etape 1. 4. Appliquer une heuristique génétique où la génération initiale est Liste-Elite. Les générations futures seront créés par la procédure du chemin-reliant entre les solutions de la génération courante. La procédure s’arrête quand aucune amélioration n’est possible.

1.4 Algorithmes d’approximations

Soit (P ) un problème d’optimisation combinatoire et soit z∗ la valeur d’une solution optimale de (P ). Soit A un algorithme qui nous donne une solution réalisable z(A) pour le problème (P ), c’est-à-dire une solution qui vérifie toutes les contraintes de ce problème, mais qui n’a pas forcément la meilleure valeur. Nous dirons que A est un algorithme α-approximation si z(A) ≤ αz∗, α > 1, quand (P ) est un problème de minimisation. Lorsque (P ) est un problème de maximisation, A sera dit un alogorithme α-approximation si z(A)≥ αz∗ avec 0 < α < 1. La valeur α est appelée le facteur d’approximation. Quand ce facteur est une constante, nous parlerons alors d’algorithmes d’approximations `

a facteur constant.

Le premier algorithme d’approximation à facteur constant a été présenté en 1999 dans [28, 30], c’est un algorithme 62₃-approximation. Auparavant, d’autres algorithmes étaient connus avec un facteur non-constant, il dépend du nombre de sommets de l’instance. Un algorithme O(log n log log n)-approximation est donné par Bartal [14, 15]. Le même algorithme est amélioré par Charikar et al. [29] pour atteindre un facteur de O(log p log log p). Dans [76], un algorithme (1 + )-approximation a été développé, pour tout > 0, mais le nombre de médians ouverts peut aller jusqu’à (1 + 1)(ln n + 1)p. Peu de temps après, le facteur constant de 62₃ a été ramené à 6 [67, 68]. Dans cet article, les auteurs donnent un algorithme d’approximation primal-dual pour le problème de

(29)

local-28 CHAPITRE 1. APPLICATIONS ET M ÉTHODES isation de dépôts ayant un facteur d’approximation égal à 3. En utilisant la relaxation Lagrangienne ils transforment ce facteur en 6 pour le problème du p-median. Ce facteur a été encore réduit à 4 par Charikar et Guha [27]. Finale-ment les algorithmes de recherche locale atteignent un facteur d’approximation ´

egal 3+2_s [3] où s est le nombre de sommets qu’on autorise à interchanger à chaque itération. Bien entendu, tous les algorithmes cités ci-dessus sont polyno-miaux, ces résultats ne tiennent que lorsque la fonction objectif est une métrique. Sauf le résultat dans [76] qui est vrai quand la fonction objectif est positive et quelconque ; rappelons que dans ce cas le nombre de médians peut largement dépasser p.

Concernant la complexité du pMP, il est connu qu’il est même NP-dur d’obtenir un algorithme (1 + 2_e − )-approximation dans le cas métrique. Ci-dessous nous donnons la preuve qu’il est NP-dur de trouver un algorithme poly-nomial (1 + )-approximation, pour tout > 0, dans le cas où la matrice des coûts est symétrique (ce qui est le cas des métrique). Un algorithme (1 + )-approximation est appelé un schéma d’approximation.

Théorème 1.4.1. [76] Le problème qui consiste à trouver pour tout > 0, une solution du p-médian de valeur au plus 1 + fois la valeur de l’optimum est NP-dur.

Preuve. Une réduction à partir du problème du dominant taille p sera donnée. Le problème du dominant de taille p. Etant donné un graphe non-dirigé G = (V, E) et une constante p, existe-t-il un sous-ensemble Dp⊆ V de taille p

tel que tout sommet v∈ V \ Dp est adjacent `a au moins un sommet de Dp.

Etant donnés un graphe non-dirigé G = (V, E), une constante 0≤ p ≤ |V | et > 0, construire le graphe dirigé complet G = (V, A) comme suit : chaque arête uv de G est remplacée par deux arcs (u, v) and (v, u) chacune avec un coût c(u, v) = c(v, u) = 1 ; pour chaque non-arête de uv de G, on ajoute deux arcs (u, v) et (v, u) de même coût c(u, v) = c(v, u) = (1 + )(n− p) + 1. Donc, le graphe G et les coûts c définissent une instance du problème du p-médian.

Si le graphe G admet un dominant de taille p, alors par définition la valeur de la solution optimale du p-médian sera n− p. Donc, un algorithme (1 + )-approximation délivre une solution de valeur inférieure ou égale à (1 + )(n− p). Par contre, si G n’admet pas un dominant de taille p, alors n’importe quelle solution du p-médian enpruntera un arc de coût (1 + )(n− p) + 1 (cet arc correspond à une non-arête de G). En résumé, si la valeur de la solution donnée par l’algorithme (1 + )-approximation est inférieure ou égale à (1 + )(n− p), alors G admet un dominant de cardinalité p, sinon G n’admet pas un tel dominant.

1.5 Approche poly´

edrale

Avant de présenter les résultats et la méthode basée sur la programmation linéaire, nous avons besoin d’introduire quelques défnitions.

• Poly`edre. Un poly`edre P est un ensemble de points de IRn

satisfaisant un nombre fini d’inégalités linéaires, c’est-à-dire P ={x ∈ IRn : Ax≥ b}. • Polytope. Un polyèdre borné est appelé polytope.

(30)

1.5. APPROCHE POLYÉDRALE 29 • Inégalité valide. Soit P un polyèdre dans IRn

. Une inégalité aTx≥ α est valide pour P si elle est vérifiée par chacun des points de P , P ⊆ {x ∈ IRn : aTx≥ α}.

• Combinaison convexe. Soit S = {x1, . . . , xk} un ensemble de points

de IRn. Un point x∈ IRn peut ˆetre obtenu par combinaison convexe des points de S s’il existe des scalaires positifs λ₁, . . . , λk tels que

x = k i₌₁ λixi, k i=1 λi= 1, λi≥ 0, pour i = 1, . . . , k.

• Enveloppe convexe. Soit S = {x1, . . . , xk} un ensemble de points de

IRn. L’enveloppe convexe des points de S not´ee conv(S) est l’ensemble de tous les points de IRn pouvant ˆetre obtenus par combinaison convexes de points de S.

• Dimension Un poly`edre P dans IRn

est de dimension k, noté dim(P ) = k, si le nombre maximum de points de P affinement indépendants est k + 1. • Indépendance affine. Soit {x1, . . . , xk} un ensemble de points de IRn.

Ces k points sont dits affinement indépendants si le système

k i₌₁ λixi= 0, k i=1 λi= 0,

a comme solution unique λi= 0 pour i = 1, . . . , k.

• Face. Soit P = {x ∈ IRn

: Ax≥ b} un poly`edre de IRn et aT_x_{≥ α une}

in´egalit´e valide pour P . L’ensemble F ={x ∈ P : aT_{x = α}_{} est dit une}

face de P .

• Facette. Une face F d’un poly`edre P est une facette de P si dim(F ) = dim(P )− 1.

• Point extrême. Soit P un polyèdre. Une face de P de dimension 0 est un point extrême de P . Cette définition est équivalente à la propriété suivante : un point x ∈ P est un point extrême de P s’il n’existe pas x₁, x₂∈ P , x₁= x₂ tel que x =1₂x₁+1₂x₂.

• Problème de séparation. Etant donné un système linéaire Ax ≤ b et un vecteur y, le problème de séparation associé à ce système et à y est de vérifier si y est une solution de Ax≤ b et dans le cas contraire de trouver une contrainte de ce système violée par y.

(31)

30 CHAPITRE 1. APPLICATIONS ET M ´ETHODES

La m´ethode de coupes et de branchements

C’est une méthode exacte et basée sur la donnée d’une relaxation linéaire du problème d’optimisation combinatoire en question. Cette relaxation linéaire peut contenir un nombre exponentiel, en fonction du nombre de variables, d’inégalités linéaires. Supposons que pour un problème d’optimisation combina-toire nous disposons d’une formulation du problème par un programme linéaire en nombres entiers contenant un certain nombre d’inégalités valides Ax ≥ b, c’est-à-dire nous désirons résoudre le problème suivant:

minimiser cTx, (1.14)

Ax≥ b, (1.15)

x∈ {0, 1}n. (1.16)

Soit P le polyèdre dont les sommets sont les solutions de (1.15)-(1.16). Si une description complète de P par un système d’inégalités linéaires est connue et si le problème de séparation associé à ce système est polynomial alors (1.14)-(1.16) peut être résolu en temps polynomial [72, 52]. L’inverse de cette assertion est aussi vrai [52, 71, 86]. Cette équivalence entre optimisation et séparation ´

etait à l’origine des méthodes de coupes et branchements utilisées pour résoudre des problèmes d’optimisation combinatoire.

Malhereusement, pour les problèmes NP-durs, on ne connait pas l’ensemble des inégalités permettant de résoudre le problème, c’est-à-dire P ⊂ {x ∈ IRn : Ax ≥ b}. En général le système Ax ≥ b contient un nombre important d’inégalités valides qui en pratique peuvent s’avérer suffisantes pour résoudre le problème à optimalité, ou dans le cas contraire elles produisent des bornes pour la valeur de la solution optimale.

L’algorithme de coupe et de branchements associé au problème (1.14)-(1.16) commence par résoudre le programme linéaire :

minimiser cTx, (1.17)

A₀x≥ b₀. (1.18)

où A₀x≥ b₀est un sous-système de Ax≥ b, contenant un nombre raisonnable de contraintes. Nous supposons savoir résoudre en temps polynomial le problème de séparation associé au système Ax≥ b. Soit x∗ la solution de (1.17)-(1.18). L’algorithme résoud par la suite le problème de séparation associé à x∗ et Ax≥ b. Si nous avons déterminé une inégalité aT_x_{≥ α parmi Ax ≥ b, tel que}

aT_x∗_{< b, alors nous ajoutons a}T_x_{≥ α au syst`eme A}

0x≥ b0et nous r´esolvons

`

a nouveau (1.17)-(1.18). Nous répétons cette procédure jusqu’à ce que Ax₀≥ b. Si la solution courante x∗est à composantes en 0-1, alors nous avons trouvé une solution optimale de (1.14)-(1.16). Sinon, l’algorithme fait un branchement sur une composante fractionnaire x∗i en construisant deux nouveaux programmes

obtenus à partir du programme courant, en ajoutant respectivement les égalités (non valides) xi = 1 ou xi = 0 et en procédant comme ci-dessus pour les

poly`edres P∩ {x : xi = 0} et P ∩ {x : xi= 1}.

Cette méthode a été utilisée dans [4, 5]. Dans [4], Avella et Sassano ont donné une étude polyédrale du polytope du p-médian défini seulement par rapport

(32)

1.5. APPROCHE POLYÉDRALE 31 aux variables d’affectations et lorsque le graphe G = (V, A) est un graphe dirigé complet. Nous notons,|V | = n et donc |A| = n(n−1). Nous pouvons facilement, dans ce cas, vérifier que la projection du polytope défini par les inégalités (1.2)-(1.6) donne le polytope suivant :

x(u, v) + (v,t)∈A x(v, t)≤ 1, ∀(u, v) ∈ A, (1.19) (u,v)∈A x(u, v) =|V | − p, (1.20) x(u, v)≥ 0, ∀(u, v) ∈ A. (1.21) Soit Qp(G) le polytope défini par les inégalités (1.19)-(1.21). Dans [4]

l’enveloppe convexe des points dans Qp(G)∩ {0, 1}|A| a été notée par Mp¯(−→Kn)

et il a été montré que sa dimension est n(n− 1) − 1. Plusieurs facettes de Mp_¯(−→Kn) ont été introduites. Ces facettes sont issues du polytope des stables

d’un graphe. Dans cet article, les auteurs ont appliqué l’algorithme de coupes sans le branchement sur quelques instances de petites tailles de la librairie OR [19]. Ils ont montré que les familles de facettes introduites peuvent suffir dans de nombreux cas pour obtenir la solution optimale. D’autres résultats plus poussés sur des instances de plus grandes tailles allant jusqu’à 5000 sommets ont été re-portés dans [5]. Pour résoudre de telles instances, les auteurs ont eu recours à la génération de colonnes combinée dans un algortihme de coupes et branche-ments qui englobe plusieurs familles de contraintes valides. Sans la génération de colonnes, il est impossible de pratiquer un algorithme de coupes et de branche-ments sur des instances de tailles avoisinant les 3000 sommets. La génération de colonnes seule ne peut pas esquiver le problème de dégénérescence qui est la cause principale de la lenteur des logiciels commerciaux comme CPLEX. Le phénomène de dégénérescence apparaˆıtra lors de la génération de colonnes lorsque nous ajoutons des colonnes avec un coût réduit assez grand, la valeur de la relaxation linéaire ne change pas et rapidement nous nous trouverons avec un nombre ingérable de colonnes. Pour éviter ce phénomène, les auteurs fixent des limites sur les coûts réduits et quelques autres règles. Aussi, l’ensemble ini-tial des colonnes est obtenu en résolvant le problème Lagrangien (1.13). Cette solution servira de base pour la sélection de l’ensemble de départ.

Dans [22], un problème industriel appelé “Optimal Diversity Management” a été formulé comme un problème du p-médian par Briant et Naddef. Dans cet article, des résultats très proches de l’optimum ont été reportés sur des in-stances allant jusqu’à 5500 sommets. Mais la structure particulière du problème implique des graphes assez creux, donc plus faciles à résoudre. Leur technique consiste à résoudre le problème Lagrangien (1.13), ils fixent ensuite des variables en exploitant l’information délivrée par les coûts réduits. Ainsi, la taille du problème est réduite en fixant quelques variables. Le nouveau problème obtenu est introduit dans CPLEX pour trouver une solution en 0-1. Nous voyons bien que cette technique se limite à des instances de tailles raisonnables.

D’autres types d’approches ont été considérés par exemple dans [39]. Ils introduisent de nouvelles variables pour exprimer le fait que chaque sommet doit être affecté au sommet le plus proche parmi ceux qui sont ouverts. Rap-pelons que cette considération est prise en compte dans la fonction objectif de

(33)

32 CHAPITRE 1. APPLICATIONS ET M ÉTHODES la formulation (1.1)-(1.7). Plus tard dans [46] cette formulation a été améliorée en exprimant les variables additionnelles par un produit de quelques autres variables. Ensuite une linéarisation est donnée pour obtenir une nouvelle for-mulation linéaire. D’autres travaux expriment l’affectation d’un sommet au plus proche médian par l’ajout d’inégalités linéaires [92, 104, 35, 51, 56, 44, 36, 57, 25, 20, 94, 100, 21, 79]. Nous pouvons écrire l’inégalité la plus simple qui exprime cette affectation comme suit :

w:c(u,w)>c(u,v)

x(u, w) + y(v)≤ 1 ∀(u, v) ∈ A. (1.22)

Les variables x et y sont telles qu’elles étaient définies dans (1.1)-(1.7) et c(i, j) = w(i)d(i, j).

Soit M Pp(G) le polytope associé au problème p-médian. M Pp(G) est

l’en-veloppe convexe de solutions en 0-1 qui vérifient (1.2)-(1.6). Peu de résultats polyédraux ont été trouvés concernant le polytope M Pp(G). Dans [42, 43, 107],

nous trouvons une ´etude faciale et plusieurs facettes du polytope M Pp(G). Dans

[6, 97] le polytope M Pp(G) est compl`etement d´ecrit quand le graphe G n’admet

pas deux arcs entrants dans un sommet et un autre sortant de ce même sommet comme sous-graphe. Dans [9] les auteurs traitent la relation entre le polytope associé au problème de localisation de dépôts et le polytope M Pp(G).

Les facettes du polytope associé au problème de localisation de dépôts ont ´

eté étudiées dans [53, 40, 31, 32, 26]. Toutes ces facettes peuvent dans certains cas définir des facettes de M Pp(G), mais dans tous les cas elles sont valides pour

M Pp(G) et elles peuvent donc ˆetre utilis´ees dans n’importe quel algorithme de

(34)

Chapitre 2

Bases de donn´

ees

semi-structur´

ees et le

probl`

eme du

p-m´edian

Internet est encore aujourd’hui en pleine expansion, même s’il fait parti de notre quotidient. Ce média est devenu ces dernières années une source d’informations sur tous les sujets ou presque. Des quatres coins du monde on peut consulter une page web traitant par exemple des derniers films hollywoodiens, ou de la dernière théorie de physique à la mode. Toutes ces pages présentent de l’information qui est organisée, mise en page et présentée de manière à ce qu’un utilisateur puisse la comprendre et la parcourir simplement. L’organisation, la mise en page et la présentation d’une information prend du temps, et le temps est une ressource que l’on ne peut pas étendre à volonté. Au débuts du web les pages étaient statiques, pour chaque article une page était créée, remplie et mise en page par un rédacteur. Cette technique de présentation à rapidement été abandonnée pour une technique de rédaction alimentant un format d’affichage qui sera rempli lors de la génération de la page avec l’information requise. Le web statique a fait place au web dynamique.

De plus en plus de sites web utilisent ces techniques de génération de pages dynamiques en rapport avec l’information demandée par l’utilisateur. Ainsi sur un site de présentation de films il n’y a pas une page écrite pour chaque film, mais un format générique qui est rempli à chaque fois qu’un utilisateur souhaite consulter la page d’un film. Pour ce faire il faut avoir deux choses, un moyen technique de réaliser ceci et un moyen d’accéder aux données requises. Les moyens techniques developpés pour résoudre ce problème ne manquent pas grâce à des outils comme les CGI (Comon Gateway Interface) ou encore le PHP (PHP: Hypetext Preprocessor), mis rapidement en relation avec des bases de données pouvant être interrogées par un langage de type SQL (Structured Query Language ou langage de requête structuré). Ces deux outils ont permis le developpement de sites web complètement dynamiques dans lesquels chaque page est générée directement à la demande des utilisateurs.

Mais les bases de données se sont rapidement développées sur internet pour atteindre des tailles très importantes. Les requêtes complexes sur ces bases prennent de plus en plus de temps alors que le but principal est de présenter

(35)

34CHAPITRE 2. BASES DE DONN ÉES SEMI-STRUCTURÉES ET LE PROBL ÈME DU P -M ÉDIAN des données et non de les interroger. De plus lorsque l’on manipule des données

n’ayant pas toutes la même structure il devient difficile de les stocker dans des bases de données relationnelles classiques. Une nouvelle forme de base de données a donc fait son apparition : les bases de données semi-structurées. Avec l’essort du XML (eXtensible Markup Language) ces nouvelles bases de données ont trouvé leur support de préférence et sont devenues de plus en plus utilisées. Un problème se pose cependant, car s’il est facile de récupérer de l’information au sein de ces bases, il est très complexe de faire de l’interrogation de données (par exemple trouver tous les films dans lesquel apparaˆıt un acteur donné).

Il existe des outils d’interrogation de données semi-structurées mais ces out-ils ne sont pas efficaces en terme de temps de réponse et de mémoire utilisés. Il serait donc intéressant de fournir un moyen simple et efficace d’interroger ces données. L’approche que nous proposons ne consiste pas à créer un nouvel outil d’interrogation de ces données mais de chercher à restructurer ces données. Une fois les données restructurées elles pourront être enregistrées dans une base de données relationnelle classique. Cette base pourra alors être interrogée efficace-ment grâce aux techniques développées pour les base de données relationnelles. Pour arriver à restructurer ces bases de données il faut d’abord trouver un moyen d’affecter chaque donnée à une table dans une base de donnée relation-nelle. Cette étape de la restructuration est le typage des données, mais rapide-ment le nombre de types différents au sein d’une base de données semi-structurée va devenir trop important (et c’est la raison même de leur existence). Il faut donc réduire ce nombre à un nombre plus acceptable, c’est-à-dire faire un choix parmi l’ensemble des types existants pour n’en retenir qu’un sous-ensemble.

Nous verrons dans la section 2.2 comment ce problème se ramène à une instance du problème du p-médian.

Un des enjeux de ce problème de restructuration est la taille des données. Les bases de données possèdent des milliers d’enregistrements. Même si tous ces enregistrements ne donnent pas naissance à un sommet lors de la transformation du problème, la taille du p-médian résultant à résoudre peut rapidement devenir très grande.

2.1 Base de donn´

ees semi-structur´

ee

Une recherche de données sur le web va produire en général des données irrégulières. Par exemple les différentes informations présentes sur les pages des membres d’un même groupe vont contenir des informations communes (nom, prénom, adresse mail, ...) mais certaines pages vont contenir des informations sup-plémentaires que les autres n’auront pas (surnom, photo, ...).

Ces données semi-structurées sont nées avec Internet et la nécessité de stocker des informations diverses et variées le plus efficacement possible. Mais ces données sont aussi une réponse aux limites des bases de données relationnelles. Considérons une base de donnée dont le schéma est défini par trois tables :

• une table journal avec un identiﬁcateur et le titre du journal,

• une table article avec un identificateur, un titre, un auteur et le journal dans lequel l’article a été publié,

(36)

2.1. BASE DE DONN´EES SEMI-STRUCTUR ´EE 35 Ces tables sont remplies comme le montre la Figure 1.

Table auteur Table article Id Nom

1 E. Pri´e 2 O. Letr´eguily 3 V. Vaisman 5 P. Gonneau

Id Titre Auteur Journal 6 Prise de tˆete 2 4

7 Mat ! 5 4

Table journal Id Titre

4 Echecs et Mats !

Figure 1: Exemple de remplissage d’une base de donn´ees relationnelle d´ecrivant un journal. La base comporte 3 tables et quelques enregistrements.

La structure de ces tables étant fixée, il est impossible d’avoir un auteur ayant un nom et un prénom, ou d’avoir un article ayant deux auteurs. De même comme il faut fixer la structure des tables, il est impossible de définir une table journal ayant un nombre d’articles non borné. Ce sont ces limitations et la nécessité de stocker un nombre de données important qui ont permis l’émergence des bases de données semi-structurées. En effet, il est facile de stocker dans un fichier des relations entre des objets, ainsi un journal va pouvoir contenir des articles, et chaque article peut avoir un ou plusieurs auteurs. Chaque auteur pourra alors être défini d’une manière particulière. Ce qui peut donner des fichiers simples mais contenant de nombreuses informations. La Figure 2 présente un fichier XML contenant un document semi-structuré.

Cette notion de document semi-structuré peut être encore affinée. Une donnée semi-structurée se représente sous la forme d’un graphe enraciné dont les arcs sont orientés et labellisés [24]. Cette représentation convient très bien pour modéliser le web par exemple. Chaque page d’un site serait un sommet du graphe et chaque lien existant serait un arc entre deux sommets. Mais cette représentation convient tout aussi bien pour afficher les relations contenues dans une base de données. La Figure 3 présente un tel graphe pour l’exemple du doc-ument de la Figure 2.

Il existe dans ces bases de données deux types d’objets différents : les objets complexes et les objets atomiques.

• Objet Atomique : ce sont les objets de la base porteurs des valeurs. Ces objets sont les sommets pendants du graphe associ´e, c’est-`a-dire les objets n’ayant aucun arc sortant.

• Objet Complexe : ce sont les objets de la base porteurs des relations. Nous remarquons facilement un premier intérêt à l’utilisation des bases de données semi-structurées avec ce petit exemple. En effet, il est clair que la place requise pour stocker ces informations sous la forme d’une base de donnée relationnelle est beaucoup plus importante que celle requise pour un stockage sous la forme de données semi-structurées. Mais c’est surtout la simplicité du stockage des informations qui est intéressante. Pour dire qu’un article fait partie d’un journal, il suffit d’ouvrir une balise article au sein de la balise journal

(37)

36CHAPITRE 2. BASES DE DONN ÉES SEMI-STRUCTURÉES ET LE PROBL ÈME DU P -M ÉDIAN <document id = 0>

<titre id = 12>Echecs et Mats !</titre> <article id = 6>

<titre id = 11>Prise de tˆete</titre> <´ecritPar ref = 2 />

<´ecritPar ref = 3 /> </article>

</article> </journal> <auteur id = 2>

<nom id = 9>O. Letr´eguily</nom> <co-auteur ref = 3 /> </auteur> <auteur id = 3> <nom id = 10>V. Vaisman</nom> <co-auteur ref = 2 /> </auteur> <auteur id = 1>

<pr´enom id = 14>Pascal</pr´enom> <nom id = 15>Gonneau</nom> </auteur>

</document>

Figure 2: Exemple de document semi-structuré. Le document est présenté sous la forme d’un fichier XML.

correspondante. Dans une base de donnée relationnelle il faut stocker la relation l’article i appartient au journal j. Et il est très facile de faire des relations complexe dans un document semi-structuré. Si deux auteurs (ou plus) ont écrit un article il suffit de mettre deux balises auteur (ou plus) au sein de la balise article correspondante. Pour gérer des articles à deux auteurs il faudrait ajouter `

a la description de la base de donn´ees relationnelle de nouvelles tables. Pour contenir l’ensemble des informations du ﬁchier de la Figure 2 il faudrait :

• ajouter une table pour la gestion des articles `a deux auteurs, • ajouter une table pour la gestion des co-auteurs,

• ajouter une table pour les auteurs avec un nom et un pr´enom (ou alors modiﬁer les tables existantes et remplacer les informations manquantes par un champ vide).

Il faut alors créer beaucoup de tables, gérer les dépendances entre ces tables, et faire en sorte que les auteurs de la table auteur sans prénom et ceux de la