Dans cette section, nous montrons comment des propriétés structurelles de solutions simples, que nous appelons partitions déséquilibrées, peuvent permettre de dévelop- per des algorithmes d’approximation pour Sparsest k-Compaction, tout en ex- hibant un lien avec le problème Sparsest k-Subgraph. Plus précisément, nous montrons tout d’abord que toute solution P à Sparsest k-Compaction peut être re-structurée en une solution P′ telle que cost(P′)
≤ (2 − 2
k)cost(P ). On relie en-
suite la structure d’une telle solution vers le problème Sparsest k-Subgraph. En combinant ces deux remarques, on montre qu’un algorithme ρ-approché pour Sparsest k-Subgraph implique un algorithme (ρ + 1−2ρk)-approché pour Spar-
sestk-Compaction. Enfin, nous analysons l’espérance de la valeur de l’algorithme construisant une solution déséquilibrée randomisée. Nous dé-randomisons ensuite ce dernier afin d’obtenir un algorithme déterministe polynomial (1 +m(k−2)
n(n−1))-approché.
Comme on peut le soupçonner, cet algorithme donne de bons résultats lorsque le graphe d’entrée a une faible densité.
3.4.1
Définition et lien avec Sparsest k-Subgraph
Définition 32. Étant donné G = (V, E) et k ∈ N, une k-partition de V est dite déséquilibrée si (k − 1) clusters sont des singletons.
Lemme 4. Soient G = (V, E) et k ∈ N. Soit P une solution à Sparsest k- Compaction pour (G, k). Alors on peut construire en temps polynomial une solu- tion déséquilibrée P′ telle que cost(P′)
≤ (2 − 2
k)cost(P ).
Preuve. Soient G, k et P tels que définis dans l’énoncé, et notons P = {V1, · · · , Vk}.
Sans perdre de généralité, supposons que Vk soit un sommet de degré maximum
dans GP. Pour tout i ∈ {1, · · · , (k − 1)}, choisissons xi un sommet arbitraire de Vi,
et construisons la partition déséquilibrée P′ = {V′
1, · · · , Vk′} suivante :
• V′
3.4. PARTITIONS DÉSÉQUILIBRÉES, LIEN AVEC SPARSEST K-SUBGRAPH87 • V′ k = V \ . k−1 i=1 Vi / .
Soit q le nombre d’arêtes dans GP entre Vk et les autres sommets, et q′ le nombre
d’arêtes dans GP entre Vk′ et les autres sommets. On a alors :
cost(P′)≤ cost(P ) + q′− q
Et par définition q′ ≤ k − 1 ≤ cost(P ) et kq ≥ 2cost(P ) (puisque q est égal au degré
maximum de GP, qui est un graphe à k sommets et cost(P ) arêtes. On a donc :
cost(P′)
≤ cost(P ) + cost(P ) − 2 · cost(P )k = (2− 2
k)cost(P ) Ce qui termine la preuve.
Ainsi, d’après le lemme précédent, une stratégie immédiate pour obtenir une solution (2 − 2
k)-approchée est d’énumérer tous les (k− 1)-uplets de sommets. En
fait, nous pouvons facilement voir qu’il suffit de trouver (k − 1) sommets induisant le nombre minimum d’arêtes dans G. Ce problème porte le nom de Sparsest k- Subgraph, et sera plus longuement étudié dans le Chapitre 4 suivant. Dans ce qui suit, nous généralisons le lemme précédent aux solutions approchées se transférant de Sparsest k-Subgraph à Sparsest k-Compaction.
Lemme 5. S’il existe une solution ρ-approchée pour Sparsest (k −1)-Subgraph, alors il existe une solution (ρ + 1 −2ρ
k)-approchée pour Sparsest k-Compaction.
Preuve. Soient G = (V, E) et k ∈ N. Soit S = {x1, · · · , xk−1} une solution ρ-
approchée pour Sparsest (k − 1)-Subgraph, et soit P∗ = {V
1, · · · , Vk∗} une so-
lution optimale pour Sparsest k-Compaction à (G, k). Comme dans le lemme précédent on suppose sans perdre de généralité que V∗
k est un sommet de degré
maximum dans GP∗. On construit la partition P = {V1, · · · , Vk} suivante :
• Vi = {xi} pour tout i ∈ {1, · · · , (k − 1)}
• Vk = V \. k−1i=1 Vi
/
Soit q (resp. q∗) le nombre d’arêtes dans G
P (resp. GP∗) entre Vk (resp. Vk∗) et
les autres sommets, et soit α (resp. α∗) le nombre d’arêtes dans G
P (resp. GP∗)
du sous-graphe induit par {V1, · · · , Vk−1} (resp. V1∗, · · · , Vk−1∗ ). Par définition, on a
cost(P ) = q + α et cost(P∗) = q∗+ α∗. Comme S est une solution ρ-approchée, on
a α ≤ ρα∗. Ainsi :
cost(P ) = q + α + q∗− q∗ ≤ q + ρα∗+ q∗− q = q + ρ(α∗+ q∗)− ρq∗
= q + ρcost(P∗)
Et, puisque q ≤ k − 1 ≤ cost(P∗) et kq∗ ≥ 2cost(P∗) (comme précédemment), on
a :
cost(P )≤ cost(P∗) · (ρ + 1− 2ρ k ) Ce qui termine la preuve.
3.4.2
Sur les graphes de faible densité
Dans cette partie, nous analysons l’algorithme construisant une solution déséquili- brée aléatoire. Plus précisément, l’algorithme choisit (k − 1) sommets de manière aléatoire1
{X1, · · · , Xk−1}, les place dans des singletons, et construit un dernier
cluster avec le reste des sommets du graphe. On note Arandla variable aléatoire cor-
respondant à la valeur de la solution correspondante. Comme on peut s’y attendre, l’espérance de Arand décroît plus la densité du graphe d’entrée est faible.
Lemme 6. E(Arand) ≤ (k − 1)(1 +m(k−2)n(n−1)).
Preuve. En effet, il est possible de borner inférieurement l’espérance de Arand de la
manière suivante : E(Arand)≤ k − 1 +1 2 % E( i,j) i,j∈{X1,...,Xk−1},i'=j
Où i,j est égal à 1 s’il existe une arête entre le sommet i et le sommet j, et est égal
à 0 autrement.
De plus, pour tout i et j on a E( i,j) = mn(n−1)2 . Ainsi, on a :
E(Arand)≤ k − 1 + (k − 1)(k − 2) m n(n− 1) comme désiré.
On montre maintenant que ce rapport d’approximation peut en fait être ob- tenu de manière déterministique, en utilisant des arguments de dé-randomisation classiques.
Théorème 23. Il existe un algorithme polynomial déterministe pour Sparsest k-Compaction avec un rapport d’approximation de .1 +m(k−2)n(n−1)/.
Preuve. Nous dé-randomisons l’algorithme précédent en utilisant la méthode des pro- babilités conditionnelles. Informellement, à chacune des (k −1) étapes nous trouvons en temps polynomial le prochain sommet « le plus intéressant », autrement dit, le
1
Prendre uniformément x sommets aléatoirement correspond à prendre de manière uniforme un élément parmi l’ensemble des ensembles de taille x.
3.4. PARTITIONS DÉSÉQUILIBRÉES, LIEN AVEC SPARSEST K-SUBGRAPH89
sommet qui minimise notre borne inférieure sur la probabilité conditionnelle. Considérons tout d’abord une instance G = (V, E), k ∈ N. Pour tout ensemble de (k− 1) sommets {x1, · · · , xk−1}, on définit f ({x1, · · · , xk−1}) = k − 1 + 1 2 % i,j∈{x1,··· ,xk−1},i'=j i,j
En fait, f({x1, · · · , xk−1}) correspond à la borne inférieure utilisée dans le Lemme 6
pour le coût d’une solution déséquilibrée où {x1, · · · , xk−1} sont des singletons. Ainsi,
le Lemme 6 nous informe que lorsque l’on choisit uniformément les {X1, · · · , Xk−1},
on a
E(f ({x1, · · · , xk−1})) ≤ b(n, m, k) avec b(n, m, k) = (k − 1).1 + m(k−2)n(n−1)/.
Revenons maintenant à la dé-randomisation. Pour tout i ∈ {1, · · · , (k − 2)} et tout ensemble de i différents sommets {x1, · · · , xi}, soit X({x1, · · · , xi}) la variable
aléatoire suivante :
• On choisit aléatoirement (parmi V \{x1, · · · , xi}) (k −1−i) différents sommets
(Xt)1≤t≤k−1−i.
• On retourne f ({x1, · · · , xi, X1, · · · , Xk−1−i}).
Ainsi, le principe suivant est suffisant pour prouver par induction sur i (pour i ∈ {1, · · · , k −2}) qu’il est possible de trouver en temps polynomial {x1, · · · , xi} tel que
E(X(x1, · · · , xi))≤ b(n, m, k). En effet ceci est clairement vrai pour i = 0 puisque E(X(∅)) = E(f({X1, · · · , Xk−1})) ≤ b(n, m, k). Puis considérons i ≥ 1, et montrons comment choisir le (i + 1)eme` sommet. On a :
E(X(x1, . . . ,xi)) = 1 n− i
%
xt∈{x/ 1,...,xi}
E(X(x1, . . . ,xi,xt))
Et puisque E(X(x1, · · · , xi))≤ b(n, m, k), il doit forcément exister xt ∈ {x/ 1, · · · , xi}
tel que E(X(x1, · · · , xi, xt))≤ b(n, m, k), on choisit donc xi+1 tel que :
xi+1 = argmin xt∈{x/ 1,...,xi}
(E(X(x1, . . . ,xi,xt)))
Remarquons que pour tout xt, E(X(x1, · · · , xi, xt)) peut être calculé en temps po-
lynomial en utilisant la définition de f et la linéarité de l’espérance (même si les Xt