Généralisations et extensions de VC-dimension

(voirGlobal Methods for Combinatorial Isoperimetric Problems[98, section 3.3]).

Il s’avère que les sous-graphes ainsi générés sont en fait des résultats possibles d’une séquence complète de décalages. Plus précisément, HARPER [98, Section 2.4.3] définit une opération, très proche de celle de décalage, qu’il nomme opé-ration de Steiner. Les opérations de Steiner sont les applications ϕ : 2^X → 2^X satisfaisant les conditions (1) et (2) de la section 2.4.2, ainsi que la condition supplémentaire

(4) S ⊆T impliqueϕ(S)⊆ϕ(T).

HARPER[97] montre alors que son opération de compression est une opérations de Steiner. Cela permet d’obtenir le théorème8.

Remarque 6. Une opération de décalage ϕ_e satisfait aussi (4) mais n’est définie que sur S (contrairement à l’opération de Steiner qui est définie sur 2^X tout entier).

Le livre de HARPER [98] et le “survey” de BEZRUKOV [28] donnent une gé-néralisation de ces techniques et de ces résultats aux sous-graphes de produits cartésiens d’autres graphes réguliers, ainsi que des applications de ces résul-tats au problème arête-isopérimétrique. Pour les problèmes arête- ou sommet-isopérimétriques dans les graphes de Johnson (toujours ouverts à ce jour), AHLS

-WEDE et CAI [6], ou encore DIEGO, SERRAet VENA [67], utilisent une opération assez naturelle de décalage à gauche (“pushing to the left”, “switching”, ou bien

“shifting”) définie comme suit. SoitS une famille de sous-ensembles de cardinal r d’un univers X à m éléments. Étant donné un ordre total arbitrairee₁, . . . , em

des éléments de X et deux éléments e_i < e_j, l’opération de décalage à gauche de S par rapport à ces deux éléments consiste à remplacer chaque ensemble S de S contenant ej mais pas ei par S \ {ej} ∪ {ei} si ce dernier n’appartient pas déjà à S. Cette opération préserve clairement la taille de S et le cardinal r de ses ensembles, et nous pouvons aussi montrer qu’elle ne diminue pas le nombre d’arêtes du sous-graphe de Johnson induit parS. Cependant, elle n’ap-porte pas suffisamment de structure au graphe résultant pour étudier (borner) sa dégénérescence (sa densité).

2.5 Généralisations et extensions de VC-dimension

L’extension de l’inégalité ^|E|_|V_| ≤VC-dim(S)à des classes de graphes plus géné-rales (en étendant la notion de VC-dimension) constitue un problème important et intéressant. Dans les chapitres 5 et6, nous présentons une généralisation de ce résultat de densité aux sous-graphes de produits cartésiens de graphes et aux sous-graphes de demi-cubes, respectivement. Nous présentons ici d’autres tra-vaux concernant ce genre de généralisation.

Puisque nous avons parlé jusqu’ici de classification binaire, une généralisation naturelle de la VC-dimension concerne donc une extension aux prédictions avec un nombrek ∈N^∗ de classes. C’est-à-dire que l’ensembleY vaut alors{1, . . . , k}

et les classes de concepts sont donc des sous-ensembles de{1, . . . , k}ⁿ (toujours avec n le cardinal du domaine X). Le graphe induit par cette classe n’est donc plus un sous-graphe d’hypercube mais de graphe de Hamming. Ainsi, la classe des graphes de Hamming est bien présente dans la littérature. En particulier, des généralisations de pulvérisation et VC-dimensions ont été utilisées dans le cas des graphes de Hamming (voir Convergence of Stochastic Processes[133] ou

« On learning sets and functions » [123]), conduisant à des résultats de densité par RUBINSTEIN, BARTLETT et RUBINSTEIN [137], et un lemme de Sauer étendu par HAUSSLERet LONG [101]. CESA-BIANCHIet HAUSSLER [41], quant à eux ont proposé une généralisation du lemme de Sauer, plus axée sur l’aspect théorie des graphes, puisqu’ils considère non pas des graphes Hamming, mais des produits cartésiensF^m =F· · ·F dem fois un graphe non-orientéF.

HAUSSLER et WELZL [102] définissent une notion de VC-dimension d’un gra-phe G = (V, E) comme la VC-dimension d’une famille d’ensembles formée par les voisinages fermés des sommets de G. Ils démontrent alors que cette VC-dimension est d’au plus 4 pour les graphes planaires. ANTHONY, BRIGHTWELL

et COOPER [17] montrent ensuite que cette VC-dimension est d’au plus d si G ne contient pas de mineurK_d+1 (ils étudient aussi cette notion de VC-dimension pour les graphes aléatoires). Ces deux résultats ont par la suite été étendus aux familles de boules fermées de rayon fixé par CHEPOI, ESTELLON et VAXÈS [55, Proposition 1 & Remarque 1]. KRANAKIS et al. [111] introduisent des notions de VC-dimensions pour d’autres familles d’ensembles naturelles sur les graphes : des familles d’arbres induits, de sous-graphes connexes, de chemins, de cliques, d’étoiles, etc. Ils étudient les problèmes de complexité liés au calcul de ces VC-dimensions et donnent des bornes supérieures (dépendantes de paramètres de graphes) pour certaines d’entre elles. Pour améliorer les bornes sur le temps des requêtes d’un algorithme de plus courts chemins sur des réseaux réels, ABRAHAM

et al. [1] exploitent un concept de VC-dimension pour des familles de plus courts chemins dans des graphes où ces derniers sont uniques.

D’autres notions de VC-dimensions sont définies par la pulvérisation, non pas de tous les sous-ensembles d’un ensemble, mais seulement de certains d’entre eux. Par exemple, BOUSQUET et THOMASSÉ [36] ont défini une notion de VC-dimension (la 2VC-VC-dimension) par rapport à la pulvérisation des sous-ensembles de cardinal 2d’un ensemble. Avec cela, ils établissent la propriété d’Erdös-Posá pour la famille des boules de rayon r dans les graphes de 2VC-dimension bor-née.

Chapitre 3

Schémas d’étiquetage

Sommaire

3.1 Introduction . . . 45 3.2 Schémas d’adjacence . . . 46 3.2.1 Arboricité et densité . . . 47 3.2.2 Graphes universels . . . 49 3.3 Schémas de distance . . . 51 3.3.1 Distances dans les arbres . . . 53 3.4 Schémas de routage . . . 54 3.4.1 Routage dans les arbres . . . 55 Dans ce chapitre, nous introduisons la notion de schéma d’étiquetage. Nous nous intéressons plus spécifiquement aux schémas d’étiquetage permettant de répondre à des requêtes d’adjacence (section 3.2), de distance (section3.3) ou de routage (section3.4).

3.1 Introduction

Les matrices d’adjacence et les listes d’adjacence sont deux façons classiques de représenter un graphe G = (V, E) en mémoire. La première permet de ré-pondre à l’adjacence de deux sommets en temps constant pour un stockage en mémoire quadratique par rapport au nombre de sommets. La seconde nécessite un moindre espace de stockage (linéaire en |E|) en contrepartie de requêtes d’adjacence moins efficaces (linéaires |V|). Quoiqu’il en soit, ces deux représen-tations ne sont pas particulièrement adaptées au stockage de grands graphes car, pour répondre à des requêtes (d’adjacence, distance, routage, etc.) sur le graphe G, il est nécessaire d’accéder à toute la structure de donnée. Un schéma d’éti-quetage est un procédé permettant de distribuer la représentation de G sur ses sommets de telle sorte qu’un type de requête (à choisir au préalable) puisse être

satisfait “rapidement” avec quelques informations locales, et sans connaissance supplémentaire sur le graphe.

Plus formellement, un schéma d’étiquetage sur une famille de graphesG con-siste en une fonction d’encodage C_G : V(G) → {0,1}^∗, et en une fonction de décodage. La fonction d’encodage distribue des étiquettes binaires à chaque som-met d’un grapheG ∈ G avec une connaissance totale dudit graphe. La fonction de décodage est alors capable, étant données les étiquettes d’un nombre restreint de sommets (données par la fonction précédente) et avec la seule connaissance de ces étiquettes, de répondre à certaines requêtes pré-établies. Ces requêtes pré-établies peuvent être de nature assez variées, par exemple : adjacence ou dis-tance entre deux sommets ; routage d’un sommet source vers un sommet cible ; ancêtre commun dans un arbre, etc. Évidemment, les fonctions d’encodage et de décodage dépendent fortement des requêtes auxquelles nous souhaitons ré-pondre.

Remarque 7. Il n’est pas toujours précisé dans la définition d’un schéma d’étique-tage que les étiquettes doivent jouer un rôle d’identifiant pour les sommets. Pour notre part, nous supposerons toujours ces étiquettes uniques.

Notons qu’avec l’ajout à la définition de schéma de la remarque précédente, Ω(logn) sera toujours une borne inférieure pour une famille de graphes avecn sommets (cardlognebits sont nécessaires pour encodern entiers distincts).

Un problème important dans ce cadre consiste à trouver des classes de gra-phes naturelles admettant des schémas d’étiquetage (d’adjacence, distance, rou-tage, etc.) efficaces. C’est-à-dire, avec des étiquettes de taille poly-logarithmiques, décodables en temps poly-logarithmique. En ce qui concerne l’étude de l’effica-cité du décodage (ou de l’encodage), il est nécessaire de définir un modèle de calcul (c.-à-d., les opérations que l’on estime “lentes” et celles que nous esti-mons “rapides”). Le modèle communément considéré est le modèle RAM (pour

“Random Access Machine”), faisant des hypothèses raisonnables relativement au fonctionnement d’un ordinateur classique. Dans ce modèle, les opérations stan-dards d’arithmétique, de transfert de données ou de contrôle (telles qu’addition, multiplication, comparaisons, modulo, partie entière, branchements condition-nels, appels de sous-routines, lecture, copie, etc.) sur des mots de O(logn) bits sont supposées effectuées en temps constant.

Dans le document Densité, VC-dimension et étiquetages de graphes (Page 44-47)