Mots de parenth`eses, arbres et graphes : ´etat de l’art

3.3 Arbres bourgeonnants et codage optimal

3.4.2 Mots de parenth`eses, arbres et graphes : ´etat de l’art

Considérons d’abord une structure de données simple et très célèbre : les arbres binaires. Pour cette classe d’objets, les résultats d’énumération mentionnés à la section 2 ainsi que la notion d’entropie nous assurent que le codage d’un arbre binaire ayant n nœuds nécessite lg_n+11 ¡2n_n¢≈ lg_n23/22n =

2n + o(n) bits. Du point de vue de la compression, un codage optimal à 2n bits est simplement donné par le mot de parenthèses (voir chapitre 2.1) cor-

respondant au parcours préfixe du contour de l’arbre : cette représentation ne supporte pas un accès efficace à l’information contenue dans la structure combinatoire de l’arbre (en général la navigation locale nécessite l’ins- pection d’un nombre arbitraire Θ(n) de symboles). Du point de vue des structures de données explicites, une représentation utilisant un pointeur (ou index) par nœud permet d’effectuer facilement certaines opérations de navigation locale : dans ce cas il est néanmoins impossible d’utiliser moins de Ω(n lg n) bits (il faut Θ(n) pointeurs de taille Ω(lg n)). Comme déjà mentionné dans l’introduction, ces remarques ont conduit au problème de concevoir une représentation d’un arbre binaire utilisant asymptotiquement 2 bits par nœud et permettant à la fois une exploration efficace de l’arbre en temps o(n).

Graphes et maillages En ce qui concerne les structures de données com- plexes telles que les graphes et les maillages, la presque totalité des travaux existants sont basées sur les représentations succinctes d’arbres mentionnées ci-dessus. Ainsi les représentations de Jacobson [74] et Munro et Raman [96], ont conduit directement à des structures compactes tirant profit des décompositions en 4 pages des graphes planaires, qui supportent la navi- gation locale respectivement en temps O(lg n) et O(1)5 _{: dans la version}

utilisant la repr´esentation succincte optimale pour les mots de parenth`eses il est possible d’effectuer le test d’adjacence entre sommets, en utilisant asymptotiquement au plus 2e + 8n bits (pour un graphe ayant n sommets et

e arêtes). Dans le cas des triangulations à m triangles (avec éventuellement

un bord) une telle structure n´ecessite entre 7m et 12m bits (selon la taille du bord).

Le meilleur résultat théorique, connus jusqu’à peu de temps, était du à Chuang et al. [31]. En se basant encore sur une représentation de mots de parenthèses (de systèmes multiples de mots de parenthèses) et exploitant les propriétés des ordres canoniques, il était possible d’améliorer ultérieurement le terme dominant pour l’espace mémoire utilisé : ainsi il existe des représen- tations compactes utilisant asymptotiquement 2e + 2n bits les graphes pla- naires 3-connexes, et 2e + n pour les graphes triangulés (équivalent à 3.5m bits pour des triangulations à m faces de la sphère). Ce travail a été amélioré et étendus plus récemment par Chiang et al. [29, 30] au cas de graphes pla- naires plus généraux, cette fois nécessitant de 2e + 2n bits.

5_{Il est à souligner que la plupart des représentations compactes mentionnées dans cette}

section proposent (au moins dans leur formulation originale) des opération de navigation légèrement différentes de celles considérées dans cette thèse (qui sont plus intéressantes d’un point de vue géométrique) : en général ces codages permettent de vérifier l’adjacence entre sommets, alors que nos algorithmes permettent de naviguer naturellement entre les faces du maillage (en plus de tester les adjacences).

D’autres approches D’autres méthodes plus pratiques ont considéré le problème d’obtenir une représentation moins coûteuse en mémoire permettant une navigation efficace. Une première approche consiste à spécialiser et rendre moins redondantes les structures de données explicites classiques, afin d’obtenir un gain d’un facteur constant (Star-vertices [75]).

Plus récemment, et avec une approche totalement différente de celles présentées dans cette section, Blandford et. al. [13] ont proposé des représen- tations compactes pour la classe des graphes séparables, permettant d’im- planter certaines requêtes (adjacence et degré) sur les sommets en temps

O(1) (voir la section 3.7 pour plus de d´etails).

3.5 Appariement de mots de parenth`eses

Nous allons fournir ici une description détaillée des structures succinctes et compactes concernant les mots de parenthèses équilibrées introduites par Jacobson [74] et améliorées par Munro et Raman [96], qui ont été le véritable point de départ des travaux développés dans cette thèse6_.

Opérations sur des mots de parenthèses Etant donné un mot de´ parenthèses équilibrées il est naturel de disposer des opérations suivantes :

- match(i) : étant donnée une parenthèse ouvrante (fermante) à la posi- tion i, retourne la position de la parenthèse fermante (ouvrante) appariée.

- excess(i) : retourne l’excès à la position i, qui correspond à la différence entre le nombre de parenthèses ouvrantes et celui de parenthèses fermantes. - enclose(i) : étant donné une paire de parenthèses (dont l’ouvrante est à la position i), retourne la paire de parenthèses plus proche les englobant.

Esquisse du schéma à suivre L’idée commune aux deux représentations mentionnés ci-dessus consiste d’un point de vue général à décomposer la structure de donnée initiale (le mot de parenthèse équilibré) en sous-structures (dans ce cas appelées blocs) de taille B (en générale B = Θ(lgcn), pour une

certaine constante entière c) et distinguer un certain type de parenthèses spéciales (pionniers). Après avoir remarqué que le nombre des pionniers est globalement ”négligeable”, leur stratégie consiste à stocker de manière ex- plicite la position de la parenthèse fermante appariée à chaque pionnier. Il faut aussi associer de l’information à chaque bloc, pour qu’il soit possible de trouver efficacement la parenthèse fermante correspondante à toute pa- renthèse, étant donnée sa position dans le bloc et la position du pionnier qui la précède. Enfin, de l’information supplémentaire est nécessaire pour

6_{Bien que ces r´esultats ne soient pas directement utilis´es dans la conception de nos}

représentations, est notre opinion que le fait de les présenter ici pourrait aider le lecteur dans la lecture et compréhension des chapitres 4 à 7.

détecter les parenthèses qui sont pionniers et supporter certaines opérations (Rank/Select) dans le bloc.

Les deux structures qui suivent [74, 96] (ainsi que leur généralisations et améliorations [94, 45, 46, 106, 9]) diffèrent essentiellement dans le nombre de niveaux formant la décomposition, la taille des sous-structures et la nature des informations et structures de données supplémentaires utilisées pour supporter efficacement certaines requêtes et opérations locales dans/entre les sous-structures.

Dans le document Représentations compactes de structures de données géométriques (Page 68-71)