Dictionnaire des donn´ ees - 2 Organisation des fichiers

2 Organisation des fichiers

3.3 Dictionnaire des donn´ ees

La métabase est la base qui gère toutes les bases. Elle est con¸cue selon un schéma relationnel et constitue un dictionnaire des données prenant en compte :

– les utilisateurs – leurs droits

– les objets (tables, vues, index, etc) – les attributs de chaque table

– la structure logique de description des tables, la taille et l’organisation des blocs de donn´ees. – l’organisation des fichiers, leur taux d’occupation, l’espace libre.

A titre d’exemple, le dictionnaire d’ORACLE était constitué de 44 tables pour la version 5, d’une centaine pour la version 6, près de 300 pour la version 7 et plus de 1000 pour la V10. Certaines de ces tables ne peuvent être accédées que par le DBA.

La base du dictionnaire de la V7 est en réalité détenue par le super-administrateur SYS, qui voit les tables suivantes (toutes ne sont pas indiquées) du véritable dictionnaire :

USER$ Liste des utilisateurs et des rˆoles OBJ$ Objets des utilisateurs

TS$ Tablespaces FILE$ Fichiers SEG$ Segments TAB$ Tables de la base CLU$ Clusters

IND$ Indexes

ICOL$ Colonnes accessibles par un index CON$ Liste des contraintes

CDEF$ D´efinitions des contraintes

CCOL$ Colonnes sur lesquelles portent des contraintes

Le dictionnaire courant accessible à l’administrateur SYSTEM ainsi qu’aux utilisateurs ordinaires est composé de vues spécialisées, permettant d’avoir la liste des objets de la base. Ce sont des vues construite sur le dictionnaire interne, même quand elles sont qualifiées de tables. Certaines sont issues des anciennes versions d’Oracle pour des raisons de compatiblité.

4 Les m´ethodes d’acc`es

Aujourd’hui, les SGBD utilisent essentiellement des acc`es directs en utilisant les techniques de hachage et d’indexation.

4.1 Le hachage

4.1.1 Principe

Le principe en est très simple. L’accès est calculé par une fonction de hachage h, qui, à une entrée i, fait correspondre la valeur h(i) ∈ [1, C]. Une même valeur h(i) peut correspondre à plusieurs entrées différentes, qui appartiennent alors à la même classe d’équivalence. La fonction h est caractérisée par la valeur C du nombre de classes qu’elle détermine.

Entrée 0 Entrée 1 i C Table de hachage Blocs de données

L’accès aux données est réalisé par une table de hachage, qui, à chaque valeur de h(i), fournit l’adresse de la zone de stockage correspondante. Comme plusieurs entrées délivrent la même valeur, on assiste, relativement à la zone de stockage, à un mécanisme de collision qui peut être résolu de différentes fa¸cons ; les plus courantes sont le chaˆınage, ou l’utilisation d’une fonction de collision pour obtenir une nouvelle adresse. Dans tous les cas, la recherche de l’information devient séquentielle, chaque collision imposant la lecture ou le calcul de l’adresse suivante.

4.1.2 Exemples

Il n’y a pas de théorie pour construire une “bonne” fonction de hachage, chaque programmeur conservant jalousement celle qu’il a réussi à imaginer après un bricolage plus ou moins laborieux.

Le principe du hachage suppose une équi-répartition des valeurs de l’argument, ce qui est rarement observé en pratique. Cet argument est toujours numérique, et necessite une transformation préalable des clés alpha- numériques.

Une bonne méthode de transformation des clés alph-numériques en valeurs numériques consiste à extraire des caractères médians d’une clé ( 2 ou 4), et à prendre les valeurs binaires correspondantes pour former les poids

hauts et bas d’une entier. Une fois la clé numérisée, il existe bien des procédés pour construire des fonctions de hachage :

– Les fonctions les plus simples sont construites à partir de la fonction modulo : h(clé)=clé Modulo N, ou N est le nombre maximum de classes voulues.

– La méthode du milieu des carrés consiste à extraire des bits du milieu du carré des clés. La valeur obtenue correspond à une classe d’équivalence et est convertie en adresse. Exemple : 54862 _{→ 30096196. On peut}

extraire la valeur m´ediane : 96.

– la méthode de découpage et addition transforme un nombre sans tenir compte de la dernière retenue, conformément à l’exemple suivant : 24315268 → 243 + 152 + 68 = 463

4.1.3 Acc`es multicl´es

Les tables de hachage peuvent être bi, voire multi-dimensionnelles. Elles permettent en cas de recherche multicritères d’accéder à des zones où sont stockés les enregistrement correspondant à des entrées multiples. La gestion d’une telle structure est cependant très lourde si l’on tient compte des mises à jour.

On peut aussi réaliser un hachage partitionné si la fonction de hachage est capable de traiter une entrée constituée de champs indépendants. Par exemple, si le premier champ renvoit à un service et le dernier à un emploi, la valeur 010.110 permet d’accèder à un programmeur particulier d’IEEA. La valeur 000.110 renverra à l’ensemble des programmeurs.

4.1.4 Tableaux de bits

Une utilisation annexe, mais importante, des fonctions de hachage est liée à l’optimisation des opérations de jointure. De fa¸con à ne sélectionner que les tuples qui interviennent dans la jointure de R et S, lorsque la cardinalité de R est très grande devant celle de S, on opère de la fa¸con suivante :

On applique aux tuples de S une petite s´erie de fonctions simples, h0, h1, . . ., hn, ayant si possible le mˆeme

nombre de classes. Si, pour un tuple side S, h(si)=j, on met à 1 l’élément (i,j) d’une table T, et à 0 sinon. Cette

table sert ensuite de crible pour tester les tuples de R. Si un tuple de R a une signature conforme `a la table (∀i, hi(r) = j avec T(i,j)=1), il est retenu, car susceptible de participer `a la jointure.

h0 101101010101110101000101010 h1 010101011110101000101010101 h2 111001100010100011110101011 h3 001100001101011101011100101 Classes 012345 ... j ... N

Tableau de bits ou crible de jointure

4.1.5 Gestion des collisions

C’est le principal problème à résoudre si on veut éviter la séquentialisation qui en découle. En cas de collision, il faut ranger un tuple dans l’espace associé à une classe. Si cet espace est saturé, il faut allouer une extension de taille suffisant e pour tenir compte d’autres collisions éventuelles.

La méthode de Fagin conduit à une croissance quadratique de l’espace d’allocation. Son principe est le suivant : Lors de l’initialisation d’une table, on utilise une fonction de hachage dont la valeur tient sur un bit. Elle permet d’accéder à seulement 2 paquets dénommés 0 et 1. Dès qu’un des paquets est saturé, on alloue le même nombre de paquets, ce qui fait 4 au total. La fonction de hachage, compte tenu de la collision qui vient de se produire est alors sur 2 bits, et les valeurs dans les paquets initiaux sont réparties en fonction de la valeur de h(clé, c). Le paramètre c, qui indique le nombre de collisions, vaut alors 1. le procédé est réitéré ensuite autant de fois que nécessaire, mais la saturation de l’espace mémoire peut intervenir à tout moment.

Tête des classes paquet 0 paquet 1 paquet 00 paquet 01 paquet 10 paquet 11 0 1 00 01 11 10 Après saturation Avant saturation des paquets

Méthode de Fagin

La méthode de Litvin permet d’obtenir une croissance linéaire de l’espace mémoire. Elle utilise une fonction de hachage et une fonction de collision. Supposons par exemple que h0 = clé modulo N, avec N=10. h0 fournit

donc les adresses de 10 blocs diff´erents.

Soit la fonction de collision hc+1 = hc + N×2c. Lors de la premi`ere collision, on cr´ee le nombre de blocs

nécessaires pour correspondre à la valeur de hc+1. Si 26 est une clé, h0(26) vaut 6, et le 6eme bloc est saturé.

h1(26) vaut 16. On crée les blocs de 10 à 16, et on redistribue certaines des valeurs des blocs de 0 à 9 vers les

blocs de 10 `a 16, pour permettre des insertions directes vers les premiers blocs.

9 19 39 79 10 20 40 90 1 21 32 62 102

Bloc 0 Bloc 1 Bloc 2 Bloc 6 Bloc 9

6 16 36 56

. . . .

Les 2 dernières valeurs des blocs 0 et 6 sont réparties La valeur 26 est alors insérée dans le bloc 6.

Méthode de Litvin à croissance linéaire

dans les blocs vides 10 et 16, respectivement.

4.2 Index arborescents

Les index arborescents sont réalisés à partir d’arbres équilibrés de la famille des B-arbres, principalement les arbres B+_.

Un arbre B+ _{d’ordre d est un arbre totalement équilibré (toutes ses feuilles sont à la même hauteur) dont les}

nœuds sont compos´es d’un nombre de valeurs comprises entre d+1 et 2d+1 (sauf ´eventuellement la racine).

C1 P1 C2 P2 C3 P3 C4 P4 P0

Données < C1

Données dans [C1, C2[

Structure du noeud d’un B-Arbre de degré 2

La première valeur d’un nœud est une adresse (un pointeur), les autres sont des index : (clé, adresse). L’adresse correspond à un autre nœud, de hauteur inférieure, ou à une feuille. En ce qui concerne les feuilles, l’adresse est celle d’une page contenant le tuple recherché, et, sous Oracle, correspond au rowId. Pour les nœuds, l’adresse associée à Ci renvoit au nœud contenant les références des clés comprises entre Ci et Cj, Cj exclu.

rowid rowid rowid rowid rowid rowid ARBRE B+

La nombre de niveaux nécessaire pour stocker N clés est 1 + logd/2(N +1)₂ et le coˆut d’un accès est en logdN .

A titre d’exemple, 3 acc`es suffisent pour 106 _{cl´es lorsque d = 200.}

La principale difficulté de gestion d’un B-arbre est de conserver les feuilles au même niveau lors des insertions et des suppressions. Rappelons les algorithmes exposés dans le cours d’algorithmique.

4.2.1 Recherche

L’exploration du contenu d’un nœud se fait séquentiellement dans l’ordre des champs, les clés étant stockées dans l’ordre alpha-numérique.

Lorsque la clé cherchée n’est pas présente, la recherche se poursuit au niveau du nœud pointé par l’index dont la clé est immédiatement inférieure. S’il n’en existe pas, c’est le pointeur antérieur P0qui indique le nœud suivant.

4.2.2 Insertion

On commence par effectuer une recherche du nœud où doit se faire l’insertion. S’il n’est pas saturé, l’insertion se fait en réorganisant les index présents de fa¸con à respecter l’ordre alpha-numérique.

Si le nœud est plein, il faut créer un nouveau nœud, en éclatant celui qui est saturé. Les index correspondant aux d premières clés (les plus petites) restent sur place, les d plus grandes sont insérées dans le nouveau nœud, et la valeur médiane est remontée au niveau du nœud père. Le processus est répété récursivement si nécessaire. En cas de besoin, on crée un nouveau nœud racine, ce qui permet à l’arbre par le haut, les feuilles restant toujours

au mˆeme niveau.

66 78

66 69 71 76 78 84 93

66 71 78

Avant insertion Après insertion de la valeur 75

Insertion de la valeur 75 dans un arbre B+

66 69 71 75 76

4.2.3 Suppression

L’algorithme d´epend de la position de la valeur `a supprimer :

– Si le nombre d’index est supérieur à d, on supprime la valeur du nœud que l’on réorganise.

– Si la valeur est située dans une feuille et que le nombre d’index qu’elle contient est égal à d, on recombine les feuilles voisines.

– Si l’index est dans un nœud non feuille, on fait la suppression dans la feuille associée et on réorganise récursivement les nœuds supérieurs. Il est possible ainsi de supprimer la racine ; ce qui a poour conséquence l’adoption d’une nouvelle racine au niveau inférieur et la diminution d’un niveau pour l’arbre.

66 120 260 66 91 105 66 68 75 68 120 260 68 91 105 68 75 Suppression de la clé 66

Dans le document [PDF] Cours complet de Bases de données en pdf | Cours informatique (Page 46-52)