3 Choix des fonctions de hachage - Cours programmation et algorithmique

3.1 En th´eorie

Rappelons qu’une fonction de hachage est une fonction h :U → {0, . . . m−1}. Une bonne fonction de hachage doit se rapprocher le plus possible d’une répartition uniforme. Formellement, cela signifie que si on se donne une probabilitéP surU et que l’on choisit aléatoirement chaque clékdansU, on ait pour tout j avec 0≤j≤m−1,

{k|h(k)=j}

P(k) = 1 m

En pratique, on connaˆıt rarement la probabilitéP et on se limite à des heuristiques. En parti-culier, on veut souvent que des clés voisines donnent des valeurs de hachages très distinctes.

Le cas que nous traitons ci-dessous est celui où l’universU est un sous-ensemble des entiers naturels, car on peut toujours se ramener à ce cas. Par exemple, si les clés sont des chaˆınes de caractères, on peut interpréter chaque caractère comme un chiffre d’une base B et la chaˆıne comme un entier écrit dans cette base. C’est à dire que la chaˆıne a₀a₁. . . a_n₋₁ est l’entier a₀· Bⁿ⁻¹+a₁·Bⁿ⁻²+· · ·+a_n₋₁. Si les caractères sont quelconques on aB = 2¹⁶en Java etB = 2⁸ en C ; si les caractères des clés sont limités à l’alphabet minuscule, on peut prendreB = 26 ; etc.

Nous pouvons donc revenir aux fonctions de hachage sur les entiers. Une technique courante consiste `a prendre pourh(k) le reste de la division de kpar m:

h(k) =k mod m

Mais dans ce cas, certaines valeurs dem sont à éviter. Par exemple, si on prendm= 2^r,h(k) ne dépendra que des r derniers bits dek. Ce qui veut dire, par exemple, que le début des chaˆınes longues (vues comme des entiers en base B = 2^p) ne compte plus, et conduit à de nombreuses collisions si les clés sont par exemple des adverbes (se terminant toutes parment). Dans le même contexte, si on prend m=B−1, l’interversion de deux caractères passera inaper¸cue. En effet, comme (a·B+b)−(b·B+a) = (a−b)(B−1), on a

a·B+b≡b·B+a (modm)

En pratique, une bonne valeur pourm est un nombre premier tel queB^k±an’est pas divisible parm, pour des entiers keta petits.

Une autre technique consiste `a prendre

h(k) =⌊m(Ck− ⌊Ck⌋)⌋

où C est une constante réelle telle que 0 < C < 1. Cette méthode a l’avantage de pouvoir s’appliquer à toutes les valeurs de m. Il est même conseillé dans ce cas de prendre m = 2^r pour faciliter les calculs. Pour le choix de la constante C, Knuth recommande le nombre d’or, C= (√

5−1)/2≈0,618.

3.2 En pratique

Continuons de considérer les chaˆınes comme des entiers en base 2¹⁶. Ces entiers sont très vite grands, ils ne tiennent plus dans un int dès que la chaˆıne est de taille supérieure à 2.

On ne peut donc pas (pour un coût raisonnable, il existe des entiers en précision arbitraire) d’abord transformer la chaˆıne en entier, puis calculer h. Dans le cas du hachage modulo un nombre premier, il reste possible de calculer modulom. Mais en fait ce n’est pas très pratique : la fonction de hachage (méthode hashCode) des chaˆınes de Java est indépendante de la tailles des tableaux internes des tables, puisqu’elle est définie dans la classe des chaˆınes et ne prend pas une taille de tableau en argument. À toute chaˆıne elle associe un int qui est ensuite réduit en indice. Selon la documentation, l’appel hashCode() de la chaˆıne a0a1. . . an−1 renvoie a0 · 31ⁿ⁻¹+a₁·31ⁿ⁻² +· · ·+a_n₋₂ ·31 +a_n₋₁. Autrement dit le code de hashCode pourrait être celui-ci :

public int hashCode() { int h = 0 ;

for (int k = 0 ; k < this.length ; k++) h = 31 * h + this.charAt(k) ;

return h ; }

Dans nos tables de hachage nous avons ensuite simplement r´eduit cet entier modulo la taille du tableau interne.

Le calcul h = 31 * h + this.charAt(k) effectue un mélange entre une valeur courante deh(qui est la valeur de hachage du préfixe de la chaˆıne) et la valeur de hachage d’un caractère de la chaˆıne qui est le caractère lui-même, c’est-à-dire son code en Unicode (voir B.3.2.3). Le multiplicateur 31 est un nombre premier, et ce n’est pas un hasard. L’expérience nous a montré que ce mélange simple fonctionne en pratique, sur un ensemble de clés qui sont les mots que l’on trouve dans des sources Java (voir en particulier la figure 5). Pour des clés plus générales cette fa¸con de mélanger est critiquée [8], mais nous allons nous en tenir à elle.

Car il faut parfois construire nos propres fonction de hachage, ou plus exactement redéfinir nos propres méthodeshashCode. Notre table de hachageHappelle d’abord la méthodehashCode d’une clé (pour trouver un indice dans le tableau interne, page 69), puis la méthode equalsde la même clé (pour par exemple trouver sa place dans une liste de collision, page 67). La table de hachage de la librairie procède similairement. Or, même si tous les objets possèdent bien des méthodeshashCodeetequals(comme ils possèdent une méthodetoString), les méthodes par défaut ne conviennent pas. En effet equals par défaut exprime l’égalité physique des clés (voir B.3.1.1), tandis que hashCode renvoie essentiellement l’adresse en mémoire de l’objet ! Il faut redéfinir ces deux méthodes, comme nous avons déjà parfois redéfini la méthode toString (voir B.2.3). La classe Stringne procède pas autrement, son hashCodeet sonequalsse basent non pas sur l’adresse en mémoire de la chaˆıne, mais sur le contenu des chaˆınes.

Supposons donc que nous voulions nous servir de paires d’entiers comme cl´es, c’est `a dire d’objets d’une classe Pair.

class Pair { int x, y ;

Pair (int x, int y) { this.x = x ; this.y = y ; } }

Pour red´efinirhashCode nous utilisons tout simplement le m´elangeur multiplicatif.

public int hashCode() { return x * 31 + y ; }

La méthode redéfinie est déclarée public comme la méthode d’origine. Il importe en fait de respecter toute la signature de la méthode d’origine. Or, la signature de la méthodeequalsdes Object(celle que nous voulons redéfinir) est :

public boolean equals(Object o) Nous ´ecrivons donc (dans la classe Pair) :

public boolean equals(Object o) {

Pair p = (Pair)o ; // Conversion de type, ´echoue si o n’est pas un Pair return this.x == p.x && this.y == p.y ;

}

Pour la conversion de type, voir B.3.2.2. Évidemment, pour que les tables de hachage fonc-tionnent correctement il faut que l’égalité selon equals(l’appel p1.equals(p2) renvoie true) entraˆıne l’égalité des code de hachage (p₁.hashCode() == p₂.hashCode()), ce que la documen-tation de la bibliothèque appelle le contrat général de hashCode.

Arbres

Ce chapitre est consacré aux arbres, l’un des concepts algorithmiques les plus importants de l’informatique. Les arbres servent à représenter un ensemble de données structurées hiérarchi-quement. Plusieurs notions distinctes se cachent en fait sous cette terminologie : arbres libres, arbres enracinés, arbres binaires, etc. Ces définitions sont précisées dans la section 1.

Nous présentons plusieurs applications des arbres : les arbres de décision, les files de priorité, le tri par tas et l’algorithme baptisé ((union-find)), qui s’applique dans une grande variété de situations. Les arbres binaires de recherche seront traités dans le chapitre suivant.

1 D´ efinitions

Pour présenter les arbres de manière homogène, quelques termes empruntés aux graphes s’avèrent utiles. Nous présenterons donc les graphes, puis successivement, les arbres libres, les arbres enracinés et les arbres ordonnés.

1.1 Graphes

Un graphe G = (S, A) est un couple formé d’un ensemble de nœudsS et d’un ensemble A d’arcs. L’ensembleAest une partie deS×S. Les nœuds sont souvent représentés par des points dans le plan, et un arc a= (s, t) par une ligne orientée joignants à t. On dit que l’arc apart de s et va à t. Un chemin de s à t est une suite (s =s₀, . . . , s_n =t) de nœuds tels que, pour 16i6n, (si−1, si) soit un arc. Le nœuds0 estl’originedu chemin et le nœudsnsonextrémité.

L’entiernest lalongueur du chemin. C’est un entier positif ou nul. Uncircuit est un chemin de longueur non nulle dont l’origine co¨ıncide avec l’extr´emit´e.

1 2

3 4

5 6

1 2

3 4

5 6

Fig. 1 – À gauche un graphe, à droite un graphe non orienté.

A cˆ` oté de ces graphes, appelés aussigraphes orientés(((digraph))en anglais, pour((directed graph))), il existe la variante des graphesnon orientés. Au lieu de couples de nœuds, on considère

des paires {s, t} de nœuds. Un graphe non orienté est donné par un ensemble de ces paires, appeléesarêtes. Les concepts de chemin et circuit se transposent sans peine à ce contexte.

Un chemin est simple si tous ses nœuds sont distincts. Un graphe estconnexe si deux quel-conques de ses nœuds sont reli´es par un chemin.

1.2 Arbres libres

Dans la suite de chapitre, nous pr´esentons des familles d’arbres de plus en plus contraints.

La famille la plus générale est formée des arbres libres. Unarbre libreest un graphe non orienté non vide, connexe et sans circuit. La proposition suivante est laissée en exercice.

Fig.2 – Un arbre ((libre)).

Proposition 1 Soit G= (S, A) un graphe non orient´e non vide. Les conditions suivantes sont

´equivalentes :

(1) Gest un arbre libre,

(2) Deux nœuds quelconques de S sont connect´es par un chemin simple unique, (3) Gest connexe, mais ne l’est plus si l’on retire une arˆete quelconque,

(4) Gest sans circuit, mais ne l’est plus si l’on ajoute une arˆete quelconque, (5) Gest connexe, et Card(A) = Card(S)−1,

(6) Gest sans circuit, et Card(A) = Card(S)−1.

1.3 Arbres enracin´es

Un arbre enracinéou arbre (((rooted tree))en anglais) est un arbre libre muni d’un nœud distingué, appelé saracine. Soit T un arbre de racine r. Pour tout nœud x, il existe un chemin simple unique de r àx. Tout nœudy sur ce chemin est unancêtrede x, etx est undescendant de y. Le sous-arbrede racinex est l’arbre contenant tous les descendants dex. L’avant-dernier nœud y sur l’unique chemin reliantr àx est le parent (ou lepère ou la mère) de x, et xest un enfant (ou unfils ou unefille) de y. L’aritéd’un nœud est le nombre de ses enfants. Un nœud sans enfant est une feuille, un nœud d’arité strictement positive est appelé nœud interne. La hauteur d’un arbre T est la longueur maximale d’un chemin reliant sa racine à une feuille. Un arbre réduit à un seul nœud est de hauteur 0.

1 2

5 6

7 8 9

Fig. 3 – Un arbre ((enracin´e)).

Les arbres admettent aussi une définition récursive. Un arbre sur un ensemble fini de nœuds est un couple formé d’un nœud particulier, appelé sa racine, et d’une partition des nœuds restants en un ensemble d’arbres. Par exemple, l’arbre de la figure 3 correspond à la définition

T = (1,{(2,{(5),(6)}),(3,{(7),(8),(9)}),(4)})

Cette définition récursive est utile dans les preuves et dans la programmation. On montre ainsi facilement que si tout nœud interne d’un arbre est d’arité au moins 2, alors l’arbre a strictement plus de feuilles que de nœuds internes.

Uneforˆet est un ensemble d’arbres.

1.4 Arbres ordonn´es

Un arbre ordonn´e est un arbre dans lequel l’ensemble des enfants de chaque nœud est tota-lement ordonn´e.

1 1.1 1.2

1.2.1 1.2.2

Dans le document Cours programmation et algorithmique – Cours et formation gratuit (Page 78-83)