ALGO1 – Table de hachage

(1)

ALGO1 – Table de hachage

Fran¸cois Schwarzentruber September 19, 2020

1 Motivation

Rˆeve : impl´ementer efficacement les types abstraits ensemble et tableau associatif

1.1 Algorithmique

Somme de nombres On veut par exemple savoir s’il existe deux nombres a et b dans un tableau T tel que a+b= 0. Voici un algorithme enO(n) :

• On met tous les éléments dans une structure de données avec un accès enO(1) ;

• On parcourt les élémentsadu tableau et on teste si−ase trouve dans la structure de données.

Relation symétrique Tester si une relation donnée sous la forme d’une liste de paires (a, b) est symétrique.

1.2 Texte : mots les plus fr´ equents

Etant donn´´ e un roman, quels sont les 100 mots les plus fr´equents ?

1.3 Base de donn´ ees

On a une liste de triplets (prixapayer, client). On souhaite en temps lin´eaire calculer pour chaque client le prix total qu’il doit payer.

1.4 Dans un compilateur/interpr´ eteur

Pour stocker l’association entre nom de variables et donn´ees.

2 D´ efinition

Définition 1 Une table de hachage par chaˆınage est une structure de données composée d’un tableau avecM cases, chacune contenant une liste chaˆınée.

...

... 0

M−1

h(s) s s⁰

liste chaˆın´ee

fonction contient(s)

retourner liste contient(T[h(s)], s) fonction ajouter(s)

retourner liste ajouter(T[h(s)], s) fonction supprimer(s)

retourner liste supprimer(T[h(s)], s)

Définition 2 (alvéole) Une case du tableau s’appelle une alvéole.

(2)

Définition 3 (collision) Une collision est un ensemble de 2 clefs logées dans la même alvéole.

Notations

Ω = l’univers des mondes possibles (pour parler de probabilités) K = l’ensemble des clefs possibles (pas forcément dans la table) n = nombre de clefs présentes dans la table

M = nombre d’alv´eoles dans la table h = fonction de hachage

aj = nombre de clefs dans l’alv´eole num´eroj α=_Mⁿ = facteur de remplissage

3 Hachage uniforme

Définition 4 (Hypothèse du hachage uniforme simple) SoitK: Ω→Kest une variable aléatoire représentant une clef. La clef K vérifie l’hypothèse de hachage uniforme simple si pour tout alvéole j∈ {0, . . . , M−1},

P(h(K) =j) = 1 M. demo: Hachage uniforme

Dans ce cas là, on a la proposition suivante, avec≤car les éléments qu’on ajoute peuvent être égaux et il n’y a pas de doublons :

Proposition 5 Supposons que l’on a ajouténéléments : K₁, . . . , K_n : Ω→Ksous l’hypothèse de hachage uniforme simple. On a alors pour toutj∈ {0, . . . , M−1},

E(a_j)≤α= n M.

Démonstration. SoitP une propriété. On note 1_P la fonction de Ω→ {0,1}qui vaut 1 si la propriétéP est vraie et 0 sinon.

Le nombre de tentatives d’ajout d’une clef dans l’alv´eole num´ero j

vautPn

i=11_h(K_i_)=j. On a donc :

a_j ≤

n

X

i=1

1_h(K_i_)=j.

Le≤provient du fait qu’il peut y avoir des clefs égales. Par linéarité de l’espérance : E(a_j) ≤E(Pn

i=11_h(K_i_)=j)

=Pn

i=1E(1_h(K_i_)=j)

=Pn

i=1P(h(Ki) =j)

=Pn i=1

1 M

= _Mⁿ

Corollaire 6 Les op´erations d’ajout, suppression et recherche sontO(1 +α)en moyenne.

4 Hachage universel

Probl`eme : Un intrus qui connaˆıt la fonction de hachage peut attaquer la table de hachage.

demo: Hachage uniforme : attaque

Solution : choisir al´eatoirement une fonction de hachageH.

Exemple 7 Soitpun nombre premier et supposonsK=Z/pZ. SoitD=Z/^∗_p_Z×Z/pZ. Tirer al´eatoirement uniform´ement (a, b)dansDet choisir comme fonction de hachage

hab: Z/pZ → {0, . . . , M−1}

k 7→ ((ak+b)[p])[M].

demo: Hachage universel

(3)

4.1 Fonction de hachage al´ eatoire universelle

D´efinition 8 SoitH : Ω→(K→ {1, . . . , M})une fonction de hachage al´eatoire est universelle si pour toute paire de clef (k, `)∈Ktel quek6=`, on a

P(H(k) =H(`))≤ 1 M.

Théorème 9 Supposons queH est une fonction de hachage aléatoire universelle. Alors pour tout élémentsx1, . . . , xn

distincts deux `a deux, pour toutx, apr`es l’insertion de x1, . . . , xn on a : E(a_H(x))≤ n

M + 1.

D´emonstration.

E(a_H(x)) =E(Pn

i=11_H(x_i_)=H(x))

=Pn

i=1E(1_H(x_i_)=H(x))

=Pn

i=1P(H(xi) =H(x)) Sixi=x,P(H(xi) =H(x)) = 1. Sixi6=x,P(H(xi) =H(x))≤_M¹. D’o`u le r´esultat.

4.2 L’exemple est une classe universelle (*)

Théorème 10 (admis) Soit D = Z/^∗_p_Z×Z/pZ. Si on tire aléatoirement uniformément (a, b) dans D, alors la variable aléatoirehab de l’exemple 7 est universelle.

D´emonstration. Rappel :

h_ab: Z/_p_Z → {0, . . . , M−1}

k 7→ ((ak+b)[p]

| {z }

f_ab(k)

)[M].

Par d´efinition, montrer quehabest universelle revient `a montrer que pour toute paire de clef (k, `) tel quek6=`, on a

|{(a, b)∈ D |h_ab(k) =h_ab(`)}| ≤ |D|

M . Il faut montrer que pour toute paire de clef (k, `) tel quek6=`, on a

|{(a, b)∈ D |fab(k) =fab(`)[M]}| ≤ |D|

M . SoitS ={(r, s)∈Z/²_p_Z|r6=s}. Soitk, `∈U telles quek6=`. Posons

θ: D → S

(a, b) 7→ (fab(k), fab(`)) Lemme 11 θ est une bijection.

Démonstration. Bien défini θ est bien à valeurs dansS. En effet :

• D’une part,f_ab(k), f_ab(`)∈Z/_p_Z par d´efinition def_ab.

• D’autre part fab(k) 6= fab(`). En effet, par d´efinition de fab(..), il faut montrer que ak+b 6= a`+b[p].

Autrement dit, il faut montrer quea(k−`)6= 0[p]. Mais : – a6= 0 (par d´efinition deD).

– Et comme pest plus grand que les valeurs des clefs (ie. k < pet ` < p), et k−` 6= 0 implique que (k−`)6= 0[p].

CommeZ/pZ est int`egre, on a biena(k−`)6= 0[p]. CQFD.

Surjection

Pour tout (r, s)∈ S, montrons qu’il existe (a, b)∈ Dtel que θ(a, b) = (r, s). Le candidat (a, b) est :

(4)

• a= (r−s)(k−`)⁻¹[p];

• b= (r−ak)[p].

On remarque que commek6=` et commer6=s, alors par int´egrit´e deZ/_p_Z,a6= 0[p]. Donc (a, b)∈ D.

D’autre part,

θ(a, b) = (ak+b, a`+b)

= (ak+ (r−ak)

| {z }

b

, (r−s)(k−`)⁻¹

| {z }

a

`+r−(r−s)(k−`)⁻¹

| {z }

a

k

| {z }

b

)

= (r, (r−s)(k−`)⁻¹(`−k) +r)

= (r, s−r+r)

= (r, s).

Conclusion

Comme|D|=|S|, on en conclut queθest une bijection.

Vu queθest une bijection, on a :

|{(a, b)∈ D |fab(k) =fab(`)[M]}|=|{(r, s)∈ S |r=s[M]}|.

Ainsi, l’objectif est de montrer que :

|{(r, s)∈ S |r=s[M]}| ≤ |S|

M. Pour unr∈Z/_p_Zfix´e,

|{s∈Z/_p_Z|(r, s)∈ S et r=s[M]}|

=|{s∈Z/pZ|(r, s)∈Z/²_p_Z etr6=s[p] etr=s[M]}|

≤p M

−1

≤ ^p+M_M⁻¹−1 = ^p−1_M

(5)

Exemple 12 Par exemple pour r= 0, voici les candidats (en noir) espac´es deM :

0 p−1

Ainsi,

|{(r, s)∈ S |r=s[M]}| ≤pp−1 M =|S|

M

4.3 Nombre de collisions

Lemme 13 SoitH une fonction de hachage aléatoire avec l’hypothèse d’universalité. On a :

E(nb de collisions obtenues avecH)≤ n

2 1

M. Démonstration. Etant donné deux clefsket `, on définit

Xk,`= 1ket`donne une collision avecH= 1H(k)=H(`). On a, en notantX le nombre de collisions obtenues avec H :

X = X

{k,`}o`uk, `dans la table|k6=`

X_k,`.

Par linéarité de l’espérance on a :

E(X) = X

E(Xk,`) Mais

E(X_k,`) =P(X_k,`= 1)

=P(H(k) =H(`))

≤_M¹ carH est universelle.

On a :

E(X) = X

E(X_k,`)≤ X

1 M ≤

n 2

1 M.

5 Hachage parfait

Probl`eme : les complexit´es sont en moyenne mais pas dans le pire cas.

Solution : étant donné n clés fixées et connues, compiler une structure de données pour avoir un accès pire cas enO(1) et un espace mémoire enO(n)

5.1 Etape 1 : table avec acc` es O(1) et taille O(n

²

)

demo: Hachage parfait

(6)

...

... 0

n²−1

h(s) s s⁰

liste chaˆın´ee

Théorème 14 PosonsM =n². SoitH une fonction de hachage choisie aléatoire l’hypothèse d’universalité. Alors : P(pas de collision avecH)> 1

2.

D´emonstration. SoitX le nombre de collisions que l’on a avecH. Via le lemme 11, on a : E(X)≤n(n−1)

2 1 n² <1

2.

Rappel de l’inégalité de Markov : P(X ≥t)≤Ê^(X)_t . Ici, pourt= 1, on obtientP(X ≥1)≤ ¹₂., et donc P(X= 0)>¹₂.

Solution : tirer al´eatoirementhdansHet s’arrˆeter quand on n’a pas de collision.

Théorème 15 Il faut en moyenne ^1−p_p essais pour avoir une fonction de hachage qui ne donne pas de collisions, oùpest la probabilité de ne pas avoir de collisions.

Démonstration. SoitT le nombre d’essais ratés jusqu’à ne pas avoir de collision.

P(T = 0) =p P(T = 1) = (1−p)p ...

P(T =k) = (1−p)^kp ...

Rappel que : P∞

0 kx^k :=_(1−x)^x 2

Ainsi,E(T) =P∞

0 kP(T =k) =P∞

0 k(1−p)^kp=p_{(1−(1−p))}^1−p 2 = ^1−p_p .

La fonctionp7→ ^1−p_p est d´ecroissante enpet vaut 1 en ¹₂. Il faut donc en moyenne ”moins de 1 tirage” pour ne pas avoir de collision.

5.2 Etape 2 : obtenir une taille en O(n)

On construit une structure `a deux niveaux :

1. Premier niveauavecM =nalv´eoles, avec une fonction de hachageh. Il peut y avoir des collisions.

2. Dans l’alvéole numéro j du premier niveau, on met une table de hachage sans collision T_j. On utilise le principe de la sous-section précédente, i.e. on met a_j² sous-alvéoles dansT_j où a_j = le nombre d’éléments dans l’alvéole numéroj.

On montre que l’on peut choisirhdu premier niveau tel que l’espace du deuxi`eme niveauPM−1

j=0 aj2=O(n).

(7)

Théorème 16 PosonsM =n. SoitH une fonction de hachage aléatoire universelle. SoitajH la variable aléatoire qui représente le nombre d’éléments dans l’alvéole numéroj aupremier niveau avec H. Alors :

E(

M−1

X

j=0

ajH² )<2n.

D´emonstration. On va calculerPM−1 j=0 ajH²

.

Rappel : on a l’égalité pour touta∈N: a²=a+ 2 â₂ . On a :

M−1

X

j=0

ajH²

=

M−1

X

j=0

ajH

| {z }

n

+2

M−1

X

j=0

ajH

2

| {z }

X

En fait, X est le nombre de collisions dans la table de hachage principale. En effet, ^a^j₂^H

est le nombre de couples de clefs{k, `} aveck6=` o`uH(k) =H(`) =j. En faisant la somme, on compte toutes les collisions.

Ainsi, on a :

E(PM−1 j=0 ajH2

) ≤n+ 2E(X) par la linéairité de l’espérance

≤n+ 2 ⁿ₂1

n par le lemme 11

≤n+ 2ⁿ⁻¹₂

<2n.

5.3 Construction de la structure

1. On tire au hasardhpour lepremier niveaujusqu’`a avoirPM−1

j=0 aj2<4n.

La probabilit´e d’avoirPM−1

j=0 aj2<4nest minor´e par P(PM−1

j=0 aj2<4n) = 1−P(PM−1

j=0 aj2≥4n)

≥1−^E⁽

PM−1 j=0 a_j^H²)

4n in´egalit´e de Markov

>1−²ⁿ_4n

>¹₂.

2. Pour toutj, pour latable de hachage secondairedans l’alv´eole num´eroj, on choisit une fonction de hachagehj

qui ne donne pas de collision (cf. sous-section 4.1).

6 Notes bibliographiques

Cette note de cours résume le chapitre sur les tables de hachage de [CLRS09]. A la fin du chapitre, ils indiquent que Donald Knuth attribue l’inention des tables de hachage à Hans Peter Luhn. Le hachage parfait avec des clefs statiques a été proposé dans [FKS84]. Le cas dynamique, avec des ajouts et suppressions enO(1) en cout amorti est proposé dans [DKM⁺94].

(8)

References

[CLRS09] Thomas H Cormen, Charles E Leiserson, Ronald L Rivest, and Clifford Stein.Introduction to algorithms.

MIT press, 2009.

[DKM⁺94] Martin Dietzfelbinger, Anna R. Karlin, Kurt Mehlhorn, Friedhelm Meyer auf der Heide, Hans Rohnert, and Robert Endre Tarjan. Dynamic perfect hashing: Upper and lower bounds. SIAM J. Comput., 23(4):738–761, 1994.

[FKS84] Michael L. Fredman, János Komlós, and Endre Szemerédi. Storing a sparse table with 0(1) worst case access time. J. ACM, 31(3):538–544, 1984.