• Aucun résultat trouvé

Un algorithme qui compte en tirant au sort

N/A
N/A
Protected

Academic year: 2022

Partager "Un algorithme qui compte en tirant au sort"

Copied!
1
0
0

Texte intégral

(1)

UN ALGORITHME QUI COMPTE EN TIRANT AU SORT

PHILIPPE FLAJOLET ET FRÉDÉRIC MEUNIER

Plusieurs chercheurs du Projet Algorithmes de l'Inria Rocquencourt Philippe Flajo- let, Eric Fusy et Frédéric Meunier, en collaboration avec Olivier Gandouet du Laboratoire d'Informatique LIRMM de Montpellier ont récemment mis au point le meilleur algo- rithme connu d'estimation de cardinalité de grands ensembles. Il s'agit d'évaluer le nombre d'objets diérents dans un ensemble pouvant en contenir des milliards. Dans les applica- tions informatiques, il n'est pas envisageable de construire une liste complète de ces objets.

L'algorithme HyperLogLog parvient à déterminer ce nombre avec une précision de 2% en utilisant une mémoire équivalente à 1500 caractères (octets). C'est un peu comme si, assis- tant à une pièce de théâtre, on arrivait à estimer précisément le nombre de mots diérents prononcés au cours de la pièce, en disposant en tout et pour tout d'un crayon, d'une gomme et d'un quart de feuille A4.

Une application de cet algorithme est la détection d'attaques sur internet. En eet, une attaque se caractérise souvent par une augmentation du nombre de connexions diérentes au niveau d'un routeur, nombre qu'HyperLogLog estime parfaitement en ligne. Une autre application est la mesure de similarité dans de grandes bases de documents. En ce cas, HyperLogLog associe à chaque document une signature, dont on tire les informations de cardinalité. C'est cette signature qui permet d'estimer la proportion d'éléments communs à deux documents, laquelle constitue un bon indice de similarité et est exploitable par les moteurs de recherche.

L'algorithme HyperLogLog s'inspire des travaux d'une ancienne doctorante du Pro- jet Algorithmes, Marianne Durand-Maurel, lors de sa thèse en 2004. Le point de départ est une randomisation du problème: chaque élément déclenche un tirage pseudo-aléatoire d'un nombre réel, diérentes occurences de l'élément donnant lieu au même tirage. C'est à partir d'observations numériques précises sur cette suite de tirages qu'est calculée une estimation de la cardinalité. La mise au point de la formule permettant ce calcul a nécessité des techniques mathématiques de haut vol, comme le moyennage stochastique, la dépoisson- isation analytique et la transformée de Mellin. L'informatique doit souvent s'appuyer sur des méthodes mathématiques poussées et il n'est pas rare, comme c'est le cas ici, qu'elles occupent une place incontournable. Pas de mathématiques, pas de formule; pas de formule, pas d'algorithme !

1

Références

Documents relatifs

Aussi, comme nous serons en mesure de le constater, le PL 107 propose peut-être quelques mesures louables pour renforcer l’indépendance ou le mandat du Bureau

Ce spectacle marque aussi les vingt ans de la compagnie (créée en 2001) et aura le plaisir de compter dans la distribution un de ses membres fondateurs, David Valère,

En particulier, chaque énoncé est prouvable ainsi que sa négation, ce qui ruine le jeu mathématique : tout et son contraire est théorème, l’édi…ce mathématique s’écroule

Tyrannie : « La cité dont je viens est gouvernée par un seul homme »,.. 3) Quels sont les arguments avancés par Thésée pour démontrer la supériorité de son régime poli8que

La création de ce site protégé répond à la fois aux engagements de la France vis-à-vis de l'Europe (projet européen Life+ Chiro-med) ainsi qu'aux engagements du ministère

Toutes nouvelles constructions, nouveaux aménagements (sauf petits aménagements prévus dans le cadre du programme européen Life + Chiro Med), travaux de génie

Leurs festivités sont vite arrétées par les fayots, une sorte de milice au service des nobles, d'ex-esclaves qui se sont vendus eux-mêmes et sont devenus des

Partenaires 2020 : ENSAI, INSA, Université Rennes 1, Centre Henri Lebesgue, IRMAR, ONISEP Bretagne, Académie de Rennes. Public : Lycéennes de 1ère, spécialité maths ou indécises