• Aucun résultat trouvé

Map / Reduce

N/A
N/A
Protected

Academic year: 2022

Partager "Map / Reduce"

Copied!
1
0
0

Texte intégral

(1)

Map / Reduce

Data science Master 2 ISiDIS

2019 / 2020

Le but est de d´evelopper des algorithmes dans le framework Map/reduce. Votre code (java) pourra `a la fois ˆetre d´evelopp´e dans un mode mono-machine, mais aussi mode cluster pour nos Raspberry pi.

Avant de commencer, jetez un coup d’oeil sur le tutoriel de yahoo : https://developer.yahoo.com/hadoop/tutorial/module4.html

1 Anagrames

Ecrire un programme map/reduce qui d´´ etermine les anagrames de mots lu dans un dictionnaire.

Comme fichier dictionnaire vous pouvez utiliser le fichier les mots de langue anglaise dans/usr/share/dict/words.

2 R´ eseaux sociaux

Ecrire un programme map/reduce qui d´´ etermine la liste des amis en communs de chaque pairs d’uti- lisateurs dans un r´eseaux. Pour cela, nous supposons avoir le graphes des amis stock´e sous forme d’une matrice d’adjacence, o`u pour chaque utilisateur nous avons la liste de ses amis.

3 Poste

On dispose, au sein d’un fichier csv, provenant du site officiel du gouvernement, une liste de tous les bureaux de postes situ´es en ˆıle de France. On souhaite r´ealiser un programme map/reduce avec hadoop fournissant pour chacune de ces villes une liste de coordonn´ees GPS (celles de chacun des bureaux de poste associ´es). Plus pr´ecisement, on souhaite en sortie : VILLE (x) : (LONG,LAT),(LONG,LAT) ... o`u x est le nombre de bureaux de poste de la ville en question et (LONG,LAT) les coordonn´ees GPS.

1

Références

Documents relatifs

Our study shows that in the case where the size of the alpha- bet for the NFA’s is large and we have a large number of reducers available, an algorithm that distributes the

The systems mentioned in this last subsection appear to be using a common technique in order to handle iteration in streaming data or queries: they employ some form of tagging in

In particu- lar, we focus on the decomposition of the query posed by the user, which is given in the form of a query graph, into star subqueries and propose a two-phase,

(Kodialam, 2012) express the scheduling problem as an optimization problem using linear programming, they aim to minimize the total weight completion time of jobs,

On the one hand, by using semantic analysis the data can be connected and the system can realize data sharing with RDF based on semantic data queries.. On the other hand,

Map : pour chaque élément de données, construire un couple (clé,valeur).. Trier selon

As stated in the introduction section, Map/Reduce hash based join algorithms presented in [4, 17] may be inefficient in the presence of highly skewed data [14] due to the fact that

This is a direct consequence of some of the Hadoop architectural design decisions colliding with the specific characteristics of our application: (i) the total number of map tasks