• Aucun résultat trouvé

Hadoop Distributed File System

N/A
N/A
Protected

Academic year: 2022

Partager "Hadoop Distributed File System"

Copied!
2
0
0

Texte intégral

(1)

Hadoop Distributed File System

Data science Master 2 ISiDIS

2019 / 2020

Le but est d’installer le framework hadoop sur diff´erents ordinateurs en particulier sur un cluster de Raspberry pi et d’utiliser les commandes de base du syst`eme HDFS.

1 Installation de Hadoop

La meilleure documentation est celle originale fournie par hadoop :

http://hadoop.apache.org ouhttp://hadoop.apache.org/docs/current/.

N’h´esitez pas `a la consulter pendant l’installation. Par ailleurs, comme d’habitude, vous trouverez beaucoup d’informations compl´ementaires sur le web.

Avant de commencer `a proprement parler l’installation, jetez un coup d’oeil sur le tutoriel de yahoo qui sera r´ealiser `a la fin de ce tp :

https://developer.yahoo.com/hadoop/tutorial/module2.html

1.1 Sur machine locale

Afin d’installer la derni`ere version du framework hadoop (2.7 ou 3.0) suivez les instructions du site web de Bilel Derbel : https://sites.google.com/site/bilelderbelpro/home/teaching/ppdg5khadoop

Vous pouvez ´egalement suivre les instructions du tutoriel de Yahoo qui utilise une machine virtuelle : https://developer.yahoo.com/hadoop/tutorial/module3.html

1.2 Sur un cluster de raspberry

Un tutoriel pour l’installation de hfs sur un cluster de raspberry pi est donn´e par Alan Verdugo : https://developer.ibm.com/recipes/tutorials/building-a-hadoop-cluster-with-raspberry-pi/

1. Prendre des notes sur les manipulations que vous faites pendant l’installation.

2. Suivre les instructions donn´ees par le tutoriel signal´e plus haut et consulter les tutoriels/aides cit´ees plus bas.

3. Il faut d’abord installer l’OS sur la carte sd de chaque raspberry pi : https://www.raspberrypi.org/

4. Ensuite, vous pouvez mettre des noms de machine normalis´ee (rpXX) `a l’aide du fichier/etc/hostname et affecter des ip statiques `a l’aide du fichier /etc/network/interfaces.

1

(2)

5. Vous pouvez suivre globalement les instructions donn´ees sur le blog de Widriksson :http://www.

widriksson.com/raspberry-pi-hadoop-cluster/.

Seulement il faudra surement mettre `a jour certaine partie pour la derni`ere version de hadoop. Par exemple, en suivant ce blog :http://scn.sap.com/community/bi-platform/blog/2015/04/25/

a-hadoop-data-lab-project-on-raspberry-pi--part-14

6. Pour le passage au cluster de Rpy, un autre blog de Carsten M¨onning donne des indications pour la version 2.6 :

http://scn.sap.com/community/bi-platform/blog/2015/07/10/a-hadoop-data-lab-project-on-raspberry-pi--part-44

2 D´ ecouvrir par la pratique

Maintenant que votre syst`eme HDFS est en place, vous pouvez faire ”intelligemment” (en adaptant) le tutoriel propos´e par Yahoo : https://developer.yahoo.com/hadoop/tutorial/module2.html

Vous pouvez r´ealiser ce tutoriel soit sur votre propre machine, ou encore mieux sur le cluster de raspberry ce qui permet de comprendre la configuration du syst`eme.

2

Références

Documents relatifs

Description de l’interruption.- On peut afficher un caract`ere `a l’´ecran en utilisant la fonction 02h de l’interruption MS-DOS 21h, en pla¸cant le caract`ere `a afficher

Par exemple, on suppose que les proies ne se reproduisent que dans un intervalle I ⊂

Sauvegarder une tr` es grande quantit´ e de donn´ ees Garantir les services classiques d’un file system.

Sauvegarder une tr` es grande quantit´ e de donn´ ees Garantir les services classiques d’un file system.

un syst` eme de fichier (file system) au mˆ eme titre que fat32, ext3FS, NTFS, etc. un syst` eme de fichier distribu´ e comme NFS (network

Vous pouvez r´ ealiser ce tutoriel soit sur votre propre machine, ou encore mieux sur le cluster de raspberry ce qui permet de comprendre la configuration du syst`

[r]

Pour chacune des valeurs propres, d´ eterminer un vecteur propre associ´ e.. b) D´ eterminer une matrice P et une matrice diagonale D telles que C = P