• Aucun résultat trouvé

CHAPITRE 7 CLUSTER HADOOP MAPREDUCE

7.2 L’univers VMware

La compagnie VMware propose une multitude de produits propriétaires permettant la virtualisation d’architectures. C’est-à-dire des applications permettant d’accueillir différents systèmes d’exploitation ou applications spécialisées, tout en permettant de partager les ressources d'une machine physique entre les différentes machines virtuelles. 7.2.1 Project Serengeti

Le Project Serengeti est un projet open-source permettant le déploiement rapide d’un environnement Hadoop sur une plate-forme virtuelle VMware. Il a été initié par VMware et est strictement compatible avec un environnement VSphere. Project Serengeti permet de déployer le système de fichier de Hadoop, HDFS (Hadoop Distributed FileSystem), sur l’ensemble des nœuds du cluster de façon simple et rapide. De plus,

Serengeti est complètement compatible avec le modèle de programmation MapReduce. Il est de plus possible d’utiliser Pig, une plate-forme qui est composée d’un langage de haut niveau et qui permet l’analyse de grands ensembles de données. Ensuite, il est possible d’utiliser le logiciel d’entrepôt de données Hive, qui permet d’exécuter des requêtes SQL sur les entrepôts de données HDFS. Le projet permet également l’utilisation de HBase, qui est une base de données orientée colonne et distribuée construite sur le HDFS. Project Serengeti est approuvé par les principaux distributeurs de Hadoop, soit, Cloudera, Hortonworks, Intel, MapR, et Pivotal.

Project Serengeti est disponible en plusieurs versions, 0.5-0.6-0.7-0.8, sur le site de VMWare. Il est important de noter que depuis septembre 2013, le projet a évolué et est devenu Big Data Extension 1.0. Cette version est la dernière mouture de Project Serengeti, avec moins de bogues et davantage de stabilité. Il est important de savoir que cette version supporte encore mieux les fonctionnalités natives de VSphere.

7.2.2 VMware VSphere

VSphere est une plate-forme de virtualisation permettant la création d’infrastructures du Cloud. Autrement dit, c’est un hyperviseur de type 1, « bare metal », basé sur l’architecture VMware ESXi. Il est important de noter qu’un hyperviseur est une plate-forme permettant à plusieurs systèmes d’exploitation de s’exécuter en même temps, tout en se partageant les différentes ressources disponibles. De plus, un hyperviseur de type 1 est dit également natif, puisque ce dernier est une application qui est directement déployée sur la plate-forme matérielle de l’hôte. L’hyperviseur est, autrement dit, un noyau

spécialisé pour faire exécuter des systèmes d’exploitation invités sur l’architecture pour lequel ils sont compatibles et optimisés.

7.2.3 VMware VCenter Server

VCenter est une application permettant de gérer l’ensemble des serveurs ainsi que l’univers virtuel des entreprises. Ce dernier offre une plate-forme regroupant un ensemble de fonctionnalités et d’outils fort utiles, tels le déploiement simplifié, l’utilisation de profils d’hôtes, l’authentification centralisée, la personnification d’autorisations ou de rôles, la gestion des ressources, les redémarrages automatiques, etc. De plus, VCenter vient avec des sous-applications qui ont pour but d’aider l’utilisateur avec sa structure de serveurs. Parmi celles-ci notons VCenter Orchestrator, qui permet d’automatiser plus de 800 tâches grâce aux workflows, le tout dans une interface graphique. Ensuite, il y a VCenter Multi- Hypervisor Manager qui permet de simplifier la gestion et le contrôle d’un regroupement d’hyperviseurs. Finalement, il y a le VCenter Operations Management Suite, qui a pour tâche d’améliorer la santé et les performances générales de l’infrastructure VSphere. Pour réussir cela, il dispose d’une grande visibilité sur les opérations qui s’effectuent dans l’infrastructure.

7.2.4 Windows Server 2008

Ce dernier est un système d’exploitation orienté serveur. Il permet alors, selon le principe de serveur, d’introduire l’idéologie et l’utilisation de services, ce qui permet alors de pouvoir exécuter différentes applications séparément, ensemble ou en même temps. De plus, le système d’exploitation est conçu pour aider les gestionnaires à gérer les problèmes

via des outils de diagnostic, sans oublier qu’il permet de gérer un grand trafic réseau entrant et sortant. Il est important de noter que le but premier d’un tel Windows est l’utilisation des ressources logicielles et matérielles de la machine par d’autres machines. Finalement, il est bon de savoir que le système d’exploitation est compatible avec la majorité des applications de type Windows.

7.2.5 Le déploiement du cluster

Après de nombreux essais et erreurs, nous en sommes venus à la conclusion qu’il ne faut pas uniquement déployer Project Serengeti dans des machines virtuelles VMware pour pouvoir l’utiliser. Dans les faits, il faut installer de façon native un système d’exploitation de type Serveur sur la machine de test. Nous avons décidé d’utiliser le système d’exploitation Windows Server 2008. Ensuite, il a fallu installer l’application de gestions des entités VMware, soit VCenter sur notre système d’exploitation serveur. VCenter nous permet de gérer et d’utiliser l’entité VSphere dont nous avons besoin pour déployer Serengeti. Toutefois, il faut installer cette entité dans une machine virtuelle, puisque nous n’avons pas d’autres ordinateurs disponibles et qu’il est impossible de faire exécuter deux systèmes d’exploitation en même temps de façon native sur une même machine.

Il est alors possible d’effectuer un déploiement de Serengeti. Toutefois, il est important de noter que la façon de déployer Seregeti dans VSphere via VCenter est facile. Cependant, il nous avons été dans l’impossibilité de déployer un cluster fonctionnel en utilisant Serengeti. Le premier problème rencontré est que les images à utiliser pour déployer un cluster nous demandent un nom d’utilisateur et mot de passe pour se connecter.

Cette information ne nous a pas été transférée lors du téléchargement de Serengeti; il nous a fallu faire des recherches via Google pour la trouver. Par la suite, les principaux problèmes que nous avons rencontrés sont que les machines virtuelles déployées à partir des images de Serengeti avaient un problème réseau majeur ou qu’une d’entre elles était corrompue. Malheureusement, le nœud Maître était souvent atteint de l’un de ses problèmes. Donc, la création d’un cluster via Serengeti a dû être abandonnée malgré le grand nombre de tentatives, faisant varier à chaque fois le nombre d’entités VSphere ou différents paramètres de configuration.

Finalement, nous en sommes venus à la conclusion que notre problème était dû au minimalisme des ressources matérielles, puisque pour contenir notre entité VSphere, nous avons été dans l’obligation d’utiliser une machine VMware dans un disque dur externe. De plus, l’entité VSphere était lancée sur la même machine que VCenter, ce qui diminuait les ressources disponibles. Ensuite, il est important de noter que VMware se base sur les adresses IP pour effectuer le transfert de données, ce qui produit des tâches inutiles pour l’ordinateur : ce dernier doit transférer les données à un nœud qui est contenu en lui-même. Nos recherches nous ont permis de constater que les personnes qui utilisent Serengeti possèdent en général de « vrais » serveurs avec des disques SSD pour créer leur cluster. Or dans notre cas, la machine de recherche est un ordinateur possédant de grandes capacités de traitements, comparativement à la moyenne des ordinateurs présentement disponibles.

Documents relatifs