TECHNIQUES D ANALYSE ET DE VISUALISATION DU BIG DATA

(1)

traitement par des méthodes technologiques spécifiques afin de mieux les visualiser et obtenir des indicateurs permettant des prises de décisions stratégiques.

P UBLIC

Cette formation s’adresse principalement aux Datascientist, Dataminer, Datamanager, Business Analyst, Consultant BI, Développeur, Chef de Projet avec un bagage technique.

Minimum : 4 participants

Maximum : 12 participants (8 en Intra-entreprise)

P RÉREQUIS

Avoir des notions sur le BIG DATA / Connaître les principaux concepts du décisionnel / Connaître les langages Python ou Scala

O BJECTIFS

• Présenter les enjeux de l’analyse des données numériques

• Connaître les différents modes d’analyse : Le Datamining, le Machine Learning, la Business Intelligence ainsi que la DataViz

• Comment faire du BIG DATA ? Sur quelle plateforme technologique s’appuyer ?

• Choisir et mettre en œuvre une visualisation appropriée de vos données

• Implémenter des modèles d’analyses statistiques et mettre en place un outil de Data Visualisation pour restituer des analyses dynamiques

D URÉE , DATES ET LIEUX

• 4 jours soit 28 heures (travail personnel non compris)

• Toutes nos sessions Inter-entreprises (dates, villes et tarifs) sur www.fctsolutions.com

• Intra-entreprise dans toute la France : nous déployons cette session dans vos locaux sur demande et sur devis

• Nos formations sont accessibles à tous. Pour toute situation de handicap, merci de nous contacter par téléphone au 01 43 67 32 52 ou par e-mail à l’[email protected]

M ODALITÉS PÉDAGOGIQUES ET D ’ ÉVALUATION

• Cette formation est disponible en mode présentiel ou distanciel (cf. fin du document)

• Ce module peut être suivi dans le cadre d’un cursus

(2)

13, boulevard Voltaire / 75011 Paris Tél. : 01 43 67 32 52

[email protected]

Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75

Dernière mise à jour : Janvier 2022

www.fctsolutions.com

2/6

J

OUR

1

DÉFINITION ET CONTEXTES SPÉCIFIQUES « PROJETS BIG DATA »

COMPRENDRE LE BIG DATA

• Introduction (Jeu : Donnez un titre aux images)

• De la donnée au BIG DATA (l’histoire de Google qui compare un grain de riz à un octet)

• Quelles avancées technologiques ont permis l’avènement du BIG DATA

• Quelles évolutions comportementales ont accéléré l’avènement du BIG DATA

• Les définitions du BIG DATA

• Les 5V du BIG DATA

LES DIFFÉRENTES SOURCES DE DONNÉES ET COMMENT LES EXPLOITER

• Les données internes

• Les réseaux sociaux : Twitter, Facebook, Web

• Les données Open Data, méteo…

• Les données de capture, Tracking Web, vidéo, géolocalisation, objet connectés

• Mise en situation : Comment créer de la valeur en exploitant et/ou croisant toutes ces données ?

BUSINESS INTELLIGENCE VS LE BIG DATA

• Rappel de l’architecture décisionnelle

• Les limites de la BI

• Définition du Data Lake – Data Hub et l’architecture BIG DATA

• Comparaison des deux approches (BI vs BIG DATA)

• Les moyens de collecte de donnée dans un projet BIG DATA

(3)

LE CADRE JURIDIQUE DES DONNÉES ET LA CNIL

• Comprendre le champ d’application, les règles et les sanctions concernant la protection des données personnelles

• Les obligations légales des entreprises (anonymisation, droit à l’oubli)

• Comment concilier BIG DATA et réglementation CNIL ?

• L’évolution du cadre légal européen, G29

PANORAMA DES OUTILS BIG DATA

• L’histoire d’Hadoop

• Présentation de l’écosystème Hadoop (HDFS, MapReduce, Sqoop, Hbase, NiFi, Yarn, Oozie,…)

• Le traitement de données et l’analyse avec PIG et Hive

• Les algorithmes de Machine Learning avec Mahout

ÉVOLUTIONS DU DATAMINING VERS LE MACHINE LEARNING

• Les principales évolutions du Datamining vers le Machine Learning et le Deeplearning

• Le Machine Learning : Arbre de décision, règle d’association, Support Vector Machines

• Les spécificités du Machine Learning pour le BIG DATA : Haute dimension, occurrences élevées

• Les meilleures pratiques pour le Machine Learning : Cross-validation, Gridsearch, semi- supervision

• Cas d’usage d’application dans les domaines du marketing, finance, e-commerce et du transport

• État de l’art sur les algorithmes distribués pour le filtrage collaboratif, les arbres de décision, les RandomForests, le Custering, le TopicModeling et l'HyperparameterTuning

• L’implémentation de ces algorithmes en utilisant la libraire MLib de Spark et le package spark.ml

• Conception et mise en place de solutions distribuées pour différents types de Machine Learning tels que l’apprentissage supervisé et l’apprentissage non-supervisé

• La distribution du modèle (Model Parallelism) et les compromis à trouver entre le calcul et la communication dans un contexte distribué

(4)

4/6

J

OUR

3

ANALYSE DE DONNEES AVEC APACHE SPARK

1. INTRODUCTION A SPARK

• Historique de Spark : d’un "Apache incubator project" à un "Apache top level project"

• Architecture générale de Spark

• Les principales opérations et APIs de Spark

• Problématiques auxquelles répond Spark

• Langages de programmation supportés par Spark : Scala, Java, Python, R

• Spark vs Hadoop

2. ANALYSE DE DONNEES AVEC SPARK

• Limites des outils classiques d’analyse de données

• Comment peut-on utiliser Spark pour faire de l’analyse de données à large échelle ?

• Comment utiliser le calcul distribué pour l’exploration des jeux de données ?

• Spark en pratique : systèmes de recommandations, Log Mining, reconnaissance d’entités nommées, etc.

• Utilisation du langage R sur Spark avec Spark

3. MACHINE LEARNING A LARGE ECHELLE AVEC SPARK

• Les éléments algorithmiques et statistiques requis pour le développement de solutions de Machine Learning à large échelle

• Aperçu sur les principales problématiques et techniques de la Machine Learning

• Utilisation de Spark pour la résolution de ces problématiques

• Spark en pratique : Comment implémenter des algorithmes distribués pour les principaux modèles statistiques en utilisant Spark ?

4. MACHINE LEARNING A LARGE ECHELLE AVEC SPARK : NIVEAU AVANCE

• Conception et mise en place de solutions distribuées pour différents types de Machine Learning tels que l’apprentissage supervisé et l’apprentissage non-supervisé

• La distribution du modèle (Model Parallelism) et les compromis à trouver entre le calcul et la communication dans un contexte distribué

• État de l’art sur les algorithmes distribués pour le filtrage collaboratif, les arbres de décision, les RandomForests, le Custering, le TopicModeling et l’HyperparameterTuning

• L’implémentation de ces algorithmes en utilisant la libraire MLib de Spark et le package spark.ml

(5)

5. SPARK AVANCE POUR LA DATA SCIENCE ET LE DATA ENGINEERING

• Les principaux cas d’usage de Spark

• Étude approfondie de l’architecture de Spark

• Étude approfondie des détails internes de Spark tels que la fonction Shuffle, le CatalystOptimizer (framework d’optimisation de requêtes) de Spark SQL et le projet Tugsten

• Spark Streaming

• Les librairies de Machine Learning de Spark : Spark ML et Spark MLib

LA DATA VISUALISATION ET REPRESENTATION GRAPHIQUE

• Définition de la Dataviz, son utilité et ses enjeux

• Identifier les représentations visuelles applicables aux données

• Connaître les principes de base de la représentation visuelle : couleurs, formes, textes, perceptions, proportions

• S’approprier les différents types de visualisation des données

• Connaître les outils associés : solutions gratuites et payantes

• Choisir la représentation la plus pertinente en fonction du message à délivrer : infographie, visualisation, sémantique, tableaux de bord visuels, cartographie…

• Utiliser des Dashboards de Data Visualisation prêts à l’emploi CAS PRATIQUES CONCRETS :

- IMPLEMENTER UN MOTEUR DE RECOMMANDATION AVEC SPARK MACHINE LEARNING

• Manipuler la méthode collaborative Filtering

- E-REPUTATION

• Mesurer l’e-réputation et la notoriété d’une marque

• Récupération des tweets en temps réel de Twitter

• Intégration de ces tweets dans Hadoop

• Analyse et exploitation de ces données avec Hive

• Mesure de l’e-réputation et visualiser via un outil de DataViz type Tableau

(6)

6/6

MODES DE DIFFUSION DE LA FORMATION

Présentiel : cette formation peut être suivie en présentiel. Le participant reçoit par courriel une convocation indiquant les modalités d’accès à la formation. La formation est assurée entièrement par le formateur FCT Solutions sur le lieu de la formation.

Distanciel : Cette formation peut être suivie sur le mode distanciel sur simple demande.

Le participant reçoit par courriel un lien lui permettant de rejoindre la classe virtuelle à partir d’un terminal connecté à internet et disposant du son et d’une webcam intégrée (ordinateur, tablette).

En temps réel (formation synchrone), il suit la formation affichée au centre de l’écran (support de cours déroulé par le formateur) et écoute le formateur, le voit parler, peut interagir avec lui, poser des questions, faire répéter.

Au même titre qu’une formation en présentiel, le formateur écoute les questions, répond, instaure le débat en temps réel, maîtrise la cadence et diffuse l’apprentissage tout en contrôlant à tout moment la bonne acquisition.

Le formateur peut diffuser sur son écran des outils pédagogiques complémentaires (tableaux, schémas, graphique) au fur et à mesure de la formation.

Le participant est évalué pendant la formation au moyen de QCM et corrigés avec le formateur afin de déterminer les acquis.

Tout au long de la formation, le participant peut interagir avec le formateur et même avec d’autres participants, toujours avec l’encadrement du formateur.

Si la formation est certifiante ou est assortie d’un examen : Les participants préparent et passent l’examen blanc encadrés par le formateur qui donne les bonnes réponses et les justifie. À l’issue de la formation, le participant reçoit un Voucher lui permettant de s’enregistrer sur le site officiel de l’éditeur et passer son examen en toute autonomie. Il dispose du service assistance de l’éditeur. Pendant toute la durée de la formation, notre service administratif et technique se tient à disposition du participant pour l’assister sur tout souci technique ou administratif. Le formateur quant à lui reste l’interlocuteur pour l’accompagnement pédagogique.