Cours INITIATION AU BIG DATA
ENSEIGNANT: LAMBERT TANOH TANOH / Lambert.tanoh@inphb.ci
LA REVOLUTION DU BIG DATA: les données au cœur de la
transformation de l’Entreprise
PLAN
Chapitre 1: l’ère de l’information et du
big data
Chapitre 2: le Big data et les 5V Chapitre 3: les Outils du big data
Chapitre 4: Comment Implanter le Big
Data en entreprise
PLAN
Chapitre 5: Les bénéfices du Big data
pour chaque métier de l’Entreprise
Chapitre 1: l’ère de l’information et du big data
Introduction
1. Définitions de bases
2. l’émergence des réseaux Sociaux
3. Le Social Business
4. La révolution du mobile V. Le Cloud
INTRODUCTION
L’ère numérique: caractérisée par une croissance exponentielle de la
création de données et des technologies qui permettent de les traiter afin d’en retirer de l’information;
Passage d’une société industrielle à une société de services
Les données alimentent l’économie(« Data fuel économie: à l’image de l’économie du pétrole »)
Pour l’entreprise: canaliser le flot de donner incessant généré en interne ou en externe pour en tirer l’information nécessaire à une meilleure prise de décision: décisions stratégiques au niveau des métiers: Production,
marketing, vente, finance, sécurité
Domaine public: santé, villes connectées, recherche, enseignement etc.
1 ) DEFINITIONS DE BASES
DEFINITIONS DE BASES
Donnée, information, connaissance (1)
q De la donnée à l’information
• Une donnée est l’enregistrement d’une observation, objet, fait destiné à être interprété, traité par l’homme. La donnée est
généralement objective Exemples :
- température =35°
- âge = 2 mois
• Une information est le signifiant attaché à la donnée ou à un ensemble de données par association. L’information est
généralement subjective, définie selon un contexte
Exemples
– (température=35°) : temps chaud
– (âge=2 mois) : nourrisson
Donnée, information, connaissance (2)
De l’information à la connaissance
Une connaissance est une information nouvelle, apprise par
association d’informations de base, de règles, de raisonnement, d’expérience, d’expertise, etc.
La donnée est généralement objective, peut être subjective.
Exemple :
- temps chaud et enfant nourrisson alors risque de déshydratation
Définition BIG Data
A une première approche:
Le big data recouvre l’ensemble des technologies, des métiers, des approches conceptuelles permettant
d’exploiter l’ensemble des données générées par les
hommes de façon consciente ou non et par tous les objets connectés ou non.
NB: nous reviendrons sur des définitions plus précises.
2. L’Emergence des Réseaux Sociaux
La Société de l’information n’est pas qu'une expression ou un concept. Elle a pros corps à Tunis(TUNISIE) en 2005
lorsque l’assemblée Générale de l’Organisation des
Nations Unies à Tunis a adopté le projet de résolution de l’Union Internationale de télécommunications(UIT). Depuis, tous les 17 mai de chaque année , se tient la journée
internationale de la société de l’information.
Les 3 termes caractérisant le citoyen de la Société de l’information
Social: l’homme est aujourd’hui « social ». Il habit le village « monde » et communique avec la planère à travers les réseaux sociaux.
Mobile: à l’origine de la croissance exponentielle de la communication au sein de notre société de
l’information, se trouve le téléphone mobile.
Cloud: Résultante naturelle des 2 premiers phénomènes.
Il permet la diffusion, le partage de l’info; Accéder à l’info, oû que l’on soit, au moment de son choix, avec le terminal dont on dispose tel est le paradigme de l’information.
L’Origine des Réseaux Sociaux
Inventé par 2 passionnés d’informatique: Ward
Christensen et Randy Suess lors du grand Blizzard de 1978 (une tempête de neige historique qui a bloqué Chicago pendant 2 jours en janvier 1978). Le but en était bien de pouvoir échanger des informations entre les membres du club CACHE(Chicago area computer hobbyists ex-change;( source Wikipedia)
Depuis les sites se sont multipliés sur la toile:
• linkedln et MySpace(2003),
• Facebook viaduc qui deviendra plus tard Viadeo et Google, sous le nom de Orkut(en 2004)
• Youtube en 2005, et twitter en 2006
• Google+ en 2011
Le Poids des Réseaux Sociaux
Fin 2013: facebook, Twitter, Google+ et linkedln totalisaient à eux seuls 2,5 milliards d’abonnés.
Youtube fait état de plus d’un milliard de visiteurs uniques par mois.
Partage de contenus vidéo, photo, créent des communautés virtuelles, mettent en commun des informations, des conseils, des recommandations.
93% des responsables marketing les utilisent comme média de communication de marque
60% de personnes interrogées disent être plus suceptibles de recommander une marque si elle est présente sur leur social.
On n’est pas de la sphère privée à la sphère économique
Le Social BUSINESS
Cette communication perpétuelle entre les individus, sociétés, partenaires, employeurs, employés est à la base du « social Business »
Le social Business et entreprise sociale
▪ Le social business dont il est question ici est basé sur le modèle tout à fait
classique: la mission de l’entreprise est de créer de la valeur, de dégager des bénéfices et de distribuer des dividendes à ces actionnaires;
▪ Ce qui change fondamentalement par rapport à l’entreprise « traditionnel » c’est la façon d’opérer pour atteindre ce but.
▪ Le social business est nouveau business model, adapté à la « société de l’information »
▪ Le client participe à part entière à l’écosytème du social business; il est actif parce qu’on le sollicite à travers les réseaux sociaux(pages fecebook, forums, blogs et autres outils collaboratifs de marque et qu’on lui demande son
avis(scoring et autres ’’vous vez aimez’’.
Chapitre 2: Le Big Data et les 5V
1. Quelques chiffres:
7 milliards d’êtres humains dans le monde
2,5 milliards d’internautes
1,9 millards présents sur les réseaux sociaux
10 milliards d’objets connectés
24 pétaoctets de données traitées par google chaque jour
350 millions de photos chargés sur facebook par jour
400 millions de tweets envoyés
100 heures de vidéo mises en ligne chaque minute sur Youtude NB: Plus impressionnant le rythme auquel ces chiffres croissent
Avant le Big Data
Calcul répartie et HPC
un Effort concentré sur les problèmes « calcul intensive »
Le réseau n’étant pas si performant, on évitait de faire des transferts de données
Bases de données
Le modèle relationnel s’est imposé dans les années 80
Données structurées (tableaux), formes normales
Très forte optimisation des SGBD
Bases de données fédérées : trop difficile
Avant le Big Data
Data mining
Méthodes statistiques pour l’extraction des connaissances
D’abord un modèle, qui sera ensuite validé
Echantillonnage des données pour tenir dans la mémoire
BIG DATA:
SOURCES
INTERETS
CHALLENGES
Un autre regard sur l’informatique
L’accumulation et la capacité de traiter les données a crée une révolution dans notre vie courante
Services de recommandation
Réseaux sociaux
etc...
Les entreprises ont rapidement reconnu l’intérêt
Des recherches plus pertinentes
Meilleur ciblage des publicités
Analyse et prédiction des tendances du marché
Une relation plus personnelle avec les clients
Plus de réactivité
Côté client, il y a surtout des services qui « rendent la vie plus simple »
Des nouveaux métiers (ou pas)
Le métier à la mode est le « Data Scientist »
Quelqu’un capable de transformer les données en information utile
q C’est à la fois un nouveau métier et un recueil de professions déjà existantes :
q Spécialiste TI – Il faut savoir gérer et transformer les données
q Geek/Hacker – il faut savoir programmer, paramétrer et déployer des outils (souvent sous Linux)
q Spécialiste HPC – le parallélisme est une clé de la réussite
Des nouveaux métiers (ou pas)
Statisticien – il faut savoir utiliser des méthodes mathématiques pour classifier, regrouper et analyser l’information
Gestionnaire – il faut être capable d’indiquer les objectifs et de reconnaître la valeur d’une information
La Frontière du BigData
Règle générale, on considère du Big Data quand le traitement devient trop
long pour une seule machine
Les trois premiers « V » du BigData
Volume (Volume)
Volumes de données croissants de tous types, qui se comptent en téraoctets ou même en pétaoctets
Variété (Variety)
Gérer la complexité de plusieurs types de données et de schémas
structurés ou non structurés , texte, données de capteurs, son, vidéo, logs, ...
Vitesse (Velocity)
Parfois, les données doivent être saisies et traitées au fur et à mesure de leur collection (rapidité d’arrivée des données et leur traitement)
Le Big Data à l’intersection des 3V
Les deux « V » supplémentaires
Véracité (Veracity)
q La qualité et la précision des données sont aussi importantes q Comment se trouver dans un déluge de hashtags ?
q Comment gérer les données partielles ou incomplètes ?
Valeur (Value)
q La valeur ajoutée des données ou des informations extraites q Sans une réelle valeur, ce n’est qu’un gaspillage de ressources
RESUME: LES 5 V du BIG DATA
VALEUR: LE V le plus Important
UTILISATION DU BIG DATA
Descriptives: que s’est –il passé?
Pourquoi?
Prédictives: que va-t-il se passer ?
Prescriptives: comment atteindre
l’objectif?
C’est quoi MapReduce
VOIR VIDEO MOOC MapReduce Hadoop de Serges Abiteboul
Introduction au big data à partir du slide 34
Chapitre 4: Comment Implanter le Big
Data en entreprise
Approche traditionnelle
Approche traditionnelle – le système est crée selon une demande Appropriée pour :
Des données structurées
Opérations et processus répétitifs
Sources relativement stables
Hadoop framework
1/27/2019 Hadoop Plateform BGC & DFO Student presentation
35
ECOSYSTEME HADOOP
Voir page 39 support introduction big data de L.A STEFELNEL (univerrsité de Reims)
Tools Ecosystems
37
Chapitre 4: Comment implanter le big
Data entreprise
Ce qui change dans le cycle de
développement: approche traditionnelle
De nouvelles exigences nécessitent une nouvelle conception et construction
Le responsable métier définit les besoins : Quelles questions doit-on poser?
IT conçoit une solution avec un ensemble de structures et fonctionnalités
Le responsable métier exécute les requêtes pour répondre aux questions –encore et encore
u Besoins bien compris et bien cadrés
2
3 4
Approche Big Data
les données sont là, il faut les explorer
Les sources guident la découverte
De nouvelles idées conduisent à l’intégration de technologies
traditionnelles
Le responsable métier et IT identifient les sources de données disponibles
IT fournit une plateforme qui permet une exploration
créative de toutes les données disponibles
Le responsable métier détermine les questions à poser en explorant les données et relations entre elles
2
3 4