F dil B t b
Big Data
Fadila Bentayeb
L b i ERIC L
On‐Line Analytics
Laboratoire ERIC – Lyon 2 Analytics
ASD 2014
Hammamet ‐ Tunisie
Sommaire
Sommaire
Informatique décisionnelle (BI ‐ Business Intelligence) Big Data
Big Data
Big Data analytics
Infonuagique (Cloud computing) Big data on‐line analytics : Enjeux
Big data on‐line analytics : quelques verrous scientifiques / solutions C l i
Conclusion
Informatique décisionnelle
Business intelligence
BI : Informatique décisionnelle
Ensemble des moyens outils et méthodes qui permettent de collecter Ensemble des moyens, outils et méthodes qui permettent de collecter, consolider, modéliser et restituer les données d'une entreprise en vue :
d’offrir aux décideurs une aide à la décision
de permettre à un décideur d’avoir une vue d’ensemble de l’activité traitée
Repose sur une architecture commune appelée : entreposage de données Repose sur une architecture commune appelée : entreposage de données L'informatique décisionnelle s'attache à mesurer :
un certain nombre d’indicateurs ou de mesures (faits ou métriques) restitués selon les axes d'analyse (dimensions)
Informatique décisionnelle
l l ( )
Systèmes d’information décisionnels
Analyse en ligne (OLAP)
D é é c i
Modélisation multidimensionnelle
Sources de données
Entrepôt de données
ETL
i s i
OLAP
i o n
Intégration de données complexes
n
Personnalisation / Sécurité /
Informatique décisionnelle
Entreposage de données
ETL E T f L d
ETL : Extract‐Transform‐Load
collecte : sélection et extraction des données transformation et intégration : homogénéisationg g chargement des données dans l’entrepôt
M déli ti ltidi i ll f b i d’ l Modélisation multidimensionnelle conforme aux besoins d’analyse Exploitation de l’entrepôt
Exploitation de l entrepôt
diffusion : mettre les données à disposition des utilisateurs
présentation : utilisation d’outils bureautiques, interfaces Web …
Administration : rafraichissement de l’entrepôt, optimisation, sécurité
Informatique décisionnelle
Entrepôt de données
Défi i i Définition
base de données multidimensionnelles regroupant une partie de l'ensemble des données fonctionnelles d'une entreprise
base de données orientée analyse
base centralisée contenant des données historisées, homogènes et non volatiles provenant de bases de données opérationnellesp p
Modèles d’entrepôts de données
en étoileen flocons de neige en constellation
Informatique décisionnelle
Exemple d’entrepôt
Product product key product_key product_name category
Fact Table
#product_key Activity
activity‐key
activity name Time
p _ y
#time_key
#activity_key activity_name
time_key Day
Month Profit margin
Month Year
Informatique décisionnelle
OLAP (On‐Line Analytical Processing)
OLAP
ensemble d’opérateurs d’exploration et de navigation dans les cubes de
d é
données
• Rollup : forage vers le haut
• Drilldown : forage vers le bas
• Slice & Dice : Sélection et projection
• …
permet de construire et de manipuler des cubes OLAP
Cube de données
structure multidimensionnelle structure multidimensionnelle
• les coordonnées sont les axes d’analyse
• les cellules contiennent les indicateurs
Informatique décisionnelle
Exemple de cube OLAP
Suivi des différents indicateurs de Suivi des différents indicateurs de performance pour améliorer la gestion quotidienne de
l’entreprise l’entreprise
Informatique décisionnelle
Evolution ou révolution ?
Avènement des Big Data
volumes de données de plusieurs pétaoctets données continues (datastreams)
Limites des SGBD classiques Limites des SGBD classiques
Besoin d’analyse en ligne à la demande
Besoin d’infrastructures, d’outils logiciels et de modèles adaptés
Big Data (On‐Line) Analytics
Big Data
Avènement des big data
Prolifération des données
90% des données dans le monde ont été créées au cours des deux dernières années seulement
données produites principalement par le Web données produites principalement par le Web grands acteurs d’Internet
réseaux sociaux
Type de données
données structurées : bases de données relationnelles peu structurées : fichiers XML
non structurées : textes, images, etc.
Volumétrie des données
d é d d é
grandes quantités de données données continues
données de simulation
Big Data
Dimensions des big data
volume
Twitter génère 7 teraoctets de données chaque jour et Facebook 10 teraoctets
variété
données au format relationnel, texte, image, …
pouvant être publiques (Open Data, Web des données) relevant de la propriété des consommateurs (profils)
vélocité
c’est la fréquence à laquelle les données sont générées, capturées et partagées analyser en temps réel 50 millions d'enregistrements détaillés d'appels
quotidiens
Big Data
Exemples
Capteurs utilisés pour collecter les informations climatiques Messages sur les sites de médias sociaux
Images numériques et de vidéos publiées en ligne Enregistrements transactionnels d'achats en ligne Signaux GPS de téléphones mobiles
Signaux GPS de téléphones mobiles
Big Data
Données, technologies, gestion, analyse
BIG INFORMATION
VOLUME
MANAGEMENT
THECHNOLOGY DATA
BILLION BILLION
Big Data
Emergence de nouvelles applications
Explosion de nouvelles sources de données diverses
à granularité fineà faible latence à faible latence
Sources de données
réseaux sociaux
données issues de capteurs
Besoin de stocker, gérer et analyser ces données Nouvelles gammes d’applications métiers
Nouvelles gammes d applications métiers
nouvelles opportunités commercialesnouveaux outils d’analyse (prédire le comportement des clients)
Big data analytics
Introduction
Emergence de nouvelles architectures et technologies
infrastructures cloudmodèles NoSQL et la paradigme MapReduce Web Sémantique
Nouveaux besoins
traitement massif des données
traitement de données en flux continu analyse des tendances
prévisions p
prévention
Big data analytics
Pistes de recherche
Gestion des big data dans le Cloud
utilisation de nouveaux modèles de données NoSQL utilisation de nouveaux modèles de données : NoSQL stockage des données dans le cloud
analyse en ligne des big data
OLAP à la demande
analyse au besoin proche du client
OLAP as a service
OLAP proposé comme un service
Big data analytics
Modèles de données
Modèles relationnels
limitation des bases de données classiques pour gérer les Big Data limitation des bases de données classiques pour gérer les Big Data
problème du passage à l’échelle (petabyte : 10 puissance 15, zettabyte : 10 puissance 21)
variété des données big data variété des données big data
Emergence de nouveaux systèmes à forte scalabilité
dèl N SQL N t O l SQL
modèles NoSQL : Not Only SQL
• MongoDB
• Cassandra
traitement parallèle de données traitement parallèle de données
• paradigme MapReduce développé par Google et utilisé dans le framework Hadoop
Big data analytics
Modèles de données NoSQL
Bases de données Clé‐Valeur
Bases de données Colonnes
Bases de données Documents
Bases de données Graphes
Big data analytics
Stockage
Cloud Computing
l’accès se fait via le réseau l accès se fait via le réseau
les services sont accessibles à la demande et en libre service
utilisation de ressources informatiques partagées et configurables exemple : microsoft Windows Azure
Super calculateurs hybrides Super calculateurs hybrides
HPC : High Performance Computing
• Exemple : CEA (commissariat à l’énergie atomique et aux énergies alternatives)
Big data analytics
Applications des Big Data
Programmes scientifiques Grandes entreprises
Grandes entreprises
IBM29,Amazon Web Services, BigQuery, SAP HANA, …
é l é
Entreprises spécialisées
Teradata, Jaspersoft30, Pentaho31, …
Open source
Apache Hadoop, Infobright32, Talend33, …
Start‐up
Big data analytics
Application des Big data
Recherche scientifique
dé d d é h i
décodage du génome humain
Politique q
analyse d’opinions politiques de la population
S t i é
Secteur privé
grande distribution : 1 million de transactions client par jour Facebook traite 50 milliards de photos
Big data analytics
Enjeux stratégiques
Modélisation de données
modèles de données
modèles de métadonnées
modèles de sources de données
modèles représentant des informations contextuelles sur les donnéesp modèles supportant l’incertitude et la qualité des données
…
Gestion de données
analyser l’ensemble des donnes et pas seulement un échantillon accélération des temps d’analyse
accélération des temps d analyse
réponses pouvant être approximatives mais pouvant guider l’analyste besoin de nouveaux outils de gestion et d’analyse des big data
Infonuagique
Un peu d’histoire
1950 : systèmes centraux
li ti f ti t tè applications fonctionnant sur ces systèmes accès via des terminaux à ces applications
2000 : hébergeurs Web
premières applications Web 2.0 déployées en cloud computing
• courrier électronique
• courrier électronique
• outils collaboratifs
Promotion du cloud computing public
• généralisation de l’utilisation de l’Internet par les particuliers et les entreprises
• augmentation de la puissance des équipements informatiques
Infonuagique
Principes du cloud computing
Définition
l d ti i f ti t bl d té i l d cloud computing: un nuage informatique est un ensemble de matériel, de raccordements réseau et de logiciels qui fournit des services sophistiqués que les individus et les collectivités peuvent exploiter via des accès Internet
Caractéristiques
ressources en self‐service & élasticité : adaptation automatique à la demandep q ouverture : services mis à disposition sur l’Internet, compatibles ordibnateurs, tablettes, téléphones
mutualisation mutualisation paiement à l’usage
Infonuagique
Principes du cloud computing
Mécanisme du cloud computing
l t i èd t à d i li d’ i f t t é les entreprises accèdent à des services en ligne d’une infrastructure proposée par un fournisseur
les applications et les données se trouvent sur un nuagecomposé de serveurs
di i é
distants interconnectés
complexité des liaisons réseaux multiplicité des intervenants p
• fournisseur d’accès Internet, hébergeur, éditeur, revendeur, …
risque de diminution de la qualité de service problème de sécurité des données
problème de sécurité des données
Infonuagique
Principes du cloud computing
Technologies utilisées
i t li ti d té i l i f ti virtualisation du matériel informatique grilles de calcul
architecture orientée services services Web
Types de cloud Types de cloud
public : jeu à la demande (gaming on demand ‐cloud gaming) privé
communautaire
Infonuagique
Principes du cloud computing
Services
IaaS– Infrastructure as a Sevice
• service de bas niveau
• accès à un parc informatique virtualisé
• le consommateur peut installer un système d'exploitation et des applications
PaaS– Platform as a Sevice
• le système d'exploitation et les outils d'infrastructure sont sous la responsabilité du fournisseur
fournisseur
• le consommateur a le contrôle des applications et peut ajouter ses propres outils
SaaS– Software as a Sevice
• des applications sont mises à la disposition des consommateurs
• le consommateur n'a pas à se soucier d'effectuer des mises à jour
Infonuagique
Principes du cloud computing
Avantages
mutualisation des services pour un grand nombre de clients élasticité du nuage permet de fournir des services évolutifs élasticité du nuage permet de fournir des services évolutifs montée en charge facile
permet aux entreprises de faire des économies
Inconvénients
sécurité des données
devenir des données dépendant de la qualité du réseau perte de la maîtrise de l’implantation des données
Conséquence
développement des datacenters
Big data on‐line analytics : Enjeux
Introduction
Motivation
identifier en continu des données exploitables enfouies dans les big data intégrer ces données dans l’environnement de travail de l’utilisateur lorsque intégrer ces données dans l environnement de travail de l utilisateur lorsque c’est nécessaire
procéder à des analyses d’exploration, de prédiction et de prospection prise de décisions plus pertinentes
p p p
Nouvelles applications métiers basées sur l’analyse
l d i d l é èanalyse du panier de la ménagère
optimisation des prix et du rendement gestion de la démarque des produits
d f dél d l l èl programme de fidélisation de la clientèle
analyse en fonction de la demande : prévision, comparaisons, …
Big data on‐line analytics : Enjeux
Usages possibles
Mieux comprendre les modes d’utilisation des usagers
améliorer l’offre de servicesPermettre la comm nication en temps réel d’ ne organisation a ec ses Permettre la communication en temps réel d’une organisation avec ses usagers
Mieux comprendre les sentiments ou les besoins des citoyens
à l’aide des données des réseaux sociauxAnticiper jusqu’à un certain degré de certitude
les comportementsles comportements
les besoins des consommateurs
Prévenir certaines maladies et améliorer le traitement des patients
…
Big data on‐line analytics : Enjeux
Potentiel des analyses des big data
Simplifier et adapter les services
éducation en ligne : améliorer les enseignements en fonction des activités des élèves
Extraire les informations enfouies
données pertinentes données suspectes données suspectes
Prédire et prévenir
anticiper sur des évènements futurs anticiper sur des évènements futurs
prévention des crimes : identifier les zones et les périodes sensibles
Améliorer les performances de gestionp g
faciliter l’évaluation des services aide à la prise de décision
permettre d’économiser des ressources
Big data on‐line analytics : Enjeux
Défis
Mettre de l’intelligence dans les big data R illi d illi d li d d é Recueillir des millions de lignes de données
données du commerce en ligne
travailler sur des millions de données, en continu, en temps réel, , p comment tirer profit de ces millions de données ?
St k l bi d t
Stocker les big data
Analyser les big data a yse es b g data
Visualiser les résultats
Big data on‐line analytics : Enjeux
Contexte
Méthodes de conception ardues
O il d i di i
Outils de reporting rudimentaires Données à croissance exponentielle p
Technologies de bases de données limitées et rigides
Emergence de nouvelles applications initiatives métier stratégiques
Big data on‐line analytics : Problèmes
Limitations des entrepôts classiques
Au niveau stockage
les entrepôts de données sont implémentés dans les SGBD traditionnels les SGBD traditionnels stockent des données numériques
les SGBD traditionnels stockent des données numériques
capacité de gestion des SGBD est limitée pour des données massives
Au niveau modèle
Au niveau modèle
les modèles d’entrepôts classiques sont limités les données massives sont peu ou pas structurées les données massives sont en flux continu
Au niveau du processus ETL
l’ETL sert à extraire, transformer et charger les données des sources vers l’entrepôt
l’ETL classique est limité pour des données massives et continues
Big data on‐line analytics : Problèmes
Limitations des entrepôts classiques
Au niveau analyse
calcul préalable des agrégats dans les entrepôts traditionnels compenser la puissance de calcul limitée des SGBD traditionnels compenser la puissance de calcul limitée des SGBD traditionnels plusieurs jointures pour calculer les cubes OLAP
Impact du pré‐calcul des agrégats sur les big data
problème du chargement des données en flux continuproblème de génération des rapports mis à jour en temps réel problème de génération des rapports mis à jour en temps réel
Big data on‐line analytics : Démarche
Vers de nouveaux entrepôts de données
Utilisation de nouveaux modèles de données
modèles de données NoSQLSGBD NoSQL (Cassandra) SGBD NoSQL (Cassandra)
meilleure prise en compte des données peu ou pas structurées
Utilisation des nouvelles plateformes et outils
cloud computing
• capacité de stockage illimitée
• capacité de stockage illimitée
• puissance de calcul
Hadoop
i llèl d d é
• traitement parallèle des données
• gain de temps
Big data on‐line analytics : Démarche
Vers de nouveaux entrepôts de données
Entrepôt de données agile
flexibleréactif réactif
Vers une nouvelle façon de faire de l’OLAP
OLAP à la demandemeilleure gestion des données arrivant en flux continu
L’analyse au sein des nouveaux SGBD
créer les opérateurs OLAP au sein des SGBD NoSQL
intégrer des opérateurs de prédiction, d’analyse de tendances, … dans les SGBD NoSQL
Big data on‐line analytics : Quelques résultats
Analyse en ligne de textes
Intégration de données textes
texte: donnée peu ou pas structurée
définir une démarche de prétraitement de données textes définir une démarche de prétraitement de données textes
Entrepôts de textes
t t k l d é t t comment stocker les données textes quel modèle d’entrepôt choisir ?
quel est le niveau de granularité (terme, paragraphe, document…)
Text‐OLAP
définir des mesures textuelles définir les opérateur Text‐OLAP construction de cubes de textes
Big data on‐line analytics : Quelques résultats
Analyse en ligne de textes
Intégration de données textes
utilisation de techniques avérées de la recherche d’information
• Indexation de documents
• segmentation thématique de textes
Entrepôts de textes Entrepôts de textes
dimensions thématiques
mesures textuelles : vecteur de poids des termes / dimensions
Opérateurs d’agrégation adaptées aux données texte
classement de documents et navigation selon les dimensions thématiques catégorisation par mots clés
…
Big data on‐line analytics : Quelques résultats
Cube de textes
Big data on‐line analytics : Quelques résultats
Opérateur de classement de documents et navigation
Big data on‐line analytics : Quelques résultats
Parallélisation du processus ETL
Vers l’intégration de données massives
Parallélisation du processus ETL
décomposition des tâches ETL en fonctionnalités de base
répartition des fonctionnalités sur les différents nœuds du cluster
Paradigme Map/Reduce
fonctions
s’exécutent en plusieurs instances parallèles sur les différents nœuds du cluster
Parallélisation des fonctions de base Parallélisation des fonctions de base
changing data capture data quality validation surrogate key
slowly changing dimension
…
Big data on‐line analytics : Quelques résultats
Vers l’intégration de données massives
Map Reduce
MapReduce Partitionnement
Données
sources Parti. 1
Parti. 0
Résultat
Parti. 2
ETL
Données
sources DW/Cubes
sources
Transformation Fusion
Extraction Partitionnement Chargement
Big data on‐line analytics : Quelques résultats
Entrepôts de données en colonnes
Données entreposées stockées en colonnes
mode de stockage plus adapté aux données multidimensionnelles utilisation d’un SGBD NoSQL en colonnes
utilisation d un SGBD NoSQL en colonnes
Construction de cubes OLAP en colonnes
accès aux seules colonnes sollicitées par la requête décisionnelle accès aux seuls blocs contenant ces colonnes
Développement d’applications décisionnelles dans le cloud
Big data on‐line analytics : Quelques résultats
OLAP pour les entrepôts NoSQL
Opérateur d’agrégation
CN‐Cube : Columnar NoSQL Cube operator appliqué sur des entrepôts en colonnes appliqué sur des entrepôts en colonnes
Etude de performance
comparaison du temps de construction de cubes OLAP selon :
• environnement relationnel : Oracle
• environnement non relationnel : MonetDB
Résultats
CN C b l f t l’ é t C b d’O l CN‐Cube plus performant que l’opérateur Cube d’Oracle facilité du passage à l’échelle avec les entrepôts NoSQL
Big data on‐line analytics : Quelques résultats
OLAP à la demande
OLAP pour tous
rendre accessible l’OLAP aux PME/TPE projet décisionnel à coût réduit
projet décisionnel à coût réduit
en mode « software as a service » (SAS)
Projet décisionnel comme un service
prise en main simplifiée du processus décisionnel
phases d’intégration et de modélisation multidimensionnelles masquées phases d’intégration et de modélisation multidimensionnelles masquées
Navigation visuelle dans les cubes OLAP g
Big data on‐line analytics : Quelques résultats
OLAP à la demande
Agrégation à la demande
créer des agrégats en temps réel
pas de mise à jour de cubes OLAP à faire pas de mise à jour de cubes OLAP à faire gain de temps
Création directe de nouveaux indicateurs clés de performance
indicateurs non figésmeilleure exploitation des données continues meilleure exploitation des données continues
Définir les hiérarchies à la demande
ne pas figer les hiérarchies de dimensions à lors de la conception de l’entrepôt possibilité de changer de hiérarchie d’une analyse à l’autre
Big data on‐line analytics : Quelques résultats
OLAP à la demande
Analyse opérationnelle
exploitation en continu des flux de données reporting opérationnel à faible latence
reporting opérationnel à faible latence
Prise de décision rapide
peu de temps entre l’apparition d’un évènement et la prise de décision prise de décision quasi en temps réel
Exemple
gestion d’une campagne publicitaire
réallouer les budgets de campagne en ligne aux sites les plus efficaces alors qu’une campagne est en cours
Big data on‐line analytics : Quelques résultats
OLAP à la demande
Traitement des requêtes massives
environnement cloud computing gestion rapide des accès concurrents gestion rapide des accès concurrents étude de performanceAnalyse en ligne collaborative
partage de cubes OLAPpartage de résultats partage de résultats
enrichissement des cubes
…
Big data on‐line analytics
Conclusion
Au‐delà de l’effet de mode des big data
grand intérêt lié aux analyses
• prévenir des catastrophes
• traiter des pathologies
• traiter des pathologies
• organiser des services
Nécessité de l’interopérabilité des données et des applications
OLAP à la volée
ne pas stocker les données (trop volumineuses) système de médiation
données continues
Il i d éflé hi dè i Il convient de réfléchir dès maintenant aux :
risques liés à la confidentialité des données risques liés au respect de la vie privée
Big data on‐line analytics
Conclusion
Services Web Ontologies
Modèles NoSQL
Fouille RI
• Dans le nuage Entrepôts
Big Data
Analyse en ligne Modélisation
orientée analyse Intégration
ETL
Dans le nuage
• Actifs
• Personnalisés
• Sécurisés
Big Data
Cloud
Sécurisés
OLAP
é
Personnalisation Sécurité • A la demande
• Service
P li é
Décideur
Utilisateur non‐expert
• Personnalisé
• Sécurisé