• Aucun résultat trouvé

Big Data On Line Analytics

N/A
N/A
Protected

Academic year: 2022

Partager "Big Data On Line Analytics"

Copied!
53
0
0

Texte intégral

(1)

F dil B t b

Big Data 

Fadila Bentayeb

L b i  ERIC  L  

On‐Line Analytics

Laboratoire ERIC – Lyon 2 Analytics

ASD 2014

Hammamet ‐ Tunisie

(2)

Sommaire

Sommaire

Informatique décisionnelle (BI ‐ Business Intelligence) Big Data

Big Data

Big Data analytics

Infonuagique (Cloud computing) Big data on‐line analytics : Enjeux

Big data on‐line analytics : quelques verrous scientifiques / solutions C l i

Conclusion

(3)

Informatique décisionnelle

Business intelligence

BI : Informatique décisionnelle 

Ensemble des moyens  outils et méthodes qui permettent de collecter   Ensemble des moyens, outils et méthodes qui permettent de collecter,  consolider, modéliser et restituer les données d'une entreprise en vue :

d’offrir aux décideurs une aide à la décision 

de permettre à un décideur d’avoir une vue d’ensemble de l’activité traitée

Repose sur une architecture commune appelée : entreposage de données Repose sur une architecture commune appelée : entreposage de données L'informatique décisionnelle s'attache à mesurer :

un certain nombre d’indicateurs ou de mesures (faits ou métriques) restitués selon les axes d'analyse (dimensions)

(4)

Informatique décisionnelle

l l ( )

Systèmes d’information décisionnels

Analyse en ligne (OLAP)

D é é c i

Modélisation multidimensionnelle

Sources  de  données

Entrepôt de  données

ETL

i s i

OLAP

i o n

Intégration de données complexes

n

Personnalisation / Sécurité /

(5)

Informatique décisionnelle

Entreposage de données

ETL   E T f L d

ETL : Extract‐Transform‐Load

collecte : sélection et extraction des données transformation  et intégration : homogénéisationg g chargement des données dans l’entrepôt

M déli ti   ltidi i ll   f    b i  d’ l Modélisation multidimensionnelle conforme aux besoins d’analyse Exploitation de l’entrepôt

Exploitation de l entrepôt

diffusion  : mettre les données à disposition des utilisateurs

présentation : utilisation d’outils bureautiques, interfaces Web …

Administration : rafraichissement de l’entrepôt, optimisation, sécurité

(6)

Informatique décisionnelle

Entrepôt de données

Défi i i Définition

base de données multidimensionnelles regroupant une partie de l'ensemble  des données fonctionnelles  d'une entreprise 

base de données orientée analyse

base centralisée contenant des données historisées, homogènes et non  volatiles provenant de bases de données opérationnellesp p

Modèles d’entrepôts de données

en étoile

en flocons de neige en constellation

(7)

Informatique décisionnelle

Exemple d’entrepôt

Product product key product_key product_name category

Fact Table

#product_key Activity

activity‐key

activity name Time

p _ y

#time_key

#activity_key activity_name

time_key Day

Month Profit margin

Month Year

(8)

Informatique décisionnelle

OLAP (On‐Line Analytical Processing)

OLAP

ensemble d’opérateurs d’exploration et de navigation dans les cubes de 

d é

données

Rollup : forage vers le haut

Drilldown : forage vers le bas

Slice & Dice : Sélection et projection

permet de construire et de manipuler des cubes OLAP

Cube de données

structure multidimensionnelle structure multidimensionnelle

les coordonnées sont les axes d’analyse

les cellules contiennent les indicateurs

(9)

Informatique décisionnelle

Exemple de cube OLAP

Suivi des différents indicateurs de  Suivi des différents indicateurs de  performance pour améliorer la  gestion quotidienne de 

l’entreprise l’entreprise

(10)

Informatique décisionnelle

Evolution ou révolution ?

Avènement des Big Data

volumes de données de plusieurs pétaoctets données continues (datastreams)

Limites des SGBD classiques Limites des SGBD classiques

Besoin d’analyse en ligne à la demande

Besoin d’infrastructures, d’outils logiciels et de modèles adaptés

Big Data (On‐Line) Analytics

(11)

Big Data

Avènement des big data

Prolifération des données

90% des données dans le monde ont été créées au cours des deux dernières  années seulement 

données produites principalement  par le Web données produites principalement  par le Web grands acteurs d’Internet

réseaux sociaux

Type de données

données structurées : bases de données relationnelles peu structurées : fichiers XML

non structurées : textes, images, etc.

Volumétrie des données

d é d d é

grandes quantités de données données continues

données de simulation

(12)

Big Data

Dimensions des big data

volume 

Twitter génère 7 teraoctets de données chaque jour et Facebook 10 teraoctets

variété

données au format relationnel, texte, image, …  

pouvant être publiques (Open Data, Web des données)  relevant de la propriété des consommateurs (profils)

vélocité

c’est la fréquence à laquelle les données sont générées, capturées et partagées analyser en temps réel 50 millions d'enregistrements détaillés d'appels 

quotidiens

(13)

Big Data

Exemples

Capteurs utilisés pour collecter les informations climatiques Messages sur les sites de médias sociaux

Images numériques et de vidéos publiées en ligne Enregistrements transactionnels d'achats en ligne Signaux  GPS de téléphones mobiles

Signaux  GPS de téléphones mobiles

(14)

Big Data

Données, technologies, gestion, analyse

BIG INFORMATION

VOLUME

MANAGEMENT

THECHNOLOGY DATA

BILLION BILLION

(15)

Big Data

Emergence de nouvelles applications

Explosion de nouvelles sources de données diverses

à granularité fine 

à faible latence  à faible latence 

Sources de données

réseaux sociaux

données issues de capteurs

Besoin de stocker, gérer et analyser ces données  Nouvelles gammes d’applications métiers

Nouvelles gammes d applications métiers

nouvelles opportunités commerciales

nouveaux outils d’analyse (prédire le comportement des clients)

(16)

Big data analytics

Introduction

Emergence de nouvelles architectures et technologies

infrastructures cloud

modèles NoSQL et la paradigme MapReduce Web Sémantique

Nouveaux besoins 

traitement massif des données

traitement de données en flux continu analyse des tendances

prévisions p

prévention

(17)

Big data analytics

Pistes de recherche

Gestion des big data dans le  Cloud

utilisation de nouveaux modèles de données   NoSQL utilisation de nouveaux modèles de données : NoSQL stockage des données dans le cloud

analyse en ligne des big data

OLAP à la demande

analyse au besoin proche du client

OLAP as a service

OLAP proposé comme un service 

(18)

Big data analytics

Modèles de données

Modèles relationnels 

limitation des bases de données classiques pour gérer les Big Data limitation des bases de données classiques pour gérer les Big Data

problème du passage à l’échelle (petabyte : 10 puissance 15, zettabyte : 10  puissance 21)

variété des données big data variété des données big data

Emergence de nouveaux systèmes à forte scalabilité

dèl  N SQL  N t O l SQL

modèles NoSQL : Not Only SQL

MongoDB

Cassandra

traitement parallèle de données traitement parallèle de données

paradigme MapReduce développé par Google  et utilisé dans le framework Hadoop

(19)

Big data analytics

Modèles de données NoSQL

Bases de données Clé‐Valeur 

Bases de données Colonnes

Bases de données Documents

Bases de données Graphes

(20)

Big data analytics

Stockage

Cloud Computing

l’accès se fait via le réseau l accès se fait via le réseau

les services sont accessibles à la demande et en libre service

utilisation de ressources informatiques partagées et configurables exemple : microsoft Windows Azure

Super calculateurs hybrides Super calculateurs hybrides

HPC : High Performance Computing

Exemple : CEA (commissariat à l’énergie atomique et aux énergies alternatives)

(21)

Big data analytics

Applications des Big Data 

Programmes scientifiques Grandes entreprises 

Grandes entreprises 

IBM29,Amazon Web Services, BigQuery, SAP HANA, …

é l é

Entreprises spécialisées

Teradata, Jaspersoft30, Pentaho31, …

Open source

Apache Hadoop, Infobright32, Talend33, …

Start‐up

(22)

Big data analytics

Application des Big data

Recherche scientifique

dé d  d   é  h i

décodage du génome humain

Politique q

analyse d’opinions politiques de la population

S t   i é

Secteur privé

grande distribution : 1 million de transactions client par jour Facebook traite 50 milliards de photos

(23)

Big data analytics

Enjeux stratégiques

Modélisation de données

modèles de données

modèles de métadonnées

modèles de sources de données

modèles représentant des informations contextuelles sur les donnéesp modèles supportant l’incertitude et la qualité des données

Gestion de données

analyser l’ensemble des donnes et pas seulement un échantillon accélération des temps d’analyse

accélération des temps d analyse

réponses pouvant être approximatives mais pouvant guider l’analyste besoin de nouveaux outils de gestion et d’analyse des big data

(24)

Infonuagique

Un peu d’histoire

1950 : systèmes centraux

li ti  f ti t      tè applications fonctionnant sur ces systèmes accès via des terminaux à ces applications

2000 : hébergeurs Web

premières applications Web 2.0 déployées en cloud computing

courrier électronique

courrier électronique

outils collaboratifs

Promotion du cloud computing public

généralisation de l’utilisation de l’Internet par les particuliers et les entreprises

augmentation de la puissance des équipements informatiques

(25)

Infonuagique

Principes du cloud computing

Définition

l d ti      i f ti    t    bl  d   té i l  d   cloud computing: un nuage informatique  est un ensemble de matériel, de  raccordements réseau et de logiciels qui fournit des services sophistiqués que  les individus et les collectivités peuvent exploiter via des accès Internet

Caractéristiques

ressources en self‐service & élasticité : adaptation automatique à la demandep q ouverture : services mis à disposition sur l’Internet, compatibles ordibnateurs,  tablettes, téléphones

mutualisation  mutualisation  paiement à l’usage

(26)

Infonuagique

Principes du cloud computing

Mécanisme du cloud computing

l   t i   èd t à d   i    li  d’  i f t t   é   les entreprises accèdent à des services en ligne d’une infrastructure proposée  par un fournisseur 

les applications et les données se trouvent sur un nuagecomposé de serveurs 

di   i é

distants  interconnectés

complexité des liaisons réseaux multiplicité des intervenants p

fournisseur d’accès Internet, hébergeur, éditeur, revendeur, …

risque de diminution de la qualité de service problème de sécurité des données

problème de sécurité des données

(27)

Infonuagique

Principes du cloud computing

Technologies utilisées

i t li ti d   té i l i f ti virtualisation du matériel informatique grilles de calcul

architecture orientée services services Web 

Types de cloud Types de cloud

public : jeu à la demande (gaming on demand ‐cloud gaming) privé

communautaire

(28)

Infonuagique

Principes du cloud computing

Services

IaaS– Infrastructure as a Sevice

service de bas niveau

accès à un parc informatique virtualisé

le consommateur peut installer un système d'exploitation et des applications

PaaS– Platform as a Sevice

le système d'exploitation et les outils d'infrastructure sont sous la responsabilité du  fournisseur

fournisseur

le consommateur a le contrôle des applications et peut ajouter ses propres outils

SaaS– Software as a Sevice

des applications sont mises à la disposition des consommateurs

le consommateur n'a pas à se soucier d'effectuer des mises à jour

(29)

Infonuagique

Principes du cloud computing

Avantages

mutualisation des services pour un grand nombre de clients élasticité du nuage permet de fournir des services évolutifs  élasticité du nuage permet de fournir des services évolutifs  montée en charge facile

permet aux entreprises de faire des économies 

Inconvénients

sécurité des données

devenir des données dépendant de la qualité du réseau perte de la maîtrise de l’implantation des données

Conséquence

développement des datacenters

(30)

Big data  on‐line analytics : Enjeux

Introduction

Motivation

identifier en continu des données exploitables enfouies dans les big data intégrer ces données dans l’environnement de travail de l’utilisateur lorsque  intégrer ces données dans l environnement de travail de l utilisateur lorsque  c’est nécessaire

procéder à des analyses d’exploration, de prédiction et de prospection prise de décisions plus pertinentes

p p p

Nouvelles applications métiers basées sur l’analyse

l  d   i  d  l   é è

analyse du panier de la ménagère

optimisation des prix et du rendement gestion de la démarque des produits

d f dél d l l èl programme de fidélisation de la clientèle

analyse en fonction de la demande : prévision, comparaisons, …

(31)

Big data  on‐line analytics : Enjeux

Usages possibles

Mieux comprendre les modes d’utilisation des usagers

améliorer l’offre de services

Permettre la comm nication en temps réel d’ ne organisation a ec ses  Permettre la communication en temps réel d’une organisation avec ses  usagers

Mieux comprendre les sentiments ou les besoins des citoyens 

à l’aide des données des réseaux sociaux

Anticiper jusqu’à un certain degré de certitude 

les comportements

les comportements

les besoins des consommateurs

Prévenir certaines maladies et améliorer le traitement des patients

(32)

Big data  on‐line analytics : Enjeux

Potentiel des analyses des big data

Simplifier et adapter les services

éducation en ligne : améliorer les enseignements en fonction des activités des  élèves

Extraire les informations enfouies

données pertinentes données suspectes données suspectes

Prédire et prévenir

anticiper sur des évènements futurs anticiper sur des évènements futurs

prévention des crimes : identifier les zones et les périodes sensibles

Améliorer les performances de gestionp g

faciliter l’évaluation des services aide à la prise de décision

permettre d’économiser des ressources

(33)

Big data  on‐line analytics : Enjeux

Défis

Mettre de l’intelligence dans les big data R illi  d   illi  d  li  d  d é Recueillir des millions de lignes de données

données du commerce en ligne

travailler sur des millions de données, en continu, en temps réel, , p comment tirer profit de ces millions de données ?

St k  l  bi d t

Stocker les big data

Analyser les big data a yse es b g data

Visualiser les résultats

(34)

Big data  on‐line analytics : Enjeux

Contexte

Méthodes de conception ardues

O il  d   i di i

Outils de reporting rudimentaires Données à croissance exponentielle p

Technologies de bases de données limitées et rigides

Emergence de nouvelles applications initiatives métier stratégiques

(35)

Big data  on‐line analytics : Problèmes

Limitations des entrepôts classiques

Au niveau stockage

les entrepôts de données sont implémentés dans les SGBD traditionnels les SGBD traditionnels stockent des données numériques

les SGBD traditionnels stockent des données numériques

capacité de gestion des SGBD est limitée pour des données massives

Au niveau modèle

Au niveau modèle

les modèles d’entrepôts classiques sont limités les données massives sont peu ou pas structurées les données massives sont en flux continu

Au niveau du processus ETL

l’ETL sert à extraire, transformer et charger les données des sources vers  l’entrepôt

l’ETL classique est limité pour des données massives et continues

(36)

Big data  on‐line analytics : Problèmes

Limitations des entrepôts classiques

Au niveau analyse

calcul préalable des agrégats dans les entrepôts traditionnels compenser la puissance de calcul limitée des SGBD traditionnels compenser la puissance de calcul limitée des SGBD traditionnels plusieurs jointures pour calculer les cubes OLAP

Impact  du pré‐calcul des agrégats sur les big data

problème du chargement des données en flux continu

problème de génération des rapports mis à jour en temps réel problème de génération des rapports mis à jour en temps réel

(37)

Big data  on‐line analytics : Démarche

Vers de nouveaux entrepôts de données

Utilisation de nouveaux modèles de données

modèles de données NoSQL

SGBD NoSQL (Cassandra) SGBD NoSQL (Cassandra)

meilleure prise en compte des données peu ou pas structurées

Utilisation des nouvelles plateformes et outils

cloud computing

capacité de stockage illimitée

capacité de stockage illimitée

puissance de calcul

Hadoop

i   llèl  d  d é

traitement parallèle des données

gain de temps

(38)

Big data  on‐line analytics : Démarche

Vers de nouveaux entrepôts de données

Entrepôt de données agile

flexible

réactif réactif

Vers une nouvelle façon de faire de l’OLAP

OLAP à la demande

meilleure gestion des données arrivant en flux continu

L’analyse au sein des nouveaux SGBD

créer les opérateurs OLAP au sein des SGBD NoSQL

intégrer des opérateurs de prédiction, d’analyse de tendances, … dans les  SGBD NoSQL

(39)

Big data  on‐line analytics : Quelques résultats

Analyse en ligne de textes

Intégration de données textes

texte:  donnée peu ou pas structurée

définir une démarche de prétraitement de données textes définir une démarche de prétraitement de données textes

Entrepôts de textes

t  t k  l  d é  t t comment stocker les données textes quel modèle d’entrepôt  choisir ?

quel est le niveau de granularité (terme, paragraphe, document…)

Text‐OLAP

définir des mesures textuelles définir les opérateur Text‐OLAP construction de cubes de textes

(40)

Big data  on‐line analytics : Quelques résultats

Analyse en ligne de textes

Intégration de données textes

utilisation de techniques avérées de la recherche d’information

Indexation de documents

segmentation thématique de textes

Entrepôts de textes Entrepôts de textes

dimensions  thématiques

mesures textuelles : vecteur de poids des termes / dimensions

Opérateurs d’agrégation adaptées aux données texte

classement de documents et navigation selon les dimensions thématiques catégorisation par mots clés 

(41)

Big data  on‐line analytics : Quelques résultats

Cube de textes

(42)

Big data  on‐line analytics : Quelques résultats

Opérateur de classement de documents et navigation

(43)

Big data  on‐line analytics : Quelques résultats

Parallélisation du processus ETL

Vers l’intégration de données massives

Parallélisation du processus ETL

décomposition des tâches ETL en fonctionnalités de base

répartition des fonctionnalités sur les différents nœuds du cluster

Paradigme Map/Reduce

fonctions 

s’exécutent en plusieurs instances parallèles sur les différents nœuds du cluster

Parallélisation des fonctions de base Parallélisation des fonctions de base

changing data capture   data quality validation  surrogate key 

slowly changing dimension 

(44)

Big data  on‐line analytics : Quelques résultats

Vers l’intégration de données massives

Map Reduce

MapReduce Partitionnement

Données

sources Parti. 1

Parti. 0

Résultat

Parti. 2

ETL

Données

sources DW/Cubes

sources

Transformation Fusion

Extraction Partitionnement Chargement

(45)

Big data  on‐line analytics : Quelques résultats

Entrepôts de données en colonnes

Données entreposées stockées en colonnes

mode de stockage plus adapté aux données multidimensionnelles utilisation d’un SGBD NoSQL en colonnes 

utilisation d un SGBD NoSQL en colonnes 

Construction de cubes OLAP en colonnes

accès aux seules colonnes sollicitées par la requête décisionnelle accès aux seuls blocs contenant ces colonnes

Développement d’applications décisionnelles dans le cloud

(46)

Big data  on‐line analytics : Quelques résultats

OLAP pour les entrepôts NoSQL

Opérateur d’agrégation 

CN‐Cube : Columnar NoSQL Cube operator appliqué sur des entrepôts en colonnes appliqué sur des entrepôts en colonnes

Etude de performance

comparaison  du temps de construction de cubes OLAP selon :

environnement relationnel : Oracle

environnement non relationnel : MonetDB

Résultats

CN C b   l   f t   l’ é t  C b  d’O l CN‐Cube plus performant que l’opérateur Cube d’Oracle facilité du passage à l’échelle avec les entrepôts NoSQL

(47)

Big data  on‐line analytics : Quelques résultats

OLAP à la demande

OLAP pour tous

rendre accessible l’OLAP aux PME/TPE projet décisionnel à coût réduit

projet décisionnel à coût réduit

en mode « software as a service » (SAS)

Projet décisionnel comme un service

prise en main simplifiée du processus décisionnel

phases d’intégration et de modélisation multidimensionnelles masquées phases d’intégration et de modélisation multidimensionnelles masquées

Navigation visuelle dans les cubes OLAP  g

(48)

Big data  on‐line analytics : Quelques résultats

OLAP à la demande

Agrégation à la demande

créer des agrégats en temps réel

pas de mise à jour de cubes OLAP à faire pas de mise à jour de cubes OLAP à faire gain de temps

Création directe de nouveaux indicateurs clés de performance

indicateurs non figés

meilleure exploitation des données continues meilleure exploitation des données continues

Définir les hiérarchies à la demande

ne pas figer les hiérarchies de dimensions à lors de la conception de l’entrepôt possibilité de changer de hiérarchie d’une analyse à l’autre

(49)

Big data  on‐line analytics : Quelques résultats

OLAP à la demande

Analyse opérationnelle

exploitation en continu des flux de données reporting opérationnel à faible latence

reporting opérationnel à faible latence

Prise de décision rapide

peu de temps entre l’apparition d’un évènement et la prise de décision prise de décision quasi en temps réel

Exemple

gestion d’une campagne publicitaire

réallouer les budgets de campagne en ligne  aux sites les plus efficaces alors  qu’une campagne est en cours

(50)

Big data  on‐line analytics : Quelques résultats

OLAP à la demande

Traitement des requêtes massives

environnement cloud computing gestion rapide des accès concurrents gestion rapide des accès concurrents étude de performance

Analyse en ligne collaborative

partage de cubes OLAP

partage de résultats partage de résultats

enrichissement  des cubes

(51)

Big data  on‐line analytics

Conclusion

Au‐delà de l’effet de mode des big data

grand intérêt lié aux analyses

prévenir des catastrophes

traiter des pathologies

traiter des pathologies

organiser des services

Nécessité de l’interopérabilité des données et des applications

OLAP à la volée

ne pas stocker les données (trop volumineuses) système de médiation

données continues

Il  i  d   éflé hi  dè   i     Il convient de réfléchir dès maintenant aux :

risques liés à la confidentialité des données  risques liés au respect de la vie privée

(52)

Big data  on‐line analytics

Conclusion

Services Web  Ontologies

Modèles  NoSQL

Fouille RI

Dans le nuage Entrepôts

Big Data

Analyse en  ligne Modélisation

orientée  analyse Intégration

ETL

Dans le nuage

Actifs

Personnalisés

Sécurisés

Big Data

Cloud

Sécurisés

OLAP

é

Personnalisation SécuritéA la demande

Service

P li é

Décideur

Utilisateur non‐expert

Personnalisé

Sécurisé

(53)

F dil B t b

Merci ! Fadila Bentayeb

L b i  ERIC  L  

Laboratoire ERIC – Lyon 2

Références

Documents relatifs

En résumé, Hadoop permet à R d’accéder à des gros volumes de données en des temps raisonnables mais il faut rester conscient que, si c’est sans doute la stra- tégie la

We note once again, that this analysis is carried out on the 9 socio-demographic questions at issue here, and as 14 supplementary questions, these were questions related to

It is evident that there is a serious need to capture and integrate environmental and agricultural knowledge from various heterogeneous data sources including sensor

Big data analytics service requestors require big data analytics services including information analytics services, knowledge analytics services, business analytics

A lot of work has been done in the concerned direction by different authors, and the following are the contribu- tions of this work: (1) An exhaustive study of the existing systems

The big data analytics architecture [26] is built and implemented on big data open source technologies for the enrichment of massive scale data including spatial data.. The

Moreover, it permitted us to de- fine a set of Dimensional Fact Models (DFM) [23] able to describe a typical fetal-ma- ternal test, along with its variable aspects. A simplified

Big Data is a new term used to identify the datasets that due to their large size, we can not manage them with the typical data mining software tools.. Instead of defining “Big Data”