11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

(1)

Bernard Dousset Professeur des universités

Institut de Recherche en Informatique de Toulouse UMR 5505

Université de Toulouse 118, Route de Narbonne, F-31062 Toulouse cedex 9 (France)

[email protected]

Le Big Data Mining

enjeux et approches techniques

Plan



Introduction



Les enjeux et les verrous



Quelques exemples d’applications



Les avantages et les inconvénients



Les solutions techniques



Les nouveaux outils



Les nouveaux algorithmes



Conclusions

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 2

Introduction

Le BIG Data

Définition par les 5 V du Big Data

 Volume

 Vitesse

 Variabilité

 Véracité

 Visualisation Le Big Data Mining

 L’économiste en chef de Google Hal VARIAN a dit « Data Scientist, le job le plus sexy du 21^e siècle »

 Le Big Data va fortement faire évoluer les statistiques, l’analyse de données, le data mining, le text mining (répartition optimale des données et traitements parallèles)

 L’or noir du XXI° siècle ?

Introduction

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Pourquoi cet engouement

 L’information produite par toute l’humanité a doublé en 2 ans

 à cause du web, de la téléphonie, des réseaux, des capteurs, des vidéos, …

 3 verrous : le coût des connexions, les I/O, la puissance d’un seul processeur

 Les systèmes SQL coûtent cher (SI, SGBD, Main frame, systèmes distribués, BI, …)

 Pour de gros volumes (>10⁸), ils ne sont plus assez efficaces

 Les clusters coutent beaucoup moins cher et passent à l’échelle

 Les cartes vidéos, détournées de leur usage, coutent encore moins cher *

 Deux solutions en fonction des besoins

 Mutualiser des ressources (Cloud, Data Center) UC, DD, I/O, logiciels, sauvegardes, maintenance, sécurité, …

 Paralléliser (Big Data) et changer de monde

NoSQL, NewSQL, Map reduce, Adoop, Cassandra, MongoDB, BigTable, …

* http://www.nvidia.fr/docs/IO/123576/nv-applications-catalog-lowres.pdf 4

(2)

Les enjeux et les verrous

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Le gouvernement a défini 5 leviers pour le Big Data

 Ouvrir les données publiques,

 Favoriser la création de start-up

 Renforcer la chaîne de financement + fonds « ambition numérique »

 Lancer des défis de valorisation de stocks de données

 Utiliser le potentiel de ces données (OpenData)

 Pôle emploi, sécurité sociale, éducation nationale, enseignement supérieur, patrimoine touristique, …

 Création d’un centre de ressources technologiques

 Outils logiciels, méthodes statistiques ou mathématiques,

 Jeux de données massives

 Infrastructures de calcul, kit de briques technologiques.

 Renforcer la capacité à l’export des PME du Big Data

 Création d’un droit à l’expérimentation 5

Les enjeux et les verrous

Quelques chiffres

 Le génome (3 Md), il y a 10 ans (10 ans ,1Md $) aujourd’hui (2 jours, 2K $)

 La photo il y a 20 ans (10⁵Pixels), aujourd’hui (3.10⁷Pixels, prix/100)

10²⁴ 10²¹ 10¹⁸10¹⁵10¹²10⁹ 10⁶ 10³ 10^-3 10^-6 10^-9 10^-12 10^-15 10^-1810^-2110^-24 000 000 000 000 000 000 000 000,000 000 000 000 000 000 000 000 Yota zeta exa péta téra giga méga kilo , milli micro nano pico femto atto zepto yocto

Données de 2013

*Puissance Des UC

*Coût Mémoire

*I/O

* Depuis 1980

Télescope /jour

Facebook /jour

Gravure

Processeur Masse du Proton en gr Masse de

L’univers

x le soleil Dette en $

Les enjeux et les verrous

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

7 8

Les enjeux et les verrous

Les trois principaux verrous

 Coût des connexions

 Un clic sur le web équivaut à ~20 watts/heure

 Un Data center consomme l’équivalent d’une ville de ~20 000 habitants

 Consommation de l’informatique ~10% (2013) => dans 20 ans ??

=> Éviter le plus possible les transferts de données

 Débit des entrés sorties

 0,4 Mo/s en1980, 40 Mo/s actuellement ~ x100

 DD : 300$ le Mo en 1980 => 60$ Le To actuellement ~ / 5 10⁶

 Temps de lecture d’un même volume DD ~ x 50 000 !!! (1s => 14h)

=> Paralléliser les I/O donc distribuer le stockage ou le changer

 Puissance des processeurs

 Fin de la loi de Moore ? (l’intégration double tous les 18 mois)

 Puissance x 10 000 à 20 000 depuis 1980 (plafonnée à 3ghz, 30nm)

=> Calcul parallèle (multi core) et/ou distribué (grille)

(3)

Quelques exemples d’applications

 La domotique et les compteurs électriques intelligents

 Les essais en vol (enregistrement des paramètres de vol)

 La téléphonie (facturation, historique, statistiques, …)

 L’imagerie médicale (scanners, IRM, échos, …)

 La génomique et l’épidémiologie

 Les données bancaires et financières

 L’analyse d’opinions (politique, marketing, e-réputation, …)

 Les données astronomiques (Hubble, radiotélescopes, …)

 Les données géo-référencées, la géolocalisation, …

 Les modélisations (climatique, sismique, fluides, matériaux, molécules)

 La physique des particules (CERN), la chimie quantique, …

 Les données ouvertes

 Le web des données, le web invisible

 Les data centers, les réseaux sociaux

Les acteurs IBM Dell HP Google Microsoft

Intel Oracle

Saas Sap OVH Amazon

…

Les avantages et les inconvénients

Les + du Big Data

 Le passage à l’échelle

 La solution peut rester en interne

 Solutions open source

 Le coût pour les très gros volumes

 Le temps de réponse

 Etude des queues de distribution (pas d’échatillonnage)

 Etude des données à faible densité informationnelle

 64% des organisations veulent s’y mettre Les – du Big Data

 Il faut maîtriser une nouvelle technologie

 Moins de possibilités que les SGBD classiques, qu’OLAP, …

 Nouvelle approche de l’analyse de données (Data, Text, Web mining)

 Améliorer les analyses et les données existantes avant de passer au BigData

 8% seulement des organisations se sont lancées

11

Les solutions techniques

Au niveau hadware

 Clusters

 Coût / disponibilité, homogénéité

 Montée en charge, répartition de la charge,

 Gestion des ressources (processeur, mémoire, disque, bande passante)

 Grilles

 Hétérogène (clusters, serveurs, PC, téléphones mobiles, tablettes, …)

 Partage, distribution, coordination (middleware), autonomie, délocalisation

 Cartes graphiques

 Machine Learning, Data Mining, recherche, tri,

 BD, MapReduce, …

 Cloud

 Virtualisation

 Partage des ressources matérielles et logicielles et des services Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET http://www.nvidia.com

Les solutions techniques

12

Au niveau de la plateforme

 Solutions Hadoop** (HDFS, HBase, MapReduce)

 Cloudera (la plus installée)

 HortonWorks (100% d’Apache Hadoop)

 MapR (support fichiers ≠ HDFS) => Cisco, Google, Amazon

 Pivotal HD

 EMC Corparation

 IBM InfoSphere BigInSights

 Amazon Elastic Map Reduce (solution hébergée)

 …

*http://cassandra.apache.org **http://hadoop.apache.org

(4)

Les solutions techniques

13

Au niveau des packages Big Data

 Open source ou propriétaire

 Critères de choix

 Simplicité => expérimentation

 Respect des standards

 Facilité d’intégration des données

 Adéquation des fonctionnalités supportées

 Pièges à éviter

 Taxe sur les données (on est en Big Data)

 Packages non compatibles avec le mode natif d’Apache Hadoop

 Un moteur par serveur => Coût

 Ne pas sur dimensionner => Complexité

Les nouveaux outils

Bases de données Clé/Valeur

 Caractéristiques

 Solution dite NoSQL , hachage optimisé pour la répartition

 Stockage en mémoire d’un couple clé-valeur ~ blob (binary large object)

 Les +

 Simpicité

 Extensibilité

 Performances (volume important)

 Jeux en ligne, gestion de traces, profils, e-commerce

 Les –

 Utilisation spécifique (requêtes basées uniquement sur les clés)

 Pas de modèle relationnel

 Faible complexité des données

* Redis, DynamoDB (amazon), SimpleDB, Voldemort, Riak, Cassandra (Apache)

Les nouveaux outils

Bases de données orientées colonnes

 Transposée d’un base de donnée relationnelle

 Pas de valeur « null » stockée

 Les +

 Utilisée par les grands du Web

 Gain d’espace, bonne indexation

 Facilité et rapidité de récupération d’une colonne

 Possibilité d’un très grand nombre de colonnes, de redimensionnement

 Quelques requêtes proche de SQL (select/update/delete)

 Les –

 Données d’un même type, qui se ressemblent

 Fortement orientée Big Data

Nom Vacances Voiture

Marc (1) Mer (1) Berline (2) Jean (2) Montagne (3) 4x4 (3)

Alain (3) Break (5)

Victor (5)

*BigTable (Google), Vertica (hp), Hadoop (Apache), Cloudera, DataStax, …

Les nouveaux outils

Bases de données orientées documents

 Cas particulier des bases Clé/Valeur*

 Un document (Xml, Json, Image, …) est associé à une clé

 Un commentaire (Titre) est associé au document

 Les +

 On peut facilement récupérer les Titres

 Orientée données hétérogènes

 Gestion du contenu de pages Web

 Ajout simplifié de machines

 Les –

 Problème dus à la duplications de données

 Très (Trop) grande flexibilité => incohérences

*Terrastore, RavenDB, RaptorDB, SimpleDB, Redis, MongoDB, CouchDB, GigaSpaces, GemFire, …

(5)

Les nouveaux outils

Bases de données orientées graphes

 Des nœuds représentent des objets possédants de nombreuses propriétés

 Des liens représentent des relations entre les objets

 Possibilités Hypergraphes

 Les +

 On peut facilement parcourir le graphe (largeur, profondeur, …)

 Trouver les liens entre objets similaires

 Trouver des ascendants ou descendants communs

 Bien adaptée aux données relationnelles : réseaux sociaux, RDF, Objets

 Les –

 Approche spécifique : nœuds/liens/propriétés

 Ne remplace pas les autres BD NoSQL ni les BD relationnelles

*Neo4j (java), HyperGraphDB, FlockDB (Twitter), BigData, …

Les nouveaux algorithmes

18

Les algorithmes de tri

 Tris séquentiels (n éléments sur un seul processeur)

 Tri par insertion (bon si la liste est déjà un peu triée)

 Tri par sélection (on cherche le + petit …)

 Tri bulle (on décale tant que + grand …)

 Tri rapide (Quicksort) utilise un pivot

 Tris parallèles (n éléments distribués sur p processeurs)

 Tri bulle parallèle

 Tri fusion

 Tri Pair Impair (décalage à droite et à gauche des listes triées)

 Tri par paquets (un intervalle par processeur)

 Tri par échantillon (sample sort) séparateurs choisis sur echantillon

 Tri bitonique (fusion 2 à 2 de listes triées)

 Tri Hyperquicksort (basé sur les hyper-cubes)

 … Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux algorithmes

19

Exemple de tri distribué

 Sur Google plus de 2 milliards de résultats pour « Big Data » => Pagerank

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 20 Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Le filtrage distribué

Ex : l’indexation de tous les disques durs de la planète

Les nouveaux algorithmes

(6)

Les dénombrements distribués

Les nouveaux algorithmes

Marc (1) Mer (1) Berline (2)

Jean (2) Montagne (5) 4x4 (9)

Julie (5) Break (1)

Victor (9)

Anne (3) Campagne (3) Spider (4)

Léa (4) Mer (8)

Alain (8)

Henri (6) Mer (6) Berline (7)

Audrey (7) Mer (7)

Voiture Nb

Berline 2

Break 1

Spider 1

4x4 1

Vacances Nb

Campagne 1

Mer 4

Montagne 1

En théorie des graphes

 Calcul du degré

 Algorithme du plus court chemin

 Dijkstra parallèle

 Bellman Ford parallèle

 Arbre partiel extremum (couvrant) =>

 Prim parallèle

 Arborescence minimum

 Huffman parallèle

 …

Les nouveaux algorithmes

En analyse de données

 AFC 4D

Les nouveaux algorithmes

Correspondances Gènes/Performances

24

Conclusions

 Les données sont elles

 fortement structurées

 non structurées

 hétérogènes

 Priorité à

 La lecture de données

 L’écriture de données

 Peut-on perdre quelques data ?

 Disponibilité permanente ou non de l’application ?

 Les données sont elle réparties ?

 Le volume peut-il augmenter très fortement ?

 Y a-t-il des contraintes temps réel

 …

(7)

Conclusions

 Choix de la bonne solution

 Installer un cluster ou le simuler

 Hadoop or not Hadoop

 Quelle distribution ? (Cloudera, Hortonworks , MapR, …)

 Modélisation, génération de code, planification des jobs Big Data,

 Intégration de différentes sources de données

 Problèmes juridiques

 Données ouvertes

 Données personnelles

 e-commerce

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Le Big Data Mining

enjeux et approches techniques

Plan

Introduction

Les enjeux et les verrous

Quelques exemples d’applications

Les avantages et les inconvénients

Les solutions techniques

Les nouveaux outils

Les nouveaux algorithmes

Conclusions

Introduction

Introduction

Les enjeux et les verrous

Les enjeux et les verrous

Les enjeux et les verrous

Les enjeux et les verrous

Quelques exemples d’applications

Les avantages et les inconvénients

Les solutions techniques

Les solutions techniques

Les solutions techniques

Les nouveaux outils

Les nouveaux outils

Les nouveaux outils

Les nouveaux outils

Les nouveaux algorithmes

Les nouveaux algorithmes

Les nouveaux algorithmes

Les nouveaux algorithmes

Les nouveaux algorithmes

Les nouveaux algorithmes

Conclusions

Conclusions

Merci pour votre attention !!!