Bernard Dousset Professeur des universités
Institut de Recherche en Informatique de Toulouse UMR 5505
Université de Toulouse 118, Route de Narbonne, F-31062 Toulouse cedex 9 (France)
Le Big Data Mining
enjeux et approches techniques
Plan
Introduction
Les enjeux et les verrous
Quelques exemples d’applications
Les avantages et les inconvénients
Les solutions techniques
Les nouveaux outils
Les nouveaux algorithmes
Conclusions
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 2
Introduction
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 3
Le BIG Data
Définition par les 5 V du Big Data
Volume
Vitesse
Variabilité
Véracité
Visualisation Le Big Data Mining
L’économiste en chef de Google Hal VARIAN a dit « Data Scientist, le job le plus sexy du 21e siècle »
Le Big Data va fortement faire évoluer les statistiques, l’analyse de données, le data mining, le text mining (répartition optimale des données et traitements parallèles)
L’or noir du XXI° siècle ?
Introduction
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Pourquoi cet engouement
L’information produite par toute l’humanité a doublé en 2 ans
à cause du web, de la téléphonie, des réseaux, des capteurs, des vidéos, …
3 verrous : le coût des connexions, les I/O, la puissance d’un seul processeur
Les systèmes SQL coûtent cher (SI, SGBD, Main frame, systèmes distribués, BI, …)
Pour de gros volumes (>108), ils ne sont plus assez efficaces
Les clusters coutent beaucoup moins cher et passent à l’échelle
Les cartes vidéos, détournées de leur usage, coutent encore moins cher *
Deux solutions en fonction des besoins
Mutualiser des ressources (Cloud, Data Center) UC, DD, I/O, logiciels, sauvegardes, maintenance, sécurité, …
Paralléliser (Big Data) et changer de monde
NoSQL, NewSQL, Map reduce, Adoop, Cassandra, MongoDB, BigTable, …
* http://www.nvidia.fr/docs/IO/123576/nv-applications-catalog-lowres.pdf 4
Les enjeux et les verrous
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Le gouvernement a défini 5 leviers pour le Big Data
Ouvrir les données publiques,
Favoriser la création de start-up
Renforcer la chaîne de financement + fonds « ambition numérique »
Lancer des défis de valorisation de stocks de données
Utiliser le potentiel de ces données (OpenData)
Pôle emploi, sécurité sociale, éducation nationale, enseignement supérieur, patrimoine touristique, …
Création d’un centre de ressources technologiques
Outils logiciels, méthodes statistiques ou mathématiques,
Jeux de données massives
Infrastructures de calcul, kit de briques technologiques.
Renforcer la capacité à l’export des PME du Big Data
Création d’un droit à l’expérimentation 5
Les enjeux et les verrous
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 6
Quelques chiffres
Le génome (3 Md), il y a 10 ans (10 ans ,1Md $) aujourd’hui (2 jours, 2K $)
La photo il y a 20 ans (105 Pixels), aujourd’hui (3.107 Pixels, prix/100)
1024 1021 101810151012109 106 103 10-3 10-6 10-9 10-12 10-15 10-1810-21 10-24 000 000 000 000 000 000 000 000,000 000 000 000 000 000 000 000 Yota zeta exa péta téra giga méga kilo , milli micro nano pico femto atto zepto yocto
Données de 2013
*Puissance Des UC
*Coût Mémoire
*I/O
* Depuis 1980
Télescope /jour
Facebook /jour
Gravure
Processeur Masse du Proton en gr Masse de
L’univers
x le soleil Dette en $
Les enjeux et les verrous
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET
7 8
Les enjeux et les verrous
Les trois principaux verrous
Coût des connexions
Un clic sur le web équivaut à ~20 watts/heure
Un Data center consomme l’équivalent d’une ville de ~20 000 habitants
Consommation de l’informatique ~10% (2013) => dans 20 ans ??
=> Éviter le plus possible les transferts de données
Débit des entrés sorties
0,4 Mo/s en1980, 40 Mo/s actuellement ~ x100
DD : 300$ le Mo en 1980 => 60$ Le To actuellement ~ / 5 106
Temps de lecture d’un même volume DD ~ x 50 000 !!! (1s => 14h)
=> Paralléliser les I/O donc distribuer le stockage ou le changer
Puissance des processeurs
Fin de la loi de Moore ? (l’intégration double tous les 18 mois)
Puissance x 10 000 à 20 000 depuis 1980 (plafonnée à 3ghz, 30nm)
=> Calcul parallèle (multi core) et/ou distribué (grille)
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET
Quelques exemples d’applications
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 9
La domotique et les compteurs électriques intelligents
Les essais en vol (enregistrement des paramètres de vol)
La téléphonie (facturation, historique, statistiques, …)
L’imagerie médicale (scanners, IRM, échos, …)
La génomique et l’épidémiologie
Les données bancaires et financières
L’analyse d’opinions (politique, marketing, e-réputation, …)
Les données astronomiques (Hubble, radiotélescopes, …)
Les données géo-référencées, la géolocalisation, …
Les modélisations (climatique, sismique, fluides, matériaux, molécules)
La physique des particules (CERN), la chimie quantique, …
Les données ouvertes
Le web des données, le web invisible
Les data centers, les réseaux sociaux
Les acteurs IBM Dell HP Google Microsoft
Intel Oracle
Saas Sap OVH Amazon
…
Les avantages et les inconvénients
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 10
Les + du Big Data
Le passage à l’échelle
La solution peut rester en interne
Solutions open source
Le coût pour les très gros volumes
Le temps de réponse
Etude des queues de distribution (pas d’échatillonnage)
Etude des données à faible densité informationnelle
64% des organisations veulent s’y mettre Les – du Big Data
Il faut maîtriser une nouvelle technologie
Moins de possibilités que les SGBD classiques, qu’OLAP, …
Nouvelle approche de l’analyse de données (Data, Text, Web mining)
Améliorer les analyses et les données existantes avant de passer au BigData
8% seulement des organisations se sont lancées
11
Les solutions techniques
Au niveau hadware
Clusters
Coût / disponibilité, homogénéité
Montée en charge, répartition de la charge,
Gestion des ressources (processeur, mémoire, disque, bande passante)
Grilles
Hétérogène (clusters, serveurs, PC, téléphones mobiles, tablettes, …)
Partage, distribution, coordination (middleware), autonomie, délocalisation
Cartes graphiques
Machine Learning, Data Mining, recherche, tri,
BD, MapReduce, …
Cloud
Virtualisation
Partage des ressources matérielles et logicielles et des services Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET http://www.nvidia.com
Les solutions techniques
12
Au niveau de la plateforme
Solutions Hadoop** (HDFS, HBase, MapReduce)
Cloudera (la plus installée)
HortonWorks (100% d’Apache Hadoop)
MapR (support fichiers ≠ HDFS) => Cisco, Google, Amazon
Pivotal HD
EMC Corparation
IBM InfoSphere BigInSights
Amazon Elastic Map Reduce (solution hébergée)
…
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET
*http://cassandra.apache.org **http://hadoop.apache.org
Les solutions techniques
13
Au niveau des packages Big Data
Open source ou propriétaire
Critères de choix
Simplicité => expérimentation
Respect des standards
Facilité d’intégration des données
Adéquation des fonctionnalités supportées
Pièges à éviter
Taxe sur les données (on est en Big Data)
Packages non compatibles avec le mode natif d’Apache Hadoop
Un moteur par serveur => Coût
Ne pas sur dimensionner => Complexité
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET
Les nouveaux outils
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 14
Bases de données Clé/Valeur
Caractéristiques
Solution dite NoSQL , hachage optimisé pour la répartition
Stockage en mémoire d’un couple clé-valeur ~ blob (binary large object)
Les +
Simpicité
Extensibilité
Performances (volume important)
Jeux en ligne, gestion de traces, profils, e-commerce
Les –
Utilisation spécifique (requêtes basées uniquement sur les clés)
Pas de modèle relationnel
Faible complexité des données
* Redis, DynamoDB (amazon), SimpleDB, Voldemort, Riak, Cassandra (Apache)
Les nouveaux outils
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 15
Bases de données orientées colonnes
Caractéristiques
Transposée d’un base de donnée relationnelle
Pas de valeur « null » stockée
Les +
Utilisée par les grands du Web
Gain d’espace, bonne indexation
Facilité et rapidité de récupération d’une colonne
Possibilité d’un très grand nombre de colonnes, de redimensionnement
Quelques requêtes proche de SQL (select/update/delete)
Les –
Données d’un même type, qui se ressemblent
Fortement orientée Big Data
Nom Vacances Voiture
Marc (1) Mer (1) Berline (2) Jean (2) Montagne (3) 4x4 (3)
Alain (3) Break (5)
Victor (5)
*BigTable (Google), Vertica (hp), Hadoop (Apache), Cloudera, DataStax, …
Les nouveaux outils
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 16
Bases de données orientées documents
Caractéristiques
Cas particulier des bases Clé/Valeur*
Un document (Xml, Json, Image, …) est associé à une clé
Un commentaire (Titre) est associé au document
Les +
On peut facilement récupérer les Titres
Orientée données hétérogènes
Gestion du contenu de pages Web
Ajout simplifié de machines
Les –
Problème dus à la duplications de données
Très (Trop) grande flexibilité => incohérences
*Terrastore, RavenDB, RaptorDB, SimpleDB, Redis, MongoDB, CouchDB, GigaSpaces, GemFire, …
Les nouveaux outils
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 17
Bases de données orientées graphes
Caractéristiques
Des nœuds représentent des objets possédants de nombreuses propriétés
Des liens représentent des relations entre les objets
Possibilités Hypergraphes
Les +
On peut facilement parcourir le graphe (largeur, profondeur, …)
Trouver les liens entre objets similaires
Trouver des ascendants ou descendants communs
Bien adaptée aux données relationnelles : réseaux sociaux, RDF, Objets
Les –
Approche spécifique : nœuds/liens/propriétés
Ne remplace pas les autres BD NoSQL ni les BD relationnelles
*Neo4j (java), HyperGraphDB, FlockDB (Twitter), BigData, …
Les nouveaux algorithmes
18
Les algorithmes de tri
Tris séquentiels (n éléments sur un seul processeur)
Tri par insertion (bon si la liste est déjà un peu triée)
Tri par sélection (on cherche le + petit …)
Tri bulle (on décale tant que + grand …)
Tri rapide (Quicksort) utilise un pivot
Tris parallèles (n éléments distribués sur p processeurs)
Tri bulle parallèle
Tri fusion
Tri Pair Impair (décalage à droite et à gauche des listes triées)
Tri par paquets (un intervalle par processeur)
Tri par échantillon (sample sort) séparateurs choisis sur echantillon
Tri bitonique (fusion 2 à 2 de listes triées)
Tri Hyperquicksort (basé sur les hyper-cubes)
… Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET
Les nouveaux algorithmes
19
Exemple de tri distribué
Sur Google plus de 2 milliards de résultats pour « Big Data » => Pagerank
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 20 Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Le filtrage distribué
Ex : l’indexation de tous les disques durs de la planète
Les nouveaux algorithmes
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 21
Les dénombrements distribués
Les nouveaux algorithmes
Nom Vacances Voiture
Marc (1) Mer (1) Berline (2)
Jean (2) Montagne (5) 4x4 (9)
Julie (5) Break (1)
Victor (9)
Nom Vacances Voiture
Anne (3) Campagne (3) Spider (4)
Léa (4) Mer (8)
Alain (8)
Nom Vacances Voiture
Henri (6) Mer (6) Berline (7)
Audrey (7) Mer (7)
Voiture Nb
Berline 2
Break 1
Spider 1
4x4 1
Vacances Nb
Campagne 1
Mer 4
Montagne 1
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 22
En théorie des graphes
Calcul du degré
Algorithme du plus court chemin
Dijkstra parallèle
Bellman Ford parallèle
Arbre partiel extremum (couvrant) =>
Prim parallèle
Arborescence minimum
Huffman parallèle
…
Les nouveaux algorithmes
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 23
En analyse de données
AFC 4D
Les nouveaux algorithmes
Correspondances Gènes/Performances
24
Conclusions
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET
Les données sont elles
fortement structurées
non structurées
hétérogènes
Priorité à
La lecture de données
L’écriture de données
Peut-on perdre quelques data ?
Disponibilité permanente ou non de l’application ?
Les données sont elle réparties ?
Le volume peut-il augmenter très fortement ?
Y a-t-il des contraintes temps réel
…
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 25
Conclusions
Choix de la bonne solution
Installer un cluster ou le simuler
Hadoop or not Hadoop
Quelle distribution ? (Cloudera, Hortonworks , MapR, …)
Modélisation, génération de code, planification des jobs Big Data,
Intégration de différentes sources de données
Problèmes juridiques
Données ouvertes
Données personnelles
e-commerce
Merci pour votre attention !!!
Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET