• Aucun résultat trouvé

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

N/A
N/A
Protected

Academic year: 2022

Partager "11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications"

Copied!
7
0
0

Texte intégral

(1)

Bernard Dousset Professeur des universités

Institut de Recherche en Informatique de Toulouse UMR 5505

Université de Toulouse 118, Route de Narbonne, F-31062 Toulouse cedex 9 (France)

[email protected]

Le Big Data Mining

enjeux et approches techniques

Plan

Introduction

Les enjeux et les verrous

Quelques exemples d’applications

Les avantages et les inconvénients

Les solutions techniques

Les nouveaux outils

Les nouveaux algorithmes

Conclusions

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 2

Introduction

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 3

Le BIG Data

Définition par les 5 V du Big Data

 Volume

 Vitesse

 Variabilité

 Véracité

 Visualisation Le Big Data Mining

 L’économiste en chef de Google Hal VARIAN a dit « Data Scientist, le job le plus sexy du 21e siècle »

 Le Big Data va fortement faire évoluer les statistiques, l’analyse de données, le data mining, le text mining (répartition optimale des données et traitements parallèles)

 L’or noir du XXI° siècle ?

Introduction

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Pourquoi cet engouement

 L’information produite par toute l’humanité a doublé en 2 ans

 à cause du web, de la téléphonie, des réseaux, des capteurs, des vidéos, …

 3 verrous : le coût des connexions, les I/O, la puissance d’un seul processeur

 Les systèmes SQL coûtent cher (SI, SGBD, Main frame, systèmes distribués, BI, …)

 Pour de gros volumes (>108), ils ne sont plus assez efficaces

 Les clusters coutent beaucoup moins cher et passent à l’échelle

 Les cartes vidéos, détournées de leur usage, coutent encore moins cher *

 Deux solutions en fonction des besoins

 Mutualiser des ressources (Cloud, Data Center) UC, DD, I/O, logiciels, sauvegardes, maintenance, sécurité, …

 Paralléliser (Big Data) et changer de monde

NoSQL, NewSQL, Map reduce, Adoop, Cassandra, MongoDB, BigTable, …

* http://www.nvidia.fr/docs/IO/123576/nv-applications-catalog-lowres.pdf 4

(2)

Les enjeux et les verrous

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Le gouvernement a défini 5 leviers pour le Big Data

 Ouvrir les données publiques,

 Favoriser la création de start-up

 Renforcer la chaîne de financement + fonds « ambition numérique »

 Lancer des défis de valorisation de stocks de données

 Utiliser le potentiel de ces données (OpenData)

 Pôle emploi, sécurité sociale, éducation nationale, enseignement supérieur, patrimoine touristique, …

 Création d’un centre de ressources technologiques

 Outils logiciels, méthodes statistiques ou mathématiques,

 Jeux de données massives

 Infrastructures de calcul, kit de briques technologiques.

 Renforcer la capacité à l’export des PME du Big Data

 Création d’un droit à l’expérimentation 5

Les enjeux et les verrous

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 6

Quelques chiffres

 Le génome (3 Md), il y a 10 ans (10 ans ,1Md $) aujourd’hui (2 jours, 2K $)

 La photo il y a 20 ans (105 Pixels), aujourd’hui (3.107 Pixels, prix/100)

1024 1021 101810151012109 106 103 10-3 10-6 10-9 10-12 10-15 10-1810-21 10-24 000 000 000 000 000 000 000 000,000 000 000 000 000 000 000 000 Yota zeta exa péta téra giga méga kilo , milli micro nano pico femto atto zepto yocto

Données de 2013

*Puissance Des UC

*Coût Mémoire

*I/O

* Depuis 1980

Télescope /jour

Facebook /jour

Gravure

Processeur Masse du Proton en gr Masse de

L’univers

x le soleil Dette en $

Les enjeux et les verrous

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

7 8

Les enjeux et les verrous

Les trois principaux verrous

 Coût des connexions

 Un clic sur le web équivaut à ~20 watts/heure

 Un Data center consomme l’équivalent d’une ville de ~20 000 habitants

 Consommation de l’informatique ~10% (2013) => dans 20 ans ??

=> Éviter le plus possible les transferts de données

 Débit des entrés sorties

 0,4 Mo/s en1980, 40 Mo/s actuellement ~ x100

 DD : 300$ le Mo en 1980 => 60$ Le To actuellement ~ / 5 106

 Temps de lecture d’un même volume DD ~ x 50 000 !!! (1s => 14h)

=> Paralléliser les I/O donc distribuer le stockage ou le changer

 Puissance des processeurs

 Fin de la loi de Moore ? (l’intégration double tous les 18 mois)

 Puissance x 10 000 à 20 000 depuis 1980 (plafonnée à 3ghz, 30nm)

=> Calcul parallèle (multi core) et/ou distribué (grille)

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

(3)

Quelques exemples d’applications

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 9

 La domotique et les compteurs électriques intelligents

 Les essais en vol (enregistrement des paramètres de vol)

 La téléphonie (facturation, historique, statistiques, …)

 L’imagerie médicale (scanners, IRM, échos, …)

 La génomique et l’épidémiologie

 Les données bancaires et financières

 L’analyse d’opinions (politique, marketing, e-réputation, …)

 Les données astronomiques (Hubble, radiotélescopes, …)

 Les données géo-référencées, la géolocalisation, …

 Les modélisations (climatique, sismique, fluides, matériaux, molécules)

 La physique des particules (CERN), la chimie quantique, …

 Les données ouvertes

 Le web des données, le web invisible

 Les data centers, les réseaux sociaux

Les acteurs IBM Dell HP Google Microsoft

Intel Oracle

Saas Sap OVH Amazon

Les avantages et les inconvénients

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 10

Les + du Big Data

 Le passage à l’échelle

 La solution peut rester en interne

 Solutions open source

 Le coût pour les très gros volumes

 Le temps de réponse

 Etude des queues de distribution (pas d’échatillonnage)

 Etude des données à faible densité informationnelle

 64% des organisations veulent s’y mettre Les – du Big Data

 Il faut maîtriser une nouvelle technologie

 Moins de possibilités que les SGBD classiques, qu’OLAP, …

 Nouvelle approche de l’analyse de données (Data, Text, Web mining)

 Améliorer les analyses et les données existantes avant de passer au BigData

 8% seulement des organisations se sont lancées

11

Les solutions techniques

Au niveau hadware

 Clusters

 Coût / disponibilité, homogénéité

 Montée en charge, répartition de la charge,

 Gestion des ressources (processeur, mémoire, disque, bande passante)

 Grilles

 Hétérogène (clusters, serveurs, PC, téléphones mobiles, tablettes, …)

 Partage, distribution, coordination (middleware), autonomie, délocalisation

 Cartes graphiques

 Machine Learning, Data Mining, recherche, tri,

 BD, MapReduce, …

 Cloud

 Virtualisation

 Partage des ressources matérielles et logicielles et des services Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET http://www.nvidia.com

Les solutions techniques

12

Au niveau de la plateforme

 Solutions Hadoop** (HDFS, HBase, MapReduce)

 Cloudera (la plus installée)

 HortonWorks (100% d’Apache Hadoop)

 MapR (support fichiers ≠ HDFS) => Cisco, Google, Amazon

 Pivotal HD

 EMC Corparation

 IBM InfoSphere BigInSights

 Amazon Elastic Map Reduce (solution hébergée)

 …

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

*http://cassandra.apache.org **http://hadoop.apache.org

(4)

Les solutions techniques

13

Au niveau des packages Big Data

 Open source ou propriétaire

 Critères de choix

 Simplicité => expérimentation

 Respect des standards

 Facilité d’intégration des données

 Adéquation des fonctionnalités supportées

 Pièges à éviter

 Taxe sur les données (on est en Big Data)

 Packages non compatibles avec le mode natif d’Apache Hadoop

 Un moteur par serveur => Coût

 Ne pas sur dimensionner => Complexité

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux outils

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 14

Bases de données Clé/Valeur

 Caractéristiques

 Solution dite NoSQL , hachage optimisé pour la répartition

 Stockage en mémoire d’un couple clé-valeur ~ blob (binary large object)

 Les +

 Simpicité

 Extensibilité

 Performances (volume important)

 Jeux en ligne, gestion de traces, profils, e-commerce

 Les –

 Utilisation spécifique (requêtes basées uniquement sur les clés)

 Pas de modèle relationnel

 Faible complexité des données

* Redis, DynamoDB (amazon), SimpleDB, Voldemort, Riak, Cassandra (Apache)

Les nouveaux outils

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 15

Bases de données orientées colonnes

 Caractéristiques

 Transposée d’un base de donnée relationnelle

 Pas de valeur « null » stockée

 Les +

 Utilisée par les grands du Web

 Gain d’espace, bonne indexation

 Facilité et rapidité de récupération d’une colonne

 Possibilité d’un très grand nombre de colonnes, de redimensionnement

 Quelques requêtes proche de SQL (select/update/delete)

 Les –

 Données d’un même type, qui se ressemblent

 Fortement orientée Big Data

Nom Vacances Voiture

Marc (1) Mer (1) Berline (2) Jean (2) Montagne (3) 4x4 (3)

Alain (3) Break (5)

Victor (5)

*BigTable (Google), Vertica (hp), Hadoop (Apache), Cloudera, DataStax, …

Les nouveaux outils

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 16

Bases de données orientées documents

 Caractéristiques

 Cas particulier des bases Clé/Valeur*

 Un document (Xml, Json, Image, …) est associé à une clé

 Un commentaire (Titre) est associé au document

 Les +

 On peut facilement récupérer les Titres

 Orientée données hétérogènes

 Gestion du contenu de pages Web

 Ajout simplifié de machines

 Les –

 Problème dus à la duplications de données

 Très (Trop) grande flexibilité => incohérences

*Terrastore, RavenDB, RaptorDB, SimpleDB, Redis, MongoDB, CouchDB, GigaSpaces, GemFire, …

(5)

Les nouveaux outils

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 17

Bases de données orientées graphes

 Caractéristiques

 Des nœuds représentent des objets possédants de nombreuses propriétés

 Des liens représentent des relations entre les objets

 Possibilités Hypergraphes

 Les +

 On peut facilement parcourir le graphe (largeur, profondeur, …)

 Trouver les liens entre objets similaires

 Trouver des ascendants ou descendants communs

 Bien adaptée aux données relationnelles : réseaux sociaux, RDF, Objets

 Les –

 Approche spécifique : nœuds/liens/propriétés

 Ne remplace pas les autres BD NoSQL ni les BD relationnelles

*Neo4j (java), HyperGraphDB, FlockDB (Twitter), BigData, …

Les nouveaux algorithmes

18

Les algorithmes de tri

 Tris séquentiels (n éléments sur un seul processeur)

 Tri par insertion (bon si la liste est déjà un peu triée)

 Tri par sélection (on cherche le + petit …)

 Tri bulle (on décale tant que + grand …)

 Tri rapide (Quicksort) utilise un pivot

 Tris parallèles (n éléments distribués sur p processeurs)

 Tri bulle parallèle

 Tri fusion

 Tri Pair Impair (décalage à droite et à gauche des listes triées)

 Tri par paquets (un intervalle par processeur)

 Tri par échantillon (sample sort) séparateurs choisis sur echantillon

 Tri bitonique (fusion 2 à 2 de listes triées)

 Tri Hyperquicksort (basé sur les hyper-cubes)

 … Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux algorithmes

19

Exemple de tri distribué

 Sur Google plus de 2 milliards de résultats pour « Big Data » => Pagerank

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 20 Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Le filtrage distribué

Ex : l’indexation de tous les disques durs de la planète

Les nouveaux algorithmes

(6)

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 21

Les dénombrements distribués

Les nouveaux algorithmes

Nom Vacances Voiture

Marc (1) Mer (1) Berline (2)

Jean (2) Montagne (5) 4x4 (9)

Julie (5) Break (1)

Victor (9)

Nom Vacances Voiture

Anne (3) Campagne (3) Spider (4)

Léa (4) Mer (8)

Alain (8)

Nom Vacances Voiture

Henri (6) Mer (6) Berline (7)

Audrey (7) Mer (7)

Voiture Nb

Berline 2

Break 1

Spider 1

4x4 1

Vacances Nb

Campagne 1

Mer 4

Montagne 1

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 22

En théorie des graphes

 Calcul du degré

 Algorithme du plus court chemin

 Dijkstra parallèle

 Bellman Ford parallèle

 Arbre partiel extremum (couvrant) =>

 Prim parallèle

 Arborescence minimum

 Huffman parallèle

 …

Les nouveaux algorithmes

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 23

En analyse de données

 AFC 4D

Les nouveaux algorithmes

Correspondances Gènes/Performances

24

Conclusions

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

 Les données sont elles

 fortement structurées

 non structurées

 hétérogènes

 Priorité à

 La lecture de données

 L’écriture de données

 Peut-on perdre quelques data ?

 Disponibilité permanente ou non de l’application ?

 Les données sont elle réparties ?

 Le volume peut-il augmenter très fortement ?

 Y a-t-il des contraintes temps réel

 …

(7)

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET 25

Conclusions

 Choix de la bonne solution

 Installer un cluster ou le simuler

 Hadoop or not Hadoop

 Quelle distribution ? (Cloudera, Hortonworks , MapR, …)

 Modélisation, génération de code, planification des jobs Big Data,

 Intégration de différentes sources de données

 Problèmes juridiques

 Données ouvertes

 Données personnelles

 e-commerce

Merci pour votre attention !!!

Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Références

Documents relatifs

Christine Sybord déplace ainsi la réflexion relative à la responsabilité des praticiens vers l’hypothèse d’une responsabilité médicale étendue au patient, dans le contexte

Dans notre cas, nous allons partitionner la table HMEQ en deux sous-ensembles, 60% pour apprendre, et le reste, soit 40%, pour valider que notre modèle est robuste.. En effet,

Moreover, it permitted us to de- fine a set of Dimensional Fact Models (DFM) [23] able to describe a typical fetal-ma- ternal test, along with its variable aspects. A simplified

Two types of spatiotemporal databases are mainly considered: databases containing trajecto- ries of moving objects located in both space and time (e.g. bird or aircraft

C’est cette première étape qui, pour l’essentiel, fait que le data mining est une discipline et pas un simple produit.. Comment faire du mauvais

(However, since these applications use metadata associated with text documents, rather than the text directly, it is unclear if it should be considered text data mining or standard

Moreover, the actual increase of the interests in manufacturing process man- agement and analysis in manufacturing leads some authors to present in [21] a manufacturing data

Real time ana- lytics is becoming the fastest and most efficient way to obtain useful knowledge from what is happening now, allowing organizations to react quickly when prob-