BIG DATA en Sciences et Industries de l Environnement

(1)

BIG DATA

en Sciences et Industries de l’Environnement

Franc¸ois Royer

www.datasio.com

21 mars 2012

FR — Big Data Congress, Paris 2012 — 1/23

(2)

Transport terrestre

Transport a ´erien

Trac¸abilit ´e

T él ém étrie - Argos

Oc ´eanographie

Imagerie satellite

(3)

Points cl ´es

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles

(4)

Points cl ´es

(5)

L’ `ere du ”Data Scientist”

L’accumulation exponentielle de donn ´ees transforme la d ´emarche d’analyse

1960

E. Wigner, ”The Unreasonable Effectiveness of

Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14.

2009

A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.

(6)

L’ `ere du ”Data Scientist”

L’accumulation exponentielle de donn ´ees transforme la d ´emarche d’analyse

1960

E. Wigner, ”The Unreasonable Effectiveness of

Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14.

2009

A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.

(7)

“

All models are wrong, but some are useful.

”

^{George Box}

(8)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

I Le besoin en comp étences statistiques (Bay ésiennes, fr équentistes etc...)

I La d ´emarche de questionnement et de critique

I Les protocoles de collecte de donn ´ees

Ce qui change

I Le stockage et le traitement de donn ´ees

I L’interaction entre mod élisateurs, ing énieurs syst èmes et bases de donn ées et ... le client

(9)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

Ce qui change

(10)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

Ce qui change

(11)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

Ce qui change

(12)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

Ce qui change

(13)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

Ce qui change

(14)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

Ce qui change

(15)

Points cl ´es

(16)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst èmes g éolocalis és (v éhicules, personnes)100 MB/jour

I Mod èles m ét éo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ées pr é-trait ées (GPS)Co ût d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

(17)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(18)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(19)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(20)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(21)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(22)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(23)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(24)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(25)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I

Big Data + Big Process

(26)

Diagnostic Big Data

Docteur, ais-je un probl `eme Big Data?

Oui, si :

I Vous avez unr éseau d’observation autonome (capteurs m ét éo, RFID, GPS, balises Argos, smartphones, t él ém ètres, instruments sur satellites...)

I Vos donn ées d épendent d’unecommunaut é

d’utilisateurs ou d’individus instrument és( étude de la mobilit é humaine, écologie terrestre et marine etc... )

I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”

I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter

(27)

Diagnostic Big Data

Oui, si :

(28)

Diagnostic Big Data

Oui, si :

(29)

Diagnostic Big Data

Oui, si :

(30)

Diagnostic Big Data

Oui, si :

(31)

Diagnostic Big Data

C’est grave, Docteur?

“

Tout ira bien,

je vais vous prescrire du DevOps et des calculs distribu ´es.

”

(32)

Solutions Big Data

(33)

Solutions Big Data

Dev

(34)

Solutions Big Data

Op ´erations

Dev

(35)

Solutions Big Data

QA

Op ´erations

Dev

(36)

Solutions Big Data

QA

Op ´erations

Dev DevOps

(37)

Solutions Big Data

Hier

I Noeuds de stockage p ´eriph ´eriques

I Stockage sur plusieurs niveaux

”chaud”/”froid”

I Supercalculateur au centre

I Data ->Code

(38)

Solutions Big Data

Hier

I Data ->Code

(39)

Solutions Big Data

Hier

I Data ->Code

(40)

Solutions Big Data

Hier

I Data ->Code

(41)

Solutions Big Data

Aujourd’hui

I Noeuds de stockage sur m ˆeme r ´eseau GB

I Mat ´eriel milieu de gamme (100 - 1000 CPUs)

I Syst `eme de fichiers distribu ´es (DFS)

I Gestion des jobs et donn ´ees par des Master Nodes

I Code ->Data

(42)

Solutions Big Data

Aujourd’hui

I Code ->Data

(43)

Solutions Big Data

Aujourd’hui

I Code ->Data

(44)

Solutions Big Data

Aujourd’hui

I Code ->Data

(45)

Solutions Big Data

Aujourd’hui

I Code ->Data

(46)

Solutions Big Data

Aujourd’hui

I Code ->Data

(47)

Solutions Big Data

Pourquoi Hadoop?

I Open source (fondation Apache, ouvert par Yahoo)

I Projet en maturation, communaut ´e active

I Parall élisation de t âches et donn ées robuste

I Standardde facto en analyse de donn ´ees massives

I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)

I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)

(48)

Solutions Big Data

Pourquoi Hadoop?

(49)

Solutions Big Data

Pourquoi Hadoop?

(50)

Solutions Big Data

Pourquoi Hadoop?

(51)

Solutions Big Data

Pourquoi Hadoop?

(52)

Solutions Big Data

Pourquoi Hadoop?

(53)

Solutions Big Data

Pourquoi Hadoop?

(54)

Solutions Big Data

Pourquoi Hadoop?

I Difficile `a ”tuner” pour des jobs complexes

I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)

I Difficile de formuler certains algorithmes sous forme map-reduce

I Embauche et formation de d ´eveloppeurs et analystes

I Autres alternatives disponibles (BSP, Storm, Disco...)

(55)

Solutions Big Data

Pourquoi Hadoop?

(56)

Solutions Big Data

Pourquoi Hadoop?

(57)

Solutions Big Data

Pourquoi Hadoop?

(58)

Solutions Big Data

Pourquoi Hadoop?

(59)

Solutions Big Data

Pourquoi Hadoop?

(60)

Solutions Big Data

(61)

Solutions Big Data

HDFS

(62)

Solutions Big Data

HDFS Map Reduce

(63)

Solutions Big Data

HDFS

Map Reduce HBase

(64)

Solutions Big Data

HDFS

Map Reduce HBase

Hive

(65)

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig

(66)

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig Mahout

(67)

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig Mahout

Zookeeper

(68)

Points cl ´es

(69)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ées historiques (g éographiques et s éries temporelles)

I Acc él érer la d écouverte d’anomalies et l’extraction de valeur ajout ée

Probl ´ematique

I Donn ées tr ès structur ées - solution comp étitive?

I Donn ées corr él ées = pb du traitement ind épendant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m étier à r éutiliser - interface Java?

(70)

Hadoop-xyt

Besoin

Probl ´ematique

(71)

Hadoop-xyt

Besoin

Probl ´ematique

(72)

Hadoop-xyt

Besoin

Probl ´ematique

(73)

Hadoop-xyt

Besoin

Probl ´ematique

(74)

Hadoop-xyt

Besoin

Probl ´ematique

(75)

Hadoop-xyt

Besoin

Probl ´ematique

(76)

Hadoop-xyt

Besoin

Probl ´ematique

(77)

Hadoop-xyt

Traitement d’images

I Extraction + tiling + rendering

I Calculs massivement parall `eles = gain de temps+++

(78)

Hadoop-xyt

Traitement d’images

(79)

Hadoop-xyt

Traitement d’images

(80)

Hadoop-xyt

Traitement d’images

(81)

Hadoop-xyt

Traitement d’images

(82)

Hadoop-xyt

Traitement d’images

(83)

Hadoop-xyt

Traitement d’images

(84)

Hadoop-xyt

G ´eolocalisation de v ´ehicules

(85)

Transport terrestre

Transport a ´erien

Trac¸abilit ´e

T él ém étrie - Argos

Oc ´eanographie

Imagerie satellite

(86)

Datasio

We are Data Scientists

Data Mining · Prototypage · Algorithmie · D ´etection d’anomalies · Pr ´ediction · Machine Learning · Spatial data · Time series

Franc¸ois Royer

[email protected] www.datasio.com