• Aucun résultat trouvé

BIG DATA en Sciences et Industries de l Environnement

N/A
N/A
Protected

Academic year: 2022

Partager "BIG DATA en Sciences et Industries de l Environnement"

Copied!
86
0
0

Texte intégral

(1)

BIG DATA

en Sciences et Industries de l’Environnement

Franc¸ois Royer

www.datasio.com

21 mars 2012

FR — Big Data Congress, Paris 2012 — 1/23

(2)

Transport terrestre

Transport a ´erien

Trac¸abilit ´e

T ´el ´em ´etrie - Argos

Oc ´eanographie

Imagerie satellite

(3)

Points cl ´es

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles

FR — Big Data Congress, Paris 2012 — 3/23

(4)

Points cl ´es

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles

(5)

L’ `ere du ”Data Scientist”

L’accumulation exponentielle de donn ´ees transforme la d ´emarche d’analyse

1960

E. Wigner, ”The Unreasonable Effectiveness of

Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14.

2009

A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.

FR — Big Data Congress, Paris 2012 — 5/23

(6)

L’ `ere du ”Data Scientist”

L’accumulation exponentielle de donn ´ees transforme la d ´emarche d’analyse

1960

E. Wigner, ”The Unreasonable Effectiveness of

Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14.

2009

A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.

(7)

All models are wrong, but some are useful.

George Box

FR — Big Data Congress, Paris 2012 — 6/23

(8)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)

I La d ´emarche de questionnement et de critique

I Les protocoles de collecte de donn ´ees

Ce qui change

I Le stockage et le traitement de donn ´ees

I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client

(9)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)

I La d ´emarche de questionnement et de critique

I Les protocoles de collecte de donn ´ees

Ce qui change

I Le stockage et le traitement de donn ´ees

I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

(10)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)

I La d ´emarche de questionnement et de critique

I Les protocoles de collecte de donn ´ees

Ce qui change

I Le stockage et le traitement de donn ´ees

I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client

(11)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)

I La d ´emarche de questionnement et de critique

I Les protocoles de collecte de donn ´ees

Ce qui change

I Le stockage et le traitement de donn ´ees

I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

(12)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)

I La d ´emarche de questionnement et de critique

I Les protocoles de collecte de donn ´ees

Ce qui change

I Le stockage et le traitement de donn ´ees

I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client

(13)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)

I La d ´emarche de questionnement et de critique

I Les protocoles de collecte de donn ´ees

Ce qui change

I Le stockage et le traitement de donn ´ees

I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

(14)

Data Scientist

= nouveau m ´etier?

Ce qui ne change pas

I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)

I La d ´emarche de questionnement et de critique

I Les protocoles de collecte de donn ´ees

Ce qui change

I Le stockage et le traitement de donn ´ees

I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client

(15)

Points cl ´es

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles

FR — Big Data Congress, Paris 2012 — 8/23

(16)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

(17)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

(18)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

(19)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

(20)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

(21)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

(22)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

(23)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

(24)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

(25)

D ´efinition

I

Big Data = gros volume (> 10 TB)

I Imagerie satellite1-10 GB/jour

I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour

I Mod `eles m ´et ´eo100 GB/jour

I Simulateurs (traffic routier etc...) 100 GB/run

I

Big Data + Big Process

I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -

I Aggr ´egation, contextualisationCo ˆut d’analyse +

I Appels BDCo ˆut d’analyse +++

I Calculs en cascadeCo ˆut d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

(26)

Diagnostic Big Data

Docteur, ais-je un probl `eme Big Data?

Oui, si :

I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)

I Vos donn ´ees d ´ependent d’unecommunaut ´e

d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”

I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter

(27)

Diagnostic Big Data

Docteur, ais-je un probl `eme Big Data?

Oui, si :

I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)

I Vos donn ´ees d ´ependent d’unecommunaut ´e

d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”

I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23

(28)

Diagnostic Big Data

Docteur, ais-je un probl `eme Big Data?

Oui, si :

I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)

I Vos donn ´ees d ´ependent d’unecommunaut ´e

d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”

I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter

(29)

Diagnostic Big Data

Docteur, ais-je un probl `eme Big Data?

Oui, si :

I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)

I Vos donn ´ees d ´ependent d’unecommunaut ´e

d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”

I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23

(30)

Diagnostic Big Data

Docteur, ais-je un probl `eme Big Data?

Oui, si :

I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)

I Vos donn ´ees d ´ependent d’unecommunaut ´e

d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”

I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter

(31)

Diagnostic Big Data

C’est grave, Docteur?

Tout ira bien,

je vais vous prescrire du DevOps et des calculs distribu ´es.

FR — Big Data Congress, Paris 2012 — 11/23

(32)

Solutions Big Data

(33)

Solutions Big Data

Dev

FR — Big Data Congress, Paris 2012 — 12/23

(34)

Solutions Big Data

Op ´erations

Dev

(35)

Solutions Big Data

QA

Op ´erations

Dev

FR — Big Data Congress, Paris 2012 — 12/23

(36)

Solutions Big Data

QA

Op ´erations

Dev DevOps

(37)

Solutions Big Data

Hier

I Noeuds de stockage p ´eriph ´eriques

I Stockage sur plusieurs niveaux

”chaud”/”froid”

I Supercalculateur au centre

I Data ->Code

FR — Big Data Congress, Paris 2012 — 13/23

(38)

Solutions Big Data

Hier

I Noeuds de stockage p ´eriph ´eriques

I Stockage sur plusieurs niveaux

”chaud”/”froid”

I Supercalculateur au centre

I Data ->Code

(39)

Solutions Big Data

Hier

I Noeuds de stockage p ´eriph ´eriques

I Stockage sur plusieurs niveaux

”chaud”/”froid”

I Supercalculateur au centre

I Data ->Code

FR — Big Data Congress, Paris 2012 — 13/23

(40)

Solutions Big Data

Hier

I Noeuds de stockage p ´eriph ´eriques

I Stockage sur plusieurs niveaux

”chaud”/”froid”

I Supercalculateur au centre

I Data ->Code

(41)

Solutions Big Data

Aujourd’hui

I Noeuds de stockage sur m ˆeme r ´eseau GB

I Mat ´eriel milieu de gamme (100 - 1000 CPUs)

I Syst `eme de fichiers distribu ´es (DFS)

I Gestion des jobs et donn ´ees par des Master Nodes

I Code ->Data

FR — Big Data Congress, Paris 2012 — 14/23

(42)

Solutions Big Data

Aujourd’hui

I Noeuds de stockage sur m ˆeme r ´eseau GB

I Mat ´eriel milieu de gamme (100 - 1000 CPUs)

I Syst `eme de fichiers distribu ´es (DFS)

I Gestion des jobs et donn ´ees par des Master Nodes

I Code ->Data

(43)

Solutions Big Data

Aujourd’hui

I Noeuds de stockage sur m ˆeme r ´eseau GB

I Mat ´eriel milieu de gamme (100 - 1000 CPUs)

I Syst `eme de fichiers distribu ´es (DFS)

I Gestion des jobs et donn ´ees par des Master Nodes

I Code ->Data

FR — Big Data Congress, Paris 2012 — 14/23

(44)

Solutions Big Data

Aujourd’hui

I Noeuds de stockage sur m ˆeme r ´eseau GB

I Mat ´eriel milieu de gamme (100 - 1000 CPUs)

I Syst `eme de fichiers distribu ´es (DFS)

I Gestion des jobs et donn ´ees par des Master Nodes

I Code ->Data

(45)

Solutions Big Data

Aujourd’hui

I Noeuds de stockage sur m ˆeme r ´eseau GB

I Mat ´eriel milieu de gamme (100 - 1000 CPUs)

I Syst `eme de fichiers distribu ´es (DFS)

I Gestion des jobs et donn ´ees par des Master Nodes

I Code ->Data

FR — Big Data Congress, Paris 2012 — 14/23

(46)

Solutions Big Data

Aujourd’hui

I Noeuds de stockage sur m ˆeme r ´eseau GB

I Mat ´eriel milieu de gamme (100 - 1000 CPUs)

I Syst `eme de fichiers distribu ´es (DFS)

I Gestion des jobs et donn ´ees par des Master Nodes

I Code ->Data

(47)

Solutions Big Data

Pourquoi Hadoop?

I Open source (fondation Apache, ouvert par Yahoo)

I Projet en maturation, communaut ´e active

I Parall ´elisation de t ˆaches et donn ´ees robuste

I Standardde facto en analyse de donn ´ees massives

I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)

I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

(48)

Solutions Big Data

Pourquoi Hadoop?

I Open source (fondation Apache, ouvert par Yahoo)

I Projet en maturation, communaut ´e active

I Parall ´elisation de t ˆaches et donn ´ees robuste

I Standardde facto en analyse de donn ´ees massives

I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)

I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)

(49)

Solutions Big Data

Pourquoi Hadoop?

I Open source (fondation Apache, ouvert par Yahoo)

I Projet en maturation, communaut ´e active

I Parall ´elisation de t ˆaches et donn ´ees robuste

I Standardde facto en analyse de donn ´ees massives

I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)

I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

(50)

Solutions Big Data

Pourquoi Hadoop?

I Open source (fondation Apache, ouvert par Yahoo)

I Projet en maturation, communaut ´e active

I Parall ´elisation de t ˆaches et donn ´ees robuste

I Standardde facto en analyse de donn ´ees massives

I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)

I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)

(51)

Solutions Big Data

Pourquoi Hadoop?

I Open source (fondation Apache, ouvert par Yahoo)

I Projet en maturation, communaut ´e active

I Parall ´elisation de t ˆaches et donn ´ees robuste

I Standardde facto en analyse de donn ´ees massives

I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)

I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

(52)

Solutions Big Data

Pourquoi Hadoop?

I Open source (fondation Apache, ouvert par Yahoo)

I Projet en maturation, communaut ´e active

I Parall ´elisation de t ˆaches et donn ´ees robuste

I Standardde facto en analyse de donn ´ees massives

I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)

I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)

(53)

Solutions Big Data

Pourquoi Hadoop?

I Open source (fondation Apache, ouvert par Yahoo)

I Projet en maturation, communaut ´e active

I Parall ´elisation de t ˆaches et donn ´ees robuste

I Standardde facto en analyse de donn ´ees massives

I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)

I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

(54)

Solutions Big Data

Pourquoi Hadoop?

I Difficile `a ”tuner” pour des jobs complexes

I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)

I Difficile de formuler certains algorithmes sous forme map-reduce

I Embauche et formation de d ´eveloppeurs et analystes

I Autres alternatives disponibles (BSP, Storm, Disco...)

(55)

Solutions Big Data

Pourquoi Hadoop?

I Difficile `a ”tuner” pour des jobs complexes

I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)

I Difficile de formuler certains algorithmes sous forme map-reduce

I Embauche et formation de d ´eveloppeurs et analystes

I Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

(56)

Solutions Big Data

Pourquoi Hadoop?

I Difficile `a ”tuner” pour des jobs complexes

I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)

I Difficile de formuler certains algorithmes sous forme map-reduce

I Embauche et formation de d ´eveloppeurs et analystes

I Autres alternatives disponibles (BSP, Storm, Disco...)

(57)

Solutions Big Data

Pourquoi Hadoop?

I Difficile `a ”tuner” pour des jobs complexes

I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)

I Difficile de formuler certains algorithmes sous forme map-reduce

I Embauche et formation de d ´eveloppeurs et analystes

I Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

(58)

Solutions Big Data

Pourquoi Hadoop?

I Difficile `a ”tuner” pour des jobs complexes

I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)

I Difficile de formuler certains algorithmes sous forme map-reduce

I Embauche et formation de d ´eveloppeurs et analystes

I Autres alternatives disponibles (BSP, Storm, Disco...)

(59)

Solutions Big Data

Pourquoi Hadoop?

I Difficile `a ”tuner” pour des jobs complexes

I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)

I Difficile de formuler certains algorithmes sous forme map-reduce

I Embauche et formation de d ´eveloppeurs et analystes

I Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

(60)

Solutions Big Data

(61)

Solutions Big Data

HDFS

FR — Big Data Congress, Paris 2012 — 17/23

(62)

Solutions Big Data

HDFS Map Reduce

(63)

Solutions Big Data

HDFS

Map Reduce HBase

FR — Big Data Congress, Paris 2012 — 17/23

(64)

Solutions Big Data

HDFS

Map Reduce HBase

Hive

(65)

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig

FR — Big Data Congress, Paris 2012 — 17/23

(66)

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig Mahout

(67)

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig Mahout

Zookeeper

FR — Big Data Congress, Paris 2012 — 17/23

(68)

Points cl ´es

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles

(69)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)

I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee

Probl ´ematique

I Donn ´ees tr `es structur ´ees - solution comp ´etitive?

I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m ´etier `a r ´eutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

(70)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)

I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee

Probl ´ematique

I Donn ´ees tr `es structur ´ees - solution comp ´etitive?

I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m ´etier `a r ´eutiliser - interface Java?

(71)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)

I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee

Probl ´ematique

I Donn ´ees tr `es structur ´ees - solution comp ´etitive?

I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m ´etier `a r ´eutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

(72)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)

I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee

Probl ´ematique

I Donn ´ees tr `es structur ´ees - solution comp ´etitive?

I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m ´etier `a r ´eutiliser - interface Java?

(73)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)

I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee

Probl ´ematique

I Donn ´ees tr `es structur ´ees - solution comp ´etitive?

I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m ´etier `a r ´eutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

(74)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)

I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee

Probl ´ematique

I Donn ´ees tr `es structur ´ees - solution comp ´etitive?

I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m ´etier `a r ´eutiliser - interface Java?

(75)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)

I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee

Probl ´ematique

I Donn ´ees tr `es structur ´ees - solution comp ´etitive?

I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m ´etier `a r ´eutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

(76)

Hadoop-xyt

ouHadoop et les donn ´ees g ´eographiques et temporelles

Besoin

I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)

I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee

Probl ´ematique

I Donn ´ees tr `es structur ´ees - solution comp ´etitive?

I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?

I Donn ´ees stock ´ees en fichiers binaires - distribution?

I Algorithmes m ´etier `a r ´eutiliser - interface Java?

(77)

Hadoop-xyt

Traitement d’images

I Extraction + tiling + rendering

I Calculs massivement parall `eles = gain de temps+++

FR — Big Data Congress, Paris 2012 — 20/23

(78)

Hadoop-xyt

Traitement d’images

I Extraction + tiling + rendering

I Calculs massivement parall `eles = gain de temps+++

(79)

Hadoop-xyt

Traitement d’images

I Extraction + tiling + rendering

I Calculs massivement parall `eles = gain de temps+++

FR — Big Data Congress, Paris 2012 — 20/23

(80)

Hadoop-xyt

Traitement d’images

I Extraction + tiling + rendering

I Calculs massivement parall `eles = gain de temps+++

(81)

Hadoop-xyt

Traitement d’images

I Extraction + tiling + rendering

I Calculs massivement parall `eles = gain de temps+++

FR — Big Data Congress, Paris 2012 — 20/23

(82)

Hadoop-xyt

Traitement d’images

I Extraction + tiling + rendering

I Calculs massivement parall `eles = gain de temps+++

(83)

Hadoop-xyt

Traitement d’images

I Extraction + tiling + rendering

I Calculs massivement parall `eles = gain de temps+++

FR — Big Data Congress, Paris 2012 — 20/23

(84)

Hadoop-xyt

G ´eolocalisation de v ´ehicules

(85)

Transport terrestre

Transport a ´erien

Trac¸abilit ´e

T ´el ´em ´etrie - Argos

Oc ´eanographie

Imagerie satellite

FR — Big Data Congress, Paris 2012 — 22/23

(86)

Datasio

We are Data Scientists

Data Mining · Prototypage · Algorithmie · D ´etection d’anomalies · Pr ´ediction · Machine Learning · Spatial data · Time series

Franc¸ois Royer

[email protected] www.datasio.com

Références

Documents relatifs

Ainsi des problèmes communs se posent-ils à des disciplines fort éloignées, concernant par exemple l'accessibilité des données, leur cohérence lorsqu'elles

Cyrille Delpierre INSERM UMR 1027 Université Toulouse III épidémiologiste Quel apport du big data pour l'exploration des inégalités sociales de santé. Benjamin Derbez

2 Un premier type d’articles attendus concerne la généalogie du phénomène big data, aussi bien comme une forme d’innovation scientifique, dans des champs

Les traces numériques des usagers des moteurs de recherche, des réseaux sociaux ou des sites d’achat en ligne engendrent une masse d’informations sans précédent, non seulement

Au-delà des usages, l’État a soutenu, avec le Programme des Investissements d’avenir plusieurs projets pour développer des entreprises porteuses de solutions particulière-

Excessive network access Excessive user permissions Typical web vulnerabili6es Obsolete sokware. •   Make a list of

Au contraire, le praticien statistique se verra renforcé dans ses bonnes pratiques : ne pas considérer que les données sont « données » justement, mais toujours interroger

Bien qu’ils soient partisans de laisser parler les données, les auteurs nous préviennent: “nous devons nous garder de trop nous reposer sur les données pour ne pas