BIG DATA
en Sciences et Industries de l’Environnement
Franc¸ois Royer
www.datasio.com
21 mars 2012
FR — Big Data Congress, Paris 2012 — 1/23
Transport terrestre
Transport a ´erien
Trac¸abilit ´e
T ´el ´em ´etrie - Argos
Oc ´eanographie
Imagerie satellite
Points cl ´es
Vers une Science ultra-empirique?
Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles
FR — Big Data Congress, Paris 2012 — 3/23
Points cl ´es
Vers une Science ultra-empirique?
Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles
L’ `ere du ”Data Scientist”
L’accumulation exponentielle de donn ´ees transforme la d ´emarche d’analyse
1960
E. Wigner, ”The Unreasonable Effectiveness of
Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14.
2009
A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.
FR — Big Data Congress, Paris 2012 — 5/23
L’ `ere du ”Data Scientist”
L’accumulation exponentielle de donn ´ees transforme la d ´emarche d’analyse
1960
E. Wigner, ”The Unreasonable Effectiveness of
Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14.
2009
A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.
“
All models are wrong, but some are useful.”
George BoxFR — Big Data Congress, Paris 2012 — 6/23
Data Scientist
= nouveau m ´etier?
Ce qui ne change pas
I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)
I La d ´emarche de questionnement et de critique
I Les protocoles de collecte de donn ´ees
Ce qui change
I Le stockage et le traitement de donn ´ees
I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client
Data Scientist
= nouveau m ´etier?
Ce qui ne change pas
I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)
I La d ´emarche de questionnement et de critique
I Les protocoles de collecte de donn ´ees
Ce qui change
I Le stockage et le traitement de donn ´ees
I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
= nouveau m ´etier?
Ce qui ne change pas
I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)
I La d ´emarche de questionnement et de critique
I Les protocoles de collecte de donn ´ees
Ce qui change
I Le stockage et le traitement de donn ´ees
I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client
Data Scientist
= nouveau m ´etier?
Ce qui ne change pas
I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)
I La d ´emarche de questionnement et de critique
I Les protocoles de collecte de donn ´ees
Ce qui change
I Le stockage et le traitement de donn ´ees
I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
= nouveau m ´etier?
Ce qui ne change pas
I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)
I La d ´emarche de questionnement et de critique
I Les protocoles de collecte de donn ´ees
Ce qui change
I Le stockage et le traitement de donn ´ees
I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client
Data Scientist
= nouveau m ´etier?
Ce qui ne change pas
I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)
I La d ´emarche de questionnement et de critique
I Les protocoles de collecte de donn ´ees
Ce qui change
I Le stockage et le traitement de donn ´ees
I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client
FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
= nouveau m ´etier?
Ce qui ne change pas
I Le besoin en comp ´etences statistiques (Bay ´esiennes, fr ´equentistes etc...)
I La d ´emarche de questionnement et de critique
I Les protocoles de collecte de donn ´ees
Ce qui change
I Le stockage et le traitement de donn ´ees
I L’interaction entre mod ´elisateurs, ing ´enieurs syst `emes et bases de donn ´ees et ... le client
Points cl ´es
Vers une Science ultra-empirique?
Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles
FR — Big Data Congress, Paris 2012 — 8/23
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
FR — Big Data Congress, Paris 2012 — 9/23
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
FR — Big Data Congress, Paris 2012 — 9/23
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
FR — Big Data Congress, Paris 2012 — 9/23
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
FR — Big Data Congress, Paris 2012 — 9/23
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
D ´efinition
I
Big Data = gros volume (> 10 TB)
I Imagerie satellite1-10 GB/jour
I Syst `emes g ´eolocalis ´es (v ´ehicules, personnes)100 MB/jour
I Mod `eles m ´et ´eo100 GB/jour
I Simulateurs (traffic routier etc...) 100 GB/run
I
Big Data + Big Process
I Donn ´ees pr ´e-trait ´ees (GPS)Co ˆut d’analyse -
I Aggr ´egation, contextualisationCo ˆut d’analyse +
I Appels BDCo ˆut d’analyse +++
I Calculs en cascadeCo ˆut d’analyse +++
FR — Big Data Congress, Paris 2012 — 9/23
Diagnostic Big Data
Docteur, ais-je un probl `eme Big Data?
Oui, si :
I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)
I Vos donn ´ees d ´ependent d’unecommunaut ´e
d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )
I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”
I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter
Diagnostic Big Data
Docteur, ais-je un probl `eme Big Data?
Oui, si :
I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)
I Vos donn ´ees d ´ependent d’unecommunaut ´e
d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )
I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”
I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter
FR — Big Data Congress, Paris 2012 — 10/23
Diagnostic Big Data
Docteur, ais-je un probl `eme Big Data?
Oui, si :
I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)
I Vos donn ´ees d ´ependent d’unecommunaut ´e
d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )
I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”
I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter
Diagnostic Big Data
Docteur, ais-je un probl `eme Big Data?
Oui, si :
I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)
I Vos donn ´ees d ´ependent d’unecommunaut ´e
d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )
I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”
I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter
FR — Big Data Congress, Paris 2012 — 10/23
Diagnostic Big Data
Docteur, ais-je un probl `eme Big Data?
Oui, si :
I Vous avez unr ´eseau d’observation autonome (capteurs m ´et ´eo, RFID, GPS, balises Argos, smartphones, t ´el ´em `etres, instruments sur satellites...)
I Vos donn ´ees d ´ependent d’unecommunaut ´e
d’utilisateurs ou d’individus instrument ´es( ´etude de la mobilit ´e humaine, ´ecologie terrestre et marine etc... )
I Votre budget, programme de recherche ou business plan pr ´evoit de”mesurer d’abord, traiter ensuite”
I Ces syst `emes de collecte produisent des flots de donn ´eesplus viteque vous ne pouvez les traiter
Diagnostic Big Data
C’est grave, Docteur?
“
Tout ira bien,je vais vous prescrire du DevOps et des calculs distribu ´es.
”
FR — Big Data Congress, Paris 2012 — 11/23
Solutions Big Data
Solutions Big Data
Dev
FR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data
Op ´erations
Dev
Solutions Big Data
QA
Op ´erations
Dev
FR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data
QA
Op ´erations
Dev DevOps
Solutions Big Data
Hier
I Noeuds de stockage p ´eriph ´eriques
I Stockage sur plusieurs niveaux
”chaud”/”froid”
I Supercalculateur au centre
I Data ->Code
FR — Big Data Congress, Paris 2012 — 13/23
Solutions Big Data
Hier
I Noeuds de stockage p ´eriph ´eriques
I Stockage sur plusieurs niveaux
”chaud”/”froid”
I Supercalculateur au centre
I Data ->Code
Solutions Big Data
Hier
I Noeuds de stockage p ´eriph ´eriques
I Stockage sur plusieurs niveaux
”chaud”/”froid”
I Supercalculateur au centre
I Data ->Code
FR — Big Data Congress, Paris 2012 — 13/23
Solutions Big Data
Hier
I Noeuds de stockage p ´eriph ´eriques
I Stockage sur plusieurs niveaux
”chaud”/”froid”
I Supercalculateur au centre
I Data ->Code
Solutions Big Data
Aujourd’hui
I Noeuds de stockage sur m ˆeme r ´eseau GB
I Mat ´eriel milieu de gamme (100 - 1000 CPUs)
I Syst `eme de fichiers distribu ´es (DFS)
I Gestion des jobs et donn ´ees par des Master Nodes
I Code ->Data
FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data
Aujourd’hui
I Noeuds de stockage sur m ˆeme r ´eseau GB
I Mat ´eriel milieu de gamme (100 - 1000 CPUs)
I Syst `eme de fichiers distribu ´es (DFS)
I Gestion des jobs et donn ´ees par des Master Nodes
I Code ->Data
Solutions Big Data
Aujourd’hui
I Noeuds de stockage sur m ˆeme r ´eseau GB
I Mat ´eriel milieu de gamme (100 - 1000 CPUs)
I Syst `eme de fichiers distribu ´es (DFS)
I Gestion des jobs et donn ´ees par des Master Nodes
I Code ->Data
FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data
Aujourd’hui
I Noeuds de stockage sur m ˆeme r ´eseau GB
I Mat ´eriel milieu de gamme (100 - 1000 CPUs)
I Syst `eme de fichiers distribu ´es (DFS)
I Gestion des jobs et donn ´ees par des Master Nodes
I Code ->Data
Solutions Big Data
Aujourd’hui
I Noeuds de stockage sur m ˆeme r ´eseau GB
I Mat ´eriel milieu de gamme (100 - 1000 CPUs)
I Syst `eme de fichiers distribu ´es (DFS)
I Gestion des jobs et donn ´ees par des Master Nodes
I Code ->Data
FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data
Aujourd’hui
I Noeuds de stockage sur m ˆeme r ´eseau GB
I Mat ´eriel milieu de gamme (100 - 1000 CPUs)
I Syst `eme de fichiers distribu ´es (DFS)
I Gestion des jobs et donn ´ees par des Master Nodes
I Code ->Data
Solutions Big Data
Pourquoi Hadoop?
I Open source (fondation Apache, ouvert par Yahoo)
I Projet en maturation, communaut ´e active
I Parall ´elisation de t ˆaches et donn ´ees robuste
I Standardde facto en analyse de donn ´ees massives
I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)
I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data
Pourquoi Hadoop?
I Open source (fondation Apache, ouvert par Yahoo)
I Projet en maturation, communaut ´e active
I Parall ´elisation de t ˆaches et donn ´ees robuste
I Standardde facto en analyse de donn ´ees massives
I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)
I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)
Solutions Big Data
Pourquoi Hadoop?
I Open source (fondation Apache, ouvert par Yahoo)
I Projet en maturation, communaut ´e active
I Parall ´elisation de t ˆaches et donn ´ees robuste
I Standardde facto en analyse de donn ´ees massives
I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)
I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data
Pourquoi Hadoop?
I Open source (fondation Apache, ouvert par Yahoo)
I Projet en maturation, communaut ´e active
I Parall ´elisation de t ˆaches et donn ´ees robuste
I Standardde facto en analyse de donn ´ees massives
I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)
I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)
Solutions Big Data
Pourquoi Hadoop?
I Open source (fondation Apache, ouvert par Yahoo)
I Projet en maturation, communaut ´e active
I Parall ´elisation de t ˆaches et donn ´ees robuste
I Standardde facto en analyse de donn ´ees massives
I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)
I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data
Pourquoi Hadoop?
I Open source (fondation Apache, ouvert par Yahoo)
I Projet en maturation, communaut ´e active
I Parall ´elisation de t ˆaches et donn ´ees robuste
I Standardde facto en analyse de donn ´ees massives
I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)
I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)
Solutions Big Data
Pourquoi Hadoop?
I Open source (fondation Apache, ouvert par Yahoo)
I Projet en maturation, communaut ´e active
I Parall ´elisation de t ˆaches et donn ´ees robuste
I Standardde facto en analyse de donn ´ees massives
I Bonne interop ´erabilit ´e avec les data warehouse et BDs existantes (ETL, Hive, Sqoop)
I Offres commerciales (support, packaging, int ´egration: IBM, Cloudera, AWS...)
FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data
Pourquoi Hadoop?
I Difficile `a ”tuner” pour des jobs complexes
I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)
I Difficile de formuler certains algorithmes sous forme map-reduce
I Embauche et formation de d ´eveloppeurs et analystes
I Autres alternatives disponibles (BSP, Storm, Disco...)
Solutions Big Data
Pourquoi Hadoop?
I Difficile `a ”tuner” pour des jobs complexes
I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)
I Difficile de formuler certains algorithmes sous forme map-reduce
I Embauche et formation de d ´eveloppeurs et analystes
I Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data
Pourquoi Hadoop?
I Difficile `a ”tuner” pour des jobs complexes
I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)
I Difficile de formuler certains algorithmes sous forme map-reduce
I Embauche et formation de d ´eveloppeurs et analystes
I Autres alternatives disponibles (BSP, Storm, Disco...)
Solutions Big Data
Pourquoi Hadoop?
I Difficile `a ”tuner” pour des jobs complexes
I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)
I Difficile de formuler certains algorithmes sous forme map-reduce
I Embauche et formation de d ´eveloppeurs et analystes
I Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data
Pourquoi Hadoop?
I Difficile `a ”tuner” pour des jobs complexes
I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)
I Difficile de formuler certains algorithmes sous forme map-reduce
I Embauche et formation de d ´eveloppeurs et analystes
I Autres alternatives disponibles (BSP, Storm, Disco...)
Solutions Big Data
Pourquoi Hadoop?
I Difficile `a ”tuner” pour des jobs complexes
I Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn)
I Difficile de formuler certains algorithmes sous forme map-reduce
I Embauche et formation de d ´eveloppeurs et analystes
I Autres alternatives disponibles (BSP, Storm, Disco...)
FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data
Solutions Big Data
HDFS
FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data
HDFS Map Reduce
Solutions Big Data
HDFS
Map Reduce HBase
FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data
HDFS
Map Reduce HBase
Hive
Solutions Big Data
HDFS
Map Reduce HBase
Hive Pig
FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data
HDFS
Map Reduce HBase
Hive Pig Mahout
Solutions Big Data
HDFS
Map Reduce HBase
Hive Pig Mahout
Zookeeper
FR — Big Data Congress, Paris 2012 — 17/23
Points cl ´es
Vers une Science ultra-empirique?
Big Data pour la Recherche et l’Industrie : mode d’emploi Hadoop et les donn ´ees g ´eographiques et temporelles
Hadoop-xyt
ouHadoop et les donn ´ees g ´eographiques et temporelles
Besoin
I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)
I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee
Probl ´ematique
I Donn ´ees tr `es structur ´ees - solution comp ´etitive?
I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?
I Donn ´ees stock ´ees en fichiers binaires - distribution?
I Algorithmes m ´etier `a r ´eutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
ouHadoop et les donn ´ees g ´eographiques et temporelles
Besoin
I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)
I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee
Probl ´ematique
I Donn ´ees tr `es structur ´ees - solution comp ´etitive?
I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?
I Donn ´ees stock ´ees en fichiers binaires - distribution?
I Algorithmes m ´etier `a r ´eutiliser - interface Java?
Hadoop-xyt
ouHadoop et les donn ´ees g ´eographiques et temporelles
Besoin
I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)
I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee
Probl ´ematique
I Donn ´ees tr `es structur ´ees - solution comp ´etitive?
I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?
I Donn ´ees stock ´ees en fichiers binaires - distribution?
I Algorithmes m ´etier `a r ´eutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
ouHadoop et les donn ´ees g ´eographiques et temporelles
Besoin
I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)
I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee
Probl ´ematique
I Donn ´ees tr `es structur ´ees - solution comp ´etitive?
I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?
I Donn ´ees stock ´ees en fichiers binaires - distribution?
I Algorithmes m ´etier `a r ´eutiliser - interface Java?
Hadoop-xyt
ouHadoop et les donn ´ees g ´eographiques et temporelles
Besoin
I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)
I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee
Probl ´ematique
I Donn ´ees tr `es structur ´ees - solution comp ´etitive?
I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?
I Donn ´ees stock ´ees en fichiers binaires - distribution?
I Algorithmes m ´etier `a r ´eutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
ouHadoop et les donn ´ees g ´eographiques et temporelles
Besoin
I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)
I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee
Probl ´ematique
I Donn ´ees tr `es structur ´ees - solution comp ´etitive?
I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?
I Donn ´ees stock ´ees en fichiers binaires - distribution?
I Algorithmes m ´etier `a r ´eutiliser - interface Java?
Hadoop-xyt
ouHadoop et les donn ´ees g ´eographiques et temporelles
Besoin
I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)
I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee
Probl ´ematique
I Donn ´ees tr `es structur ´ees - solution comp ´etitive?
I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?
I Donn ´ees stock ´ees en fichiers binaires - distribution?
I Algorithmes m ´etier `a r ´eutiliser - interface Java?
FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
ouHadoop et les donn ´ees g ´eographiques et temporelles
Besoin
I retraitement et fouille de donn ´ees historiques (g ´eographiques et s ´eries temporelles)
I Acc ´el ´erer la d ´ecouverte d’anomalies et l’extraction de valeur ajout ´ee
Probl ´ematique
I Donn ´ees tr `es structur ´ees - solution comp ´etitive?
I Donn ´ees corr ´el ´ees = pb du traitement ind ´ependant?
I Donn ´ees stock ´ees en fichiers binaires - distribution?
I Algorithmes m ´etier `a r ´eutiliser - interface Java?
Hadoop-xyt
Traitement d’images
I Extraction + tiling + rendering
I Calculs massivement parall `eles = gain de temps+++
FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
Traitement d’images
I Extraction + tiling + rendering
I Calculs massivement parall `eles = gain de temps+++
Hadoop-xyt
Traitement d’images
I Extraction + tiling + rendering
I Calculs massivement parall `eles = gain de temps+++
FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
Traitement d’images
I Extraction + tiling + rendering
I Calculs massivement parall `eles = gain de temps+++
Hadoop-xyt
Traitement d’images
I Extraction + tiling + rendering
I Calculs massivement parall `eles = gain de temps+++
FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
Traitement d’images
I Extraction + tiling + rendering
I Calculs massivement parall `eles = gain de temps+++
Hadoop-xyt
Traitement d’images
I Extraction + tiling + rendering
I Calculs massivement parall `eles = gain de temps+++
FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
G ´eolocalisation de v ´ehicules
Transport terrestre
Transport a ´erien
Trac¸abilit ´e
T ´el ´em ´etrie - Argos
Oc ´eanographie
Imagerie satellite
FR — Big Data Congress, Paris 2012 — 22/23
Datasio
We are Data Scientists
Data Mining · Prototypage · Algorithmie · D ´etection d’anomalies · Pr ´ediction · Machine Learning · Spatial data · Time series
Franc¸ois Royer
[email protected] www.datasio.com