Journ´ees ”Big Data” `a l’ENSAI Big Data: les challenges, les d´efis
St´ephan Cl´emen¸con
T´el´ecom ParisTech
November 22, 2013
Agenda
Contexte et opportunit´es
Challenges scientifiques et collaborations industrielles Le d´efi de la formation
Qelques actions en cours et `a venir
”Big Data” - Le contexte
Une accumulation de donn´ees massivesdans de nombreux domaines:
Biologie/M´edecine (g´enomique, m´etabolomique, essais cliniques, imagerie,etc.
Grande distribution, marketing (CRM), e-commerce Moteurs de recherche internet (contenu multimedia) R´eseaux sociaux (Facebook, Tweeter, ...)
Banque/Finance (risque de march´e/liquidit´e, acc`es au cr´edit) S´ecurit´e (ex: biom´etrie, vid´eosurveillance)
Administrations (Sant´e Publique, Douanes) Risques op´erationnels
”Big Data” - Le contexte
Un d´eluge de donn´eesqui rend inop´erant:
les outils basiques de stockage de donn´ees
gestion de base de donn´ees (MySQL)
le pr´etraitement reposant sur l’expertise humaine indexation, analyse s´emantique
mod´elisation
intelligence d´ecisionnelle
”Big Data” - Le contexte
Une multitude de briques technologiques et de services disponibles pour:
La parall´elisation massive (Velocity) Le calcul distribu´e (Volume)
La gestion de donn´ees sans sch´ema pr´ed´efini (Variety) parmi lesquels:
Le mod`ele de programmation MapReduce: calculs parall´elis´es/distribu´ees
Framework Hadoop
NoSQL: SGBD Cassandra, MongoDB, bases de donn´ees orient´ees graphe, moteur de recherche Elasticsearch,etc.
Clouds: infrastructures, plate-formes, logicielsas a Service promus par Google, Amazon, Facebook, etc.
”Big Data” - Les opportunit´es
Des avanc´ees spectaculaires pour
lacollecteet le stockage(distribu´e) des donn´ees larechercheautomatique d’objets, de contenu le partagede donn´ees peu structur´ees
Le Big Data: un moteur pour la technologie, la science, l’´economie Moteurs de recherche, moteurs de recommandation
Maintenance pr´edictive
Marketing viral `a travers les r´eseaux sociaux D´etection des fraudes
M´edecine individualis´ee
Publicit´e en ligne (retargeting)
”Big Data” - Les opportunit´es
Ubiquit´e
De nombreux secteurs d’activit´e sont concern´es:
(e-) Commerce CRM
Sant´e
D´efense, renseignement (e.g. cybers´ecurit´e, biom´etrie) Banque/Finance
Transports ”intelligents”
etc.
”Big Data” - Les besoins
Talents
Selon l’Institut McKinsey Global, d’ici `a 2018 aux USA:
300 000architectes Big Data
140 000-190 000 recrutements de data scientists
1, 5 million de cadres/techniciens avec des connaissances g´en´erales dans ce domaine
La perle rare pour les grands groupes: leChief-Data-Officer
”Big Data” - Recherche
Afin d’exploiter les donn´ees (pr´ediction, interp´etation), d´evelopper des technologies math´ematiques permettant de r´esoudre les probl`emes computationnels li´es:
aux contraintes du quasi-temps r´eel
! apprentissage automatique s´equentiel (”on-line”)6= batch, par renforcement
au caract`ere distribu´e des donn´ees/ressources
! apprentissage automatique distribu´e
`a la volum´etrie des donn´ees
! impact des techniques de sondages sur la performance des algorithmes
”Big Data” - Recherche
Des techniques de visualisation, repr´esentation de donn´ees complexes Graphes (´evolutifs) - clustering, graph-mining
Image, audio, video - filtrage, compression Donn´ees textuelles (e.g. page web, tweet) Domaines
Probabilit´e, Statistique Machine-Learning Optimisation
Traitement du signal et de l’image Analyse Harmonique Computationnelle analyse s´emantique
etc.
Formations ”Data Science”: un bref tour d’horizon
En France
Masters disciplinaires: informatique ou maths appliqu´ees A l’international
Stanford University (Stanford Center for Professional Development):
”Data Mining and Applications Graduate Certificate” en 3 ans (12 000 $ env.), avec Sony, Cisco
Columbia Institute for Data Sciences and Engineering, Chicago Northwestern University (MS program in Predictive Analytics), North Carolina State University (MS in Analytics avec SAS), UC San Diego (certificate program in data mining),etc.
Secteur priv´e: SAS, EMC (GreenPlum), IBM (Netezza), Cloudera, etc.
”Big Data”: le d´efi de la formation
Comp´etences en maths/info Analyse s´emantique S´ecurit´e des donn´ees
Syst`emes r´epartis, parall´elisation massive, clouds Analyse des r´eseaux sociaux, ”graph-mining”
Visualisation, iterface homme-machine
Ranking, moteurs de recommandation/recherche
Machine-learning ”distribu´e”, en ligne, passage `a l’´echelle Comp´etences en droit/´economie
Propri´et´e des donn´ees personnelles Cr´eation de valeur, ´economie de l’internet
”Big Data”
Le ph´enom`ene ”Big Data”
appelle de nouvelles o↵res de formation
pose de nouveaux probl`emes scientifiques/technologiques/juridiques R´epondre `a ces besoins requiert
une collaboration ´etroite avec le monde de l’industrie et des services une mutualisation des moyens/forces
”Big Data, big value?” Les Entretiens de T´el´ecom ParisTech 5-6 d´ec 2012
Cahier de Veille de la Fondation et S´eminaire ”Managing data in an hyperconnected world”
Actions dans le domaine de la formation
Mast`ere Sp´ecialis´e ”Big Data” - ouvert en sept. 2013 30 stagiaires Multidisciplinarit´e: donn´ees, s´ecurit´e, visualisation, maths appliqu´ees, droit, ´economie/business
Recrutement: niveau M2
Projets ”Fil Rouge” tutor´es par des professionnels (e.g. Capgemini, GdF Suez, EDF, Xebia, start-ups de l’incubateur de TPT), s´eminaires (Thal`es, McKinsey,etc.)
Comit´e de perfectionnement: EADS, Thal`es, IBM, Google, Crit´eo, Liligo, Safran, SAS, Capgemini
Objectif: un savoir-faire op´erationnel Stage et th`ese professionnelle ⇠6 mois
La formation - Enseignements
! Mastère(Spécialisé(Big(Data((BGD)(–(Promotion(2013/14(
!
!
Voici!le!programme!du!Mastère!Spécialisé!«!Analyse!et!Gestion!des!Données!Massives!»!
(Big!Data),!promotion!2013E2014.!!
!
Vous!trouverez!ciEdessous!la!liste!des!différents!cours!qui!seront!dispensés!lors!de!cette!
formation!et!leur!programmation!dans!le!planning!de!l’année!universitaire.!Ils!suivent!
une! progression! logique! permettant! d’aborder! un! grand! nombre! d’aspects!
technologiques,! scientifiques,! sociétaux! ou! encore! juridiques! relatifs! à! la! gestion! et! à!
l’analyse! des! données! massives.! Etant! donné! l’hétérogénéité! de! la! promotion,! les!
origines!et!compétences!diverses!dans!le!domaine!des!mathématiques!appliquées!et!de!
l’informatique,! les! expériences! professionnelles! variées,! le! programme! se! veut! très!
progressif.! Les! cours! les! plus! avancés! en! machineElearning! et! en! informatique! sont!
programmés! au! 4ème! trimestre.! Pour! certains! enseignements,! comme! le! cours! de!
Statistique!du!1er!!trimestre!visant!à!(reE)voir!les!bases!du!raisonnement!probabiliste!et!
statistique! à! travers! la! modélisation! linéaire! et! faciliter! l’acquisition! des! concepts!
d’apprentissage! statistique! aux! 3ème! ! et! 4ème! trimestres,! la! promotion! ne! sera! pas!
mélangée! à! d’autres! élèves! pour! plus! d’efficacité! pédagogique.! Chaque! professeur!
précisera! les! modalités! d’évaluation! de! son! cours.! Au! delà! des! enseignements,! des!
séminaires!seront!organisés!lors!desquels!des!professionnels!issus!de!secteurs!d’activité!
variés! viendront! expliquer! leur! vision! des! enjeux/challenges! du! Big! Data,! et! des!
«!projets! fil! rouge!»! proposés! par! des! entreprises! seront! menés! en! groupe! par! les!
stagiaires!du!MS.!
!
!
Planning(
!
La!prérentrée!s’effectuera!le!27!septembre!
!
!
! A! B! C!
! A1! A2! B1! B2! !
P1! Concepts!
Fondamentaux!de!la!
Sécurité!(30H,!3ECTS)!
INF721!
Statistique!(30H,!3ECTS)!
MDI!220! Bases!de!Données!
(30H,!3ECTS)!
INF225!
Economie!de!
l’Internet!et!des!
Données!Personnelles!
(20H,!3ECTS)!
SES720!
Projet!Fil!Rouge!
INFMDI780!
P2! L’Ecosystème!du!Big!
Data!(20H,!3ECTS)!
SES721!
Visualisation!
d’Information!(30H,!
3ECTS)!
INF229!
Bases!de!Données!Avancées!(60H,!5ECTS)!
INF345!
Projet!Fil!Rouge!
INFMDI780!
P3! Systèmes!Répartis!(60H,!5ECTS)!
INF346! MachineXLearning!(60H,!5ECTS)!
MDI!343! Projet!Fil!Rouge!
INFMDI780!
P4! MachineXLearning!Avancé!(60H,!5ECTS)!
INFMDI341! Données!du!Web!(60H,!5ECTS)!
INF344! !
La formation - Projets ”Fil Rouge” 7 mois
travail en groupe (par ex. 4 `a 5 stagiaires, aux comp´etences compl´ementaires)
vise `a explorer un th`eme du Big Data `a plusieurs facettes
e.g. infrastructure, analyse, exploitation, mise en production, droit, business model
recherches bibliographiques, ´etapes de mod´elisation, d´eveloppement et exp´erimentation
projets propos´es et tutor´es par des professionnels
suivi hebdomadaire assur´e par des enseignants-chercheurs
Infrastructure Hadoop sur un cluster propri´etaire, utilisation d’AWS
Actions dans le domaine de la formation
Certificat ”Data Science” - pr´evu au printemps 2014 Cible: professionnels en situation d’emploi 24 jours de pr´esentiel
A d´evelopper: plateforme d’e-learning Formation Continue
Stages cibl´es
Ex: machine-learning, valorisation des donn´ees personnelles, l’´ecosyst`eme Big Data
Actions dans le domaine de la recherche
Certificat ”Data Science” - pr´evu au printemps 2014 Cible: professionnels en situation d’emploi 24 jours de pr´esentiel
A d´evelopper: plateforme d’e-learning Formation Continue
Stages cibl´es
Ex: machine-learning, valorisation des donn´ees personnelles, l’´ecosyst`eme Big Data
Actions dans le domaine de la recherche
Partenariats avec l’industrie Chaires industrielles:
R´eseaux sociaux - T´elecom Ecole de Management
Valeurs et politiques des informations personnelles - T´elecom ParisTech, T´elecom Sud Paris & T´elecom Ecole de Management Machine-Learning & Big Data - T´elecom ParisTech
Big Data for e-commerce - T´elecom ParisTech
Contrats bilat´eraux (e.g. EADS, Orange, StreamWide) Journ´ee ”Big Data” ParisTech-Thal`es le 8/11/2013 Partenaires acad´emiques
IMT: Mines (Bio-info), TSP, T´elecom Ecole de Management Au sein de ParisTech: X (CMAP), ENPC (Cermics), ENSAE (Crest) Saclay: Universit´e Paris Orsay (LRI), ENS Cachan (CMLA), CEA, INRIA
Une plateforme IMT/GENES
pour la recherche et l’enseignement
Projets de recherche et de transfert technologique À l’exclusion de toute activité commerciale
Equipe support
Institut Mines-Télécom 1
24/7
Hébergement souverain 24/7
2 Compartiments Batch/ Temps réel - sécurisé
- ultra-sécurisé (technologie CASD) support
BADAP : Créer de la valeur par la recherche et l’innovation sur l’analytique Big Data
Plateforme BIG DATA dédiée à la recherche et l’innovation, exploitée en mode SAAS/PAAS:
Outils et services pour les analystes de données
• Statistiques (Ex: R-Evolution), généralistes (Ex: Python), mining (Ex: Knime), graphiques (Ex: Dataviz)
Corpus de données structurées ou non
• Anonymes publiques collectées (ex. Common crawl, Million songs, Openstreetmap, ...)
• Publiées ouvertes au public -« Open Data » (ex. Etalab,…)
Institut Mines-Télécom
• Publiées ouvertes au public -« Open Data » (ex. Etalab,…)
• Privées rendues anonymes (ex. fournies par industriels pour challenges)
Outils d’accès et services de gestion de l’infrastructure
• Ex. Portail d’accès, interface utilisateurs, outils collaboratifs, animation de communauté
Infrastructure matérielle et logicielle à l’état de l’art
• Compartiment en batch ou temps réel ( mémoire vive de plusieurs téraoctets)
• Capacité stockage de données « utiles » en centaines de téraoctets
• Compartiments à accès restreint et ultra-sécurisés
Financements de projets R&I
“bootstrap” inclus au budget Plateforme ouverte aux projets de
recherche, à l’exclusion de toute
activité commerciale
Au service des projets
Les hommes
• Chercheurs, experts de domaines variés (analyse de données, éthique, sécurité….), entreprises rassemblés autour de la plateforme au sein de projets, de comités de pilotage, …
• Prestataires et partenaires qui contribuent à la conception et la mise en œuvre de la plateforme
• Equipe dédiée aux attentes Big Data des utilisateurs
─ Veille technologique pour suivre un domaine très dynamique
─ Souplesse pour répondre à la diversité des besoins de la recherche
─ Construction d’un environnement convivial
Les caractéristiques de la plateforme
• Capacité à traiter des larges volumes de données en batch
• Mais aussi une orientation au traitement temps réel, pour supporter:
─ l’analyse interactive de données
Institut Mines-Télécom
─ l’analyse interactive de données
─ L’intégration de flux de données
• Grâce à des caractéristiques dédiées, notamment
─ le serveur 4TO de RAM
─ des outils /technologies innovantes: Parstream, Storm…
Un environnement souverain
• Contrôle intégral de la plateforme et notamment de l’hébergement
Une mise en œuvre incrémentale
• pour ajuster au mieux avec les utilisateurs les paramètres de la plateforme (catalogue d’outils et de données, ressources de calcul…)
• Pour saisir les évolutions continues dans le domaine
• Pour permettre aux utilisateurs de faire évoluer leur cahier des charges au gré de leur montée en puissance dans le domaine
Calendrier
Mise en place incrémentale Opération
Projets Pilotes 1 : CAP, NORM-ATIS, Accelerate….
2013 2014 2015 2016 2017 2018
Mise en place incrémentale
Institut Mines-Télécom
4 21/11/2013
Projets Pilotes 2 : CP3PO?,WATER M? …..
Projets D’amorçage
FUI, KIC ,ITEA , HORIZON 2020, …
Phase A
pas de facturation aux projets
Phase B & C
Facturation : couverture des frais d’opération