• Aucun résultat trouvé

Journées Big Data à l ENSAI Big Data: les challenges, les défis

N/A
N/A
Protected

Academic year: 2022

Partager "Journées Big Data à l ENSAI Big Data: les challenges, les défis"

Copied!
23
0
0

Texte intégral

(1)

Journ´ees ”Big Data” `a l’ENSAI Big Data: les challenges, les d´efis

St´ephan Cl´emen¸con

T´el´ecom ParisTech

November 22, 2013

(2)

Agenda

Contexte et opportunit´es

Challenges scientifiques et collaborations industrielles Le d´efi de la formation

Qelques actions en cours et `a venir

(3)

”Big Data” - Le contexte

Une accumulation de donn´ees massivesdans de nombreux domaines:

Biologie/M´edecine (g´enomique, m´etabolomique, essais cliniques, imagerie,etc.

Grande distribution, marketing (CRM), e-commerce Moteurs de recherche internet (contenu multimedia) R´eseaux sociaux (Facebook, Tweeter, ...)

Banque/Finance (risque de march´e/liquidit´e, acc`es au cr´edit) S´ecurit´e (ex: biom´etrie, vid´eosurveillance)

Administrations (Sant´e Publique, Douanes) Risques op´erationnels

(4)

”Big Data” - Le contexte

Un d´eluge de donn´eesqui rend inop´erant:

les outils basiques de stockage de donn´ees

gestion de base de donn´ees (MySQL)

le pr´etraitement reposant sur l’expertise humaine indexation, analyse s´emantique

mod´elisation

intelligence d´ecisionnelle

(5)

”Big Data” - Le contexte

Une multitude de briques technologiques et de services disponibles pour:

La parall´elisation massive (Velocity) Le calcul distribu´e (Volume)

La gestion de donn´ees sans sch´ema pr´ed´efini (Variety) parmi lesquels:

Le mod`ele de programmation MapReduce: calculs parall´elis´es/distribu´ees

Framework Hadoop

NoSQL: SGBD Cassandra, MongoDB, bases de donn´ees orient´ees graphe, moteur de recherche Elasticsearch,etc.

Clouds: infrastructures, plate-formes, logicielsas a Service promus par Google, Amazon, Facebook, etc.

(6)

”Big Data” - Les opportunit´es

Des avanc´ees spectaculaires pour

lacollecteet le stockage(distribu´e) des donn´ees larechercheautomatique d’objets, de contenu le partagede donn´ees peu structur´ees

Le Big Data: un moteur pour la technologie, la science, l’´economie Moteurs de recherche, moteurs de recommandation

Maintenance pr´edictive

Marketing viral `a travers les r´eseaux sociaux D´etection des fraudes

M´edecine individualis´ee

Publicit´e en ligne (retargeting)

(7)

”Big Data” - Les opportunit´es

Ubiquit´e

De nombreux secteurs d’activit´e sont concern´es:

(e-) Commerce CRM

Sant´e

D´efense, renseignement (e.g. cybers´ecurit´e, biom´etrie) Banque/Finance

Transports ”intelligents”

etc.

(8)

”Big Data” - Les besoins

Talents

Selon l’Institut McKinsey Global, d’ici `a 2018 aux USA:

300 000architectes Big Data

140 000-190 000 recrutements de data scientists

1, 5 million de cadres/techniciens avec des connaissances g´en´erales dans ce domaine

La perle rare pour les grands groupes: leChief-Data-Officer

(9)

”Big Data” - Recherche

Afin d’exploiter les donn´ees (pr´ediction, interp´etation), d´evelopper des technologies math´ematiques permettant de r´esoudre les probl`emes computationnels li´es:

aux contraintes du quasi-temps r´eel

! apprentissage automatique s´equentiel (”on-line”)6= batch, par renforcement

au caract`ere distribu´e des donn´ees/ressources

! apprentissage automatique distribu´e

`a la volum´etrie des donn´ees

! impact des techniques de sondages sur la performance des algorithmes

(10)

”Big Data” - Recherche

Des techniques de visualisation, repr´esentation de donn´ees complexes Graphes (´evolutifs) - clustering, graph-mining

Image, audio, video - filtrage, compression Donn´ees textuelles (e.g. page web, tweet) Domaines

Probabilit´e, Statistique Machine-Learning Optimisation

Traitement du signal et de l’image Analyse Harmonique Computationnelle analyse s´emantique

etc.

(11)

Formations ”Data Science”: un bref tour d’horizon

En France

Masters disciplinaires: informatique ou maths appliqu´ees A l’international

Stanford University (Stanford Center for Professional Development):

”Data Mining and Applications Graduate Certificate” en 3 ans (12 000 $ env.), avec Sony, Cisco

Columbia Institute for Data Sciences and Engineering, Chicago Northwestern University (MS program in Predictive Analytics), North Carolina State University (MS in Analytics avec SAS), UC San Diego (certificate program in data mining),etc.

Secteur priv´e: SAS, EMC (GreenPlum), IBM (Netezza), Cloudera, etc.

(12)

”Big Data”: le d´efi de la formation

Comp´etences en maths/info Analyse s´emantique S´ecurit´e des donn´ees

Syst`emes r´epartis, parall´elisation massive, clouds Analyse des r´eseaux sociaux, ”graph-mining”

Visualisation, iterface homme-machine

Ranking, moteurs de recommandation/recherche

Machine-learning ”distribu´e”, en ligne, passage `a l’´echelle Comp´etences en droit/´economie

Propri´et´e des donn´ees personnelles Cr´eation de valeur, ´economie de l’internet

(13)

”Big Data”

Le ph´enom`ene ”Big Data”

appelle de nouvelles o↵res de formation

pose de nouveaux probl`emes scientifiques/technologiques/juridiques R´epondre `a ces besoins requiert

une collaboration ´etroite avec le monde de l’industrie et des services une mutualisation des moyens/forces

”Big Data, big value?” Les Entretiens de T´el´ecom ParisTech 5-6 d´ec 2012

Cahier de Veille de la Fondation et S´eminaire ”Managing data in an hyperconnected world”

(14)

Actions dans le domaine de la formation

Mast`ere Sp´ecialis´e ”Big Data” - ouvert en sept. 2013 30 stagiaires Multidisciplinarit´e: donn´ees, s´ecurit´e, visualisation, maths appliqu´ees, droit, ´economie/business

Recrutement: niveau M2

Projets ”Fil Rouge” tutor´es par des professionnels (e.g. Capgemini, GdF Suez, EDF, Xebia, start-ups de l’incubateur de TPT), s´eminaires (Thal`es, McKinsey,etc.)

Comit´e de perfectionnement: EADS, Thal`es, IBM, Google, Crit´eo, Liligo, Safran, SAS, Capgemini

Objectif: un savoir-faire op´erationnel Stage et th`ese professionnelle ⇠6 mois

(15)

La formation - Enseignements

! Mastère(Spécialisé(Big(Data((BGD)(–(Promotion(2013/14(

!

!

Voici!le!programme!du!Mastère!Spécialisé!«!Analyse!et!Gestion!des!Données!Massives!»!

(Big!Data),!promotion!2013E2014.!!

!

Vous!trouverez!ciEdessous!la!liste!des!différents!cours!qui!seront!dispensés!lors!de!cette!

formation!et!leur!programmation!dans!le!planning!de!l’année!universitaire.!Ils!suivent!

une! progression! logique! permettant! d’aborder! un! grand! nombre! d’aspects!

technologiques,! scientifiques,! sociétaux! ou! encore! juridiques! relatifs! à! la! gestion! et! à!

l’analyse! des! données! massives.! Etant! donné! l’hétérogénéité! de! la! promotion,! les!

origines!et!compétences!diverses!dans!le!domaine!des!mathématiques!appliquées!et!de!

l’informatique,! les! expériences! professionnelles! variées,! le! programme! se! veut! très!

progressif.! Les! cours! les! plus! avancés! en! machineElearning! et! en! informatique! sont!

programmés! au! 4ème! trimestre.! Pour! certains! enseignements,! comme! le! cours! de!

Statistique!du!1er!!trimestre!visant!à!(reE)voir!les!bases!du!raisonnement!probabiliste!et!

statistique! à! travers! la! modélisation! linéaire! et! faciliter! l’acquisition! des! concepts!

d’apprentissage! statistique! aux! 3ème! ! et! 4ème! trimestres,! la! promotion! ne! sera! pas!

mélangée! à! d’autres! élèves! pour! plus! d’efficacité! pédagogique.! Chaque! professeur!

précisera! les! modalités! d’évaluation! de! son! cours.! Au! delà! des! enseignements,! des!

séminaires!seront!organisés!lors!desquels!des!professionnels!issus!de!secteurs!d’activité!

variés! viendront! expliquer! leur! vision! des! enjeux/challenges! du! Big! Data,! et! des!

«!projets! fil! rouge!»! proposés! par! des! entreprises! seront! menés! en! groupe! par! les!

stagiaires!du!MS.!

!

!

Planning(

!

La!prérentrée!s’effectuera!le!27!septembre!

!

!

! A! B! C!

! A1! A2! B1! B2! !

P1! Concepts!

Fondamentaux!de!la!

Sécurité!(30H,!3ECTS)!

INF721!

Statistique!(30H,!3ECTS)!

MDI!220! Bases!de!Données!

(30H,!3ECTS)!

INF225!

Economie!de!

l’Internet!et!des!

Données!Personnelles!

(20H,!3ECTS)!

SES720!

Projet!Fil!Rouge!

INFMDI780!

P2! L’Ecosystème!du!Big!

Data!(20H,!3ECTS)!

SES721!

Visualisation!

d’Information!(30H,!

3ECTS)!

INF229!

Bases!de!Données!Avancées!(60H,!5ECTS)!

INF345!

Projet!Fil!Rouge!

INFMDI780!

P3! Systèmes!Répartis!(60H,!5ECTS)!

INF346! MachineXLearning!(60H,!5ECTS)!

MDI!343! Projet!Fil!Rouge!

INFMDI780!

P4! MachineXLearning!Avancé!(60H,!5ECTS)!

INFMDI341! Données!du!Web!(60H,!5ECTS)!

INF344! !

(16)

La formation - Projets ”Fil Rouge” 7 mois

travail en groupe (par ex. 4 `a 5 stagiaires, aux comp´etences compl´ementaires)

vise `a explorer un th`eme du Big Data `a plusieurs facettes

e.g. infrastructure, analyse, exploitation, mise en production, droit, business model

recherches bibliographiques, ´etapes de mod´elisation, d´eveloppement et exp´erimentation

projets propos´es et tutor´es par des professionnels

suivi hebdomadaire assur´e par des enseignants-chercheurs

Infrastructure Hadoop sur un cluster propri´etaire, utilisation d’AWS

(17)

Actions dans le domaine de la formation

Certificat ”Data Science” - pr´evu au printemps 2014 Cible: professionnels en situation d’emploi 24 jours de pr´esentiel

A d´evelopper: plateforme d’e-learning Formation Continue

Stages cibl´es

Ex: machine-learning, valorisation des donn´ees personnelles, l’´ecosyst`eme Big Data

(18)

Actions dans le domaine de la recherche

Certificat ”Data Science” - pr´evu au printemps 2014 Cible: professionnels en situation d’emploi 24 jours de pr´esentiel

A d´evelopper: plateforme d’e-learning Formation Continue

Stages cibl´es

Ex: machine-learning, valorisation des donn´ees personnelles, l’´ecosyst`eme Big Data

(19)

Actions dans le domaine de la recherche

Partenariats avec l’industrie Chaires industrielles:

R´eseaux sociaux - T´elecom Ecole de Management

Valeurs et politiques des informations personnelles - T´elecom ParisTech, T´elecom Sud Paris & T´elecom Ecole de Management Machine-Learning & Big Data - T´elecom ParisTech

Big Data for e-commerce - T´elecom ParisTech

Contrats bilat´eraux (e.g. EADS, Orange, StreamWide) Journ´ee ”Big Data” ParisTech-Thal`es le 8/11/2013 Partenaires acad´emiques

IMT: Mines (Bio-info), TSP, T´elecom Ecole de Management Au sein de ParisTech: X (CMAP), ENPC (Cermics), ENSAE (Crest) Saclay: Universit´e Paris Orsay (LRI), ENS Cachan (CMLA), CEA, INRIA

(20)

Une plateforme IMT/GENES

pour la recherche et l’enseignement

Projets de recherche et de transfert technologique À l’exclusion de toute activité commerciale

Equipe support

Institut Mines-Télécom 1

24/7

Hébergement souverain 24/7

2 Compartiments Batch/ Temps réel - sécurisé

- ultra-sécurisé (technologie CASD) support

(21)

BADAP : Créer de la valeur par la recherche et l’innovation sur l’analytique Big Data

Plateforme BIG DATA dédiée à la recherche et l’innovation, exploitée en mode SAAS/PAAS:

Outils et services pour les analystes de données

• Statistiques (Ex: R-Evolution), généralistes (Ex: Python), mining (Ex: Knime), graphiques (Ex: Dataviz)

Corpus de données structurées ou non

• Anonymes publiques collectées (ex. Common crawl, Million songs, Openstreetmap, ...)

• Publiées ouvertes au public -« Open Data » (ex. Etalab,…)

Institut Mines-Télécom

• Publiées ouvertes au public -« Open Data » (ex. Etalab,…)

• Privées rendues anonymes (ex. fournies par industriels pour challenges)

Outils d’accès et services de gestion de l’infrastructure

• Ex. Portail d’accès, interface utilisateurs, outils collaboratifs, animation de communauté

Infrastructure matérielle et logicielle à l’état de l’art

• Compartiment en batch ou temps réel ( mémoire vive de plusieurs téraoctets)

• Capacité stockage de données « utiles » en centaines de téraoctets

• Compartiments à accès restreint et ultra-sécurisés

Financements de projets R&I

“bootstrap” inclus au budget Plateforme ouverte aux projets de

recherche, à l’exclusion de toute

activité commerciale

(22)

Au service des projets

Les hommes

Chercheurs, experts de domaines variés (analyse de données, éthique, sécurité….), entreprises rassemblés autour de la plateforme au sein de projets, de comités de pilotage, …

Prestataires et partenaires qui contribuent à la conception et la mise en œuvre de la plateforme

Equipe dédiée aux attentes Big Data des utilisateurs

Veille technologique pour suivre un domaine très dynamique

Souplesse pour répondre à la diversité des besoins de la recherche

Construction d’un environnement convivial

Les caractéristiques de la plateforme

Capacité à traiter des larges volumes de données en batch

Mais aussi une orientation au traitement temps réel, pour supporter:

l’analyse interactive de données

Institut Mines-Télécom

l’analyse interactive de données

L’intégration de flux de données

Grâce à des caractéristiques dédiées, notamment

le serveur 4TO de RAM

des outils /technologies innovantes: Parstream, Storm…

Un environnement souverain

Contrôle intégral de la plateforme et notamment de l’hébergement

Une mise en œuvre incrémentale

pour ajuster au mieux avec les utilisateurs les paramètres de la plateforme (catalogue d’outils et de données, ressources de calcul…)

Pour saisir les évolutions continues dans le domaine

Pour permettre aux utilisateurs de faire évoluer leur cahier des charges au gré de leur montée en puissance dans le domaine

(23)

Calendrier

Mise en place incrémentale Opération

Projets Pilotes 1 : CAP, NORM-ATIS, Accelerate….

2013 2014 2015 2016 2017 2018

Mise en place incrémentale

Institut Mines-Télécom

4 21/11/2013

Projets Pilotes 2 : CP3PO?,WATER M? …..

Projets D’amorçage

FUI, KIC ,ITEA , HORIZON 2020, …

Phase A

pas de facturation aux projets

Phase B & C

Facturation : couverture des frais d’opération

•2 tranches

[t

0

, t

0+14m

] : 2/3 de la plateforme [t

0+14

, t

0+24m

] : +1/3 de la plateforme

• Priorité sur le choix des outils

- besoin des projets pilotes et d’amorçage

- comité scientifique

Références

Documents relatifs

This is done through BDI’s Semantic Data Lake and components like SANSA 1 which performs analytics on semantically structured RDF data by providing out-of-the-box scalable

Concr` etement Hive transforme une requˆ ete HiveQL en des jobs MapReduce pour op´ erer sur les donn´ ees sous un format particulier dans le syst` eme de fichier HDFS. Vous

Alors sans intervention de type supervisé (cad sans apprentissage avec exemples), le système parvient à détecter (structurer, extraire) la présence de 10 formes

• Cet algorithme hiérarchique est bien adapté pour fournir une segmentation multi-échelle puisqu’il donne en ensemble de partitions possibles en C classes pour 1 variant de 1 à N,

I Sequential text classification offers good performance and naturally uses very little information. I Sequential image classification also performs

Objectif : promouvoir des méthodologies, développer de nouveaux algorithmes, diffuser les codes, les utiliser pour l’exploitation scientifique des données et former de

Bien qu’ils soient partisans de laisser parler les données, les auteurs nous préviennent: “nous devons nous garder de trop nous reposer sur les données pour ne pas

Pour un usage de ces données en sociologie du couple, voir (Bergström 2016)...