• Aucun résultat trouvé

BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB

N/A
N/A
Protected

Academic year: 2022

Partager "BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB"

Copied!
17
0
0

Texte intégral

(1)

BIG DATA PLATFORM FOR RESEARCH AND INNOVATION

TERALAB

Présentation

(2)

8-9 octobre 2014 l 2

Vocation

Encourager l’exploitation massive des données

Une plateforme dédiée à la recherche / innovation / enseignement

– projets de recherche – innovation,

– Enseignement, dont soutien formation continue

… en dehors de toute exploitation commerciale.

Dan un cadre

– De projet collaboratif – Ou bilatéral

Financée par le PIA (5,7M€)

– 2012 : appel à projet PIA remporté par l’IMT et le GENES, en partenariat avec l’INSEE

– Fin 2013 : validation du volet financier par la caisses des dépôts et consignation

– Pour une durée de 5 ans (T0 janvier 2014)

La plateforme a été ouverte en avril 2014

(3)

Composantes de l’offre

4 briques pour faciliter le passage à l’acte

Infrastructure technique

- Hébergement souverain - compartiments sécurisés et dédiés - Double environnement : distribués et

in memory

Accompagnement

- Technique prise en main - Scientifique

- Ecosystème

Ecosystème embarqué

- Les solutions standrds du marché, - Les solutions de start up innovantes

Corpus de données à disposition

- Etalab - Crawling ..

- ….

(4)

Infrastructure : Sécurité

A la base de la conception de la plateforme

• L’activité de recherche / innovation induit une acceptation juridique du risque, cependant Teralab met en œuvre tous les niveaux de sécurité industrielle, déclinée en deux niveaux :

Sécurité renforcée du CASD

Sécurité industrielle

Une garantie d’hébergement physique en France métropolitaine

Teralab

Niv ea u d e s écuri té

(5)

Infrastructure : Sécurité

A la base de la conception de la plateforme

• Espaces de travail cloisonnés (VLAN)

– Switch réseau configurés pour constituer des VLAN isolés pour chaque cluster

– Protège des incursions / perturbations extérieures

• 2 niveaux de firewall

– En amont de la plateforme : le seul à avoir une IP publique

– En amont de chaque cluster, personnalisable (sur demande)

• Tout accès nécessite un compte utilisateur (login /mot de passe)

• Droit d’administrateur pour le partenaire lui permettant de personnaliser son dispositif de protection (authentification par clé par exemple)

• Datacenters localisés en France métropolitaine, avec 5 niveaux de sécurités physiques

• Le niveau de sécurité peut être ajusté en

fonction des besoins d’échange de données du partenaire (objets connectés par exemple)

Admin (SSH/Https)

Workspace

(dedicated private network)

FW

DAS DAS DAS DAS DAS DAS

Public @

Private

@ Edge

node (SSH)

Service node

(https) FW

TERALAB

FW

Internet

(6)

Infrastructure : Sécurité

CASD : un dispositif unique

• Equipement permettant d’assurant la sécurité de données très sensibles – Authentification forte par biométrie

– Prévient physiquement et logiquement tout évasion de fichier de données

La SD-Box.

Lecteur de carte à puce Lecteur

biométrique

Ecran et boutons de paramétrage

sur site

Un boitier autonome et dédié à l’accès

Connecteur RJ45 Connecteur

VGA Connecteurs

USB

(7)

8-9 octobre 2014 l 7

Infrastructure : Puissance de calcul Scalabilité horizontale et verticale

Secur.

indust.

TeraMemory 4To RAM

240 cores

50To hot storage (extensible)

Calcul distribué, hadoop as a service Ensemble de

machine multicoeur

Data provisionnning SQL / No sql / hadoop

.

Hadoop vcpu RAM (GB) Storage (GB)

CDH5.0 21 148 3512

CDH5.0 13 68 1944

CDH5.0 69 404 14744

HW 13 68 3512

exemples de configuration de cluster en production

Configurations à très fort ratio mémoire / cœur

- Memory upgradable from 4 to 24 TeraByte

- 240 cores (8 Modules x2

Xeon/module x15cores/Xeon) - 8000 specint

- Net storage (DAS - Raid5):

- current TeraLab: 50TB /

Max : 800TB

(8)

Infrastructure : briques logicielles

Une large bibliothèque préinstallée / une personnalisation par vos soins

Linux : CentOS 6.4

Hadoop : Cloudera Full CDH5 ou HW2 (dont web Hue, ClouderaMgr,) Python 2.7 : Canopy (Scikit-learn installable), R, Dataiku, Pentaho (partie libre)

Spark, Flink (ex stratosphère)

VNC Ganglia Monitoring

Bureau déporté Calcul distribué

in memory analytique Stockage et calcul distribué

Les briques installées sont - open source

- briques innovantes de start up (ex dataiku) a des fins de promotion

Les gestionnaires de projets hébergés ont un compte administrateur et peuvent installer toute brique

logicielle pour lesquelles ils

disposent d’une licence

(9)

Infrastructure : briques logicielles Exemple de configuration

• Hadoop: Cloudera 4.6 + Cloudera 5

Hadoop

Environment

• Hue, ssh

User operation

• Oozie, Pig, Hive, Impala, Mahout…

• Dataiku, Opendatasoft…

Applications

• HBase (columnar)

Database

• Yarn, MapReduce, Stratosphere

• Spark

Parallelisation

Engine

• HDFS

File system

• CentOS 6.4 (incl. python 2.6.6)

• Others linux distributions

Cluster OS

• Flume, Hive Metastore Mgr, Sqoop

Import/Export

• Any imported Linux tool (may run on the cluster or on its edge node)

Others

• TeraLab mgr (cluster), Nagios (alerts), Ganglia (monitoring)

Administration

• Create, start, stop, resize, operate

• HDFS, unix

Users

Edge nodes

Cluster

• Linux server

• unix

• Roles (applis, admin. actions)

• Groups (files)

WORKSPACE (project, team…)

Environment

Edge node: The Edge Node is a system intended to be used as a Gateway. It is not a real part of the Cluster but all client library are installed on, thus allowing full access to the cluster from this system.

Service node: System hosting most of helper services (Hue, Ganglia, Cloudera Manager, Ambari ...).

Name nodes: Two Namenodes acting as active/passive High Availability configuration.

Data nodes: The workhorses of the cluster. Provide storage and compute resources.

Firewall: A pfsense Firewall controlling all cluster access.

SE CURE

(10)

Sur le volet technique

– Assistance à la prise en main de l’infrastructure : conseils et aide opérationnelle

– Hotline avec des tickets ‘incidents en ligne

Sur le volet scientifique

– Une directrice scientifique dédiée au projet, avec une très forte expérience opérationnelle

– Un lien direct avec les équipes de recherche Mines et Telecom (dont laboratoires de machine learning

Sur le volet économique

– Une orientation si besoin au sein de l’écosystème économique Big Data : acteurs du marché, financements potentiels, start up sur des activités connexes

8-9 octobre 2014 l 10

Accompagnement

Une équipe dédiée

(11)

Teralab – écosysteme

4 chaires dans le périmètre Mines Telecom directement en lien avec le Big Data

Machine Learning for Big Data

Valeur et politique des informations

personnelles réseaux sociaux

E commerce

Pilote Partenaires

Stéphan Clémençon

BNP Parisbas , Criteo , PSA, Safran

Claire Levallois Barthes

Groupe Imprimerie Nationale, BNP Paribas et Dassault Système, avec l’aide de la CNIL

Christine Balagué

la Poste, Pages Jaunes Groupe et Danone

Talel

Abdessalem

Partenaires

(12)

Teralab – écosysteme

De nombreux laboratoires dédié à la santé

Télecom Bretagne

- L’UMR 1101 INSERM LaTIM

- L’UMR 3192 CNRS Lab-STICC MOM et inter-pôle HAAL - Départ. Optique, LUSSI

- SFR 148 ScInBioS (Sciences et Ingénierie en Biologie Santé);

- Le Labex COMINLabs en Bretagne - Le Labex national CAMI

Télécom ParisTech

- l’UMR 5141 CNRS LTCI

- L’IFR 49 Imagerie Neurofonctionnelle;

- Départ. TSI, SES

Télécom Bretagne & Télécom ParisTech

- Infrastructure «France Life Imaging» (via LaTIM & LTCI), - TIC et Santé Montpellier

- WHIST Lab Télécom SudParis

- UMR 5157 CNRS SAMOVAR - UMR 8145 CNRS MAP5

- Départ. EPH (Electronique & Physique) Télécom Ecole de Management

- UCOTIC (Usages collectifs des TIC)

(13)

Modalité d’accès

S’adapter à toutes les circonstances

PROJETS R&D COLLABORATIFS

CHALLENGES BIG DATA CAP

DIGITAL POCs

BILATERAUX

PROJETS

“BOOTSTRAP”

ENSEIGNEMENT

*document de travail du 06/11/2014

Les 6 premiers Sponsors …

Analyse de conversations, de documents non structurés, d’images

Identification d’applications métiers pour valoriser la base de brevets ICANIC

Innovation sur les données du groupe : Telecom, Bâtiment, Chantiers, Construction

Innovation sur les données postales : par ex traitement de l’enveloppe et suivi du pli

Analyse prédictive, recherche sémantique, pour nouveaux services d’information

Croisements données : mobilités professionnelles, compétences, formations, …

(14)

Examples of on going projects on Teralab

Project Short description Project description

Speedata Project “Speed Data” is a

decision-making platform in SaaS mode

The cost-effective, scalable, real-time (less than a minute) platform will be able to process volumes of data larger than a terabyte. The processed data will essentially be non-structured and come from both the online and offline worlds (web traffic measurements, weather, offline sales, economic or financial statistics, logistic data flows etc.).

D4D D4D ‘Data for Development Senegal’ is an innovation challenge open on ICT Big Data for the purposes of societal development in Senegal.

The objective of the Challenge is to achieve maximum involvement from local and regional stakeholders.

Anonymous data, extracted from the mobile network in Senegal are available, as well as data on the amount of daily sunshine. 5 priority subject matters have been defined (health, agriculture, transport/urban planning, energy, national statistics). The challenge also wishes to contribute to a more technical objective, by rewarding the best advances in the algorithms of anonymisation, datamining, display and cross-referencing of data.

Square Predict

Square Predict is Big Data SaaS platform for insurance industry.

The project includes a privacy expert and three R&D laboratories (LIPN , LIPADE and LARIS), the objective is to make predictions using classic insurance data mixed with data available on the Internet (social networks, semantic web, open data ... ). Here are some issues that could solve Square Predict :

Real-time estimation of the impact , including financial , damage caused by a climatic event of great magnitude. Predicting future fire / water damage based on available public data ( block by block or street by street, address or address). Detecting the occurrence of global events through analysis of weak signals . Normatis The NormAtis project is on

the use of multimodal data with Web information extraction, data integration,

and mobility data

management.

Norm - Atis is an ANR (national research agency) R&D project. This project aims to organize and structure the industrialization of automatic data collection on mobility; consolidate and analyze this mobility on a larger scale at the national level and European level by a pre-normative approach; promote the use of tools for better collective and individual transportation system; contribute to a predictive real time information about transportation.

(15)

Teralab – écosysteme Projets déjà hébergés

Speedata - Decision-making platform in SaaS mode

D4D ‘Data for Development Senegal’ - innovation challenge open on ICT Big Data for the purposes of societal development in Senegal.

Square Predict - Big Data SaaS platform for insurance industry.

Normatis - Use of multimodal data with Web information extraction, data integration, and mobility data management.

Project description

Collaborati ve R&D

Large industrial groups, SMEs, R&D Labs:

Actors involved

Machine Learning project (?)

SickitLearn project (?) Pure R&D

Big Data Researcher: A.Gramfort, S.Clemencon, …

Proof of Concept Médéric – Fraud Detection for the french leader of private health insurance

Proof of Concept Pôle Emploi (French Employment Office) – Matching of jobs offers/profile/specific training to improve unemployed people market reinsertion

Industrial Proof of Concept

Large industrial groups with business/big data challenges:

Yearly project (?)

Lab work project (?)

Others (?) Teaching

Lecturer and researcher, students of big data masters:

Ecosystème

(16)

8-9 octobre 2014 l 16

Teralab – écosysteme Gouvernemental

.. Plateforme référencée dans le cadre du plan Big

Data (Plan “nouvelle France Industrielle”)

(17)

Vos projets de recherche sont les bienvenus

Denis.oblin@mines-telecom.fr 0671627492

16/07/2015 17

Références

Documents relatifs

According to Wikipedia, “big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional

Aujourd’hui les applications les plus visibles de la fouille de données concerne l’analyse des requêtes internet pour élaborer de la publicité ciblée ou l’analyse des

In conjunction with the demand for more and more frequent data from many different sources and for each of these entities, this results in generating vast

To share the new analysis methods for manag- ing large volumes of data, we encouraged par- ticipation from researchers in all fields related to Big Data, Data Science, Data

Kerstin Schneider received her diploma degree in computer science from the Technical University of Kaiserslautern 1994 and her doctorate (Dr. nat) in computer science from

Alors sans intervention de type supervisé (cad sans apprentissage avec exemples), le système parvient à détecter (structurer, extraire) la présence de 10 formes

• Cet algorithme hiérarchique est bien adapté pour fournir une segmentation multi-échelle puisqu’il donne en ensemble de partitions possibles en C classes pour 1 variant de 1 à N,

I Sequential text classification offers good performance and naturally uses very little information. I Sequential image classification also performs