• Aucun résultat trouvé

Emergence du Big Data Exemple : Linked Open Data

N/A
N/A
Protected

Academic year: 2022

Partager "Emergence du Big Data Exemple : Linked Open Data"

Copied!
10
0
0

Texte intégral

(1)

Une approche interdisciplinaire des grandes masses de données

(Défi Mastodons)

Mokrane Bouzeghoub DAS INS2I / MI

Ecole de L’Innov a .on Thérapeu. que Ariis / Aviesan -‐ 13 Juin 2014

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 2

Emergence du Big Data Exemple : Linked Open Data

Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web

Ini$ée en 2007 avec une dizaine de sources de données interconnectées

Aujourd’hui, plusieurs centaines de sources connectées et ouvertes

(2)

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 3

Qu’est-ce qu’une (très grande) masse de données ?

VLDB Big Data

Data Deluge

Grandes Conf du domaine

Les grandes questions du Big Data

•  La science est-‐elle dans les masses de données ?

– 

La valeur de ces données réside dans les indicateurs, les pa@erns et les règles/lois qui peuvent en être dérivés (connaissance)

– 

Ces données sont importantes non seulement en raison de leur quan$té mais aussi en raison des rela$ons existantes entre elles (séman$que)

– 

Les données peuvent être source de plus-‐value scien$fique mais aussi source de bruit et de pollu$on (qualité, hétérogéneité, manipula$on)

•  Les masses de données nous parlent-‐elles de notre société ?

– 

Nous disent-‐elles quelque chose que nous ne sachions déjà ?

– 

Diront-‐elles quelque chose de nous aux généra$ons futures ?

– 

Ont-‐elles une objec$vité en elles-‐mêmes ou sont-‐elles biaisées par des transforma$ons subjec$ves ?

•  Les masses de données génèrent-‐elles une valeur économique ?

– 

Quels sont les secteurs privilégiés ?

– 

Quel retour sur inves$ssement ?

– 

Quel rôle pour ces données (ma$ère première, produits dérivés, capital, …) ?

– 

Quel statut pour ces données (propriété privée, domaine publique, objet commercial)?

(3)

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub

ironnement, Biologie, Santé,

….

DONNEES / CONNAISSANCES Données du Web /rés. sociaux Données de capteurs Données de simulaFon Corpus SHS

5

Les 3 piliers du Big Data

ExaScale compuFng Cloud CompuFng Réseaux haut débit OS / Middleware

…..

INFRASTRUCTURES Architectures MulF--

‐cœurs / GPU HPC/

Parallélisme Stockage massif

MathémaFque InformaFque Traitement du signal

…..

CONCEPTS, MODELES, ALGORITHMES OrganisaFon -‐ IndexaFon Accès -‐

VisualisaFon NeVoyage -‐

EchanFllonnage ApprenFssage -‐ Datamining

Big Data Data Science Connaissance, décision

SémanFque, Qualité

Physique, Energie, Cosmologie, Env

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 6

La complexité multidimensionnelle du Big Data

•  La Volumétrie

–  Un défi pour les architectures de stockage (au delà du PB)

•  La Variété

–  Diversité des contenus

–  Forte hétérogénéité des formats et des données

•  La Vélocité

–  Défi pour les nouveaux réseaux de communicaFon –  Nouveaux modèles de calcul sur des données en flux

•  La Validité / Véracité

–  Qualité des sources de données: fraîcheur, exacFtu d e, …

–  Qualité des processus de producFon /transformaFon

(4)

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 7

Les grands challenges scientifiques du Big Data

•  Stockage dans le Cloud

–  Performance des accès, disponibilité –  Sécurité des données et des traitements

•  Complexité du calcul

–  Analyse en temps réel de flux conFnus de données émanant de différentes sources –  Requêtes mulFdimensionnelles sur des grands ensembles de données

•  Séman$que des données

–  IndexaFon sémanFque (ontologies), indexaFon parFcipaFve (folksonomies)

–  ExtracFon et interprétaFon de connaissances

•  Consomma$on d’énergie

–  Ressources à énergie limitée (ex. capteurs) –  OpFmisaFon du transfert des données

•  Impact sociétal

–  ProtecFon de la vie privée, Droit à l’oubli

–  A qui apparFennent les données, les connaissances?

Caractéristiques du domaine

•  Un domaine très vaste, !

–  en interaction permanente avec les autres disciplines scientifiques!

•  Un domaine qui se repositionne périodiquement!

–  En revisitant ses solutions à la lumière de nouvelles technos et de nouvelles idées!

–  En intégrant de nouveaux besoins et de nouveaux problèmes!

•  Une recherche dominée (ou presque) par des labos industriels : !

–  Google, Facebook, Yahoo!, Amazone, IBM, Oracle,

Microsoft …!

(5)

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 9

Quelques initiatives en Big Data

•  USA : Plusieurs acteurs dont

–  Gouvt US: Big Data Research and Development Ini$a$ve (Mars 2012)

   250M$ / an dont 60 pour les projets de recherche

   mis en œuvre par NSF, NIH, DOD, DOE, USGS)

–  Accel Partners: fond d’inves$ssement ! 60 M$ / an de sou$en à la créa$on de startups dans le Big Data

•  UK: Plusieurs ini$a$ves dont

–  ESRC Big Data Network (2012) : 3 phases, PHASE 2 AVR 2013: 60M£.

–  BBSRC (2012): 75 M£ pour améliorer la disponibilité des Big Data

•  France

–  PIA: Appel ‘Cloud Comp & Big Data Ministère de l’Industrie (juillet 2012): 25 M€

–  CNRS: Ini$a$ve interdisciplinaire (Mastodons): 700K€/an sur 4/5 ans?

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 10

Objectifs du défi Mastodons

Produire des concepts et des solu$ons qui n'auraient pu être obtenus

sans coopéra$on entre les différentes disciplines

Favoriser l’émergence

d’une communauté scien$fique interdisciplinaire autour de la science des données,

et produire des solu$ons originales sur

le périmètre des données scien$fiques.

(6)

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 11

Focus de l’appel Mastodons

•  Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité!

•  Calcul intensif sur des grands volumes de données parallélisme dirigé par les données!

•  Recherche, exploration et visualisation de grandes masses de données!

•  Extraction de connaissances, datamining et apprentissage!

•  Qualité des données, confidentialité et sécurité des données!

•  Problèmes de propriété, de droit d’usage, droit à l’oubli!

•  Préservation/archivage des données pour les générations futures!

! l’interdisciplinarité doit être une réalité et pas un alibi

Les critères de sélection

•  Vision scien$fique de l’équipe/consor$um sur les thèmes du défi

•  Les verrous scien$fiques et les axes de recherche à moyen terme, avec un focus par$culier sur la première année

•  Les acquis scien$fiques dans le domaine ou dans un domaine connexe suscep$ble de contribuer aux problèmes scien$fiques ou sociétaux posés (publica$ons significa$ves, projets passés ou en cours, applica$ons réalisées, logiciels, brevets...)

•  Les différentes disciplines impliquées et leurs contribu$ons respec$ves au projet

•  Une liste de 3 à 5 chercheurs seniors impliqués de façon significa$ve

dans la recherche.

(7)

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 13

Indicateurs de suivi

•  Pérennité de la coopéra$on

•  Publica$ons communes

•  Co-‐encadrement de thèses

•  Plateformes de test et d’expérimenta$on

•  Montage et soumission de nouveaux projets

•  Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données.

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 14

Mastodons : Chiffres clés

•  Défi lancé en 2012, avec un second appel en 2013

•  Projets de 3 à 5 ans

•  Budget : environ 700 à 850 K€/an

•  Nb de soumissions: 57

–  Nb d’UMR impliquées: + 100, Couvrant les 10 ins$tuts

•  Nb de projets retenus: 20

–  Nb d’UMR impliquées: 69, couvrant les 10 ins$tuts –  Nb de CH/EC impliqués: près de 300

–  Montant alloué/projet : 30 à 80 K€

•  Partenaires hors CNRS

–  INRIA, INRA, IRSTEA, INSERM, CEA, ONERA

–  Universités et écoles

(8)

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 15

Types de données visés dans les projets retenus

•  Cosmologie, astrophysique

–  Dynamique de la Cartographie céleste

•  Sciences de la terre et de l’univers (traitement d’images)

–  Modélisa$on, déforma$on de la croute terrestre

•  Environnement, climat, biodiversité

–  Simula$on, intégra$on, fusion de données

•  Biologie

–  Génome, séquençage, phénotypage

•  Réseaux sociaux

–  RI, analyse d’opinions, santé

+ Un projet émergent sur le crowdsourcing: CrowdHealth Deux ans après…

Gros projets phares

•  PetaSky+Gaia +Amadeus

–  Cosmologie

•  Aresos

–  Réseaux sociaux

•  Phénotypage, Sabiod

–  Biologie végétale, Bio-‐acous$que

Projets ciblés excellents

•  Comotex

–  Cde Tps réel de syst op$que

•  Display

–  Distr proc. For VLA in Radioastronomy

•  Mesure-‐HD

–  Mesures hautes résolu$on

•  Prospectom

–  Etude interac$ve des

protéomes par appren$ssage

stat. et intégr de données

spectrométriques

(9)

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 17

Mastodons : La suite …

•  Comment pérenniser la communauté

–  Réflexion générale sur les regroupements de projets

   Théma$que

   Par domaine d’applica$on

–  Structura$on et anima$on de la communauté ‘Big Data’

   Emergence d’un GDR « Big Data, Science des données »

•  Comment la financer au delà du programme CNRS

–  CNRS, au delà de 2015?

–  ANR ?

–  COST / H2020 ? –  Autre ini$a$ve ?

CNRS -‐ Mission pour l'interdisciplinarité Mokrane Bouzeghoub 18

Conclusion

•  La recherche en Big Data ne peut être fructueuse sans un rapprochement des chercheurs des grands centres de produc$on et d’exploita$on des

données (existants ou à créer)

–  Avec un sou$en fort en ingénierie –  Une véritable interdisciplinarité

–  Un code clair sur l’accès aux données et leur u$lisa$on

(10)

CNRS -‐ Mission pour l'interdisciplinarité

Mokrane Bouzeghoub 19

Publications CNRS récentes

CNR1S9-‐ Mission pour l'interdisciplinarité

Journal du CNRS

0 4 / 0 3 / 1 4 1 2 : 3 0 B i g D a t a , l a d é f e r l a n t e d e s o c t e t s | C N R S l e j o u r n a l

Donne r du s ens à l a s c i enc e

S u i v r e

R e c he r c he r S e c onne c t e r / S ' i n s c r i r e

S O C I É T É S U N I V E R S

T y pe s

V I V A N T M A T I È R E T E R R E NUMÉ R I QU E

M E S T H È M E S

Pa r t a g e r l ' a r t i c l e R e c he r c he r

Références

Documents relatifs

Qu’il s’agisse d’informations réelles sur un individu (son identité, le résultat de son travail, ses préférences, son comportement, son passé, ses besoins

Ioana Manolescu, D'Alembert seminary, March 14, 2012 4.. Web is the world’s single

Cette contribution est très importante pour notre rapport de recherche. La plupart de ses thématiques y sont traitées. La description multiple de ressources y est présentée grâce aux

 Web sémantique et web des données : mise en œuvre d’un projet.  Le standard FRBR des œuvres intellectuelles et de

UN PROJET BIG DATA AIRBUS PASSE AU BIG DATA AVEC ORACLE POUR L’ANALYSE DE SES ESSAIS EN VOL... LE STADE TOULOUSAIN RÉINVENTE

The given LOS GeoNames Weather service (getNearByWeather) augments a callers knowledge base with Linked Data according to the output pattern which is specified by means of a

First of all, we have generated an ontological infrastructure for the XBRL core, currently XBRL 2.1. It is composed by the ontologies resulting from mapping the XBRL core XML Schemas

Using linked metadata as semantic description of sensor data lever- ages the dynamic discovery, querying, exploration, navigation and combination of sensor data sources..