Intervenant l mentions légales.
P. 1
l CNRS - MI
L’EXPLOITATION DES DONNEES SCIENTIFIQUES
3 Juillet 2012
Mark Asch, INSMI-CNRS et Université de Picardie Jules Verne Journée BIG DATA - GFII
Intervenant l mentions légales.
P. 2
l CNRS - MI
MISSION POUR
L ’ INTERDISCIPLINARITE
Juillet 2012
Intervenant l mentions légales.
P. 3
l CNRS - MI
Organisation du CNRS
3 pt
Conseil de politique européenne et internationale
Mission pour la place des femmes
Conseil d'administration
Agent comptable
principal
Agents comptables secondaires Fonctionnaire
de sécurité de défense
Président
Direction de l'audit interne
Comité d'éthique
Institut de physique (INP)
Institut national de physique nucléaire et de physique des particules (IN2P3) Institut des sciences biologiques
(INSB)
Institut des sciences humaines et sociales (INSHS) Institut écologie et environnement
(INEE) Institut de chimie
(INC)
Institut national des sciences mathéma- tiques et de leurs interactions (INSMI) Institut des sciences de l'information
et de leurs interactions (INS2I)
Institut national des sciences de l'Univers (INSU) Institut des sciences de l'ingénierie
et des systèmes (INSIS)
Délégations régionales Unités de recherche
Conseil scientifique
Sections - Commissions interdisciplinaires Conseils scientifiques
d'instituts
Comité national
Secrétariat général du Comité national
Mission pour l'interdisciplinarité
Très grands équipements
Direction générale déléguée à la science
Direction d'appui à la structuration territoriale de la recherche Direction Europe de la recherche
et coopération internationale Direction de l'innovation et des relations avec les entreprises
Direction information scientifique et technique
Mission pilotage et relations avec les délégations régionales et les instituts
Direction des systèmes d'information Direction des comptes et de l'information financière Direction de la stratégie financière, de l'immobilier et de la modernisation
Direction des ressources humaines
Direction des affaires juridiques
Coordination nationale de prévention et de sécurité
Cabinet
Direction générale déléguée aux ressources
Institut des sciences de la communication
Direction de la communication
Médiateur
Intervenant l mentions légales.
P. 4
l CNRS - MI
Organisation de la MI
l Un comité de pilotage de l ’ interdisciplinarité
Direction de la MI + 10 DAS II + ISCC + MRCT+DIRCOM+DIRE
→ Mise en place et suivi opérationnel des outils et des actions interdisciplinaires puis
→ Validation en Collège de Direction
Intervenant l mentions légales.
P. 5
l CNRS - MI
Les actions
l Les défis scientifiques
l L’interdisciplinarité en réseau l L’interdisciplinarité sur site l Les autres actions
Ouverture d’une boite à idées interdisciplinaires (ouverte à la communauté)
http://www.cnrs.fr/dgds/interdisciplinarité/boite-a-idees.php
Intervenant l mentions légales.
P. 6
l CNRS - MI
Les actions Les défis scientifiques
• Actions de recherche long terme (> 5 ans) et à risque
• Choix des équipes/unités engagées
• Evaluation de l’avancement tous les ans
Le comité de pilotage examine les thématiques exploratoires et fait des propositions pour :
• Promouvoir et soutenir des actions aux interfaces
• Répondre à un besoin, un objet…
• Favoriser l ’ émergence de nouveaux champs disciplinaires
Partenaires potentiels : les grands organismes, les industriels,
les universités …
Intervenant l mentions légales.
P. 7
l CNRS - MI
Les défis scientifiques
l NEEDS: Nucléaire Energie Environnement Déchets et Société
l Défi SENS, Insuffisances perceptives et suppléances personnalisées l MASTODONS: Très Grandes Masses de Données Scientifiques l Biologie synthétique
l Nano-G3N: Graphène, Nouveaux paradigmes, Nanomédecine, Nanométrologie
Actions
NEEDS
SENS MASTODONS
Biologie Synthétique
Nano - G3N
Intervenant l mentions légales.
P. 8
l CNRS - MI
Les défis scientifiques
Actions
NEEDS
SENS
MASTODONS
Biologie Synthétique
Nano - G3N
MASTODONS: Très grandes masses de données scientifiques
Porteurs du défi : Mark Asch – Mokrane Bouzeghoub * Budget : 700 k €
Gestion et de l ’ exploitation de grandes masses de données (mesures, texte, image, son, ...)
7 axes
1. Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité.
2. Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données.
3. Visualisation de grandes masses de données.
4. Extraction de connaissances, datamining et apprentissage.
5. Problèmes de propriété, de droit d ’ usage, droit à l ’ oubli.
6. Préservation/archivage des données pour les générations futures.
7. Exploitation des grandes masses de données liées aux bases de données
scientifiques, réseaux sociaux, très gros corpus littéraires, et autres.
Intervenant l mentions légales.
P. 9
l CNRS - MI
Les défis scientifiques
Actions
NEEDS
SENS
MASTODONS
Biologie Synthétique
Nano - G3N
Résultats:
Nombre de laboratoires ou organismes ayant
postulé: 74
Nombre de laboratoires ou
organismes présents dans les projets sélectionnés :
43
Nombre de projets soumis: 37
Nombre de projets sélectionnés: 18
10 au titre de la qualité scientifique et du caractère ambitieux du projet 5 au titre de la qualité scientifique mais dont le projet était plus modeste 1 au titre de l'animation sur la préservation des données Nombre de projets financés 16
(après fusion de certains projets):
INS2I
Masses de Données Scientifiques: Quelques
Enjeux et Perspectives
MASTODONS
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
11
Les données : une matière première et des produits à forte valeur ajoutée
n Commerce et les affaires!
• SI d’entreprise, transactions commerciales, systèmes de réservation, … !
n Loisirs!
• Musique, vidéo, jeux, réseaux sociaux…!
n Sciences!
• Astronomie, physique et énergie, génome, …!
n Médecine!
• Dossier médical, sécurité sociale, imagérie!
n Environnement!
• Climat, dév durable, pollution, alimentation,… !
n Humanités et Sciences Sociales!
• Numérisation du savoir (littérature, histoire,…), interactions dans les réseaux sociaux, données archéologiques…!
BD et fichiers d’entreprises Données WEB et
Réseaux Sociaux
Données de Capteurs
Données d’expériences
scientifiques
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
12
Une petite idée des volumes de données
!
"
#$
%&'(
$ )'(
"
*
Volume Exemple 1 gigabyte
10 9
Information known in the human genome
1 terabyte 10 12
Annual world literature production
1 petabyte 10 15
All US academic research libraries
1 exabyte 10 18
Two thirds of annual world production of information
Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
13
Recherches en gestion de données
n Un domaine très vaste, en interaction permanente avec toutes les autres disciplines des STIC!
• Architectures machin( HPC), Réseaux, systèmes, GL, IA, différentes théories de l’informatique !
n Un domaine qui se repositionne périodiquement!
• En revisitant ses solutions à la lumière de nouvelles technos et de nouvelles idées!
• En intégrant de nouveaux besoins et de nouveaux problèmes!
n Un domaine interdisciplinaire!
• Modélisation et simulation!
• Apprentissage statistique!
• Calcul haute performance!
• Inférence logique !
Structures de tables Structures d’objets
Données semi-structurées (XML) Données multi-média
Données scientifiques Séries temporelles Flux de données / événements
Données de base
Données dérivées
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
14
Caractéristiques
n Des recherches principalement tirées par !
• Des applications industrielles!
• L’émergence de nouvelles technologies!
• L’émergence de nouveaux usages!
n Une recherche dominée (ou presque) par des labos industriels !!
• Nombreuses « success stories »!
• Des laboratoires industriels de pointe!
ü IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo!"
• Une grande perméabilité entre monde
académique et monde industriel (en particulier
aux US, moins en Europe)!
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
15
Les grands verrous dans la gestion des masses de données
1. La virtualisation du stockage et de l’accès (Cloud).!
2. L’intégration de données.!
3. La gestion d’événements et de flots de données (event processing, data
streams).!
4. L’analyse complexe à grande échelle.!
5. La qualité et protection des données. !
6. La visualisation/navigation des masses de données.!
7. La préservation des données.!
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
16
Défi 1 : Stockage à grande échelle (Cloud)
n Bénéfices du Cloud!
• Pas d’infrastructure à acquérir ni à gérer!
ü « Pay as you go »"
• Stockage massif de données (à moindre coût)!
ü Coûts de stockage et d’utilisation réduits"
• Accès anytime – anywhere via Internet!
ü Ex: iCloud (Apple)"
• Qualité de service!
ü Disponibilité, sécurité"
• Elasticité !
ü absorbe facilement les charges lourdes ou soudaines"
n Challenges du Cloud!
• Indexation intelligente (sémantique)!
• Sécurité et Confidentialité (privacy)!
• Calcul haute performance (//)!
• Cohérence et qualité des données ! D
C
Time
R
D C
R
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
17
Défi 2 : Analyse complexe à grande échelle
n Analyse en temps réel de flots continus de données émanant de différentes sources!
• Ex: Découvrir et comprendre les patterns
caractéristiques du comportement des clients/
utilisateurs!
n Réaction en temps réel à des événements d’alerte!
• Ex: attaques sur le réseau !
n Requêtes multidimensionnelles sur des grands ensembles de données!
• Découvrir et comprendre des patterns en analysant le comportement d’une population!
• Découvrir des corrélations entre phénomènes!
Divy Agrawal et al
VLDB Tutorial’2010
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
18
Défi 3 : la gestion de flots d’événements
n Capture d’événements!
• Politique de détection et de composition (requêtes sur les évnts)!
• Introduction d’incertitude sur l’arrivée des événements et sur le contenu de leurs messages!
• Détection / simulation d’événements rares !
n Réaction aux événements!
• Politique de déclenchement, consommation, exécution (optimisation)!
• Couplage transactionnel!
• Analyse : confluence, terminaison!
n Bufferisation!
• Taille des fenêtres temporelles!
• Stratégies de glissement ! n Historisation!
• Stockage massif!
• Indexation!
• Analyse complexe (analyse de séquences, motifs fréquents,…) !
!
Cible : intelligence ambiante,
réseaux sociaux, surveillance
temps réel, robotique,
bioinformatique.
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
19
Défi 4 : La visualisation des masses de données
n Besoins!
• Navigation intuitive/contextuelle!
ü desktop intelligent, réseaux sociaux, contenus MM"
• Visualisation de phénomènes non perceptibles !
ü Génome, trou noir"
• Analyse visuelle!
ü Découverte de connaissances"
n Challenges !
• Invention de nouvelles métaphores graphiques !
• Algorithmes de graphes performants (//)!
ü Optimisation de la visulaisation de grands graphes"
• Clusterisation et stats de graphes !
• Adaptation aux terminaux /équipements !
!
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
20
Défi 5 : La préservation des données
n Comment préserver les données à durée de vie illimité?!
• connaissances scientifiques!
• produits culturelles!
• connaissances archéologiques et environnementales!
• connaissances sociales (recensements)!
n Comment préserver les données à durée de vie longue mais limitée!
• patrimoine informationnel des entreprises!
• Données personnelles (stockées dans les disques privés ou publiés sur le Web)!
• Données publiques (fichiers sécu, police, …) !
n Quel coût pour la préservation des données!
• Coût de conversion des données (formats)!
• Coût pour la migration des technologies!
• Coût de maintien des technologies de niche!
n Quelle stratégie pour les données gérées dans le Cloud ?!
Accroissement de l’hétérogénéité des MDD
Plus grandes
difficultés pour leur
intégration et leur
exploitation
Mokrane Bouzeghoub l DAS
INS2I
Institut des sciences informatiques et de leurs interactions
21
Conclusion
n Fin de l’ère « One Size Fits All »!
• Il faut offrir des architectures de données flexibles, avec des services de gestion de données adaptables à chaque type d’application/type de données!
n Les SGBD ne sont plus visibles en tant que systèmes intégrés et cohérents!
• les services de gestion de données sont enfouis dans des systèmes à plus forte valeur ajoutée (services métiers)!
n Grands challenges des MDD!
• Passage à l’échelle et calcul haute performance!
• Virtualisation et indexation sémantique!
• Requêtage, extraction des connaissances et visualisation!
• Sécurité et protection de la vie privée !
Intervenant l mentions légales.
P. 22
l CNRS - MI
MISSION POUR
L ’ INTERDISCIPLINARITE
Grand défi : MASTODONS
Intervenant l mentions légales.
P. 23
l CNRS - MI
Les défis scientifiques
Actions
NEEDS
SENS
MASTODONS
Biologie Synthétique
Nano - G3N
MASTODONS: Très grandes masses de données scientifiques
Porteurs du défi : Mark Asch – Mokrane Bouzeghoub * Budget : 700 k € en 2012
Gestion et de l ’ exploitation de grandes masses de données (mesures, texte, image, son, ...)
7 axes
1. Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité.
2. Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données.
3. Visualisation de grandes masses de données.
4. Extraction de connaissances, datamining et apprentissage.
5. Problèmes de propriété, de droit d ’ usage, droit à l ’ oubli.
6. Préservation/archivage des données pour les générations futures.
7. Exploitation des grandes masses de données liées aux bases de données
scientifiques, réseaux sociaux, très gros corpus littéraires, et autres.
Intervenant l mentions légales.
P. 24
l CNRS - MI
MASTODONS
Actions
NEEDS
Résumé
Nombre de laboratoires ou organismes ayant postulé: 74
Nombre de laboratoires ou organismes présents dans les projets sélectionnés : 43
Nombre de projets soumis: 37
Nombre de projets sélectionnés: 18
Nombre de projets financés (après fusion de certains projets):
10 au titre de la qualité scientifique et du caractère ambitieux du projet
5 au titre de la qualité scientifique mais dont le projet était plus modeste
1 au titre de l'animation sur la préservation des données
1- Projets fédérateurs :
Titre du projet Porteur UMR Impliquées Instituts/Organismes
DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation
particle physics experiments Kegl Balazs LAL, LIP, LRI IN2P3, INS2I
Gaia: l’origine et l’évolution de notre Galaxie : validation des données Arenou Frédéric GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI Projet IPSL-INRIA: production, distribution et analyse des résultats de simulations climatiques. (EPINES) Dufresne Jean-Louis IPSL, KerData INSU, INRIA
CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Montagnat Johan I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio‐Sémantiques Gallinari Patrick LIP6, CAMS, LIG, LIRIT, LATTICE INS2I, INSMI, INSHS
SABIOD : Scaled Acoustic BioDiversity Glotin Hervé LSIS, LIP6 INSB, INS2I
Grandes masses de données sismologiques: Exploration complète des grandes masses de données sismologiques:
études de l’intérieur de la Terre à partir des champs d’onde complexes Shapiro Nikolai IPGP, LJLL, Langevin INSU, INSMI, INSIS/INP
AMADEUS: Analysis of MAssive Data in Earth and Universe Sciences Analyse de données massives en Sciences de la
Terre et de l’Univers Maabout Sofian LABRI, LIRMM, LIF, CEREGE, LAM INS2I, INSU
PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d’observations astronomiques grand
champ Toumani Farouk LIMOS, LIRIS, LPC, APC, LAL INS2I/INSIS, IN2P3
Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Rivals Eric, Esther Pacitti LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE INS2I, INSB, INEE, INRA 2- Projets ciblés :
Titre du projet Porteur UMR Impliquées Instituts/Organismes
Projet SENSE : Socialized Network Science Jensen Pablo LP, LIP, IXXI, Max Weber INP, INS2I, INSHS
COMOTEX: COMmande temps réel de systèmes d'Optique adaptative à très grand nombre de degrés de liberté pour les
Télescopes EXtrêmement grands Le Roux Brice LAM, CEREA INSU, ONERA, ENPC
AMADOUER: Analyse de MAsse de DOnnées de l’Urbain et l’EnviRonnement Baskurt Attila LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS
PROSPECTOM: Etude visuelle et interactive des protéomes par apprentissage statistique et intégration des bases de
données et de connaissances spectrométriques et «omiques». Bisson Gilles LIG, iRTSV INS2I, INSB, CEA
Statistiques Crowdsourcing Biodiversité Julliard Romain MNHN, CMAP, CEFE INEE, INSMI, INRA
3- Projet d'Animation :
Titre du projet Porteur UMR Impliquées Instituts/Organismes
PREDON: La préservation et l’exploitation des données scientifiques à long terme Diacanou Cristinel CPPM, LPCCG, LAPP IN2P3 DEFI "MASTODONS"
16