• Aucun résultat trouvé

L’EXPLOITATION DES DONNEES SCIENTIFIQUES

N/A
N/A
Protected

Academic year: 2022

Partager "L’EXPLOITATION DES DONNEES SCIENTIFIQUES"

Copied!
33
0
0

Texte intégral

(1)

Intervenant l mentions légales.

P. 1

l CNRS - MI

L’EXPLOITATION DES DONNEES SCIENTIFIQUES

3 Juillet 2012

Mark Asch, INSMI-CNRS et Université de Picardie Jules Verne Journée BIG DATA - GFII

(2)

Intervenant l mentions légales.

P. 2

l CNRS - MI

MISSION POUR

LINTERDISCIPLINARITE

Juillet 2012

(3)

Intervenant l mentions légales.

P. 3

l CNRS - MI

Organisation du CNRS

3 pt

Conseil de politique européenne et internationale

Mission pour la place des femmes

Conseil d'administration

Agent comptable

principal

Agents comptables secondaires Fonctionnaire

de sécurité de défense

Président

Direction de l'audit interne

Comité d'éthique

Institut de physique (INP)

Institut national de physique nucléaire et de physique des particules (IN2P3) Institut des sciences biologiques

(INSB)

Institut des sciences humaines et sociales (INSHS) Institut écologie et environnement

(INEE) Institut de chimie

(INC)

Institut national des sciences mathéma- tiques et de leurs interactions (INSMI) Institut des sciences de l'information

et de leurs interactions (INS2I)

Institut national des sciences de l'Univers (INSU) Institut des sciences de l'ingénierie

et des systèmes (INSIS)

Délégations régionales Unités de recherche

Conseil scientifique

Sections - Commissions interdisciplinaires Conseils scientifiques

d'instituts

Comité national

Secrétariat général du Comité national

Mission pour l'interdisciplinarité

Très grands équipements

Direction générale déléguée à la science

Direction d'appui à la structuration territoriale de la recherche Direction Europe de la recherche

et coopération internationale Direction de l'innovation et des relations avec les entreprises

Direction information scientifique et technique

Mission pilotage et relations avec les délégations régionales et les instituts

Direction des systèmes d'information Direction des comptes et de l'information financière Direction de la stratégie financière, de l'immobilier et de la modernisation

Direction des ressources humaines

Direction des affaires juridiques

Coordination nationale de prévention et de sécurité

Cabinet

Direction générale déléguée aux ressources

Institut des sciences de la communication

Direction de la communication

Médiateur

(4)

Intervenant l mentions légales.

P. 4

l CNRS - MI

Organisation de la MI

l Un comité de pilotage de l ’ interdisciplinarité

Direction de la MI + 10 DAS II + ISCC + MRCT+DIRCOM+DIRE

→   Mise en place et suivi opérationnel des outils et des actions interdisciplinaires puis

→   Validation en Collège de Direction

(5)

Intervenant l mentions légales.

P. 5

l CNRS - MI

Les actions

l Les défis scientifiques

l L’interdisciplinarité en réseau l L’interdisciplinarité sur site l Les autres actions

Ouverture d’une boite à idées interdisciplinaires (ouverte à la communauté)

http://www.cnrs.fr/dgds/interdisciplinarité/boite-a-idees.php

(6)

Intervenant l mentions légales.

P. 6

l CNRS - MI

Les actions Les défis scientifiques

•   Actions de recherche long terme (> 5 ans) et à risque

•   Choix des équipes/unités engagées

•   Evaluation de l’avancement tous les ans

Le comité de pilotage examine les thématiques exploratoires et fait des propositions pour :

•   Promouvoir et soutenir des actions aux interfaces

•   Répondre à un besoin, un objet…

•   Favoriser l ’ émergence de nouveaux champs disciplinaires

Partenaires potentiels : Ÿ les grands organismes, Ÿ les industriels,

Ÿ les universités …

(7)

Intervenant l mentions légales.

P. 7

l CNRS - MI

Les défis scientifiques

l NEEDS: Nucléaire Energie Environnement Déchets et Société

l Défi SENS, Insuffisances perceptives et suppléances personnalisées l MASTODONS: Très Grandes Masses de Données Scientifiques l Biologie synthétique

l Nano-G3N: Graphène, Nouveaux paradigmes, Nanomédecine, Nanométrologie

Actions

NEEDS

SENS MASTODONS

Biologie Synthétique

Nano - G3N

(8)

Intervenant l mentions légales.

P. 8

l CNRS - MI

Les défis scientifiques

Actions

NEEDS

SENS

MASTODONS

Biologie Synthétique

Nano - G3N

MASTODONS: Très grandes masses de données scientifiques

Porteurs du défi : Mark Asch – Mokrane Bouzeghoub * Budget : 700 k €

Gestion et de lexploitation de grandes masses de données (mesures, texte, image, son, ...)

7 axes

1.  Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité.

2.  Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données.

3.  Visualisation de grandes masses de données.

4.  Extraction de connaissances, datamining et apprentissage.

5.  Problèmes de propriété, de droit d ’ usage, droit à l ’ oubli.

6.  Préservation/archivage des données pour les générations futures.

7.  Exploitation des grandes masses de données liées aux bases de données

scientifiques, réseaux sociaux, très gros corpus littéraires, et autres.

(9)

Intervenant l mentions légales.

P. 9

l CNRS - MI

Les défis scientifiques

Actions

NEEDS

SENS

MASTODONS

Biologie Synthétique

Nano - G3N

Résultats:

Nombre de laboratoires ou organismes ayant

postulé: 74

Nombre de laboratoires ou

organismes présents dans les projets sélectionnés :

43

Nombre de projets soumis: 37

Nombre de projets sélectionnés: 18

10 au titre de la qualité scientifique et du caractère ambitieux du projet 5 au titre de la qualité scientifique mais dont le projet était plus modeste 1 au titre de l'animation sur la préservation des données Nombre de projets financés 16

(après fusion de certains projets):

(10)

INS2I

Masses de Données Scientifiques: Quelques

Enjeux et Perspectives

MASTODONS

(11)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

11

Les données : une matière première et des produits à forte valeur ajoutée

n  Commerce et les affaires!

•  SI d’entreprise, transactions commerciales, systèmes de réservation, … !

n  Loisirs!

•  Musique, vidéo, jeux, réseaux sociaux…!

n  Sciences!

•  Astronomie, physique et énergie, génome, …!

n  Médecine!

•  Dossier médical, sécurité sociale, imagérie!

n  Environnement!

•  Climat, dév durable, pollution, alimentation,… !

n  Humanités et Sciences Sociales!

•  Numérisation du savoir (littérature, histoire,…), interactions dans les réseaux sociaux, données archéologiques…!

BD et fichiers d’entreprises Données WEB et

Réseaux Sociaux

Données de Capteurs

Données d’expériences

scientifiques

(12)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

12

Une petite idée des volumes de données

!

"

#$

%&'(

$ )'(

"

*

Volume Exemple 1 gigabyte

10 9

Information known in the human genome

1 terabyte 10 12

Annual world literature production

1 petabyte 10 15

All US academic research libraries

1 exabyte 10 18

Two thirds of annual world production of information

Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx

(13)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

13

Recherches en gestion de données

n  Un domaine très vaste, en interaction permanente avec toutes les autres disciplines des STIC!

•  Architectures machin( HPC), Réseaux, systèmes, GL, IA, différentes théories de l’informatique !

n  Un domaine qui se repositionne périodiquement!

•  En revisitant ses solutions à la lumière de nouvelles technos et de nouvelles idées!

•  En intégrant de nouveaux besoins et de nouveaux problèmes!

n  Un domaine interdisciplinaire!

•  Modélisation et simulation!

•  Apprentissage statistique!

•  Calcul haute performance!

•  Inférence logique !

Structures de tables Structures d’objets

Données semi-structurées (XML) Données multi-média

Données scientifiques Séries temporelles Flux de données / événements

Données de base

Données dérivées

(14)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

14

Caractéristiques

n  Des recherches principalement tirées par !

•  Des applications industrielles!

•  L’émergence de nouvelles technologies!

•  L’émergence de nouveaux usages!

n  Une recherche dominée (ou presque) par des labos industriels !!

•  Nombreuses  « success stories »!

•  Des laboratoires industriels de pointe!

ü  IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo!"

•  Une grande perméabilité entre monde

académique et monde industriel (en particulier

aux US, moins en Europe)!

(15)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

15

Les grands verrous dans la gestion des masses de données

1.  La virtualisation du stockage et de l’accès (Cloud).!

2.  L’intégration de données.!

3.  La gestion d’événements et de flots de données (event processing, data

streams).!

4.  L’analyse complexe à grande échelle.!

5.  La qualité et protection des données. !

6.  La visualisation/navigation des masses de données.!

7.  La préservation des données.!

(16)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

16

Défi 1 : Stockage à grande échelle (Cloud)

n  Bénéfices du Cloud!

•  Pas d’infrastructure à acquérir ni à gérer!

ü  « Pay as you go »"

•  Stockage massif de données (à moindre coût)!

ü  Coûts de stockage et d’utilisation réduits"

•  Accès anytime – anywhere via Internet!

ü  Ex: iCloud (Apple)"

•  Qualité de service!

ü  Disponibilité, sécurité"

•  Elasticité !

ü  absorbe facilement les charges lourdes ou soudaines"

n  Challenges du Cloud!

•  Indexation intelligente (sémantique)!

•  Sécurité et Confidentialité (privacy)!

•  Calcul haute performance (//)!

•  Cohérence et qualité des données ! D

C

Time

R

D C

R

(17)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

17

Défi 2 : Analyse complexe à grande échelle

n  Analyse en temps réel de flots continus de données émanant de différentes sources!

•  Ex: Découvrir et comprendre les patterns

caractéristiques du comportement des clients/

utilisateurs!

n  Réaction en temps réel à des événements d’alerte!

•  Ex: attaques sur le réseau !

n  Requêtes multidimensionnelles sur des grands ensembles de données!

•  Découvrir et comprendre des patterns en analysant le comportement d’une population!

•  Découvrir des corrélations entre phénomènes!

Divy Agrawal et al

VLDB Tutorial’2010

(18)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

18

Défi 3 : la gestion de flots d’événements

n  Capture d’événements!

•  Politique de détection et de composition (requêtes sur les évnts)!

•  Introduction d’incertitude sur l’arrivée des événements et sur le contenu de leurs messages!

•  Détection / simulation d’événements rares !

n  Réaction aux événements!

•  Politique de déclenchement, consommation, exécution (optimisation)!

•  Couplage transactionnel!

•  Analyse : confluence, terminaison!

n  Bufferisation!

•  Taille des fenêtres temporelles!

•  Stratégies de glissement ! n  Historisation!

•  Stockage massif!

•  Indexation!

•  Analyse complexe (analyse de séquences, motifs fréquents,…) !

!

Cible : intelligence ambiante,

réseaux sociaux, surveillance

temps réel, robotique,

bioinformatique.

(19)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

19

Défi 4 : La visualisation des masses de données

n  Besoins!

•  Navigation intuitive/contextuelle!

ü  desktop intelligent, réseaux sociaux, contenus MM"

•  Visualisation de phénomènes non perceptibles !

ü  Génome, trou noir"

•  Analyse visuelle!

ü  Découverte de connaissances"

n  Challenges !

•  Invention de nouvelles métaphores graphiques !

•  Algorithmes de graphes performants (//)!

ü  Optimisation de la visulaisation de grands graphes"

•  Clusterisation et stats de graphes !

•  Adaptation aux terminaux /équipements !

!

(20)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

20

Défi 5 : La préservation des données

n  Comment préserver les données à durée de vie illimité?!

•  connaissances scientifiques!

•  produits culturelles!

•  connaissances archéologiques et environnementales!

•  connaissances sociales (recensements)!

n  Comment préserver les données à durée de vie longue mais limitée!

•  patrimoine informationnel des entreprises!

•  Données personnelles (stockées dans les disques privés ou publiés sur le Web)!

•  Données publiques (fichiers sécu, police, …) !

n  Quel coût pour la préservation des données!

•  Coût de conversion des données (formats)!

•  Coût pour la migration des technologies!

•  Coût de maintien des technologies de niche!

n  Quelle stratégie pour les données gérées dans le Cloud ?!

Accroissement de l’hétérogénéité des MDD

Plus grandes

difficultés pour leur

intégration et leur

exploitation

(21)

Mokrane Bouzeghoub l DAS

INS2I

Institut des sciences informatiques et de leurs interactions

21

Conclusion

n  Fin de l’ère « One Size Fits All »!

•  Il faut offrir des architectures de données flexibles, avec des services de gestion de données adaptables à chaque type d’application/type de données!

n  Les SGBD ne sont plus visibles en tant que systèmes intégrés et cohérents!

•  les services de gestion de données sont enfouis dans des systèmes à plus forte valeur ajoutée (services métiers)!

n  Grands challenges des MDD!

•  Passage à l’échelle et calcul haute performance!

•  Virtualisation et indexation sémantique!

•  Requêtage, extraction des connaissances et visualisation!

•  Sécurité et protection de la vie privée !

(22)

Intervenant l mentions légales.

P. 22

l CNRS - MI

MISSION POUR

LINTERDISCIPLINARITE

Grand défi : MASTODONS

(23)

Intervenant l mentions légales.

P. 23

l CNRS - MI

Les défis scientifiques

Actions

NEEDS

SENS

MASTODONS

Biologie Synthétique

Nano - G3N

MASTODONS: Très grandes masses de données scientifiques

Porteurs du défi : Mark Asch – Mokrane Bouzeghoub * Budget : 700 k € en 2012

Gestion et de lexploitation de grandes masses de données (mesures, texte, image, son, ...)

7 axes

1.  Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité.

2.  Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données.

3.  Visualisation de grandes masses de données.

4.  Extraction de connaissances, datamining et apprentissage.

5.  Problèmes de propriété, de droit d ’ usage, droit à l ’ oubli.

6.  Préservation/archivage des données pour les générations futures.

7.  Exploitation des grandes masses de données liées aux bases de données

scientifiques, réseaux sociaux, très gros corpus littéraires, et autres.

(24)

Intervenant l mentions légales.

P. 24

l CNRS - MI

MASTODONS

Actions

NEEDS

Résumé

Nombre de laboratoires ou organismes ayant postulé: 74

Nombre de laboratoires ou organismes présents dans les projets sélectionnés : 43

Nombre de projets soumis: 37

Nombre de projets sélectionnés: 18

Nombre de projets financés (après fusion de certains projets):

10 au titre de la qualité scientifique et du caractère ambitieux du projet

5 au titre de la qualité scientifique mais dont le projet était plus modeste

1 au titre de l'animation sur la préservation des données

1- Projets fédérateurs :

Titre du projet Porteur UMR Impliquées Instituts/Organismes

DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation

particle physics experiments Kegl Balazs LAL, LIP, LRI IN2P3, INS2I

Gaia: l’origine et l’évolution de notre Galaxie : validation des données Arenou Frédéric GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI Projet IPSL-INRIA: production, distribution et analyse des résultats de simulations climatiques. (EPINES) Dufresne Jean-Louis IPSL, KerData INSU, INRIA

CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Montagnat Johan I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio‐Sémantiques Gallinari Patrick LIP6, CAMS, LIG, LIRIT, LATTICE INS2I, INSMI, INSHS

SABIOD : Scaled Acoustic BioDiversity Glotin Hervé LSIS, LIP6 INSB, INS2I

Grandes masses de données sismologiques: Exploration complète des grandes masses de données sismologiques:

études de l’intérieur de la Terre à partir des champs d’onde complexes Shapiro Nikolai IPGP, LJLL, Langevin INSU, INSMI, INSIS/INP

AMADEUS: Analysis of MAssive Data in Earth and Universe Sciences Analyse de données massives en Sciences de la

Terre et de l’Univers Maabout Sofian LABRI, LIRMM, LIF, CEREGE, LAM INS2I, INSU

PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d’observations astronomiques grand

champ Toumani Farouk LIMOS, LIRIS, LPC, APC, LAL INS2I/INSIS, IN2P3

Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Rivals Eric, Esther Pacitti LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE INS2I, INSB, INEE, INRA 2- Projets ciblés :

Titre du projet Porteur UMR Impliquées Instituts/Organismes

Projet SENSE : Socialized Network Science Jensen Pablo LP, LIP, IXXI, Max Weber INP, INS2I, INSHS

COMOTEX: COMmande temps réel de systèmes d'Optique adaptative à très grand nombre de degrés de liberté pour les

Télescopes EXtrêmement grands Le Roux Brice LAM, CEREA INSU, ONERA, ENPC

AMADOUER: Analyse de MAsse de DOnnées de l’Urbain et l’EnviRonnement Baskurt Attila LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS

PROSPECTOM: Etude visuelle et interactive des protéomes par apprentissage statistique et intégration des bases de

données et de connaissances spectrométriques et «omiques». Bisson Gilles LIG, iRTSV INS2I, INSB, CEA

Statistiques Crowdsourcing Biodiversité Julliard Romain MNHN, CMAP, CEFE INEE, INSMI, INRA

3- Projet d'Animation :

Titre du projet Porteur UMR Impliquées Instituts/Organismes

PREDON: La préservation et l’exploitation des données scientifiques à long terme Diacanou Cristinel CPPM, LPCCG, LAPP IN2P3 DEFI "MASTODONS"

16

(25)

Intervenant l mentions légales.

P. 25

l CNRS - MI

MASTODONS

Actions

NEEDS

Titre CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE

Porteur Montagnat Johan - johan@i3s.unice.fr - Laboratoire I3S d'Informatique, Signaux et Systèmes, Sophia-Antipolis UMR 7271 UMR I3S, LTSI, CREATIS, MIS

Instituts INS2I, INSIS, INSB, INSERM

Résumé

Le travail proposé intègre les moyens d’aligner des entrepôts distribués de données hétérogènes (médiation) de les unifier

(fédération), notamment à travers des outils d’interrogation (requêtes distribuées), et de les analyser (flots de données) sur

des infrastructures de calcul distribuées (Grilles, Clouds). Ce travail comprendra également une analyse sémantique du

domaine de l’imagerie médicale. Les principaux verrous scientifiques abordés sont : la représentation sémantique des

données d’imagerie médicale fondée sur des ontologies des différents domaines concernés, la gestion de sources de

données hétérogènes, la fédération d’entrepôts distribués, la performance des requêtes distribuées, la gestion de flots de

calculs distribués sur les cohortes de données, la cohérence des données distribuées afin de lier les instances relatives à

une même entité physiques potentiellement distribuées dans plusieurs entrepôts.

(26)

Intervenant l mentions légales.

P. 26

l CNRS - MI

MASTODONS

Actions

NEEDS

Titre Défis computationnels des séquençages et phénotypage haut-débit en science de la vie

Porteur Rivals Eric, Esther Pacitti - rivals@lirmm.fr, Esther.Pacitti@lirmm.fr - LIRMM, Montpellier - UMR 5506 UMR LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE

Instituts INS2I, INSB, INEE, INRA

Résumé

Les nouvelles technologies de Séquençage à Haut Débit (SHD) et Séquençage de Nouvelle Génération (NGS),

révolutionnent la manière dont sont posées et résolues les questions de recherches en science du vivant, par exemple, pour évaluer la biodiversité d’un espace on peut aujourd’hui séquencer l’ADN des espèces présentes. Une seule expérience de séquençage produit jusqu’à plusieurs centaines de millions de courtes séquences. Ces reads sont ensuite groupés en catégories représentant les espèces, et ainsi leur nombre et abondance relative permettent d’estimer la biodiversité. La question devient alors computationnelle. La mesure automatisée des phénotypes (caractères observables d’un organisme) permet d’identifier les conséquences de variations alléliques en termes de morphologie, de croissance ou de métabolisme dans un environnement donné.

Les verrous identifiés et visés comprennent :

– l’algorithmique du texte et des séquences (indexation, comparaison, compression) et son passage à l’échelle – l’exploitation des architectures parallèles (multi-coeurs, grille, cloud) pour l’analyse des données

– l’invention de nouvelles approches et algorithmes pour identifier variations génomiques, épigénomiques, transcriptomiques ou classifier les données du méta-génome

– le partage et la fouille de données à grande échelle

– l’intégration de données sur les versants technique et biologique (lien génotype-phénotype).

Axes de recherche : traitement primaire des séquences (algorithmique et parallélisme), prediction d’événements biologiques,

Partage et analyse de données (P2P)

(27)

Intervenant l mentions légales.

P. 27

l CNRS - MI

MASTODONS

Actions

NEEDS

Titre SABIOD : Scaled Acoustic BioDiversity

Porteur Glotin Hervé - glotin@univ-tln.fr - LSIS, Toulon. - UMR 7296 UMR LSIS, LIP6

Instituts INSB, INS2I

Résumé

L'observation et l'étude la biodiversité sont des enjeux majeurs de notre siècle, tant pour comprendre notre environnement,

et son évolution, que sa vulnérabilité face aux activités humaines. La bioacoustique, discipline émergente à l'interface de

l'écologie et la physique, analyse la trace acoustique directe (cri, chant, biosonar, etc) ou indirecte (leur déplacement ou

modification du milieu) laissée par une majorité d'espèces animales. Les axes de recherche traitent des grands thèmes

suivants : passage à l'échelle, clustering en ligne, classification, fouille de données, modélisation probabiliste non-

supervisée, analyse Bayésienne , adaptation de modèles en ligne, statistique de masse, indexation multi-échelle,

interprétation écologique, fusion de connaissances hétérogènes.

(28)

Intervenant l mentions légales.

P. 28

l CNRS - MI

MASTODONS

Actions

NEEDS

Titre ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio‐Sémantiques Porteur Gallinari Patrick - patrick.gallinari@lip6.fr - LIP6, Paris. - UMR 7606

UMR LIP6, CAMS, LIG, LIRIT, LATTICE Instituts INS2I, INSMI, INSHS

Résumé

Analyse et modélisation des réseaux sociaux. Le projet développera des outils et méthodes pour reconstruire à partir de

l'analyse de ces grands corpus textuels les réseaux dynamiques multipartites des contenus et des acteurs qui les

produisent, analysera et modélisera la structure de ces réseaux ainsi que les processus de diffusion d'information qu'ils

supportent, et enfin proposera des interfaces innovantes permettant de visualiser et d'interagir avec ces contenus Les défis

majeurs : taille des données, hétérogénéité et complexité des données, dynamicité et échelles de temps, interprétabilité des

résultats et interaction, défis des différents champs disciplinaires. Il s'agira notamment d'intégrer dans une même approche

des analyses à différentes échelles de temps et à travers plusieurs sphères du social reflétées par des corpus distincts

(tweets, blogs, pages web, articles de journaux, articles scientifiques, corpus juridiques) de manière à mieux comprendre les

différents types de dynamiques de nos sociétés.

(29)

Intervenant l mentions légales.

P. 29

l CNRS - MI

MASTODONS

Actions

NEEDS

Titre Gaia: l’origine et l’évolution de notre Galaxie : validation des données

Porteur Arenou Frédéric - Frederic.Arenou@obspm.fr - GEPI, Observatoire de Paris, MEUDON - UMR8111 UMR GEPI, IMCCE, PRISM, LMPP

Instituts INSU, INS2I, INSMI

Résumé

Consortium et collaborations entre les domaines de l'astrophysique, de l'informatique (BD, datamining) et les mathématiques

et statistiques pour permettre de résoudre les problèmes considérables posés par l’exploitation des données GAIA (projet de

cartographie 3D de notre galaxie). Developper des outils d'analyse multidimensionnelle adaptés aux grandes masses de

données (1 Pb) astrométriques, photométriques, spectrophotométriques, spectroscopiques.

(30)

Intervenant l mentions légales.

P. 30

l CNRS - MI

MASTODONS

Actions

NEEDS

Titre DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation particle physics experiments

Porteur Kegl Balazs - balazs.kegl@gmail.com - LAL, Orsay - UMR8607 UMR LAL, LIP, LRI

Instituts IN2P3, INS2I

Résumé

Consortium interdisciplinaire (physiciens, informaticiens) pour traitement de données issues du LHC (dizaine de

pétabytes/an). Trois thèmes: (1) la gestion de cycle de vie des données, placement optimal (2) l'analyse de données à

grande échelle, algorithmes MCMC sur grille (3) l'integration de données sur le comportement d'EGI (l'infrastructure de grille

européenne), Observatoire de Grille.

(31)

Intervenant l mentions légales.

P. 31

l CNRS - MI

MASTODONS

Actions

NEEDS

Résumé

Nombre de laboratoires ou organismes ayant postulé: 74

Nombre de laboratoires ou organismes présents dans les projets sélectionnés : 43

Nombre de projets soumis: 37

Nombre de projets sélectionnés: 18

Nombre de projets financés (après fusion de certains projets):

10 au titre de la qualité scientifique et du caractère ambitieux du projet

5 au titre de la qualité scientifique mais dont le projet était plus modeste

1 au titre de l'animation sur la préservation des données

1- Projets fédérateurs :

Titre du projet Porteur UMR Impliquées Instituts/Organismes

DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation

particle physics experiments Kegl Balazs LAL, LIP, LRI IN2P3, INS2I

Gaia: l’origine et l’évolution de notre Galaxie : validation des données Arenou Frédéric GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI Projet IPSL-INRIA: production, distribution et analyse des résultats de simulations climatiques. (EPINES) Dufresne Jean-Louis IPSL, KerData INSU, INRIA

CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Montagnat Johan I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio‐Sémantiques Gallinari Patrick LIP6, CAMS, LIG, LIRIT, LATTICE INS2I, INSMI, INSHS

SABIOD : Scaled Acoustic BioDiversity Glotin Hervé LSIS, LIP6 INSB, INS2I

Grandes masses de données sismologiques: Exploration complète des grandes masses de données sismologiques:

études de l’intérieur de la Terre à partir des champs d’onde complexes Shapiro Nikolai IPGP, LJLL, Langevin INSU, INSMI, INSIS/INP

AMADEUS: Analysis of MAssive Data in Earth and Universe Sciences Analyse de données massives en Sciences de la

Terre et de l’Univers Maabout Sofian LABRI, LIRMM, LIF, CEREGE, LAM INS2I, INSU

PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d’observations astronomiques grand

champ Toumani Farouk LIMOS, LIRIS, LPC, APC, LAL INS2I/INSIS, IN2P3

Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Rivals Eric, Esther Pacitti LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE INS2I, INSB, INEE, INRA 2- Projets ciblés :

Titre du projet Porteur UMR Impliquées Instituts/Organismes

Projet SENSE : Socialized Network Science Jensen Pablo LP, LIP, IXXI, Max Weber INP, INS2I, INSHS

COMOTEX: COMmande temps réel de systèmes d'Optique adaptative à très grand nombre de degrés de liberté pour les

Télescopes EXtrêmement grands Le Roux Brice LAM, CEREA INSU, ONERA, ENPC

AMADOUER: Analyse de MAsse de DOnnées de l’Urbain et l’EnviRonnement Baskurt Attila LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS PROSPECTOM: Etude visuelle et interactive des protéomes par apprentissage statistique et intégration des bases de

données et de connaissances spectrométriques et «omiques». Bisson Gilles LIG, iRTSV INS2I, INSB, CEA

Statistiques Crowdsourcing Biodiversité Julliard Romain MNHN, CMAP, CEFE INEE, INSMI, INRA

3- Projet d'Animation :

Titre du projet Porteur UMR Impliquées Instituts/Organismes

PREDON: La préservation et l’exploitation des données scientifiques à long terme Diacanou Cristinel CPPM, LPCCG, LAPP IN2P3 DEFI "MASTODONS"

16

(32)

Intervenant l mentions légales.

P. 32

l CNRS - MI

Conclusion et Perspectives

Actions

NEEDS

Année 2012 :

•  Mise en place et structuration de l’interdisciplinarité au CNRS.

•  Lancement de « grands défis » et de « projets exploratoires ».

Année 2013 :

•  Ouverture aux autres organismes de recherche (INSERM, INRA, INRIA, INSEE, …)

•  Ouverture aux entreprises et industries de l’information

(33)

Intervenant l mentions légales.

P. 33

l CNRS - MI

NEEDS

Références

Documents relatifs

Renseignez les informations relatives à l’adresse et indiquez la date effective du changement d’adresse avant de cliquer. sur

Nous avons donc comparé la façon dont nous sommes interrogés, dans nos recherches, par les connaissances des acteurs, en distinguant trois objectifs aux enquêtes que nous menons

« service » et « employe » créées précédemment. a) Afficher la jointure entre ces deux tables pour afficher le nom de l’employé et le nom de la ville. 2) Pour des

l’écoulement conduit à des fluctua- tions du signal photoacoustique d’une image à l’autre, et on peut alors mettre en œuvre un traitement d’images basé sur ces

1) Rappelez sans démonstration les équations horaires du mouvement puis l´équation cartésienne de la trajectoire. 2) Tracez ci-dessous l´aspect de la courbe et donnez l´expression

 Distribuée : le graphe global est construit au niveau de chaque site, donc chaque site reçoit tous les graphes locaux pour construire le graphe global.. 

•  Les données d’une application sont de plus en plus souvent distribuées entre plusieurs SGBD/serveurs.. •  Dans cette séquence,

utilisation de liens de poursuite `a partir de son site d’origine : utilisation de liens de poursuite `a partir de son site d’origine probl`eme de nombre de sites `a visiter avant de