Nathalie Aussenac-Gilles, Pascal Gaillard, Michelle Sibilla
Comité de Réflexion pour le partage et la valorisa6on des données de la recherche et la coordina6on de la Science Ouverte … à l’échelle de l’UFTMiP
Données de la recherche et Open Access :
Réflexions partagées par la communauté
toulousaine
A l’ATTENTION DES
pascal.gaillard@univ-tlse2.fr Nathalie.Aussenac-Gilles@irit.fr michelle.sibilla@irit.frPlan de la présentaPon
I. Des données à leur ouverture
II. IllustraPons des enjeux
III. Réflexions et AcPons du CéSO :
vers le partage et l’ouverture des résultats de la
recherche
IV. Conclusions et perspecPves
PARTIE I
–
Des données à leur ouverture
•
Quelles données sont concernées ?
•
Vers l’ouverture
•
Nécessité d’un accompagnement tout au long
du cycle de vie des données
•
Besoins d’environnement(s) support
•
Conclusion
Quelles sont les données concernées ?
DéfiniPon de l’OCDE des données de la recherche financée sur fonds publics (1) :
« Les «données de la recherche » sont définies comme des enregistrements factuels (chiffres, textes, images, sons) u6lisés comme sources principales pour la recherche
scien6fique et généralement reconnus par la communauté scien6fique comme nécessaires pour valider les résultats de la recherche. »
Quelles sont les données concernées ?
DéfiniPon de l’OCDE des données de la recherche financée sur fonds publics (1) :
« Les «données de la recherche » sont définies comme des enregistrements
factuels (chiffres, textes, images, sons) u6lisés comme
sources principales
pour la recherche scien6fique et généralement reconnus par la communauté
scien6fique comme nécessaires pour
valider
les résultats de la recherche. »
PUBLICATIONS
PRE-PRINTS POST-PRINTS D’OBSERVATION EXPERIMENTALES DE SIMULATION DERIVEES CODES MODELES ALGORITHMES DATA PAPERS TRAVAUX DE RECHERCHEDONNEES
(reviews) RESULTATS VALORISATIONAutres « données » partageables
Les « données » liées aux ac6vités scien6fiques
PUBLICATIONS
CODES
TRAVAUX DE RECHERCHE RESULTATSDONNEES
ACTIVITES SCIENTIFIQUES
CAHIERS DE LABORATOIRES ESSAIS PROCEDURES WORKFLOW « BONNES PRATIQUES » VALORISATIONCODES
DONNEES
PUBLICATIONS
PREMIER AXE : GÉNÉRALISER L’ACCÈS OUVERT AUX PUBLICATIONS REFERENTIELVers l’Ouverture
TRAVAUX DE RECHERCHE RESULTATS REFERENTIEL REFERENTIEL ARCHIVES VALORISATIONVers l’Ouverture
PUBLICATIONS
CODES
DONNEES
PREMIER AXE : GÉNÉRALISER L’ACCÈS OUVERT AUX PUBLICATIONS DEUXIÈME AXE : STRUCTURER ET OUVRIR LES DONNÉES DE LA RECHERCHE REFERENTIEL REFERENTIEL TRAVAUX DE RECHERCHE RESULTATS REFERENTIEL REFERENTIEL ENTREPOTS REFERENTIEL REFERENTIEL ENTREPOTS REFERENTIEL REFERENTIEL REFERENTIEL ARCHIVES VALORISATIONCODES
Vers l’Ouverture
PUBLICATIONS
DONNEES
PREMIER AXE : GÉNÉRALISER L’ACCÈS OUVERT AUX PUBLICATIONS DEUXIÈME AXE : STRUCTURER ET OUVRIR LES DONNÉES DE LA RECHERCHE REFERENTIEL REFERENTIEL Facilement TROUVABLES, ACCESSIBLES, INTEROPERABLES, REUTILISABLES TRAVAUX DE RECHERCHE RESULTATS REFERENTIEL REFERENTIEL ENTREPÔTS REFERENTIEL REFERENTIEL ENTREPÔTS REFERENTIEL REFERENTIEL REFERENTIEL ARCHIVES REGISTRES REGISTRES ONTOLOGIES VOCABULAIRES META-DONNEES DATASET VALORISATIONCODES
Vers des entrepôts généraux cerPfiés
PUBLICATIONS
DONNEES
PREMIER AXE : GÉNÉRALISER L’ACCÈS OUVERT AUX PUBLICATIONS DEUXIÈME AXE : STRUCTURER ET OUVRIR LES DONNÉES DE LA RECHERCHE TRAVAUX DE RECHERCHE RESULTATS ONTOLOGIES VOCABULAIRES VALORISATIONCODES
PUBLICATIONS
DONNEES
Exemple pour le domaine de la Biodiversité
TRAVAUX DE RECHERCHE RESULTATSVers des entrepôts spécifiques cerPfiés
VALORISATIONCODES
PUBLICATIONS
DONNEES
Exemple pour le domaine de la Biodiversité
TRAVAUX DE RECHERCHE RESULTATSVers des entrepôts spécifiques cerPfiés
VALORISATIONLes quesPons fusent …
C, E-C, Ing Etudiant.e.s Avec qui puis-je les partag er ?Où trouve
r des donn
ées ?
Combien de temps dois-je les conserver ?Où déposer mes
(méta)données ?
Quelles (méta)données uPlisées ?Quelles (méta)données
vais-je produire?
Quels ouPls puis-je uPliser pour les analyser?Quelles don
nées produi
re ?
Une gesFon nécessaire tout au long
du cycle de vie des données
C, E-C, Ing Etudiant.e.s Avec qui puis-je les partager ? Où trouver des données ? Combien de temps dois-je les conserver ? Où déposer mes (méta)données ? Quelles (méta)données uPlisé es ?Un point de départ :
le Plan de GesFon de Données (PGD)
OBLIGATION Data Set!
C, E-C, Ing Etudiant.e.s Data Paper ENTREPÔTS Avec qui puis-je les partager ? Où trouver des donn ées ? Combien de temps dois-je les conserver ? Où déposer mes (méta)données ? Quelles (méta)données uPlis ées ? PublicaPonNécessité d’un accompagnement tout
au long du cycle de vie des données
C, E-C, Ing Etudiant.e.s Avec qui puis-je les partager ? Où trouver des données ? Combien de temps dois-je les conserver ? Où déposer mes (méta)données ? Quelles (méta)données uPlisé es ? Source : Le Data Management Plan (DMP ou Plan de GesPon de Données (PGD) et OPIDoR. Collège de France – DirecPon des réseaux et partenaires documentaires – Département de bibliométrie et des ressources en ligneNécessité d’un accompagnement tout
au long du cycle de vie des données
C, E-C, Ing Etudiant.e.s Avec qui puis-je les partager ? Où trouver des données ? Combien de temps dois-je les conserver ? Où déposer mes (méta)données ? Quelles (méta)données uPlisé es ? Etablissement COMPETENC ES VARIEES POUR REALIS ER CETTE GES TIONC, E-C, Ing
SituaPon de gesPon des données de la
recherche (laboratoire)
Laboratoires
mulP-tutelles
C, E-C, Ing
SituaPon de gesPon des données de la
recherche (laboratoire)
Laboratoires
mulP-tutelles
mulP-sites
UNE COORDINATION EST SOUHAITABLE POUR UNE MEILLEURE EFFICACITE ET UTILISATION DES RESSOURCES SOUS-JACENTESC, E-C, Ing
SituaPon de gesPon des données de la
recherche (projet)
C, E-C, Ing C, E-C, Ing C, E-C, IngC, E-C, Ing
SituaPon de gesPon des données de la
recherche (projet)
C, E-C, Ing C, E-C, Ing C, E-C, Ing DATA MANAGEMENT PLANBesoins d’environnement(s) support
Infrastructure calcul et stockage Equipements Plateformes de travail collaboraPf REGISTRES (vocabulaires, metadonnées, ontologies) REFERENTIELS généralistes, disciplinaires, … d’établissement (?) SERVICES SUPPORTS (SensibilisaPon, formaPon, recommandaPons, bonnes praPques, ouPls…)Besoins d’environnement(s) support
Infrastructure calcul et stockage Equipements Plateformes de travail collaboraPf RÉFÉRENTIELS (vocabulaires, metadonnées, ontologies) REFERENTIELS généralistes, disciplinaires, … d’établissement (?) SERVICES SUPPORTS (SensibilisaPon, formaPon, recommandaPons, bonnes praPques, ouPls…) COÛTS FINAN CIERS ET ENVIRO NNEMENTAUXConclusion
•
Il faut BEAUCOUP de moyens :
accompagnements, supports, infrastructures
•
Chaque communauté scienPfique est plus ou
moins avancée et organisée
•
Même disparité au niveau des établissements
Comment gagner en efficacité ? en qualité ?
POUR TOUTES LES COMMUNAUTES SCIENTIFIQUES
tout en réduisant nos coûts ?
ParPe II -
+ Aller vers de la Data Driven Science + Disposer d’un écosystème + Partager des données, des expériences et en trouver beaucoup d’autres + Mieux connaître l'état des lieux et les iniPaPves + IniPer de nouvelles recherches (inter)disciplinaires + Se connaître (jusqu’à l’internaPonal) + Etre efficace + Valoriser les résultats + Porter une visibilité disciplinaire/communautaire + Aller vers une reconnaissance (acteurs de la SO, évaluaPon) + … C, E-C, Ing Etudiant.e.s
Enjeux scienPfiques
+ Aller vers de la Data Driven Science + Disposer d’un écosystème + Partager des données, des expériences et en trouver beaucoup d’autres + Mieux connaître l'état des lieux et les iniPaPves + IniPer de nouvelles recherches (inter)disciplinaires + Se connaître (jusqu’à l’internaPonal) + Etre efficace + Valoriser les résultats + Porter une visibilité disciplinaire/communautaire + Aller vers une reconnaissance (acteurs de la SO, évaluaPon) + … C, E-C, Ing Etudiant.e.s
Enjeux scienPfiques
Fouille de texte Mise en relaPon Découverte de connaissancesIST
EX
Fouille de données Classific aPon ApprenPssage AutomaPque . Recherche de régularités passées pour interpréter de nouvelles données . AlternaPves à la modélisaPon mathémaPque ou à la simulaPon . AnPciper des comportements, des+ Aller vers de la Data Driven Science + Disposer d’un écosystème + Partager des données, des expériences et en trouver beaucoup d’autres + Mieux connaître l'état des lieux et les iniPaPves + IniPer de nouvelles recherches (inter)disciplinaires + Se connaître (jusqu’à l’internaPonal) + Etre efficace + Valoriser les résultats + Porter une visibilité disciplinaire/communautaire + Aller vers une reconnaissance (acteurs de la SO, évaluaPon) + … C, E-C, Ing Etudiant.e.s
Enjeux scienPfiques
collecter ne^oyer analyser documenter stocker Archiver réuPliser infrastruc tures entrepots registres publicaPons Traces d’usages PraPques de recherche données Écosystème par domaine : Ecosystème de site :
+ Aller vers de la Data Driven Science + Disposer d’un écosystème + Partager des données, des expériences et en trouver beaucoup d’autres + Mieux connaître l'état des lieux et les iniPaPves + IniPer de nouvelles recherches (inter)disciplinaires + Se connaître (jusqu’à l’internaPonal) + Etre efficace + Valoriser les résultats + Porter une visibilité disciplinaire/communautaire + Aller vers une reconnaissance (acteurs de la SO, évaluaPon) + … C, E-C, Ing Etudiant.e.s
Enjeux scienPfiques
Fouille de données Classific aPon ApprenPssage AutomaPque Nouvelles recherches+ Aller vers de la Data Driven Science + Disposer d’un écosystème + Partager des données, des expériences et en trouver beaucoup d’autres + Mieux connaître l'état des lieux et les iniPaPves + IniPer de nouvelles recherches (inter)disciplinaires + Se connaître (jusqu’à l’internaPonal) + Etre efficace + Valoriser les résultats + Porter une visibilité disciplinaire/communautaire + Aller vers une reconnaissance (acteurs de la SO, évaluaPon) + … C, E-C, Ing Etudiant.e.s
Enjeux scienPfiques
Rendre visibles et accessibles ses données et ses publicaPons c’est • Amplifier leur visibilité • CirculaPon des métadonnées des portails vers des registres sans intervenPon du chercheur • Pouvoir reproduire les expériences des autres chercheurs • Mieux comparer les contribuPons • Gage de qualité des recherches MD Registres Portails MD MD+ Aller vers de la Data Driven Science + Disposer d’un écosystème + Partager des données, des expériences et en trouver beaucoup d’autres + Mieux connaître l'état des lieux et les iniPaPves + IniPer de nouvelles recherches (inter)disciplinaires + Se connaître (jusqu’à l’internaPonal) + Etre efficace + Valoriser les résultats + Porter une visibilité disciplinaire/communautaire + Aller vers une reconnaissance (acteurs de la SO, évaluaPon) + … C, E-C, Ing Etudiant.e.s
Enjeux scienPfiques
Sta6s6ques sur Google Dataset Search N. Noy, 2021+ Enjeu de visibilité des recherches (pôles, (inter)disciplinarité) + Image posiPve, cohérente et coordonnée + Réduire les disparités entre communautés scienPfiques (locales et naPonales) + Offrir des services de qualité, adaptés aux disciplines/communautés + Faciliter les acPvités (individuelles, projets, communautés) des chercheurs + RaPonaliser des moyens, des services, des compétences + Réduire les coûts + Approche responsable des points de vue éthique et environnement C, E-C, Ing Etudiant.e.s + Porter une visibilité disciplinaire/ communautaire simple + Partager des données, des expériences et en trouver beaucoup d’autres + Aller vers une reconnaissance (SO, évaluaPon) + Se connaître (jusqu’à l’internaPonal) + Mieux connaître l'état des lieux et les iniPaPves + IniPer de nouvelles recherches interdisciplinaires + Disposer d’un écosystème + Etre efficacité
Enjeux pour nos établissements
Etablissements, organismesParPe III -
Réflexions et acPons du CéSO
vers le partage et l’ouverture des
résultats de la recherche
•
Le CéSO et ses missions
•
OrganisaPon de la réflexion et de la coordinaPon
•
Premières iniPaPves, acPons et incitaPons
Le CéSO
• Validé par le Conseil des Membres de l’UFTMiP en Juin 2020 • Lancé en Septembre 2020 dans un conPnuum d’acPons engagées par certains établissements et disciplinestoulousaine
Accélérons l’adoption
de recommandations,
de standards, d’outils
en partageant nos
besoins, nos pratiques,
nos compétences dans
un cadre coordonné.
Les missions du CéSO
• COORDONNER une campagne de sensibilisaPon/formaPon à la Science Ouverte
avec le réseau des bibliothèques
• PROPOSER une « poliPque de site » de gesPon des données de la recherche
(PGD) et ses déclinaisons (pôles/établissement/ laboratoires) avec l’aide des différents groupes de travail (existants ou à définir)
• IDENTIFIER des référenPels de données conformes aux préconisaPons
naPonales et européennes (FAIRisaPon), liés à des archives ouvertes (données de la recherche, publicaPon, …)
• PRECONISER une urbanisaPon des services autour de ces entrepôts de données
• COORDONNER, SUSCITER, STIMULER des réponses aux appels à projets
naPonaux et européens pour assurer la présence du site sur les AAP les plus importants … en collaboraPon avec l’alliance académique
Cadre de réflexion et de coordinaPon
REPRESENTATIVITE
ORGANISATION INTERACTIONS
REPRESENTATIVITE ORGANISATION INTERACTIONS (INTER)DISCIPLINA IRE/PLATEFORME 53% DOCUMENTATION 20% FORMATION 7% RELATIONS (Région -> InternaPonal) 10% UTFMiP 10% ComposiFon du CéSO (30 membres)
Une représentaPvité large
REPRESENTATIVITE ORGANISATION INTERACTIONS (INTER)DISCIPLINAI RE/PLATEFORME 53% DOCUMENTATION 20% FORMATION 7% RELATIONS (Région -> InternaPonal) 10% UTFMiP 10% ComposiFon du CéSO (30 membres)
PÔLES STRUCTURES PLATEFORMES
H-SHS MSHS-T PUD-T PROGEDO
DSPEG TSE Lab Exp
UPEE OMP DATA TERRA
BABS IFERISS, INSERM GENOTOUL MST2I FédéraPon FERMAT CALMIP SDM InsPtut de Chimie
Transversal ANITI Alliance dataNooS
Une représentaPvité large
REPRESENTATIVITE ORGANISATION INTERACTIONS (INTER)DISCIPL INAIRE/ PLATEFORME 53% DOCUMENTAT ION 20% FORMATION 7% RELATIONS (Région -> InternaPonal) 10% UTFMiP 10% ComposiFon du CéSO (30 membres) FEUILLE DE ROUTE ET COMMUNICATION SENSIBILISATION FORMATION ETAT DES LIEUX CHARTE FEUILLE DE ROUTE ET COMMUNI CATION SENSIBILI SATION
FORMATION ETAT DES LIEUX
CHARTE
Groupes de travail
REPRESENTATIVITE ORGANISATION INTERACTIONS (INTER)DISCIPL INAIRE/ PLATEFORME 53% DOCUMENTAT ION 20% FORMATION 7% RELATIONS (Région -> InternaPonal) 10% UTFMiP 10% ComposiFon du CéSO (30 membres) FEUILLE DE ROUTE ET COMMUNICATION SENSIBILISATION FORMATION ETAT DES LIEUX CHARTE FEUILLE DE ROUTE ET COMMUNI CATION SENSIBILI SATION
FORMATION ETAT DES LIEUX
CHARTE
Groupes de travail
OrganisaPon parPcipaPve
REPRESENTATIVITE
ORGANISATION INTERACTIONS
IN SITU EX SITU