• Aucun résultat trouvé

Engager une réflexion collective sur la gestion des données

2 OUVRIR ET DIFFUSER LES DONNEES

4.3 Engager une réflexion collective sur la gestion des données

Les pratiques décrites ci-dessus, menées bien souvent à titre individuel ou dans un cercle réduit de chercheurs, vont se distinguer des initiatives menées en collectivité qui bénéficient d’une reconnaissance institutionnelle.

4.3.1 Valoriser avant et pendant la collecte des données

Les données peuvent être objet d’une initiative très réfléchie par une collectivité de chercheurs au sein d’un programme à portée nationale (ANR) ou par des équipes ayant le soutien de leur institution. Ces initiatives ne sont plus rares aujourd’hui et doivent prendre une ampleur dans les années à venir, bien qu’il reste difficile à imaginer une participation massive des équipes à taille réduite qui éprouvent beaucoup de peine, à cause du manque de ressources humaines et matérielles, à être porteurs de projets candidats aux « Labex ».

Mais, parfois, le simple recrutement d’ingénieurs de recherches à profil « Humanités numériques » permet au laboratoire de s’engager dans la voie de la valorisation. Dans ces cas, une démarche à deux temps oriente souvent ces initiatives, si le laboratoire porteur du projet a, au préalable, des données stockées qu’il souhaite valoriser. Une démarche visant ces données « anciennes » et une démarche visant l’élaboration d’un plan de gestion pour les données en cours de création ou à être créés. Dans ces cas les données sont valorisées à travers une structuration en bases de données dans des plateformes élaborées pour permettre un accès et des recherches faciles.

« Au sein de son laboratoire ils sont plusieurs chercheurs à s’intéresser aux modalités d’exploitation des données produites par les chercheurs du laboratoire. Depuis 2005, une base de données recense tous les travaux des chercheurs du laboratoire et des quelques chercheurs à l’international travaillant sur la circulation migratoire, avec l’objectif de donner un accès intégral à un maximum de ressources.

La réflexion se transpose actuellement aux « données de la recherche ». L’activité scientifique du laboratoire se développe actuellement dans quatre axes de recherche, réunissant différentes compétences interdisciplinaires. La création d’un cinquième axe de recherche intitulée «axe méthodologique » est en cours de discussion au sein du laboratoire et verra certainement le jour.

L’objectif de sa création est d’intégrer à la réflexion méthodologique des chercheurs un volet sur la mutualisation et le partage des données au sein du laboratoire. Des groupes travaillent actuellement pour définir les besoins, les contraintes et les objectifs de ce projet visant, à terme, la mise en place d’un dispositif qui puisse concentrer et fédérer des données hétérogènes : quantitatives, qualitatives, observations de terrain. » (Géographie, entretien n° 23) [29, 40, 32, 33]

4.3.2 Enrichir les données

Intégrer des données dans des bases de données implique une attribution de métadonnées descriptives et permet différentes sortes d’enrichissements contextuels. Ces derniers ne sont pas à confondre avec la méthodologie de collecte et analyse de ces données dont la documentation est destinée à permettre leur correcte réutilisation.

« Un de ses travaux de recherche a impliqué la collecte d’une grande quantité de données dans les forums de presse en ligne. Ces données ont été ensuite intégrées à une base de données et enrichies d’autres données contextuelles (données sur les personnes, contexte de la collecte, données de l’INSEE, etc.). » (Sociologue, entretien n° 14) [11]

Des « bonnes » métadonnées sont la condition sine qua non d’une visibilité, accès, utilisation et curation des données. Les métadonnées deviennent objet central des préoccupations des équipes constituant des bases de données et des plateformes multimédias pour les exposer. Cette réflexion fait appel au travail collaboratif entre chercheurs, professionnels de l’information, bibliothécaires et informaticiens pour créer des métadonnées de bonne qualité si possible à partir de référentiels fiables déjà existants.

« Par la même occasion, deux ingénieurs de recherche spécialisés en humanités numériques sont recrutés et mettront en place un outil collaboratif de dépôt et partage des données (…) Les ingénieurs de recherche se chargeront de garantir la qualité des métadonnées descriptives, l’accessibilité des documents et leur diffusion au sein des laboratoires, mais chaque chercheur est libre de déposer ses données. »(Histoire, entretien n°29) [11]

4.3.3 Sensibiliser les chercheurs à traiter les données en amont

Les chercheurs peuvent être réticents à changer leurs modes de travail qui relèvent parfois d’approches assez personnalisées aux données produites, surtout dans des disciplines moins tenues de dévoiler leur méthodologie, comme l’histoire, par exemple. Ainsi, comme l’évoquent plusieurs chercheurs, les transformations des pratiques qui sont en cours grâce au numérique et aux technologies du Web doivent être objet d’un programme de sensibilisation capable de montrer les bénéfices découlant d’un travail en amont sur les données produites par la recherche. Ce programme pourrait se traduire par la formalisation et adoption des politiques d’archivage et gestion des données à l’intérieur du laboratoire.

« Actuellement, ils développent un projet de sensibilisation des collègues à la question du traitement des données : étapes et techniques d’anonymisation, contextualisation de ces données, enjeux liés au

partage et méthodologie. Ce projet a un caractère de « recommandations » non coercitives. » Sciences de l’Education, entretien n° 40) [29]

« Dans son laboratoire, elle mène, auprès des collègues, une campagne pour l’adoption des politiques d’archivage en vue de travailler conjointement les formats des données en garantissant leur pérennité.

Mais la question est loin d’être simple et il y a, à son sens, énormément de développements de politiques d’archivage et de sensibilisation à être réalisés en France. » (SIC, entretien n° 26)

« Elle développe actuellement un projet de numérisation d’archives orales, dont les résultats ne sont pas encore publics. Elle et le reste de cette équipe se sentent fortement concernés par la question des données de la recherche et de leur ouverture, même si cette question est loin d’être simple à appréhender.[…]Constituer et diffuser des fonds comme celui que cette équipe a pu constituer pose des questions d’ordre éthique, mais aussi d’ordre juridique, notamment vis-à-vis des règles fixées par la CNIL. S’ajoute à cela le problème financier, la numérisation d’archives orales étant une activité en général assez couteuse et les financements publics étant souvent difficiles à obtenir pour ce type d’initiative. » (Histoire, entretien n° 1)

4.3.4 Les principaux problèmes évoqués

 Accès aux données déposées dans les centres de données nationaux

 Accès aux micro-données des instituts de statistiques

 Infrastructures insuffisantes

 Politiques de gestion et archivage pas assez développées en France

En France les chercheurs produisant des données qualitatives manquent d’un véritable programme pour la gestion de ce type de données

5 Evolutions et perspectives

Nous proposons à présent de nous pencher sur quelques questions se détachant avec une force particulière dans ces entretiens et qui devront gagner en importance dans SHS dans les prochaines années. En effet, les principaux points de vue, situations et problèmes évoqués par les chercheurs concernant les données, permettent à présent d’engager une recherche active sur des réponses et tendances existantes, soit dans le contexte des SHS soit dans des contextes plus larges.

 Les problèmes liés aux données qualitatives qui constituent des pans entiers de matériaux à être réutilisés et/ou valorisés : comment, par exemple, répond-on aux difficultés d’une diffusion des données qualitatives en France ?

 Les formes possibles de publication des données : comment publie-t-on des données actuellement ?

 Les citations des jeux de données et les data metrics comme systèmes de mesure de l’impact des citations : Comment citer un jeu de données ou mesurer l’impact des citations ?

 Les questions juridiques impliquées dans le partage et réutilisation des données : comment commence-t-on à formuler les termes du cadre juridique des données de la recherche ?

 Traiter et documenter les données : comment préparer un plan de gestion ?

 Les quatre premiers points seront traités dans un premier temps (1), le cinquième dans un deuxième temps (2)

5.1 Scénarios possibles d’évolution à la question des