• Aucun résultat trouvé

systémique du niveau d’intégration du moléculaire au paysage

3. Concepts généraux et questionnements concernant les systèmes d’information à large échelle sur la biodiversité

3.4 Entrepôts de données et accès aux données

Dans le domaine de la biodiversité, c’est le GBIF qui est le plus avancé concernant la structuration d’accès à la donnée agrégée à large échelle. A l’heure actuelle, ce système d’information regroupe plus de 850 millions d’occurrences d’espèces directement accessibles37, et ces données sont de plus en plus réutilisées à des fins de recherche,

même si le nombre d’organismes publiant” (1110) semble bien inférieur au nombre probable de producteurs de ce type de données. Le GBIF améliore le développement de cette base

ouverte grâce notamment à des outils d’intégration de données (I. P. T. pour Integrated Publishing Toolkit) régulièrement mis à jour, et dont l’ergonomie et la simplicité ont permis le succès. Ils encouragent la complétion d’un maximum de métadonnées dans les formats et standards internationaux (E.M.L.38 pour Ecological Metadata Language notamment)

grâce à la génération de Data Papers depuis ces métadonnées, lorsque celles-ci sont suffisamment complètes. Ces Data Papers permettent de citer un jeu de données au même titre qu’une autre publication, valorisant ainsi le producteur, et pourraient devenir la norme. Jusqu’alors, ce système agrégatif ne permettait pas d’associer d’autres données que celles correspondant strictement à des observations de terrain (un taxon, un lieu, une date, un observateur) et une grande partie des informations issues de protocoles complexes ne pouvaient pas y être « entreposées ».

Récemment, le GBIF a proposé une première version d’un nouveau format d’échange appelé « sampling-event data » (Littéralement “données d'échantillonnage - événement”) : https://www.gbif.org/sampling-event-data. Ces « sampling-event data » décrivent les occurrences d'espèces dans le temps et dans l'espace en les associant aux descriptions de l'effort d'échantillonnage. De telles données sont aujourd’hui produites dans le cadre des milliers d'enquêtes environnementales, écologiques et sur les ressources naturelles, mais peu ou pas accessibles (il reste parfois uniquement un rapport sous format PDF au bout de quelques années). Les « sampling-event data » peuvent être des études ponctuelles ou des programmes de surveillance sur plus long terme. Ces données sont généralement quantitatives, calibrées et respectent certains protocoles (qui sont donc documentés et rattachés à ce nouveau format) afin que les changements et les tendances des populations puissent être détectés en reproduisant le protocole. Cette innovation obtenue par consensus est une avancée majeure par rapport aux données d'observation et de collecte opportunistes, qui constituent aujourd'hui la part la plus importante des données sur la biodiversité accessibles à tous. Enfin, ce format permet aussi, pour l’instant en format libre, d’y associer toute information de contexte ou de type moléculaire – génomique / métagénomique / protéomique / métabolomique. Les modalités de standardisation de ces nouveaux types d’information sont en cours de discussion et font l’objet de nombreux groupes de travail dans le cadre d’assemblées comme le T.D.W.G. Afin d'assurer une rétrocompatibilité du nouveau système, ce format intègre les prérequis du Darwin Core comme présenté par le GBIF dans la figure 7.

38 La norme la plus populaire pour la spécification des métadonnées est le langage EML (Ecological

Metadata Language), spécialement développé pour le domaine de l'écologie. Il est basé sur des travaux réalisés par la Société écologique d'Amérique (Michener et al., 1997, Applications écologiques)

Figure 7 : présentation sur le site du GBIF d’un schéma simplifié de la structure de « sampling-event data » Le format est détaillé dans le guide des meilleures pratiques pour les « sampling-event data »39. Le guide de publication d'IPT répertorie un certain

nombre de jeux de données d'exemples d'événements d'échantillonnage40

Il manque aujourd’hui le recul nécessaire pour juger de l’efficacité et de l’usage réel qui sera fait de ces nouveaux formats ; néanmoins, qu'il s'agisse d'études ponctuelles ou de programmes de surveillance, ils sont plébiscités et encouragés car les données provenant d'échantillonnages sont utilisables pour la recherche à large échelle et la gouvernance naissante au niveau mondial (I.P.B.E.S.41). Les « sampling-event data » permettent de

rendre comparables des analyses écologiques clés : écologie des populations et métapopulations, études phénologiques, écologie communautaire et tous autres

39 https://github.com/gbif/ipt/wiki/BestPracticesSamplingEventData#sampling-event-data. 40 https://github.com/gbif/ipt/wiki/samplingEventData#exemplar-datasets.

41 I.P.B.E.S. : Intergovernmental Science-Policy Platform on Biodiversity and Ecosystem Services

(Plateforme Intergouvernementale sur la Biodiversité et les Services Écosystémiques) https://www.ipbes.net/

changements dans la structure de la communauté définis par les nouvelles gammes de “variables essentielles de la biodiversité” (E.B.V.) (Pereira et al, 2013).

La mise au point de ces outils à l’international s’appuie au sein du GBIF sur des équipes de développement et de gestion de projets structurées, suffisamment dimensionnées et expérimentées, dont les actions et les postes sont pérennisés, ce qui est un fait rare dans de nombreuses infrastructures traitant de données sur la biodiversité. Récemment en France, les effectifs de l’équipe du GBIF France ont intégré l’U.M.S. “Patrinat”42 au sein de la nouvelle

Agence de la Biodiversité. Cette avancée organisationnelle devrait aider à démontrer le besoin de moyens pérennes en terme de développement et de déploiement de méthodes et outils mis en communs à large échelle, c’est-à-dire au niveau international.

D’autres infrastructures plus spécialisées apportent aussi leur contribution à ces efforts de standardisation, mais plus le schéma structurant et typant les données est complexes, plus il est difficile d’obtenir un consensus, ce qui fait qu’une majeure partie des données biologiques est aujourd’hui conservée avec une typologie peu organisée et standardisée, ou parfois tournée vers un objectif métier unique rendant moins aisée sa réutilisation (absence ou profusion de documentation, logiciels propriétaires, algorithmes de calculs opaques …) Parmi eux, OBIS (Ocean Biogeographic Information System) se présente comme un centre mondial d'échange de données et d'informations en libre accès sur la biodiversité marine pour la science, la conservation et le développement durable. Son système de qualification de la qualité des données et de leurs métadonnées est plus complexe que celui du GBIF, même si un corpus commun de standards de métadonnées et de données est utilisé de part et d’autre. Néanmoins, ces systèmes communiquent entre eux de manière très partielle et chaque infrastructure possède des lacunes différentes. Un autre réseau appelé EMODNET (European Marine Observation and Data Network), plus centré sur des thématiques de type océanographie physique, propose un accès notamment à des cartographies d’habitats à l’échelle européenne. Il est à noter que la précision des données proposées est variable car elle est issue pour partie de données calculées et de modèles prévisionnels. Un des problèmes majeurs de l’échange de données « agrégées » est que la qualité et donc “l’utilisabilité” de ces données restent encore peu documentées, alors que les utilisations peu rigoureuses et les agrégations douteuses se multiplient.

Tous ces réseaux échangent de manière parcellaire une partie de leurs observations, les freins principaux étant d’une part la normalisation des formats d’échange entre les parties prenantes (sans aller jusqu’à la standardisation) et le coût humain du traitement et de l’administration de ces données.

Concernant l’entreposage à long terme, et pour répondre aux nouvelles conditions d’éligibilité des appels à projets nationaux et européens, des archives ouvertes comme “HAL” (Hyper Articles en Ligne43) permettent aux chercheurs de présenter leur curriculum vitae et d’archiver

leur production scientifique. Elles ont été mises en place par les universités en s’appuyant sur les infrastructures proposées en France par le C.I.N.E.S. (Centre Informatique National de l’Enseignement Supérieur) ; celles-ci permettent (description officielle) :

● « D’assurer une large diffusion des résultats de la recherche.

● D’accroître la visibilité de la production scientifique des chercheurs, accessible librement.

● D’indexer cette production par la plupart des moteurs de recherche. ● D’offrir des services tels que la constitution de listes de publications. ● De garantir la pérennité des données stockées dans l'archive.

● De répondre aux exigences de la Commission Européenne dans le cadre du programme H2020 ».

L’autre fonctionnalité intéressante de HAL est de permettre l’archivage de versions de travail et donc, dans le cadre de la diffusion d’une prépublication qui pourrait être copiée, de valider l’antériorité d’un travail et de permettre un recours par le producteur spolié.

Enfin, certaines entreprises développent des « entrepôts de données » sous forme de réseaux sociaux (Academia, ResearchGate, RIO…) qui permettent de partager tout type de données et même des résultats « négatifs ». Les modèles économiques de ces structures sont souvent décriés et certains chercheurs appellent leurs collègues à les boycotter. Faut-il vraiment ignorer ces outils ? Voici la réponse laissée par un chercheur sur un forum : « Je ne le ferai pas pour deux raisons : d’abord, nombre de chercheurs, notamment au sud de la Méditerranée où il n’existe pas d’archives ouvertes publiques (ou bien où les chercheurs ne connaissent pas ces dernières), utilisent ces services privés. C’est souvent via ces sites qu’il est possible de prendre connaissance de l’existence de ces travaux. Ensuite, même si manifestement les consultations via HAL sont plus nombreuses, ces interfaces permettent de recevoir à intervalles réguliers des demandes d’articles (non déposés, seulement signalés) via ResearchGate et, un peu moins, par Academia. HAL aurait tout intérêt à se doter d’un bouton de demande d’article, même si certains doutent de l’efficacité d’un tel dispositif qui pourrait au contraire retenir les chercheurs de déposer leurs textes en libre accès, en se limitant au dépôt de leurs notices (éventuellement le texte étant déposé mais sous embargo). Les recommandations émergentes sont d’utiliser exclusivement et prioritairement HAL pour les dépôts, et d’utiliser les réseaux sociaux scientifiques (et les autres, notamment Twitter) pour leur fonction d’aide à la diffusion, en particulier dans les

sous-communautés disciplinaires et thématiques. Ces sites récupèrent automatiquement (notamment ResearchGate qui fait cela très bien) les nouveaux textes déposés sur HAL : il suffit de valider et d’activer ainsi le relais. »

A noter aussi que les dépôts via HAL, même s’ils demandent certaines informations obligatoires, n’imposent en fin de compte que très peu de formalisme, ce qui ne garantit en aucun cas la documentation suffisante de données pour une réutilisation potentielle. Cet état de fait est encore plus criant pour les réseaux sociaux pour lesquels les informations demandées sont minimalistes.