• Aucun résultat trouvé

3 – Intégration des données dans le Système d’Information du MNHN

Une fois définis les critères permettant de déterminer quels articles font partie de l’ensemble permettant d’évaluer la productivité scientifique du programme MUSORSTOM-TDSB, il s ’est agi de constituer les bases de données correspondantes et de les relier entre elles au sein du Système d’Information du MNHN. Cette entreprise a été conçue à la fois pour répondre aux besoins de cette thèse et pour rendre possibles d’autres usages des données ainsi rassemblées. La Figure ChapII-4 schématise la structure du Système d’Information du MNHN et fait figurer le traitement du matériel biologique et des autres données issues des expéditions ainsi que certains liens avec les bases de données externes.

La base de données BasExp a été conçue de sorte à fournir un référentiel géographique commun pour les expéditions dans lesquelles le MNHN est impliqué. La base est construite à partir de la liste des coordonnées géographiques des événements de collecte associés à une campagne (terrestre, fluviatile ou marine) (Figure ChapII-3).

Figure ChapII-3 – Les données liées aux campagnes océanographiques qui intégrées à différentes bases de données du Muséum: BasExp pour les données de contexte des collectes et les bases de données des collections pour les données taxonomiques.

Ces références géographiques alimentent ensuite les bases de données de collections dans lesquels les spécimens récoltés lors de ces campagnes sont inventoriés (Figure ChapII-3). La création de BasExp est le moyen de rassembler et de partager des informations fiables sur la provenance précise des spécimens déposés au MNHN à l’issue d’une campagne. Elle permet de fournir des informations standardisées à tous les secteurs de collections, et ce quelque soit le délai de traitement des spécimens après la campagne.

La base de données Basexp permet également de réunir tous les documents associés à une campagne : carnets de bord, demandes de campagne, comptes rendus de mission, fiches de valorisation, devis, photographies, etc…. Ces documents permettent de produire des ensembles d’informations jusqu’alors difficiles à rassembler sur le contexte des collectes, comme la liste des participants à la campagne et leur institution de rattachement, leur rôle à bord (chef de mission, collecteurs ou observateurs), les engins de pêche utilisés, ou encore des informations sur l’environnement, tirées par exemple des photographies des collectes réalisées sur le terrain.

Les bases de données de collections sont associées à des unités de gestion des collections organisées par taxon. Au MNHN, les animaux sont répartis en 25 groupes différents associés chacun à un code de collection spécifique. Parmi les ensembles qui accueillent le matériel des campagnes TDSB, on citera par exemple les Crustacés (IU), les échinodermes (IE), les Mollusques (IM), les cnidaires (IK), etc. Ces groupes taxonomiques correspondent grossièrement à de grands embranchements ou phylums. C’est ce code de collection qui est utilisé pour attribuer des spécialités taxonomiques aux participants et des taxons aux publications.

La base de données Refbiblio permet, en plus de gérer les éléments classiques d’une base de données bibliographiques (auteurs, titre, année, revue, résumé etc…), de caractériser les articles par les campagnes dont est issu le matériel étudié ainsi que par le secteur de collections dans lesquels les spécimens étudiés sont déposés (Figure ChapII-4). Cette base permet par exemple de mesurer la valorisation scientifique d’une campagne par le nombre d’articles produits ou encore de compter le nombre d’articles pour chaque auteur en fonction des campagnes dont provient le matériel étudié et du ou des groupe(s) taxonomique(s) qui lui sont associés.

Figure ChapII-4 BasExp dans le Système d’information des bases de données du Muséum. Les flèches grises indiquent une partie des liens avec des bases extérieures au muséum (base de données taxonomiques Worms : World Register of Marine Species, base d’inventaire de la biodiversité GBIF : Global Biodiversity Information Facility). Sur les flèches qui relient les bases sont indiqués en rouge l’information qui structure le flux d’information: ainsi, le lien entre BasExp et les bases de données collection sont les stations (qui code l’engin, la date, le lieu et la profondeur de la récolte). Le lien entre BasExp et RefBiblio est la campagne : c’est ce point d’ancrage qui permet d’obtenir la liste des références bibliographiques par code collection dans BasExp. La Médiathèque est la banque d’images du muséum. Si les images sont des photographies de spécimens qui ont un numéro d’inventaire car stockés dans la zoothèque du Muséum alors chaque image est liée à un numéro d’inventaire ce qui permet de la rattacher à la base de données collection. Si les images sont des photographies prises à bord de spécimens dont le numéro d’inventaire n’est pas encore attribué, ou qui illustrent le travail ou l’équipe à bord, alors un numéro de station (événement de collecte) et/ou le nom de la campagne sont associés à l’image, permettant ainsi d’être reliés à BasExp. Un autre lien est représenté sur cette figure, celui entre les bases de données de collections et la base moléculaire du Muséum, qui permet d’associer un numéro d’inventaire à des séquences d’ADN. Ces séquences, le numéro d’inventaire et l’identification taxonomique associés peuvent notamment alimenter la base de données BOLD (Barcode of Life Data system), externe au Muséum.

Les liens entre les bases de données dans le Système d’Information présenté en figure ChapII-4 permettent de croiser les données pour répondre aux questions traitées dans la suite de ce chapitre. Par exemple, les participants aux campagnes, documentés dans Basexp, peuvent être caractérisés par leur profil d’auteur défini au sein de Refbiblio, ce qui permet par exemple d’évaluer l’importance de la présence d’un spécialiste sur le terrain dans la valorisation ultérieure du matériel.

Les données réunies et présentées dans ce chapitre représentent un jeu de données de très grande taille : 83 campagnes et plus de 7200 stations, 267 participants et 1143 auteurs de 1579 publications, 3628 espèces nouvelles1, le tout sur une période de quarante ans. La représentation des données, leur constitution en plusieurs corpus, et leur analyse n’ont donc rien de trivial.

Dans un premier temps, c’est une approche métrique de la valorisation scientifique des campagnes au cours du temps a été menée. Cette approche permet de comparer la production scientifique des différentes campagnes, selon la date mais aussi la zone géographique, ainsi que la production scientifique associée aux différents secteurs de collections concernés par les récoltes.

Dans un deuxième temps, une méthode permettant de caractériser les communautés scientifiques impliquées dans la réalisation et la valorisation des campagnes a été déterminée. La taille et la complexité du jeu de données ne permettent pas d’en obtenir une représentation lisible à partir des approches multivariées classiques. La méthode d’analyse retenue consiste à représenter les données sous forme de réseaux et d’utiliser un algorithme d’exploration de la structure de ce réseau. L’objectif est ici d’identifier la structure des communautés (de participants ou d’auteurs) en fonction des campagnes. C’est une représentation en réseau bipartite qui a été privilégiée. Les deux ensembles qui sont mis en relation dans ce réseau bipartite sont les personnes et les campagnes. Le réseau est orienté des participants vers les campagnes. Une méthode exploratoire permettant d’identifier des communautés a été développée en collaboration avec Henry Soldano2. La structure du réseau ainsi mise en évidence peut ensuite être interprétée en utilisant des attributs caractérisant les éléments de chacun des deux ensembles. Par exemple, les campagnes peuvent être caractérisées par leur zone géographique ; les participants ou les auteurs peuvent être caractérisés par leur domaine

1 Dont le matériel type (holotype et/ou paratype(s)) est récolté pendant les campagnes TDSB 2 Dans le cadre des activités de l’Atelier de Bioinformatique, http://wwwabi.snv.jussieu.fr/

de spécialité taxonomique ou par le pays de leur institut de rattachement. Le choix des attributs permet d’évaluer la pertinence des hypothèses envisagées au chapitre 1 sur les facteurs qui conditionnent la représentation de la biodiversité issue de ces explorations naturalistes.

II - Evolution de la valorisation