• Aucun résultat trouvé

Relativiser le « déluge des données » à l’aune de l’histoire des sciences

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

96!Les!métadonnées!sont!les!données!qui!décrivent!les!données!brutes.!Sans!elles,!les!données!brutes!sont!

inutilisables.!

Si, comme nous l’avons vu dans la première partie de ce travail, les pratiques de la génomique rompent avec celles de la tradition biomédicale et de l’expérimentation, ce n’est pas pour autant qu’elles doivent être considérées comme absolument inédites. Pour l’historien de la biologie, Bruno Strasser, les bases de données et les biobanques s’inscrivent dans la lignée des innovations technologiques qui, historiquement, ont permis aux naturalistes d’ordonner le foisonnement du divers sensible (Strasser 2012). La prétention d’un certain nombre de pratiques à être considérées comme inédites ne résiste pas à l’étude historique, qui procède ici en trois temps.

Tout d’abord, l’argument de la quantité des données à l’ère postgénomique ne suffit pas, seul, à qualifier cette science de nouveau paradigme. Certes, les données fournies par la biologie moléculaire sont massives, mais les chercheurs ont aussi développé les moyens, notamment informatiques, de faire face à toutes ces données tandis que les naturalistes du XVIIème siècle qui devaient analyser la profusion de spécimens fraîchement débarqués du Nouveau Monde, disposaient de technologies bien moins sophistiquées. Il n’y a pas de sens à juger de la quantité des données indépendamment des moyens dont on dispose pour les traiter.

Une fois éliminée donc la question de la quantité des objets étudiés, il faut s’intéresser à leur nature. Tandis que les pratiques naturalistes portent sur des objets matériels, les biobanques d’aujourd’hui s’associent à des bases de données qui ont vocation à faire circuler des données virtuelles. Mais l’opposition est-elle aussi nette ? D’une part, Strasser nous rappelle que Linné ou Cuvier associaient aux spécimens qu’ils collectionnaient des notes, des dessins et relevés divers qui pourraient être conçus comme les équivalents des données numériques contemporaines produites à partir de collections de matériel biologique. Par ailleurs, et c’est le deuxième argument de cette comparaison, les chercheurs d’aujourd’hui ne sont pas encore

« libérés de la matière » (Bensaude-Vincent 2000). C’est toute la subtilité d’une technologie comme celle de la biobanque que de pouvoir associer matériel et virtuel, en multipliant les possibilités d’intégration entre l’un et l’autre ordre, grâce à un travail technique de mise en forme et l’adoption de multiples conventions.

Enfin, chez les défenseurs de la science pilotée par les données, tout se passe comme si la connaissance se constituait par agrégation de données, traitées statistiquement, sans hypothèse de départ (voire Big Data p.179). Pourtant, les hypothèses abondent en amont de ce travail :

- pour définir les objets, sur lesquels on s’accorde à l’issue d’un travail d’élaboration des ontologies biomédicales (Leonelli 2012a);

- pour déterminer la taille d’échantillons suffisante permettant de produire des résultats signifiants sur le plan statistique et, ce faisant, estimer le nombre de classes que les données révèleront (Keating and Cambrosio 2012) ;

- pour construire des populations pertinentes relativement à une question de recherche (Crubézy, Braga, and Larrouy 2008).

Ces questions posées par les biologistes d’aujourd’hui rappellent celles rencontrées par les savants d’hier. Le travail de définition et de classification posé par les biobanques et bases de données peut se lire à la lumière des travaux anciens, tels que ceux de Linné qui ne pouvait traiter l’avalanche de spécimens et de notes associées qui lui incombait, qu’en commençant par proposer l’hypothèse taxinomique, c’est-à-dire aussi ontologique, sur l’existence d’un ordre au sein du vivant (Müller-Wille and Charmantier 2012; Strasser 2012).

Sous bien des aspects, les pratiques des sciences génomiques et post-génomiques trouvent un écho dans celles de l’histoire naturelle. Pourtant l’on remarque un bouleversement lié à l’inversion de la priorité accordée au matériel sur le virtuel dans les nouvelles collections. Bien que les données renvoient toujours à des objets physiques, elles tendent toutefois à être conçues comme de plus en plus détachées de ces derniers au fur et à mesure de leur circulation ou de leur cycle de production. Ces remarques ont des conséquences à différents niveaux.

- D’abord, en termes épistémiques, c’est-à-dire à la fois en ce qui concerne les pratiques scientifiques et les croyances liées à ces pratiques. À l’évidence, en renforçant la croyance en l’objectivité scientifique, l’usage de la méthode statistique joue le rôle de valeur.

- Mais aussi en ce qui concerne l’organisation de la science puisqu’il faut dès lors se demander qui, du collectionneur (clinicien, biologiste ou anthropologue) ou du statisticien, doit être considéré comme le producteur légitime de savoir.

Pourquoi insistons-nous sur cette dimension ? Parce que la bioinformatique dépend des données, alors même que les professions de la collection tendent à perdre en légitimité. Or le crédit scientifique accordé aux différentes activités joue un rôle majeur dans la circulation des données.

En effet, il ne suffit pas d’identifier qui sont les collectionneurs de données, ceux d’autrefois comme ceux d’aujourd’hui, il faut aussi se demander comment ces collectionneurs mettent leurs données à disposition. Selon Strasser, l’histoire naturelle repose sur une économie morale de la donation. Traditionnellement, les naturalistes – qu’ils soient professionnels ou amateurs – ont donné leurs collections à des musées ou donné accès à leurs

collections personnelles afin que les spécimens soient exploitables par les savants. Il était alors légitime que ces derniers publiassent sous leur nom des travaux effectués à partir d’objets collectés par d’autres. En revanche, dans les sciences expérimentales, les données, même quand elles sont produites par des institutions publiques, sont traditionnellement tenues secrètes : leur usage ou interprétation est comme réservé à ceux qui les ont produites. Seules les interprétations liées à une sélection de ces données sont publiées sous forme d’articles97. L’idée qu’une personne puisse revendiquer le statut d’auteur pour une analyse de données issues du travail expérimental d’un tiers a pendant longtemps suscité de la résistance dans le milieu scientifique.

Cette histoire d’une nouvelle économie morale des données passe par la mise en place de politiques publiques, par des prises de position institutionnelles, par la construction d’outils et par un travail de communication sur la science (cf. « Le BRIF, un outil de reconnaissance des collectionneurs », p.178). Il s’agit de trouver les moyens de mettre en valeur un travail de collection qui, s’il avait été mis en valeur au temps des sciences médicales, avait largement perdu de sa légitimité scientifique à l’ère de l’expérimentation. En dépit des rapprochements pouvant être opérés entre les pratiques de recherche actuelles et certaines pratiques du passé, les chercheurs d’aujourd’hui persistent à considérer leur manière de travailler comme absolument inédite parce qu’ils seraient confrontés à des ensembles de données tellement volumineux que les outils classiques de gestion de base de données ou de gestion de l’information ne suffiraient plus. Pourtant, la vérité scientifique serait à dénicher au sein de ces données : telle est la promesse des Big Data.

Le BRIF : un outil de reconnaissance des collectionneurs

Comme son nome l’indique, le Bioresource Research Impact Factor98 (BRIF) est un facteur d’impact (impact factor), c’est-à-dire un indicateur dont le rôle est d’estimer la visibilité d’un travail (Mabile et al. 2013). Dans l’édition scientifique, les revues sont soumises à cette évaluation et notées en fonction de leur lectorat, mais aussi et surtout du nombre moyen de citations de chaque article publié. Les chercheurs, pour faire connaître leurs travaux et progresser dans leurs carrières, ont tout intérêt à publier des articles dans des revues scientifiques à fort facteur d’impact. Mais cette logique de publication des résultats a pour

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

97 Et encore, sous une forme qui ne permet même pas toujours la reproductibilité de l’expérimentation (H. M.

effet de promouvoir le travail des analystes de données plutôt que de mettre en valeur le travail de collection, effectué en amont.

BRIF part donc de deux constats contradictoires : la nécessité de mettre à disposition des bio-ressources pour produire des données et le manque de reconnaissance scientifique des producteurs de données (des collectionneurs d’aujourd’hui). Alors que la communauté scientifique tient la publication comme critère central d’évaluation des chercheurs, il s’agit donc de mettre en valeur la qualité scientifique du travail des collectionneurs dans les publications. Pour ce, deux grandes opérations doivent être articulées. D’une part, constituer un outil d’évaluation des collections qui mesure à la fois la qualité des bio-ressources et les efforts fournis pour les mettre à disposition. D’autre part, militer pour que les revues scientifiques et les institutions de recherche intègrent cet index.

Le BRIF se présente donc comme un facteur d’impact qui déjoue la logique des facteurs d’impact traditionnels, en permettant de citer, dans chaque article, les collections utilisées pour mener aux recherches publiées. Ce statut très paradoxal du BRIF, puisqu’il s’agit ici d’inverser la dynamique du facteur d’impact a priori défavorable aux collectionneurs pour mettre en valeur les collections, témoigne d’une posture pragmatique dans la régulation de la recherche, qui passe par la construction d’outils plutôt que par des réformes en profondeur de la politique de la recherche.