• Aucun résultat trouvé

Le laboratoire du savant du dix-huitième siècle ne ressemble en rien aux complexes scientifiques d’aujourd’hui. Sous l’ombrelle des infrastructures de recherche, se réunissent une diversité d’acteurs et une variété de disciplines qui les constituent en organisations à part entière. Parce qu’elles permettent de dissocier contextes de production des données et contextes d’analyse, les infrastructures de recherche ont vocation à faire circuler les données et les échantillons. Ce point a une conséquence majeure : les scientifiques doivent avoir confiance dans la qualité et la compatibilité des données qu’ils collectent et utilisent, là où les naturalistes étaient en mesure de contextualiser leurs données et donc aussi de les discuter.

Cette confiance s’assortit d’un intérêt tout particulier porté à la mise à disposition des données, à leur quantité plutôt qu’à leur mise en contexte et donc au peu d’attention porté au recueil des données, aux opérations d’échantillonnage et à leur rapport au réel.

La notion d’obstacle épistémologique peut être convoquée pour traiter de cette croyance selon laquelle les données, si elles sont produites en quantité, parlent d’elles-mêmes,

indépendamment de l’éclairage qui pourrait être apporté sur leur contexte de production.

Lorsque Bachelard critique la connaissance quantitative, il ne s’agit pas pour lui de réfuter l’intérêt des méthodes qui y concourent mais d’attirer notre attention sur les préjugés qui les accompagnent (Bachelard 2000[1934]). À la faveur de ce développement, Bachelard s’intéresse à la façon dont l’échelle d’un objet étudié, que celui-ci soit tout petit ou très grand – peu importe finalement, dès lors qu’il s’inscrit en-deçà ou au-delà de notre expérience directe – produit des illusions relevant de « la valorisation affective assez étrange que nous portons sur des phénomènes subitement éloignés de notre ordre de grandeur » (Bachelard 2000[1934], p. 228). Si la science à laquelle nous nous intéressons ne repose pas sur les mêmes opérations de mesure que celles étudiées par Bachelard, il nous semble néanmoins que l’opinion selon laquelle la production de milliards de données permettrait d’épuiser exhaustivement un phénomène procède de la même illusion que celle qui nous amène croire que l’on possède un objet parce qu’on s’y réfère avec précision et parce que son traitement excède notre propre capacité d’analyse, c’est-à-dire aussi échappe au cadre de notre expérience. En d’autres termes, dans le mouvement des Big data, la quantité se suffirait à elle-même.

C’est en vertu de cette croyance que Chris Anderson, éditeur en chef de la revue emblématique de la culture numérique Wired, pousse son cri de ralliement aux Big data. Par le jeu des mathématiques appliquées à des quantités massives de données, tout phénomène pourrait désormais être appréhendé et mesuré avec une fidélité sans égale de sorte que le travail théorique deviendrait superfétatoire dans le processus de connaissance. Autrement dit :

« avec suffisamment de données, les nombres parlent d’eux-mêmes » (With enough data, the numbers speak for themselves) (C. Anderson 2008). L’exemple proposé par Chris Anderson est éclairant. Selon lui, l’entreprise Google a su conquérir le monde de la publicité sans connaître au préalable la culture publicitaire, mais en faisant simplement le pari qu’avec plus de données et en se donnant des moyens d’analyse appropriés, l’entreprise l’emporterait sur ses concurrents99. Et Chris Anderson de conclure sur ce que la biologie contemporaine, et en l’occurrence la génomique, pourrait apprendre de cette économie de moyens propre à Google, c’est-à-dire à la fois de ce pari sur la technique et d’une forme de dépouillement théorique :

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

99 Il en va ainsi de la logique d’auto-référencement qui fait que le rang d’apparition d’une page sur le célèbre

« Le meilleur exemple en est la technique de séquençage « shotgun gene » développée par J. Craig Venter. Grâce à des séquenceurs à haut débit et des super-ordinateurs qui conduisent des analyses statistiques des données produites, Venter a pu passer du séquençage d’organismes individuels au séquençage d’écosystèmes entiers. En 2003, il a commencé à séquencer une bonne partie de l’océan, permettant ainsi de retracer le voyage du capitaine Cook. Et en 2005, il a commencé à séquencer l’air. Ce faisant, il a découvert des milliers d’espèces de bactéries et d’autres formes de vie jusqu’alors inconnues. Si la formule « découvrir une nouvelle espèce » évoque pour vous Darwin et ses dessins de pinsons, cela signifie sans doute que vous en êtes restés à une conception arriérée de la science. Venter ne peut à peu près rien vous dire des espèces qu’il découvre. Il ignore ce à quoi elles ressemblent, où elles vivent, ou quelle est leur morphologie. Il n’a même pas leur génome en intégralité. Tout ce qu’il a c’est une petite anomalie statistique – une séquence unique qui ne ressemble à aucune autre séquence hébergée dans une base de donnée et qui donc doit bien représenter une nouvelle espèce. (…) Il ne possède pas de meilleur modèle de cette espèce que ce que Google possède de votre page Myspace. Ce sont juste des données.

Mais en analysant ces données avec des ressources d’une qualité égale à celle de Google, Venter a fait avancer la biologie plus que quiconque de sa génération100 ».

(C. Anderson 2008)

Les propos d’Anderson dévoilent une dernière dimension à laquelle Bachelard fut particulièrement attentif : la rhétorique de la simplicité. « Examiner soigneusement toutes les séductions de la facilité » (Bachelard 2000[1934], p. 65) est une ambition majeure de Bachelard parce que les méthodes qui se donnent pour simples, suffisantes, faciles sont aussi celles qui enlèvent « à la pensée scientifique le sens du problème, donc le nerf du progrès »

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

100 Nous traduisons de l’anglais : “The best practical example of this is the shotgun gene sequencing by J. Craig Venter. Enabled by high-speed sequencers and supercomputers that statistically analyze the data they produce, Venter went from sequencing individual organisms to sequencing entire ecosystems. In 2003, he started sequencing much of the ocean, retracing the voyage of Captain Cook. And in 2005 he started sequencing the air.

In the process, he discovered thousands of previously unknown species of bacteria and other life forms. If the words "discover a new species" call to mind Darwin and drawings of finches, you may be stuck in the old way of doing science. Venter can tell you almost nothing about the species he found. He doesn't know what they look like, how they live, or much of anything else about their morphology. He doesn't even have their entire genome.

All he has is a statistical blip — a unique sequence that, being unlike any other sequence in the database, must represent a new species. This sequence may correlate with other sequences that resemble those of species we do know more about. In that case, Venter can make some guesses about the animals — that they convert sunlight into energy in a particular way, or that they descended from a common ancestor. But besides that, he has no better model of this species than Google has of your MySpace page. It's just data. By analyzing it with Google-quality computing resources, though, Venter has advanced biology more than anyone else of his generation”.

(Bachelard 2000[1934], p. 65). Or, comme l’indique Anderson lui-même, ce que possède Venter à l’issue de son exploration génomique des créatures océaniques et aériennes, ce ne sont rien moins que des indices statistiques : reste tout le travail d’analyse et d’interprétation qui permettra d’identifier ces espèces, et de les observer pour les connaître.

En mettant en valeur les Big data, Chris Anderson trahit une confiance démesurée à la fois dans les données mais aussi dans la méthode d’analyse reposant sur les mathématiques.

Dans l’article auquel nous avons fait référence au début de ce développement, Strasser estimait que la faveur accordée aux méthodologies statistiques constituait une marque distinctive des sciences post-génomiques (Strasser 2012). Contrairement à l’histoire naturelle qui privilégiait la comparaison entre spécimens comme méthodologie principale et aménageait à ce titre une place conséquente au jugement subjectif dans la production du savoir, l’omniprésence des statistiques dans le champ de la biologie moléculaire serait quant à elle garante d’une certaine forme d’objectivité (Daston and Galison 2007). C’est cette même prétention à l’objectivité que l’on retrouve, paradoxalement, dans la notion de « données brutes », c’est-à-dire de données non traitées par ordinateur et qui se donnent pour des « faits naturels », garants de la non intervention de l’homme et donc d’un accès privilégié au réel.