L'impact des NTIC sur l'organisation et la conduite de l'activité scientifique :

III. Des logiques de diffusion et d'interdépendance dans les avancées scientifiques

3.1. Des avancées technologiques cumulatives, productrices d'irréversibilités

3.2.1. L'impact des NTIC sur l'organisation et la conduite de l'activité scientifique :

A l'inverse des physiciens et des chimistes, aux disciplines pénétrées par les mathématiques, les biologistes sont restés longtemps à l'écart de l'informatique. Les impératifs liés au changement de dimension de la biologie moderne les ont contraints à modifier leurs pratiques. Trois étapes ont marqué l'avènement des nouvelles technologies de l'information et de la communication, la concentration des données produites sur des banques de données, et leur accès de plus en plus facilité.

Premièrement, l'accumulation des séquences a rendu indispensable le recours à des moyens d'archivage et de traitement modernes. Dès 1981, deux bases de données cataloguant les séquences d'ADN, EMBL en Europe, et GenBank aux Etats-Unis, tendant à l'exhaustivité et constamment tenues à jour, ont été mises en place, d'abord en concurrence, puis en collaboration étroite. Au début alimentées après publication des séquences, elles le sont maintenant directement avant parution, mettant les connaissances en commun en quasi temps réel par leur interrogation via des logiciels spécialisés. La génétique médiale, en second lieu, a eu besoin d'un système d'information centralisant des connaissances de nature diverse et permettant d'établir des connexions : issue d'un répertoire manuel des maladies héréditaires, la base de données OMIM (On-line Mendelian In Mendelian Inheritance in Man) a répondu, à partir de 1987, aux demandes des chercheurs. Mais une étape supplémentaire, imposant un changement d'échelle, a été franchie avec la montée en puissance des Programmes génomes et la nécessité de corréler, valider et mettre à disposition les données produites pour la cartographie dans les différents Genome centers : créée en 1990, la Genome Data Base (GDB) de Baltimore, joua d'abord le rôle de banque centrale sur le génôme humain, tandis que d'autres, comme Genatlas en France, avaient une place complémentaire. Mais cette unification, nécessitant la transparence et la fusion de bases de données génomiques européennes, américaines et japonaises, qui avaient chacune ses propres règles d'informatique, d'écriture, et nommaient les mêmes gènes de façon différente (avec procès de plagiat à la clé) a été le fruit de l'intervention d'un organisme international, "International Advisory Board of Data Bases", fondé en 1988 pour créer les conditions de communicabilité entre bases.

Les systèmes d'interrogation, tout d'abord fastidieux et aléatoires, ont été peu à peu uniformisés avec des interfaces conviviales, et à partir de 1993, la communication informatique pour la recherche a été organisée sur des réseaux à très haut débit et prise en charge par des programmes nationaux ou européens. La connexion avec Internet a été assurée en France par le réseau RENATER, qui dessert tous les centres de ressources informatiques des établissements publics de recherche, qui ont en outre un savoir-faire qui leur permettrait d'assurer la responsabilité d'un serveur de données ouvert à la communauté internationale.

L'équipement informatique des centres de recherche reste cependant insuffisant en France, de même que le recours aux ressources offertes par les réseaux informatiques, surtout pour les laboratoires de génétique médicale situés en dehors de campus, et le référent de l'organisation de la bioinformatique oscille encore entre une conception de

système très centralisé et une informatique répartie. Aux Etats-Unis, la Genome Data Base représentative d'une centralisation des données sur l'information génomique a finalement été fermée. En France, le projet de réseau Génespace du GREG, offrant à la communauté scientifique des pôles de compétences variées à la fois de recherche informatique et de services, relevait clairement de l'informatique répartie. Il a été supplanté par le projet ministériel de grand centre informatique concentré, appuyé sur le GIS Infobiogen, mais la communauté scientifique n'a pas adhéré à cette conception et a réfuté une système central coordinateur qui ne soutenait d'ailleurs pas la comparaison avec son homologue américain NCBI. Le Gis Infobiogen est devenu un centre serveur parmi d'autres, et les chercheurs utilisent des serveurs très diversifiés, créés presque sur initiative individuelle, consacrant la faillite d'une conception un peu totalitaire de la bio informatique. De même, la diversité des domaines de la génétique a conduit à la production d'une multitude de banques de données, allant de catalogues raisonnés de collections pour les espèces d'intérêt économique à des répertoires de séquences primaires de nucléotides.

Hormis pour les banques de séquences des sociétés privées (HGS, Incyte qui vend ses services d'organisation de l'information autour des séquences 15 millions de dollars aux industriels de la pharmacie pour raccourcir le temps d'obtention d'un médicament...), l'accès aux bases de données financées par leurs promoteurs (des organismes de recherche) ou sur financements internationaux est libre, mais les organismes ne rendent généralement publiques que des informations déjà publiées, se ménageant la primauté en cas de nouvelles données (droit de réservation temporaire) et la rétention d'informations est encore plus forte en cas de prévision de développements pour un éventuel dépôt de brevet, ou pour des recherches sous contrat de partenariat avec des industriels.

En France, deux cents banques de données génétiques sont produites, dont certaines de niveau international, souvent en sous-produit d'un travail de recherche. Mais peu offrent la garantie de mises à jour régulières faute de la reconnaissance professionnelle dans la culture de recherche française de la qualification de "curator" (producteur de banque de données), expert scientifique de l'insertion de connaissances dans un système de diffusion informatisé ; et faute aussi parfois de se doter des technologies actuelles (www) pour être accessibles sur Internet aux utilisateurs étrangers potentiels.

L'interdépendance des connaissances a contraint cependant les modes de travail à évoluer sur la période considérée. Liée à l'amélioration des réseaux, la progression

foudroyante du courrier électronique au cours des dernières années a bouleversé les relations d'échanges entre chercheurs. L'exploration des banques de données pour comparer les séquences produites à celles stockées, la consultation de textes et d'images, permettent une disponibilité instantanée des informations, donc un gain de temps, mais aussi des changements dans les pratiques de recherche des biologistes, par l'étude de relations et de corrélations auparavant inexplorables.

De même que sur le plan technologique, l'informatique est ainsi devenue incontournable dans la pratique scientifique en biologie. Selon l'un de nos interlocuteurs biologistes, un projet biologique devrait être actuellement trois-quarts de bioinformatique et un quart d'expérimentation sur les données sélectionnées de cette façon.

On prévoit ainsi que de plus en plus, la biologie moléculaire va fonctionner selon le nouveau paradigme de la "biologie in silico", dans lequel l'interprétation inventive de données déjà existantes surpassera l'approche expérimentale traditionnelle.

3.2.2. L'émergence de nouvelles formes de création collective, l'organisation

Dans le document Espace d'innovation dans la biologie et recomposition d'espaces productifs (Page 117-120)