• Aucun résultat trouvé

L'entrée massive de l'informatique dans la biologie aux différentes étapes de

III. Des logiques de diffusion et d'interdépendance dans les avancées scientifiques

3.1. Des avancées technologiques cumulatives, productrices d'irréversibilités

3.1.3. L'entrée massive de l'informatique dans la biologie aux différentes étapes de

L'informatique, utilisée initialement par les chercheurs impliqués dans les programmes de cartographie génétique et de séquençage de génômes de façon assez primitive, sur la règle du code génétique, pour établir le catalogue des protéines codées,

a lentement pénétré la biologie, mais y occupe une place de plus en plus prépondérante. Elle opère en effet un renversement de la logique classique de la démarche biologique, en passant de l'expérimentations in vivo, puis in vitro, à la dimension nouvelle de la simulation par expérimentation "in silico".

La "bioinformatique" se caractérise par un recours privilégié aux concepts et aux techniques de l'informatique pour approcher la biologie, et apporte des connaissances inaccessibles par d'autres méthodes.

Sur un plan technique, l'informatique intervient à diverses étapes de la recherche génomique : l'acquisition de données, leur exploitation, leur gestion, (archivage et diffusion). Sur le séquençage proprement dit, l'informatisation et l'automatisation assurent désormais le séquençage complet de bactéries (i.e. des génomes de taille réduite) en quelques mois, à un coût de 1 franc la lecture d'une base. Au-delà de la simple fourniture de données brutes, l'informatique permet de rajouter des séquences pour obtenir des contigs (longs fragments de chromosomes), une analyse interne des séquences pour identifier leurs éléments caractéristiques (repérage des différentes régions : gènes promoteurs, codeurs de protéines, introns et exons, etc...) et une comparaison de séquences dans un corpus de séquences. La phase ultérieure comporte une combinaison et une confrontation de ces séquences avec d'autres données très variées collectées dans les programmes génomes, et qui sont répertoriées dans des banques de séquences, ou de plus en plus dans des banques de données spécialisées par génôme. Une approche "manuelle" d'une telle quantité d'informations exponentiellement croissante est impossible, et l'on recherche d'abord tout ce que l'on peut identifier par programme. Un logiciel idéal devrait enchaîner automatiquement les méthodes afin de réaliser l'analyse complète des données, et on observe dans la conception des BDD spécialisées l'adoption de techniques informatiques sophistiquées qui permettent à la fois la manipulation des données et des connaissances qui leur sont associées.

A chaque niveau de la recherche génomique, correspondent des questions spécifiques à la fois pour les biologistes et pour les informaticiens, de nature conceptuelle, donc interdisciplinaire. De nouveaux champs de recherche interactive sont ouverts à l'interface des deux disciplines, ainsi le problème des "protéines orphelines" ou anonymes qui paraissent ne servir à rien, et sur lesquelles les biologistes font de l'analyse fonctionnelle, tandis que les informaticiens élaborent des méthodes de comparaison de séquences de plus en plus sensibles, par exemple des algorithmes

d'homologie locale. L'avancée des questionnements des biologistes pose aux informaticiens des problèmes nouveaux de nature spécifiquement informatique, notamment dans le champ de la compression de données, parce que les répétitions d'ADN sont plus souvent palindromiques qu'identiques, et inversement le repérage des répétitions par algorithmes apporte de l'information aux biologistes. Des travaux en intelligence artificielle, en apprentissage, peuvent être développés. L'analyse informatique des génomes peut aussi déboucher sur un niveau d'organisation peu accessible à l'approche expérimentale directe : la cohérence du génome, objet privilégié de travaux interdisciplinaires, pour lequel les mathématiciens offrent des méthodes d'analyse sophistiquées, mais leur validation se heurte pour l'instant à l'incapacité des biologistes à proposer une modélisation réaliste de la genèse des chromosomes.

L'association non hiérarchisée d'expertises informatiques et biologiques pourrait donc conduite à des découvertes, validables par le retour à l'expérience au travers de la construction d'objets artificiels (gènes et protéines).

Mais du fait des difficultés de rapprochement des compétences dans les deux champs scientifiques, la nécessité d'une véritable recherche en bioinformatique, découlant des projets de séquençage, reste cependant encore peu prise en compte dans les différents modes d'analyse des génomes dont on dispose, l'aspect technologique étant considéré largement plus prégnant comme élément stratégique de la génomique.

Les performances des outils informatiques et l'automatisation croissante d'une part importante des phases de la recherche, en particulier du séquençage, posent cependant le problème de goulets d'étranglement produits par l'accumulation de données à un rythme trop rapide pour pouvoir être analysés efficacement, et la question de l'intérêt d'un séquençage systématique des génomes (qui relève plus de l'ingénierie que de la recherche), l'alternative se présentant sous la forme d'un ciblage du séquençage sur des organismes modèles dans un domaine particulier (par exemple, les génomes dits d'intérêt économique).

Aucun des éléments de la chaîne de la recherche biologique n'est plus stratégique et concurrentiel que les autres, mais la plupart des logiciels utilisés par les biologistes français, en particulier ceux de comparaison de séquences et d'assemblage de contigs, proviennent des Etats-Unis, et peu de logiciels spécifiques adaptés aux besoins des chercheurs sont à l'étude en France.

Le corollaire de cette non mise en concurrence réside dans une tendance à l'homogénéisation des méthodes, particulièrement de séquençage (sur le modèle des recherches de Craig Venter), associés à l'utilisation d'équipements lourds à haut degré d'automatisation, et à performances de plus en plus rapides et de faible coût, mais fournissant des lectures approximatives.

3.2. L'organisation scientifique : les changements dans les pratiques scientifiques et les structures locales de recherche

L'évolution technologique modifie les relations d'échanges, les formes de coopération internationale et les règles de travail des biologistes, à la fois par des effets de réseaux, et par des mouvements de concentration sur des équipements ou des objets qui créent des contextes communs aux utilisateurs. Dans ce domaine à développement rapide, le savoir est en effet à la fois sophistiqué et largement dispersé. Les avancées de la recherche exigent une série de compétences qui excèdent de loin toute organisation individuelle, et qui déplacent le lieu de l'innovation vers des réseaux d'apprentissage autour de la division d'objets scientifiques, ou autour de la construction ou de l'usage d'objets techniques communs. La capacité interne d'une équipe et ses collaborations externes ne se substituent pas, mais sont complémentaires. Les réseaux scientifiques et techniques ont une "capacité d'absorption" puisque les connaissances accumulées par les chercheurs sont testées par leurs collaborations externes, et celles-ci ouvrent à l'acquisition de ressources indisponibles en interne, mais également renforcent les capacités internes des différentes équipes. Les technologies partagées s'incorporent dans le travail sous forme de compétences nouvelles. Ces jeux de coopération à somme positive qui caractérisent la dynamique du secteur au niveau de la mondialisation s'inscrivent dans des contextes sociétaux qui les spécifient : nous le verrons dans le cas français.

3.2.1. L'impact des NTIC sur l'organisation et la conduite de l'activité