• Aucun résultat trouvé

Influence des bases de données de séquence sur l’évolution des pratiques génomiques

CHAPITRE 1 : PERSPECTIVES CRITIQUES SUR LES PRATIQUES DE LA RECHERCHE EN GÉNOMIQUE HUMAINE

B. Une histoire de la séquence génomique et de son traitement informatique

2. Influence des bases de données de séquence sur l’évolution des pratiques génomiques

a. Compilation, édition, organisation et partage des séquences au temps des premières bases de données

Dans les années 1950, les premiers travaux de séquençage de protéines (qui précèdent ceux de gènes, de chromosomes et de génomes entiers), ont lieu dans le champ des études d’anthropologie biologique et non dans la sphère biomédicale stricto sensu. La comparaison des séquences est d’abord une méthode qui fait sens pour construire des phylogénies (Stevens 2011). L’hypothèse de travail des premiers anthropologues moléculaires repose sur la notion d’homologie. L’homologie est un concept-clé de l’anthropologie morphologique : elle y désigne le lien évolutif entre deux traits anatomiques partagés par des organismes issus d’espèces distinctes et traduisant l’héritage d’un ancêtre commun. Redéfinissant l’homologie à l’échelle moléculaire, les anthropologues moléculaires considèrent que les similarités et les différences entre séquences de protéines issues d’organismes différents doivent permettre de déduire des relations de l’ordre de l’évolution entre les espèces dont elles sont issues et ainsi

de raconter de façon plus précise encore qu’en utilisant la preuve morphologique une histoire des origines des espèces.

Concrètement, il s’agit de séquencer des protéines issues d’organismes aux espèces distinctes, c’est-à-dire de déterminer l'ordre linéaire de leurs composants (les acides aminés) et de comparer ces séquences en recherchant les zones de correspondances et de différences. Deux protéines homologues ont des structures spatiales proches et des séquences en acides aminés qui présentent des similarités. On infère de ces ressemblances que les gènes qui codent ces protéines ont une origine commune. La relation ainsi établie entre séquences exprime une distance permettant de classer les espèces dans un ordre qui correspond à notre compréhension de leurs relations de parenté. La séquence est riche d’enseignement parce qu’elle porte la trace historique de l’origine d’un organisme. Margaret Dayhoff, qui a mis en place les premières grandes bases de données de protéines, considère d’ailleurs les séquences de protéines comme de véritables « fossiles vivants » (Dayhoff 1969, 87).

Les bases de données de séquences sont essentielles dans ce processus. Pour pouvoir comparer les génomes de différents organismes, il est important que les anthropologues aient à leur disposition le plus grand nombre de ces séquences, d’où le développement de bases de données, d’ouvrages de référence et d’outils informatiques permettant d’opérer ces comparaisons. Margaret Dayhoff est une pionnière dans ce champ qui se situe à l’intersection de la biologie et des sciences de l’information. Biochimiste de formation, elle est recrutée en 1960 à la Fondation Nationale pour la Recherche Biomédicale (National Biomedical Research

Foundation (NBRF)) qui vient tout juste d’ouvrir ses portes aux Etats-Unis et dont la mission

est d’explorer les usages possibles des technologies informatiques pour la recherche biomédicale. Les premières recherches de Dayhoff dans ce contexte portent sur la création de programmes informatiques permettant de faciliter la détermination des séquences de protéines. La méthode expérimentale standard consiste en effet à découper la chaîne des acides aminés qui composent la protéine pour faire se correspondre des fragments qui se recoupent les uns les autres – sachant qu’il est ensuite difficile de réassembler la protéine complète à partir de ces séquences partielles. Les travaux menés au NBRF produisent des programmes informatiques qui permettent d’assembler dans le bon ordre des séquences partielles.

L’usage de l’informatique ne se limite pas là. Dayhoff et ses collaborateurs se lancent en effet rapidement dans la création de l’Atlas de la Séquence et de la Structure des Protéines (Atlas of Protein Sequence and Structure), une compilation de toutes les séquences de

permettant d’effectuer des recherches informatiques. Ainsi conçue, la première version de l’Atlas devient dès 1965 un outil de référence dans les laboratoires de biologie moléculaire.

« (…) l'Atlas différait des collections précédentes de séquences protéiques, en un point crucial. Il s’agissait de la première présentation de séquences homologues qui n'était pas liée à une question de recherche spécifique. L'Atlas était un outil ouvert. Ce qui le rendait particulièrement puissant pour résoudre de nombreux problèmes scientifiques consistait en ce qu'il avait été créé comme une collection informatisée de données, probablement la première dans les sciences de la vie72. » (Strasser 2010a, 635–6).

Le rôle de l’informatique n’est donc pas ici à proprement parler de produire de l’analyse de séquences par le calcul mais de recueillir des données de séquence, de les formater et de les classer pour permettre de les comparer. L’ordinateur permet de mettre de l’ordre dans les données, à un moment où le train de la recherche s’accélère et où les données « explosent ». Les bases de données ne sont donc pas simplement des outils de dépôt de l’information mais bien des technologies de classement. L’ordinateur est toujours utilisé pour sa puissance de calcul – l’une des premières missions de la bio-informatique consiste à produire des algorithmes permettant de produire le meilleur alignement entre séquences (Stevens 2011) – mais aussi pour ses capacités à ordonner et classer l’information.

L’Atlas n’est pas qu’un outil mais il s’inscrit dans une perspective plus large sur la

science qui promeut la mise à disposition de bases de données électroniques pour l’ensemble de la communauté scientifique. Ce rêve se heurte toutefois à des pratiques protectionnistes de la part des scientifiques qui ont un intérêt personnel à préserver leurs données en attendant de publier leurs résultats. L’appel lancé aux chercheurs pour soumettre leurs données et contribuer à l’essor de l’Atlas, en échange d’une copie gratuite de ce dernier, ne soulève pas l’enthousiasme et l’Atlas ressemble plus à une compilation de résultats disponibles dans la littérature qu’à un dépôt de données originales. Deux raisons expliquent la tiédeur des chercheurs à l’égard de cette initiative : d’une part, le fait de publier ses données avant ses résultats constitue un risque pour la reconnaissance du chercheur ; d’autre part, l’Atlas est lui- !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

72 Nous traduisons de l’anglais : “ (…) the Atlas differed in one crucial way from previous collections of protein

sequences. It was the first presentation of homologous sequences that was not tied to a specific research question. The Atlas was an open-ended tool. What made it particularly powerful for addressing numerous scientific problems was the fact that it was created as a computerized collection of data, probably the earliest in the life sciences ’’.

même soumis à un copyright et s’oppose en pratique à l’idéal vers lequel il tend, celui de résultats expérimentaux librement disponibles.

Cette préhistoire de la bioinformatique, qui concerne l’analyse des séquences des protéines et leur mise à disposition par des outils informatiques, met en valeur les fonctions de gestion et de distribution de l’information. L’usage d’ordinateurs a notamment permis de mettre au point des programmes informatiques autorisant la comparaison de vastes jeux de données de séquençage issus d’espèces distinctes. Cette approche met en valeur l’idée selon laquelle l’informatique permet de révéler des informations cachées dans le foisonnement de données empiriques en les traitant de manière comparée. L’histoire du séquençage de l’ADN qui commence en 1977 s’inscrit dans cette lignée.

b. Un nouvel usage de l’ordinateur en biologie : explorer les bases de données de séquence à la recherche de la fonction des gènes

Au cours de la deuxième partie des années 1970, Walter Gilbert, aux Etats-Unis et Frederick Sanger, au Royaume-Uni, développent deux méthodes permettant de séquencer l’ADN – le premier par dégradation chimique sélective et le second par synthèse enzymatique sélective. C’est finalement la méthode Sanger qui deviendra la méthode de référence pour séquencer l’ADN, c’est-à-dire déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. Le séquençage de l’ADN, utilisé dans un premier temps pour résoudre le même type de questionnement évolutionniste que le séquençage des protéines sera rapidement préféré à ce dernier parce qu’en raison de dégradations du matériel génétique, les séquences d’ADN permettent de mettre en valeur des mutations qui seraient invisibles à l’échelle de la protéine (Stevens 2011, 278).

Puisque toute séquence est constituée par une suite de lettres (vingt pour les protéines ; quatre pour l’ADN), d’un point de vue formel, leur analyse devrait être la même pour les séquences d’ADN et pour les séquences protéiques ; toutefois, le séquençage de l’ADN comporte une spécificité qui introduit un changement dans l’approche comparative. L’ADN comporte en effet à la fois des régions codantes qui correspondent aux parties de l’ADN qui sont traduites en protéines et des régions non codantes (non traduites en protéines ou qui n'ont pas de fonction biologique identifiée). Des méthodes de recherche sont donc nécessaires pour identifier, au sein des données de séquences, les régions codantes qui, dans un premier temps, sont les seules à faire l’objet de comparaison. Les fonctions de recherche algorithmique au

années 1970 occupent une place de plus en plus décisive dans la gestion et l’utilisation des bases de données (Stevens 2011).

À ce changement méthodologique qui requiert le développement de nouveaux logiciels de traitement des données, s’ajoute une évolution des problématiques de recherche en biologie moléculaire. L’accès à un grand nombre de données de séquences d’ADN permet aux biologistes moléculaires de se confronter à une nouvelle question qui est au cœur de l’agenda déterministe de la génomique des années 1980 : comment une séquence d’ADN détermine-t- elle une fonction biologique ? Pour répondre à ce problème, il faut d’ores et déjà identifier quels éléments sont fonctionnels au sein d’une séquence d’ADN. L’on passe ainsi d’un intérêt pour la séquence globale – qui consiste à chercher à quel point deux séquences sont similaires – à un intérêt plus localisé portant sur les similarités entre régions de séquences.

En 1981, Temple Smith et Mike Waterman, respectivement physicien et mathématicien, créent un algorithme qui, permettant de comparer deux fragments d’ADN, incarne ce changement de perspective (Smith and Wtareman 1981). L’approche qui consiste à comparer des séquences – et plus précisément des fragments de séquences – n’est plus seulement utile en anthropologie biologique mais devient intéressante pour la biomédecine. L’exemple le plus connu de ces nouvelles analyses est celui de Russell Doolittle et de ses travaux, dont le récit a fonction de véritable mythe dans l’histoire de la bioinformatique. Nous nous permettrons juste une remarque avant de l’aborder. Comme souvent dans le récit de l’histoire des sciences, la place accordée à certains génies providentiels qui auront su faire avancer notre compréhension du monde, a l’inconvénient de passer sous silence l’histoire des circonstances, des dynamiques collectives et de l’ensemble des formulations alternatives et concurrentes que nos mémoires n’auront pas retenu. Les travaux de Russel Doolittle ne font pas exception et leur rappel ici doit moins à leur exemplarité qu’à la façon dont ils constituent, dans l’histoire de la bioinformatique, un indice de la façon dont la discipline se donne à se représenter.

Doolittle est un biochimiste travaillant sur l’anthropologie moléculaire depuis les années 1960. Son intérêt pour l’évolution l’amène à considérer une hypothèse qui n’est pas seulement utile pour établir des phylogénies mais doit aussi instruire les biologistes sur le fonctionnement des protéines. Le fait que certaines régions des séquences soient identiques entre espèces différentes, c’est-à-dire que ces régions aient été préservées au cours de l’évolution, pourrait en effet indiquer que certaines parties des molécules sont plus essentielles que d’autres pour le fonctionnement des protéines. Les régions de variabilité, quant à elles, parce qu’elles auraient échappé à la pression de la sélection, seraient

d’importance moindre. Créant sa propre base de données (inspirée de l’Atlas de Dayhoff), Doolittle se met à comparer des séquences pour vérifier cette hypothèse et découvre une forte ressemblance entre un gène du virus Simian Sarcoma et un gène reconnu pour son rôle dans la croissance humaine. Sa publication rend compte de la façon dont ces similarités pourraient donner lieu à un nouveau programme de recherche pour la biologie moléculaire :

« Cette relation soulève d’intrigantes possibilités quant au mécanisme en action à l’échelle moléculaire à la fois pour un gène impliqué dans le cancer et pour un facteur de croissance73. » (Doolittle et al. 1983, 276)

Doolittle n’est pas le premier à se servir de la comparaison de séquences pour comprendre comment fonctionnent les protéines ou l’ADN mais cette histoire fait événement en raison de la formation de Doolittle. Jusqu’à présent ce genre d’études, généralement menées par des mathématiciens ou des physiciens, avaient été considérées comme des problèmes théoriques. Ce que l’importance de cette découverte traduit, c’est que ces pratiques de recherche à partir de bases de données peuvent avoir une application « expérimentale » (Strasser 2007). Doolittle indique une voie par laquelle les ordinateurs sont désormais capables de mener à des résultats significatifs sur le plan biologique (Schmeck 1983) et, en l’occurrence, de démontrer l’utilité de telles méthodes en dehors du seul champ de l’anthropologie biologique.

« Le travail de Doolittle a démontré que la comparaison de séquences pourrait être utile non seulement pour reconstruire des relations évolutives et pour raconter des histoires sur le passé, mais pour comprendre la fonction biologique sans impliquer les gènes, les espèces et les hiérarchies évolutionnistes. Au lieu d'utiliser la comparaison de séquences comme base pour construire des phylogénies, ces algorithmes étaient maintenant utilisés comme un outil pour déterminer la fonction biologique des segments de séquence: des séquences similaires étaient susceptibles d'avoir des fonctions similaires indépendamment de leur relation évolutive les unes avec les autres.74 » (Stevens 2011, 282). !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

73 Nous traduisons de l’anglais : “ This relationship raises intriguing possibilities about the mechanism of action

at the molecular level of both the onco gene product and the growth factor” (Doolittle et al. 1983, p. 276)

Bien que la comparaison de séquences repose toujours sur l’hypothèse selon laquelle la similarité peut être un indice de parenté dans l’évolution, cette approche est désormais utile pour déterminer la fonction de l’ADN – une question qui trouvera toute son importance dans la recherche biomédicale.

c. L’évolution des algorithmes de recherche des bases de données de séquence, signe du passage du paradigme déterministe à la complexité

Les bases de données de séquence se restructurent ainsi autour de ces nouvelles perspectives scientifiques. Tandis que dans les années 1960, l’Atlas avait été organisé selon un modèle qui regroupait les super-familles de protéines (Strasser 2010a), les vastes bases de données de séquence d’ADN qui se développent au début des années 1980 – GenBank aux Etats-Unis, mais aussi EMBL-Bank au Royaume Uni et DDBJ au Japon – requièrent la création d’algorithmes performants afin de rechercher les similarités entre fragments d’ADN.

Les deux plus connus sont FASTA (1983) et BLAST (1990). Comme l’évoquent ces acronymes, la rapidité d’analyse devient ici un critère important pour évaluer la puissance de l’algorithme. FASTA repose sur l’idée selon laquelle pour faire se correspondre des fragments de séquence, il suffit d’identifier de courtes suites de lettres (des k-tuples) similaires. L’algorithme identifie les occurrences de ces suites de lettres (qui correspondent à une séquence de nucléotides) puis accorde un score aux fragments d’ADN en fonction de la densité des suites de lettres recherchées qu’il contiennent (Wilbur and Lipman, David 1983). L’intérêt de cet algorithme est sa vitesse d’exécution plutôt que la pertinence de son analyse (permettant d’établir des relations de parenté entre les espèces dont les séquences sont issues) mais il faut rappeler que la génomique est un champ scientifique où la vitesse devient une valeur primordiale (Fortun 1999b).

Rapidement, cette méthode se heurte toutefois à une difficulté majeure : la profusion des résultats hasardeux susceptibles d’être proposés pour les bases de données à grande échelle. A titre d’exemple : le génome humain est constitué de 3 milliards de nucléotides ce qui signifie que chaque combinaison de 15 lettres est susceptible d’être présente de façon !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

using sequence comparison as a basis for building phylogenies, these algorithms were now used as a tool to determine the biological function of sequence segments: similar sequences were likely to have similar functions regardless of their evolutionary relationship to one another.”

purement fortuite au moins une fois dans une séquence puisque 415 est inférieur à 3 milliards. Le défi consiste donc à composer un algorithme qui puisse ignorer les résultats qui sont les moins probablement significatifs du point de vue biologique. Ce défi est relevé en 1990 avec la publication de BLAST (Basic local Alignment Search Tool). Ce nouvel algorithme permet comme son prédécesseur d’identifier des suites de lettres d’une longueur définie dans la base de donnée. Mais il innove en ajoutant une étape : lorsqu’un début de correspondance est trouvé entre deux séquences, la recherche s’étend de part et d’autre de la suite lettres jusqu’à trouver des correspondances qui ne tiennent probablement pas au hasard. Pour reprendre notre exemple, une suite de 20 lettres a toutes les chances d’être significative dans le génome humain parce que 420 est supérieur à trois milliards. L’algorithme est donc utilisé pour proposer des inférences sur la fonctionnalité biologique de certains sites du génome grâce à la comparaison. L’algorithme permet de gérer une masse d’information qu’il serait impossible d’explorer sans le recours aux technologies informatiques.

Cette brève histoire de la bioinformatique montre comment l’agenda déterministe de la biologie moléculaire dans les années 1980 est coproduit par des technologies informatiques telles que les bases de données de séquence et les algorithmes de comparaison. Tandis que les algorithmes de comparaison des séquences jouent un rôle prépondérant dans la gestion de l’information, l’on comprend aussi comment les séquences de protéines puis d’ADN deviennent elles-mêmes des données digitales à organiser. D’abord considérés comme des fossiles qui permettent de proposer un récit de l’évolution, les données de séquence deviennent, à mesure que la bioinformatique se développe, des données à organiser selon le principe d’homologie – c’est-à-dire sur la base de la similarité entre fragments de séquence telle quelle est déterminée par des algorithmes de comparaison et ce, non plus seulement afin d’établir des phylogénies mais de façon de plus en plus prioritaire afin d’imputer une fonction à des régions du génome. Les gènes doivent donc être compris comme des éléments de séquence dont l’exploration de la signification biologique dépend d’abord de leur mise en relation avec un jeu d’autres séquences (afin de déterminer leurs ressemblances et leurs différences).

La génomique, c’est-à-dire l’étude de l’ensemble des gènes et de leur interaction (et non plus des gènes pris isolément), accorde une importance cruciale aux algorithmes de comparaison notamment dans les méthodes de séquençage shotgun, où ils sont utilisés pour faire se correspondre des fragments d’ADN de différentes régions du génome afin de les remettre en ordre. La comparaison devient ici une méthode d’assemblage. A travers les

d’interactions et la séquence elle-même vient à être perçue comme un réseau d’éléments de séquences.

Cette nouvelle acception de la signification d’une séquence s’inscrit dans l’agenda de la biologie des systèmes qui émerge dans les années 1990 et selon laquelle l’ADN est en interaction continue avec d’autres composants cellulaires et des facteurs extérieurs. La biologie des systèmes offre une vision alternative au programme de recherche déterministe en posant que la séquence d’ADN n’offre pas de voie directe à la compréhension de la signification biologique mais appartient à un processus plus complexe (García-Sancho 2007). Devenue une « matrice » que seuls des algorithmes permettent d’explorer, la séquence est constituée en jeu de données qui font sens, dans un tout, au niveau statistique. L’on retrouve par conséquent les deux rôles fondamentaux que l’informatique joue dans la biologie moléculaire : à la fois la capacité d’organisation de larges jeux de données scientifiques et l’utilisation de méthodes de calcul, empruntées à la physique et aux mathématiques.

Documents relatifs