Les fusions transcriptionnelles - La détection des interactions géniques

4 La détection des interactions géniques

III.4 La détection des interactions géniques

4.3.1 Les fusions transcriptionnelles

L’utilisation d’une fusion transcriptionnelle est une approche classique pour mesurer l’acti-vité d’un promoteur dans une cellule vivante. Cette approche consiste à fusionner un promoteur d’intérêt en amont d’un gène rapporteur. Comme leurs noms l’indiquent, les gènes rapporteurs « rapportent » l’activité d’un promoteur.

Le premier gène rapporteur utilisé est le gène lacZ. Comme nous l’avons dit plus haut, ce gène code pour une enzyme, la β-galactosidase. Or la concentration de cette enzyme peut être facilement quantifiée en mesurant l’hydrolyse d’un substrat chromogenique (ONPG) ( Mil-ler,1972). L’apparition d’une couleur jaune (quantifiable à 420nm avec un spectrophotomètre) reflète la concentration de la β-galactosidase et donc l’activité du promoteur qui contrôle la transcription du gènelacZ. Cependant, la mesure de la concentration deβ-galactosidase néces-site de lyser les cellules ce qui limite la résolution temporelle. De nouveaux gènes rapporteurs sont devenus de plus en plus utilisés et permettent de mesurer l’activité d’un promoteur in vivo (et sans avoir à tuer les bactéries), en temps réel et avec une très haute résolution tempo-relle. La Green Fluorescent Protein (GFP), dont la découverte a fait l’objet d’un prix Nobel en 2008 (Shimomuraet al.,1962) émet une lumière verte (509nm) lorsqu’elle est excitée avec une lumière bleue (488nm). En quantifiant les photons émis à l’aide d’un photomultiplicateur, on peut mesurer la concentration de la GFP et remonter ainsi à l’activité du promoteur. A titre de parenthèse, lorsque le promoteur en amont du gène codant pour la GFP est très fort, on peut observer, à l’œil nu, des colonies d’E. coli « vertes ». Le deuxième rapporteur, la luciférase génère de la bioluminescence et émet donc des photons directement sans nécessité d’excitation. Comme pour la GFP, on peut mesurer l’activité d’un promoteur simplement en mesurant le nombre de photons émis par la luciférase. Dans le noir, après un petit temps d’adaptation, on peut observer, à l’œil nu, la bioluminescence émise par des colonies d’E. coli.

Les fusions transcriptionnelles sont en général placées sur un plasmide. Un plasmide est une molécule d’ADN circulaire double brin distincte de l’ADN chromosomique, capable de réplication autonome et non essentielle à la survie d’une cellule. Les plasmides sont en général présents en plusieurs copies dans une bactérie. Cela à l’avantage d’amplifier le signal lorsque l’on mesure l’expression d’un gène. Cependant, un désavantage est la possible variation du nombre de copies du plasmide au sein d’une même population ce qui peut introduire un biais dans les études à l’échelle de la cellule. Une solution pour éviter ce problème consiste à intégrer la fusion transcriptionnelle directement dans le chromosome par recombinaison homologue. Notez qu’on perd dans ce cas l’amplification du signal.

molécu-III.4 La détection des interactions géniques

Figure III.6–Démonstration vidéo du logiciel Gentle. Cette video explique comment placer/cloner «in silico» un promoteur en amont d’un gène rapporteur en manipulant directement la séquence d’ADN.

laire. On amplifie par PCR le promoteur d’intérêt puis on clone ce promoteur en amont du gène rapporteur sur un plasmide. La première étape consiste à réaliser la constructionin silico3. Pour cela j’utilise un logiciel gratuitGentlemais il existe surement des logiciels plus performants. La vidéo ci-dessous décrit les étapes in silico, réalisées sous Gentle, permettant de placer (cloner) un promoteur en amont d’un gène rapporteur. J’ai réalisé cette démonstration pour montrer à un chercheur peu familier avec la biologie que les séquences d’ADN en « ATCG » ne sont pas uniquement une abstraction : on les manipule vraiment exactement comme on manipulerait un texte en utilisant les fonctions « couper » et « coller ». Une fois, la réalisation in silico réussie, on peut se lancer dans la réalisation réelle. Vous vous demandez peut être à quoi ressemble une étape de coupage ou de collage d’ADN ? Grossièrement, si vous observiez un biologiste faire de la biologie moléculaire, vous auriez l’impression de voir un homme ou une femme mélanger « de l’eau avec de l’eau » dans un tube pendant plusieurs jours. Puis quelques jours, quelques semaines ou quelques mois plus tard, il sauterait de joie au plafond juste après avoir reçu un résultat de séquençage en criant : ça y est, je l’ai !

Les fusions transcriptionnelles permettent la mesure de la concentration du rapporteur ou de l’activité du promoteur directement à l’échelle de la colonie, en population (milieu liquide) ou à l’échelle de la cellule (sous le microscope). Lorsque nous mesurons l’activité d’un promoteur 3in silico: Réalisé dans le « silicium » d’un ordinateur par opposition à in vitro et in vivo. Ce terme a été introduit par Antoine Danchin dans les années 1990.

Figure III.7 – Contrôle d’une interaction en utilisant un rapporteur (luciférase) et un plasmide de surexpression inductible.

III.4 La détection des interactions géniques

dans une population en milieu liquide, nous utilisons un lecteur de microplaque pour mesurer la fluorescence, la luminescence ou l’absorbance. L’intensité I détectée par le photomultiplica-teur, après soustraction du bruit de fond, est proportionnelle à la concentration de luciférase ou de GFP dans le puits. L’absorbance mesurée A, après soustraction du bruit de fond, est proportionnelle au nombre de bactéries dans le puits. La concentration moyenne du rapporteur [GFP] ou [Luciferase] dans une bactérie est donc :

[Lucif erase](t) = ^I⁽^t⁾

A(t) ^(III.1)

[GF P](t) = ^I⁽^t⁾

A(t) ^(III.2) Notez cependant que la luciferase a également besoin d’énergie pour émettre des photons. Quand l’énergie devient limitante, l’émission de photons chute brutalement et ne reflète plus la concentration de l’enzyme luciferase. Cet artefact peut être d’une part contrôlé et d’autre part utilisé pour inférer un certain nombre de paramètre dans la cellule (voir la publication relative à ce phénomène dans cette thèse).

Nous avons écrit un programme pour analyser des données d’expression génique issues de gènes rapporteurs. Ce programme, appelé Wellreader, a fait l’objet d’une publication (Boyer

et al.,2010). Il est possible, à partir des données collectées, de remonter à l’activité du promoteur F à l’aide de l’équation ci-dessous (démonstration dans la publication).

F(t) = ^dI⁽^t⁾ dt 1 A(t)⁺^γ I(t) A(t) ^(III.3) oùγ représente le taux de dégradation de la protéine rapporteur.

Pour mesurer une interaction avec une fusion transcriptionnelle, on compare la concentra-tion du rapporteur dans une souche sauvage et dans une souche mutante déletée du facteur de transcription suspecté de contrôler l’activité du promoteur étudié. Notez qu’une différence d’expression ne signifie pas forcement que l’interaction est directe. Enfin pour s’assurer que l’in-teraction détectée n’est pas artefactuelle, on complémente la souche mutante avec un plasmide exprimant le gène déleté. Si la présence de ce plasmide permet de rétablir le niveau d’expression du mutant au niveau de la souche sauvage alors l’interaction —directe ou indirecte— est bien réelle.

Une publication présente dans cette thèse propose une méthode à haut-débit, basée sur les fusions transcriptionnelles, permettant de mesurer l’activité d’un promoteur dans les 4000 mutants d’E. coli.

Figure III.8–Mesure de l’expression du gèneacs(rapportée par la luciferase) dans une souche sauvage et dans une souche ∆crp. Cette mesure est effectuéein vivo, en temps réel dans un milieu solide ou liquide. Il est possible de suivre l’expression génique au cours du temps avec une très bonne résolution temporelle (une mesure par minute pendant plusieurs heures).

III.4 La détection des interactions géniques

Figure III.9–Vidéo : mesure de l’expression du gèneacs(rapportée par la gfp) dans une souche sauvage et une souche ∆cyaAmélangées ensemble sur une gélose solide filmée pendant 32 heures. A la fin du film, on observe une forte induction de fluorescence provenant d’une partie seulement du tapis bactérien (la souche sauvage). En absence d’un facteur de transcription fonctionnel, l’autre moitié du tapis ne peut pas induire l’expression de la gfp (vidéo issue d’une publication présente dans cette thèse).

Figure III.10 – Démonstration vidéo de l’utilisation du logiciel Wellreader qui permet d’analyser des données issues de gènes rapporteurs obtenues à partir d’un lecteur de microplaque.

4.4 Les méthodes bioinformatiques

4.4.1 Inférence de la topologie des réseaux de régulation

Toutes les techniques ci-dessus permettent de déterminer expérimentalement une interac-tion. Cependant, elles sont souvent assez chères et longues à mettre en place. L’apparition de grands « set » de données à haut-débit issues des puces à ADN a permis d’utiliser des mé-thodes « computationnelles » pour « prédire » des interactions géniques. Une manière simple d’exploiter les données issues de puces à ADN consiste à regrouper les gènes ayant des profils d’expression similaires : c’est la clusterisation. Mais il est également possible de mener l’ex-ploration des données plus en profondeur et d’inférer la topologie du réseau, autrement dit de « reconstruire » ce réseau. Brièvement, des méthodes algorithmiques recherchent des patterns de corrélation ou de probabilités conditionnelles qui indiquent une influence causale. C’est le cas par exemple des algorithmes basés sur un réseau bayesien (Friedman et al., 2000). L’infé-rence de réseaux biologiques est un domaine très actif et beaucoup trop vaste pour être abordé ici de manière exhaustive. Citons l’« inferelator », un algorithme qui démontre la faisabilité de reconstruction d’un réseau à l’échelle du génome à partir d’un nombre assez limité de puces à ADN (Bonneauet al.,2006). Citons enfin les travaux de l’équipe de Bernhard Ø. Palsson. Cette équipe reconstruit des réseaux transcriptionnels et métaboliques à l’échelle du génome en

utili-III.4 La détection des interactions géniques

sant de manière conjointe des séquences annotées, des données à haut-débit et des informations bibliographiques (Covert et al., 2004; Feist et al., 2009).

Je vais maintenant insister un peu plus sur une autre méthode d’inférence d’interaction ADN–protéine : la détection de site consensus par bioinformatique. Mon paragraphe reprend en partie un exemple proposé par Hamid Bolouri dans son ouvrage Computational Modelling Of Gene Regulatory Networks : A Primer. Le lecteur pourrait se demander pourquoi je choisis de passer tant de temps à décrire la détermination d’une « séquence–logo ». Il y a deux raisons : premièrement, cela me permet de proposer un petit exercice/exemple de programmation sous Matlab. Deuxièmement, cela me permet d’introduire la théorie de l’information de Shannon sur laquelle je compte revenir plus tard. Le lecteur qui craint les détails peut passer au chapitre suivant sans crainte.

4.4.2 Détection de site consensus par bioinformatique

La liaison ADN–protéine est principalement basée sur le pattern des donneurs et des ac-cepteurs de liaison d’hydrogène exposée dans les sillons de la double hélice d’ADN. Ce pattern est donc très dépendant de la séquence et doit être plus ou moins complémentaire d’un pattern similaire présent au niveau du site de liaison de la protéine. La séquence qui maximise l’af-finité d’un facteur de transcription donné est appelée séquence consensus. Cette séquence est déterminée expérimentalement grâce à un set de tous les sites séquencés que fixe un facteur de transcription donné. C’est la séquence qui, à chaque position, montre la paire de base la plus souvent trouvée parmi le set. L’utilisation des sites consensus mène les scientifiques dans un piège épistémologique leur faisant confondre le modèle de la réalité (le site consensus) avec la réalité (le site de liaison). En effet, le consensus strict est très éloigné du centre de la distribution gaussienne de l’affinité des sites de liaisons pour un facteur de transcription donné. Le consensus strict est donc très rarement observé. L’affinité trop forte d’un facteur de transcription pour son site consensus pourrait empêcher son détachement et résulterait en une activation ou répression constante du promoteur. Ainsi les algorithmes de recherche de sites de liaison sur une séquence donnée n’utilisent pas un site consensus mais une matrice décrivant pour chaque position, la fréquence d’apparition de chaque nucléotide. Ces matrices assument l’indépendance de chaque base les unes par rapport aux autres (matérialisée dans l’équation par une somme). En d’autre terme, la fréquence avec laquelle une protéine se fixe à un nucléotide donné est proportionnelle à l’affinité de cette protéine pour ce nucléotide.

Supposons qu’un facteur de transcription ait été rapporté pour se lier à un motif de 6 pb grâce à 20 observations expérimentales. Une matrice de positions peut résumer les donnés

expérimentales (figure III.11; matrice 1).

Nucléotide observé Position dans le motif 1 2 3 4 5 6 A 3 12 2 2 3 0 C 5 1 0 11 6 6 G 2 7 12 6 10 13 T 10 0 6 1 1 1 total 20 20 20 20 20 20

On peut aussi représenter les observations comme des probabilités empiriques en divisant la fréquence de chaque nucléotide par 20 (figure III.11; matrice 2). La distribution des fréquences de nucléotide chez un organisme donné est rarement uniforme. On normalise donc la probabilité d’observer un nucléotide dans un site de liaison (P_observ_é) avec la probabilité d’observer un nucléotide dans une séquence « bruit de fond » (P_bruit)(figure III.11; matrice 3).

Pour calculer la probabilité totale qu’une séquence observée de quelques nucléotides repré-sente un site de liaison, il faut multiplier les probabilités normalisées de chaque paire de base. Sachant que log(A.B)=log(A)+log(B), il est pratique de transformer les probabilités normali-sées sous forme logarithmique. Ainsi pour estimer dans quelle mesure une séquence observée représente un site de liaison, on fait simplement la somme log(P_observé/P_bruit) à chaque nu-cléotide. Un programme de prédiction fouillera le génome et sélectionnera, pour une séquence donnée, les signaux de longueur six dont le score est supérieur à un certain seuil (Kel et al.,

2003).

On peut aussi utiliser les matrices de positions pour créer des « séquences–logo » (fi-gure III.11). Ces dernières offrent une manière simple et intuitive pour visualiser le contenu en information de la matrice de positions. Une pile de lettres est utilisée pour indiquer la fré-quence d’occurrence de chaque nucléotide à chaque position dans la séfré-quence alignée (axe des abscisses). La lettre la plus fréquente est placée en première position et les autres sont empilées dessous dans l’ordre des fréquences décroissantes.

La théorie de l’information nous fournit une mesure du contenu en information (IC) à chaque position i donné par la formule suivante (Workmanet al.,2005) où b représente les 4 bases A, T, C ou G.

IC(i) =

T X b=A

P_observé(b, i)×log^P^observ^é⁽^{b, i}⁾

III.4 La détection des interactions géniques

Figure III.11 – Cette figure illustre « la sortie /output » d’un script Matlab qui génère un petit logo « basic » à partir des données initiales proposées. Voir le code Matlab en annexe Code02SequenceLogo.m

Le calcul de la hauteur d’une lettre est simplement

HL(i) = P_observé(b, i)×log ^P^observ^é⁽^{b, i}⁾ P_observé(b)

La hauteur totale à une position donnée indique le contenu en information totale de cette position. Pour un site de liaison candidat donné avec un bruit de fond uniformément distribué de nucléotides aléatoires (0.25), une hauteur de 2 à n’importe quelle position dans la séquence du logo signifie qu’il n’y a qu’un seul nucléotide qui peut apparaitre à cette position.

HL= 1×log ¹

0.25 ^{= 2}^bit

A l’inverse, une hauteur de 0 signifie que chaque nucléotide a une probabilité équivalente de se retrouver à cette position.

HL= 0.25×log ⁰^.²⁵

0.25 ^{= 0}^bit

L’utilisation du logarithme base 2 permet de quantifier l’information en bit, c’est-à-dire un nombre binaire qui n’a pour valeur que 0 ou 1. En utilisant 2 bits, on peut indiquer à une position donnée si le nucléotide est un A, un T, un C ou un G. C’est une autre manière de dire que 2 bits permettent 22 =4 combinaisons de valeurs.

Souvent les séquences logo font apparaitre deux zones à fort contenu en information en-trecoupés d’une zone à plus faible contenu en information. Les deux zones à fort contenu en information correspondent au sillon majeur de l’ADN où le facteur de transcription peut aisé-ment discriminer les bases ce qui est moins le cas dans le sillon mineur. Ceci est un bel exemple pour entrevoir la structuration physique en double hélice de l’ADN.

Références bibliographiques

Bonneau, R., Reiss, D. J., Shannon, P., Facciotti, M., Hood, L., Baliga, N. S., & Thorsson, V. 2006. The Inferelator : an algorithm for learning parsimonious regulatory networks from systems-biology data sets de novo. Genome Biol, 7(5), R36. 70

Boyer, F., Besson, B., Baptist, G., Izard, J., Pinel, C., Ropers, D., Geiselmann, J., & de Jong, H. 2010. WellReader : a MATLAB program for the analysis of fluorescence and luminescence reporter gene data. Bioinformatics,26(9), 1262–3. 67

Bray, D., Levin, M. D., & Lipkow, K. 2007. The chemotactic behavior of computer-based surrogate bacteria. Curr Biol, 17(1), 12–9. 58

Covert, M. W., Knight, E. M., Reed, J. L., Herrgard, M. J., & Palsson, B. O. 2004. Integrating high-throughput and computational data elucidates bacterial networks. Nature, 429(6987), 92–6. 71

Feist, A. M., Herrgard, M. J., Thiele, I., Reed, J. L., & Palsson, B. O. 2009. Reconstruction of biochemical networks in microorganisms. Nat Rev Microbiol,7(2), 129–43. 71

Friedman, N., Linial, M., Nachman, I., & Pe’er, D. 2000. Using Bayesian networks to analyze expression data. J Comput Biol, 7(3-4), 601–20. 70

Gama-Castro, S., Jimenez-Jacinto, V., Peralta-Gil, M., Santos-Zavaleta, A., Penaloza-Spinola, M. I., Contreras-Moreira, B., Segura-Salazar, J., Muniz-Rascado, L., Martinez-Flores, I., Salgado, H., Bonavides-Martinez, C., Abreu-Goodger, C., Rodriguez-Penagos, C., Miranda-Rios, J., Morett, E., Merino, E., Huerta, A. M., Trevino-Quintanilla, L., & Collado-Vides, J. 2008. RegulonDB (version 6.0) : gene regulation model of Escherichia coli K-12 beyond transcription, active (experimental) annotated promoters and Textpresso navigation.Nucleic Acids Res,36(Database issue), D120–4. 58

Grainger, D. C., & Busby, S. J. 2008. Methods for studying global patterns of DNA binding by bacterial transcription factors and RNA polymerase. Biochem Soc Trans, 36(Pt 4), 754–7.

Kel, A. E., Gossling, E., Reuter, I., Cheremushkin, E., Kel-Margoulis, O. V., & Wingender, E. 2003. MATCH : A tool for searching transcription factor binding sites in DNA sequences.

Nucleic Acids Res, 31(13), 3576–9. 72

Keseler, I. M., Bonavides-Martinez, C., Collado-Vides, J., Gama-Castro, S., Gunsalus, R. P., Johnson, D. A., Krummenacker, M., Nolan, L. M., Paley, S., Paulsen, I. T., Peralta-Gil, M., Santos-Zavaleta, A., Shearer, A. G., & Karp, P. D. 2009. EcoCyc : a comprehensive view of Escherichia coli biology. Nucleic Acids Res, 37(Database issue), D464–70. 58

Kolb, A., Busby, S., Buc, H., Garges, S., & Adhya, S. 1993. Transcriptional regulation by cAMP and its receptor protein. Annu Rev Biochem, 62, 749–95. 54

Kremling, A., Kremling, S., & Bettenbrock, K. 2009. Catabolite repression in Escherichia coli-a compcoli-arison of modelling coli-approcoli-aches. Febs J, 276(2), 594–602. 55

Miller, J. H. 1972. Experiments in Molecular Genetics. Cold Spring Harbor. 64

Monod, J. 1942. Recherches sur la croissance des cultures bacteriennes. 2nd edn. Paris :Her-mann. 54

Postma, P. W., Lengeler, J. W., & Jacobson, G. R. 1993. Phosphoenolpyruvate :carbohydrate phosphotransferase systems of bacteria. Microbiol Rev,57(3), 543–94. 54

Saier, M. H., Jr., & Crasnier, M. 1996. Inducer exclusion and the regulation of sugar transport.

Res Microbiol,147(6-7), 482–9. 55

Shimomura, O., Johnson, F. H., & Saiga, Y. 1962. Extraction, purification and properties of aequorin, a bioluminescent protein from the luminous hydromedusan, Aequorea.J Cell Comp Physiol, 59, 223–39. 64

Vladimirov, N., & Sourjik, V. 2009. Chemotaxis : how bacteria use memory. Biol Chem, 390(11), 1097–104. 58

Wang, Z., Gerstein, M., & Snyder, M. 2009. RNA-Seq : a revolutionary tool for transcriptomics.

Nat Rev Genet, 10(1), 57–63. 63

Workman, C. T., Yin, Y., Corcoran, D. L., Ideker, T., Stormo, G. D., & Benos, P. V. 2005. enoLOGOS : a versatile web tool for energy normalized sequence logos. Nucleic Acids Res, 33(Web Server issue), W389–92. 72

Chapitre IV

Dans le document Réseaux de régulation chez Escherichia coli (Page 85-98)