cours8:
Les messages cachés dans les sequences de ADN
recherche de motifs: origine de replication
source: bioinformaticsalgorithms.com/slides/Chapter_1_slides.pptx
Copie de données
•
Informatique
•
Faire une copie du texte 1 vers le texte 2
•
Biologie
•
DNA replication
DNA replication
•
DNA replication chez l’homme est très complexe
•
Nous ne connaissons pas encore tous les règles
•
Nous allons nous focaliser à la replication de genome de Bacterie.
•
le genome d’une bactérie est 1000 fois plus petit que l’homme
•
à l'heure actuelle, il y a des milliards de cellules bactériennes qui tentent de répliquer les génomes bactériens à l'intérieur de vous.
•
le nombre de cellules bactériennes à l'intérieur de vous est 10 fois plus
grand que le nombre de vos propres cellules.
DNA Bacteria replication
•
les genomes de bactérie sont circulaire
•
On doit changer légèrement le problème.
•
Le nouveau problème est: Étant donné un génome CIRCULAIRE appelé Texte1, copiez-le dans un texte CIRCULAIRE2.
•
Un génome circulaire n'a pas de début et de fin,
•
Dans le génome d'E. Coli (5 millions de nucléotides) a le choix de l'endroit
où commencer la réplication.
DNA Bacteria replication
Origine de la replication
•
Normalement les batterie démarrez la réplication dans la même région, appelée "origine de la réplication".
•
Notre premier problème est
•
"Où tout commence-t-il dans le génome?"
•
Et la seule information que nous avons est le génome lui-même.
question: Quels sont les messages cachés dans le génome de E. coli qui
peuvent déterminer par où commencer l'origine de la réplication?
Origine de la replication
•
Problème : trouver l'origine de la réplication.
•
Input : un génome bactérien
•
Output: l'emplacement de l'origine de la réplication dans ce génome.
Le problème est claire? Nous pouvons commence à
code pour le résoudre?
Origine de la replication
•
Le problème est mal défini.
•
Comment pouvons-nous transformer ce problème en quelque chose de logique?
•
Essayons de poser une question: "comment la cellule sait-elle commencer la
réplication dans une courte région oriC?"
Origine de la replication
•
Il doit y avoir des messages cachés dans le génome qui indiquent à la
cellule "Démarrer la réplication
Origine de la replication
•
Nous allons reformuler le problème La bonne formulation sera le
•
Input: une chaîne Text représentant l'origine de la réplication
•
Output: le message caché dans Text
Ce problème est-il clair?
Ce problème est absolument flou.
Qu’est que c’est le message caché
•
Mais revenons deux siècles en arrière et voyons comment quelqu'un dans une situation similaire a essayé de résoudre un problème similaire.
•
Nous allons à "The Gold Bug" nouvelle d'Edgar Allan Poe;
•
Dans cette histoire, le personage, qui s'appelait Legrand, a essayé de décoder le message laissé par les pirates.
•
Et il espérait que lorsqu'il décoderait le message, il serait en mesure de trouver un trésor de pirates.
The Gold Bug
•
Qu’est-ce que est codé dans ce texte?
•
La seule chose qu'il a vue est ce texte.
•
Ce que Legrand a remarqué, c'est qu'une combinaison de trois symboles
"; 48" apparaît étonnamment fréquemment dans ce texte.
•
Avez vous une idée de ce qui est écrit dans le message?
•
Voici un indice: Le message est en anglais
"Et voici un autre indice:" THE "est le mot le plus fréquent en
anglais
Et c'est pourquoi il a pu remplacer ”;48 "pour" THE "et ce
message a commencé à prendre du sens.
Nous allons à nouveau reformuler notre problème
En effet, pour divers signaux biologiques, certains mots apparaissent fréquemment dans le texte.
Par exemple:
C'est peu probable que cela arrive par hasard.
Nous formulons notre premier vrai problème.
Le problème des mots fréquents est:
• input : Une chaîne de caractère et un entier k,
• output: tous les k-mers les plus fréquents dans Text, ce qui signifie toutes les chaînes les plus fréquentes de longueur k dans le texte.
Ce problème est-il clair?
• En effet, la réplication est effectuée par l'ADN polymérase, mais pour initier la réplication, l'ADN polymérase a besoin d'une protéine appelée DnaA.
• DnaA se lie à une région courte (généralement juste un segment de 9 nucléotides) dans l’origine de la réplication appelle DnaA box.
• Une DnaA Box est en fait le message caché que nous
recherchons.
Vous pouvez proposer un algorithme pour chercher le DNA box dans un genome?
• Commencez à partir du premier k-mer dans le texte, faites-le glisser dans le texte et voyez combien de k- mers identiques sont présents dans le texte.
• Combien de temps cela prend-il?
• Cela prend du temps à peu près égal à | Texte | . k.
Qu’est que ce passe si on execute ce
algorithm sur le genome de vibrio cholerae
9-mers les plus frequents trouvés au moins 3 fois:
ATGATCAAG , CTTGATCAT , TCTTGGATCA , CTCTTGATC
atcaatgatcaacgtaagcttctaagcATGATCAAGgtgctcacacagtttatccacaacctgagtggatg acatcaagataggtcgttgtatctccttcctctcgtactctcatgaccacggaaagATGATCAAGagagga tgatttcttggccatatcgcaatgaatacttgtgacttgtgcttccaattgacatcttcagcgccatattg cgctggccaaggtgacggagcgggattacgaaagcatgatcatggctgttgttctgtttatcttgttttga ctgagacttgttaggatagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccg taaattgataatgaatttacatgcttccgcgacgatttacctCTTGATCATcgatccgattgaagatcttc aattgttaattctcttgcctcgactcatagccatgatgagctCTTGATCATgtttccttaaccctctattt tttacggaagaATGATCAAGctgctgctCTTGATCATcgtttc
Beaucoup de mots très fréquents - Lequel est un message caché?
Lequel de ces quatre représente la vraie boîte d'ADN et lequel d'entre eux ne
sont que des artefacts statistiques?
Hidden Message Found!
ATGATCAAG
|||||||||
TACTAGTTC (DnaA peut se lier à n’importe quel brin) Il est TRÈS SURPRENANT de trouver un 9-mer apparaissant 6
fois ou plus (comptant des compléments inverses) dans un court de ≈ 500 nucléotides.
atcaatgatcaacgtaagcttctaagcATGATCAAGgtgctcacacagtttatccacaacctgagtggatg acatcaagataggtcgttgtatctccttcctctcgtactctcatgaccacggaaagATGATCAAGagagga tgatttcttggccatatcgcaatgaatacttgtgacttgtgcttccaattgacatcttcagcgccatattg cgctggccaaggtgacggagcgggattacgaaagcatgatcatggctgttgttctgtttatcttgttttga ctgagacttgttaggatagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccg taaattgataatgaatttacatgcttccgcgacgatttacctCTTGATCATcgatccgattgaagatcttc aattgttaattctcttgcctcgactcatagccatgatgagctCTTGATCATgtttccttaaccctctattt tttacggaagaATGATCAAGctgctgctCTTGATCATcgtttc
Certains sont des compléments inverses et des boîtes
DnaA probables
Pouvons-nous trouver l’origine de la replication chez
Thermotoga petrophila en utilisant les message cachés de Vibrio Cholerae ?
Nous trouvons pas les occurrence ATGATCAAG ou CTTGATCAT de Vibrio Cholerae chez Thermotoga
petrophila!!!
aactctatacctcctttttgtcgaatttgtgtgatttatagagaaaatcttattaactgaaactaaaat ggtaggtttggtggtaggttttgtgtacattttgtagtatctgatttttaattacataccgtatattgt attaaattgacgaacaattgcatggaattgaatatatgcaaaacaaacctaccaccaaactctgtattg accattttaggacaacttcagggtggtaggtttctgaagctctcatcaatagactattttagtctttac aaacaatattaccgttcagattcaagattctacaacgctgttttaatgggcgttgcagaaaacttacca cctaaaatccagtatccaagccgatttcagagaaacctaccacttacctaccacttacctaccacccgg gtggtaagttgcagacattattaaaaacctcatcagaagcttgttcaaaaatttcaatactcgaaacct accacctgcgtcccctattatttactactactaataatagcagtataattgatctgaaaagaggtggta aaaaa