Les messages cachés dans les sequences de ADN

(1)

cours8:

Les messages cachés dans les sequences de ADN

recherche de motifs: origine de replication

source: bioinformaticsalgorithms.com/slides/Chapter_1_slides.pptx

(2)

Copie de données

•

Informatique

•

Faire une copie du texte 1 vers le texte 2

•

Biologie

•

DNA replication

(3)

DNA replication

•

DNA replication chez l’homme est très complexe

•

Nous ne connaissons pas encore tous les règles

•

Nous allons nous focaliser à la replication de genome de Bacterie.

•

le genome d’une bactérie est 1000 fois plus petit que l’homme

•

à l'heure actuelle, il y a des milliards de cellules bactériennes qui tentent de répliquer les génomes bactériens à l'intérieur de vous.

•

le nombre de cellules bactériennes à l'intérieur de vous est 10 fois plus

grand que le nombre de vos propres cellules.

(4)

DNA Bacteria replication

•

les genomes de bactérie sont circulaire

•

On doit changer légèrement le problème.

•

Le nouveau problème est: Étant donné un génome CIRCULAIRE appelé Texte1, copiez-le dans un texte CIRCULAIRE2.

•

Un génome circulaire n'a pas de début et de fin,

•

Dans le génome d'E. Coli (5 millions de nucléotides) a le choix de l'endroit

où commencer la réplication.

(5)

DNA Bacteria replication

(6)

Origine de la replication

•

Normalement les batterie démarrez la réplication dans la même région, appelée "origine de la réplication".

•

Notre premier problème est

•

"Où tout commence-t-il dans le génome?"

•

Et la seule information que nous avons est le génome lui-même.

question: Quels sont les messages cachés dans le génome de E. coli qui

peuvent déterminer par où commencer l'origine de la réplication?

(7)

Origine de la replication

•

Problème : trouver l'origine de la réplication.

•

Input : un génome bactérien

•

Output: l'emplacement de l'origine de la réplication dans ce génome.

Le problème est claire? Nous pouvons commence à

code pour le résoudre?

(8)

Origine de la replication

•

Le problème est mal défini.

•

Comment pouvons-nous transformer ce problème en quelque chose de logique?

•

Essayons de poser une question: "comment la cellule sait-elle commencer la

réplication dans une courte région oriC?"

(9)

Origine de la replication

•

Il doit y avoir des messages cachés dans le génome qui indiquent à la

cellule "Démarrer la réplication

(10)

Origine de la replication

•

Nous allons reformuler le problème La bonne formulation sera le

•

Input: une chaîne Text représentant l'origine de la réplication

•

Output: le message caché dans Text

Ce problème est-il clair?

Ce problème est absolument flou.

Qu’est que c’est le message caché

(11)

•

Mais revenons deux siècles en arrière et voyons comment quelqu'un dans une situation similaire a essayé de résoudre un problème similaire.

•

Nous allons à "The Gold Bug" nouvelle d'Edgar Allan Poe;

•

Dans cette histoire, le personage, qui s'appelait Legrand, a essayé de décoder le message laissé par les pirates.

•

Et il espérait que lorsqu'il décoderait le message, il serait en mesure de trouver un trésor de pirates.

The Gold Bug

(12)

•

Qu’est-ce que est codé dans ce texte?

•

La seule chose qu'il a vue est ce texte.

(13)

•

Ce que Legrand a remarqué, c'est qu'une combinaison de trois symboles

"; 48" apparaît étonnamment fréquemment dans ce texte.

•

Avez vous une idée de ce qui est écrit dans le message?

•

Voici un indice: Le message est en anglais

"Et voici un autre indice:" THE "est le mot le plus fréquent en

anglais

(14)

Et c'est pourquoi il a pu remplacer ”;48 "pour" THE "et ce

message a commencé à prendre du sens.

(15)

Nous allons à nouveau reformuler notre problème

En effet, pour divers signaux biologiques, certains mots apparaissent fréquemment dans le texte.

Par exemple:

C'est peu probable que cela arrive par hasard.

(16)

Nous formulons notre premier vrai problème.

Le problème des mots fréquents est:

• input : Une chaîne de caractère et un entier k,

• output: tous les k-mers les plus fréquents dans Text, ce qui signifie toutes les chaînes les plus fréquentes de longueur k dans le texte.

Ce problème est-il clair?

(17)

• En effet, la réplication est effectuée par l'ADN polymérase, mais pour initier la réplication, l'ADN polymérase a besoin d'une protéine appelée DnaA.

• DnaA se lie à une région courte (généralement juste un segment de 9 nucléotides) dans l’origine de la réplication appelle DnaA box.

• Une DnaA Box est en fait le message caché que nous

recherchons.

(18)

Vous pouvez proposer un algorithme pour chercher le DNA box dans un genome?

• Commencez à partir du premier k-mer dans le texte, faites-le glisser dans le texte et voyez combien de k- mers identiques sont présents dans le texte.

• Combien de temps cela prend-il?

• Cela prend du temps à peu près égal à | Texte | . k.

(19)

Qu’est que ce passe si on execute ce

algorithm sur le genome de vibrio cholerae

9-mers les plus frequents trouvés au moins 3 fois:

ATGATCAAG , CTTGATCAT , TCTTGGATCA , CTCTTGATC

atcaatgatcaacgtaagcttctaagcATGATCAAGgtgctcacacagtttatccacaacctgagtggatg acatcaagataggtcgttgtatctccttcctctcgtactctcatgaccacggaaagATGATCAAGagagga tgatttcttggccatatcgcaatgaatacttgtgacttgtgcttccaattgacatcttcagcgccatattg cgctggccaaggtgacggagcgggattacgaaagcatgatcatggctgttgttctgtttatcttgttttga ctgagacttgttaggatagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccg taaattgataatgaatttacatgcttccgcgacgatttacctCTTGATCATcgatccgattgaagatcttc aattgttaattctcttgcctcgactcatagccatgatgagctCTTGATCATgtttccttaaccctctattt tttacggaagaATGATCAAGctgctgctCTTGATCATcgtttc

Beaucoup de mots très fréquents - Lequel est un message caché?

Lequel de ces quatre représente la vraie boîte d'ADN et lequel d'entre eux ne

sont que des artefacts statistiques?

(20)

Hidden Message Found!

ATGATCAAG

|||||||||

TACTAGTTC (DnaA peut se lier à n’importe quel brin) Il est TRÈS SURPRENANT de trouver un 9-mer apparaissant 6

fois ou plus (comptant des compléments inverses) dans un court de ≈ 500 nucléotides.

atcaatgatcaacgtaagcttctaagcATGATCAAGgtgctcacacagtttatccacaacctgagtggatg acatcaagataggtcgttgtatctccttcctctcgtactctcatgaccacggaaagATGATCAAGagagga tgatttcttggccatatcgcaatgaatacttgtgacttgtgcttccaattgacatcttcagcgccatattg cgctggccaaggtgacggagcgggattacgaaagcatgatcatggctgttgttctgtttatcttgttttga ctgagacttgttaggatagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccg taaattgataatgaatttacatgcttccgcgacgatttacctCTTGATCATcgatccgattgaagatcttc aattgttaattctcttgcctcgactcatagccatgatgagctCTTGATCATgtttccttaaccctctattt tttacggaagaATGATCAAGctgctgctCTTGATCATcgtttc

Certains sont des compléments inverses et des boîtes

DnaA probables

(21)

Pouvons-nous trouver l’origine de la replication chez

Thermotoga petrophila en utilisant les message cachés de Vibrio Cholerae ?

Nous trouvons pas les occurrence ATGATCAAG ou CTTGATCAT de Vibrio Cholerae chez Thermotoga

petrophila!!!

aactctatacctcctttttgtcgaatttgtgtgatttatagagaaaatcttattaactgaaactaaaat ggtaggtttggtggtaggttttgtgtacattttgtagtatctgatttttaattacataccgtatattgt attaaattgacgaacaattgcatggaattgaatatatgcaaaacaaacctaccaccaaactctgtattg accattttaggacaacttcagggtggtaggtttctgaagctctcatcaatagactattttagtctttac aaacaatattaccgttcagattcaagattctacaacgctgttttaatgggcgttgcagaaaacttacca cctaaaatccagtatccaagccgatttcagagaaacctaccacttacctaccacttacctaccacccgg gtggtaagttgcagacattattaaaaacctcatcagaagcttgttcaaaaatttcaatactcgaaacct accacctgcgtcccctattatttactactactaataatagcagtataattgatctgaaaagaggtggta aaaaa

(22)

Il faut executer à nouveau l’algorithme:

AACCTACCA , ACCTACCAC , GGTAGGTTT , TGGTAGGTT , AAACCTACC , CCTACCACC

genomes different ! different hidden messages (DnaA boxes)

(23)

Comment trouver l’origine de la Replication

Une stratégie : étant donné une oriC connue (une fenêtre de 500 nucléotides), trouver des mots fréquents dans oriC.

l’origine de la Replication → mots fréquents

Mais que se passe-t-il si la position de l'origine de la

réplication dans un génome est inconnue!

(24)

Nouvelle stratégie: trouver des mots fréquents dans TOUTES les fenêtres d'un génome. Les fenêtres ayant des groupes de mots fréquents sont des origines de réplication candidates.

mots fréquents → l’origine de la Replication

Comment trouver l’origine de la Replication

Une stratégie : étant donné une oriC connue (une fenêtre de 500 nucléotides), trouver des mots fréquents dans oriC.

l’origine de la Replication → mots fréquents

(25)

Biais de la réplication affecte les fréquences nucléotidiques

L'ADN simple brin a un taux de mutation beaucoup plus élevé que l'ADN double brin.

Quel nucléotide (A / C / G / T) a le taux de mutation le

plus élevé? Pourquoi?

(26)

The Peculiar Statistics of #G - #C

La cytosine (C) mute rapidement en thymine (T) par

deamination; les taux de deamination augmentent de 100 fois lorsque l'ADN est simple brin!

Brim vers l'avant: C est biaisé, G normal Brim Reverse: G est biaisé, C normal

#C #G #G - #C Reverse 219518 201634 -17884

vers l’avant 207901 211607 +3706

Difference +11617 -9973

(27)