• Aucun résultat trouvé

Les messages cachés dans les sequences de ADN

N/A
N/A
Protected

Academic year: 2022

Partager "Les messages cachés dans les sequences de ADN"

Copied!
29
0
0

Texte intégral

(1)

cours8:

Les messages cachés dans les sequences de ADN

recherche de motifs: origine de replication

source: bioinformaticsalgorithms.com/slides/Chapter_1_slides.pptx

(2)

Copie de données

Informatique

Faire une copie du texte 1 vers le texte 2

Biologie

DNA replication

(3)

DNA replication

DNA replication chez l’homme est très complexe

Nous ne connaissons pas encore tous les règles

Nous allons nous focaliser à la replication de genome de Bacterie.

le genome d’une bactérie est 1000 fois plus petit que l’homme

à l'heure actuelle, il y a des milliards de cellules bactériennes qui tentent de répliquer les génomes bactériens à l'intérieur de vous.

le nombre de cellules bactériennes à l'intérieur de vous est 10 fois plus

grand que le nombre de vos propres cellules.

(4)

DNA Bacteria replication

les genomes de bactérie sont circulaire

On doit changer légèrement le problème.

Le nouveau problème est: Étant donné un génome CIRCULAIRE appelé Texte1, copiez-le dans un texte CIRCULAIRE2.

Un génome circulaire n'a pas de début et de fin,

Dans le génome d'E. Coli (5 millions de nucléotides) a le choix de l'endroit

où commencer la réplication.

(5)

DNA Bacteria replication

(6)

Origine de la replication

Normalement les batterie démarrez la réplication dans la même région, appelée "origine de la réplication".

Notre premier problème est

"Où tout commence-t-il dans le génome?"

Et la seule information que nous avons est le génome lui-même.

question: Quels sont les messages cachés dans le génome de E. coli qui

peuvent déterminer par où commencer l'origine de la réplication?

(7)

Origine de la replication

Problème : trouver l'origine de la réplication.

Input : un génome bactérien

Output: l'emplacement de l'origine de la réplication dans ce génome.

Le problème est claire? Nous pouvons commence à

code pour le résoudre?

(8)

Origine de la replication

Le problème est mal défini.

Comment pouvons-nous transformer ce problème en quelque chose de logique?

Essayons de poser une question: "comment la cellule sait-elle commencer la

réplication dans une courte région oriC?"

(9)

Origine de la replication

Il doit y avoir des messages cachés dans le génome qui indiquent à la

cellule "Démarrer la réplication

(10)

Origine de la replication

Nous allons reformuler le problème La bonne formulation sera le

Input: une chaîne Text représentant l'origine de la réplication

Output: le message caché dans Text

Ce problème est-il clair?

Ce problème est absolument flou.

Qu’est que c’est le message caché

(11)

Mais revenons deux siècles en arrière et voyons comment quelqu'un dans une situation similaire a essayé de résoudre un problème similaire.

Nous allons à "The Gold Bug" nouvelle d'Edgar Allan Poe;

Dans cette histoire, le personage, qui s'appelait Legrand, a essayé de décoder le message laissé par les pirates.

Et il espérait que lorsqu'il décoderait le message, il serait en mesure de trouver un trésor de pirates.

The Gold Bug

(12)

Qu’est-ce que est codé dans ce texte?

La seule chose qu'il a vue est ce texte.

(13)

Ce que Legrand a remarqué, c'est qu'une combinaison de trois symboles

"; 48" apparaît étonnamment fréquemment dans ce texte.

Avez vous une idée de ce qui est écrit dans le message?

Voici un indice: Le message est en anglais

"Et voici un autre indice:" THE "est le mot le plus fréquent en

anglais

(14)

Et c'est pourquoi il a pu remplacer ”;48 "pour" THE "et ce

message a commencé à prendre du sens.

(15)

Nous allons à nouveau reformuler notre problème

En effet, pour divers signaux biologiques, certains mots apparaissent fréquemment dans le texte.

Par exemple:

C'est peu probable que cela arrive par hasard.

(16)

Nous formulons notre premier vrai problème.

Le problème des mots fréquents est:

• input : Une chaîne de caractère et un entier k,

• output: tous les k-mers les plus fréquents dans Text, ce qui signifie toutes les chaînes les plus fréquentes de longueur k dans le texte.

Ce problème est-il clair?

(17)

• En effet, la réplication est effectuée par l'ADN polymérase, mais pour initier la réplication, l'ADN polymérase a besoin d'une protéine appelée DnaA.

• DnaA se lie à une région courte (généralement juste un segment de 9 nucléotides) dans l’origine de la réplication appelle DnaA box.

• Une DnaA Box est en fait le message caché que nous

recherchons.

(18)

Vous pouvez proposer un algorithme pour chercher le DNA box dans un genome?

• Commencez à partir du premier k-mer dans le texte, faites-le glisser dans le texte et voyez combien de k- mers identiques sont présents dans le texte.

• Combien de temps cela prend-il?

• Cela prend du temps à peu près égal à | Texte | . k.

(19)

Qu’est que ce passe si on execute ce

algorithm sur le genome de vibrio cholerae

9-mers les plus frequents trouvés au moins 3 fois:

ATGATCAAG , CTTGATCAT , TCTTGGATCA , CTCTTGATC

atcaatgatcaacgtaagcttctaagcATGATCAAGgtgctcacacagtttatccacaacctgagtggatg acatcaagataggtcgttgtatctccttcctctcgtactctcatgaccacggaaagATGATCAAGagagga tgatttcttggccatatcgcaatgaatacttgtgacttgtgcttccaattgacatcttcagcgccatattg cgctggccaaggtgacggagcgggattacgaaagcatgatcatggctgttgttctgtttatcttgttttga ctgagacttgttaggatagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccg taaattgataatgaatttacatgcttccgcgacgatttacctCTTGATCATcgatccgattgaagatcttc aattgttaattctcttgcctcgactcatagccatgatgagctCTTGATCATgtttccttaaccctctattt tttacggaagaATGATCAAGctgctgctCTTGATCATcgtttc

Beaucoup de mots très fréquents - Lequel est un message caché?

Lequel de ces quatre représente la vraie boîte d'ADN et lequel d'entre eux ne

sont que des artefacts statistiques?

(20)

Hidden Message Found!

ATGATCAAG

|||||||||

TACTAGTTC (DnaA peut se lier à n’importe quel brin) Il est TRÈS SURPRENANT de trouver un 9-mer apparaissant 6

fois ou plus (comptant des compléments inverses) dans un court de ≈ 500 nucléotides.

atcaatgatcaacgtaagcttctaagcATGATCAAGgtgctcacacagtttatccacaacctgagtggatg acatcaagataggtcgttgtatctccttcctctcgtactctcatgaccacggaaagATGATCAAGagagga tgatttcttggccatatcgcaatgaatacttgtgacttgtgcttccaattgacatcttcagcgccatattg cgctggccaaggtgacggagcgggattacgaaagcatgatcatggctgttgttctgtttatcttgttttga ctgagacttgttaggatagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccg taaattgataatgaatttacatgcttccgcgacgatttacctCTTGATCATcgatccgattgaagatcttc aattgttaattctcttgcctcgactcatagccatgatgagctCTTGATCATgtttccttaaccctctattt tttacggaagaATGATCAAGctgctgctCTTGATCATcgtttc

Certains sont des compléments inverses et des boîtes

DnaA probables

(21)

Pouvons-nous trouver l’origine de la replication chez

Thermotoga petrophila en utilisant les message cachés de Vibrio Cholerae ?

Nous trouvons pas les occurrence ATGATCAAG ou CTTGATCAT de Vibrio Cholerae chez Thermotoga

petrophila!!!

aactctatacctcctttttgtcgaatttgtgtgatttatagagaaaatcttattaactgaaactaaaat ggtaggtttggtggtaggttttgtgtacattttgtagtatctgatttttaattacataccgtatattgt attaaattgacgaacaattgcatggaattgaatatatgcaaaacaaacctaccaccaaactctgtattg accattttaggacaacttcagggtggtaggtttctgaagctctcatcaatagactattttagtctttac aaacaatattaccgttcagattcaagattctacaacgctgttttaatgggcgttgcagaaaacttacca cctaaaatccagtatccaagccgatttcagagaaacctaccacttacctaccacttacctaccacccgg gtggtaagttgcagacattattaaaaacctcatcagaagcttgttcaaaaatttcaatactcgaaacct accacctgcgtcccctattatttactactactaataatagcagtataattgatctgaaaagaggtggta aaaaa

(22)

Il faut executer à nouveau l’algorithme:

AACCTACCA , ACCTACCAC , GGTAGGTTT , TGGTAGGTT , AAACCTACC , CCTACCACC

genomes different ! different hidden messages (DnaA boxes)

(23)

Comment trouver l’origine de la Replication

Une stratégie : étant donné une oriC connue (une fenêtre de 500 nucléotides), trouver des mots fréquents dans oriC.

l’origine de la Replication → mots fréquents

Mais que se passe-t-il si la position de l'origine de la

réplication dans un génome est inconnue!

(24)

Nouvelle stratégie: trouver des mots fréquents dans TOUTES les fenêtres d'un génome. Les fenêtres ayant des groupes de mots fréquents sont des origines de réplication candidates.

mots fréquents → l’origine de la Replication

Comment trouver l’origine de la Replication

Une stratégie : étant donné une oriC connue (une fenêtre de 500 nucléotides), trouver des mots fréquents dans oriC.

l’origine de la Replication → mots fréquents

(25)

Biais de la réplication affecte les fréquences nucléotidiques

L'ADN simple brin a un taux de mutation beaucoup plus élevé que l'ADN double brin.

Quel nucléotide (A / C / G / T) a le taux de mutation le

plus élevé? Pourquoi?

(26)

The Peculiar Statistics of #G - #C

La cytosine (C) mute rapidement en thymine (T) par

deamination; les taux de deamination augmentent de 100 fois lorsque l'ADN est simple brin!

Brim vers l'avant: C est biaisé, G normal Brim Reverse: G est biaisé, C normal

#C #G #G - #C Reverse 219518 201634 -17884

vers l’avant 207901 211607 +3706

Difference +11617 -9973

(27)

3’

3’ 5’

5’

oriC

terC

On se promenade le long du génome

C high G low

C low G high

#G - #C Diminue #G - #C augment

si on se promenade le long du génome on constate que les #G - #C diminuent et commencent

soudainement à augmenter.

(28)

Diagramme Skew

Skew(k): #G - #C pour les premiers k nucléotides du génome.

Skew diagram: Tracé de skew(k) x k

CATGGGCATCGGCCATACGCC

(29)

Diagramme Skew de E. Coli: Où est l'origine de la réplication?

oriC

Références

Documents relatifs

Vos bonnes relations avec ces diverses personnes sont de la plus haute importance pour la prospérité de l'instruction primaire ; ne craignez pas d'entrer avec elles dans de

Lorsque le point O, centre du cercle, se trouve sur l'axe de la parabole, le problème s'achève avec la règle et le compas, car les solutions sont symétriques par rapport à cet axe^

Si le rayon CB se trouve être le plus grand segment do la distance CA partagée en moyenne et extrême raison, vt si, du point A comme centre avec CB pour rayon, on décrit

Lorsque CA=CB (fig. 27), on aCI=CL ; le triangle CIL étant isocèle, la bissectrice CY de l'angle ICL passe par le milieu M de la base IL du triangle, et a = 0.. La première est

On peut même aller beaucoup plus loin, et faire en sorte que cette portion d’ADN que l’on amène avec la nucléase soit un nouveau gène, ou même..

L’intérêt majeur de cette cartographie est de permettre la mise en évidence de liaisons géné- tiques étroites entre certains de ces marqueurs et des gènes

¾ Certains atomes des bases sont accessibles dans les sillons permettant la reconnaissance spécifique d’une séquence d’ADN.. Contrôle continu du mardi 04 octobre 2005

A partir de la séquence initiale on contruit la liste de tous les mots de longueur w (par exemple 4 pour les protéines) ayant au moins un score de T avec un mots de longueur w de