Temperature de croissance optimale

(1)

Algorithmes sur les séquences en bioinformatique

Alessandra Carbone Université Pierre et Marie Curie

M2 - STL

Cours 1: Introduction

A.Carbone - UPMC 2

La bioinformatique est définie d’habitude comme l’analyse, la prédiction et la modélisation de données biologiques à l’aide de l’ordinateur.

Qu’est-ce que la bioinformatique?

Nouvelles méthodes d’analyse mathématique, informatique, physique

sont demandées.

1. Introduction aux séquences d’ADN et aux mécanismes biologiques 2. Algorithmes de comparaison de séquences : utilisation de la programmation

dynamique

3. Algorithmes de recherche de motifs : utilisation des modèles de Markov cachés 4. Algorithmes de prédiction des gènes

5. Algorithmes de prédiction de structures des ARN 6. Algorithmes d’alignement de structures des protéines

TP (4h)

Alignement des séquences (Blast, ClustalW, analyse des paramètres)

Programme du cours

Introduction aux mécanismes biologiques

Séquençage de génomes et problèmes algorithmiques Phylogénie des espèces et des molécules

Interaction des molécules et réseaux biologiques

Algorithmes pour la reconstruction de séquences à partir de cartes génétiques Algorithmes de traitement des réarrangements des génomes

Algorithmes pour la construction d’arbres phylogénétiques Reconstruction de réseaux biologiques

Graphes aléatoires et graphes dits “small world”

Recherche algorithmique de motifs combinatoires sur les réseaux biologiques

TP (4h)

Plan du cours en février (IAD)

« Algorithmes sur arbres et graphes en bioinformatique »

(2)

A.Carbone - UPMC 5

Qu’est-ce que la bioinformatique?

- Étudier l’organisation des génomes - Élucider et quantifier les processus

biologiques

Un exemple de recherche des mécanismes : les réseaux de protéines dans la chemotaxis

A.Carbone - UPMC 6

Chemotaxis

nager… tâter…

A.Carbone - UPMC 7

Cellules utilisent des réseaux de protéines pour contrôler leurs comportement

A.Carbone - UPMC 8

GGTACTTACCTTGGA GAGATTCCATTACCG CGCGTAGCGCTTAAT TCCGCGAGATCGAT CGATCGTGCATTCAA TTCAGCGCATACGAT CGACTACTTCAGCG GAATCAATCGAAGT

Qu’est-ce que code la séquence ?

(3)

ADN

A.Carbone - UPMC 10

ADN double brin

Lien phosphatique Lien hydrogène

Lien C-C

Table des énergies

kcal/mol

Note: 1 mol = quantité de substance contenant 6.0221367 x 10²³molécules Formation spontanée

ADN double helice

(4)

A.Carbone - UPMC 13

Hibridation et l’effet “zipping”

A.Carbone - UPMC 14

Arrangement de l’ADN dans

une cellule

A.Carbone - UPMC 15

Echelles - dimensions

A.Carbone - UPMC 16

transcription

traduction RNAmessager

protéine

Transcription et traduction

(5)

A.Carbone - UPMC 17

Transcription

A.Carbone - UPMC 18

Transcription dans les eucaryotes

Exons et introns

Traduction: redondance du code génétique

(6)

A.Carbone - UPMC 21

Traduction

A.Carbone - UPMC 22

Aminoacyl-tRNA synthetases

De l’ARN à la protéine

A.Carbone - UPMC 23

Repliement des protéines

A.Carbone - UPMC 24

Mutations: la similarité des protéines

protéine

polyA binding Homo sapiens protéine ribosomale L20

Aquifex aeolicus

(7)

A.Carbone - UPMC 25

Superposition des deux structures

bactérie et homme

Programme d’alignement de structures PROSUP

Nombre d’identité = 5; RMSD= 2.41Å

bactérie: |----WIARINAAVRA--YGLNYSTFINGLKKAGIELDRKILADMAVRDPQAFEQVVNKVKEALQVQ- equiv.: | *********** ******* *************************

homme: |HRQALGERLYPRVQAMQPAFASKITG---MLLELSPAQLLLLLASEDSLRARVDEAMELIIAHG Identite: | # # # # #

Substitution Délétion Insertion

d’acides-aminés

A.Carbone - UPMC 26

Echelles et dimensions (continuation)

Problèmes calculatoires I : la recherche des gènes

Etant donnée une séquence d’ADN, prédire la position des gènes (Open Reading Frames, ORF), des exons et des introns.

…dans les génomes procaryotes : http://www.tigr.org

Codons stop

(8)

A.Carbone - UPMC 29

Les recherches des gènes peuvent être réalisées ab initio, comme dans la méthode précédente, ou bien en exploitant de l’information sur les gènes déjà trouves dans d’autres génomes.

A.Carbone - UPMC 30

Problèmes calculatoires II : l’alignement des séquences

Etant données deux (ou plusieurs) séquences d’ADN ou de protéines, trouver le meilleur alignement entre elles.

A.Carbone - UPMC 31

Une séquenceACGTACGTa pu évoluer pour donner : – – ACG–T– A– – –CG– T– – – – ACACGGTCCTAATAATGGCC – – – AC–GTA –C ––G –T ––

CAG –GAAGATCTTAGTTC

probabilités de délétion: 0.0001 insertion: 0.001

substitution A/G, T/C: 0.00008 substitution A/C, T/G: 0.00002

Un alignemententre les deux séquences pourrait être –AC AC– GGTCCTAAT – –AATGGCC CAG –GAA –G–AT– – CTTAGTTC – –

A.Carbone - UPMC 32

Les probabilités d’insertion, délétion et

substitution seront utilisées pour reconstruire

l’alignement cherché : matrices de substitution.

(9)

A.Carbone - UPMC 33

On définie un coût/« pénalité » d’occurrence pour l’ensemble d’opérations possibles.

Exemple: insertion -> ouverture d’un gap avec pénalité

Meilleur alignement =

alignement avec pénalité ayant la plus petite somme de pénalités

A.Carbone - UPMC 34

Pourquoi?

ANNOTATION DES GENOMES

séquences similaires ont une origine commune et souvent une fonction similaire :

recherche d’homologie de séquences (les séquences sont issues d’un ancêtre commun)

Problèmes calculatoires III : le réarrangement des génomes

Un exemple : l’homme et la sourie

• La sourie a 2.1 x10⁹bp vs 2.9 x 10⁹bp chez l’homme.

• A peu près 95% du matériel génétique est partagé.

• 99% des gènes partagés sur un totale de 30,000.

• Les 300 gènes sans homologues dans les deux espèces concernent surtout l’immunité, la détoxification, l’odeur et la sexualité.

Homme et sourie

• Il existe une quantité

significative de réarrangement des génomes entre homme et sourie.

• Ici on voit la carte du

chromosome 3 chez l’homme.

• Il contient des séquences homologues a au moins 5 chromosome de la sourie.

(10)

A.Carbone - UPMC 37

Mécanismes:

Duplication de gènes (un ou plusieurs a la fois), insertions

Gene 1 2 3 4

1 1 2 3 4

et inversion de gènes…

A.Carbone - UPMC 38

Etant données deux permutations d’un ensemble de segments génomiques, trouver l’ensemble minimale d’opérations pour transformer une permutation dans l’autre

A.Carbone - UPMC 39

Un 2eme exemple : duplication massive du génome

de la levure

A.Carbone - UPMC 40

Les réarrangements des génomes sont rares par rapport aux mutations ponctuelles:

10 substitutions par génération d’un organisme

1 réarrangement non fatale chaque 5-10 millions d’années

La rarité des événements de réarrangement nous permet d’établir l’existence de processus évolutionnaires parce que la chance d’un renversement est minuscule. En

conséquence, par la découverte de tous réarrangements, nous pouvons reconstruire des hypothèses évolutionnaires.

(11)

A.Carbone - UPMC 41

Problèmes calculatoires IV : le repliement des ARN

Etant donnée une séquence de nucléotides AUCG, prédire la structure secondaire de l’ARN (sans ou avec pseudo-noeuds)

A.Carbone - UPMC 42

Exemples :

ARN avec pseudo noeud

Problèmes calculatoires IV : le repliement des protéines

Etant donnée une séquence de protéines, prédire la structure tertiaire de la protéine

Prédiction de-novo de la structure: problème ouvert

Plusieurs approches pour approximer la structure de la protéine existent :

Modélisation par homologie– utilise une base de données de protéines pour chercher des séquences similaires. Si une protéines avec homologie d’au moins 30% est trouvée, c’est assez probable que les deux protéines ont la même structure Threading– classifie les structures connuesdans des familles avec repliement similaire. Etant donnée une séquence d’acides aminés, on sélectionne la famille

(12)

45

Problèmes calculatoires V : l’assemblage des séquences

Pour séquencer des large portion d’ADN, il est possible de le partager dans des petits fragments et effectuer le séquençage sur ces morceaux. Le problème que se présent est la reconstruction de la chaîne a partir de ces séquences.

Etant donné un ensemble de séquences, trouver la chaîne de longueur minimale qui contient tous les membres de

l’ensemble de sous-chaînes.

Ce problème est NP-complet. Il y a des algorithmes gourmands qui réalisent le réassemblage de façon satisfaisante en temps raisonnable. Le problème

est difficile a cause des nombreuses séquences répétées. A.Carbone - UPMC 46

Séquençage des génomes

A.Carbone - UPMC 47

• Annotation des génomes (vers la fonctionnalité des protéines)

• Comparaison entre génomes (évolution et génétique)

• Réseaux complexes d’interaction (réseaux métaboliques, de régulation de gènes, d’interactions protéines-protéines/

protéines-ADN)

• Liaison entre les nombreux niveaux d’organisation hiérarchique

Construction de bases de données De la séquence au comportement intégré

A.Carbone - UPMC 48

Longueurs des génomes

(13)

A.Carbone - UPMC 49

Comparaison des tailles des génomes

• Le génome de Plasmodium falciparum, le parasite qui cause la malaria, fait 23 Mb en taille.

• Le génome humain est environs 150 fois plus large, celui de la sourie > 100 fois, et celui de la drosophile

> 5 fois plus grand.

• Questions: comment les génomes des ancêtres ont pu devenir plus longs au cours de l’évolution? En quoi se différencie leur matériel génétique?

A.Carbone - UPMC 50

Analyse statistique à large échelle

Temperature de croissance optimale

On peut aujourd’hui définir des espaces formels de génomes

Un nombre de gènes comparable…

(14)

A.Carbone - UPMC 53

Homologie des gènes entre espèces

A.Carbone - UPMC 54

Recherche de protéines dans différentes espèces : comparaison de séquences

• Les bases de données d’ADN sont plus larges que celles des protéines

• La traduction d’une séquence d’ADN dans une protéine induit une perte d’information

• Les séquences de protéines sont plus préservées que les séquences d’ADN.

Traduire une séquence d’ADN dans une protéine amène toujours à des meilleures résultats!

A.Carbone - UPMC 55 A.Carbone - UPMC 56

(15)

A.Carbone - UPMC 57 A.Carbone - UPMC 58

Analyse des protéines dans différentes espèces : critère de détection de leur lien fonctionnel

fusionnement de protéines

Génomique comparative: profiles phylogénétiques

1 1 1

Réseaux complexes d’interaction :

réseaux de

protéines

(16)

A.Carbone - UPMC 61

La bioinformatique porte surtout sur les similarités entre espèces

Jusqu’aujourd’hui elle explique très peu des telles différences A.Carbone - UPMC 62

Analyse des régions non-codantes et recherche de motifs

A.Carbone - UPMC 63

Pour comprendre les différences entre organismes il faut descendre au niveau moléculaireet étudier les

interactionsentre gènes.

On cherche un modèle qui soit capable de générer pleins d’organismes différents à partir d’unecombinaisonde très peu de signauxet très peu de gènes!

A.Carbone - UPMC 64

Logique

(17)

A.Carbone - UPMC 65

Exemple : développement de l’oursin de mer

A.Carbone - UPMC 66

Circuit de gènes de développement de l’oursin _Problème

calculatoire V:

la recherche de

motifs régulateurs dans les régions promotrices

-300 -400

bps gène

région promotrice

(18)

A.Carbone - UPMC 69

Nouvelles technologies : les puces à ADN

A.Carbone - UPMC 70

Exemple: analyse du cycle cellulaire de la levure

A.Carbone - UPMC 71

Bases de données et outils

Pourquoi rechercher dans les bases de données:

• Séquence d’ADN nouvelle: est-elle/une partie/un homologue déjà dans la base?

• Recherche de l’annotation de la séquence

• Recherche de séquences non-codantes similaires:

éléments répétés, séquences régulatrices

• Trouver des mauvais sites d’enzymes de restriction

• Recherche de protéines homologues

A.Carbone - UPMC 72

Séquences et annotation

GenBank Natl. Center Biol. Inform.

http://www.ncbi.nlm.nih.gov

EMBL-EBI + Sanger Inst.

http://www.ensembl.org DNA databank of Japan http://www.ddbj.nig.ac.jp/

TIGR The Inst. For Genomic Res.

http://www.tigr.org

Centre National de Séquençage http://www.genoscope.cns.fr/

(19)

A.Carbone - UPMC 73

Génomes spécialisés

Plasmodium falciparumdatabase http://plasmodb.org/

DrosophilaDatabase http://flybase.bio.indiana.edu/

C.elegansdatabase http://www.wormbase.org/

HumanGenome Database http://gdbwww.gdb.org/

Méthodes de recherche d’annotation dans plusieurs bdd

Sequence Retrieval System Lien à 80 bases de données biologiques http://srs.ebi.ac.uk/

Entrez– Recherche dans les bases de données

de NCBI http://www.ncbi.nlm.nih.gov/Entrez A.Carbone - UPMC 74

Croissance des bases de données d’ADN

Nombrede nucleotides

La croissance est exponentielle

Problèmes avec les bdd existantes

Elles sont régulées par les utilisateurs plutôt que d’avoir une gestion centralisée

La donnée peux être changée/mise à jours seulement par son patron

Séquences ne sont pas à jours

Large redondance dans les bdd et entre elles

Manque de standards pour les champs d’accès ou l’annotation

Protéines (séquences d’acides-aminés)

PBD Protein Data Bank

http://www.rcsb.org/pdb

Expert Protein Analysis System : SwissProt + TrEMBL, Prosite, …

http://www.expasy.org

PIR Protein Information Resource

(20)

A.Carbone - UPMC 77

Nouvelles structures et nombre totale de structures dans PDB

78

Familles de protéines et classification

Database of protein families and domains http://www.expasy.org/prosite/

Protein families database of alignments http://www.sanger.ac.uk/Software/Pfam/

Homologous Structure alignment Database http://www-cryst.bioc.cam.ac.uk/~homstrad/

Macromolecular Structure Database SSM (Secondary Structure Matching),…

http://www.ebi.ac.uk/msd-srv/ssm/ssmstart.html CATH - Protein Structure Classification http://www.biochem.ucl.ac.uk/bsm/cath/

SCOP - Structural Classification of Proteins http://scop.berkeley.edu/

FSSP - repository for secondary structure alignment data http://www.rfcgr.mrc.ac.uk/Bioinformatics/Databases/fssp-help.html

A.Carbone - UPMC 79

Protéines + …

• NRL_3D directement relie a la structure des protéines; contient séquences extraites de PDB avec structures secondaires, sites actifs, sites de liaison, annotations, détails de méthodes expérimentales, résolution, R-facteur, etc.

• GenPeptsupplément a Genbank; traduction de régions codantes dans GenBank. Annotation minimale.

• Pfam

A.Carbone - UPMC 80

Facteurs de transcription

BioBase Database

http://www.gene-regulation.com/pub/databases.html#transfac Tess - Transcription Element Search System

http://www.cbil.upenn.edu/tess/

Réseaux métaboliques

KEGG pathways

http://www.genome.jp/kegg/pathway.html BioCyc database

http://www.biocyc.org/

(21)

A.Carbone - UPMC 81

D’autres domaines de la bioinformatique

- Structure de protéines

• Alignement de structures de protéines

• Prédiction de structure secondaire des protéines - Structures des ARN et dynamique de repliement - Prédiction des sites d’interaction entre protéines, ou

protéine/ADN

- Phylogénie des séquences

- Analyse des séquences : biais des codons - Génomique comparative et l’espace des génomes - Reconstruction des réseaux métaboliques

*

A.Carbone - UPMC 82

Références bibliographiques d’introduction

A.Carbone et M.Gromov

« Mathematical slices of molecular biology » Gazette des Mathématiciens, édition spéciale, Société Mathématique de France, numéro 88, 11-80, 2001.

http://www.ihes.fr/PREPRINTS/M01/Resu/resu-M01- 03.html#99-3

…et références dans l’article.