Algorithmes sur les séquences en bioinformatique
Alessandra Carbone Université Pierre et Marie Curie
M2 - STL
Cours 1: Introduction
A.Carbone - UPMC 2
La bioinformatique est définie d’habitude comme l’analyse, la prédiction et la modélisation de données biologiques à l’aide de l’ordinateur.
Qu’est-ce que la bioinformatique?
Nouvelles méthodes d’analyse mathématique, informatique, physique
sont demandées.
1. Introduction aux séquences d’ADN et aux mécanismes biologiques 2. Algorithmes de comparaison de séquences : utilisation de la programmation
dynamique
3. Algorithmes de recherche de motifs : utilisation des modèles de Markov cachés 4. Algorithmes de prédiction des gènes
5. Algorithmes de prédiction de structures des ARN 6. Algorithmes d’alignement de structures des protéines
TP (4h)
Alignement des séquences (Blast, ClustalW, analyse des paramètres)
Programme du cours
Introduction aux mécanismes biologiques
Séquençage de génomes et problèmes algorithmiques Phylogénie des espèces et des molécules
Interaction des molécules et réseaux biologiques
Algorithmes pour la reconstruction de séquences à partir de cartes génétiques Algorithmes de traitement des réarrangements des génomes
Algorithmes pour la construction d’arbres phylogénétiques Reconstruction de réseaux biologiques
Graphes aléatoires et graphes dits “small world”
Recherche algorithmique de motifs combinatoires sur les réseaux biologiques
TP (4h)
Plan du cours en février (IAD)
« Algorithmes sur arbres et graphes en bioinformatique »
A.Carbone - UPMC 5
Qu’est-ce que la bioinformatique?
- Étudier l’organisation des génomes - Élucider et quantifier les processus
biologiques
Un exemple de recherche des mécanismes : les réseaux de protéines dans la chemotaxis
A.Carbone - UPMC 6
Chemotaxis
nager… tâter…
A.Carbone - UPMC 7
Cellules utilisent des réseaux de protéines pour contrôler leurs comportement
A.Carbone - UPMC 8
GGTACTTACCTTGGA GAGATTCCATTACCG CGCGTAGCGCTTAAT TCCGCGAGATCGAT CGATCGTGCATTCAA TTCAGCGCATACGAT CGACTACTTCAGCG GAATCAATCGAAGT
Qu’est-ce que code la séquence ?
ADN
A.Carbone - UPMC 10
ADN double brin
Lien phosphatique Lien hydrogèneLien C-C
Table des énergies
kcal/mol
Note: 1 mol = quantité de substance contenant 6.0221367 x 1023molécules Formation spontanée
ADN double helice
A.Carbone - UPMC 13
Hibridation et l’effet “zipping”
A.Carbone - UPMC 14
Arrangement de l’ADN dans
une cellule
A.Carbone - UPMC 15
Echelles - dimensions
A.Carbone - UPMC 16
transcription
traduction RNAmessager
protéine
Transcription et traduction
A.Carbone - UPMC 17
Transcription
A.Carbone - UPMC 18
Transcription dans les eucaryotes
Exons et introns
Traduction: redondance du code génétique
A.Carbone - UPMC 21
Traduction
A.Carbone - UPMC 22
Aminoacyl-tRNA synthetases
De l’ARN à la protéine
A.Carbone - UPMC 23
Repliement des protéines
A.Carbone - UPMC 24
Mutations: la similarité des protéines
protéine
polyA binding Homo sapiens protéine ribosomale L20
Aquifex aeolicus
A.Carbone - UPMC 25
Superposition des deux structures
bactérie et homme
Programme d’alignement de structures PROSUP
Nombre d’identité = 5; RMSD= 2.41Å
bactérie: |----WIARINAAVRA--YGLNYSTFINGLKKAGIELDRKILADMAVRDPQAFEQVVNKVKEALQVQ- equiv.: | *********** ******* *************************
homme: |HRQALGERLYPRVQAMQPAFASKITG---MLLELSPAQLLLLLASEDSLRARVDEAMELIIAHG Identite: | # # # # #
Substitution Délétion Insertion
d’acides-aminés
A.Carbone - UPMC 26
Echelles et dimensions (continuation)
Problèmes calculatoires I : la recherche des gènes
Etant donnée une séquence d’ADN, prédire la position des gènes (Open Reading Frames, ORF), des exons et des introns.
…dans les génomes procaryotes : http://www.tigr.org
Codons stop
A.Carbone - UPMC 29
Les recherches des gènes peuvent être réalisées ab initio, comme dans la méthode précédente, ou bien en exploitant de l’information sur les gènes déjà trouves dans d’autres génomes.
A.Carbone - UPMC 30
Problèmes calculatoires II : l’alignement des séquences
Etant données deux (ou plusieurs) séquences d’ADN ou de protéines, trouver le meilleur alignement entre elles.
A.Carbone - UPMC 31
Une séquenceACGTACGTa pu évoluer pour donner : – – ACG–T– A– – –CG– T– – – – ACACGGTCCTAATAATGGCC – – – AC–GTA –C ––G –T ––
CAG –GAAGATCTTAGTTC
probabilités de délétion: 0.0001 insertion: 0.001
substitution A/G, T/C: 0.00008 substitution A/C, T/G: 0.00002
Un alignemententre les deux séquences pourrait être –AC AC– GGTCCTAAT – –AATGGCC CAG –GAA –G–AT– – CTTAGTTC – –
A.Carbone - UPMC 32
Les probabilités d’insertion, délétion et
substitution seront utilisées pour reconstruire
l’alignement cherché : matrices de substitution.
A.Carbone - UPMC 33
On définie un coût/« pénalité » d’occurrence pour l’ensemble d’opérations possibles.
Exemple: insertion -> ouverture d’un gap avec pénalité
Meilleur alignement =
alignement avec pénalité ayant la plus petite somme de pénalités
A.Carbone - UPMC 34
Pourquoi?
ANNOTATION DES GENOMES
séquences similaires ont une origine commune et souvent une fonction similaire :
recherche d’homologie de séquences (les séquences sont issues d’un ancêtre commun)
Problèmes calculatoires III : le réarrangement des génomes
Un exemple : l’homme et la sourie
• La sourie a 2.1 x109bp vs 2.9 x 109bp chez l’homme.
• A peu près 95% du matériel génétique est partagé.
• 99% des gènes partagés sur un totale de 30,000.
• Les 300 gènes sans homologues dans les deux espèces concernent surtout l’immunité, la détoxification, l’odeur et la sexualité.
Homme et sourie
• Il existe une quantité
significative de réarrangement des génomes entre homme et sourie.
• Ici on voit la carte du
chromosome 3 chez l’homme.
• Il contient des séquences homologues a au moins 5 chromosome de la sourie.
A.Carbone - UPMC 37
Mécanismes:
Duplication de gènes (un ou plusieurs a la fois), insertions
Gene 1 2 3 4
1 1 2 3 4
et inversion de gènes…
A.Carbone - UPMC 38
Etant données deux permutations d’un ensemble de segments génomiques, trouver l’ensemble minimale d’opérations pour transformer une permutation dans l’autre
A.Carbone - UPMC 39
Un 2eme exemple : duplication massive du génome
de la levure
A.Carbone - UPMC 40
Les réarrangements des génomes sont rares par rapport aux mutations ponctuelles:
10 substitutions par génération d’un organisme
1 réarrangement non fatale chaque 5-10 millions d’années
La rarité des événements de réarrangement nous permet d’établir l’existence de processus évolutionnaires parce que la chance d’un renversement est minuscule. En
conséquence, par la découverte de tous réarrangements, nous pouvons reconstruire des hypothèses évolutionnaires.
A.Carbone - UPMC 41
Problèmes calculatoires IV : le repliement des ARN
Etant donnée une séquence de nucléotides AUCG, prédire la structure secondaire de l’ARN (sans ou avec pseudo-noeuds)
A.Carbone - UPMC 42
Exemples :
ARN avec pseudo noeud
Problèmes calculatoires IV : le repliement des protéines
Etant donnée une séquence de protéines, prédire la structure tertiaire de la protéine
Prédiction de-novo de la structure: problème ouvert
Plusieurs approches pour approximer la structure de la protéine existent :
Modélisation par homologie– utilise une base de données de protéines pour chercher des séquences similaires. Si une protéines avec homologie d’au moins 30% est trouvée, c’est assez probable que les deux protéines ont la même structure Threading– classifie les structures connuesdans des familles avec repliement similaire. Etant donnée une séquence d’acides aminés, on sélectionne la famille
45
Problèmes calculatoires V : l’assemblage des séquences
Pour séquencer des large portion d’ADN, il est possible de le partager dans des petits fragments et effectuer le séquençage sur ces morceaux. Le problème que se présent est la reconstruction de la chaîne a partir de ces séquences.
Etant donné un ensemble de séquences, trouver la chaîne de longueur minimale qui contient tous les membres de
l’ensemble de sous-chaînes.
Ce problème est NP-complet. Il y a des algorithmes gourmands qui réalisent le réassemblage de façon satisfaisante en temps raisonnable. Le problème
est difficile a cause des nombreuses séquences répétées. A.Carbone - UPMC 46
Séquençage des génomes
A.Carbone - UPMC 47
• Annotation des génomes (vers la fonctionnalité des protéines)
• Comparaison entre génomes (évolution et génétique)
• Réseaux complexes d’interaction (réseaux métaboliques, de régulation de gènes, d’interactions protéines-protéines/
protéines-ADN)
• Liaison entre les nombreux niveaux d’organisation hiérarchique
Construction de bases de données De la séquence au comportement intégré
A.Carbone - UPMC 48
Longueurs des génomes
A.Carbone - UPMC 49
Comparaison des tailles des génomes
• Le génome de Plasmodium falciparum, le parasite qui cause la malaria, fait 23 Mb en taille.
• Le génome humain est environs 150 fois plus large, celui de la sourie > 100 fois, et celui de la drosophile
> 5 fois plus grand.
• Questions: comment les génomes des ancêtres ont pu devenir plus longs au cours de l’évolution? En quoi se différencie leur matériel génétique?
A.Carbone - UPMC 50
Analyse statistique à large échelle
Temperature de croissance optimale
On peut aujourd’hui définir des espaces formels de génomes
Un nombre de gènes comparable…
A.Carbone - UPMC 53
Homologie des gènes entre espèces
A.Carbone - UPMC 54
Recherche de protéines dans différentes espèces : comparaison de séquences
• Les bases de données d’ADN sont plus larges que celles des protéines
• La traduction d’une séquence d’ADN dans une protéine induit une perte d’information
• Les séquences de protéines sont plus préservées que les séquences d’ADN.
Traduire une séquence d’ADN dans une protéine amène toujours à des meilleures résultats!
A.Carbone - UPMC 55 A.Carbone - UPMC 56
A.Carbone - UPMC 57 A.Carbone - UPMC 58
Analyse des protéines dans différentes espèces : critère de détection de leur lien fonctionnel
fusionnement de protéines
Génomique comparative: profiles phylogénétiques
1 1 1
Réseaux complexes d’interaction :
réseaux de
protéines
A.Carbone - UPMC 61
La bioinformatique porte surtout sur les similarités entre espèces
Jusqu’aujourd’hui elle explique très peu des telles différences A.Carbone - UPMC 62
Analyse des régions non-codantes et recherche de motifs
A.Carbone - UPMC 63
Pour comprendre les différences entre organismes il faut descendre au niveau moléculaireet étudier les
interactionsentre gènes.
On cherche un modèle qui soit capable de générer pleins d’organismes différents à partir d’unecombinaisonde très peu de signauxet très peu de gènes!
A.Carbone - UPMC 64
Logique
A.Carbone - UPMC 65
Exemple : développement de l’oursin de mer
A.Carbone - UPMC 66
Circuit de gènes de développement de l’oursin Problème
calculatoire V:
la recherche de
motifs régulateurs dans les régions promotrices
-300 -400
bps gène
région promotrice
A.Carbone - UPMC 69
Nouvelles technologies : les puces à ADN
A.Carbone - UPMC 70
Exemple: analyse du cycle cellulaire de la levure
A.Carbone - UPMC 71
Bases de données et outils
Pourquoi rechercher dans les bases de données:
• Séquence d’ADN nouvelle: est-elle/une partie/un homologue déjà dans la base?
• Recherche de l’annotation de la séquence
• Recherche de séquences non-codantes similaires:
éléments répétés, séquences régulatrices
• Trouver des mauvais sites d’enzymes de restriction
• Recherche de protéines homologues
A.Carbone - UPMC 72
Séquences et annotation
GenBank Natl. Center Biol. Inform.
http://www.ncbi.nlm.nih.gov
EMBL-EBI + Sanger Inst.
http://www.ensembl.org DNA databank of Japan http://www.ddbj.nig.ac.jp/
TIGR The Inst. For Genomic Res.
http://www.tigr.org
Centre National de Séquençage http://www.genoscope.cns.fr/
A.Carbone - UPMC 73
Génomes spécialisés
Plasmodium falciparumdatabase http://plasmodb.org/
DrosophilaDatabase http://flybase.bio.indiana.edu/
C.elegansdatabase http://www.wormbase.org/
HumanGenome Database http://gdbwww.gdb.org/
Méthodes de recherche d’annotation dans plusieurs bdd
Sequence Retrieval System Lien à 80 bases de données biologiques http://srs.ebi.ac.uk/
Entrez– Recherche dans les bases de données
de NCBI http://www.ncbi.nlm.nih.gov/Entrez A.Carbone - UPMC 74
Croissance des bases de données d’ADN
Nombrede nucleotides
La croissance est exponentielle
Problèmes avec les bdd existantes
Elles sont régulées par les utilisateurs plutôt que d’avoir une gestion centralisée
La donnée peux être changée/mise à jours seulement par son patron
Séquences ne sont pas à jours
Large redondance dans les bdd et entre elles
Manque de standards pour les champs d’accès ou l’annotation
Protéines (séquences d’acides-aminés)
PBD Protein Data Bank
http://www.rcsb.org/pdb
Expert Protein Analysis System : SwissProt + TrEMBL, Prosite, …
http://www.expasy.org
PIR Protein Information Resource
A.Carbone - UPMC 77
Nouvelles structures et nombre totale de structures dans PDB
78
Familles de protéines et classification
Database of protein families and domains http://www.expasy.org/prosite/
Protein families database of alignments http://www.sanger.ac.uk/Software/Pfam/
Homologous Structure alignment Database http://www-cryst.bioc.cam.ac.uk/~homstrad/
Macromolecular Structure Database SSM (Secondary Structure Matching),…
http://www.ebi.ac.uk/msd-srv/ssm/ssmstart.html CATH - Protein Structure Classification http://www.biochem.ucl.ac.uk/bsm/cath/
SCOP - Structural Classification of Proteins http://scop.berkeley.edu/
FSSP - repository for secondary structure alignment data http://www.rfcgr.mrc.ac.uk/Bioinformatics/Databases/fssp-help.html
A.Carbone - UPMC 79
Protéines + …
• NRL_3D directement relie a la structure des protéines; contient séquences extraites de PDB avec structures secondaires, sites actifs, sites de liaison, annotations, détails de méthodes expérimentales, résolution, R-facteur, etc.
• GenPeptsupplément a Genbank; traduction de régions codantes dans GenBank. Annotation minimale.
• Pfam
A.Carbone - UPMC 80
Facteurs de transcription
BioBase Database
http://www.gene-regulation.com/pub/databases.html#transfac Tess - Transcription Element Search System
http://www.cbil.upenn.edu/tess/
Réseaux métaboliques
KEGG pathways
http://www.genome.jp/kegg/pathway.html BioCyc database
http://www.biocyc.org/
A.Carbone - UPMC 81
D’autres domaines de la bioinformatique
- Structure de protéines
• Alignement de structures de protéines
• Prédiction de structure secondaire des protéines - Structures des ARN et dynamique de repliement - Prédiction des sites d’interaction entre protéines, ou
protéine/ADN
- Phylogénie des séquences
- Analyse des séquences : biais des codons - Génomique comparative et l’espace des génomes - Reconstruction des réseaux métaboliques
*
*
*
*
*
*
A.Carbone - UPMC 82
Références bibliographiques d’introduction
A.Carbone et M.Gromov
« Mathematical slices of molecular biology » Gazette des Mathématiciens, édition spéciale, Société Mathématique de France, numéro 88, 11-80, 2001.
http://www.ihes.fr/PREPRINTS/M01/Resu/resu-M01- 03.html#99-3
…et références dans l’article.