HAL Id: hal-02802932
https://hal.inrae.fr/hal-02802932
Submitted on 5 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
L’exploitation des données de séquençage pour la prédiction de gènes et de leurs fonctions
Jean-François Gibrat
To cite this version:
Jean-François Gibrat. L’exploitation des données de séquençage pour la prédiction de gènes et de
leurs fonctions. les biotechnologies vertes et blanches, Feb 2012, Paris, France. �hal-02802932�
L’exploitation des données de séquençage pour la prédiction de gènes et de leurs
fonctions
J-F. Gibrat
Unité Mathématique, Informatique et Génome, INRA, Jouy-en-Josas
Séminaire : les biotechnologies vertes et blanches,
9-10 février 2012
La biologie intégrative
Changement d’échelle en biologie depuis une quinzaine d’années (H. influenzae en 1997).
Révolution des techniques (haut débit) : séquençage, puces à ADN, protéomique, imagerie, etc.
Démarche encyclopédique : tous les gènes, toutes les protéines, l’ensemble des réseaux métaboliques, etc.
Changement de perspective en génétique : on part du génome pour aller vers les propriétés biologiques.
La biologie est devenue une « science de l’information ».
Masse considérable de données souvent hétérogènes.
Les méthodes de séquençage
Mardis ER, A decade’s perspective on DNA sequencing technology, Nature, 2011
Illumina : 40 $/Gbp
Machines de 3
egénération
Pacific Bioscience : pas d’amplification PCR, 80 Mbp, lectures 1.8 kbp - 5 kbp
Ion Torrent : « Personal Genome Machine Sequencer »,
1 Gbp, lectures 200 bp
Les méthodes de séquençage
Mardis ER, A decade’s perspective on DNA sequencing technology, Nature, 2011
Pour une même somme :
la quantité de séquençage double tous les 5 mois
la quantité de RAM double tous les 14 mois.
Le séquençage : pour quoi faire ?
On dispose d’un génome de référence
B Alignement (mapping) des lectures sur le génome Détection de variants génomiques (SNPs) RNA-seq (expression des gènes)
ChIP-seq (régulation de l’expression des gènes)
Réarrangements chromosomiques, variation du nombre de copies des gènes
Détection de petits ARN non-codants séquençage de l’exome
On s’intéresse à un génome non encore séquencé
B Assemblage des lectures et annotation du génome
Intégration : des données aux connaissances
DATABASES generic specific LITERATURE
validation integration ANNOTATION
ANALYSIS TOOLS
Biological knowledge GENOME
DNA sequence raw genomic data
PHENOTYPE EXPERIMENTAL DATA
prediction, inference BIOINFORMATICS
Structural genomics:
Proteome:
Transcriptome:
High resolution cartography EST sequencing
Two−hybrid experiments Phenotype:
Reporter gene experiments LARGE SCALE
filters, DNA chips 2D electrophoresis + mass spectro
gene inactivation experiments protein 3D structures
L’annotation des données génomiques
Phase 1 : vision statique du génome : description des
« objets »
Annotation de la séquence nucléique :
Bgènes et signaux associés
Annotation des séquences protéiques :
Bprotéines et fonctions moléculaires
Phase 2 : vision dynamique du génome : description des processus
Processus au niveau des cellules (réseaux génétiques et métaboliques)
Processus au niveau des tissus, organes, grandes fonctions physiologiques, etc.
Vision multi-échelle de l’organisme
L’annotation des données génomiques
Phase 1 : vision statique du génome : description des
« objets »
Annotation de la séquence nucléique :
B gènes et signaux associésAnnotation des séquences protéiques :
Bprotéines et fonctions moléculaires
Phase 2 : vision dynamique du génome : description des processus
Processus au niveau des cellules (réseaux génétiques et métaboliques)
Processus au niveau des tissus, organes, grandes fonctions physiologiques, etc.
Vision multi-échelle de l’organisme
L’annotation syntaxique
Vise à localiser sur la séquence nucléique les différents éléments d’un gène (unité transcriptionnelle).
Différence principale entre les procaryotes et les eucaryotes syntaxe plus complexe chez les eucaryotes (présence d’introns dans les gènes)
différence de « densité », 90% de séquence codante, courtes régions intergéniques (procaryotes)
gènes « dilués » le long de la séquence, régions codantes faible pourcentage du génome (eucaryotes)
épissage alternatif
Principe de la détection de gènes
en espanol, todo lo que se escribe se pronuncia inwentarze i dokumentacje prac wykopaliskowych cmentarzysk, osad, skarbow, znalezisk luznych in het Spaans dat alles is geschreven is uitgesproken
†Modèle de Markov caché Utilise la « texture »
Utilise les propriétés syntaxiques : phase, codons START et STOP, présence RBS, terminateur.
†Bio-informatique : Principe d’utilisation des outils, D. Tagu & J-L Risler coord.
Principe de la détection de gènes
en espanol, todo lo que se escribe se pronuncia inwentarze i dokumentacje prac wykopaliskowych cmentarzysk, osad, skarbow, znalezisk luznych in het Spaans dat alles is geschreven is uitgesproken
†Modèle de Markov caché Utilise la « texture »
Utilise les propriétés syntaxiques : phase, codons START et STOP, présence RBS, terminateur.
†Bio-informatique : Principe d’utilisation des outils, D. Tagu & J-L Risler coord.
Principe de la détection de gènes
en espanol, todo lo que se escribe se pronuncia inwentarze i dokumentacje prac wykopaliskowych cmentarzysk, osad, skarbow, znalezisk luznych in het Spaans dat alles is geschreven is uitgesproken
†Modèle de Markov caché Utilise la « texture »
Utilise les propriétés syntaxiques : phase, codons START et STOP, présence RBS, terminateur.
†Bio-informatique : Principe d’utilisation des outils, D. Tagu & J-L Risler coord.
Détection de gènes : procaryote vs eucaryote
Procaryotes
« Presse bouton » Eucaryotes
1
Recherche intrinsèque des signaux (modèle de Markov) signal texture du CDS
signaux discrets bordure des gènes, exons, introns connaissance fine d’un intron ou exon pour l’espèce concernée
2
EST ou données de séquençage de type RNA-seq ou exome
3
Conservation des séquences protéiques
Autres signaux
ARNr et ARNt
prédiction de l’unité transcriptionnelle (TSS) prédiction des zones régulatrices (TFBS) zones répétées
CRISPRs, IS, motifs signifiativement sur(sous)représentés (Chi).
petits ARN non codants.
L’annotation des données génomiques
Phase 1 : vision statique du génome : description des
« objets »
Annotation de la séquence nucléique :
Bgènes et signaux associés
Annotation des séquences protéiques :
Bprotéines et fonctions moléculaires
Phase 2 : vision dynamique du génome : description des processus
Processus au niveau des cellules (réseaux génétiques et métaboliques)
Processus au niveau des tissus, organes, grandes fonctions physiologiques, etc.
Vision multi-échelle de l’organisme
L’annotation des données génomiques
Phase 1 : vision statique du génome : description des
« objets »
Annotation de la séquence nucléique :
Bgènes et signaux associés
Annotation des séquences protéiques :
B protéines et fonctions moléculairesPhase 2 : vision dynamique du génome : description des processus
Processus au niveau des cellules (réseaux génétiques et métaboliques)
Processus au niveau des tissus, organes, grandes fonctions physiologiques, etc.
Vision multi-échelle de l’organisme
Fonction : notion hiérarchique
fonction moléculaire enzyme
transporteur protéine structurale régulateur
fonction cellulaire
voie métabolique particulière (synthèse des stéroïdes) constitution du cytosquelette, fuseaux mitotiques rôle cascade de signalisation, apoptose
fonction phénotypique rôle comportement
rôle morphologie, physiologie
Fonction : aspect modulaire
reconnaît des peptides contenant une tyrosine phosphorilée.
module « adaptateur » dans les cascades de signalisation
intracellulaire.
Comment obtenir des informations sur la fonction ?
Trois grandes classes de méthodes
Méthodes de recherche d’homologie
Méthodes utilisant l’information intrinsèque des séquences
Méthodes fondées sur le contexte des gènes
Comment obtenir des informations sur la fonction ?
Trois grandes classes de méthodes
Méthodes de recherche d’homologie
Méthodes utilisant l’information intrinsèque des séquences
Méthodes fondées sur le contexte des gènes
Comment obtenir des informations sur la fonction ?
Trois grandes classes de méthodes
Méthodes de recherche d’homologie
Méthodes utilisant l’information intrinsèque des séquences
Méthodes fondées sur le contexte des gènes
Comment obtenir des informations sur la fonction ?
Trois grandes classes de méthodes
Méthodes de recherche d’homologie
Méthodes utilisant l’information intrinsèque des séquences
Méthodes fondées sur le contexte des gènes
Comment obtenir des informations sur la fonction ?
Trois grandes classes de méthodes Méthodes de recherche d’homologie
Méthodes utilisant l’information intrinsèque des séquences
Méthodes fondées sur le contexte des gènes
Notion d’homologie
Évolution divergente à partir d’un ancêtre commun.
orthologues paralogues xenologues
Propriétés des protéines homologues :
séquence peuvent encore être similaires
très bonne conservation de la structure 3D
fonctions « voisines »
Notion d’homologie
Évolution divergente à partir d’un ancêtre commun.
orthologues paralogues xenologues
Propriétés des protéines homologues :
séquence peuvent encore être similaires
très bonne conservation de la structure 3D
fonctions « voisines »
Principe général de l’annotation par homologie
Mettre en évidence une relation d’homologie
Transférer la fonction
Problème de la conservation de la fonction
00000000 00000000 00000000 11111111 11111111 11111111
CO2 CO2
CO2
CO2
CO2 O O
_ H
CO2 Enz−BH
Enz−BH
000000000 000000000 000000000 111111111 111111111
111111111 _ OH OH
H Enz−B
H OH
O_ H
H H O
H O
O
H H
Mandelate racemase
Muconate lactonising enzyme
341 résidus alignés (rms=2.2 A) et 30% résidus identiques
Les 2 protéines sont homologues
Méthodes de recherche d’homologie
Comment mettre en évidence une relation d’homologie entre deux protéines ?
1
Méthodes de comparaison de séquences
2
Méthodes fondées sur des alignements multiples de séquences
PSI-BLAST
Modèles de Markov cachés (HMM) Signatures et motifs fonctionnels
3
Méthodes de reconnaissance de repliements
Méthodes de recherche d’homologie
Comment mettre en évidence une relation d’homologie entre deux protéines ?
1
Méthodes de comparaison de séquences
2
Méthodes fondées sur des alignements multiples de séquences
PSI-BLAST
Modèles de Markov cachés (HMM) Signatures et motifs fonctionnels
3
Méthodes de reconnaissance de repliements
Méthodes de recherche d’homologie
Comment mettre en évidence une relation d’homologie entre deux protéines ?
1
Méthodes de comparaison de séquences
2
Méthodes fondées sur des alignements multiples de séquences
PSI-BLAST
Modèles de Markov cachés (HMM) Signatures et motifs fonctionnels
3
Méthodes de reconnaissance de repliements
Méthodes de recherche d’homologie
Comment mettre en évidence une relation d’homologie entre deux protéines ?
1
Méthodes de comparaison de séquences
2
Méthodes fondées sur des alignements multiples de séquences
PSI-BLAST
Modèles de Markov cachés (HMM) Signatures et motifs fonctionnels
3
Méthodes de reconnaissance de repliements
Reconnaissance de repliements
AANEGSKTLQRNK... ?
Représentation schématique
N A C
DNVCCNGCLCDRRAPPYFECVCVDTFDHCPASCNSCVCTR V C C N G L A P P Y H C P A S C N S
L C D R R A F E C V A S C N S C V C
B C
D
E
F
Principe général de l’annotation par homologie
Mettre en évidence une relation d’homologie
Transférer la fonction
Principe général de l’annotation par homologie
Mettre en évidence une relation d’homologie Bon critère statistique
Transférer la fonction
Règles empiriques uniquement !
Pourcentage de similarité
A B
30%
20% 40%
alignement de séquences alignement multiple de séquences reconnaissance de repliements
50% 60% 100%
conservation de 4 chiffres : 2.3.1.1 conservation de 3 chiffres : 2.3.1
%id seq
Exception qui confirme la règle
N N
H2N N NH2
N N
N
N N
N N
H2N N NH2
N N
N
N N
NH2 OH
Cl OH
deaminase Melamine
Atrazine
chlorohydrolase
98% identite de sequence
Recherche d’homologie
Reconstruction du processus évolutif : phylogénomique.
40% des protéines eucaryotes, entre 20 et 40% pour les procaryotes ont une fonction inconnue.
Un tiers des réactions enzymatiques (EC number) n’a pas de séquence protéique associée.
La fraction de protéines pour lesquelles on dispose de données expérimentales sur la fonction devient de plus en plus réduite.
Effet « boule de neige » des erreurs d’annotation
Recherche d’homologie
Reconstruction du processus évolutif : phylogénomique.
40% des protéines eucaryotes, entre 20 et 40% pour les procaryotes ont une fonction inconnue.
Un tiers des réactions enzymatiques (EC number) n’a pas de séquence protéique associée.
La fraction de protéines pour lesquelles on dispose de données expérimentales sur la fonction devient de plus en plus réduite.
Effet « boule de neige » des erreurs d’annotation
Recherche d’homologie
Reconstruction du processus évolutif : phylogénomique.
40% des protéines eucaryotes, entre 20 et 40% pour les procaryotes ont une fonction inconnue.
Un tiers des réactions enzymatiques (EC number) n’a pas de séquence protéique associée.
La fraction de protéines pour lesquelles on dispose de données expérimentales sur la fonction devient de plus en plus réduite.
Effet « boule de neige » des erreurs d’annotation
Comment obtenir des informations sur la fonction ?
Trois grandes classes de méthodes
Méthodes de recherche d’homologie
Méthodes utilisant l’information intrinsèque des séquences
Méthodes fondées sur le contexte des gènes
Comment obtenir des informations sur la fonction ?
Trois grandes classes de méthodes
Méthodes de recherche d’homologie
Méthodes utilisant l’information intrinsèque des séquences
Méthodes fondées sur le contexte des gènes
Exploitation du contexte des gènes
Avec des génomes complets :
analyse du rôle d’une protéine dans le contexte de son génome
Information sur la fonction des protéines à partir du contexte génomique de leurs gènes
ces méthodes utilisent la co-localisation des gènes à différentes échelles de proximité physique
Fusion de gènes Voisinage de gènes
Co-occurrence de gènes (profils phylogénétiques)
Contexte des gènes
G2
G3
G4 G1
A B C D E F G
Co−occurence phylogénique Conservation du voisinage Fusion/fission de gènes
Profils phylogénétiques
Prot a Prot b Prot c Prot d Prot e Prot f
Org1 1 1 1 1 0 1
Org2 0 1 0 1 1 0
Org3 1 0 1 0 1 1
Org4 1 0 1 1 0 1
Org5 1 0 1 1 0 1
Org6 0 1 0 1 1 0
Prot a ←→ Prot c ←→ Prot f
Profils phylogénétiques
G2
G3
G4 G1
A B C D E F G
Co−occurence phylogénique Conservation du voisinage Fusion/fission de gènes
Utilisation du contexte des gènes
fusion co−occurence voisinage
A B
C D
G E F
Recherche d’homologie et contexte génomique
1998 2003
1993 1988
Années 70
10 20 30 40 50 60
0
Couverture des gènes (%) co−occurrencefusion
combinaison recherche homologie voisinage
Huynen et al.,Curr. Opin. Cell Biol.,15, 191 (2003)