L'exploitation des données de séquençage pour la prédiction de gènes et de leurs fonctions

(1)

HAL Id: hal-02802932

https://hal.inrae.fr/hal-02802932

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

L’exploitation des données de séquençage pour la prédiction de gènes et de leurs fonctions

Jean-François Gibrat

To cite this version:

Jean-François Gibrat. L’exploitation des données de séquençage pour la prédiction de gènes et de

leurs fonctions. les biotechnologies vertes et blanches, Feb 2012, Paris, France. �hal-02802932�

(2)

L’exploitation des données de séquençage pour la prédiction de gènes et de leurs

fonctions

J-F. Gibrat

Unité Mathématique, Informatique et Génome, INRA, Jouy-en-Josas

Séminaire : les biotechnologies vertes et blanches,

9-10 février 2012

(3)

La biologie intégrative

Changement d’échelle en biologie depuis une quinzaine d’années (H. influenzae en 1997).

Révolution des techniques (haut débit) : séquençage, puces à ADN, protéomique, imagerie, etc.

Démarche encyclopédique : tous les gènes, toutes les protéines, l’ensemble des réseaux métaboliques, etc.

Changement de perspective en génétique : on part du génome pour aller vers les propriétés biologiques.

La biologie est devenue une « science de l’information ».

Masse considérable de données souvent hétérogènes.

(4)

Les méthodes de séquençage

Mardis ER, A decade’s perspective on DNA sequencing technology, Nature, 2011

Illumina : 40 $/Gbp

Machines de 3

^e

génération

Pacific Bioscience : pas d’amplification PCR, 80 Mbp, lectures 1.8 kbp - 5 kbp

Ion Torrent : « Personal Genome Machine Sequencer »,

1 Gbp, lectures 200 bp

(5)

Les méthodes de séquençage

Mardis ER, A decade’s perspective on DNA sequencing technology, Nature, 2011

Pour une même somme :

la quantité de séquençage double tous les 5 mois

la quantité de RAM double tous les 14 mois.

(6)

Le séquençage : pour quoi faire ?

On dispose d’un génome de référence

B Alignement (mapping) des lectures sur le génome Détection de variants génomiques (SNPs) RNA-seq (expression des gènes)

ChIP-seq (régulation de l’expression des gènes)

Réarrangements chromosomiques, variation du nombre de copies des gènes

Détection de petits ARN non-codants séquençage de l’exome

On s’intéresse à un génome non encore séquencé

B Assemblage des lectures et annotation du génome

(7)

Intégration : des données aux connaissances

DATABASES generic specific LITERATURE

validation integration ANNOTATION

ANALYSIS TOOLS

Biological knowledge GENOME

DNA sequence raw genomic data

PHENOTYPE EXPERIMENTAL DATA

prediction, inference BIOINFORMATICS

Structural genomics:

Proteome:

Transcriptome:

High resolution cartography EST sequencing

Two−hybrid experiments Phenotype:

Reporter gene experiments LARGE SCALE

filters, DNA chips 2D electrophoresis + mass spectro

gene inactivation experiments protein 3D structures

(8)

L’annotation des données génomiques

Phase 1 : vision statique du génome : description des

« objets »

Annotation de la séquence nucléique :

B

gènes et signaux associés

Annotation des séquences protéiques :

B

protéines et fonctions moléculaires

Phase 2 : vision dynamique du génome : description des processus

Processus au niveau des cellules (réseaux génétiques et métaboliques)

Processus au niveau des tissus, organes, grandes fonctions physiologiques, etc.

Vision multi-échelle de l’organisme

(9)

L’annotation des données génomiques

Phase 1 : vision statique du génome : description des

« objets »

Annotation de la séquence nucléique :

B gènes et signaux associés

Annotation des séquences protéiques :

B

protéines et fonctions moléculaires

Phase 2 : vision dynamique du génome : description des processus

Processus au niveau des cellules (réseaux génétiques et métaboliques)

Processus au niveau des tissus, organes, grandes fonctions physiologiques, etc.

Vision multi-échelle de l’organisme

(10)

L’annotation syntaxique

Vise à localiser sur la séquence nucléique les différents éléments d’un gène (unité transcriptionnelle).

Différence principale entre les procaryotes et les eucaryotes syntaxe plus complexe chez les eucaryotes (présence d’introns dans les gènes)

différence de « densité », 90% de séquence codante, courtes régions intergéniques (procaryotes)

gènes « dilués » le long de la séquence, régions codantes faible pourcentage du génome (eucaryotes)

épissage alternatif

(11)

Principe de la détection de gènes

en espanol, todo lo que se escribe se pronuncia inwentarze i dokumentacje prac wykopaliskowych cmentarzysk, osad, skarbow, znalezisk luznych in het Spaans dat alles is geschreven is uitgesproken

^†

Modèle de Markov caché Utilise la « texture »

Utilise les propriétés syntaxiques : phase, codons START et STOP, présence RBS, terminateur.

†Bio-informatique : Principe d’utilisation des outils, D. Tagu & J-L Risler coord.

(12)

Principe de la détection de gènes

en espanol, todo lo que se escribe se pronuncia inwentarze i dokumentacje prac wykopaliskowych cmentarzysk, osad, skarbow, znalezisk luznych in het Spaans dat alles is geschreven is uitgesproken

^†

Modèle de Markov caché Utilise la « texture »

Utilise les propriétés syntaxiques : phase, codons START et STOP, présence RBS, terminateur.

(13)

Principe de la détection de gènes

en espanol, todo lo que se escribe se pronuncia inwentarze i dokumentacje prac wykopaliskowych cmentarzysk, osad, skarbow, znalezisk luznych in het Spaans dat alles is geschreven is uitgesproken

^†

Modèle de Markov caché Utilise la « texture »

Utilise les propriétés syntaxiques : phase, codons START et STOP, présence RBS, terminateur.

(14)

Détection de gènes : procaryote vs eucaryote

Procaryotes

« Presse bouton » Eucaryotes

1

Recherche intrinsèque des signaux (modèle de Markov) signal texture du CDS

signaux discrets bordure des gènes, exons, introns connaissance fine d’un intron ou exon pour l’espèce concernée

2

EST ou données de séquençage de type RNA-seq ou exome

3

Conservation des séquences protéiques

(15)

Autres signaux

ARNr et ARNt

prédiction de l’unité transcriptionnelle (TSS) prédiction des zones régulatrices (TFBS) zones répétées

CRISPRs, IS, motifs signifiativement sur(sous)représentés (Chi).

petits ARN non codants.

(16)

L’annotation des données génomiques

Phase 1 : vision statique du génome : description des

« objets »

Annotation de la séquence nucléique :

B

gènes et signaux associés

Annotation des séquences protéiques :

B

protéines et fonctions moléculaires

Phase 2 : vision dynamique du génome : description des processus

Processus au niveau des cellules (réseaux génétiques et métaboliques)

Processus au niveau des tissus, organes, grandes fonctions physiologiques, etc.

Vision multi-échelle de l’organisme

(17)

L’annotation des données génomiques

Phase 1 : vision statique du génome : description des

« objets »

Annotation de la séquence nucléique :

B

gènes et signaux associés

Annotation des séquences protéiques :

B protéines et fonctions moléculaires

Phase 2 : vision dynamique du génome : description des processus

Processus au niveau des cellules (réseaux génétiques et métaboliques)

Processus au niveau des tissus, organes, grandes fonctions physiologiques, etc.

Vision multi-échelle de l’organisme

(18)

Fonction : notion hiérarchique

fonction moléculaire enzyme

transporteur protéine structurale régulateur

fonction cellulaire

voie métabolique particulière (synthèse des stéroïdes) constitution du cytosquelette, fuseaux mitotiques rôle cascade de signalisation, apoptose

fonction phénotypique rôle comportement

rôle morphologie, physiologie

(19)

Fonction : aspect modulaire

reconnaît des peptides contenant une tyrosine phosphorilée.

module « adaptateur » dans les cascades de signalisation

intracellulaire.

(20)

Comment obtenir des informations sur la fonction ?

Trois grandes classes de méthodes

Méthodes de recherche d’homologie

Méthodes utilisant l’information intrinsèque des séquences

Méthodes fondées sur le contexte des gènes

(21)

Comment obtenir des informations sur la fonction ?

Trois grandes classes de méthodes

Méthodes de recherche d’homologie

Méthodes utilisant l’information intrinsèque des séquences

Méthodes fondées sur le contexte des gènes

(22)

Comment obtenir des informations sur la fonction ?

Trois grandes classes de méthodes

Méthodes de recherche d’homologie

Méthodes utilisant l’information intrinsèque des séquences

Méthodes fondées sur le contexte des gènes

(23)

Comment obtenir des informations sur la fonction ?

Trois grandes classes de méthodes

Méthodes de recherche d’homologie

Méthodes utilisant l’information intrinsèque des séquences

Méthodes fondées sur le contexte des gènes

(24)

Comment obtenir des informations sur la fonction ?

Trois grandes classes de méthodes Méthodes de recherche d’homologie

Méthodes utilisant l’information intrinsèque des séquences

Méthodes fondées sur le contexte des gènes

(25)

Notion d’homologie

Évolution divergente à partir d’un ancêtre commun.

orthologues paralogues xenologues

Propriétés des protéines homologues :

séquence peuvent encore être similaires

très bonne conservation de la structure 3D

fonctions « voisines »

(26)

Notion d’homologie

Évolution divergente à partir d’un ancêtre commun.

orthologues paralogues xenologues

Propriétés des protéines homologues :

séquence peuvent encore être similaires

très bonne conservation de la structure 3D

fonctions « voisines »

(27)

Principe général de l’annotation par homologie

Mettre en évidence une relation d’homologie

Transférer la fonction

(28)

Problème de la conservation de la fonction

00000000 00000000 00000000 11111111 11111111 11111111

CO₂ CO₂

CO₂

CO2

CO₂ O O

_ H

CO₂ Enz−BH

Enz−BH

000000000 000000000 000000000 111111111 111111111

111111111 _ OH OH

H Enz−B

H OH

O_ H

H H O

H O

O

H H

Mandelate racemase

Muconate lactonising enzyme

341 résidus alignés (rms=2.2 A) et 30% résidus identiques

Les 2 protéines sont homologues

(29)

Méthodes de recherche d’homologie

Comment mettre en évidence une relation d’homologie entre deux protéines ?

1

Méthodes de comparaison de séquences

2

Méthodes fondées sur des alignements multiples de séquences

PSI-BLAST

Modèles de Markov cachés (HMM) Signatures et motifs fonctionnels

3

Méthodes de reconnaissance de repliements

(30)

Méthodes de recherche d’homologie

Comment mettre en évidence une relation d’homologie entre deux protéines ?

1

Méthodes de comparaison de séquences

2

Méthodes fondées sur des alignements multiples de séquences

PSI-BLAST

Modèles de Markov cachés (HMM) Signatures et motifs fonctionnels

3

Méthodes de reconnaissance de repliements

(31)

Méthodes de recherche d’homologie

Comment mettre en évidence une relation d’homologie entre deux protéines ?

1

Méthodes de comparaison de séquences

2

Méthodes fondées sur des alignements multiples de séquences

PSI-BLAST

Modèles de Markov cachés (HMM) Signatures et motifs fonctionnels

3

Méthodes de reconnaissance de repliements

(32)

Méthodes de recherche d’homologie

Comment mettre en évidence une relation d’homologie entre deux protéines ?

1

Méthodes de comparaison de séquences

2

Méthodes fondées sur des alignements multiples de séquences

PSI-BLAST

Modèles de Markov cachés (HMM) Signatures et motifs fonctionnels

3

Méthodes de reconnaissance de repliements

(33)

Reconnaissance de repliements

AANEGSKTLQRNK... ?

(34)

Représentation schématique

N A C

DNVCCNGCLCDRRAPPYFECVCVDTFDHCPASCNSCVCTR V C C N G L A P P Y H C P A S C N S

L C D R R A F E C V A S C N S C V C

B C

D

E

F

(35)

Principe général de l’annotation par homologie

Mettre en évidence une relation d’homologie

Transférer la fonction

(36)

Principe général de l’annotation par homologie

Mettre en évidence une relation d’homologie Bon critère statistique

Transférer la fonction

Règles empiriques uniquement !

(37)

Pourcentage de similarité

A B

30%

20% 40%

alignement de séquences alignement multiple de séquences reconnaissance de repliements

50% 60% 100%

conservation de 4 chiffres : 2.3.1.1 conservation de 3 chiffres : 2.3.1

%id seq

(38)

Exception qui confirme la règle

N N

H2N N NH2

N N

N

N N

H2N N NH2

N N

N

N N

NH2 OH

Cl OH

deaminase Melamine

Atrazine

chlorohydrolase

98% identite de sequence

(39)

Recherche d’homologie

Reconstruction du processus évolutif : phylogénomique.

40% des protéines eucaryotes, entre 20 et 40% pour les procaryotes ont une fonction inconnue.

Un tiers des réactions enzymatiques (EC number) n’a pas de séquence protéique associée.

La fraction de protéines pour lesquelles on dispose de données expérimentales sur la fonction devient de plus en plus réduite.

Effet « boule de neige » des erreurs d’annotation

(40)

Recherche d’homologie

Reconstruction du processus évolutif : phylogénomique.

40% des protéines eucaryotes, entre 20 et 40% pour les procaryotes ont une fonction inconnue.

Un tiers des réactions enzymatiques (EC number) n’a pas de séquence protéique associée.

La fraction de protéines pour lesquelles on dispose de données expérimentales sur la fonction devient de plus en plus réduite.

Effet « boule de neige » des erreurs d’annotation

(41)

Recherche d’homologie

Reconstruction du processus évolutif : phylogénomique.

40% des protéines eucaryotes, entre 20 et 40% pour les procaryotes ont une fonction inconnue.

Un tiers des réactions enzymatiques (EC number) n’a pas de séquence protéique associée.

La fraction de protéines pour lesquelles on dispose de données expérimentales sur la fonction devient de plus en plus réduite.

Effet « boule de neige » des erreurs d’annotation

(42)

Comment obtenir des informations sur la fonction ?

Trois grandes classes de méthodes

Méthodes de recherche d’homologie

Méthodes utilisant l’information intrinsèque des séquences

Méthodes fondées sur le contexte des gènes

(43)

Comment obtenir des informations sur la fonction ?

Trois grandes classes de méthodes

Méthodes de recherche d’homologie

Méthodes utilisant l’information intrinsèque des séquences

Méthodes fondées sur le contexte des gènes

(44)

Exploitation du contexte des gènes

Avec des génomes complets :

analyse du rôle d’une protéine dans le contexte de son génome

Information sur la fonction des protéines à partir du contexte génomique de leurs gènes

ces méthodes utilisent la co-localisation des gènes à différentes échelles de proximité physique

Fusion de gènes Voisinage de gènes

Co-occurrence de gènes (profils phylogénétiques)

(45)

Contexte des gènes

G₂

G₃

G₄ G₁

A B C D E F G

Co−occurence phylogénique Conservation du voisinage Fusion/fission de gènes

(46)

Profils phylogénétiques

Prot a Prot b Prot c Prot d Prot e Prot f

Org1 1 1 1 1 0 1

Org2 0 1 0 1 1 0

Org3 1 0 1 0 1 1

Org4 1 0 1 1 0 1

Org5 1 0 1 1 0 1

Org6 0 1 0 1 1 0

Prot a ←→ Prot c ←→ Prot f

(47)

Profils phylogénétiques

G₂

G₃

G₄ G₁

A B C D E F G

Co−occurence phylogénique Conservation du voisinage Fusion/fission de gènes

(48)

Utilisation du contexte des gènes

fusion co−occurence voisinage

A B

C D

G E F

(49)

Recherche d’homologie et contexte génomique

1998 2003

1993 1988

Années 70

10 20 30 40 50 60

0

Couverture des gènes (%) co−occurrencefusion

combinaison recherche homologie voisinage

Huynen et al.,Curr. Opin. Cell Biol.,15, 191 (2003)

(50)

Génomique comparée

Pan-génome, génome essentiel et génome accessoire (génotypage)

Corrélations entre les propriétés biologiques (adaptation, pathogénicité, etc.) et le contenu en gènes

Exploration des différentes voies métaboliques présentes

(51)

Voies métaboliques (KEGG)

(52)