• Aucun résultat trouvé

GNPAnnot Community Annotation System (CAS) : système d'annotation communautaire de génomes de plantes, d'insectes et champignons

N/A
N/A
Protected

Academic year: 2021

Partager "GNPAnnot Community Annotation System (CAS) : système d'annotation communautaire de génomes de plantes, d'insectes et champignons"

Copied!
37
0
0

Texte intégral

(1)

AGRICULTURE

FOOD

RURAL TERRITORIES

GNPAnnot

Community Annotation System (CAS)

Système d'annotation communautaire de génomes de

plantes, d'insectes et de champignons

GTGC workshop Sep 10th, 2010

S. BOCS

S. BOCS

(2)

S. BOCS

Project

Granted by the French National Research Agency

A community system of structural and functional

annotation supported by comparative genomics and

dedicated to plant, insect and fungus genomes allowing

both automatic predictions and manual curations of

genomic objects.

5 work packages

database and flow management

annotator interfaces implementation

interoperability with other systems

sequence exploitation and platform release

manual annotation and CAS validation

(3)

S. BOCS

Resources

BIVI

Spo

GDEC

9 Partners

3 Bioinformatics platforms

>8 Studied species

(4)

S. BOCS

http://www.gnpannot.org/

(5)

S. BOCS

Architecture Concept

The Community Annotation System (CAS) is user-friendly, generic,

modular, portable, sustainable, upgradable and compatible

(6)

S. BOCS

Focus

3 applications of CAS to show genericity & modularity of

the architecture

Tropical plant CAS (Montpellier)

Insect CAS (Rennes)

Fungal CAS (Versailles)

Innovation

Chado Controller

Genome report system

Comparative Genomics

Ensembl Compara

In-house syntenic regions

PhylomeDB

Gbrowse_syn

(7)

S. BOCS

Tropical Plant CAS

(8)

S. BOCS

Tropical Plant CAS

Chado Controller

Chado Controller: un superviseur pour la confidentialité, la

qualité et le suivi des annotations [JOBIM 2010 poster 68]

Feature confidentiality → Access Restriction

Manual annotation quality → Annotation Inspector

Manual annotation tracking → Annotation History

(9)

S. BOCS

Tropical Plant CAS

Access Restriction

Contigs

(10)

S. BOCS

Tropical Plant CAS

Annotation Inspector

Validations:

# Start/Stop codon validation:

-Ma4001J14_g020:

Start Codon: OK

Stop Codon: OK

# Sequence validation:

-Ma4001J14_g020:

Length ( 849 bp): OK

Stop Codon: ERROR: a Stop

Codon has been found inside the

sequence (GGGCAA*TAG* at position

190 from sequence start)!

# Introns validation:

-Ma4001J14_g020 ( 1 intron(s)

checked): OK

# Mandatory properties management:

-Ma4001J14_g020:

Mandatory properties

management: ERROR: missing

/functional_completeness

qualifier!

# Evidence code coherence

management:

-Ma4001J14_g020:

Evidence Code Management:

WARNING: /evidence_code value

should be set for gene

Ma4001J14_g020!

(11)

S. BOCS

Tropical Plant CAS

Annotation History

(12)

S. BOCS

Tropical Plant CAS

Microsynteny

Blastp, OrthoMCL, C3part between Musa proteomes per BAC & Oryza sativa

proteomes per chromosomes

(13)

S. BOCS

Tropical Plant CAS

Microsynteny

[BOCS BMC Plant Bio 2010]

(14)

Insect CAS

(15)

Genome

report system

(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)
(25)
(26)
(27)

[E. d’Alençon PNAS 2010]

(28)

J. Amselem / M. Alaux

Fungal CAS

(29)

J. Amselem / M. Alaux

Quick and advanced search

Quick search («

Hibernate Search

» based)

Ex: transport*

(30)

J. Amselem / M. Alaux

Quick search : Hibernate Search

(31)

J. Amselem / M. Alaux

Quick and advanced search

Advanced search :

BioMart

(32)

J. Amselem / M. Alaux

Advanced search : BioMart

(33)

J. Amselem / M. Alaux

Functional annotation

Usecase Leptosphaeria maculans

(34)
(35)

S. BOCS

Conclusion

Place

Subject

Unit

predicted

nb

curated nb % curated predicted

nb

curated nb % curated

Montpellier Tropical plants DAP CfL

23

5004

1982

39,61

3819

2703

70,78

Versailles Fungi

BIOGER URGI

209

36325

2403

6,62

4402

0

0,00

Rennes

Insects

BIO3P BIVI SYMBIOSE

464

35907

1996

5,56

500501

800

0,16

Genomic

size

(Mb)

Gene nb

TE nb

(36)

S. BOCS

Perspective

Bioinformatics platform exchanges

Genome report editor

Annotation history integrated into GMOD report

Publications

Exploitation

Analyses of more species (e.g. cocoa, coffea, truffle)

Annotation of new features such as non-coding RNA, conserved non-coding sequence

Integration of new sequences such as those from new technologies

CG

Compara

Tools for Evolutionary Biology Hackathon

Web interfaces

GBrowse with Bio::DB::SeqFeature::Store::DBI::mysql

Jbrowse with chado postgresql

New Apollo

Workflows

management (e.g. Galaxy, Jboss / jBPM, ETL)

Updates & reconcilers

(37)

S. BOCS

Participants

Mathieu Rouard

Stéphanie Sidibe Bocs

Gaëtan Drocs

Valentin Guignon

Manuel Ruiz

Fabrice Legeai

Denis Tagu

Patrick durand

Goulven Kerbellec

BIVI

Spo

GDEC

Michaël Alaux

Baptiste Brault

Nathalie Choisne

Erik Kimmel

Isabelle Luyten

Delphine Steinbach

Hadi Quesneville

Joelle Amselem

Adeline Simon

Marc-Henri Lebrun

Philippe Leroy

Nancy Terrier

Cousserans François

d’Alençon Emmanuelle

Fournier Philippe

Références

Documents relatifs

Dans ce premier chapitre bibliographique intitulé « Repeated Elements in Filamentous Fungi with a Focus on Wood-Decay Fungi » et publié dans le livre « The

tRNAscan-SE (Lowe and Eddy, Nucleic Acids Res.,25, 955-64 (1997)) qui s’appuie sur deux méthodes existantes (tRNAscan et EufindtRNA ( Pavesi al., Nucleic Acids Res., 22, 1247-56

Pour certains k mers rares même avec un grand jeu d’apprentissage comme un génome entier, il peut être difficile d’obtenir des estimations précises et inversement certains k

• Utilisation d’une heuristique pour fournir l’alignement final entre les deux séquences (alignement local qui va renvoyer les deux sous-régions les plus conservées entre

 dans le cas d’une recherche avec une séquence d’acides nucléiques contre une banque de séquences nucléiques (BlastN), masquer les séquences répétées (ex: les séquences

• n’identifie pas les ARNt dont la structure n’est pas canonique (structure secondaire avec des bulges, bras T-Y-C de 8 …) dont les ARNt sélénocystéine qui ont, entre autre,

Famille de matrices correspondant à différentes distances évolutives entre les séquences : PAM120 et BLOSUM80 : estimation des fréquences de substitution entre acides aminés pour

Apollo allows researchers to explore genomic annotations at many levels of detail, and to perform expert annotation curation, all in a