• Aucun résultat trouvé

High-throuput workflow for RNAseq data treatment linking laboratory data server and remote parallel calculation platform

N/A
N/A
Protected

Academic year: 2021

Partager "High-throuput workflow for RNAseq data treatment linking laboratory data server and remote parallel calculation platform"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-02796330

https://hal.inrae.fr/hal-02796330

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

High-throuput workflow for RNAseq data treatment

linking laboratory data server and remote parallel

calculation platform

Marie Garavillon-Tournayre, David Lopez, Jean-Stéphane Venisse, Marion

Landi, Corentin Hochart, Boris Fumanal, Aurelie Gousset, Philippe Label

To cite this version:

Marie Garavillon-Tournayre, David Lopez, Jean-Stéphane Venisse, Marion Landi, Corentin Hochart, et al.. High-throuput workflow for RNAseq data treatment linking laboratory data server and remote parallel calculation platform. JOBIM 2015, Jul 2015, Clermont-Ferrand, France. pp.1, 2015. �hal-02796330�

(2)

PIAF UMR-547

High-throuput workflow for RNAseq data

treatment linking laboratory data server and

remote parallel calculation platform

Marie GARAVILLON-TOURNAYRE, David LOPEZ, Marion LANDI, Corentin HOCHART,

Jean-Stéphane VENISSE, Boris FUMANAL, Aurélie GOUSSET-DUPONT, and Philippe LABEL

1.

RNAseq softwares using graphical user interfaces are slow and data volume limited

2.

We want to maximize the use of calculation resources and speed-up results

JO

B

IM

2

01

5,

6

-9

ju

ly

philippe.label@clermont.inra.fr 33+(0)473 407 922

local

server

32 cpu - 128Gb

remote

4856 cpu - 34.6Tb

cluster

4

.   calculations massively parallelized

1.   

sequences stored and secured

Illumina

fastq

storage

storage

2.   

scripts automatically prepared locally

+

+

Perl

Python

#!

Bash

scripts

3.   

transfert of sequences and scripts

6.   

biostatistics performed locally

calculations

DEseq

PR

OB

LE

M

SO

LU

TIO

N

Tasks automatization through scripted workflow

5.   

mapping results download

bam

PostgreSQL

database

storage

fastq+scripts

network

calculations

quality, bases, length, poly-A,

repeats, contamination, mapping

cluster

1,4 Gseq

paired-end 2 x 100 bp

48 samples, 6 genotypes,

2 conditions, 4 repetitions

350 Gb fastq files

Poplar

Genome

INPUT

404 batched files

9,159 cpu used

10h fastq transfer

140 Mseq.h

-1

3h calculations

470 Mseq.h

-1

PROCESS

DESeq2

7% sequences filtered out

83% mapped on reference

66 Gb bam files

129 Mb count files

OUTPUT

73,013 reference transcripts

47,739 analyzed

18,525 differential

9,689

up

8,836

down

Circos

Black poplar

Populus nigra

Références

Documents relatifs

L’éditeur vient comme sursignifier son discours sur un élément bien spécifique (les piètements, ce qui rend les Eames uniques), et ainsi son savoir-faire. C’est

MOTS CLEFS : lettre de liaison de sortie ; communication ville-hôpital ; médecin traitant ; continuité des soins ; parcours de soins ; messagerie sécurisée de santé. ---

This example shows the result of calculating the TPSA descriptor using the Chemistry Development Kit, in the RDF representation used by the Blue Obelisk Descriptor Ontology.

The cornerstone of Linked Data principles and of semantic web architecture - the identification of data by the mean of URIs - is, by itself, of great importance in

Il se compose de quatre parties assurant le chargement mécanique, les mélanges azote-vapeur d’eau, la régulation en température et en pression, et l’ensemble

Les médecins généralistes ne s’occupent que de certaines populations à risque, ils recherchent une insuffisance en vitamine D ou mettent en place une supplémentation

Colorie sur la carte le continent où veut aller Zigomar3. Ecris

Qu’il soit ici remerci´e pour sa lecture attentive du manuscript, pour ses conseils ´eclair´es qui m’ont permis de parfaire ce travail et aussi pour son soutien efficace durant