• Aucun résultat trouvé

Article p.33 du Vol.30 n°319 (2011)

N/A
N/A
Protected

Academic year: 2022

Partager "Article p.33 du Vol.30 n°319 (2011)"

Copied!
1
0
0

Texte intégral

(1)

BIOFUTUR 319 • MARS 2011 33 1 000 000 000 000 000 000, soit un

milliard de milliards (109x109) ou un trillion, c’est le nombre de nucléotides séquencés chaque année par les très grands centres de séquençage internationaux, tel le Joint Genome Institute en Californie. La dernière génération de séquenceurs de la compagnie Illumina, le HiSeq 2000, produit 200 gigabases (Gb) par semaine, soit l’équiva- lent de plusieurs dizaines de génomes humains.

Le nombre de génomes procaryotes et eucaryotes disponibles dans les bases de données est supé- rieur à 2 000*et le nombre de métagénomes répertoriés, supérieur à 4000. L’examen de ces quelques chiffres permet de mesurer l’ampleur des problèmes rencontrés par les bio-informati- ciens afin de stocker, fouiller et comparer ces jeux de données, incommensurablement supérieurs en taille à ceux étudiés jusqu’à présent en bio- logie et écologie.

Le problème est d’autant plus criant que le flot de séquences produites double tous les cinq mois. Les prédictions les plus raisonnables annoncent la production de plus de 10 000 génomes bactériens, 1 000 génomes de cham- pignons et de protozoaires, 100 génomes de plantes et animaux et des milliers de méta- génomes au cours des deux prochaines années.

De plus, ces données génomiques seront le plus souvent liées à des données d’expression (méta- transcriptomique) et aux métadonnées environ- nementales (paramètres physicochimiques par exemple). Avec de tels volumes de données, une analyse aussi classique que la recherche de simi- larité de séquences nucléotidiques dans les bases de données comme GenBank devient une réelle contrainte. Dans une étude du métagénome des

sols forestiers menée par une équipe de l’Inra de Nancy(lire p. 39), la comparaison de 800 000 séquences génomiques bactériennes aux séquences de protéines connues a nécessité plu- sieurs semaines de calcul sur un serveur infor- matique dédié. Ces délais sont incompatibles avec une analyse efficace des données.

Les métagénomiciens vont devoir apprendre à utiliser les grilles de supercalculateurs des physiciens et météorologistes. Toutefois, aug- menter la capacité de la cyberstructure dédiée à la métagénomique en augmentant les perfor- mances de stockage et de calcul des serveurs informatiques n’est qu’une solution provisoire.

En effet, la capacité des disques durs de stockage double annuellement et celle des microproces- seurs double tous les 18 mois (loi de Moore).

Une évolution bien plus lente que celle de la pro- duction des séquences ADN produites, qui double quant à elle tous les 5 mois. Afin de satisfaire pro- visoirement cette demande accrue de perfor- mance informatique, les bio-informaticiens commencent à utiliser l’informatique « dans les nuages » (cloud computing). Ce procédé repose sur l’emploi de machines virtuelles capables d’émuler les énormes capacités de stockage et de traitement des fermes d’ordinateurs délocali- sées des compagnies Amazon ou Google et de réseaux interuniversitaires, tels les projets Magellan ou Eucalyptus. Une option qui n’est cependant pas totalement satisfaisante car elle reste limitée par le délai imposé par le transfert de données entre le laboratoire et les fermes de serveurs « dans les nuages ». Le temps néces- saire au transfert d’un fichier de 200 Gb généré par le séquenceur HiSeq2000 vers la ferme de

serveurs pour une analyse ultérieure via un réseau internet universitaire typique nécessite plus d’une semaine. Ce délai est incompatible avec une uti- lisation souple et quotidienne de ces machines délocalisées.

Dans ces conditions, quelles possibilités restent- ils aux métagénomiciens ? S’inspirer des solu- tions adoptées par les astrophysiciens et physiciens des hautes énergies : réduire leurs jeux de données, soit extraire du flux d’informa- tion les données les plus pertinentes et jeter le reste ! Cette approche est de plus en plus fréquemment adoptée par les centres de séquen- çage. En effet, il est moins coûteux de re-séquen- cer l’ADN génomique avec les séquenceurs de nouvelle génération que d’acheter les disques durs nécessaires au stockage des données brutes générées par ces machines. Surfer sur les flots de données métagénomiques est une perspec- tive excitante offerte aux métagénomiciens par les nouvelles technologies de séquençage. Mais il leur reste à trouver le meilleur moyen de se maintenir sur la crête du tsunami. Sans cela, ils pourraient bien être malencontreusement emportés et noyés…G

Francis Martin

Équipe Écogénomique des interactions UMR 1136 Interactions arbres/micro-organismes Inra-Nancy 54280 Champenoux [email protected]

*http://genomesonline.org

Un tsunami de données

© M. CASAL JR/ABR

Zoom

33-zoom1_319.qxp 17/02/11 18:42 Page 33

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur biofutur.revuesonline.com

Références

Documents relatifs

Une base de données dédiée (Barcode library) a été mise en place, qui permet de stoc- ker les séquences de référence pour chaque espèce ainsi que des outils permettant non

L’infection par le VIH aggrave l’infection chronique par le VHC, avec une progression deux fois plus rapide de la fibrose et, une fois la cirrhose établie, un risque de com-

Une méthode très efficace pour fabriquer de manière stable des ARNsi au sein des cellules de mammifères utilise des vecteurs lentiviraux permettant la production in situ d’ARN en

Les progrès réalisés dans le domaine des cartes graphiques durant la dernière décennie ont ouvert de nouvelles perspectives en termes de calcul massivement parallèle.. Une

Le décryptage des lettres des présidents publiées dans les rapports annuels d’acti- vité permet de souligner que le manage- ment de l’impression devient une compé- tence

Une approche d’optimisation des requêtes sur un médiateur de sources de données à base ontologique Ontological properties annotation : a query optimization approach over

975 Modélisation et analyse dans les entrepôts de données actifs Modeling and analysis in active data warehouses. S ONIA B OUATTOUR , O MAR B OUSSAID , H ANENE B EN A BDALLAH ,

Toutes les données disponibles montrent que la consommation de produits lai- tiers et de matière grasse laitière est en baisse dans toutes les tranches d’âges et dans les deux