Matériels et méthodes - Oryza Tag Line - Mutualiser et partager, un défi pour la génomique fonc

4.2 Oryza Tag Line

4.2.1 Matériels et méthodes

Oryza Tag Line est un système d’information regroupant des informations issues de plu- sieurs domaines d’étude des plantes, de la collection d’insertion T-DNA. Son modèle réconcilie différents points de vue dans le but de créer une ontologie du domaine. D’ailleurs le modèle aborde et s’appuie sur la notion de vocabulaire contrôlé (et par extension les ontologies bio- logiques du même format que Gene Ontology) afin de créer des correspondances entre ces différents points de vues.

Le modèle conceptuel de la base de données a été réalisé dans un diagramme de classes sous le formalisme UML50. Il contient 9 packages : contact, reference, phenotype, insert, stockage,

expression, line, ontology et manage. Contact permet de gérer les personnes interagissant avec

le projet (par exemple les fournisseurs de données, les demandeurs de lignées, etc.). Reference permet de gérer les informations de bibliographie liées aux données (par exemple, la référence bibliographique d’un gène muté). Phenotype modélise la gestion des observations phénoty- piques. Insert gère les informations liées à l’identification des insertions (e.g. T-DNA, Tos17).

Stockage permet de gérer les stocks de graines produites par les plantes. Expression modélise

les données d’expression. Line représente les relations des lignées avec leur environnement (par exemple, des conditions de culture, leur localisation, etc.). Ontology modélise la relation des termes issus des vocabulaires contrôlés avec les données de la base. Manage modélise la production des lignées d’insertion. La figure4.1représente le package Line qui est implémenté dans la base de données.

Compte-tenu d’une part de la confidentialité des données produites et d’autre part du manque de connaissance de la communauté en termes de langages d’interrogation, l’interface d’accès proposée est conviviale, propose trois niveaux de connexion (public, privé, expert) et une interrogation aisée via des formulaires appropriés.

Le modèle a été implémenté sur un système de gestion de bases de données relationnelles Oracle v8i (tables relationnelles et vues ont été déclinées). Pour la consultation des données de la base, une interface de consultation a été programmée en HTML et Perl CGI. Pour le chargement des données dans la base, des programmes spécifiques ont été conçus. Les données ne sont chargées que par l’administrateur, ce qui évite des conflits lors de l’insertion ainsi que les problèmes de transaction. Des API perl spécifiques ont été développées pour extraire les données stockées dans des formats hétérogènes. Par exemple, les observations phénotypiques sont stockées dans des fichiers Excel alors que les données d’expression sont accessibles à partir d’une application FileMaker. L’API est développée avec une structure modulaire. Les fonctions développées permettent (i) d’extraire des données en fonction du type de source et du schéma de la source, (ii) d’uniformiser les syntaxes, (iii) de vérifier la cohérence des données, (iv) de créer des liens avec les images, (v) enfin de créer les index.

4.2.1.2 Contenu du système

La base de données contient actuellement 30 000 lignées dont 13 928 lignées ayant un stock de graines suffisant pour être distribué. Les caractérisations sont en cours pour atteindre pro-

4.2. Oryza Tag Line

FIG. 4.1 – Représentation du package Line dans un diagramme de classes sous le formalisme

chainement le nombre des 30 000. En plus des données phénotypiques et d’expression, décrites ci-dessous, des informations utiles sont liées à chaque lignée. Par exemple, il est possible de vi- sualiser un graphique de la construction génétique du T-DNA inséré par transformation dans la plante. Pour les lignées décrites dans la base, une nomenclature a été mise en place qui permet de savoir de quelle génération il s’agit. Les plantes ayant été directement transformées par le T-DNA sont nommées T0 alors que leurs descendances sont nommées T1.

Données phénotypiques (i) L’observation de panicules portant les grains T1 (issus de la pre- mière génération) sur 7187 lignées T0 (transformants primaires) permet d’évaluer 251 phénotypes mutants soit 3,5%. Les altérations observées portaient sur des grains avortés, ridés, réduits ou déformés. (ii) La réponse à l’infection par Magnaporthe Grisea a été effectuée à partir de plantules issues de 4462 transformants primaires. L’infection a été réalisée au stade 4-5 feuilles avec des spores du champignon. Les analyses ont été effec- tuées 5 jours après l’infection pour évaluer la résistance ou la sensibilité au champignon. Les résultats montrent que 44 lignées (1%) affichent une augmentation ou une diminu- tion de la sensibilité et que 69 (1,5%) sont résistantes. (iii) Pour l’évaluation au champ des lignées, les caractères morpho-physiologiques ont été relevés pour 25 descendants (T1) des transformant primaires (25 plantes T1 par T0). Les évaluations phénotypiques ont été effectuées toujours aux mêmes stades de développement. Une première évaluation est effectuée 45 jours après germination, puis une autre au stade de la floraison et, éventuelle- ment, une dernière à maturité. En tout, 258 descripteurs phénotypiques semi-quantitatifs ont été observés et classés en 6 classes de caractères incluant la morphologie, la phyl- lotaxie, la physiologie, la pigmentation et les caractères des panicules. Comme pour les études faites précédemment chez Arabidopsis, seule une faible fréquence (5-10%) des phénotypes sont corrélés avec la présence de l’agent mutagène (T-DNA ou Tos17). Sur l’ensemble de la collection, le travail sur la résistance à M. grisea montre un taux d’éti- quetage de 10%.

Données d’expression GUS et GFP GFP Les essais d’expression des gènes rapporteurs GUS et GFP ont été réalisés dans [SMvB+03] et [JHG+05] respectivement. Pour les essais d’activité GUS, l’équipe a systématiquement testé les tissus des feuilles et fleurs des T0 ainsi que la moitié d’un grain mature T1. Pour les essais GFP, en plus des mêmes essais que pour GUS ont été conduits, mais les tissus des racines et tiges des plantules T1 3 et 5 jours après germination ont également été testés.

Information FST (Flanking Sequence Tag) Les régions flanquantes des insertions (FST) sont identifiées par séquençage pour les deux coté du T-DNA et pour le 3’LTR du Tos17. Cette information est stockée dans la base d’OryGenesDB mais un lien permet d’établir une ré- férence croisée avec OTL (Partie B et E de la figure4.2). Au total, 8 004 et 6 101 des 13 928 lignées sont caractérisées par au moins un insert T-DNA ou Tos17.

Dans le document Mutualiser et partager, un défi pour la génomique fonctionnelle végétale (Page 101-103)