• Aucun résultat trouvé

Exploitation des relations de synténie pour la découverte de gène

1.4 Le besoin d’accès à des multiples sources

1.4.2 Exploitation des relations de synténie pour la découverte de gène

en identifier la totalité du répertoire génique ou encore pour identifier pour chacun des gènes considérés, les fonctions biologiques sous-jacentes, le chercheur a alors l’opportunité de s’ap- puyer sur des données génomiques provenant d’espèces voisines ayant fait l’objet d’études plus poussées. Les deux scénarios d’usage présentés ci-dessous, illustrent, à cet effet, l’exploitation faite par les biologistes des relations de synténie entre espèces apparentées afin de faire émerger de nouvelles connaissances sur l’espèce la moins bien étudiée et notamment pour dégager des informations faisant le lien entre le génotype et le phénotype de l’espèce en question.

1.4.2.1 Recherche d’un gène candidat

Un généticien étudiant le sorgho a caractérisé, par le biais d’analyses statistiques, des mar- queurs RFLP liés à un QTL de résistance à la sécheresse. Il s’interroge ensuite sur l’identité des gènes candidats qui sous-tendent ce QTL. Dans ce sens, il exploite les relations de synténie qui co-existent dans le génome des céréales ; dans notre scénario, il va s’attacher à exploiter, les informations génomiques attachées au riz, dans son contexte d’étude à savoir le génome du sorgho.

– Dans un premier temps, le travail va consister à vérifier l’existence d’une séquence biolo- gique correspondant à ces marqueurs dans les bases de données spécifiques des céréales (e.g. Gramene ou GrainGene). Si le biologiste trouve un numéro d’accession GenBank pour les deux marqueurs, il va alors faire l’acquisition des séquences associées, au for- mat Fasta grâce aux liens de références croisées portant sur les numéros d’accessions et par navigation entre Gramene et GenBank. Les séquences sont ensuite positionnées sur les pseudo-molécules de riz en exploitant les outils (visualisateur de génomes, outil de recherche de similarité) de la base de données OryGenesDB. Si les deux séquences se positionnent sur le même chromosome de riz à des distances physiques proches, il est probable que la synténie soit bien conservée dans cette région. Le généticien peut ex- traire, via un autre outil d’OryGenesDB, tous les gènes compris entre les positions des deux marqueurs ainsi que leurs annotations. Chaque gène, dans cet intervalle, sera étudié afin de déterminer ses implications potentielles au regard de la fonction physiologique observée.

– Si par contre, il n’existe pas de correspondance en terme de séquences dans les bases de données spécifiques des céréales, pour les marqueurs considérés ; le chercheur va alors s’employer à trouver des marqueurs apparentés pour lesquels une séquence est connue. A cet effet, il exploite les cartes génétiques proposées par Gramene et notamment il exploite les cartes qui comportent des marqueurs à large spectre d’hybridation. Ces marqueurs sont positionnés sur des cartes génétiques de plusieurs espèces proches et peuvent alors servir de passerelles informationnelles entre espèces. Ces cartes génétiques vont ainsi lui permettre de définir la position relative des marqueurs sorgho sur les cartes du riz à partir d’interpolations sur les distances génétiques et au prix probablement d’une certaine perte de précision. Il lui reste alors à définir les marqueurs riz les plus proches du QTL d’intérêt. Une fois ces marqueurs identifiés, le processus d’extraction de l’information sur la zone génomique localisée se ramènera au processus vu précédemment.

La base de données OryGenesDB permet ensuite de vérifier l’existence de mutants associés au(x) gène(s) candidat(s) dans l’une des collections de mutants d’insertion. Si un mutant ou bien encore des mutants sont trouvés, il reste alors à chercher dans la base de données Oryza Tag Line la présence de phénotype(s) particulier(s) qui correspondent à cette ou à ces mutations. Le fait de trouver par exemple de nombreuses données en corrélation va conduire le biologiste à renforcer ses convictions au sujet de l’importance de son gène d’intérêt. Il peut alors lancer une série de nouvelles expérimentations à la paillasse qui vont de fait être bien ciblées.

Le scénario proposé fait l’usage de plusieurs bases de données et de différents services de traitement proposés par ces mes bases de données. Certaines des opérations de consulta- tion se font par de la navigation entre les bases de données au travers de liens déjà mis en place. D’autres opérations de consultation supposent des accès distincts aux différents sources de données (pas de connexion directe entre GenBank et OryGenesDB par exemple). La figure

1.14schématise les étapes effectuées par le généticien au travers d’un diagramme de séquence UML.

1.4. Le besoin d’accès à des multiples sources F IG .1.14 – Diagramme de séquence de la recherche de gènes candidats

1.4.2.2 Détection d’allèles correspondant à un gène candidat

Le même généticien, travaillant sur le génome du sorgho, se concentre maintenant sur l’étude d’un gène identifié chez Arabidopsis comme jouant un rôle essentiel dans la croissance racinaire. Il cherche à caractériser dans le génome du sorgho le gène et ses possibles allèles qui vont se révéler être les corollaires du gène d’intérêt chez Arabidopsis. A cet effet, il va mener des expérimentations sur le polymorphisme moléculaire attaché à ce gène et sur les effets de ce polymorphisme sur de possibles variations de croissance racinaire chez le sorgho.

– La première étape va alors consister à rechercher l’orthologue de ce gène chez le sorgho.

1. une première démarche consiste à utiliser Greenphyl, une ressource qui permet d’identifier l’orthologue chez le riz d’un gène d’Arabidopsis par phylogénomique à partir de la confrontation des séquences protéiques associées. Une fois ce gène identifié (s’il en existe un et qu’il est unique), la séquence nucléotidique du gène du riz peut être exploitée dans un second temps, pour rechercher dans la source de données GenBank une séquence de sorgho montrant une forte similarité.

2. Une deuxième démarche peut consister à révèler directement dans GenBank une

similarité entre les séquences de sorgho et la séquence d’intérêt d’Arabidopsis. Mais cette démarche peut aboutir à des résultats moins pertinents en sachant que GenBank ne contient qu’une fraction des gènes du génome du sorgho et que les génomes du sorgho et d’Arabidopsis sont respectivement moins proches que les génomes du sorgho et du riz.

– Si lors d’une des deux démarches précédentes, le généticien trouve une séquence sorgho de qualité jugée suffisante, il peut sélectionner des amorces dans la séquence résultat, au moyen d’un outil publique de conception d’amorces de PCR comme Primer 3, et passer ensuite au travail de laboratoire pour réaliser le séquençage nécessaire afin de dégager des éléments de réponse à ses questions. Son objectif est, ici, de se concentrer sur les mutations qui vont avoir une incidence d’un point de vue fonctionnel. Il fera dans ce sens l’acquisition des informations sur les sous-régions fonctionnelles (ou "features" du gène) associées à la séquence résultat. Il va ainsi connaître les zones de bordure (zones d’épissage) entre les introns et les exons afin de pour pouvoir ancrer ses amorces dans les exons les mieux conservés.

– Si aucune séquence de sorgho ne répond aux critères de sélection, une alternative est alors de rechercher les régions les mieux conservées du gène d’Arabidopsis afin de pou- voir identifier le gène orthologue présent chez le sorgho à l’aide d’amorces. Dans un premier temps, il faut extraire de GenBank toutes les séquences de gènes complets de céréales (maïs, blé, orge, mil, larmes de Job, etc.) présentant une forte similarité avec le gène du riz, puis réaliser par exemple un alignement multiple au travers par exemple de l’outil en ligne ClustalW du portail SRS et enfin définir des amorces dégénérées permet- tant d’amplifier le gène chez le sorgho avec un outil comme Oligo6 ou Codehop. Pour ce faire, le généticien va chercher à ancrer ses amorces dans une zone bien conservée. Dans cette perspective, il traduit d’abord la séquence nucléotidique en séquence protéique en utilisant un outil de traduction en ligne et consulte ensuite la signature des domaines fonctionnels présents dans la séquence protéique résultat avec un outil comme ScanPro- site ou SignalScan. Il lui reste alors à recadrer les domaines fonctionnels sur la séquence nucléotidique.

1.4. Le besoin d’accès à des multiples sources

Là-encore, le scénario démontre la nécessité de l’accès à différentes ressources (sources de données et outils de traitement) partagés par la communauté. Un diagramme de séquences UML modélise les différentes activités du généticien.