Représentation graphique à l'aide de l'outil Circos des données d'expression de gènes de type RNAseq. Application au peuplier

(1)

HAL Id: hal-01268754

https://hal.archives-ouvertes.fr/hal-01268754

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub-

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non,

Représentation graphique à l’aide de l’outil Circos des données d’expression de gènes de type RNAseq.

Application au peuplier

Corentin Hochart

To cite this version:

Corentin Hochart. Représentation graphique à l’aide de l’outil Circos des données d’expression de gènes de type RNAseq. Application au peuplier. 2014, 24 p. + annexes. �hal-01268754�

(2)

Année 2013-1014

Master 1 Analyse et Modélisation des Données

Corentin HOCHART

Rapport de stage Master 1

Représentation graphique à l'aide de l'outil Circos des données d'expression de gènes de type RNAseq.

Application au peuplier.

Maître de stage : Philippe LABEL

Tuteur universitaire : François ENAULT

Stage réalisé du 19 Mai au 18 Juillet 2014

(3)

Faculté :

Université Blaise Pascal, Clermont- Ferrand 2

U.F.R. des Sciences et Technologiques Complexe Universitaire des Cézeaux 24 avenue des Landais, BP 80026 63 171 AUBIERE Cedex

Tuteur Universitaire : François ENAULT

Groupe de Recherche L.M.G.E.

Faculté des Sciences et Technologies Bâtiment Bio. A, Complexe Universitaire

des Cézeaux

Université Blaise Pascal, Clermont- Ferrand 2

Tél : +33 4 73 40 74 71

Francois.ENAULT@univ-bpclermont.fr

Laboratoire d'accueil : U.M.R. P.I.A.F.

Université Blaise Pascal

Les Cézeaux, 24 avenue des Landais BP 80026

63171 Aubière

Encadrant de Stage : Philippe LABEL

Directeur de Recherche U.M.R. P.I.A.F.

Équipe HYDRO : Hydraulique et résistance à la sécheresse des arbres Tél : +33 4 73 40 79 22

(4)

Remerciements

Je tiens à remercier Jean-Louis JULIEN, Directeur de l'Unité Mixte de Recherche Physique et Physiologie de l'Arbre Fruitier et Forestier, de m'avoir acceuili dans son unité.

Je tiens à remercier également mon maitre de stage Phillipe LABEL, Directeur de Recherche de m'avoir guidé et conseillé tout au long de mon proojet.

Je remercie également tous les membres de l'Unité PIAF sur le site des Cézeaux ainsi que les autres stagiaires présents pour leur acceuil.

(5)

Résumé – Abstract

Le peuplier de l'Ouest ou Populus trichocharpa a vu son génome séquencé depuis 2006, son annotation structurale et fonctionnelle reste quand à elle encore en constante évolution. Une croissance rapide ainsi qu'un petit génome et une importance économique sont autant de qualités qui font du peuplier un bon modèle pour l'étude des arbres forestiers et fruitiers à intérêt agronomique. Aujourd'hui les techniques de séquençages à très haut débits facilitent l'étude de l'expression des gènes jusqu'au génome entier. C'est en identifiant et caractérisant ces gènes, qu'il devient alors envisageable de définir des profils d'expression qui permettront par la suite d'étudier la réponse de l'organisme à son environnement.

Le présent rapport expose les différentes étapes qui ont permis la représentation graphique à l'aide de l'outil Circos de données d'expression de gènes de types RNAseq chez le peuplier pour des individus soumis ou non à un stress hydrique. Étant donné que les résultats expérimentaux du PIAF ne sont

(6)

Black cottonwood or Populus trichocharpa genome has been full sequenced in 2006 and structural and functional annotation continue to evolve. A quick growth along with a small genome and an economicall importance make poplar a good model for the study of interesting agronomic fruit and forest trees.

Nowadays high-throughput sequencing facilitates gene expression study of the entire genome. Identifying and characterizing these genes make possible to define expression profiles that allow the study of the organism's response to the environment.

This present report gives the different steps that permitted the graphic representation with Circos tool of genes expression data for poplar for control and water stress growth conditions. Given the PIAF exprimental results have not been released yet, the dataset used in this work came from Cossu, 2014.

Keywords : Populus trichocarpa, High-throughput sequencing, hybrid poplar,Populus deltoides, Populus nigra, Circos, RNAseq, expression profiles, water stress.

(7)

Sommaire :

Remerciements Résumé – Abstract

Présentation de l'entreprise...1

1. Introduction...2

→ Contexte et objectifs du projet ...2

1. Contexte scientifique...3

2. Traitement du projet...6

2. Matériel et Méthodes...7

2.1 Jeux de données...7

2.1.1 Jeux de données expérimentales...7

2.1.2 Jeux de données complémentaires...7

2.2 Langages et outils informatiques utilisés...8

2.2.1 Circos...8

2.2.2 Perl...10

2.2.3 Notion de BH et FDR p-value...11

3. Résultats...12

3.1 Extraction des données des différents fichiers...12

3.1.1 Fichier de données expérimentales...12

3.1.3 Fichiers « linkedGeneIDv3v2 »...14

3.2 Construction des fichiers nécessaires à Circos...15

3.2.1 Les fichiers de « données »...15

3.2.2 Les fichiers de paramétrage de Circos...17

3.3 Circos et la production des représentations graphiques...18

4. Discussion...19

4.1 Interprétation des résultats ...19

4.2 Difficultés rencontrées ...19

(8)

4.3 Apports...22 Conclusions...23 Table des sigles et des abréviations

Glossaire Bibliographie

Sources d'informations web

Liste des annexes :

Annexe 1 : Organigramme de l'UMR0547 PIAF du centre Clermont- Ferrand-Theix

Annexe 2 : gamme de gris

Annexe 3 : représentations graphiques finales Annexe 4 : Hiérarchisation des dossiers

Annexe 5 : Script perl

(9)

Présentation de l'entreprise

L'Unité Mixte de Recherche Physique et Physiologie Intégratives de l'Arbre Fruitier et Forestier (UMR0547 PIAF) basée sur la collaboration entre des membres de l'Institut National de Recherche Agronomique (INRA) et de l'Université Blaise Pascal dépend du Centre de Recherches INRA de Clermont- Ferrand-Theix-Lyon qui touche à différents domaines de la biologie. Les recherches du PIAF qui dépendent de l'INRA, s'insèrent dans les départements scientifiques « Environnement et Agronomie » ainsi que « Écologie des Forêts, Prairies et milieux Aquatique » . Ils sont axés sur les réponses des arbres aux facteurs environnementaux (hydrique, lumineux, mécanique, minéral, thermique, bio-agresseurs) déterminant leur acclimatation ou leur survie. Pour mener a bien ces travaux, le PIAF se base sur la coopération de trois équipes de recherche (Annexe A) :

– HYDRO : Hydraulique et résistance à la sécheresse des arbres

– MEA : Micro Environnement et Arbres

– MECA : Contraintes Mécaniques et activité des zones de croissance Ces différentes équipes se répartissent sur deux sites géographiques, le Campus Universitaire des Cézeaux à Aubière et le site INRA de Crouël à Clermont-Ferrand.

Mon stage est rattaché à l'équipe HYDRO (Hydraulique et résistance à la sécheresse des arbres).

(10)

1. Introduction

Depuis déjà plusieurs années, avec le développement de nouvelles technologies en séquençage génomique, les informations produites dans le domaine de la biologie ne font qu'augmenter quantitativement et nécessitent de nouveaux outils de traitement, d'analyse et de gestion des flux de données.

La bioinformatique, champ de recherche multidisciplinaire, regroupe des domaines aussi variés que la biologie, l'informatique et les mathématiques afin de résoudre ces problèmes scientifiques posés par la biologie.

Ce stage de 2 mois effectué au P.I.A.F m'a permis de traiter les aspects biologiques et informatiques avec un accent mis sur l'adaptation d'un outil de visualisation des données faisant plus appel à mes compétences en programmation. Ce rapport est le fruit de ce stage et a pour but, outre le fait de représenter graphiquement avec Circos des données d'expression de gène de type RNAseq, de mettre en pratique l'ensemble des connaissances acquises durant cette première année d'initiation à la bioinformatique ainsi que d'apprendre les bonnes pratiques de développement de code de programmation en équipe qui régissent la bioinformatique en milieu professionnel.

→ Contexte et objectifs du projet

Populus deltoides, P. nigra et P. trichocarpa sont les variétés les plus étudiées dans le programme mondial de culture des peupliers.

Le peuplier de l'Ouest (Populus trichocarpa) est une espèce modèle dans l'étude de la physiologie des arbres forestiers de part ses nombreuses qualités dont notamment :

– une croissance rapide

– un génome relativement petit (~485±10 Mpb) et entièrement séquencé

– une importance économique dans a filière du contreplaqué, du bois d'emballage et de la pâte à papier

2

(11)

L'hybride Populus deltoides (L155-079, femelle) x Populus nigra (71077- 2-308, mâle) nommé aussi Populus x euramericana Guinier ou candensis Moench (ou plus communément peuplier euraméricain), utilisé dans les expérimentations de Cossu regroupe l'ensemble des qualités de Populus trichorcharpa à l'exception faite de son annotation fonctionnelle et structurale qui n'est pas autant aboutie. De ce fait Populus trichocarpa reste un choix modèle pour annoter les autres variétés de peuplier.

1. Contexte scientifique

Le peuplier

Comme évoqué précédemment, l'une des raisons qui font de Populus trichocarpa un bon modèle d'étude vient d'une croissance juvénile rapide faisant de lui une espèce facilement exploitable en laboratoire. Il peut être aussi efficacement soumis à des transformations génétiques d'autant plus que depuis 2006 son génome a été entièrement séquencé (Tuskan&al, 2006) devenant ainsi le premier arbre séquencé. Si on s'attarde au niveau génomique, on peut aussi noter que Populus trichocarpa, possède l'un des plus petits génomes chez les arbres soit environ 485Mpb répartit sur 19 chromosomes (2n), en comparaison le génome de Pinus taeda (~20 000-40 000 Mpb ; 2n = 24), l'espèce de pin la plus étudiée, est 40 à 80 fois plus grand (Jill, 2014).

Actuellement en constante évolution, l'annotation structurale et fonctionnelle de Populus trichocarpa, qui reste disponible sur le site Phytozome (http://www.phytozome.net/search.php?method=Org_Ptrichocarpa), favorise la détermination de profils d'expression. En outre, cette base de donnée de référence a été transférée sur le serveur du PIAF afin d'accélérer les temps d'accès et d'automatiser les calculs issus du RNAseq.

Durant la période de mon stage, Marie Garavillon (Doctorante) rattachée à l'équipe HYDRO et ses collègues ont mis en place un protocole expérimental afin d'étudier les réponses transcriptomique de Populus trichocarpa soumis à un stress hydrique. Cette expérience s'est déroulée sur deux semaines et

(12)

pendant 5-6 jours, la moitié des individus (24) ont été privé d'eau. Outre les mesures écophysiologiques effectuées, un protocole d'extraction de l'ARN total au niveau des feuilles a été mis en place afin de procéder à un séquençage RNAseq. L'analyse et le traitement de ces données permet le calcul du niveau d'expression pour chaque transcrit (Michael, 2014) et ainsi de déterminer et d'analyser des profils d'expressions de gènes propre à l'organisme face à une condition de croissance particulière telle que la carence en eau. Je n'ai pas pris en charge cette partie du travail et je me suis concentré sur une tâche connexe de visualisation des données.

Dans sa publication de 2014, Cossu et ses collaborateurs ont travaillé sur l'hybride Populus deltoides x Populus nigra , une variété de peuplier très répandue dans la sylviculture. Pour cette étude, Populus trichocarpa a servi de modèle de référence afin de permettre l'alignement des « reads » produits de l'hybride par RNAseq et ainsi calculer les taux d'expressions de gènes.

Le but de mon stage, effectué en parallèle du travail de Marie, était alors de représenter graphiquement à l'aide de l'outil Circos, des données de RNAseq (Cossu, 2014) chez le peuplier produits avec la librairie R DESeq2. Pour chaque condition de croissance, chaque échantillon et chaque transcrit, on dispose d'un chiffre, qui représente le nombre de séquences RNAseq positionnées par transcrit. Mon travail a consisté à proposer une méthode de visualisation de ces nombreuses données tabulées afin de permettre la comparaison visuelle et synthétique des niveaux de transcrits selon des critères de sélection statistiques. Mon travail s'intègre au traitement et à l'analyse graphique des données générées par l'équipe HYDRO.

4

(13)

Outil de représentation graphique Circos

Circos est un outil de visualisation synthétique de données génomiques comparées développé en 2005 dans le but d'apporter une représentation graphique plus parlante, rendant l'interprétation des données plus facile. Pour cela, la représentation adoptée par Circos est circulaire, ce qui permet de représenter un maximum de données relationnelles tout en minimisant la surface utilisée. Depuis sa création, plus d'une cinquantaine de versions ont été produites (http://www.circos.ca/software/change_log/). A l'heure actuelle, la version 0.67 est en période de test et a pour but de fixer certains bugs et d'ajouter de nouvelles fonctionnalités notamment le bloc « rule » par rapport aux versions précédentes.

RNAseq (RNA sequencing)

Le RNAseq aussi appelé « Whole Transcriptome Shotgun Sequencing » (WTSS) est un procédé qui s'appuie sur les performances du Séquençage Nouvelle Génération (NGS, Next Generation Sequencing) afin de révéler les ARN présents dans les échantillons biologiques analysées. Les résultats apportés par RNAseq sont produits à partir du séquençage de l'ADN complémentaire (ADNc) de ces échantillons.

Dans le cas présent la méthode de séquençage utilisé par Cossu (2014) est de type Illumina (Hiseq2000) dit séquençage par synthèse (Sequencing By Synthesis SBS). Avec cette méthode, les « reads » produits ont une taille généralement comprises entre 50 et 300 pb. Dans sa publication Cossu récupère les « reads » de 51pb tandis que les bases de faible qualité, les

« reads » incomplets et les adaptateurs sont éliminés. Ces « reads » sont ensuite mappés sur le génome de Populus trichocarpa afin de quantifier le taux des différents transcrits.

(14)

2. Traitement du projet

Dans un premier temps, le projet s'est amorcé autour du traitement unique des données de la publication de Cossu (2014). Les transcrits ont été étudiés en fonction de leur terme de GO définit par AgriGO. Les critères statistiques de sélection des données à visualiser s'appuient à la fois sur la p- value associée à la détection de transcrits différentiels entre conditions de croissance et aussi sur un regroupement des transcrits par groupe fonctionnel également basé sur une autre p-value associée à la représentativité de chaque transcrit dans son groupe. Ce regroupement fonctionnel s'appuie sur les annotations d'ontologies de gènes (GO) développées par ailleurs (AgriGO, Du, 2010). Les transcrits ont été étudiés en fonctions de leur terme de GO définit par AgriGO. La représentation graphique des résultats repose sur 3 étapes (Figure 1) :

1) la sélection des données tabulées représentatives des transcrits différentiels par groupe GO significatif

2) la construction des différents fichiers de paramétrage requis à l'exécution de l'outil Circos à partir des données expérimentales sélectionnées ;

3) et enfin, la génération des graphiques à l'aide de l'outil Circos.

6

(15)

Figure 1 organigramme du script

(16)

2. Matériel et Méthodes

2.1 Jeux de données

2.1.1 Jeux de données expérimentales

Pour la réalisation de mon projet, le jeux de données utilisés est issu des résultats de la publication de Cossu (2014). Afin d'obtenir ce jeu de données Cossu et son équipe ont cultivé des hybrides entre Populus deltoides et Populus nigra dans une serre sous condition de lumière naturel avec une température ambiante maintenue à 17-29°C et avec une humidité comprise entre 55 et 90%. Sur ces hybrides certains ont été soumis à une privation d'eau modéré (privation pendant 8 jours) tandis que d'autres à une privation d'eau sévère (privation pendant 13 jours). A la fin de l'expérience l'ARN total est isolé des feuilles et pour chaque échantillon est synthétisé une librairie d'ADNc qui sera par la suite amplifié par PCR puis quantifié par Bioanalyseur et traité par Illumina. Les « reads » produites et retenues sont mappées sur l'organisme modèle Populus trichocarpa puis le niveau d'expression de chaque gène est calculé. Dans le cadre de mon stage, les résultats produits par RNAseq ont été traités, différemment que dans la publication pour un traitement statistique actualisé à l'aide de la librairie R DESeq2 (Michael , 2014). Je n'ai pas eu à effectuer ce travail et les données issues du mapping m'ont été fournies directement pour développer l'outil de visualisation.

Dans le fichier contenant ce jeux de données, on retrouve en première ligne l'entête et dans les suivantes les diverses informations pour chaque gènes. Ici les informations qui nous intéressent sont l'identifiant du gène, le niveau d'expression moyen de ce dernier en condition contrôle et celui en condition de stress ainsi que la BH p-value associé à ces résultats.

2.1.2 Jeux de données complémentaires Gene Ontology

Afin d'identifier les différents mécanismes liés à la réponse transcriptomique de l'organisme face à un stress hydrique, il est intéressant de relever les catégories de GO spécifiques de ce type de réponse.

7

(17)

Pour ce faire, deux fichiers au format .csv, un pour les gènes sur- exprimés et un pour les sous-exprimés en condition de stress hydrique, contenaient une liste de GO associé à leur terme d'ontologie et un groupe de gènes (annotation version 2) ainsi qu'une p-value (FDR) déterminant la significativité des résultats. Ces deux fichiers ont été préalablement produits via le site agriGO (http://bioinfo.cau.edu.cn/agriGO/).

Cependant actuellement l'annotation des gènes de Populus trichocarpa sur l'outil web agriGO est à la version 2 (structure du type "POPTR :«numéro d'accession du gène»") tandis que celle pour le fichier résultat est à la version 3 (structure du type "Potri.0«n°chromosome»G «numéro d'accession»" ou

"Potri.T«numéro d'accession»" pour les gènes n'ayant pas de chromosome attribué) d'où la nécessité ici de gérer l'annotation du génome de peuplier en deux versions successives.

Linked gene ID v3 v2

Ainsi afin de relier les différentes informations disponibles sur les gènes des différents jeux de données, il était nécessaire d'avoir les équivalences entre les versions 2 et 3 de l'annotation des gènes de Populus trichocarpa.

Ces informations étaient stockées dans deux fichiers au format .csv, un pour les gènes sur-exprimés et un pour les sous-exprimés en condition de stress hydrique. On retrouvait dans ainsi dans ce fichier la version 2 d'un gène et son équivalence en version 3.

Je n'ai pas non plus eu à produire ces données qui ont été générées automatiquement par le pipeline, mis en place par Philippe Label, exploitant la librairie R DESeq2. En revanche, je les exploite pour la visualisation des résultats avec Circos.

2.2 Langages et outils informatiques utilisés

2.2.1 Circos

Circos (0.66) est un outil de représentation graphique de données de façon circulaire, de cette manière, il permet de représenter un maximum de données tout en minimisant l'espace utilisé. Conçu initialement pour représenter des chromosomes et différentes informations qu'on peut leur

(18)

attribuer, l'utilisation de Circos tend à se populariser en dehors de traitements génomiques/post-génomiques voire scientifiques. Au centre de mon projet de stage, Circos va permettre de représenter graphiquement les niveaux de transcription de chaque gène en condition contrôle et en condition de stress.

La version utilisée de Circos est la 0.66 qui est la dernière version disponible avant la 0.67 mais qui est toujours en phase de test.

Le script Circos est codé en Perl, les fichiers de configurations, sont quant à eux de simples fichiers textes avec une structure proches de celle des fichiers de configurations d'Apache, associant mot-clé et valeur sur une même ligne.

Pour exécuter Circos, on doit appeler le fichier de configuration principal dans la commande (avec l'option -conf) qui donnera les informations pour la représentation ;

~$ perl circos -conf circos.conf

On retrouve dans le fichier de configuration de Circos, 3 types de structure distinctes pour organiser les paramètres de représentations (Figure 2) :

● Tout d'abord la majorité des paramètres et données sont positionnés entre des balises qu'on appel les « blocs » qui s'ouvrent de cette manière :

<blocname> et se referme de celle-ci : </blocname ; le nom des « blocs » est au singulier. L'ensemble des « blocs » de même noms sont eux même positionnées dans un « bloc père » dont le nom correspond à celui des « blocs fils » au pluriel. Il existe de nombreux blocs certains pouvant être inclus dans d'autres. Ces blocs vont permettre notamment l'appel des différents fichiers de données ou encore l'ajout de règles, d'axes... Cette syntaxe s'inspire du XML.

● Ensuite certains paramètres et données sont positionnés en dehors des balises notamment l'appel du fichier caryotype ou encore l'affichage ou non par défaut des « chromosomes ».

● Enfin les différents paramètres et données peuvent être répartis dans différents fichiers de configuration. Ces derniers sont appelés via des doubles chevrons : <<nom.du.fichier.conf>>. Cette organisation en plusieurs fichiers est un choix personnel de commodité de configuration séparée des différents

9

(19)

Figure 2 structure et exemple d'organisation des fichiers de configurations Circos.

(a) circos.conf : fichier de configuration principal. (b) axes.conf : permet de tracer un axe pour l'histogramme. (c) ideogram.conf : contient les paramètres généraux de la représentation graphique. * : caractère obligatoire quand on modifie un paramètre défini précédemment. Ici « dir » et « file » était défini par défaut dans image.conf.

a

karyotype = karyotype.directory/karyotype.C.txt chromosomes_units = 1

chromosomes_display_default = yes

<plots>

<plot>

type = histogram

file = histogram.directory/histogram.C.Control.txt thickness = 1

color = lblue r1 = 0.9r r0 = 0.65r extend_bin = no min = 0

max = 27622.4573417829

<<include axes.conf>>

</plot>

<plot>

type = text

file = text.directory/go.C.txt r0 = 1r+85p

r1 = 1r+700p show_links = no link_dims = 50p link_thickness = 2p link_color = red label_size = 30p label_font = bold

</plot>

</plots>

<<include ideogram.conf>>

<image>

<<include etc/image.conf>>

dir* = image.directory file* = circos.C.png

</image>

<<include conf.directory/etc/mycolor.conf>>

</colors>

→ appel du fichier contenant les informations pour tracer le

« caryotype »

→ ouverture du bloc « parent » de <plot>

→ ouverture d'un premier bloc <plot>

→ type de l'objet à représenter

→ appel du fichier contenant les données pour tracer un histogramme

Paramètres pour la représentation de

l'histogramme (couleur, taille, épaisseur des traits

…)

→ appel du fichier « axes.conf »

→ fermeture du bloc <plot>

→ ouverture d'un second bloc <plot>

→ appel d'un fichier contenant les données pour ajouter les groupes de GO en légende pour le « caryotype »

Paramètres pour la représentation du texte (taille, police...)

→ fermeture du second bloc <plot>

→ fermeture du bloc « parent » de <plot>

→ appel du fichier « ideogram.conf »

→ ouverture du bloc <image>

→ appel du fichier par défaut « image.conf »

→ répertoire de stockage de l'image produite

→ nom de l'image produite

→ fermeture du bloc <image>

→ ouverture du bloc <colors>

→ appel d'un fichier de couleurs personnalisées

→ fermeture du bloc <colors>

(20)

b

<axes>

show = data thickness = 0.5 color = black

<axis>

spacing = 0.25r color = black thickness = 0.5

</axis>

</axes>

→ ouverture du bloc « parent » de <axis>

Paramètre par défaut pour la représentation des axes

→ ouverture du bloc <axis>

Paramètre pour la représentation de l'axe

→ fermeture du bloc <axis>

→ fermeture du bloc « parent » de <axis>

c

default = 0.005r break = 10r

</spacing>

<<include ideogram.position.conf>>

<<include ideogram.label.conf>>

</ideogram>

→ ouverture du bloc <ideogram>

→ ouverture du bloc <spacing>

→ fermeture du bloc <spacing>

→ appel de deux fichiers de configurations personnalisés contenant d'autres information sur la représentation graphique

→ fermeture du bloc <ideogram>

(21)

fichiers de paramétrage pour le programmeur et n'influe en rien sur les résultats. L'ensemble des paramètres de configuration pourrait très bien être regroupé dans un fichier unique, au détriment de la lisibilité.

2.2.2 Perl

Perl (v5.14.2) est un langage de programmation multiplateforme. Il est un optimisé pour l'extraction d'information de fichiers texte. De plus, il est particulièrement adapté pour le traitement de données biologiques notamment celles de génomiques grâce à des modules tels que Bioperl. Pour ce stage, Perl est utilisé pour parcourir les différents fichiers et extraire les informations d'intérêt dans le but de créer les différents fichiers de paramétrage nécessaires à Circos puis finalement de lancer l'exécution de ce dernier. De plus, le module Getopt::Long est utilisé afin de permettre à l'utilisateur du script d'entrer diverses options dans le terminal au lancement du script, ainsi celui ci peut définir :

– le fichier résultat à étudier

– les deux fichiers agriGO utilisés

– les deux fichiers liant les versions 2 et 3 de l'annotation des gènes

– le seuil des deux p-value utilisées (BH et FDR) afin de définir une sélection plus ou moins restrictive des gènes et des termes GO

ou produire en sortie terminal :

– le fichier d'aide pour l'utilisation du script

– les différents messages du script (« warning »)

– les différents messages de Circos (hors « erreur »)

D'autres librairies furent utilisées dans mon script :

– les pragmas strict et warnings :

• strict rend obligatoire la déclaration des variables

• warnings opère à la compilation une vérification de la syntaxe. L'interpréteur affiche des messages

(22)

d'avertissements (warnings) pour chaque erreur repérées jusqu'à l'arrêt du script.

– POSIX qui regroupe de nombreuses fonctions notamment ceil() et floor() qui permettent respectivement d'arrondir une valeur à l'unité supérieur ou à l'unité inférieur. Elles ont été utilisées ici dans la construction d'une gamme de couleurs personnalisées en fonction de la p-value des résultats.

– Pod::Usage qui permet la gestion formatée en direction de l'utilisateur de la notice d'aide du script incorporée au code natif.

2.2.3 Notion de BH et FDR p-value

On appel BH p-value, toute p-value ajusté selon la correction de Benjamini-Hochberg (1995) qui permet un contrôle du taux des faux positifs ou false discovery rate (FDR). Le taux de faux positif exprime la probabilité qu'un résultat jugé comme statistiquement inexact soit admis comme exact.

La correction de Benjamini-Hochberg est une procédure de l'approche statistique par FDR. Ici la BH-pvalue et FDR-pvalue font référence à la même correction de la p-value. La première concernant les p-values corrigées d'expression des transcrits ; la seconde concernant les p-values corrigées de signification des regroupement GO.

2.2.4 Ressources informatiques

L'ensemble de mon projet a été produit sur le serveur du PIAF, « piafdb ».

C'est un serveur d'hébergement multiutilisateur sous Linux avec la distribution Ubuntu (12.04.4 LTS) disposant de deux CPU affront au total 32 cœurs de calcul (Intel® Xeon® CPU E5-2690). Ces ressources offrent des possibilités de parallélisation des calculs.

11

(23)

3. Résultats

3.1 Extraction des données des différents fichiers

3.1.1 Fichier de données expérimentales

Ce fichier doit contenir au minimum quatre informations : l'identifiant du gène (annotation V3), le taux moyen de transcription de ce gène pour les individus contrôles et stressés ainsi que la p-value ajusté de la correction de Benjamini-Hochberg des résultats (« BH-pvalue »). Le fichier était structuré de façon à ce que la première ligne de celui ci corresponde à l'entête (avec le nom des différentes informations) et les autres lignes aux informations pour un gène.

Afin d'extraire les informations d'intérêts, la méthode suivie dans le script (Figure 3) fût :

– Tout d'abord on parcours le fichier ligne par ligne Tout d'abord via un while

– A la première ligne on extrait les noms de l'entête dans un tableau (@headList).

– Ensuite chaque ligne (hormis la première) a été traitée tour à tour :

– les informations de la ligne sont stockées dans un tableau (@data). @data et @headList sont de même grandeurs et à au même indice donné l'information de @data renvoi vers le nom de celle ci de @headList.

– chaque information de @data est stockée dans la table de hachage : %headDataLink2 qui a pour clé le nom associé à cette information, extrait de @headList.

– puis si la BH-pvalue pour le transcrit étudié est inférieur au seuil donné, celle-ci ainsi que le taux moyen de transcription pour les deux conditions sont chacun stockés dans une table de hachage , respectivement %BHpvalue et %controlValue et %stressValue avec comme clé l'identifiant (ID) du transcrit.

(24)

Figure 3 Partie du script permettant l'extraction des données expérimentales.

1. ouverture du fichier résultats 2. traite le fichier ligne par ligne 3. s'il s'agit de la première ligne alors :

- le nom dans les entêtes est stocké dans un tableau 4. s'il ne s'agit pas de la première ligne alors :

4.1 les informations de la ligne sont stockés dans un tableau

4.2 les informations sont stockées dans une table de hachage avec pour clé le nom associé à l'information 4.3 stockage de l'identifiant dans une variable temporaire

4.4 contrôle de la présence d'une BH-pvalue dans le fichier 4.5 stockage de la BH-pvalue dans une variable temporaire 4.6 si la BH-pvalue est défini alors

4.6.1 si la BH-pvalue est inférieur au seuil

4.6.1.1 stockage dans une table hachage du taux moyen de transcription contrôle 4.6.1.2 stockage dans une table hachage du taux moyen de transcription stress 4.6.1.3 stockage dans une table hachage de la BH-pvalue

4.6.1.4 modification de la structure des données

(25)

– ensuite les données stockées subissent une modification afin d'être exploitables par la suite par Circos ; conversion des chaînes de caractères des valeurs en format numérique et passage de l'annotation de la puissance de 10 en bas-de-casse : E → e.

– enfin on passe à la ligne suivante donc au transcrit suivant.

– Pour finir une fois toutes les lignes traitées, on ferme le fichier.

Ce traitement permet de récupérer les bonnes valeurs pour chaque colonne, quelque soit l'ordre des colonnes dans le fichier de données.

A ce stade une première sélection des valeurs est faite en fonction de la valeur de BH p-value, ainsi ne sont retenus que les transcrits avec une BH p- value inférieure au seuil ($BhpvalueThreshold) préalablement défini (valeur par défaut : 3.03E-4 ou celle définie par l'utilisateur dans l'option correspondante lors de l'exécution du script).

3.1.2 Fichiers agriGO

Afin d'être exploitable ce fichier devait contenir quatre informations : le terme de GO, le terme d'ontologie associé, une liste de gène associée à ce GO ainsi que la p-value ajusté par un contrôle du taux de faux-positifs associé à la production du GO (« FDR-pvalue »). La structure du fichier était similaire au fichier résultats avec en première ligne l'entête et les suivantes aux informations pour chaque terme GO.

Ainsi pour l'extraction des informations d'intérêt des deux fichiers agriGO, le procédé fut le même que précédemment (Figure 4). On stock tout d'abord les noms dans un tableau (@headList) qui serviront ensuite de clef pour une table de hachage (%headDataLink), ce dernier ayant pour valeur celle associée au nom de l'entête pour la ligne parcourue. Avant de passer à la ligne suivante, le terme d'ontologie, la FDR-pvalue et les entrées de gènes sont chacun stockés dans une table de hachage (%termType, %FDRpvalue, %gene) avec pour clé le terme GO. A ce niveau, une première sélection peut aussi être faite en fonction de la FDR-pvalue afin de retenir uniquement les transcrits avec une FDR-pvalue inférieure au seuil ($FDRpvalueThreshold) préalablement défini soit

(26)

Figure 4 Partie du script permettant l'extraction des données du fichier agriGO

1. stockage du nom du fichier agriGO 2. ouverture du fichier agriGO 3. traite le fichier ligne par ligne

3.1 s'il s'agit de la première ligne alors :

- le nom dans les entêtes est stocké dans un tableau 3.2 s'il ne s'agit pas de la première ligne alors :

3.2.1 les informations de la ligne sont stockés dans un tableau

3.2 2 les informations sont stockées dans une table de hachage avec pour clé le nom associé à l'information

3.2.3 contrôle de la présence d'une FDR-pvalue dans le fichier 3.2.4 si la FDR-pvalue est inférieur au seuil

3.2.4.1 stockage dans une table hachage des entrées de gènes avec comme clef le terme GO associé

3.2.4.2 stockage dans une table hachage les termes GO avec comme clef le transcrit associé

3.2.4.3 stockage dans une table de hachage du terme d'ontologie avec comme clef le terme GO associé

3.2.4.4 stockage dans une table hachage de la moins bonne FDR-pvalue pour chaque terme GO

(27)

par défaut ( 3.03E-4), soit en utilisant l'option correspondante en ligne de commande.

3.1.3 Fichiers « linkedGeneIDv3v2 »

Afin de mettre en relation les informations extraites de ces différents fichiers, il faut définir le lien entre les deux versions de noms de gènes qui nous est fourni par deux fichiers. Ces derniers étaient structurés en deux colonnes, dans la première était affichée la version 3 d'un gène et dans la seconde, on retrouve, si elle existe, la version 2 de ce gène. (Annexe 2)

Les informations ont été récupérées dans deux tables de hachage communes aux deux fichiers, l'un avec pour clé le nom de la version 3 du gène et pour valeur celle de la version 2 (%linkedGeneIDv3v2) et réciproquement pour le second (%linkedGeneIDv2v3)(Figure 5).

Étant donné que les deux fichiers ne fournissaient pas toutes les équivalences entre la version 2 et 3 de l'annotation des gènes de Populus trichocarpa, le maximum de transcrits représentable était la somme de ceux extraits pour les deux fichiers.

Il faut savoir aussi que la relation entre les versions 2 et 3 n'est pas bijective. En effet, à l'instar de la version 2, dans la version 3 les transcrits alternatifs d'un gène ont leur propre annotation (exemple : Potri.001G000400.1

& Potri.001G000400.2 sont des transcrits issu du même locus).

(28)

Figure 5 Extraction du lien entre les versions 2 et 3 de l'annotation de Circos.

1. stockage du nom du fichier linkedgeneidv2v3 2. ouverture du fichier linkedgeneidv2v3 3. traite le fichier ligne par ligne

3.1 Stockage de l'IDV2 et IDV3 dans un tableau 3.2 Stockage de l'IDV3 dans une variable temporaire 3.3 Stockage de l'IDV2 dans une variable temporaire 3.4 Teste si l'IDV3 à un équivalent IDV2

3.4.1 Stockage de l'IDV2 dans un tableau de hachage avec pour clé l'IDV3 associé 3.4.2 Stockage de l'IDV3 dans un tableau de hachage avec pour clé l'IDV2 associé

(29)

3.2 Construction des fichiers nécessaires à Circos

3.2.1 Les fichiers de « données »

Pour la représentation graphique des résultats, il a fallu produire à partir des données extraites précédemment différents fichiers :

– 1 fichier « caryotype » pour chaque terme d'ontologie (C, F, P et NoGOAccess) qui contenaient, mis à part pour le « NoGOAccess » (gènes retenus au travers des différentes sélection mais sans terme GO associé), la position des termes de GO en fonction de leur FDR p- value et la taille (définie par le nombre de transcrits) de chaque GO ou du « caryotype » pour le « NoGoAccess ». Cela constitue au total 4 fichiers.

– 1 fichier « terme GO » pour chaque terme d'ontologie (C,F,P) qui permet d'afficher les noms des termes GO dans une échelle de couleurs de gris commune aux 3 représentations (noir : le plus significatif et gris très clair : le moins significatif). Cela constitue au total 3 fichiers.

– 1 fichier « FDR » pour chaque terme d'ontologie (C,F,P) qui permettait d'afficher les FDR-pvalue correspondantes à chaque terme GO dans la même échelle de gris que ces derniers. Cela constitue au total 3 fichiers.

– 1 fichier « ID transcrits » facultatif pour chaque terme d'ontologie(C, F, P et NoGOAccess) qui permettait d'afficher le nom des transcrits sur les représentations graphiques. Ce fichier servait au débogage du script en affichant l'ID des transcrits sur les histogrammes afin de savoir si chaque transcrit étaient correctement positionnés d'où le caractère facultatif. Cela constitue au total 4 fichiers.

– 1 fichier « histogramme » pour chaque terme GO et pour chaque condition (contrôle ou stress) avec le nom du transcrit (optionnel et non représenté sur le graphique par défaut), le terme GO associé, sa position sur ce dernier, la valeur moyenne de transcription du gène pour la condition étudiée et une couleur pour la représentation suivant

(30)

une échelle de bleu (contrôle) ou de orange (stress) fonction de la BH p-value.

Lors de la construction du « caryotype » de chaque terme d'ontologie, les termes GO ont été représentés par ordre décroissant de FDR-pvalue. Afin de visualiser ceci, le nom d'accès des termes GO ainsi que la FDR-pvalue associés sont représentés dans une gamme de couleur de gris fonction de la puissance de 10 de la FDR-pvalue. Le terme GO le plus significatif est alors représenté en noir (RGB : 0,0,0) et le moins significatif en gris très clair (RGB : 240,240,240).

Cette échelle de gris est commune aux représentations et la puissance de 10 de la plus faible p-value sert à définir le nombre de couleur que doit comprendre la gamme de gris. Ici, la plus faible p-value est de 9e-60 ainsi la gamme de gris créée contenait 60 échelle de gris avec des pas de 4 (240/60) sur les trois couleurs du format RGB (Annexe 3 a).

A l'inverse lors de la construction des histogrammes, les transcrits ont été représentés par ordre croissant de BH-pvalue. Afin de visualiser ceci, les histogrammes ont été représentées dans une gamme de couleur de bleu pour l'histogramme contrôle et dans une gamme de couleur de orange pour l'histogramme stressé, toutes deux fonction de la BH-pvalue associé au transcrit. Afin d'obtenir ces deux gammes, il y a eu autant de couleurs de bleu et d'orange définis qu'il y avait de BH-pvalue différente. Sachant qu'une p- value est toujours comprise entre 0 et 1 tout comme le canal alpha, ces différentes couleurs ont été crées en donnant comme valeur au canal alpha celle de la BH-pvalue. Le canal alpha permet de gérer la transparence d'une couleur, ainsi moins les résultats pour les niveaux de transcription sont significatifs plus ils sont transparents sur la représentation graphique (Annexe 3 b).

16

(31)

3.2.2 Les fichiers de paramétrage de Circos

Les fichiers de paramétrage de Circos vont permettre de récupérer les différents fichiers de « données » et couleurs personnalisées ainsi que de définir les paramètres graphiques et la configuration du script Circos en général.

On retrouve ainsi 3 types de fichiers de paramétrages :

– housekeeping.conf qui contient les différents paramètres de bases de Circos comme le débogage, les configurations par défaut de la représentation graphique. Afin d'empêcher l'arrêt du script Circos à cause de la limite de temps d'exécution et de valeurs représentée et de permettre l'utilisation des deux-points « : » (qui par défaut équivalent l'opérateur « = ») dans l'accession des termes GO dans les fichiers caryotypes, il a fallu créé un fichier houssekeeping personnalisé où les options debug_auto_timer_report , max_points_per_track et list_field_delim étaient définies respectivement à 600 secondes, 50000 points et sans « : » comme opérateur.

– color.conf contient l'ensemble des gammes de couleurs créées pour afficher les termes GO et leur FDR-pvalue associé en fonction de la valeur de cette dernière ainsi que la représentation graphique des taux de transcription en fonction de leur BH p-value.

– circos.conf est le fichier de configuration de base pour personnaliser la représentation graphique. C'est dans ce fichier qu'on fait appel aux différents fichiers indispensables à Circos et qu'on définit les paramètres graphiques de la représentation. Ce fichier peut répartir les différentes configurations dans d'autres fichiers qui seront appelés à l'aide d'une balise spécifique.

(32)

3.3 Circos et la production des représentations graphiques

Une fois l'ensemble des fichiers créés, la représentation graphique est lancée à l'aide d'une commande bash appelée dans le script perl via de la fonction « system ».

system("

if test -s histogram.directory/histogram.C.Control.txt

then circos -conf conf.directory/circos.C.conf$silentCircos&

fi

if test -s histogram.directory/histogram.F.Control.txt

then circos -conf conf.directory/circos.F.conf$silentCircos&

fi

if test -s histogram.directory/histogram.P.Control.txt

then circos -conf conf.directory/circos.P.conf$silentCircos&

fi

if test -s histogram.directory/histogram.NoGOAccess.Control.txt

then circos -conf conf.directory/circos.NoGOAccess.conf$silentCircos&

fi wait exit") ;

Pour chaque terme d'ontologie, on fait appel à une commande Circos différente car mobilisant des fichiers différents de données. De plus, afin de profiter de la puissance de calcul fournit par le serveur, l'opérateur final & est utilisé, ainsi chaque commande Circos est traitée de façon parallèle par un cœur de calcul via l'ordonnanceur implicite du système.

A la fin du script, deux images aux formats .svg et .png sont produites pour chaque terme d'ontologie dans le répertoire image.directory (Figure 6).

Les différents fichiers fournis et produits ont été classés dans différents répertoires selon le type d'information qu'ils contenaient afin de faciliter l'organisation de mon projet et la recherche de certains fichiers (Annexe 5).

18

(33)

Figure 6 représentations graphiques circulaire des niveaux de transcriptions des gènes de peuplier en condition contrôle et de stress classés par terme de GO pour le terme C d'ontologie via le script avec comme option 10e-15 en BH- pvalue seuil et 10e-30 en FDR-pvalue seuil. La commande utilisé fût « perl circosGraphicRepresentation.5.pl -b 10e-15 -f 10e-30 ». Les représentations pour le terme d'ontologie F et P ainsi que pour les transcrits sans GO sont disponibles en annexe 3.

(34)

Le script Perl de mon projet de stage est disponible en Annexe 5.

4. Discussion

4.1 Interprétation des résultats

Une fois le projet fini l'outil Circos nous a permis de produire une visualisation graphique des données d'expression de gènes de type RNAseq chez le peuplier. Celà aboutit à quattre représentations circulaire (Figure 6 et en Annexe 4) qui permettent de visualiser clairement les gènes et plus généralement les termes de gene ontology sur ou sous exprimés dans une condition de croissance particulière chez le peuplier qu'est la carence en eau.

Par exemple, en s'interressant à la représentation graphique du terme GO P (Annexe 4.b), on peut observer que la quasi totalité des gènes associés à ce terme sont sur-exprimés en condition de stress par rapport au contôle.

En associant ses résultats avec de précédentes études et à venir, il sera possible de déterminer et d'analyser des profils d'expressions de gènes propre à ce genre de stress et ainsi isoler les gènes qui pourraient potentiellement accroitre la résistance des especes forestières d'intérêt agricoles à la sécheresse.

4.2 Difficultés rencontrées

4.2.1 Gestion de la masse de données

L'objectif de ce stage était de représenter graphiquement des données d'expression de gènes de type RNAseq chez le peuplier au moyen de l'outil Circos. Dans un premier temps, seul le fichier de données a été exploité afin de sortir les premiers résultats. Ce fichier basé sur les résultats de la publication de Cossu (2014) contenait au total 73 013 transcrits, une taille facilement gérable en Perl. Or cela l'était moins avec Circos quand il a fallu représenter les histogrammes pour chaque condition expérimentale soit 146 026 tracés (si aucune sélection n'était faite avec la BH-pvalue). Actuellement, il n'existe pas de possibilités dans Circos pour répartir les tâches sur un serveur multi-cœurs ni de tentatives connus en cours par les auteurs.

19

(35)

Par conséquent, afin de réduire le temps de calcul, il a fallu répartir la représentation des transcrits sur différentes images et donc faire appel à plusieurs exécutions de Circos qui pouvaient être ainsi partagées entre les différents cœur de calcul. La première question qui s'est posée, était de savoir comment classer les transcrits. Étant donnée que l'annotation de gène de la version 3 nous informe sur quel chromosome il est positionné (exemples : le gène Potri.001G000100.1 est localisé sur le chromosome 1 ; le gène Potri.T182100.1 n'a pas encore été assigné à un chromosome) , il était évident dans un premier temps de les trier en fonction de leur chromosome. De cette façon, on se retrouvait avec 20 représentations (19 chromosomes + gènes sans chromosomes) créés par 20 exécutions Circos parallélisées. Le temps de calcul fut alors nettement plus court qu'avec une seule représentation (quelques minutes avec 20 représentations contre plus de 10 minutes avec 1 représentation) . Cependant cette solution de tri n'apporte pas d'informations supplémentaires sur d'éventuels profils d'expression reliés à des groupes fonctionnels d'autant plus qu'on n'observe pas de chromosomes plus stimulés pour l'une ou l'autre des conditions de croissance.

Une façon plus pertinente de trier les transcrits a été de procéder en fonction des termes de GO. En procédant de cette manière, on obtenait quatre graphes et étant donné qu'on ne pouvait représenter toutes les données de cette manière (la relation entre les versions 2 et 3 étant non-bijective), le nombre de transcrits maximum représentés sans restriction au niveau des p- value ajustées était d'environ 8 500. Ainsi le temps de calcul n'excédait pas les 3-4 minutes qui passait à l'ordre de la seconde si on ne retenait que les résultats significatifs.

Finalement, la gestion de la taille fut au départ le principal obstacle à la représentation des données exploitées. D'autres sont survenus par la suite. Par exemple : comment inclure une légende. En effet, il faut savoir que l'ajout de texte sous Circos suit des règles bien précises et ne peut être positionné librement. Le second obstacle d'importance lors de la rédaction du script Perl était de permettre à celui-ci d'être utilisable en dehors de mon environnement de travail et avec d'autres jeux de données avec des structures potentiellement différentes, chose qu'au début de mon stage je ne maitrisais

(36)

pas car ayant tendance à me baser sur la structure et non le contenu du fichier pour extraire les données ainsi que sur des chemins relatifs et non absolus.

Pour ce qui est de la prise en compte des possibles changements de structures des fichiers (résultats et agriGO), cela fut résolu en s'aidant des noms présent dans l'entête du fichier qui servaient à retrouver les données associées (pour plus de détails, se référer à la partie résultat 3.1.1 et 3.1.2).

4 .2.2. Gammes de couleurs et lisibilité

Comme énoncé précédemment l'objectif final du stage était de représenter graphiquement des données de gènes de type RNAseq chez le peuplier en fonction de leur terme GO afin de définir des profils d'expression propre à l'organisme face à une condition de croissance particulière qu'est la carence en eau. Que ce soit pour le fichier de données expérimentales ou pour les fichiers agriGO, chaque résultat était associé à une p-value afin de définir leur significativité. Par résultat significatif, il faut comprendre non lié au hasard donc ayant potentiellement un intérêt scientifique. Afin de mettre en avant les résultats significatifs des gammes de couleur ont été créés dont deux via le canal alpha, celles du bleu et du orange pour les histogrammes et une via les canaux R, G et B, celle du texte associé au GO étant donné que ce dernier ne supportait la gestion du canal alpha. Cette dernière gamme était relative au nombre de termes GO contrairement aux deux premières qui ne considéraient pas le nombre de transcrits représentés. Par conséquent avec une forte sélection du nombre de transcrits via le seuil de BH-pvalue et/ou celui de FDR- pvalue, n'étaient représentés graphiquement que des transcrits avec une faible BH-pvalue et/ou les transcrits appartenant à un terme GO retenu. Cependant le taux de transparence défini par le canal alpha ne permettait pas de définir une différence de significativité au moyen de la couleur des différents transcrits en dessous d'une certaine valeur de BH-pvalue. En effet si la valeur du canal alpha est trop faible, elle ne permet pas d'établir une différence de transparence entre la couleur des transcrits. De ce fait un transcrit avec une BH-pvalue de 1e-10 est représenté dans le même taux de transparence qu'un transcrit avec une BH-pvalue de 1e-60. De plus lorsqu'on retient trop de transcrits, même si

21

(37)

une différence de transparence existe entre la représentation des transcrits, elle est rarement visible étant donné que trop de valeurs sont représentées ne laissant apparaître que le contour des barres de histogrammes dont la couleur ne varie pas (car ne supporte pas le canal alpha) contrairement au contenu des barres. Avec du recul il aurait été plus pertinent de produire une gamme de couleurs de orange et de bleu en gérant le canal alpha pour qu'il soit dépendant du nombre de transcrits retenus en fonction de leur BH-pvalue et non uniquement et directement de cette p-value. Une autre possibilité aurait été de générer une gamme de couleurs de orange et de bleu toujours dépendante du nombre de transcrits retenu mais sans se reposer sur le canal alpha et la transparence mais sur l'assombrissement et l'éclaircissement de la couleur, comme il l'a été fait pour la gamme de couleur de gris.

4.3 Circos et autres représentations graphiques

Il aurait été envisageable d'ajouter des informations aux représentations produites par Circos comme le nombre de gènes exprimés pour chaque conditions qui aurait permis de définir un pourcentage de gènes sur et sous exprimés voir à expression constante pour chaque termes GO et ainsi faire ressortir ceux qui sont les plus stimulés en condition contrôle et de stress. Cet apport d'information aurait pu se faire sous forme de texte localisé au dessus ou en dessous des histogrammes ou encore sous forme d'un histogramme positionné à la fin de chaque terme GO.

Cependant le risque est de surcharger la représentation d'informations et alors perdre de la lisibilité qui est un des forts de Circos d'autant plus que ces informations peuvent être visualisées sur d'autres formes de représentation comme un diagramme de Venn (pour la visualisation des gènes communs et propres aux différentes conditions) ou encore un histogramme standard voir un diagramme circulaire pour représenter le pourcentage de gènes stimulés pour chaque termes GO et chaque condition (Figure 7).

(38)

Figure 7 exemple de représentation :

(a) par un diagramme de Venn pour visualiser gènes communs et propres aux différentes conditions. (b) par un histogramme standard pour représenter le pourcentage de gènes stimulés pour chaque termes GO et chaque condition.

a

Cossu, 2014.

b

Cossu, 2014.