• Aucun résultat trouvé

3. Résultats

3.2 Construction des fichiers nécessaires à Circos

3.2.1 Les fichiers de « données »

Pour la représentation graphique des résultats, il a fallu produire à partir des données extraites précédemment différents fichiers :

1 fichier « caryotype » pour chaque terme d'ontologie (C, F, P et NoGOAccess) qui contenaient, mis à part pour le « NoGOAccess » (gènes retenus au travers des différentes sélection mais sans terme GO associé), la position des termes de GO en fonction de leur FDR p-value et la taille (définie par le nombre de transcrits) de chaque GO ou du « caryotype » pour le « NoGoAccess ». Cela constitue au total 4 fichiers.

1 fichier « terme GO » pour chaque terme d'ontologie (C,F,P) qui permet d'afficher les noms des termes GO dans une échelle de couleurs de gris commune aux 3 représentations (noir : le plus significatif et gris très clair : le moins significatif). Cela constitue au total 3 fichiers.

1 fichier « FDR » pour chaque terme d'ontologie (C,F,P) qui permettait d'afficher les FDR-pvalue correspondantes à chaque terme GO dans la même échelle de gris que ces derniers. Cela constitue au total 3 fichiers.

1 fichier « ID transcrits » facultatif pour chaque terme d'ontologie(C, F, P et NoGOAccess) qui permettait d'afficher le nom des transcrits sur les représentations graphiques. Ce fichier servait au débogage du script en affichant l'ID des transcrits sur les histogrammes afin de savoir si chaque transcrit étaient correctement positionnés d'où le caractère facultatif. Cela constitue au total 4 fichiers.

1 fichier « histogramme » pour chaque terme GO et pour chaque condition (contrôle ou stress) avec le nom du transcrit (optionnel et non représenté sur le graphique par défaut), le terme GO associé, sa position sur ce dernier, la valeur moyenne de transcription du gène pour la condition étudiée et une couleur pour la représentation suivant

une échelle de bleu (contrôle) ou de orange (stress) fonction de la BH p-value.

Lors de la construction du « caryotype » de chaque terme d'ontologie, les termes GO ont été représentés par ordre décroissant de FDR-pvalue. Afin de visualiser ceci, le nom d'accès des termes GO ainsi que la FDR-pvalue associés sont représentés dans une gamme de couleur de gris fonction de la puissance de 10 de la FDR-pvalue. Le terme GO le plus significatif est alors représenté en noir (RGB : 0,0,0) et le moins significatif en gris très clair (RGB : 240,240,240). Cette échelle de gris est commune aux représentations et la puissance de 10 de la plus faible p-value sert à définir le nombre de couleur que doit comprendre la gamme de gris. Ici, la plus faible p-value est de 9e-60 ainsi la gamme de gris créée contenait 60 échelle de gris avec des pas de 4 (240/60) sur les trois couleurs du format RGB (Annexe 3 a).

A l'inverse lors de la construction des histogrammes, les transcrits ont été représentés par ordre croissant de BH-pvalue. Afin de visualiser ceci, les histogrammes ont été représentées dans une gamme de couleur de bleu pour l'histogramme contrôle et dans une gamme de couleur de orange pour l'histogramme stressé, toutes deux fonction de la BH-pvalue associé au transcrit. Afin d'obtenir ces deux gammes, il y a eu autant de couleurs de bleu et d'orange définis qu'il y avait de BH-pvalue différente. Sachant qu'une p-value est toujours comprise entre 0 et 1 tout comme le canal alpha, ces différentes couleurs ont été crées en donnant comme valeur au canal alpha celle de la BH-pvalue. Le canal alpha permet de gérer la transparence d'une couleur, ainsi moins les résultats pour les niveaux de transcription sont significatifs plus ils sont transparents sur la représentation graphique (Annexe 3 b).

3.2.2 Les fichiers de paramétrage de Circos

Les fichiers de paramétrage de Circos vont permettre de récupérer les différents fichiers de « données » et couleurs personnalisées ainsi que de définir les paramètres graphiques et la configuration du script Circos en général.

On retrouve ainsi 3 types de fichiers de paramétrages :

housekeeping.conf qui contient les différents paramètres de bases de Circos comme le débogage, les configurations par défaut de la représentation graphique. Afin d'empêcher l'arrêt du script Circos à cause de la limite de temps d'exécution et de valeurs représentée et de permettre l'utilisation des deux-points « : » (qui par défaut équivalent l'opérateur « = ») dans l'accession des termes GO dans les fichiers caryotypes, il a fallu créé un fichier houssekeeping

personnalisé où les options debug_auto_timer_report , max_points_per_track et list_field_delim étaient définies respectivement à 600 secondes, 50000 points et sans « : » comme opérateur.

color.conf contient l'ensemble des gammes de couleurs créées pour afficher les termes GO et leur FDR-pvalue associé en fonction de la valeur de cette dernière ainsi que la représentation graphique des taux de transcription en fonction de leur BH p-value.

circos.conf est le fichier de configuration de base pour personnaliser la représentation graphique. C'est dans ce fichier qu'on fait appel aux différents fichiers indispensables à Circos et qu'on définit les paramètres graphiques de la représentation. Ce fichier peut répartir les différentes configurations dans d'autres fichiers qui seront appelés à l'aide d'une balise spécifique.

3.3 Circos et la production des représentations graphiques

Une fois l'ensemble des fichiers créés, la représentation graphique est lancée à l'aide d'une commande bash appelée dans le script perl via de la fonction « system ».

system("

if test -s histogram.directory/histogram.C.Control.txt

then circos -conf conf.directory/circos.C.conf$silentCircos& fi

if test -s histogram.directory/histogram.F.Control.txt

then circos -conf conf.directory/circos.F.conf$silentCircos& fi

if test -s histogram.directory/histogram.P.Control.txt

then circos -conf conf.directory/circos.P.conf$silentCircos& fi

if test -s histogram.directory/histogram.NoGOAccess.Control.txt

then circos -conf conf.directory/circos.NoGOAccess.conf$silentCircos& fi

wait exit") ;

Pour chaque terme d'ontologie, on fait appel à une commande Circos

différente car mobilisant des fichiers différents de données. De plus, afin de profiter de la puissance de calcul fournit par le serveur, l'opérateur final & est utilisé, ainsi chaque commande Circos est traitée de façon parallèle par un cœur de calcul via l'ordonnanceur implicite du système.

A la fin du script, deux images aux formats .svg et .png sont produites pour chaque terme d'ontologie dans le répertoire image.directory (Figure 6).

Les différents fichiers fournis et produits ont été classés dans différents répertoires selon le type d'information qu'ils contenaient afin de faciliter l'organisation de mon projet et la recherche de certains fichiers (Annexe 5).

Figure 6 représentations graphiques circulaire des niveaux de transcriptions des gènes de peuplier en condition contrôle et de stress classés par terme de GO pour le terme C d'ontologie via le script avec comme option 10e-15 en BH-pvalue seuil et 10e-30 en FDR-BH-pvalue seuil. La commande utilisé fût « perl circosGraphicRepresentation.5.pl -b 10e-15 -f 10e-30 ». Les représentations pour le terme d'ontologie F et P ainsi que pour les transcrits sans GO sont disponibles en annexe 3.

Le script Perl de mon projet de stage est disponible en Annexe 5.

Documents relatifs