Créations et traitement de jeux de données simulés

A.2. Scripts R

A.2.4. Créations et traitement de jeux de données simulés

G én ération de jeux de donn ées simul és

La génération des jeux de données simulés se fait avec le fichier generate random network.R. La fonction parallel.generation qu’il contient prend pour argument un nombre de simulations, un répertoire, un nom de fichier, puis quelques caractéristiques des graphes que l’on veut créer et à partir desquels on veut simuler des données, et les sauvegarde dans le répertoire spécifié et avec le nom de fichier choisi. Cette fonction génère un graphe vrai , puis, grâce à des fonctions du package simone, un assez grand nombre de données (expression de gènes simulées) dont l’inférence devrait amener à retrouver le graphe vrai , puis sauvegarde le tout dans un fichier.

########## --- Description --- ##########

# inputs:

# number: number of random graphs to be simulated

# dir: where to save the generated graphs?

# n: vector (length 2) with the number of observations in a given task

# d: number of genes

Nicolas Edwards Programmes r´ealis´es

# p: proportion of edges in the network

# add.e: proportion of permuted edges (from mother network)

# outputs: list (having length number) with tg1 , tg2 being the true networks and cond1 , cond2 being the simulated data; saved in corresponding directory

Nicolas Edwards Programmes r´ealis´es

Importation de jeux de donn ´ees simul ´es

L’importation des jeux de données simulés à partir des fichiers crées par generate random network.R se fait à l’aide des fichiers import simu-ll1.r, import simu-nv1.r etimport simu-nv2.r. Lors de cette importation, les variables (qui simulent des gènes) sont identifiés par des numéros pour permettre des comparaisons avec le vrai réseau qui a permis de générer les données. Le fichierimport simu-nv2.rest présenté comme exemple ; les autres fichiers suivent cette trame.

l o a d( " ../D a t a/s i m u l a t i o n s/simu - nv2 . R d a t a " )

# give names to variables (genes) to avoid a bug s i m u s< - l a p p l y( simus , f u n c t i o n( x ) {

Inf érence de r éseaux sur les donn ées simul ées

Au vu des grandes quantités de données à traiter, une parallélisation de l’inférence à partir des données simulées à été mise en place, ce qui per-met de diviser le temps de calcul par le nombre de coeurs (processeurs) dis-ponibles. Concrètement la parallélisation du traitement s’effectue avec les fichiers parallel-export genenet-indep.R, parallel-export glasso-indep.R, . . .

Nicolas Edwards Programmes réalisés Les fichiersparallelfonctionnent tous à peu près de la même manière : tout d’abord, la liste des 100 jeux de données transcriptomiques simulées est passé en argument à la fonctionparallel.inference qui, à l’aide du package doMCet de la fonctionforeach, parallélise des appels aux fonctions d’inférence de graphes décrites précédemment, et permet de récupérer la liste des 100 graphes inférés. Ces programmes ont été exécutés en des temps raisonnables sur un serveur de calcul 32 cœurs. Un exemple de fichier de parallélisation (ici, pour la méthode de [Schäfer and Strimmer, 2005], en faisant appel à la fonction creategraph.genenet) est donné ci-dessous :

# save(all.graphs ,file="../Results/simulations/simu -ll1 -genenet -indep.

RData")

# # Function call for nv1

# source("import_simu -nv1.r")

# all.graphs < - parallel.inference(simus)

# save(all.graphs ,file="..^/Results^/simulations^/simu -nv1 -genenet -indep.

RData")

# Function call for nv2

# source("import_simu -nv2.r")

# all.graphs < - parallel.inference(simus)

# save(all.graphs ,file="../Results/simulations/simu -nv2 -genenet -indep.

RData")

Comparaison de r ´eseaux obtenus par simulation de donn ´ees

Il s’agit de comparer les réseaux obtenus par inférence des données simulées aux

vrai graphe utilisé pour générer ces données. C’est le but de la fonction compare.methods.simul2true du fichier compare methods simul2true.R. Cette fonc-tion calcule, pour chacun des 100 graphes simulés par jeu de données, et chaque méthode

Nicolas Edwards Programmes réalisés de la liste passée en paramètre, la différence précise en nombre d’arêtes entre les graphes inférés par la méthode considérée et le vrai graphe duquel les données sont issues : sont calculés, le nombre de vrais positifs, de vrai négatifs, de faux négatifs et de faux positifs, deux indicateurs de performance (la précision et le recall, obtenus à partir des 4 premières valeurs), et finalement le nombre d’arêtes communes aux deux conditions dans les vraisgraphes et dans les graphes inférés. L’ensemble de ces informations est

écrite dans un fichier au format .csv. Cette fonction édite également le nuage de points précision/recall, qui permet de comparer de les performances des diverses méthodes sur un type de graphe donné, avec une couleur pour chaque méthode passée en argument.

---#

# This file is made to compare different graph inference

# methods. It is method -agnostic and only requires igraph R graph objects.

# It serves two related purposes : to compute for each graph given in input ,

# several quantitative characteristics and export them as numbers ,

# and to plot the Precision - Recall curve of a series of simulated graphs ,

# in comparison to a "true" graph ,

# (used to generate simulated data that must be preemptively exported .)

# INPUT : 5 arguments , 3 have defaults (d:)

# - dir.graphs : (d:"../Results/simulations/") the directory in which the simulations are. They have to be named : "simu -", dataset ,"-", method , ".RData", and contain "all.graphs", list of simulated graphs ($graph1 , $graph2 for each component)

# - dir.truth (d:"../Data/simulations/") Directory containing the original graph files. They have to be named : "simu -", dataset , ".

Rdata"

# - dir.out (d:"../Results/comparison") Directory to which the 4 files will be exported.

# - dataset< - the name of the dataset (for finding the correct file and display)

# - methods= A list of methodsone wants to compare , for example :c("

genenet -indep", "simone -friedman -bic")

# It contains two functions : one is called at runtime to prepare the graph , and then for

# each method in the input argument , it calls the second function which computes the characteristics

# [no. True Positives], [no. False Positives], [no. True Negatives], [ no. False Negatives], [Precision], [Recall] for each (condition 1, condition 2, and sum/average))

Nicolas Edwards Programmes r´ealis´es

# and at the end the inter -condition difference for : the "true"

graphs , and each simulation

# are binded and written out.

# - 1 .png file containing the Precision -Recall curve (size : width

=600)

Nicolas Edwards Programmes r´ealis´es

# creating a dataframe with all the info for cond1 , cond2 and 1+2

# Display Venn ’s diagram for the first simulation only: to be improved

Nicolas Edwards Programmes r´ealis´es

# plot.new()

# draw.pairwise.venn(fp1[1]+tp1[1], fn1[1]+tp1[1], tp1[1], category=c("Tests Positive", "Is positive"))

# dev.print(png , file=paste(dir.out , "display_one_vennDiag -", dataset ,"-",method ,"-simul2true.png",sep=""), width =600)

# the height of the legend may need accomodation if the number of datasets increases significantly

# compare.methods.simul2true(dir.out="..^/Results^/comparison^/", dir.

graphs="../Results/simulations/", dir.truth="../Data/simulations/", dataset="nv2", methods=c("genenet -indep", "simone -friedman -bic", "

simone intertwined","therese friedman bic d5a0dot5", "therese -friedman -bic -d10 -a0dot5"))

# compare.methods.simul2true(dir.out="../Results/comparison/", dir.

graphs="../Results/simulations/", dir.truth="../Data/simulations/",

Nicolas Edwards Programmes r´ealis´es

dataset="ll1", methods=c("genenet -indep", "simone -friedman -bic", "

simone -intertwined"))

# compare.methods.simul2true(dir.out="../Results/comparison/", dir.

graphs="../Results/simulations/", dir.truth="../Data/simulations/", dataset="nv1", methods=c("genenet -indep", "simone -friedman -bic", "

simone -intertwined"))

# compare.methods.simul2true(dir.out="..^/Results^/comparison^/therese^/", dir.graphs ="../Results/simulations/", dir.truth="../Data/

simulations/", dataset="nv2", methods=c("therese -friedman -bic -d5-a0dot25", "therese -friedman -bic -d10 --d5-a0dot25", "therese -friedman -bic d5a0dot5", "therese friedman bic d10 a0dot75", "therese friedman -bic -d5-a0dot5", "therese -friedman --bic -d10 -a0dot75"))

La présente documentation a été rédigée en anglais. Son objectif est dans un premier temps, de servir à l’utilisateur final de ce script, et dans un second temps de montrer comment cet ensemble de scripts fonctionne, pour qu’un utilisateur avancé puisse se le réapproprier si besoin est.

Dans le document Nicolas Edwards (Page 68-76)