• Aucun résultat trouvé

Imputation de données manquantes pour l'inférence de r éseau à partir de données RNA-seq

N/A
N/A
Protected

Academic year: 2021

Partager "Imputation de données manquantes pour l'inférence de r éseau à partir de données RNA-seq"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-01325523

https://hal.archives-ouvertes.fr/hal-01325523

Submitted on 2 Jun 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Imputation de données manquantes pour l’inférence de r éseau à partir de données RNA-seq

Alyssa Imbert, Caroline Le Gall, Claudia Armenise, Gregory Lefebvre, Jorg Hager, Armand Valsesia, Pierre-Antoine Gourraud, Nathalie Viguerie,

Nathalie Vialaneix

To cite this version:

Alyssa Imbert, Caroline Le Gall, Claudia Armenise, Gregory Lefebvre, Jorg Hager, et al.. Imputation

de données manquantes pour l’inférence de r éseau à partir de données RNA-seq. 48e Journées de la

Société Française de Statistique, May 2016, Montpellier, France. �hal-01325523�

(2)

Imputation de donn´ ees manquantes pour

l’inf´ erence de r´ eseau ` a partir de donn´ ees RNA-seq

Alyssa Imbert 1 , Caroline Le Gall 2 , Claudia Armenise 3 , Gregory Lefebvre 4 , Jorg Hager 4 , Armand Valsesia 4 , Pierre-Antoine Gourraud 2 , Nathalie Viguerie 5 & Nathalie

Villa-Vialaneix 1

1 INRA, UR 0875 MIAT, 31326 Castanet Tolosan cedex, France {alyssa.imbert,nathalie.villa}@toulouse.inra.fr

2 Methodomics, Toulouse, {legall,gourraud}@methodomics.com

3 Quartzbio,Geneva, Suisse, claudia.armenise@quartzbio.com

4 Nestl´ e Institute of Health Sciences, Lausanne, Suisse,{gregory.lefebvre, jorg.hager, armand.valsesia }@nestle.com

5 Inserm - UMR1048, Obesity Research Laboratory, Institute of Metabolic and Cardiovascular Diseases (I2MC), Toulouse, nathalie.viguerie@inserm.fr

R´ esum´ e. Dans cette proposition de communication, nous nous int´ eressons au probl` eme de l’inf´ erence de r´ eseaux de g` enes ` a partir de donn´ ees d’expression mesur´ ees par RNA-seq. Nous pr´ esentons une approche qui permet d’int´ egrer de l’information ex- terne (autre type d’omic par exemple) obtenue sur les mˆ emes individus ainsi que sur d’autres individus. Notre approche est pr´ esent´ ee comme un probl` eme d’imputation que nous r´ esolvons avec des approches de type

hot deck

multiple pour obtenir un r´ eseau plus stable. Nous illustrerons nos r´ esultats sur des donn´ ees r´ eelles issues d’un programme d’´ etudes sur l’ob´ esit´ e. 1

Mots-cl´ es. r´ eseau, donn´ ees manquantes, imputation multiple, hot deck

Abstract. In this article, the issue of gene network inference is addressed, in which inference is performed from expression data obtained by RNA-seq sequencing technique.

Our proposal aims at integrating external information (another kind of ’omic for instance) measured on the same individuals and on additional individuals. The method is presented as a missing data imputation problem and is solved with multiple hot deck approaches in order to infer a more stable network. Our results will be illustrated on real data coming from a paneuropean project on obesity.

Keywords. network, missing data, multiple imputation, hot deck

1. Ce projet est financ´ e par la soci´ et´ e Methodomics http://www.methodomics.com et la r´ egion

Languedoc-Roussillon Midi-Pyr´ en´ ees.

(3)

1 Introduction

En biologie, les technologies haut d´ ebit permettent l’acquisition d’une information riche sur le fonctionnement d’un organisme ` a divers niveau de l’´ echelle du vivant. En particulier, les derni` eres techniques de s´ equen¸cage (RNA-seq), permettent de mesurer l’expression simultan´ ee de plusieurs milliers de g` enes dans un type donn´ e de cellules.

L’analyse statistique de ces donn´ ees comprend plusieurs aspects : pr´ e-traitement, analyse diff´ erentielle, classification, inf´ erence de r´ eseau... (voir [4] pour une vision d’ensemble des probl´ ematiques li´ ees ` a ce type de donn´ ees).

En particulier, l’inf´ erence de r´ eseau a pour but de fournir au biologiste une vision glo- bale des relations de d´ ependances conditionnelles entre les expressions de g` enes (souvent d’une liste restreinte de g` enes choisis). Dans ce type d’approches, un graphe est recons- truit ` a partir de la mesure de l’expression des g` enes chez plusieurs individus : les sommets de ce graphe repr´ esentent les g` enes et les arˆ etes, les (principales) relations de d´ ependances conditionnelles entre les expressions de ces g` enes.

Cependant, le coˆ ut associ´ e ` a la collecte de ce type de donn´ ees fait qu’en g´ en´ eral, le nombre d’observations collect´ ees (n) est souvent tr` es faible particuli` erement devant le nombre de g` enes d’int´ erˆ et (p). Or, [6] a montr´ e qu’on ne peut esp´ erer une estimation satisfaisante de ce type de r´ eseau ` a l’aide de mod` eles gaussiens parcimonieux dans le cadre de l’ultra haute dimension. Par ailleurs, l’inf´ erence de r´ eseau est souvent tr` es sensible ` a la pr´ esence ou non de certaines observations et un certain nombre de travaux se sont int´ eress´ es ` a la question de la recherche des structures stables (au sens de communes ` a la majorit´ e des observations disponibles) dans l’inf´ erence : [5] propose une approche par r´ e-´ echantillonnage qui permet de s´ electionner un param` etre de r´ egularisation maximum assurant la stabilit´ e de l’inf´ erence. [2] ont montr´ e que l’inf´ erence de r´ eseau peut ˆ etre sensible ` a quelques observations dites

influentes

et ont propos´ e des mesures d’influence pour filtrer ces observations et stabiliser le r´ eseau inf´ er´ e.

Dans cette proposition de communication, nous nous ´ etudions une approche diff´ erente :

il est, en effet, commun de mesurer, simultan´ ement aux donn´ ees de RNA-seq, d’autres

types de donn´ ees ’omiques. D’un coˆ ut moins ´ elev´ e, ces donn´ ees sont fr´ equemment dis-

ponibles pour un nombre plus grand d’individus. Nous pr´ esentons ici une approche uti-

lisant cette information suppl´ ementaire au travers de m´ ethodes d’imputation d’individus

manquants et ´ etudions sa pertinence en terme d’inf´ erence de r´ eseau. La proposition de

communication est organis´ ee comme suit : dans la section 2, nous d´ ecrivons une approche

d’imputation que nous mettons en œuvre sur ces donn´ ees dans le cadre de l’inf´ erence

de r´ eseau. Puis, dans la section 3, nous pr´ esentons les donn´ ees du projet DiOGenes sur

lesquelles nous travaillons. Enfin, dans la section 4, nous pr´ esentons quelques r´ esultats

pr´ eliminaires montrant l’influence des individus utilis´ es pour l’inf´ erence sur le r´ eseau lui-

mˆ eme et les r´ eseaux obtenus ` a partir de l’imputation multiple.

(4)

2 Pr´ esentation de la m´ ethode d’imputation

L’approche que nous proposons se place dans le cadre o` u deux types de donn´ ees sont observ´ es : le premier type de donn´ ees correspond aux donn´ ees d’expression d’int´ erˆ et qui sont contenues dans une matrice X de dimension n 1 × p (n 1 individus et p g` enes) dont les entr´ ees sont des donn´ ees de comptages (entiers). La second type de donn´ ees est celui sur lequel nous pouvons nous appuyer pour l’inf´ erence : il s’agit d’une matrice Y de mesures num´ eriques de dimension n ×q o` u n > n 1 est le nombre d’individus sur lequels les mesures ont ´ et´ e effectu´ ees et q est le nombre de variables observ´ ees. Tous les individus pour lesquels des donn´ ees d’expression sont disponibles sont observ´ es dans Y et on peut, sans perte de g´ en´ eralit´ e, supposer qu’ils correspondent aux n 1 premi` eres lignes de cette matrice et que ∀ i = 1, . . . , n 1 , x i (i-` eme ligne de la matrice X) correspond au mˆ eme individu que y i

(i-` eme ligne de la matrice Y).

Ce probl` eme peut ˆ etre compris comme un probl` eme d’imputation de valeurs man- quantes dans une matrice [ X, e Y] de dimension n × (p + q) dans laquelle, ˜ x i = x i ,

∀ i = 1, . . . , n 1 et ˜ x i est manquant ∀ i ≥ n 1 +1. De mani` ere similaire ` a [7], afin de conserver la structure de corr´ elation entre les variables imput´ ees, des lignes enti` eres sont imput´ ees

`

a partir d’individus existant par une m´ ethode de type

hot deck

. Cette proc´ edure est appliqu´ ee selon une approche d’imputation multiple qui permet d’observer la stabilit´ e des arˆ etes inf´ er´ ees.

De mani` ere plus pr´ ecise, nous mettons en œuvre une m´ ethode d’imputation multiple de type

hot deck

comme d´ ecrite dans [3]. Celle-ci repose sur la cr´ eation, pour un individu i ∈ J n 1 + 1, n K , d’un ensemble de

donneurs

, D(i), qui sont des observations j ∈ J 1, n 1 K . Cet ensemble peut ˆ etre d´ etermin´ e :

— soit par le calcul d’un score dit d’affinit´ e, calcul´ e pour tous les individus j ∈ J 1, n 1 K . Ce score est de la forme :

s(i, j) = 1 q

q

X

k=1

I {|y

ik

−y

jk

|<σ}

o` u σ est un seuil fix´ e et D(i) est d´ efini comme l’ensemble {j : s(i, j ) = max l6=i s(i, l)} ;

— soit par une m´ ethode de plus proches voisins : dans ce cas, l’ensemble D(i) est d´ efini comme l’ensemble des K (o` u K est un entier fix´ e) plus proches voisins au sens de la m´ etrique euclidienne usuelle : d(i, j) = P q

k=1 (y ik − y jk ) 2 .

Contrairement ` a [3], qui impute les variables k = 1, . . . , p ind´ ependamment les unes

des autres, l’int´ egralit´ e de la ligne ˜ x i est imput´ ee par la ligne ˜ x j en prenant au hasard

une observation j ∈ D(i). Cette op´ eration est effectu´ ee B fois pour toutes les observations

i = 1, . . . , n 1 pour obtenir B matrices imput´ ees diff´ erentes X ∗,b (b = 1, . . . , B) de tailles

n × p. Les B tableaux de donn´ ees imput´ ees sont ensuite utilis´ es pour l’inf´ erence d’un

r´ eseau de g` enes. Pour l’inf´ erence, nous utilisons un mod` ele log-lin´ eaire de Poisson, adapt´ e

(5)

aux donn´ ees de comptage, comme d´ ecrit dans [1]. Enfin, le r´ eseau final retenu correspond au r´ eseau dans lequel les arˆ etes les plus stables sont conserv´ ees.

3 Une ´ etude sur l’impact de la restriction alimentaire chez les ob` eses : le projet DiOGenes

Les donn´ ees sur lequelles ont ´ et´ e mises en œuvre les m´ ethodes d´ ecrites dans la section 2 sont issues du projet pan-europ´ een DiOGenes. Ce projet est une ´ etude d’intervention di´ et´ etique contrˆ ol´ ee sur des personnes ob` eses, r´ ealis´ ee dans 8 pays europ´ eens. Les sujets inclus dans cette ´ etude suivent un r´ egime tr` es faible calories de 8 semaines avec pour objectif de perdre au moins 8% de leur poids initial. De nombreuses mesures biologiques ont ´ et´ e r´ ealis´ ees avant le d´ ebut du r´ egime (CID1) et ` a l’issue de celui-ci (CID2). En particulier, des mesures transcriptomiques ont ´ et´ e obtenues ` a partir de biopsies de tissu adipeux selon trois types de techniques : RT-qPCR, puces ` a ADN, et RNA-seq. Dans la suite, nous nous int´ eresserons ` a l’inf´ erence du r´ eseau obtenu ` a partir d’une s´ election de 317 g` enes dont l’expression a ´ et´ e mesur´ ee par la technique RNA-seq en CID1 et CID2.

Le but final de l’´ etude est la compr´ ehension de l’impact de la restriction alimentaire sur la structure de d´ ependance dans cet ensemble de g` enes. Le nombre d’observations disponible correspond ` a 433 individus en CID1 et 307 individus en CID2. Pour des raisons techniques, seuls 189 observations correspondent ` a des individus en commun entre les deux exp´ eriences.

4 Premiers r´ esultats

L’objectif ´ etant de comparer les r´ eseaux obtenus ` a partir des donn´ ees collect´ ees en CID1 et en CID2, une premi` ere ´ etude a consist´ e ` a comparer les r´ eseaux obtenus ` a partir de l’ensemble des individus disponibles aux deux pas de temps (resp. 433 et 307 observa- tions) aux r´ eseaux obtenus ` a partir des individus communs aux deux observations (189 individus) : les premiers ont a priori une fiabilit´ e globale plus importante (inf´ erence ef- fectu´ ee sur 1, 5 ` a 2, 5 fois plus d’individus) mais les seconds semblent plus pertinents dans un but de comparaison des deux pas de temps (inf´ erence effectu´ ee ` a partir d’individus communs). L’inf´ erence est effectu´ ee ` a l’aide d’un mod` ele log-lin´ eaire de Poisson comme d´ ecrit dans [1] et le crit` ere de s´ election du nombre d’arˆ ete est le crit` ere StARS introduit dans [5].

Les r´ esultats de cette premi` ere analyse, sont r´ esum´ es dans le tableau 1 en terme de nombre d’arˆ etes communes entre les diff´ erents r´ eseaux inf´ er´ es. Ceux-ci montrent une forte influence du groupe d’individus consid´ er´ es qui modifie le r´ eseau inf´ er´ e avec de l’ordre de 1/3 des arˆ etes qui diff` erent.

L’objectif du travail pr´ esent´ e lors de cette communication sera de mettre en œuvre

(6)

dataset CID1 (tous) CID1 (communs) CID2 (tous) CID2 (communs)

CID1 (tous) 1663

CID1 (communs) 1065 1540

CID2 (tous) 835 718 1576

CID2 (communs) 750 659 1093 1486

Table 1 – Nombre d’arˆ etes en commun dans les deux r´ eseaux inf´ er´ es. La diagonale indique le nombre total d’arˆ etes du r´ eseau correspondant.

dataset CID1

(tous)

CID1 (com- muns)

CID1 imp1

CID1 imp2

CID1 imp3

CID1 imp4

CID1 imp5 CID1 (tous) 1663

CID1 (communs) 1065 1540

CID1 imp1 1521 1167 2739

CID1 imp2 1512 1182 2330 2757

CID1 imp3 1509 1186 2314 2330 2756

CID1 imp4 1515 1169 2320 2364 2351 2752

CID1 imp5 1507 1172 2355 2349 2335 2320 2745

Table 2 – Nombre d’arˆ etes en commun dans les deux r´ eseaux inf´ er´ es ` a partir des donn´ ees initiales et les r´ eseaux inf´ er´ es ` a partir des cinq tables imput´ ees. La diagonale indique le nombre total d’arˆ etes du r´ eseau correspondant.

l’approche d’imputation d´ ecrite dans la section 2 en utilisant des donn´ ees externes pour simuler des individus communs manquant dans l’une ou l’autre des deux conditions. Pour ce faire, nous utilisons des donn´ ees d’expression mesur´ ees en RT-qPCR qui sont dispo- nibles pour tous les individus aux deux pas de temps : cette approche permet d’am´ eliorer l’inf´ erence en augmentant le nombre d’observations, tout en conservant une structure de corr´ elation r´ ealiste entre les g` enes. Enfin, l’imputation multiple permettra de d´ eriver une mesure de confiance et de stabilit´ e de l’inf´ erence.

Un travail pr´ eliminaire a ´ et´ e r´ ealis´ ee inf´ erant 100 r´ eseaux pour des tableaux de donn´ ees

imput´ ees ` a CID1 en utilisant l’approche par affinit´ e. Par ´ etude de l’´ evolution d’un crit` ere

d’inertie moyenne intra-D(i) en fonction de σ, nous avons fix´ e σ ` a 3. Les r´ esultats sont

r´ esum´ es dans le tableau 2 en terme de nombre d’arˆ etes communes entre les diff´ erents

r´ eseaux obtenus ` a partir des jeux imput´ es et dans la figure 1 qui repr´ esente la distri-

bution de l’apparition d’une arˆ ete sur les diff´ erents r´ eseaux. Ces r´ esultats pr´ eliminaires

montrent une assez grande stabilit´ e de l’inf´ erence ` a partir des donn´ ees imput´ ees (avec

1892 apparaissant plus de 90% du temps et 1376 arˆ etes apparaissant 100 fois). Ces pre-

miers r´ esultats sont encourageants pour la m´ ethode propos´ ee. Des r´ esultats plus complets

seront pr´ esent´ es lors de la conf´ erence.

(7)

Figure 1 – Distribution d’apparition d’une arˆ ete dans les r´ eseaux inf´ er´ es ` a partir des jeux de donn´ ees imput´ es (CID1)

R´ ef´ erences

[1] G. Allen and Z. Liu. A log-linear graphical model for inferring genetic networks from high-throughput sequencing data. In Proceedings of IEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2012.

[2] A. Bar-Hen and J.M. Poggi. Influence measures and stability for graphical models. Journal of Multivariate Analysis, 147 :145–154, 2016.

[3] S.J. Cranmer and J. Gill. We have to be discrete about this : a non-parametric imputation technique for missing categorical data. British Journal of Political Science, 43 :425–449, 2012.

[4] M. Gallopin. Classification et inf´ erence de r´ eseaux pour les donn´ ees RNA-seq. Th` ese de doctorat, Universit´ e Paris-Sud, Paris, France, 2015.

[5] H. Liu, K. Roeber, and L. Wasserman. Stability approach to regularization selection (StARS) for high dimensional graphical models. In Proceedings of Neural Information Processing Systems (NIPS 2010), volume 23, pages 1432–1440, Vancouver, Canada, 2010.

[6] N. Verzelen. Minimax risks for sparse regressions : ultra-high-dimensional phenomenons. Electronic Journal of Statistics, 6 :38–90, 2012.

[7] V. Voillet, I. Gonz´ ales, L. Liaubet, P. Besse, and M. San Cristobal. Recovering missing individual

block information in a multiblock multiple factor analysis. In missData 2015, Rennes, France, 2015.

Références

Documents relatifs

F IGURE 8 – CHD - Erreurs de complétion sur un échantillon test par LOCF (noir), KNN (rouge) et missForest (vert) quand la quantité de valeurs man- quantes augmente, pour une

Si la plupart des méthodes de complétion privilégient les données quanti- tatives, certaines peuvent être utilisées pour imputer des données qualitatives voire hétérogènes (i.e.

Enfin, dans la section 4, nous pr´ esentons quelques r´ esultats pr´ eliminaires montrant l’influence des individus utilis´ es pour l’inf´ erence sur le r´ eseau lui- mˆ eme et

Une approche na¨ıve pour aborder cette question consiste ` a inf´ erer un r´ eseau diff´ erent dans chacune des conditions et ensuite de comparer les deux r´ eseaux mais cette

Probl` eme – Sur les fonctions continues p´ eriodiques, ou presque. Rappel : soit G un sous-groupe additif

Si le datagramme exp´edi´e comporte une somme de contrˆ ole, celle-ci est le compl´ement `a 1 de 16 bits du compl´ement `a 1 de la somme des bi-octets constituant le

Parmi les achats en produits ali- mentaires consommés à domicile, les dépenses des ménages les plus importantes sont en viandes (21 %) puis en fruits et légumes (15

L'effet d'une variable explicative sur la réponse y s'obtient en comparant les deux résultats de mesure y 1 et y 2 de réponse, mesurée lorsque la variable explicative