• Aucun résultat trouvé

Conclusion et perspectives

Dans le document TH `ESE TH `ESE (Page 151-167)

Cette th`ese regroupe des contributions m´ethodologiques utiles `a l’analyse de donn´ees transcriptomiques, en particulier des donn´ees d’expression discr`etes obtenues via des m´ethodes de s´equenc¸age `a haut d´ebit (RNA-Seq et QuantSeq). Nous avons concentr´e notre attention sur la gestion des donn´ees manquantes, l’inf´erence de r´eseau et l’analyse int´egrative de donn´ees de diff´erents types (donn´ees cliniques et donn´ees transcriptomiques).

Le probl`eme des donn´ees manquantes est intimement li´e `a l’analyse statistique, au fait de collecter et pr´eparer les donn´ees pour l’analyse statistique. Dans un premier temps, nous avons donc ´ecrit une revue qui offre une vue d’ensemble des grandes familles de m´ethodes pouvant g´erer les donn´ees manquantes ainsi que des recommandations d’utilisation de ces m´ethodes. Nous avons renseign´e les solutions logicielles disponibles, notamment en pr´ecisant les packagesRo`u sont impl´ement´es les m´ethodes d´ecrites. Cette liste n’est ´evidemment pas exhaustive mais fournit un panorama r´ealiste des solutions actuellement disponibles.

Cependant, choisir la m´ethode ad´equate pour faire face `a la probl´ematique rencontr´ee et/ou aux types de donn´ees manquantes peut s’av´erer difficile. Il est donc important de poursuivre la recherche dans ce domaine afin de proposer des m´ethodes adapt´ees aux diff´erentes probl´ematiques et aux donn´ees manquantes (en fonction du type des donn´ees, de leur typologie, du type de m´ecanisme qui a men´e `a leur pr´esence, etc.).

Dans un second temps, nous nous sommes int´eress´ees `a l’inf´erence de r´eseau `a partir de donn´ees RNA-Seq pour des donn´ees longitudinales. La technologie RNA-Seq ´etant relati-vement coˆuteuse, le nombre d’´echantillons reste tr`es faible compar´e au nombre de variables (g`enes). L’inf´erence de r´eseau reste donc irr´ealisable pour la plupart des exp´erimentations RNA-Seq. Nous avons donc propos´e une m´ethode d’imputation permettant d’obtenir des r´eseaux de g`enes plus robustes `a partir de donn´ees d’expression RNA-Seq. Cette approche permet d’augmenter artificiellement le nombre d’individus en utilisant de l’information externe mesur´ee en mˆeme temps que les donn´ees RNA-Seq. Elle s’av`ere tr`es utile pour augmenter le nombre d’individus commun entre deux pas de temps afin de comparer les r´eseaux de g`enes obtenus `a chaque pas de temps.

Cependant, le mod`ele graphique log-lin´eaire de Poisson pr´esente des inconv´enients.

En effet, [26] a montr´e que les mod`eles graphiques de Poisson ne peuvent que capturer les d´ependances n´egatives pour assurer la coh´erence de la distribution jointe. Le mod`ele graphique [6] utilis´e est un mod`ele local et ne permet pas d’avoir un mod`ele graphique joint coh´erent global. De nouveaux mod`eles graphiques ont r´ecemment ´et´e d´evelopp´es. La plupart de ces mod`eles sont bas´es sur un mod`ele log-normal de Poisson [51, 49]. Une perspective d’am´elioration de notre m´ethode serait de remplacer le mod`ele graphique log-lin´eaire de Poisson par une de ces approches.

151

La m´ethode hd-MI a ´et´e mise au point pour des donn´ees d’expression discr`etes. Il est n´eanmoins facile de l’adapter pour des donn´ees continues en utilisant par exemple des mod`eles graphiques gaussiens au lieu de mod`eles graphiques bas´es sur des distributions de Poisson. Une autre perspective serait d’utiliser l’imputation multiple hot-deck pour d’autres probl´ematiques o`u le nombre d’observations est faible et o`u des donn´ees auxiliaires sont disponibles. Selon la probl´ematique rencontr´ee, il faudra changer les derni`eres ´etapes de l’imputation multiple, c’est-a-dire la m´ethode statistique pour analyser chaque jeu imput´e et la fac¸on de combiner les r´esultats. A titre d’exemple, [226] utilisent une autre version de l’imputation multiple hot-deck (hot-deck par classes) afin d’effectuer des analyses factorielles multiples (AFM). Pour combiner les r´esultats en une configuration compromis, ils utilisent STATIS.

Dans la derni`ere partie, nous avons commenc´e par analyser des donn´ees d’expression discr`etes mesur´ees avec une nouvelle technique de s´equenc¸age `a haut d´ebit, le QuantSeq.

Cette technologie a l’avantage d’ˆetre moins on´ereuse que la technique RNA-Seq permettant d’augmenter le nombre d’´echantillons s´equenc´es. Elle est ´egalement plus rapide et est plus tol´erante `a la mauvaise qualit´e de l’ARN. Cette m´ethode a donc de fortes chances d’ˆetre de plus en plus utilis´ee dans les ann´ees `a venir pour la recherche de g`enes diff´erentiellement exprim´es. Comme les donn´ees RNA-Seq, ces donn´ees sont des donn´ees de comptage surdis-pers´ees. Il semble donc logique d’utiliser les mod`eles d´evelopp´ees dans le cadre de l’analyse des donn´ees RNA-Seq.

Nous avons ensuite cherch´e `a ´etudier les interactions entre diff´erents ensembles de donn´ees et voir leur ´evolution au cours des diff´erentes phases du protocole DiOGenes. Nous avons donc propos´e une m´ethode int´egrative. Pour cela, nous avons utilis´e deux types de donn´ees (les donn´ees transcriptomiques mesur´ees par QuantSeq et des donn´ees bio-cliniques) afin d’´etudier le syst`eme biologique dans son ensemble. Afin de faciliter l’analyse globale du syst`eme, nous avons choisi une approche bas´ee sur des mod`eles graphiques, permettant une visualisation de l’ensemble des relations sous la forme d’un r´eseau. Pour r´esoudre le probl`eme de l’intensit´e des liens entre diff´erents types de donn´ees, nous ajustons des mod`eles mixtes pour estimer les relations entre diff´erents types de variables. Un avantage de cette approche est de pouvoir ajuster le mod`ele avec des variables apportant de la variabilit´e entre les individus.

N´eanmoins, cette approche pr´esente des limites : seuls les individus appari´es ont ´et´e utilis´es, r´eduisant de fac¸on cons´equente le nombre d’observations pour l’inf´erence de r´eseau.

Il pourrait ˆetre int´eressant ici d’utiliser l’imputation multiple hot-deck afin d’augmenter le nombre d’individus en commun entre les diff´erents pas de temps. Une autre voie aurait ´et´e d’utiliser un mod`ele graphique joint pour explicitement mod´eliser la ressemblance entre les diff´erents pas de temps, pour prendre en compte l’appariemment de certains individus et pour inclure de mani`ere explicite l’information sur les individus manquants `a certains pas de temps. Des approches de ce type ont d´ej`a ´et´e propos´ees dans le cas gaussien [95, 47, 62, 223, 237]. En effet, g´en´eralement, les donn´ees d’expression sont collect´ees dans diverses conditions exp´erimentales et les r´eseaux obtenus pour chaque condition sont suppos´es partager des caract´eristiques communes et d’autres diff´erentes. Le principe est donc d’utiliser l’ensemble des observations disponibles pour inf´erer un r´eseau dans chaque condition en utilisant un mod`ele graphique joint pour mod´eliser explicitement la ressemblance entre les r´eseaux. Il serait donc int´eressant de pouvoir adapter ces mod`eles pour tenir compte de l’appariemment et des donn´ees manquantes, d’une part, et pour l’utilisation avec des

donn´ees d’expression discr`etes en proposant des mod`eles graphiques joints bas´es sur des distributions de Poisson.

Deux ensembles de variables ont ´et´e utilis´es dans l’analyse int´egrative. Il pourrait ˆetre int´eressant de voir comment construire le mod`ele en pr´esence de trois types de donn´ees, notamment pour s´electionner les arˆetes dans la derni`ere ´etape afin de ne pas obtenir des r´eseaux trop denses. [152] ont propos´e une approche int´egrative bas´ee sur de l’inf´erence de r´eseau afin d’´etudier les relations entre trois types de donn´ees (donn´ees d’expression, donn´ees de lipidomique et variables bio-cliniques). Les relations entre les variables issues de deux ensembles de donn´ees diff´erents sont ´etablies `a l’aide d’analyses canoniques r´egularis´ees. Une approche int´egrative est ensuite utilis´ee pour fusionner les diff´erents types de relations au sein d’un mˆeme r´eseau. Cette approche ne permet pas d’ajuster le mod`ele en fonction de variables connues pour apporter de la variabilit´e entre les individus (par exemple le sexe). Ils ont donc opt´e pour appliquer la m´ethode sur des sous-´echantillons (groupes constitu´es uniquement de femmes). Comme pour notre m´ethode, cela restreint

´

enorm´ement le nombre d’observations utilis´ees dans l’inf´erence.

Enfin, les donn´ees DiOgenes sont riches et encore incompl`etement exploit´ees. En particulier, ce protocole est peut-ˆetre l’unique protocole existant dans lequel il existe des donn´ees d’expression obtenues sur un grand nombre d’individus avec quatre technologies diff´erentes (RT-qPCR, puces `a ADN, RNA-Seq, QuantSeq). Il serait donc int´eressant d’´etudier l’impact de la technologie sur l’analyse diff´erentielle et l’inf´erence de r´eseau. Une perspective de cette analyse comparative pourrait ˆetre l’utilisation de ces donn´ees pour comparer les diff´erents mod`eles graphiques sur la base d’un crit`ere de qualit´e qui serait la coh´erence entre les r´eseaux inf´er´es sur chacun des types de donn´ees.

153

Bibliographie

[1]K. ABAYOMI, A. GELMANet M. LEVY. “Diagnostics for multivariate imputations”. In :Journal of the Royal Statistical Society, Series C (Applied Statistics)57.3 (2008), p. 273–291 (cf. p. 95).

[2]J. AITCHISONet C. H. HO. “The multivariate Poisson-log normal distribution”. In :Biometrika 76.4 (1989), p. 643–653 (cf. p. 50).

[3]H. AKAIKE. “Information theory and an extension of the maximum likelihood principle”. In : Second International Symposium on Information Theory. Sous la dir. de B N PETROVet F CSAKI. Budapest : Akad´emiai Kiado, 1973, p. 267–281 (cf. p. 51).

[4]P.S. ALBERTet D.A. FOLLMANN. “Modeling repeated count data subject to informative dropout”.

In :Biometrics56.3 (2000), p. 667–677 (cf. p. 105).

[5]K.G. ALBERTI, R.H. ECKELet S.M. GRUNDY. “Harmonizing the metabolic syndrome : a joint interim statement of the International Diabetes Federation Task Force on Epidemiology and Prevention National Heart, Lung, and Blood Institute”. In :Circulation120.16 (2009), p. 1640–

1645 (cf. p. 30).

[6]G. ALLENet Z. LIU. “A log-linear graphical model for inferring genetic networks from high-throughput sequencing data”. In :Proceedings of IEEE International Conference on Bioinformatics and Biomedicine (BIBM). 2012 (cf. p. 38, 49, 50, 57, 113, 117, 151).

[7]P.D. ALLISON.Missing Data. Quantitative Applications in the Social Sciences. Thousand Oaks, CA, USA : Sage Publications, 2001 (cf. p. 63, 73).

[8]D. ALLOUCHE, C. CIERCO-AYROLLES, S. de GIVRYet al. “A panel of learning methods for the reconstruction of gene regulatory networks in a systems genetics context”. In :Verification of Methods for Gene Network Inference from Systems Genetics Data. Sous la dir. d’A. de la FUENTE. Springer, 2013 (cf. p. 117).

[9]C. AMBROISE, J. CHIQUETet C. MATIAS. “Inferring sparse gaussian graphical models with latent structure”. In :Electronic Journal of Statistics3.21 (2009), p. 205–238 (cf. p. 48).

[10]S ANDERSet W HUBER. “Differential expression analysis for sequence count data”. In :Genome Biology11.10 (2010), R106 (cf. p. 34, 36, 41).

[11]R. ANDRIDGEet R.J.A. LITTLE. “A review of hot deck imputation for survey non-response”. In : International Statistical Review78.1 (2010), p. 40–64 (cf. p. 84, 86, 115).

[12]C. ARMENISE, G. LEFEBVRE, J. CARAYOLet al. “Transcriptome profiling from adipose tissue during a low-calorie diet reveals predictors of weight and glycemic outcomes in obese, nondiabetic subjects”. In :The American Journal of Clinical Nutrition106.3 (2017), p. 736–746 (cf. p. 129).

[13]V. AUDIGIER, F. HUSSONet J. JOSSE. “A principal component method to impute missing values for mixed data”. In :Advances in Data Analysis and Classification10.1 (2016), p. 5–26 (cf. p. 92).

[14]V. AUDIGIER, F. HUSSONet J. JOSSE. “MIMCA : multiple imputation for categorical variables with multiple correspondence analysis”. In :Statistics and Computing27.2 (2016), p. 1–18. arXiv : 1505.08116(cf. p. 92, 99).

[15]V. AUDIGIER, F. HUSSONet J. JOSSE. “Multiple imputation for continuous variables using a Bayesian principal component analysis”. In :Journal of Statistical Computation and Simulation 86.11 (2015), p. 2140–2156 (cf. p. 92, 99).

[16]P. L. AUERet R. W. DOERGE. “A two-stage poisson model for testing RNA-Seq data”. In :Statistical Applications in Genetics and Molecular Biology10.1 (2011), p. 1–26 (cf. p. 34).

155

[17]S. BALLOUZ, W. VERLEYENet J. GILLIS. “Guidance for RNA-seq co-expression network construc-tion and analysis : safety in numbers”. In :Bioinformatics31.13 (2015), p. 2123–2130 (cf.

p. 117).

[18]O. BANERJEE, L. ELGHAOUIet A.D’ASPREMONT. “Model selection through sparse maximum likelihood estimation for multivariate gaussian or binary data”. In :Journal of Machine Learning Resaearch9 (2008), p. 485–516 (cf. p. 48).

[19]A. BAR-HENet J.M. POGGI. “Influence measures and stability for graphical models”. In :Journal of Multivariate Analysis147 (2016), p. 145–154 (cf. p. 58, 114).

[20]A.N. BARALDIet C.K. ENDERS. “An introduction to modern missing data analysis”. In :Journal of School Psychology48.1 (2010), p. 5–37 (cf. p. 63).

[21]L. BARETTAet A. SANTANIELLO. “Nearest neighbor imputation algorithms : a critical evaluation”.

In :BMC Medical Informatics and Decision Making. Proceedings of the 5th Translational Bioinfor-matics Conference (TBC 2015) : medical inforBioinfor-matics and decision making 16.Supp. 3 (2016), p. 74 (cf. p. 83, 86).

[22]V. BARQUISSAU, D. BEUZELIN, D.F. PISANIet al. “White-to-brite conversion in human adipocytes promotes metabolic reprogramming towards fatty acid anabolic and catabolic pathways”. In : Molecular Metabolism5.5 (2016), p. 352–365 (cf. p. 119).

[23]T. M. BEASLEY, S. ERICKSONet D. B. ALLISON. “Rank-based inverse normal transformations are increasingly used, but are they merited ?” In :Behavior Genetics39.5 (2009), p. 580 (cf. p. 36).

[24]Y. BENJAMINIet Y. HOCHBERG. “Controlling the false discovery rate : a practical and powerful approach to multiple testing”. In :Journal of the Royal Statistical Society Series B57.1 (1995), p. 289–300. arXiv :95/57289 [0035-9246](cf. p. 45, 137–139).

[25]M. BERSANELLI, E. MOSCA, D. REMONDINIet al. “Methods for the integration of multi-omics data : mathematical aspects”. In :BMC Bioinformatics17.2 (2016) (cf. p. 134).

[26]J. BESAG. “Spatial Interaction and the Statistical Analysis of Lattice Systems Spatial Interaction and the Statistical Analysis of Lattice Systems”. In :Journal of the Royal Statistical Society. Series B (Methodological)36.2 (1974), p. 192–236 (cf. p. 49, 151).

[27]G. BLOM.Statistical estimates and transformed beta-variables. Sous la dir. de New YORK. Wiley, 1958 (cf. p. 36).

[28]G.E.P. BOXet D. COX. “An analysis of transformations”. In :Journal of the Royal Statistical Society Series B26.2 (1964), p. 211–252 (cf. p. 35).

[29]S. BOYD, N. PARIKH, E. CHU, B. PELEATOet J. ECKSTEIN. “Distributed optimization and statistical learning via the alternating direction method of multipliers”. In :Foundations and Trends in Machine Learning3.1 (jan. 2011), p. 1–122 (cf. p. 50).

[30]L. BREIMAN. “Bagging predictors”. In :Machine Learning24.2 (1996), p. 123–140 (cf. p. 52).

[31]L. BREIMAN. “Random Forests”. In :Machine Learning45.1 (2001), p. 5–32 (cf. p. 87).

[32]L. BREIMAN, J. FRIEDMAN, R. OLSENet C. STONE.Classification and Regression Trees. Boca Raton, Florida, USA : Chapman et Hall, 1984 (cf. p. 73–75, 87).

[33]J. H. BULLARD, E. PURDOM, K. D. HANSENet S. DUDOIT. “Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments”. In :BMC Bioinformatics 11.1 (2010), p. 94 (cf. p. 40).

[34]R.M. BURNS. “Multiple and replicate item imputation in a complex sample survey”. In : Procee-dings of the 6th Annual Research Conference. Sous la dir. de Bureau of the CENSUS. Washington DC, USA, 1990, p. 655–665 (cf. p. 99).

[35]A. BUTTEet I. KOHANE. “Mutual information relevance networks : functional genomic clustering using pairwise entropy measurements”. In :Proceedings of the Pacific Symposium on Biocomputing.

T. 426. 2000, p. 418–429 (cf. p. 45).

[36]A. J. BUTTEet I. S. KOHANE. “Unsupervised knowledge discovery in medical databases using relevance networks.” In :Proceedings of the AMIA Symposium. 1999, p. 711–715 (cf. p. 45).

[37]S. van BUUREN.Flexible Imputation of Missing Data. Leiden, The Netherlands : Chapman et Hall/CRC, 2012 (cf. p. 63, 71, 74).

[38]S. van BUUREN. “Multiple imputation of discrete and continuous data by fully conditional specification”. In :Statistical Methods in Medical Research16 (2007), p. 219–242 (cf. p. 88).

[39]S. van BUURENet K. GROOTHUIS-OUDSHOORN. “MICE : multivariate imputation by chained equations in R”. In :Journal of Statistical Software45 (2011), p. 3. arXiv :NIHMS150003(cf. p. 88, 99, 109).

[40]E.J. CAND`ES, C.A. SING-LONGet J.D. TRZASKO. “Unbiased risk estimates for singular value thresholding and spectral estimators”. In :IEEE Transactions on Signal Processing61.19 (2013), p. 4643–4657 (cf. p. 91).

[41]Y. CAO, X. JIANG, H. MAet al. “SIRT1 and insulin resistance”. In :Journal of Diabetes and its Complications30.1 (2016), p. 178–183 (cf. p. 129).

[42]J. CARPENTERet M. KENWARD.Multiple Imputation and its Application. Wiley, 2013 (cf. p. 63).

[43]H. CAUSSINUS. “Models and uses of principal component analysis (with discussion)”. In : Multi-dimensional Data Analysis. Proceedings of a Workshop, Pembroke College, Cambridge University, England. Sous la dir. de J. de LEEUW, W.J. HEISER, J.J. MEULMANet F. CRITCHLEY. Leiden, The Netherlands : DSWO Press, 1986, p. 149–178 (cf. p. 91).

[44]J. CHENet Z. CHEN. “Extended Bayesian information criteria for model selection with large model spaces”. In :Biometrika95.3 (2008), p. 759–771 (cf. p. 52).

[45]J. CHENet J. SHAO. “Nearest neighbor imputation for survey data”. In :Journal of Official Statistics16.2 (2000), p. 113–131 (cf. p. 83).

[46]D. CHESSEL, A.B. DUFOURet J. THIOULOUSE. “The ade4 package – I : one-table methods”. In :R News4.1 (2004), p. 5–10 (cf. p. 92, 109).

[47]J. CHIQUET, Y. GRANDVALET et C. AMBROISE. “Inferring multiple graphical structures”. In : Statistics and Computing21.4 (2011), p. 537–553. arXiv :0912.4434(cf. p. 152).

[48]J. CHIQUET, M. MARIADASSOUet S. ROBIN. “Variational inference for probabilistic Poisson PCA”.

In :The Annals of Applied Statistics11.2 (2017), p. 655–679. arXiv :1703.06633(cf. p. 50).

[49]J. CHIQUET, M. MARIADASSOUSet S. ROBIN. “Variational inference for sparse network recons-truction from count data”. submitted to JCGS. 2018 (cf. p. 50, 51, 151).

[50]H. CHOI, J. GIM, S. WONet al. “Network analysis for count data with excess zeros”. In :BMC Genetics18.1 (2017) (cf. p. 50).

[51]Y. CHOI, M. CORAM, J. PENGet H. TANG. “A Poisson log-normal model for constructing gene covariation network using RNA-seq data”. In :Journal of Computational Biology24.7 (2017), p. 721–731 (cf. p. 50, 151).

[52]W.S. CLEVELANDet S.J. DEVLIN. “Locally weighted regression : an approach to regression analysis by local fitting”. In :Journal of the American Statistical Association83.403 (1988), p. 596–610 (cf. p. 87).

[53]N. CLOONANet S. M. GRIMMOND. “Transcriptome content and dynamics at single-nucleotide resolution”. In :Genome Biology9.9 (2008), p. 234 (cf. p. 26).

[54]J. COHEN, P. COHEN, S.G. WESTet L.S. AIKEN.Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. 2nd. Mahwah, NJ, USA : Lawrence Erlbaum Associates, 1985 (cf. p. 75).

Bibliographie 157

[55]Linda M. COLLINS, Joseph L. SCHAFER et Karn CHI-MING. “A comparison of inclusive and restrictive strategies in modern missing data procedures”. In :Psychological Methods6.4 (2007), p. 330–351 (cf. p. 102).

[56]D. COOKet D.F. SWAYNE.Interactive and Dynamic Graphics for Data Analysis. Use R ! New York, NY, USA : Springer-Verlag, 2007 (cf. p. 67).

[57]J. COSTA-SILVA, D. DOMINGUESet F.M. LOPES. “RNA-Seq differential expression analysis : an extended review and a software tool”. In :PLOS ONE12.12 (d´ec. 2017), p. 1–18 (cf. p. 44).

[58]S.J. CRANMERet J. GILL. “We have to be discrete about this : a non-parametric imputation technique for missing categorical data”. In :British Journal of Political Science43 (2012), p. 425–

449 (cf. p. 84–86, 99, 101, 109, 117, 126).

[59]P. CRAVENet G. WAHBA. “Smoothing noisy data with spline functions - Estimating the correct degree of smoothing by the method of generalized cross-validation”. In :Numerische Mathematik 31.4 (1978), p. 377–403 (cf. p. 51).

[60]N.L. CROOKSTONet A.O. FINLEY. “yaImpute : an R package for kNN imputation”. In :Journal of Statistical Software23 (2008), p. 10 (cf. p. 83, 97, 109, 126).

[61]G. CSARDI et T. NEPUSZ. “The igraph software package for complex network research”. In : InterJournalComplex Systems (2006) (cf. p. 145).

[62]P. DANAHER, P. WANG et D. M. WITTEN. “The joint graphical lasso for inverse covariance estimation across multiple classes”. In :Journal of the Royal Statistical Society. Series B : Statistical Methodology76.2 (2012), p. 373–397. arXiv :1111.0324(cf. p. 152).

[63]L. DANON, A. DIAZ-GUILERA, J. DUCHet A. ARENAS. “Comparing community structure identifica-tion”. In :Journal of Statistical Mechanics2005 (2005), P09008 (cf. p. 127).

[64]A. P. DEMPSTER. “Covariance Selection”. In :Biometrics28.1 (1972), p. 157–175 (cf. p. 47).

[65]A.P. DEMPSTER, N.M. LAIRDet D.B. RUBIN. “Maximum likelihood from incomplete data via the EM algorithm”. In :Journal of the Royal Statistical Society, Series B (Methodological)39.1 (1977), p. 1–38 (cf. p. 76, 77).

[66]P. DIGGLEet M.G. KENWARD. “Informative drop-out in longitudinal data analysis”. In :Journal of the Royal Statistical Society, Series C (Applied Statistics)43.1 (1994), p. 49–93 (cf. p. 103).

[67]M. A. DILLIES, A. RAU, J. AUBERTet al. “A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis”. In :Briefings in Bioinformatics14.6 (2013), p. 671–683 (cf. p. 41, 42).

[68]Y. DINGet J.S. SIMONOFF. “An investigation of missing data methods for classification trees applied to binary response data”. In :Journal of Machine Learning Research11 (2010), p. 131–

170 (cf. p. 75).

[69]Yiran DONGet Chao-Ying Joanne PENG. “Principled missing data methods for researchers”. In : SpringerPlus2 (2013), p. 222 (cf. p. 102).

[70]B. DUBERNet K. CL´EMENT. “Genetic aspects of obesity”. In :Presse M´edicale 36.11 (2007), p. 1598–1605 (cf. p. 31).

[71]D. EDWARDS.Introduction to Graphical Modelling. Springer, New York, 2000 (cf. p. 45).

[72]C.K. ENDERS. “A primer on maximum likelihood algorithms available for use with missing data”.

In :Structural Equation Modeling8.1 (2001), p. 128–141 (cf. p. 77).

[73]C.K. ENDERS.Applied Missing Data Analysis. Guilford Press, 2010, p. 401 (cf. p. 86, 115).

[74]B. ESCOFIER et J. PAG`ES. “Multiple factor analysis (AFMULT package)”. In :Computational Statistics and Data Analysis18.1 (1994), p. 121–140 (cf. p. 100).

[75]Y. ESCOUFIER. “Le traitement des variables vectorielles”. In :Biometrics29.4 (1973), p. 751–760 (cf. p. 89).

[76]R.E. FAY. “Alternative paradigms for the analysis of imputed survey data”. In :Journal of the American Statistical Association91.434 (1996), p. 490–498 (cf. p. 86).

[77]I.P. FELLEGIet D. HOLT. “A systematic approach to automatic edit and imputation”. In :Journal of the American Statistical Association71.353 (1976), p. 17–35 (cf. p. 93, 106).

[78]Ch. FENG, H. WANG, N. LUet al. “Log-transformation and its implications for data analysis.” In : Shanghai archives of psychiatry26.2 (2014), p. 105–109 (cf. p. 35).

[79]Pier Alda FERRARI, Paola ANNONI, Alessandro BARBIEROet Giancario MANZI. “An imputation method for categorical variables with application to nonlinear principal component analysis”.

In :Computational Statistics & Data Analysis55.7 (2011), p. 2410–2420 (cf. p. 93, 109).

[80]G. FILHOULAUD, S. GUILMEAN, R. DENTIN, J. GIRARDet C. POSTIC. “Novel insights into ChREBP regulation and function”. In :Trends in Endocrinology and Metabolism24.5 (2013), p. 257–268 (cf. p. 129).

[81]C. FINKBEINER. “Estimation for the multiple factor model when data are missing”. In : Psychome-trika44.4 (1979), p. 409–420 (cf. p. 77).

[82]D. FOLLMANNet M. WU. “An approximate generalized linear model with random effects for informative missing data”. In :Biometrics51.1 (1995), p. 151–168 (cf. p. 105).

[83]R. FOYGELet M. DRTON. “Extended bayesian information criteria for Gaussian graphical models”.

In :Advances in Neural Information Processing Systems 23. Sous la dir. de J D LAFFERTY, C K I WILLIAMS, J SHAWE-TAYLOR, R S ZEMELet A CULOTTA. Curran Associates, Inc., 2010, p. 604–612 (cf. p. 52).

[84]J. FRIEDMAN. “A recursive partitioning decision rule for nonparametric classification”. In :IEEE Transactions on ComputersC-26.4 (1977), p. 404–408 (cf. p. 73).

[85]J. FRIEDMAN, T. HASTIE et R. TIBSHIRANI. “Sparse inverse covariance estimation with the graphical lasso”. In :Biostatistics9.3 (2008), p. 432–441 (cf. p. 48, 51, 138).

[86]A.M. GADet N.M.M. DARWISH. “A shared parameter model for longitudinal data with missing values”. In :American Journal of Applied Mathematics and Statistics1.2 (2013), p. 30–35 (cf.

p. 105).

[87]M. GALLOPIN, A. RAUet F. JAFFR´EZIC. “A hierarchical Poisson log-normal model for network inference from RNA sequencing data”. In :PLoS ONE8.10 (2013) (cf. p. 50, 51, 113).

[88]M. GALLOPIN, A. RAU, G. CELEUXet F. JAFFR´EZIC. “Transformation des donn´ees et comparaison de mod`eles pour la classification des donn´ees RNA-seq”. In :47`emes Journ´ees de Statistique de la SFdS. Lille, France, juin 2015 (cf. p. 37, 39).

[89]A. GELMANet J. HILL.Data Analysis Using Regression and Multilevel/Hierachical Models. New

[89]A. GELMANet J. HILL.Data Analysis Using Regression and Multilevel/Hierachical Models. New

Dans le document TH `ESE TH `ESE (Page 151-167)