Estimation du niveau d’expression à partir de données RNA-seq

Dans le document Évolution et Développement d'un organe sériel - la molaire : Transcriptomique comparée des bourgeons de molaire chez les rongeurs (Page 85-89)

J’ai réalisé les alignements ainsi que les estimations des niveaux d’expression au Pôle Scien-tifique de Modélisation Numérique (PSMN,http://www.ens-lyon.fr/PSMN/doku.php?id=accueil: presentation).

J’ai utilisé une approche classique composée de l’aligneur bowtie2 [Langmead & Salzberg, 2012] (version 2.0.2) suivi du compteur de lectures htseq-count [Anders et al. , 2014] (version 0.5.3.p9 et python version 2.7), paramétré de façon à ce que ne soient pas pris en compte les lectures chevauchant 2 gènes (-m intersection-nonempty). J’ai aussi testé le pseudo-aligneur kallisto [Bray et al. , 2016] (version 0.43.0) Dans les deux cas, j’ai aligné les données sur le transcriptome de la souris (ensembl GRCm38 release 85 de Juillet 2016). J’ai ensuite effectué l’analyse statistique de ces données d’expression à l’aide du logiciel R (version 3.3.1 [R Core Team, 2016])et le paquet ggplot2 [Wickham, 2009] pour réaliser la majorité des graphiques.

J’ai pu observer que les deux méthodes donnaient le même signal de PCA, cependant ces mé-thodes diffèrent dans l’estimation des enrichissements des gènes différentiellement exprimés (obtenu par une analyse DESeq2 [Love et al. , 2014]). Cela tient certainement à l’estimation à la hausse des gènes faiblement exprimé dans l’analyse Kallisto, ce qui n’est pas prévu par les lois statistiques utilisées par le paquet DESeq2 [Love et al. , 2014] pour identifier les gènes différen-tiellement exprimés, causant ainsi un biais dans la normalisation des données et l’estimation des gènes DE. Comme représenté sur la figure 4.1, on voit que la pente de la droite de régression linéaire entre les niveaux d’expressions estimés par les deux méthodes est significativement inférieure à 1 et dont l’ordonnée à l’origine est égale à 0.31, ce qui traduit une estimation à la hausse des faibles comptes (gènes faiblement exprimés) ainsi qu’une estimation à la baisse des forts comptes (gènes fortement exprimés). Les développeurs de Kallisto conseillent d’utiliser le paquet Sleuth [Pimentel et al. , 2016] récemment développé. Dans un premier temps, pour des question d’historique et de maitrise du paquet, nous avons préféré continuer d’utiliser l’outil DESeq2.

FIGURE4.1 – Comptes Kallisto vs. HTSeq Comptes moyens normalisés avec DESeq2 pour le jeux de données bucco-lingual ayant été obtenus soit avec Kallisto (en ordonnée) soit avec htseq-count (en abscisse). La droite bleu représente la droite y=x, et la droite rouge est la régression linéaire entre les comptes obtenus pas kallisto et ceux obtenus par htseq-count de formule y = 0.95x + 0.31. (*** : , pvalue < 2.2e-16)

Chapitre 4. Analyse des données RNA-seq

Petite échelle temporelle

stade 15.5 portée A B C dent low up up up up up up up noms A B1 B2 B3 C1 C2 C3 poids(mg) 410 495 495 447 460 461 511 Total comptes 25.1 M 21.9 M 17.2 M 16.9 M 22.3 M 15.3 20.1 M 15.4 TABLE4.1 – Données réplicats biologiques RNA-seq de bourgeons dentaires de souris au stade ED15.5. (M= millions de lectures)

BL

stade 15.0

poids (mg) 352-359

dent low up

replicats rep1 (dent gauche) rep2 (dent droite) rep1 (dent gauche) rep2 (dent droite) côté buccal lingual buccal lingual buccal lingual buccal lingual

nom low1 B low1 L low2 B low2 L up1 B up1 L up2 B up2 L

taille lib 37.4 M 32.8 M 33.9 M 39.8 M 64.1 M 44.2 M 80.2 M 56.4 M Total comptes 27.3 M 24 .2 M 24.9 M 29.9 M 47.2 M 33.2 M 60.2 M 42.9 M

% Total comptes 73% 74% 73.5% 75% 74% 75% 75% 76%

TABLE4.2 – Librairies bucco-linguales de bourgeons de molaire de souris au stade ED15. (M= millions de lectures)

Tissus purs

stade 15.0

réplicat rep1 rep2

infos pool dent droite + gauche pool dent droite + gauche

poids (mg) 370 350

dent low up low up

tissu epi mes epi mes epi mes epi mes

taille lib 81.4 M 108 M 99.7 M 99.5 M 99.7 M 82.4 M 130.9 M 64.7 M Total comptes 62.3 M 83.1 M 76.4 M 76.3 73.7 M 60.5 M 93.8 47.3

% Total comptes 76.5% 77% 77% 77% 74% 73.5% 72% 73%

TABLE4.3 – Librairies tissus purs. (M= millions de lectures)

4.3.1 Comparaison des niveaux d’expression entre espèces

Cette méthodologie se rapport au chapitre 9.

Une des difficultés de comparer les niveaux d’expressions entre plusieurs espèces est l’obtention de données d’expression qui soient comparables. Cette difficulté est d’autant plus grande quand on travaille à la fois avec des espèces qui disposent d’un génome bien annoté, comme la souris, et des espèces non-modèles qui n’ont pas de génome, comme le hamster doré, la gerbille et la souris épineuse. Ceci va biaiser l’estimation de l’abondance des transcrits de chaque espèce et ainsi biaiser la comparaison des niveaux d’expression entre ces espèces. Pendant mon master et au tout début de ma thèse, j’ai donc réaliser des études préliminaires afin de tester deux approches : (i) l’alignement direct ( direct mapping) sur génome de référence et (ii) l’assemblage de novo d’un transcriptome. Ces tests par approches classiques ont permis de mettre en évidences les problèmes rencontrés par ces deux méthodes et sont à la base des réflexions ayant conduit au développement d’une méthode “maison” développée par Carine Rey, une étudiante en thèse de l’équipe dont le principe est présenté dans l’introduction du chapitre 9. C’est cette méthoque qui a été utilisée pour comparer les niveaux d’expression entre les données de souris et de hamster (chapitre 9.

4.3.1.1 Alignement des lectures sur un génome de référence

J’ai testé l’aligneur TopHat [Trapnell et al. , 2009] (version 1.4.0) sur le génome de la souris (NCBIM37) pour deux échantillons de souris (Mus musculus). Cependant, le hamster doré (Mesocricetus auratus) ne possédait pas de génome de référence (son génome a été publié en 2014 mais la qualité des contigs et de l’annotation n’est pas satisfaisante Tchitchek et al. [2014]), j’ai donc utilisé le génome de cellules ovariennes de hamster chinois (CHO, Cricetulus griseus) [Hammond et al. , 2011] pour effectuer l’alignement de deux échantillons de hamster. J’ai ensuite utilisé htseq-count [Anders et al. , 2014] pour estimer les niveaux d’expression des transcrits. Puis j’ai comparé les niveaux d’expression entre le hamster et la souris obtenu par cette analyse.

4.3.1.2 Assemblage de novo de transcriptomes avec Trinity

En parallèle, j’ai testé un assemblage de transcriptome de novo sur des échantillons de souris et de hamster doré. J’ai utilisé Trinity [Grabherr et al. , 2011; Haas et al. , 2013] (version 4.2.1) pour assembler de novo les transcriptomes couplé à RSEM [Li & Dewey, 2011] pour estimer l’abon-dance des transcrits. J’ai ensuite annoté les contigs reconstruits en effectuant un BLAST entre ces contigs et le génome de la souris (NCBIM37) et en ne gardant que les meilleurs alignements (approche reciprocal best hit). Enfin j’ai comparé les niveaux d’expressions entre le hamster et la souris.

Chapitre 4. Analyse des données RNA-seq

4.3.1.3 Comparaison des deux méthodes et stratégie adoptée

L’hypothèse est que de façon générale les niveaux d’expression dans les molaires de souris et de hamster doivent être corrélés, à l’exception d’un petit nombre de gènes qui présentent une expression différente entre les deux espèces et qui seraient responsable des caractéristiques spécifiques de chacune des molaires dans les deux espèces. Ainsi, nous avons émis l’hypothèse que la méthode qui donnerait la meilleure corrélation entre les niveaux d’expression du hamster et de la souris serait la méthode la plus approprié pour estimer des niveaux d’expressions les plus comparables possibles entre les deux espèces. La comparaison entre l’alignement direct et l’assemblage de novo) montrent que l’on a une meilleurs corrélation entre les niveaux d’expres-sion de souris et de hamster obtenus par assemblage de novo. La comparaison entre les niveaux d’expression obtenus sur le transcriptome de novo de la souris et sur l’alignement directe sur le génome de la souris permet d’évaluer les biais introduit par l’assemblage de novo d’un transcrip-tome. Ainsi, nous avons noté que l’approche par assemblage de novo n’est pas satisfaisante car on reconstruit un nombre important de contigs, dont certains sont des chimères de deux transcrits et il est fastidieux d’identifier ces transcrit chimères. Enfin, le plus gros point faible de cette approche de novo est l’annotation des contigs reconstruits, à cause notamment des duplications et des pertes. C’est pourquoi, une méthode spécifique a été développé au laboratoire afin de pallier à ces problèmes. C’est une méthode qui permet de reconstruire de novo de transcrits en se basant sur un transcrit de référence et qui utilise les informations phylogénétiques pour identifier précisément les transcrits dans l’ensemble des espèces traités (voir chapitre 9 et figure 9.1 p. 111).

4.4 Analyses multivariées

Dans le document Évolution et Développement d'un organe sériel - la molaire : Transcriptomique comparée des bourgeons de molaire chez les rongeurs (Page 85-89)