• Aucun résultat trouvé

Notre laboratoire a généré 364 expériences RNA-seq chez la poule à partir de différentes lignées de poules (lignées expérimentales INRA de poulets de chair et de poules pondeuses ; lignées commerciales de poules pondeuses) élevées sous différentes conditions (régimes et températures variables). Les transcriptomes concernaient trois tissus (foie, tissu adipeux et sang) et étaient composés chacun de 80M à 110M de lectures pairées et orientés de 150pb pour la majorité des échantillons. Ces données RNA-seq au format .FASTQ sont accessibles sur SRA et ENA sous les identifiants de projet PRJNA330615 et PRJEB28745. L’ensemble de ces lectures ont été alignées sur le génome de référence de la poule (Galgal5) avec l’aligneur STAR v.2.5.2b [182], recommandé par le projet ENCODE et qui semble faire consensus dans la communauté scientifique, générant ainsi 364 fichiers .BAM, un par échantillon. L’annotation d’Ensembl v.86.5 a été utilisée comme guide pour l’alignement. Il s’agissait donc d’enrichir cette annotation avec d’autres gènes et transcrits modélisés à partir des 364 RNA-seq générés dans l’équipe. A noter que l’annotation Ensembl était composé de 38117 transcripts pour 24481 gènes (18346 gènes codant des protéines, 4643 gènes à ARNlnc et 1892 autres gènes). Le défi de notre étude de modélisation est dû à l’ampleur du jeu de données, la plupart des articles ne modélisant des gènes qu’à partir de quelques échantillons comme cela a été fait dans le projet Fr-AgENCODE [24]. A noter cependant que l’annotation de référence d’Ensembl a été obtenue avec 169 RNAseq issus de 21 tissus de 9 poulets et composés chacun d’environ 15M de lectures pairées et orientées de 100pb (PRJEB12891) et de longues séquences Isoseq PacBio (PRJEB13246 – 211289 séquences de 1kb & 2 kb & PRJEB13248 - 12928 séquences de 0.8 & 2kb) ; toutes ces séquences ayant été fournies par le Roslin Institute.

128 3.1.1 – Présentation des deux stratégies de modélisation

La modélisation des gènes a été faite par Cufflinks v.2.2.1 [183] selon deux stratégies que nous avons comparées ; chacune d’elles a des éléments positifs et négatifs qui seront discutés ici. Cufflinks est un outil permettant la modélisation des gènes ab initio ou de novo (i.e. avec ou sans annotation de gènes) ; il est utilisé par le projet ENCODE [190] et fait également consensus dans la communauté scientifique. Il est particulièrement conseillé par rapport à d’autres outils [191] dans les deux cas suivants : 1/ données RNA-seq pairées, car il utilise la taille des inserts dans les prédictions de gènes ; 2/ annotations incomplètes, car dans ces situations il reste le meilleur modélisateur. Selon Ruolin Liu, la performance de modélisation est optimale à des profondeurs de 60 lectures [191]. La stratégie n°1 (Figure 24B), que l’on appellera Stratégie Par Tissu (SPT) consiste à modéliser les transcrits et les gènes à partir d’un pool de données RNA-seq tissulaire. La SPT est basée sur le fait que le cumul de données de séquençage d’un même tissu permet d’obtenir une meilleure profondeur (i.e. un plus grand nombre de lectures) au niveau des loci exprimés et donc une meilleure modélisation des entités géniques. Les ARNlnc étant 10 fois moins exprimés que les gènes codants, cette SPT permet de mieux les modéliser et a donc été utilisée dans Muret et collègues de 2017 [23]. La stratégie n°2 (Figure 24A), que l’on appellera Stratégie Par Echantillon (SPE), consiste à modéliser les transcrits à partir des données RNA-seq individuelles, i.e. échantillon par échantillon puis de regrouper les modèles de transcrits avec l’outil cuffmerge pour former les modèles de gènes. La SPE permet de mieux modéliser les différentes isoformes d’un gène et a été utilisée dans le cadre du projet FR-AgENCODE [24]. Il est important de mentionner le fait que les deux stratégies sont possibles selon Cole Trapnell, le créateur de Cufflinks. Il conseille néanmoins d’utiliser la SPE [192] et la plupart des scientifiques suivent cet avis [24, 193, 194].

129

Figure 24 - Schéma des deux stratégies de modélisation des gènes par Cufflinks. A. Par

échantillon (SPE). B. Par tissu (SPT)

3.1.2 – Variation importante du nombre de transcrits d’une stratégie à l’autre Avec le jeu de 364 RNA-seq, nous montrons que la stratégie SPE modélise beaucoup plus de

transcrits que la SPT.

La SPE modélise tous les transcrits à l’échelle de chacun des 𝑥 échantillons et fournit 𝑥 fichiers d’annotation .GTF associés. Dans notre jeu de données de 364 échantillons, un échantillon correspond à une librairie de 80-110M de lectures. L’outil cuffmerge compile ensuite l’ensemble de ces 𝑥 fichiers .GTF en un fichier d’annotation .GTF global. Cuffmerge, outil peu décrit et très énigmatique, permet, non seulement de regrouper les fichiers .GTF, mais aussi de filtrer les modèles suivants: 1/ les modèles redondants ; 2/ les modèles totalement inclus dans d’autres modèles qui seraient potentiellement des modèles incomplets et donc supportés par peu de lectures ; 3/ les modèles jugés incohérents (i.e. exons de quelques nucléotides). La SPE a l’avantage (ou l’inconvénient) de fournir un grand nombre d’isoformes. Sur des petits jeux de données, le nombre de transcrits est raisonnable, mais sur des jeux de données importants le nombre d’isoformes devient très importants. Tasnim et collègues [195] précisent que plus il y a d’échantillons et plus l’accumulation de modèles erronés s’accentue. Nous avons trouvé des résultats similaires avec nos 364 individus. Comme le montre la Figure 25, le nombre de transcrits augmente avec le nombre de fichiers .GTF regroupés par cuffmerge ; aucun plateau

130 n’est atteint contrairement à ce que l’on aurait pu penser naïvement vu le nombre très important d’échantillons analysés. Le nombre de transcrits modélisés par SPE avec ces 364 échantillons issus de 3 tissus est de 413000. On peut s’interroger sur ce chiffre si on le compare à ce qui est connu au total chez l’Homme : 207000 transcrits, tout en sachant qu’ils ont fait ces modélisations à partir de nombreux tissus et lignées cellulaires. Il est à noter que le nombre de transcrits maximum pour un gène augmente également avec le nombre d’échantillons regroupés atteignant un maximum de 798 transcrits pour le gène en ayant le plus, ce qui semble assez aberrant.

Figure 25 – Impact du nombre d'échantillons regroupés dans la méthode SPE sur le nombre de transcrits totaux. En rouge, différents nombres d’échantillons analysés parmi les

364 échantillons de poulets de la présente analyse ; en bleu, 4 et 12 échantillons analysés issus du projet FR-AgENCODE [24].

La SPT modélise tous les transcrits à partir d’un seul fichier .GTF contenant l’ensemble des lectures du séquençage des 𝑥 échantillons de départ. Cole Trapnell déconseille cette méthode qui regroupe toutes les isoformes des 𝑥 échantillons perturbant fortement Cufflinks dans la reconstruction des transcrits [192] et conduisant donc à la modélisation de transcrits artéfactuels. Via des données RNA-seq simulées par l’outil FluxSimulator [196] à partir d’un modèle de gène/transcrit défini, nous avons pu en effet constater sur la Figure 26, l’apparition d’un modèle artéfactuel. La SPT a tendance à sous-estimer le nombre de transcrits qui sont plutôt, à cause de la méthode de reconstruction, le reflet de « transcrits consensus ». Cette stratégie, bien que problématique lorsque l’on veut travailler sur les isoformes, ne pose pas de problème si les données RNA-seq sont uniquement utilisées pour des études d’expressions au niveau des gènes (majorité des cas aujourd’hui) plutôt qu’au niveau des transcrits. Nos données montrent pour des fichiers .GTF de 450M et 1300M de lectures des deux projets issus des

131 publications Muret et collègues [23] et Foissac et collègues [24], on obtient respectivement 44000 (vs. 53000 pour la SPE) et 39000 modèles de transcrits. Il est tout de même utile de rappeler que la SPT est très gourmande en ressources informatiques [192].

Figure 26 – Données RNA-seq simulées via FluxSimulator [196]. FluxSimulator a généré

des lectures en cohérence avec les modèles mauves. Cufflinks a ensuite modélisé ab initio les modèles rouge (il replace simplement les modèles de référence) et a créé un transcrit artéfactuel orange.

Notons la remarque très pertinente de Tasnim et collègues [195] sur l’absence d’outils de modélisation des gènes prenant avantage de la puissance du nombre d’échantillons RNA-seq utilisés qui pourrait fiabiliser fortement les modèles.

3.1.3 – Variation du nombre de transcrits monoexoniques d’une stratégie à l’autre

Le nombre de transcrits monoexoniques varie fortement entre les deux stratégies passant de 6% à 30% entre respectivement la SPE et la SPT.

Nous observons avec la stratégie SPE une proportion en transcrits monoexoniques constante (5%, 6%, 6% et 5%) pour respectivement 36, 120, 192 et 364 fichiers .GTF regroupés, malgré un nombre croissant de transcrits en fonction du nombre de fichier .GTF regroupés. Cela montre que les transcrits surnuméraires apportés par la SPE sont tout autant monoexoniques que multiexoniques.

Ce phénomène est très certainement limité par l’utilisation de cuffmerge, qui supprime les modèles considérés comme incomplet comme par exemple, un transcrit monoexonique qui serait totalement inclus dans un transcrit multiexonique. En comparaison à la proportion de transcrits monoexonique connus chez la poule dans la version 86.5 d’Ensembl qui est de 9%, les 5-6% de transcrits monoexoniques semblent corrects. En revanche, la SPT semble surévaluer ce nombre qui est de 30% pour les 4 foies du projet FR-AgENCODE (Figure 27). Deux arguments expliquant ce chiffre : 1/ la non utilisation de cuffmerge pour filtrer les modèles incomplets ; 2/ le regroupement des lectures de plusieurs échantillons en un fichier

132 .BAM peut donner plus d’importance au bruit30 dans certaines régions du génome et ainsi conduire à des modélisations erronées.

Figure 27 – La SPT favorise l'apparition de transcrits monoexoniques

3.1.4 – Phénomène de fusion de gènes

Les deux stratégies donnent également des résultats différents en termes de fusions de modèles de gènes par des transcrits chevauchants modélisés entre deux gènes proches (Figure 28). Ce phénomène est, à l’inverse des transcrits monoexoniques, très présent dans la SPE et s’aggrave avec le nombre de fichiers .GTF regroupés (Figure 29). Il est lié au trop grand nombre d’isoformes, même erronées, qui se cumulent par la SPE. Ce phénomène est d’autant plus grave que ces transcrits de fusion regroupent les gènes sous une même entité génique et seule une expression de cette entité sera calculée par les outils classiques de comptage des lectures comme featureCounts [184] ou RSEM [197]. Près de 40% des gènes de Ensembl dont la majorité sont des gènes codant des protéines ont ainsi été regroupés sous une nouvelle entité génique, les éliminant ainsi de toute analyse. Ce problème est d’autant plus crucial que les études expressionnelles se font toutes à l’échelle du gène et non des transcrits. En effet, les expressions à l’échelle des transcrits, bien que proposées dans les outils de comptages, ne sont pas encore fiables. Les algorithmes permettant l’attribution des lectures aux différentes isoformes sont encore en développement.

Ici, avec nos 364 expériences RNA-seq, afin de se conformer à ce qui est classiquement utilisé dans la littérature et pour suivre les recommandations du créateur de Cufflinks et du projet ENCODE, nous avons utilisé la SPE. D’après le Tableau 4, cette stratégie sur de nombreux échantillons ne nous permet d’étudier l’expression génique et ce, à cause du phénomène de fusion de gènes. Afin de solutionner ce problème, nous avons ajouté une étape d’analyse permettant la suppression de tous les transcrits chevauchants en sens (i.e. même brin) les transcrits des gènes codants, pseudogènes et longs non-codants de la référence d’Ensembl

133 v.86.531. Cette étape, certes, supprime de nouvelles isoformes de gènes connus, mais permet d’éviter la perte de gènes connus du fichier d’annotation final. Ainsi les 40% des gènes perdus avant cette étape ont tous été retrouvés.

Figure 28 – La SPE favorise l'apparition de transcrits fusionnant des gènes codants connus. Vert : deux gènes (1) et (2) et leurs transcrits connus de Ensembl. Bleu : transcrits

modélisés par SPE agrégeant les 2 locus géniques de Ensembl en un seul locus génique (1+2). Marron : transcrits modélisés par SPT conduisant à 3 loci géniques, les 2 connus de Ensembl et un nouveau.

Figure 29 – Impact du nombre d'échantillons regroupés dans la méthode SPE sur le pourcentage de gènes codants connus (Ensemble v86.5) fusionnés. En rouge, nos 364

échantillons de poulets ; en bleu, les 12 échantillons de poulets du projet FR-AgENCODE. 3.1.5 – Bilan des deux stratégies

Les deux stratégies ont leurs désavantages et doivent être choisie en fonction de la problématique scientifique sous-jacente. La SPT a été utilisée dans Muret et collègues [23] dans le but d’étudier l’expression génique, la SPE a été utilisée dans Foissac et collègues [24] dans le but de pouvoir étudier dans le futur les événements d’épissage et donc les isoformes. Un

134 tableau récapitulatif basé sur des observations manuelles faites sous IGV, des éléments discutés dans les points précédents et de la logique des 2 stratégies est présenté en Tableau 4.

Tableau 4 - Avantages et inconvénients des différentes stratégies de modélisation des gènes et transcrits. * peu reproductible : peut être du bruit comme une isoforme rare.

Cette stratégie a donc permis de créer un fichier d’annotation sans chevauchement avec le fichier d’annotation d’Ensembl v.86.5, puisque ce dernier a été utilisé comme guide lors de la toute première étape d’alignement des séquences contre la référence ; ces deux fichiers seront nommés respectivement .GTF_INRA et .GTF_ENSEMBL. Le .GTF_INRA contient 60523 transcrits répartis sur 25214 gènes. Pour contrer le deuxième problème lié à la SPE qui est la modélisation de modèles peu exprimés et peu reproductibles, on a appliqué trois filtres d’expression : 1/ expression supérieure à 0,1 TPM32 (seuil classiquement utilisé dans la littérature sur les gènes longs non-codants) 2) dans au moins 25% des échantillons d’un tissu afin d’assurer de la reproductibilité (i.e. correspondant à 14 échantillons pour le tissu représenté par le moins d’échantillons) ; 3/ expression supérieure à 5 lectures dans au moins 25% des échantillons d’un

135 tissu, équivalent à un minimum de 5 × 14 lectures pairées soit 140 lectures au total pour sous-tendre le modèle. Le 3ème filtre est plus stringent et supprime de petits gènes qui, biaisé par la formule du TPM qui rehausse leur expression (Figure 30A), sont exprimés malgré un TPM de 0,1. D’après la Figure 30B, cela supprime dans le pire des cas des gènes de tailles comprises entre 379nt et 1042nt pour respectivement, des grandes (132M) et petites librairies (48M) pour des expressions en TPM de 0,1. Ces tailles limites diminuent lorsque le TPM augmente.

Figure 30 - Influence de la taille du gène sur l'expression. A. Formules de calcul du RPKM,

normalisation très utilisée par la communauté scientifique et sa variante le TPM, de plus en plus utilisé par la communauté scientifique (où la somme des lectures pour tous les gènes (N) est également normalisée par la taille des transcrits). B. Influence de la taille du gène (TailleG en abscisse) sur son expression en comptage de lecture brut (LectureG en ordonnée) pour un TPM de 0,1 et des librairies variables de 48M (sang des poules commerciales) à 132M de lectures (tissu adipeux des poulets de chair INRA).

Ces trois filtres appliqués, les modèles du .GTF_INRA se réduisent à 14760 gènes. Nous avons ensuite lancé l’outil FEELnc qui nous a permis d’identifier 13009 gènes à ARNlnc et 1199 gènes codant pour des protéines.