• Aucun résultat trouvé

Résultats – Partie I – Annotation des ARNlnc de la poule et des espèces d’élevage

R

ESULTATS

- P

ARTIE

I

A

NNOTATION DES

ARN

LNC

DE LA POULE

48

1 – Annotation des ARNlnc du foie et du tissu

adipeux chez la poule

1.1 – Résumé

Comme on a pu le voir précédemment, les ARNlnc sont majoritairement structurés comme les ARNm : coiffés, poly-adénylés et épissés. Ils mesurent plus de 200nt et ne codent pas pour des protéines. Avec l’avènement des nouvelles technologies de séquençage haut-débit et les travaux sur les ARNlnc humains [19], le nombre d’ARNlnc identifiés comme étant impliqués dans de nombreux processus biologiques, et de nombreuses pathologies humaines, s’accroît considérablement. Dans sa version 24, la base de données GENCODE humaine [19] référence environ 16000 gènes à ARNlnc mais des articles comme celui d’Iyer et collègues [181] en rapporte jusqu’à plus de 50000. Fin 2016, à la soumission de cet article, l’annotation des ARNlnc chez la poule n’était pas encore disponible dans les bases de données publiques d’Ensembl et du NCBI. Afin de mieux comprendre les liens qui existent entre génome et phénome (i.e. ensemble des phénotypes) chez la poule, il était donc important d’améliorer l’annotation du génome de cette espèce.

A partir de données RNA-seq de foie et de tissu adipeux de 16 poulets de chair de 9 semaines (PRJNA330615), nous avons aligné les lectures sur le génome de référence de la poule (Galgal4), modélisé de nouveaux gènes et estimé l’expression de chacun de ces gènes via les outils STAR [182], Cufflinks-cuffmerge [183] et featureCount [184] respectivement. 2193 gènes à ARNlnc ont ensuite été identifiés parmi ces nouveaux gènes prédits via l’outil FEELnc [75]. Parce que les gènes longs non-codants sont connus pour être faiblement exprimés, nous avons souhaité identifier un sous-set d’ARNlnc plus fiables c’est-à-dire ayant une expression reproductible au travers de réplicats biologiques ; en effet nous pouvions ici profiter d’un dispositif avec de nombreux réplicats biologiques, ce qui est encore peu fréquent dans la littérature. Dans un premier temps nous avons testé l’outil HTSfilter [185] permettant de filtrer, parmi des gènes codant des protéines, les gènes non exprimés c’est-à-dire en dessous d’un seuil de lecture évalué par l’outil. Nous avons montré que cet outil était bien adapté aux gènes codant pour des protéines mais pas aux ARNlnc qui sont trop faiblement exprimés, le seuil identifié par HTSfilter étant de 1 lecture. Nous avons donc préféré utiliser le seuil classiquement utilisé dans la littérature de 0,1 RPKM, expression normalisée équivalente dans nos données à plus de 8 lectures pour des gènes de plus de 1kb. Afin de ne conserver qu’un set d’ARNlnc exprimé de

49 façon reproductible, nous avons donc analysé l’expression des gènes à ARNlnc sur les 16 réplicats de foie ou de tissu adipeux, et avons trouvé que ⅔ de ces gènes étaient exprimés de façon reproductible dans au moins 10 réplicats sur 16 échantillons. Malgré tout, on notera que ¼ des gènes à ARNlnc étaient exprimés dans moins de 4 réplicats sur 16, ce qui montre l’intérêt de multiplier les réplicats biologiques dans les expériences de RNA-seq lorsque l’on étudie les ARNlnc, ce qui a rarement été fait jusqu'à présent dû aux coûts d’obtention de ces données. Ce sous-set d’ARNlnc considéré ici comme reproductible en expression regroupe 1670 gènes. L’ensemble de ces ARNlnc de poule a ensuite été caractérisé et comparé aux ARNlnc humains et murins (Ensembl v.83). Comme attendu [19] ces gènes sont majoritairement (89%) localisés entre les gènes codants, i.e. intergéniques contre 11% d’ARNlnc antisens de gènes codants. Ils sont 10 fois moins exprimés et ont une expression ~7 fois plus tissu-spécifiques que les gènes codant pour des protéines, même si notre dispositif n’est pas idéal pour une étude de la tissu-spécificité puisque nous n’avons ici que 2 tissus. On retrouve également que les ARNlnc sont plus courts que les ARN codants, dû à un plus faible nombre d’exons (3 vs. 5 en moyenne), exons qui par ailleurs sont de même taille que ceux des gènes codant des protéines. Les oiseaux ayant la particularité d’avoir des tailles de chromosomes très différentes entre les macro- et micro-chromosomes, on retrouve comme pour les ARN codant des protéines, une densité de gènes plus importantes (i.e. plus nombreux) avec des gènes plus condensés (i.e. introns plus petits) sur les micro-chromosomes par rapport aux macro-chromosomes. Les ARNlnc, comme vu en introduction, sont très peu conservés en séquence. Nous avons donc effectué une analyse de conservation par synténie des ARNlnc en ne considérant que les ARNlnc bordés de 2 gènes codants orthologues de type 1-to-1 chez l’Homme, représentant 53% (882) des 1670 ARNlnc exprimés de façon reproductible. Parmi ce sous-set d’ARNlnc, on a pu mettre en évidence 64% (569) d’ARNlnc qui respectait une relation synténique (i.e. triplet génique respectant les mêmes orientations) et qui seraient donc conservés entre l’Homme et la poule. Enfin, parmi les gènes à ARNlnc connus chez l’Homme ou la souris comme étant exprimés dans le foie tels que HULC, APOA1-AS et lncLSTR, aucun d’entre eux n’a été retrouvé dans notre catalogue d’ARNlnc potentiellement conservés chez la poule.

FEELnc permet également de classifier les ARNlnc en fonction de leur gène codant proche, générant ainsi la classe intergénique avec trois sous-classes – divergent, convergent, même brin – et la classe génique avec 2 sous-classes – antisens d’intron et antisens d’exon –. Après classification des 1670 ARNlnc nouvellement modélisés, nous avons étudié la coexpression des paires ARNlnc:gène codant. On a montré que les ARNlnc divergents proches (≤1kb) étaient

50 significativement plus corrélés avec leur voisin codant que les ARNlnc divergents plus éloignés (>1kb) (22% vs. 13%) mettant en exergue une possible co-régulation entre les deux gènes, par exemple via un promoteur bidirectionnel [186]. 22% des ARNlnc antisens d’exon sont corrélés en expression. Enfin les ARNlnc de type « même-brin » proches (≤1kb) sont également plus corrélés que les distants (>1kb) (56% vs. 24%) et sont souvent dus à de mauvaises modélisations des extrémités de gènes comme nous le montrerons plus tard (Résultats – Partie II – 1 – Les ARNlnc connus comme étant impliqués dans le métabolisme des lipides. p. 142). En effet, les extrémités des gènes ne sont en général pas bien connues sans des expérimentations dédiées comme des expérimentations de CAGE (Cap Analysis Gene Expression) [187]. Pour cette raison, ces ARNlnc sont souvent exclus des analyses.

Nous terminons l’article avec deux exemples d’ARNlnc modélisés chez la poule, fortement co-exprimés avec le gène codant le plus proche et appartenant à deux classes différentes. L’un est de type divergent, il s’agit du gène lncRNA_DHCR24, qu’on renommera ici pour rester homogène avec les articles suivant DHCR24-DT, nom qui respecte la nomenclature du comité HGNC [87]. L’autre est un ARNlnc de type antisens d’exon ; il s’agit du gène lncNPNT-AS, également renommé NPNT-AS1. L’expression de NPNT-AS1 est corrélée avec celle de son gène antisens NPNT (nephronectin) dans les 16 foies de poulet (cor=0,83), corrélation validée par RT-PCRq (cor=0,83) ainsi que dans le foie de 20 autres jeunes poulets à jeun ou nourris (cor=0,84). L’expression de DHCR24-DT est corrélée avec celle du gène divergent, distant de 202pb, DHRC24 (24-Dehydrocholesterol reductase), qui code une enzyme clé de la biosynthèse du cholestérol. Cette corrélation a été observée non seulement dans les 16 foies des jeunes poulets de chair (9 semaines) au cœur de la présente étude (cor=0,92), mais également chez 50 poules adultes d’un génotype « poule pondeuse » (cor=0,93) ainsi que chez de très jeunes poulets (4 semaines) nourris (cor=0,90). DHCR24 est également co-exprimé avec DHCR24-DT dans 17 autres tissus indiquant une expression tissulaire assez similaire pour les 2 gènes. Ces deux couples de gènes sont d’autant plus important qu’ils sont conservés chez l’Homme. Une telle coexpression et conservation au travers du vivant suggère un mécanisme de régulation important.

En conclusion, cet article est inséré à la suite de ce résumé (1.2 – Article, p. 52) a permis d’apporter un premier catalogue d’ARNlnc chez la poule, catalogue à l’époque absent des bases de données publiques d’Ensembl et du NCBI. Cet article a permis de montrer que les ARNlnc de poule avaient des caractéristiques similaires aux ARNlnc humains et a également débouché

51 sur quelques exemples de coexpressions qui occupent aujourd’hui le laboratoire (3.2 – Cas particuliers des ARNlnc DHCR24-DT et FASN-DT, p. 223).

Avec l’arrivée du nouvel assemblage du génome de la poule (Galgal5) couplé à une nouvelle annotation (V86.5), un premier catalogue de 7841 ARNlnc était accessible à la communauté scientifique en octobre 2016, lors de la révision de notre article. Quelques incohérences ont conduit à une rapide mise à jour par Ensembl débouchant sur une nouvelle version en décembre 2016 (v.87) dans laquelle le nombre d’ARNlnc a été fortement revu à la baisse (n=4643). Le NCBI a également publié une liste indépendante d’ARNlnc (release 103) de 8184 ARNlnc. Nous avons voulu savoir si nos ARNlnc avaient une bonne intersection avec ces ARNlnc publiés. Comme indiqué dans la Figure 22, 34% de nos ARNlnc sont nouveaux car ni présents sur Ensembl ni sur NCBI ; en revanche 41% de nos ARNlnc ont été retrouvés dans les bases de données publiques comme étant des ARNlnc (91% de ces 41% dans NCBI et 30% dans Ensembl). Les 22% d’ARNlnc restant sont retrouvés comme codants dans les bases de données publiques dû principalement aux différents outils et stratégies d’annotation des ARNlnc. Ce supplément d’analyse a été présenté aux 12ème Journées de la Recherche Avicole (cf. poster en annexe, p. 251) ainsi que dans un article de vulgarisation inséré à la suite du premier article (1.3 – , p. 73).

Figure 22 - Intersection entre les ARNlnc que nous avons identifiés et ceux des bases de données d'Ensembl et du NCBI

52

1.2 – Article 1

Cette partie a fait l’objet de plusieurs posters, de communications orales et d’un article.

Communication écrite :

- Muret K., Klopp C., Wucher V., Esquerré D., Legeai F., Lecerf F., Désert C., Boutin M., Jehl F., Acloque H., Giuffra E., Djebali S., Foissac S., Derrien T., Lagarrigue S. Long noncoding RNA repertoire in chicken liver and adipose tissue. Genetics Selection Evolution. 2017;49. Cet article en anglais publié en janvier 2017 fait partie intégrante de ce chapitre. Communications orales :

- Muret K., Lagarrigue S. Identification chez la poule de gènes régulateurs du métabolisme des lipides par des approches intégrées de (1) cartographie génétique (2) analyse de données d’expression (RNA-seq) – Focus particulier sur les ARN longs non-codants. A la Journée des Doctorants, 19/04/2016, St-Gilles, France.

- Muret K., Lagarrigue S. Long noncoding RNA catalog in liver and adipose tissue in chicken. Au NGS-Barcelona, 04-06/04/2016, Barcelone, Espagne.

Posters :

- Muret K., Klopp C., Wucher V., Esquerré D., Legeai F., Lecerf F., Acloque H., Giuffra E., Foissac S., Djebali S., Derrien T., Lagarrigue S. Long noncoding RNA repertoire in chicken liver and adipose tissue. Au GO-FAANG Workshop, 07-08/10/2015, Washington, USA. (p.249)

- Muret K., Klopp C., Wucher V., Esquerré D., Legeai F., Lecerf F., Désert C., Boutin M., Acloque H., Giuffra E., Foissac S., Djebali S., Derrien T., Lagarrigue S. Long noncoding RNA repertoire in chicken liver and adipose tissue. A la Plant & Animal Genome Conference XXIV, 09-13/01/2016, San Diego, USA. (p.250 250)

- Muret K., Klopp C., Wucher V., Esquerré D., Legeai F., Lecerf F., Jehl F., Désert C., Boutin M., Acloque H., Giuffra E., Foissac S., Djebali S., Derrien T., Lagarrigue S. Long noncoding RNA repertoire liver and adipose tissue in chicken. Au 19ème Séminaire des thésards du département de Génétique Animale, 16-17/03/2016, Castanet-Tolosan, France. (p. 251)

Clip vidéo vulgarisé :

- Muret K., Jehl F., Boutin M., Herry F., Désert C., Lagoutte L., Robert J., Allais S., Lecerf F., Lagarrigue S. La Thèse de Kévinou. A la Journée des Doctorants, 16/04/2018, St-Gilles, France.

73

1.3 – Article 2

Cette partie a fait l’objet d’un article vulgarisé et d’un poster

Communication écrite vulgarisée :

- Muret K., Klopp C., Wucher V., Esquerré D., Legeai F., Lecerf F., Désert C., Boutin M., Jehl F., Acloque H., Giuffra E., Djebali S., Foissac S., Derrien T., Lagarrigue S. Une nouvelle facette du génome de poule : les gènes « longs non-codants ». 12ème Journées de la Recherche Avicole. 2017.

Cet article vulgarisé publié en français en 2017 fait partie intégrante de cette partie.

Poster :

- Muret K., Klopp C., Wucher V., Esquerré D., Legeai F., Lecerf F., Désert C., Boutin M., Jehl F., Acloque H., Giuffra E., Djebali S., Foissac S., Derrien T., Lagarrigue S. Une nouvelle facette du génome de poule : les gènes « longs non-codants ». Aux 12ème Journées de la Recherche Avicole, 05-06/04/207, Tours, France. (p. 252)

79

2 – Annotation des ARNlnc des lymphocytes

T (CD4+, CD8+) et du foie chez 4 espèces

d’élevage : le bovin, la chèvre, le porc et la

poule

Mes compétences acquises dans le cadre de l’annotation des ARNlnc chez la poule m’ont permis d’intégrer le groupe de travail de FR-AgENCODE, un projet pilote de l’INRA dont le but est d’annoter spécifiquement les génomes des espèces d’élevage à l’image du projet GENCODE humain. Ce projet national FR-AgENCODE, s’inscrit dans un projet plus ambitieux, le projet international FAANG (Functional Annotation of ANimal Genomes) visant à fédérer toutes les initiatives d’annotation pour les espèces animales. Cet article est donc le premier article issu de ce groupe de travail FR-AgENCODE qui réunit des scientifiques majoritairement de trois sites INRA : Paris, Toulouse et Rennes. J’ai donc intégré ce groupe lors de ma première année de thèse et ai travaillé exclusivement sur l’identification des gènes à ARN longs non-codants des 4 espèces : bovin, chèvre, porc et poule.

2.1 – Résumé

L’annotation fonctionnelle des génomes est une étape importante pour lier des éléments du génome à des phénotypes observés. Le projet FR-AgENCODE porté par l’INRA et plus largement le projet FAANG ont pour objectif de décliner les travaux d’ENCODE/GENCODE de l’Homme et la souris chez d’autres espèces animales. Dans ce cadre, les scientifiques de FR-AgENCODE ont choisi de s’intéresser à quatre espèces d’élevage, 2 ruminants polygastriques, le bovin et la chèvre et 2 espèces monogastriques, le porc et la poule, trois de ces espèces étant les espèces d’élevage les plus importantes économiquement. Ils ont également choisi de réaliser trois types d’expérimentations hauts débits jugés complémentaires, il s’agit du RNA-seq, de l’ATAC-seq (Assay for Transposase-Accessible Chromatin) et du Hi-C (High Chromosome Contact). Les données de RNA-seq comme nous avons pu le voir précédemment, permettent la modélisation de nouveaux gènes ainsi que de nouveaux transcrits des gènes connus et permettent également d’étudier l’expression de tous ces gènes. Les données d’ATAC-seq permettent d’étudier et de caractériser les régions chromosomiques ouvertes et accessibles. Enfin, le Hi-C permet d’étudier la conformation chromatinienne et les régions chromosomiques qui sont en contact physique à l’échelle du génome entier. Ces

80 expérimentations ont été réalisées chez 4 individus dont 2 mâles et 2 femelles chez ces 4 espèces à partir de 2 types cellulaires, les lymphocytes T CD4+ et lymphocytes T CD8+ ainsi que d’un organe, le foie ; les critères de choix de ces tissus/cellules reposent sur l’importance des fonctions que portent ces tissus/cellules (immunité pour les lymphocytes T et homéostasie énergétique pour le foie), sur l’homogénéité de ces tissus/cellules et enfin sur l’expertise des scientifiques du projet.

En termes de résultats, les données de RNA-seq ont permis de modéliser entre 58000 et 85000 nouveaux transcrits selon les espèces, filtrés sur leur niveau d’expression (ici, 0,1 TPM dans au moins 2 échantillons). La majorité de ces transcrits modélisés sont des isoformes de gènes connus (37-48%) et 20 à 35% des transcrits sont associés à des nouveaux gènes modélisés. Une première série d’analyses préliminaires sur l’ensemble des gènes montrent pour chacune des espèces que, comme attendu, les analyses en composantes principales (ACP) séparent les échantillons en premier lieu par tissu : foie et lymphocytes et ensuite une séparation plus modérée des lymphocytes T CD4+ vs. T CD8+. Une autre analyse complémentaire sur un ensemble de 9461 gènes orthologues 1-to-1 par Classification Ascendante Hiérarchique (CAH) a été effectuée sur les 4 espèces et montre premièrement une séparation des tissus (foie vs. lymphocytes) puis des espèces et enfin des sexes. Que ce soit pour l’ACP ou la CAH, la séparation des deux populations cellulaires T CD4+ et T CD8+ est plus modérée que ne l’est le foie de ces deux populations. Par ailleurs les différentiels d’expressions (DE) entre tissus (7000 à 10500 gènes) montrent également que les plus différences expressionnelles les plus élevées se trouvent entre le foie et les lymphocytes. Ces gènes DE sont impliqués dans le métabolisme hépatique et l’immunité. Les gènes DE entre sexes sont moins nombreux (12 gènes) et concernent des gènes connus comme étant sexe-spécifiques. Le ratio d’expression génique entre mâles et femelles est uniforme sur tous les chromosomes et sur les chromosomes sexuels où s’exerce une compensation de dosage chez les mammifères mais pas chez les oiseaux [188].

Concernant les transcrits nouvellement modélisés, 16 à 27% des transcrits ont été classés comme ARNlnc par FEELnc (Tableau 3). Comme vous pouvez le voir sur le Tableau 3, peu d’ARNlnc était connu dans les bases de données chez les espèces d’élevage. Le nombre d’ARNlnc nouveaux chez les 4 espèces est compris entre 10000 et 23000 transcrits. A noter un fort pourcentage d’ARNlnc « non-classifiés » par FEELnc chez la poule et la chèvre (27% et 5%) dû au nombre important de fragments de chromosome non-assemblés (>20000 par exemple chez la poule) ; la classification des ARNlnc se faisant en fonction des gènes codants proches, ici, les ARNlnc se retrouvent isolés sur de petits fragments chromosomiques sans

81 voisin codant. Concernant les ARNlnc classifiés, la répartition par classe respecte les proportions connues : 12% d’ARNlnc de type géniques et 88% d’ARNlnc intergéniques. Les caractéristiques des ARNlnc chez les 4 espèces suivent les caractéristiques connues chez l’Homme ou la souris : moins d’exons, taille plus petite et expression des ARNlnc plus faible que celle des gènes codant pour des protéines. Les analyses synténiques appliquées dans Muret et collègues [23] ont été appliquées aux ARNlnc de FR-AgENCODE. Soixante-treize et 19 ARNlnc ont été retrouvés entre respectivement les mammifères et la poule. Parmi eux, un exemple intéressant d’ARNlnc de type divergent CREMos, renommé ici en cohérence avec les autres articles CREM-DT, est conservé des poissons aux mammifères. Le triplet synténique CREM/CREM-DT/CUL2 a des niveaux d’expression similaires entre les 4 espèces. Malgré le faible nombre d’ARNlnc conservés, une ACP a été faite et montre que les tissus sont bien séparés (foie vs. lymphocytes) mais pas les espèces.

Tableau 3 – Nombre de transcrits dans la base de données de référence ou nouvellement modélisés.

Les données d’ATAC-seq montrent entre 75000 et 149000 régions chromatiniennes ouvertes (600pb en moyenne ; 1-5% du génome). A noter que 38% à 55% des pics sont à plus de 5kb d’un modèle de gène et sont de potentielles régions candidates de régulation. En revanche, environ 15% des régions chromatiniennes ouvertes sont à moins de 5kb d’un TSS (Transcription Start Site) soit aux abords des régions régulatrices proximales et du promoteur des gènes. Sur cet ensemble de gènes concernés, on observe un signal clair d’ATAC-seq au niveau du TSS ce qui montre la qualité des modèles de gènes (tant de référence que nouvellement modélisés) quant à la modélisation de leur extrémités 5’UTR. J’ajouterai ici, qu’une analyse supplémentaire externe à ce papier (Figure 23) mais qui a été présentée sur un

82 poster présenté à Dublin (p.253), montre que ces pics ATAC-seq se retrouvent tout aussi bien sur les TSS des ARNlnc identifiés dans les 3 espèces bovin, porc et poule (la chèvre n’avait pas encore été analysée à l’époque). De plus, via les données de RNA-seq, il est également possible de retrouver les queues poly-A non génomiques mais transcrites. Ces données ont permis de retrouver entre 58000 et 108000 sites poly-A sur le génome (0,05% du génome). 11 à 14% des gènes ont présenté un site poly-A au niveau de leur TTS (Transcription Termination Site). Les données cumulées des sites poly-A et des régions chromatiniennes ouvertes issues des expériences d’ATAC-seq, nous permettent de valider les nouveaux modèles de gènes.

Concernant les régions différentiellement accessibles (DA) (e.g. ouverte dans le foie, condensée dans les lymphocytes), les auteurs ont pu montrer une plus forte densité de sites de fixation de facteurs de transcription et montre donc que ces régions sont susceptibles d’avoir un rôle régulateur important. Les analyses d’intégration de données RNA-seq/ATAC-seq montrent que les promoteurs les plus accessibles sont associés aux gènes les plus exprimés comme chez l’Homme et la souris.

Figure 23 – Les pics ATAC-seq sont enrichis dans les régions TSS par rapport aux TTS.

En bleu les gènes codant pour des protéines, en orange les gènes longs non-codants. L’axe des abscisses représente la position du pic ATAC-seq par rapport au gène : en noir les régions autour