3.2 – Vers un fichier d’annotation combinant différentes sources d’ARNlnc

Afin d’établir un catalogue d’annotations ayant un maximum de modèles géniques à ARN longs non-codants, nous avons souhaité agréger à la base de données Ensembl .GTF_ENSEMBL, ici considéré comme la référence, d’autres fichiers d’annotations, à commencer par le nôtre que je viens de présenter (nommé .GTF_INRA) mais aussi les fichiers d’annotations ALDB (nommé

136 .BED_ALDB), NCBI (nommé .GFF3_NCBI), NONCODE (nommé .BED_NONCODE) et enfin le catalogue d’ARNlnc de poule publié dans l’article de Foissac et collègues [24] (nommé .GTF_FRAGENCODE). Ces différents fichiers d’annotations proviennent de sources de données indépendantes et présentent des formats différents, ayant nécessité parfois des étapes de conversion.

3.2.1 – ALDB

Le fichier d’annotation de la poule de la base de données ALDB v1.0 [26] a été récupéré à partir de la base de données FANTOM au format .BED positionné sur l’assemblage Galgal5 de la poule et utilisant la nomenclature de chromosomes associés à Ensembl (1, 2, 3 … W, Z). Il contient 5752 gènes à ARNlnc et 8185 transcrits associés. Cette base de données a été alimentée par quelques publications [198–200] et regroupe les ARNlnc issus de 10 tissus de poules. Cette base ne contient que des ARNlnc intergéniques et multiexoniques. Le fichier au format .BED a été transformé en fichier au format .GTF par un script développé par Fréderic Jehl.

3.2.2 – NCBI

Le fichier d’annotation de la poule de la base de données du NCBI release 103 est au format .GFF3 positionné sur l’assemblage Galgal5 de la poule et utilisant la nomenclature de chromosomes RefSeq associée au NCBI (NC_006088.4 … NC_006127.4). Il contient 5738 gènes à ARNlnc et 8150 transcrits associés. De même que pour Ensembl, les ARNlnc sont identifiés s’ils n’ont pas d’ORF ou si les petites ORF ne s’alignent avec aucune protéine ou domaine protéique connu. Cette base de données ne contient que des ARNlnc géniques antisens et intergéniques multiexoniques. Le fichier .GFF3 a été transformé en fichier .GTF par un script développé par Frédéric Jehl et la transformation des chromosomes de la nomenclature RefSeq ont été transformés en chromosomes de la nomenclature Ensembl par un script que j’ai développé.

3.2.3 – NONCODE

Le fichier d’annotation de la poule de la base de données NONCODE v.5 [25] est au format .BED positionné sur l’assemblage Galgal4 de la poule et utilisant la nomenclature de chromosomes de UCSC (chr1, chr2, chr3 … chrW, chrZ). Il contient 9527 gènes à ARNlnc et 12850 transcrits associés. NONCODE regroupe un grand nombre de sources différentes : littératures, NCBI, Ensembl. Le potentiel codant de l’ensemble des ARNlnc est vérifié par l’outil CNCI [73]. Cette base de données contient des ARNlnc géniques antisens et sens ainsi

137 que des ARNlnc intergéniques qu’ils soient monoexoniques ou multiexoniques. Les coordonnées de l’assemblage Galgal4 ont été converties en coordonnées Galgal5 par l’outil LiftOver de UCSC [201], la transformation du .BED en .GTF via l’outil de Frédéric Jehl et la transformation des chromosomes au format UCSC en format Ensembl via mon script.

3.2.4 – FR-AgENCODE

Le fichier d’annotation de la poule de l’article Foissac et collègues [24] est au format .GTF

positionné sur l’assemblage Galgal5 de la poule et utilisant la nomenclature de chromosomes Ensembl (1, 2, 3 … W, Z). Il contient 6089 gènes à ARNlnc et 7502 transcrits associés. La méthode de détection des ARNlnc dans cet article est la même que celle utilisée pour la génération du fichier .GTF_INRA (i.e. FEELnc avec entraînement d’ARNm ayant un Wikigene Name et mode shuffle). Ce fichier contient des ARNlnc géniques antisens, sens introniques et intergéniques qu’ils soient monoexoniques ou multiexoniques.

3.2.5 – Méthode d’agrégation des bases de données

Pour ne pas apporter d’informations redondantes et afin de ne pas utiliser cuffmerge pour regrouper les fichiers d’annotation, qui je le rappelle supprime des modèles selon plusieurs filtres évoqués au-dessus, il a été décidé d’utiliser la même stratégie que précédemment décrite (i.e. SPE avec filtre des modèles chevauchants) afin d’ajouter les différentes annotations des bases de données publiques une à une. Le regroupement se fait donc par ajout itératif de chaque base de façon à ce qu’aucun transcrit de cette base ne chevauche en sens ce qui est existant dans le fichier final que l’on nommera .GTF_FINAL. Dans un tel processus, la question qui se pose est l’ordre d’ajout des fichiers d’annotation. Nous déterminons l'ordre des bases de données à l'aide d'une nouvelle ressource expérimentale, des données de CAGE (Cap Analysis Gene Expression), obtenues récemment par Lizio et collègues du consortium FANTOM [202] à partir de 26 échantillons de cellules primaires et embryonnaires de poulet. Le pourcentage le plus élevé de gènes à ARNlnc pour lesquels un pic CAGE se situe à moins de 30pb de l'extrémité 5' annotée d'un des transcrits associé, était pour les modèles INRA avec 7,2% ; viennent ensuite ALDB, NCBI et enfin NONCODE avec 4,2%, un résultat proche des ARNlnc d’Ensembl (vs. 40% des gènes codants qui ont un pic CAGE proche du TSS). De tels pourcentages concernant les ARNlnc ont déjà été observés dans le projet ENCODE humain. Ils ont rapporté des pics CAGE pour seulement 15% des ARNlnc contre 55% pour les gènes codant des protéines [19]. Des résultats aussi faibles suggèrent que les promoteurs des ARNlnc sont mal annotés en partie à cause de leur faible expression. Nous intégrons donc séquentiellement les fichiers .GTF_INRA,

138 .BED_ALDB, .GFF3_NCBI et enfin .BED_NONCODE pour enrichir le fichier .GTF_ENSEMBL. A la fin du regroupement des bases de données, nous avons ajouté, selon la même procédure, les gènes à ARNlnc du projet FR-AgENCODE (2 – Annotation des ARNlnc des lymphocytes T (CD4+, CD8+) et du foie chez 4 espèces d’élevage : le bovin, la chèvre, le porc et la poule, p.79).

3.3 – Fichier d’annotation final

.GTF_FINAL

Le regroupement de ces différentes bases de données a permis de construire un fichier d’annotation assez exhaustif de toutes les bases de données publiques utilisées dans la littérature concernant les ARNlnc. Le Tableau 5 montre l’augmentation progressive des modèles à chaque ajout de bases de données, ajouts qui s’érodent au fil du processus. Au final, ce fichier d’annotation final comporte donc 30084 gènes à ARNlnc et 59486 transcrits associés, soit une augmentation de 548% : par rapport aux 4640 ARNlnc d’Ensembl.

Il pourrait encore être amélioré en y ajoutant les quelques articles dont les auteurs ont publié leur catalogue d’ARNlnc identifiés chez la poule : celui de Necsulea et collègues de 2014 [50] qui est sous un format tableur sous Galgal4 (nécessite des étapes de construction de fichier), celui d’Hezroni et collègues de 2015 [43] qui est sous un format .bed sous Galgal4, celui de Zhang et collègues de 2017 [203] qui est sous un format .gtf sous Galgal4 (mais mal annoté) et celui de Wang et collègues de 2018 [204] qui est sous un format .GTF sous Galgal4. Ce dernier catalogue utilise la SPT sur 821 expériences de RNA-seq et les auteurs filtrent les transcrits géniques et/ou monoexoniques très exprimés (FPKM > 1). Des études de cette ampleur sont rares, car coûteuses, chronophages et demandent de grandes ressources informatiques. Ce dispositif a permis la modélisation de 36617 transcrits exprimés et ils identifient 8134 ARNlnc avec l’outil CPC [69] et vérifient par blastx si les petits ORF ne s’alignent pas sur des protéines. Agréger ces sources de données et notamment la dernière, serait intéressant pour compléter notre catalogue d’ARNlnc.

Quoiqu’il en soit, le fichier d’annotation que nous fournissons ici sous Galgal5 devrait permettre d’étudier l’expression de beaucoup plus de gènes à ARNlnc que de ceux des fichiers actuels existants.

139

141

Dans le document Annotation des ARN longs non-codants chez la poule et les espèces d’élevage : Focus sur les ARNlnc régulateurs du métabolisme des lipides (Page 161-167)