• Aucun résultat trouvé

1.1 – Contexte lié au premier objectif de la thèse : annotation des ARN longs non-codants (ARNlnc) chez la poule

1.1.1 – Des gènes codant des protéines aux ARNlnc

Sydney Brenner (Cambridge, UK), François Jacob (Paris, FR) et Matt Meselson (Pasadena, US) publient en 1960 un article dans Nature [1] sur la découverte d’un intermédiaire entre les gènes et la synthèse protéique qu’ils nomment ARN messager. De cette découverte est née la notion de région transcrite. La notion inverse de région “non-transcrite” – et inutile – semble communément usitée à Cambridge au début des années 60 sous le terme de “junk DNA” (échanges entre Dan Graur, professeur à l’université de Houston, et Sydney Brenner1). Susumo Ohno, à qui on attribue la paternité de l’expression, la popularisa en 1972 dans son article “So much "junk" DNA in our genome” [2]. Malgré ce très contesté terme péjoratif, Sydney Brenner a tenu à nuancer dans les années 90, ce “junk DNA” : “There is the rubbish we keep, which is junk, and the rubbish we throw away, which is garbage”2 [3]. L’anisomorphie, correspondance imparfaite, entre les langues a fait naître des termes souvent inadaptés pour traduire le “junk DNA”, comme le métonyme “ADN poubelle” en français3 [4]. On ne retrouve ainsi aucune nuance pour cet “ADN poubelle” que l’on devrait plutôt appeler “ADN bric-à-brac4”, illustrant ainsi l’idée d’ensemble hétérogène regroupant résidus de gènes, régions non-codantes ou régions intergéniques dont la fonction n’est actuellement pas identifiée. Cela englobe aussi l’idée que ce bric-à-brac puisse être utile : une fonction insoupçonnée d’un locus donné ou un réarrangement chromosomique néo-fonctionnalisant un locus. Susumo Ohno proposait en 1972 que ces régions d’ADN poubelle (99% du génome) soient des vestiges de gènes pseudogénisés et jouent un rôle d’écarteur génique ironisant sur “l’importance de ne rien faire” [2]. Brosius et Gould, biologistes de l’évolution, proposent en 1992 [5] une nomenclature nuançant

1 Tumblr de Dan Graur alias Judge Starling

2 Proposition de traduction : Il y a les déchets que nous gardons, qui sont du bric-à-brac, et les déchets que nous jetons, qui sont des ordures.

3 En français, on utilise plus rarement la notion d’ADN déchet qui serait pourtant plus adaptée. Dans les autres langues européennes, on retrouve la même métonymie inadaptée. En espagnol, ADN basura qui se traduit clairement comme de l’ADN poubelle et son synonyme plus adapté et pourtant moins usité d’ADN chatarra. En allemand, on retrouve les termes de Müll-DNA et de Schrott-DNA qui signifient ADN déchet et ADN déchet avec une notion de recyclage. Malgré la forte proximité du second terme allemand avec la réelle définition du junk

DNA, c’est le terme Müll-DNA qui est le plus retrouvé. Les termes italiens DNA spazzatura et portugais ADN lixo

assez inadaptés font plutôt références à de l’ADN ordure, qui ne serait pas valorisable.

3 positivement le “junk DNA” reprenant l’idée d’ADN bric-à-brac avec des potentialités5 : le nuon étant une séquence d’acides nucléiques définie, le potonuon étant une séquence d’acides nucléiques ayant la possibilité de devenir fonctionnelle.

En 2002, Kapranov et collègues [6] présentent des travaux ayant pour but d’analyser la part du génome exprimé en prenant pour exemples les chromosomes les plus petits du génome humain (les chromosomes 21 et 22 d’environ 50Mb). Ils élaborent une puce à ADN en créant 1 million de sondes espacés de 35nt sur l’intégralité de ces chromosomes (=tiling array). Sur ces 2 chromosomes, on sait qu’il y avait 770 gènes codants connus6. Sur ces 1 million de sondes, 2,6% des sondes hybridées l’étaient sur des régions géniques, montrant ainsi que le reste des sondes hybridées avait détecté un signal en dehors des modèles connus. Les raisons proposées quant à la non-observation préalable de ces entités géniques sont (1) que les modèles connus étaient à l’époque incomplets (i.e. pas tous connus et/ou pas full-length), (2) que le niveau d’expression des ARN inconnus était trop faible et (3) que les séquences de nombreux clones d’ADNc des bases de données publiques avaient été éliminés lors de filtres sur leur capacité à coder des protéines7 (Figure 1, partie basse). Ils concluent sur le fait que les transcriptomes sont encore loin d’avoir livré tous leurs secrets et qu’il existe certainement encore de nombreux transcrits inconnus à caractériser.

Figure 1 – Résultats synthétisés de Kapranov et collègues [6] sur leur expérience de tiling array sur les chromosomes 21 et 22. Les chiffres en bas font référence aux chiffres (1), (2) et

(3) du texte.

5 Un nuon est défini comme étant une séquence d’acides nucléiques qui est identifiable par un quelconque critère : exon, SINE (i.e. élément transposable) ou encore un élément de réponse. Les dérivés de nuons sont : potonuon (séquence nucléique avec la potentialité de devenir fonctionnelle), potogene (idem pour un gène ≈ pseudogène), xaptonuon (potonuon ayant acquis une nouvelle fonction) et naptonuon (potonuon qui n’a jamais acquis de fonction).

6 Pour information, aujourd’hui le même ordre de grandeur de gènes codants se trouve sur ces chromosomes : 724 gènes codants

7 Pour information, aujourd’hui 910 ARNlnc et 527 pseudogènes se trouvent sur ces chromosomes, ce qui montre qu’en effet, ces filtres avaient supprimé de nombreux modèles.

4 D’autres expériences de tiling array de plus grande ampleur (50M et 70M de sondes) ont montré également que l’annotation des gènes humains était encore fortement incomplète et qu’elle était fortement lacunaire en ARNnc [7, 8]. C’est par ces observations que naît en 2003-2004 le projet ENCODE [9] (ENCyclopedia Of DNA Elements) qui souhaite identifier tous les nuons possédant une fonction biologique. En 2005, le consortium FANTOM et deux autres groupes de recherche se sont alliés pour publier un article majeur [10] sur la transcription des génomes humain et murin montrant qu’il existerait autant – voire plus – de gènes non-codant pour des protéines que de gènes codant. En 2006, Willingham et Gingeras [11] résument ces dernières années de course à l’amélioration des annotations du génome humain par : “transcription is widespread throughout the genome and many-fold higher than existing genome annotations would predict”. Ce “junk DNA” n’est finalement pas si déchet que cela mais cette transcription généralisée n’est-elle pas que du bruit transcriptionnel ? C’est à cette question que Ponjavic et collègues en 2007 [12] tentent de répondre en argumentant en faveur d’une transcription fonctionnelle puisque ces transcrits sont enrichis en séquences soumises à une sélection purifiante conduisant à la conservation de l’intégrité des promoteurs et des jonctions d’épissage (et dans une moindre mesure, la séquence primaire). La même année Kapranov et collègues publient un article [13], résumé par Ponjavic et Ponting [14], qui définit pour la première fois la taille des futurs ARNlnc (i.e. ≥200nt) appelés ici, lRNAs (long RNAs). Ils créent également la classification des PALR (Promoter Associated Long RNAs) correspondant à de longs gènes non-codants antisens du promoteur et de l’extrémité 5’ d’un gène codant. Quelques mois plus tard, le consortium du projet ENCODE publie un article montrant que 5% du génome humain a été identifié comme étant sous contrainte évolutive : il est composé de 40% d’ARN codants, 20% de régions non-codantes identifiées et 40% de régions inconnues [15]. Ils expliquent également que leur annotation des ARNm semble quasiment complète mais pas celle des ARNnc.

Avec l’émergence, fin des années 2000, des technologies de séquençage haut débit [16], le séquençage des génomes (DNA-seq) et transcriptomes (RNA-seq) est devenu facilement accessible et à coûts réduits. A la suite du projet ENCODE, le sous-projet GENCODE est fortement impulsé par une subvention de l’Institut Américain de Recherche sur le Génome Humain (NHGRI). La première version accessible de GENCODE humain qui recense 47553 gènes (https://www.gencodegenes.org/) date de juillet 2009. Ce premier catalogue chez l’Homme répertorie 6496 loci de type ARNlnc. Une première publication de 2010 de Ørom et collègues sur un sous-set de 3019 ARNlnc montre l’importance des ARNlnc comme régulateurs

5 de l’expression génique [17, 18]. Ce rôle maintenant bien admis de régulateurs de l’expression génique (cf. 3.3 – Les différents mécanismes d’action des ARNlnc, p. 34) leur donne ainsi une importance majeure dans le fonctionnement du vivant. En effet, la régulation de l’expression génique est un levier de la différenciation tissulaire, de l’homéostasie des êtres vivants face aux conditions environnementales toujours changeantes, et également une cause majeure des différences phénotypiques entre les individus. A partir de cette date, les publications sur les ARNlnc commencent à augmenter progressivement comme indiqué en Figure 2. En 2012, Derrien et collègues publieront l’article majeur du sous-projet GENCODE sur les ARNlnc humain [19, 20], suivi en 2015 de l’annotation des ARNlnc chez la souris [21]. A partir de 2014-2015, on assiste à une course effrénée pour décrire les ARNlnc fortement impulsée par la Chine et les Etats-Unis [22] qui, contrairement aux ARNmi, n’a pas encore atteint son maximum d’effervescence (Figure 2).

Figure 2 – Etude bibliométrique8 des ARNlnc, ARNmi et ARNcirc de 2007 à 2018.

Pour conclure, en 2015, Francis Collins, directeur du NIH, s’est exprimé9 sur le “junk DNA” et les récentes découvertes sur l’épigénome impliqué dans les processus de régulation : « I would say, in terms of junk DNA, we don't use that term any more 'cause I think it was pretty much a case of hubris to imagine that we could dispense with any part of the genome as if we knew enough to say it wasn't functional. There will be parts of the genome that are just, you know, random collections of repeats, like ALU's, but most of the genome that we used to think was

8 Recherche sur PubMed: ((Journal Article[Publication Type] OR Review[Publication Type]) AND "lncrna"[MeSH Terms]) AND (("2007/01/01"[PDAT] : "2018/12/31"[PDAT]) AND English[lang])

6 there for spacer turns out to be doing stuff and most of that stuff is about regulation and that's where the epigenome gets involved, and is teaching us a lot. ».

1.1.2 – Premier objectif de ma thèse : annotation des ARNlnc chez les espèces d’élevage dont la poule

Au démarrage de ma thèse, fin 2015, l’annotation des gènes humains comprenait environ 20000 gènes codant pour des protéines et 15000 gènes à ARNlnc. Les statistiques des espèces modèles comme la souris, le poisson-zèbre et la drosophile mentionnaient entre 14000 et 26000 gènes codant pour des protéines et seulement 2300 à 6800 gènes à ARNlnc soit 2 à 6 fois moins que chez l’Homme (Tableau 1). Ces derniers chiffres montrent, à cette époque, un certain retard de l’annotation chez les espèces modèles par rapport à l’Homme, retard toujours présent aujourd’hui avec 9602 (+40%) ARNlnc chez la souris et 3278 (+20%) chez le poisson-zèbre dans la v.93.6 d’Ensembl de juillet 2018, soit des nombres bien inférieurs aux 15000 gènes ARNlnc humains. Pour les espèces d’élevage, cet effort d’annotation des génomes au niveau des gènes à ARNlnc n’avait pas encore été amorcé puisque 0, 0 et 135 ARNlnc étaient recensés fin 2015 dans la base de données Ensembl (version 83 de décembre 2015) chez la poule, le bovin et le porc respectivement (Tableau 1). Dans ce cadre, le premier

objectif de ma thèse était d’établir un premier catalogue d’ARNlnc chez la poule grâce à des

données de RNA-seq. Les données de RNA-seq correspondent à un très grand nombre (~100 millions) de courtes séquences (~100nt) appelés lectures, et correspondant à des fragments de transcrits du tissu et de l’individu analysé.

Tableau 1 – Annotations d’Ensembl v.83 (décembre 2015) de l’Homme, de 3 espèces modèles souris, poisson-zèbre, drosophile et de 3 espèces d’élevage poule, bovin et porc.

Gènes codant pour des protéines Pseudogènes Gènes à petits ARN non-codants Gènes à ARN longs non-codants Homme 20313 14453 7703 14896 Souris 22533 9349 5530 6830 Poisson-zèbre 25642 293 3172 2741 Drosophile 13918 257 1018 2366 Poule 15508 42 1408 0 Bovin 19994 797 3650 0 Porc 21630 568 2804 135

7 Très brièvement, à partir de données RNA-seq de foies et tissus adipeux de poulets de chair, nous avons modélisé, sur le génome de référence Galgal4, de nouvelles entités géniques, desquelles nous avons établi un premier catalogue de 1670 ARNlnc de nos deux tissus exprimés de façon reproductible. Ce premier catalogue a été publié en janvier 2017 dans la revue Genetics Selection Evolution [23] (Résultats – Partie I – 1 – Annotation des ARNlnc du foie et du tissu adipeux chez la poule, p. 48). Sur la même période (octobre 2016), un nouvel assemblage du génome de la poule Gallus_gallus-5.0 (alias Galgal5) ainsi qu’une nouvelle annotation sont parus dans les bases de données publiques d’Ensembl (v.86.5) et du NCBI (v.103). Cette nouvelle annotation apportait environ 8000 ARNlnc. Nous avons fait une comparaison de notre catalogue par rapport aux deux ensembles d’ARNlnc des bases de données publiques. Ces travaux ont été présentés sous la forme d’un poster (p. 252) et d’un article vulgarisé rédigé en français (Résultats – Partie I – 1.3 – , p. 73) lors des 12ème Journées de la Recherche Avicole.

Mes connaissances et mon expertise sur les ARNlnc m’ont également permis d’intégrer le projet pilote INRA FR-AgENCODE qui vise à améliorer l’annotation des génomes des espèces d’élevage dans le cadre d’un projet international plus large appelé FAANG (Functional Annotation of Animal Genome). J’ai ainsi pu participer à l’annotation des ARNlnc chez le bovin, le porc, la chèvre et la poule à partir de données RNA-seq de foie et de deux types cellulaires (lymphocytes T CD4+ et T CD8+). Les expressions de ces gènes connus ou nouvellement identifiés ont alors été intégrées à d’autres analyses de données de type Hi-C et ATAC-seq et ont fait l’objet d’une publication soumise en juillet 2018 dans Genome Biology [24] (Résultats – Partie I – 2 – Annotation des ARNlnc des lymphocytes T (CD4+, CD8+) et du foie chez 4 espèces d’élevage : le bovin, la chèvre, le porc et la poule, p.79).

Début 2017, en collaboration avec nos collègues de la plateforme de bio-informatique de Toulouse, nous avons relancé nos pipelines d’alignement de lectures et modélisation de gènes en apportant une nouvelle série de 364 expériences RNA-seq issues d’échantillons de foie, tissu adipeux, sang et hypothalamus de poules commerciales. Nous avons ainsi modélisé 38612 ARNlnc nouveaux par rapport à l’annotation d’Ensembl pris en référence pour l’alignement des lectures et la modélisation des gènes faisant un total de 44583 ARNlnc. En binôme avec Frédéric Jehl, autre doctorant du laboratoire, nous avons ajouté à ce catalogue les modèles géniques de type long non-codant ne chevauchant pas les modèles précédents et provenant d’autres sources publiques. Il s’agit de la base de données publique du NCBI ainsi que les bases de données spécialisées de NONCODE [25] et ALDB [26] qui proposent des

8 catalogues indépendants d’ARNlnc. On y a ajouté, de la même manière, les ARNlnc du sous-projet FR-AgENCODE [24] dont il a été parlé ci-dessus. Cet effort de regroupement des sources précitées a permis de former un nouveau catalogue de 59486 ARNlnc. La constitution de ce nouveau catalogue (Résultats – Partie I – 3 – Mise à jour du catalogue d’ARNlnc chez la poule en apportant de nouvelles données RNA-seq et en combinant plusieurs bases de données, p.126) sera intégré dans un article plus large qui est en préparation.