• Aucun résultat trouvé

Partie 2 : Activités de recherche : Bilan et perspectives

5. Epigénome, fertilité et architecture nucléaire

5.2 Annotation fonctionnelle des génomes par la capture de conformation

5.2.2 Premiers résultats du projet Fr-Agencode

Le principe du Hi-C consiste à étudier la structure 3D du génome dans le noyau. Pour cela nous fixons les cellules pour figer la structure du génome dans le noyau. Puis nous perméabilisons les membranes plasmiques et réalisons in nucleus la digestion de l’ADN par une enzyme de restriction (HindIII). Les sites digérés sont ensuite remplis in nucleus par la Klenow et des dNTPs biotinilés puis religués. L’ADN est purifié, soniqué et les fragments religués et biotinilés purifiés puis séquencés (Figure 21). Le séquençage paired-end permet d’avoir les lectures de chaque extrémité. Celles-ci sont ensuite assignées sur le génome de référence puis comptabilisées sous forme de matrice pour réaliser des matrices d’interactions en fonction des fréquences d’associations dans les fragments séquencés.

Figure 21 : Le principe du Hi-C (Rao et al . 2014).

La première étape du projet a consisté à tester et définir les protocoles pour la réalisation des cartes d’interactions tout-génome. J’ai consacré plusieurs mois (de juillet 2014 à février 2015) à adapter le protocole publié par Lieberman-Aiden et al. 2009 sur des lignées cellulaires murines et porcines puis sur des hépatocytes porcins.

Assez rapidement nous avons réussi à produire des fragments religués correspondant à la formation de boucle, (Figure 22) détectés par une PCR entre deux sites HindIII avec des amorces sens.

98

Figure 22 : Validation des étapes de digestion et ligation in nucleus.

A : schéma explicatif pour la validation par PCR. Deux amorces sens sont dessinées entre deux sites de restriction pour l’enzyme utilisée (ici HindIII). L’étape de ligation permet d’inverser l’orientation de l’ADN et donc l’orientation des amorces. D’autre part le remplissage du site HindIII par la Klenow crée un site NheI dans le cas du Hi-C.

B : Amplification PCR et digestion des amplicons par HindIII et NheI. Les deux amorces sens n’amplifient pas l’ADN génomique par contre des amplicons sont observés après ligation de l’ADN digéré par HindIII. Dans le protocole 3C, où l’ADN est digéré par HindIII et ligué, l’amplicon est digéré par HindIII mais pas par NheI. Dans le protocole Hi-C, où l’ADN est digéré, rempli par la Klenow et ligué, le site HindIII est détruit et transformé en site NheI. On observe alors que l’amplicon est digéré par NheI et non par HindIII, validant le protocole Hi-C in nucleus.

Une fois validée l’étape moléculaire in nucleus, nous avons réalisé un premier set de librairies pour séquençage. La réalisation des librairies s’appuie sur le protocole mate-pair (Illumina Nextera Mate Pair Library kit). 3 librairies ont été séquencées sur une ligne Hi-seq 2500 à environ 80 millions de lecture par librairie. Ces 3 librairies correspondent à une lignée de fibroblastes embryonnaires murins (STO), à une lignée de cellules iPSCs porcines et à des hépatocytes porcins.

Les lectures ont été alignées sur les génomes de référence murin et porcin avec une bonne efficacité (95% pour le génome murin et 75% pour le génome porcin). Avec Sylvain Foissac et Matthias Zytnicki nous avons ensuite analysé la qualité des lectures pour la réalisation des cartes Hi-C avec le software

First attempt …  Gene exon

Primer1 Primer2

HindIII Primer1 Primer2

HindIII 3C

Hi-C

ADN 3C

No HdIII NheI No HdIII NheI No HdIII NheI

ADN Hi-C ADN Hi-C replicate Contrôle positif PCR HindIII Primer1 Primer2 NheI-biotin ADN génomique

A

B

99

Hi-C Pro (Zhang et al. 2012). En effet les matrices d’interaction associent les lectures d’un segment génomique localisé entre deux sites HindIII avec d’autres segments génomiques. Si les lectures sont localisées sur le même segment, elles ne sont donc pas utilisées.

Nous avons ainsi obtenu 89% de paires valides pour la librairie de fibroblastes murins, 31 % pour les cellules iPS porcines et 13% pour les hépatocytes (Figure 23).

Si les résultats pour les librairies porcines étaient décevants (surtout pour le foie) nous avons pu réaliser un premier set de cartes d’interaction (Figure 23).

Figure 23 : Réalisation des

premières cartes Hi-C Analyse avec le software Hi-C Pro des lectures issues des 3 librairies. La plupart des lectures invalidées (dangling ends en orange clair) sont due au fait qu’elles se situent dans le même fragment génomique. La proportion de paires de lectures valides est représentée en bleu : 89% pour les fibroblastes murins, 32% pour les iPSCs porcines et 8% pour les hépatocytes.

Cartes d’interactions sur le chromosome 16 porcin réalisées à partir des lectures des 2 librairies. On observe une densité de lecture plus forte sur la diagonale et des structures en carré correspondant aux domaines de chromatine ou TADs (topologically associated domains).

100

A partir des cartes réalisées sur nos données, on retrouve des structures typiques chromatiniennes ou TADs (topologically associated domains, Pope et al. 2014) qui sont illustrées par des carrés encadrant la diagonale.

Ce premier test ayant été globalement concluant mais nécessitant des optimisations pour réaliser des cartes à haute résolution, j’ai écris un deuxième projet visant à :

 Optimiser la production des librairies Hi-C sur cellules et tissus frais ou congelés.

Actuellement, au laboratoire, seulement 30-40% des lectures issues des librairies Hi-C construites dans le cadre du projet Fr-Agencode financé par le méta-programme SelGen, sont exploitables pour la réalisation des cartes d’interactions. En travaillant sur les différentes purifications et « sizing », nous souhaitons arriver à au moins 80% des lectures exploitables pour la création des cartes. Nous souhaitons aussi adapter notre protocole pour des tissus frais congelés et en évaluer la faisabilité et la pertinence scientifique. En effet, il existe déjà un grand nombre de tissus stockés frais congelés et cela permettrait aussi de faciliter les campagnes de prélèvements et de stockage des échantillons. L’optimisation des protocoles représente une économie forte sur les frais de séquençage pour la production de données à grande échelle et à haute résolution. Ces aspects ne sont pas financés par le projet FrAgencode.

 Etudier l’effet d’un génotype pour l’organisation génomique 3D de la cellule musculaire à deux stades de développement

A partir des animaux produits dans le cadre du projet - Etude de la maturité des porcelets in utero-, nous souhaitons réaliser des cartes d’interactions du muscle fœtal issu de deux génotypes porcins extrêmes, Meishan et Large White ainsi que de leur croisements réciproques. Dans le cadre de ce projet, nous allons nous restreindre à un seul génotype (Large White) et deux stades de développement musculaire (90 jours et 110 jours) car le transcriptome a révélé de grandes différences entre ces deux stades. Une fois optimisé le protocole, les comparaisons entre génotypes seront réalisées dans le cadre d’un projet plus ambitieux soumis à l’IDEX Emergence de l’université Paul Sabatier.

Ce projet, intitulé INTERPIG, a été financé par le département de Génétique animale à hauteur de 15k€ et est actuellement en cours de réalisation.

101