• Aucun résultat trouvé

Amélioration de l’assemblage et de l’annotation du génome

4.5 Utilisation en tant que modèle biologique

4.5.3 Amélioration de l’assemblage et de l’annotation du génome

Comme indiqué précédemment, le modèle X. tropicalis souffre tout de même et malheureusement d’un manque de ressources permettant d’améliorer non seulement l’assemblage de son génome et mais également son annotation (Gilchrist et Pollet, 2012). Au cours de mon doctorat, j’ai participé aux efforts conduits par l’équipe d’accueil pour diminuer la fragmentation du génome et pour apporter une annotation pertinente pour la réalisation d’études de génomique fonctionnelle (Grimaldi et al., 2013 ; Annexe A- 2). Ces efforts ont été particulièrement importants dans l’exploitation des données de ChIA-PET (analyse des interactions de la chromatine par séquençage de tags appariés, “chromatin interaction analysis by paired-end tag sequencing”) (Annexe A- 3) et dans une moindre mesure des résultats présentés dans ce manuscrit. Cependant, ces travaux m’ont permis de me familiariser avec ce génome et les outils bioinformatiques qu’il convient d’adapter pour son étude.

En particulier, l’utilisation du gPET (séquençage de tags appariés d’ADN génomique, “genomic DNA pair-end tag sequencing”) permet de réduire la fragmentation de l’assemblage actuel de 60 % en reconstruisant des chaînes de scaffolds. L’assemblage utilisé (version 4.1) présente de nombreux trous d’assemblages (Figure 10.1 de la revue Grimaldi et al., 2013 ; Annexe A- 2). Curieusement, près de la moitié des trous d’assemblage font exactement 50 pb, et correspondent à des trous de taille inconnue. Dans ce contexte, j’ai réutilisé les données de gPET afin de réévaluer ces trous d’assemblage à une taille moyenne d’environs 500 pb, correspondant à près de 15 Mpb (méga paire de bases) supplémentaires (Annexe A- 3, section “Large insert DNA-PET significantly reduced complexity of genome assembly”, premier paragraphe et Figures supplémentaires 3 à 7). Bien que le contenu en séquence connue des ces trous soit inchangé, l’estimation de leur taille réelle se révèle être une ressource précieuse, non-seulement pour

l’analyse des données de NGS produites par l’équipe, mais également dans le cadre d’expériences de biologie humide en proposant une image plus réelle de la lecture linéaire que nous pouvons avoir de la séquence du génome.

Dans un second temps, les modèles de gènes ont été reconstruits grâce à l’utilisation combinée de la technologie de RNA-Seq (séquençage des ARN, “RNA sequencing”) et de RNA-PET (sequençage de tags appariés d’ARN pleine longueur, “paired-end tags sequencing of full length RNA”). Une façon de valider les nouveaux modèles de gènes est de caractériser le positionnement de l’ARN-Pol-II au niveau de leur partie 5’. En effet, de façon surprenante, l’ARN-Pol-II tend à s’accumuler fortement à l’extrémité 5’ des gènes transcrits (et certains non transcrits activement), avec une densité maximale 25 à 50 pb en aval du TSS. J’ai donc effectué un ChIP-Seq (séquençage massif des produits d’immunoprécipitation de chromatine, “deep sequencing of chromatin immunoprecipitation products”) dirigé contre ARN-Pol-II. Les profils d’occupation de ARN-Pol-II montrent bien un enrichissement 30 à 50 pb en aval du TSS, ce qui n’est pas le cas pour une majorité des modèles de gènes publiés (Annexe A- 3, section “Genome re-annotation with RNA-PET and RNA-Seq”, huitième paragraphe, Figures 4 et 5, Figure supplémentaire 27). Ces résultats confirment fortement la qualité des nouveaux modèles de gènes.

CHAPITRE

5

Stratégies et Démarches Expérimentales

Les tissus ont été traités dans différentes conditions et les ARN extraits (Figure 5.1 vert). La mesure du niveau d’expression des transcrits a ensuite été fortement parallélisée, à l’aide des techniques modernes de séquençage massif (Figure 5.1 cyan). Les séquences brutes ont été nettoyées et ont subi tout un ensemble de contrôles qualité, avant d’être associées à leur gène cible (Figure 5.1 orange). Tout au long de cette trame, des contrôles qualités sont menés pour valider la qualité des échantillons biologiques et de la mesure effectuée par séquençage (Figure 5.1 violet). Les mesures digitales d’expression des gènes ainsi obtenues ont permis de déterminer les gènes différentiellement exprimés, de dériver des profils d’expression (“clustering”) et d’isoler les gènes soumis à une régulation spécifique des co-traitement HT - GC. La fouille ultérieure des données (étape communément appelée “intégration des données”) a permis de traduire les listes de gènes différentiellement exprimés en processus biologiques affectés par les interactions croisées en HTs et GCs. La trame générale des principales étapes méritant une attention particulière est présentée Figure 5.1.

Elevage de têtards stades NF54

Prélèvement des queues des pattes posterieuresPrélèvement

Culture des queues 24h DMSO / T3 10 nM / CORT 100 nM

Culture des pattes 24h DMSO / T3 10 nM / CORT 100 nM

Traitement 24h DMSO / T3 10 nM / CORT 100 nM

Extraction des ARN totaux Dissection des tissus et conservation à -80ºC

Quantification des ARN (Spectrophotometrie)

Verification de la qualité des ARN (Bioanalyser)

Verification de l'effet macroscopique de la T3

Transcription Inverse

Vérification des effets hormonaux (RTqPCR klf9) Séléction des ARNm par poly-dT

Fragmentation Reverse transcription

(ADNc double brin)

Réparation des extrémités (génération de bouts francs)

Ajout d'une base A en 3'

Ligation des séquences adaptatrices

Dénaturation et amplification par PCR

Hybridation des constructions sur la cellule de séquençage

Génération de clones par PCR en phase solide Réaction de séquençage (voir Figure XX) Prétraitement et conversion du signal en base Contrôles Qualité (FastQC) Elimination de la redondance

Rabottage des séquences en 5' et 3'

Repositionnement des séquences sur le génome de référence

Comptage du nombre de séquences chevauchant les modèles de gènes

Mesure de l'expression différentielle (DESeq) Normalisation et élimination des

effets de lot

Analyse Vérification par qPCR

de la gamme dynamique du RNA-Seq

Figure 5.1 – Diagramme de la démarche experimentale. Vert : Préparation et collection des échantillons biologiques. Cyan : Préparation des banques et séquençage. Orange : Traitement des données. Violets : Contrôles et vérifications.

5.1 Collection des échantillons biologiques