3.2 Méthodologie
3.2.3 Étude de la transcription des gènes hépatiques des femelles F0
Le transcriptome hépatique de femelles de la génération parentale F0 a été séquencé.
Cette étape a été effectuée sur quatre femelles de chaque condition d’exposition. Pour cela,
après sacrifice, le lobe antérieur droit du foie a été prélevé, puis immédiatement immergé
dans l’azote liquide et stocké à −80 °C. Les ARN totaux ont été extraits à l’aide du kit
RNAqueous
®-4PCR suivant les instructions établies par le fabricant (Ambion). Le contrôle
de la qualité des ARN, la préparation des librairies d’ADN complémentaire (ADNc) à partir
des ARN extraits et leur séquençage ont été réalisés en sous-traitance par l’entreprise de
services génomiques Helixio (Groupe Hybrigenics, Saint Beauzire, France). La qualité des
ARN extraits a été évaluée sur BioAnalyseur 2100 (Agilent Technologies). Les librairies
d’ADNc servant de support au séquençage ont été générées à partir de 400 ng d’ARN à l’aide
du kit TruSeq Stranded mRNA Sample Preparation (Illumina Inc). Les échantillons ont été
séquencés par fragments simple brin de 75 paires de base (pb).
Le traitement bio-informatique des données de séquençage a été effectué via la
plateforme Galaxy implantée sur un serveur du pôle Rhône-Alpes de bio-informatique
(PRABI, http://galaxy.prabi.fr/, Figure 3.2). La première étape du traitement a été le
nettoyage des données brutes du séquençage. La technologie de séquençage Illumina génère
pour chaque base un score de qualité appelé score « Phred » rendant compte de la probabilité
d’une mauvaise assignation de base nucléique pour une position donnée sur une séquence
(Tableau 3.2). Il caractérise ainsi la qualité d'une séquence d'ADN (Illumina Inc., 2011).
Tableau 3.2 : Interprétation des scores de qualité Phred établis lors du séquençage
Score Phred Probabilité de mauvaise assignation Précision de l'identification d'une base
10 1 pour 10 90 %
20 1 pour 100 99 %
30 1 pour 1 000 99,9 %
40 1 pour 10 000 99,99 %
50 1 pour 100 000 99,999 %
Dans un premier temps et sur la base de ces scores de qualité, les données brutes
générées par le séquençage ont été filtrées avec l’outil Trimmomatic (v0.32.1) implanté sur la
plateforme Galaxy (Bolger et al., 2014 ; Figure 3.2). Il s’agit d’un algorithme permettant
d’éliminer du jeu de données les séquences ou les portions de séquences ne répondant pas
aux seuils de qualité prédéfinis par l’utilisateur. Les paramètres choisis dans le cadre de cette
étude sont présentés dans le tableau 3.3.
Tableau 3.3 : Paramètres qualitatifs appliqués au nettoyage des séquences brutes par l’outil Trimmomatic
Paramètre de qualité Seuil établi Action
Phred moyen sur une fenêtre glissante de 4 paires de bases Phred < 17 Suppression de la séquence Score Phred des bases en 5’ et 3’ considérées une par une Phred < 20 Suppression des bases
Taille totale du fragment résultant Phred < 50 Suppression de la séquence
La deuxième étape du traitement bio-informatique consiste en l’alignement des
séquences filtrées sur un génome de référence, puis à l’assemblage et à la comparaison des
taux de transcription des gènes selon les conditions d’expositions (Figure 3.2). Cette phase a
été réalisée suivant la méthode développée par l’équipe de Cole Trapnell (Roberts et al., 2011;
Trapnell et al., 2013). Dans un premier temps, les séquences filtrées de chaque échantillon
ont été alignées à l’aide de l’outil TopHat 2 implanté sur Galaxy (Trapnell et al., 2009) sur la
séquence du génome de référence de Xenopus tropicalis
(ftp://ftp.ensembl.org/pub/release-79/gtf/xenopus_tropicalis/Xenopus_tropicalis.JGI_4.2.79.gtf.gz, assemblage JGI4.2 avec la
version 79 de l’annotation Ensembl). L’outil TopHat 2 (v0.6) présente l’avantage de prendre
en compte les séquences potentiellement à cheval sur un site d’épissage, augmentant ainsi
grandement le nombre de séquences alignées sur le génome et prises en compte dans la suite
de l’analyse. L’objectif de notre étude n’étant pas de réannoter de nouveaux transcrits
potentiels, les paramètres d’alignement ont été définis de manière stringente. Ainsi, les
insertions et délétions n’ont pas été autorisées lors de l’alignement des séquences sur le
génome. En outre, la fonction coverage search a été appliquée pour chacun des alignements,
permettant ainsi de maximiser la spécificité des alignements. Les différents paramètres utilisés
lors de cette étape sont présentés dans le tableau 3.4.
Tableau 3.4 : Paramètres appliqués à l’alignement des séquences sur le génome de référence par l’outil TopHat 2
Paramètre considéré Seuil
Nombre de différence maximum avec la séquence de référence (mésappariement, insertions, délétions) 2
Nombre de mésappariements maximum 2
Taille minimum des introns (pb) 45
Taille maximum des introns (pb) 250 000
Nombre maximum d’alignements sur le génome1 1
Taille minimum de l’alignement de part et d’autre d’un potentiel site d’épissage (pb) 8 Nombre de mésappariements maximum dans les régions autour d’un site d’épissage 0
Note : 1Seul le meilleur alignement est pris en compte dans le fichier de sortie.
Les différents fragments de séquences alignées ont été assemblés avec l’outil
Cufflinks (v0.0.7) également implanté sur la plateforme Galaxy (Figure 3.2). Cette étape a
permis de générer un transcriptome hépatique par échantillon en utilisant le génome de
Xenopus tropicalis comme carte de référence. Cufflinks comprend un script nommé Cuffmerge
(v0.0.6) permettant de fusionner plusieurs assemblages issus de Cufflinks. Ainsi trois
transcriptomes expérimentaux ont été générés. Il s’agit de la fusion des transcriptomes
hépatiques des quatre femelles témoins avec les transcriptomes hépatiques des femelles
exposées aux perturbateurs endocriniens seuls ou en mélange. En conséquence, ce sont les
différentes conditions d’expositions qui sont à l’origine des trois différents transcriptomes
expérimentaux générés (BaP, TCS et mélange). Ces transcriptomes expérimentaux
présentent l’avantage de concentrer les efforts de calcul sur les transcrits réellement observés
dans nos échantillons, et non sur l’ensemble des transcrits référencés chez Xenopus tropicalis,
lors de la phase suivante de comparaison de la transcription des gènes entre les échantillons.
Les niveaux de transcription des gènes ont été calculés à partir des alignements
effectués par TopHat 2 et comparés statistiquement à l’aide de l’outil Cuffdiff (v0.0.7)
implanté sur Galaxy (Figure 3.2). Les niveaux de transcription ont été comparés gène par
gène entre les quatre réplicas issus des femelles témoins et les quatre réplicas issus de femelles
exposées aux perturbateurs endocriniens. Les gènes présentant un rapport de transcription
supérieur à 1,8 ou inférieur à 0,55 ainsi qu’une q-valeur inférieure à 0,05 entre individus
exposés et témoins ont été considérés comme différentiellement transcrits.
L’outil bio-informatique DAVID (Bioinformatics Resources, v6.7) a été utilisé afin
d’étudier de façon statistique l’enrichissement de certaines voies métaboliques au sein des
données transcriptomiques (Huang et al., 2009). Pour ce faire, le logiciel doit être renseigné
avec deux listes de gènes : les gènes significativement sur ou sous-transcrits ainsi que
l’ensemble des gènes détectés qui constitue le background ou fond de transcription. Cet outil
n’étant pas renseigné avec le génome du xénope, l’ensemble des gènes détectés a dû être
converti en gènes humains par homologie à l’aide de l’outil BioMart d’Ensembl (Vilella et al.,
2009). Cependant, il arrive que les homologies ne soient pas assez robustes ou que les gènes
de xénopes et d’humains associés n’aient pas la même fonction chez les deux organismes.
Pour une meilleure validité de cette phase, toutes les associations de gènes ont donc été
vérifiées une à une en s’appuyant sur les dernières mises à jour (août 2015) d’UniProt
(Universal Protein Ressource ; UniProt consortium, 2015). L’outil DAVID génère une liste
de catégories fonctionnelles de gènes enrichis définies par des termes Gene Ontology (GO).
La significativité de l’enrichissement a été calculée à l’aide d’un test de Fisher (p < 0,05). Les
Séquences brutes
Ø1 Ø2 Ø3 Ø4 B1 B2 B3 B4 T1 T2 T3 T4 M1 M2 M3 M4
Séquences filtrés
Séquences alignés
Transcrits détectés
Comparaison des niveaux de transcription : Cuffdiff Filtrage qualitatif des données : Trimmomatic
Alignement des séquences sur génome de référence : TopHat 2
Assemblage des transcrits : Cufflinks
Création des transcriptomes expérimentaux : Cuffmerge
Transcriptome expérimentaux
BaP TCS
Témoins BaP/TCS
Réplicas d’expositions