• Aucun résultat trouvé

3.2 Méthodologie

3.2.3 Étude de la transcription des gènes hépatiques des femelles F0

Le transcriptome hépatique de femelles de la génération parentale F0 a été séquencé.

Cette étape a été effectuée sur quatre femelles de chaque condition d’exposition. Pour cela,

après sacrifice, le lobe antérieur droit du foie a été prélevé, puis immédiatement immergé

dans l’azote liquide et stocké à −80 °C. Les ARN totaux ont été extraits à l’aide du kit

RNAqueous

®

-4PCR suivant les instructions établies par le fabricant (Ambion). Le contrôle

de la qualité des ARN, la préparation des librairies d’ADN complémentaire (ADNc) à partir

des ARN extraits et leur séquençage ont été réalisés en sous-traitance par l’entreprise de

services génomiques Helixio (Groupe Hybrigenics, Saint Beauzire, France). La qualité des

ARN extraits a été évaluée sur BioAnalyseur 2100 (Agilent Technologies). Les librairies

d’ADNc servant de support au séquençage ont été générées à partir de 400 ng d’ARN à l’aide

du kit TruSeq Stranded mRNA Sample Preparation (Illumina Inc). Les échantillons ont été

séquencés par fragments simple brin de 75 paires de base (pb).

Le traitement bio-informatique des données de séquençage a été effectué via la

plateforme Galaxy implantée sur un serveur du pôle Rhône-Alpes de bio-informatique

(PRABI, http://galaxy.prabi.fr/, Figure 3.2). La première étape du traitement a été le

nettoyage des données brutes du séquençage. La technologie de séquençage Illumina génère

pour chaque base un score de qualité appelé score « Phred » rendant compte de la probabilité

d’une mauvaise assignation de base nucléique pour une position donnée sur une séquence

(Tableau 3.2). Il caractérise ainsi la qualité d'une séquence d'ADN (Illumina Inc., 2011).

Tableau 3.2 : Interprétation des scores de qualité Phred établis lors du séquençage

Score Phred Probabilité de mauvaise assignation Précision de l'identification d'une base

10 1 pour 10 90 %

20 1 pour 100 99 %

30 1 pour 1 000 99,9 %

40 1 pour 10 000 99,99 %

50 1 pour 100 000 99,999 %

Dans un premier temps et sur la base de ces scores de qualité, les données brutes

générées par le séquençage ont été filtrées avec l’outil Trimmomatic (v0.32.1) implanté sur la

plateforme Galaxy (Bolger et al., 2014 ; Figure 3.2). Il s’agit d’un algorithme permettant

d’éliminer du jeu de données les séquences ou les portions de séquences ne répondant pas

aux seuils de qualité prédéfinis par l’utilisateur. Les paramètres choisis dans le cadre de cette

étude sont présentés dans le tableau 3.3.

Tableau 3.3 : Paramètres qualitatifs appliqués au nettoyage des séquences brutes par l’outil Trimmomatic

Paramètre de qualité Seuil établi Action

Phred moyen sur une fenêtre glissante de 4 paires de bases Phred < 17 Suppression de la séquence Score Phred des bases en 5’ et 3’ considérées une par une Phred < 20 Suppression des bases

Taille totale du fragment résultant Phred < 50 Suppression de la séquence

La deuxième étape du traitement bio-informatique consiste en l’alignement des

séquences filtrées sur un génome de référence, puis à l’assemblage et à la comparaison des

taux de transcription des gènes selon les conditions d’expositions (Figure 3.2). Cette phase a

été réalisée suivant la méthode développée par l’équipe de Cole Trapnell (Roberts et al., 2011;

Trapnell et al., 2013). Dans un premier temps, les séquences filtrées de chaque échantillon

ont été alignées à l’aide de l’outil TopHat 2 implanté sur Galaxy (Trapnell et al., 2009) sur la

séquence du génome de référence de Xenopus tropicalis

(ftp://ftp.ensembl.org/pub/release-79/gtf/xenopus_tropicalis/Xenopus_tropicalis.JGI_4.2.79.gtf.gz, assemblage JGI4.2 avec la

version 79 de l’annotation Ensembl). L’outil TopHat 2 (v0.6) présente l’avantage de prendre

en compte les séquences potentiellement à cheval sur un site d’épissage, augmentant ainsi

grandement le nombre de séquences alignées sur le génome et prises en compte dans la suite

de l’analyse. L’objectif de notre étude n’étant pas de réannoter de nouveaux transcrits

potentiels, les paramètres d’alignement ont été définis de manière stringente. Ainsi, les

insertions et délétions n’ont pas été autorisées lors de l’alignement des séquences sur le

génome. En outre, la fonction coverage search a été appliquée pour chacun des alignements,

permettant ainsi de maximiser la spécificité des alignements. Les différents paramètres utilisés

lors de cette étape sont présentés dans le tableau 3.4.

Tableau 3.4 : Paramètres appliqués à l’alignement des séquences sur le génome de référence par l’outil TopHat 2

Paramètre considéré Seuil

Nombre de différence maximum avec la séquence de référence (mésappariement, insertions, délétions) 2

Nombre de mésappariements maximum 2

Taille minimum des introns (pb) 45

Taille maximum des introns (pb) 250 000

Nombre maximum d’alignements sur le génome1 1

Taille minimum de l’alignement de part et d’autre d’un potentiel site d’épissage (pb) 8 Nombre de mésappariements maximum dans les régions autour d’un site d’épissage 0

Note : 1Seul le meilleur alignement est pris en compte dans le fichier de sortie.

Les différents fragments de séquences alignées ont été assemblés avec l’outil

Cufflinks (v0.0.7) également implanté sur la plateforme Galaxy (Figure 3.2). Cette étape a

permis de générer un transcriptome hépatique par échantillon en utilisant le génome de

Xenopus tropicalis comme carte de référence. Cufflinks comprend un script nommé Cuffmerge

(v0.0.6) permettant de fusionner plusieurs assemblages issus de Cufflinks. Ainsi trois

transcriptomes expérimentaux ont été générés. Il s’agit de la fusion des transcriptomes

hépatiques des quatre femelles témoins avec les transcriptomes hépatiques des femelles

exposées aux perturbateurs endocriniens seuls ou en mélange. En conséquence, ce sont les

différentes conditions d’expositions qui sont à l’origine des trois différents transcriptomes

expérimentaux générés (BaP, TCS et mélange). Ces transcriptomes expérimentaux

présentent l’avantage de concentrer les efforts de calcul sur les transcrits réellement observés

dans nos échantillons, et non sur l’ensemble des transcrits référencés chez Xenopus tropicalis,

lors de la phase suivante de comparaison de la transcription des gènes entre les échantillons.

Les niveaux de transcription des gènes ont été calculés à partir des alignements

effectués par TopHat 2 et comparés statistiquement à l’aide de l’outil Cuffdiff (v0.0.7)

implanté sur Galaxy (Figure 3.2). Les niveaux de transcription ont été comparés gène par

gène entre les quatre réplicas issus des femelles témoins et les quatre réplicas issus de femelles

exposées aux perturbateurs endocriniens. Les gènes présentant un rapport de transcription

supérieur à 1,8 ou inférieur à 0,55 ainsi qu’une q-valeur inférieure à 0,05 entre individus

exposés et témoins ont été considérés comme différentiellement transcrits.

L’outil bio-informatique DAVID (Bioinformatics Resources, v6.7) a été utilisé afin

d’étudier de façon statistique l’enrichissement de certaines voies métaboliques au sein des

données transcriptomiques (Huang et al., 2009). Pour ce faire, le logiciel doit être renseigné

avec deux listes de gènes : les gènes significativement sur ou sous-transcrits ainsi que

l’ensemble des gènes détectés qui constitue le background ou fond de transcription. Cet outil

n’étant pas renseigné avec le génome du xénope, l’ensemble des gènes détectés a dû être

converti en gènes humains par homologie à l’aide de l’outil BioMart d’Ensembl (Vilella et al.,

2009). Cependant, il arrive que les homologies ne soient pas assez robustes ou que les gènes

de xénopes et d’humains associés n’aient pas la même fonction chez les deux organismes.

Pour une meilleure validité de cette phase, toutes les associations de gènes ont donc été

vérifiées une à une en s’appuyant sur les dernières mises à jour (août 2015) d’UniProt

(Universal Protein Ressource ; UniProt consortium, 2015). L’outil DAVID génère une liste

de catégories fonctionnelles de gènes enrichis définies par des termes Gene Ontology (GO).

La significativité de l’enrichissement a été calculée à l’aide d’un test de Fisher (p < 0,05). Les

Séquences brutes

Ø1 Ø2 Ø3 Ø4 B1 B2 B3 B4 T1 T2 T3 T4 M1 M2 M3 M4

Séquences filtrés

Séquences alignés

Transcrits détectés

Comparaison des niveaux de transcription : Cuffdiff Filtrage qualitatif des données : Trimmomatic

Alignement des séquences sur génome de référence : TopHat 2

Assemblage des transcrits : Cufflinks

Création des transcriptomes expérimentaux : Cuffmerge

Transcriptome expérimentaux

BaP TCS

Témoins BaP/TCS

Réplicas d’expositions

listes de termes GO qui en résultent peuvent être importantes, hautement redondantes, et

donc difficiles à interpréter. Afin de simplifier l’analyse, l’outil en ligne REViGO a été utilisé.

Cet outil simplifie des longues listes de termes GO et les résume en supprimant les termes

redondants (Supek et al., 2011). Pour discriminer suffisamment les principales catégories

fonctionnelles de gènes enrichis dans notre jeu de données, une valeur de coupe stringente

de 0,5 a été choisie.

3.2.4 Analyses phénotypiques des xénopes femelles