• Aucun résultat trouvé

B. Etude N°2 : Comparaison des méthodes de normalisation appliquées aux données de séquençage

1. Analyse transcriptomique par séquençage

Afin d’analyser l’effet des virus vaccinaux et sauvages de la fièvre jaune sur le transcriptome des cellules hépatiques, la technologie RNASeq a été utilisée. Cette dernière permet de connaitre l’abondance d’un ARN transcrit donné dans les cellules infectées ou non infectées. Au sein de chaque condition testée, l’ARN est extrait, purifié et découpé en fragment de tailles identiques. Ces fragments sont alors amplifiés et lus par le séquenceur qui fournit les séquences nucléotidiques de ces fragments. L’identification du transcrit se fait par l’analyse de sa séquence nucléotidique qui sera par la suite alignée sur le génome humain de référence. Le nombre de séquences lues et alignées sur une région d’intérêt est ainsi considéré comme proportionnel au niveau d’expression de cette région d’intérêt.

139 Notre étude s’est portée sur l’utilisation du séquençage par synthèse (en anglais « sequencing by

synthesis (SBS) »). Après amplification des librairies, ces dernières se trouvent attachées sur la « flowcell ». Quand la polymérase allonge le brin avec un dNTP (A, C, G ou T) marqué par fluorescence de couleur spécifique, une source de lumière excite le marqueur et un détecteur optique enregistre la couleur. Une fois incorporé, le fluorochrome est clivé, permettant ainsi l’ajout d’un nouveau dNTP lors du cycle suivant. Chaque cycle ne permettant l’ajout que d’un nucléotide à la fois, la méthode permet d’avoir une détermination précise de la séquence de chaque transcrit (Figure 14).

Figure 15. Principe du Séquençage par synthèse.

Figure issue de https://binf.snipcademy.com/lessons/ngs-techniques/illumina-solexa

D’un point de vue pratique, les données brutes sont fournies sous la forme d’un fichier .fastq donnant le nom, la séquence et la longueur de chacun des reads lus dans l’échantillon. Un code est également appliqué pour chaque read afin d’indiquer la qualité de lecture de chacun des nucléotides de ce read. Un premier filtre qualitatif est alors appliqué pour améliorer la fiabilité de ces lectures. Une fois filtrées, les

140 données brutes sont alignées sur le génome de référence afin d’obtenir des données d’expression de

chaque transcrit et de les rendre comparables entre les différentes conditions biologiques testées. Cette notion de comparabilité des échantillons est un point clé du séquençage. La qualité de ces comparaisons pouvant être biaisée par le nombre de reads lus, il est nécessaire d’appliquer des facteurs de normalisation avant toute analyse différentielle. Plusieurs méthodes de normalisation que nous discuterons plus tard ont été utilisées dans notre approche. Une fois normalisées, les données peuvent être utilisées pour réaliser l’analyse différentielle, c’est à dire trouver les gènes qui ont un niveau d’expression significativement différent dans une condition par rapport à une autre. Une fois encore, les méthodes de calcul sont soumises à des règles strictes mais discutées aussi bien sur la gestion des réplicas techniques et biologiques que sur le choix du test statistique à utiliser.

2. Principales observations de l’étude

Nous avons choisi d’évaluer différentes approches d’analyse et de normalisation des données de RNASeq. Plusieurs paramètres sont à prendre en compte entre la longueur du transcrit, la profondeur de lecture, les variabilités techniques ou encore la possibilité de comparer par rapport à un échantillon théorique. Enfin l’utilisation d’ajouts quantifiés (« spikes » en anglais), largement utilisés sur les puces microarray, s’est également appliquée au séquençage de l’ARN. La possibilité d’associer la couverture d’un transcrit avec une quantité connus de celui peut nous permettre de rationnaliser l’établissement d’un seuil de détection pour l’ensemble du transcriptome étudié.

Nous avons donc utilisé les données de séquençage des ARN issus de deux modèles organotypiques de foie infectés ou non par les virus YFV Asibi ou YFV 17D. Des spikes d’ARN de plantes ont été utilisés et appliqués pour définir les seuils d’analyse et trois méthodes de normalisation ont été comparée en termes de nombres de transcrits détectés, de corrélations avec les données de PCR générées en parallèle sur un panel de gènes ciblés et enfin en termes de significativité biologique par une intégration des données sur le logiciel d’analyse Ingenuity Pathways Analysis ® (IPA®). La première des méthodes,

141 appelée RUV pour « remove unwanted variation » se base sur l’utilisation des spikes pour définir des

facteurs de variabilité de la technique et ainsi appliquer un facteur de correction aux données. La seconde, nommée DESeq2, défini la moyenne géométrique de l’ensemble des échantillons testés comme un standard par rapport auquel chaque échantillon, individualisé, doit être comparé. Enfin la méthode FPKM, pour « Fragment per kilobase of exon per million », prend en compte la longueur du transcrit analysé.

En appliquant les spikes à l’approche par FPKM, nous avons pu associer un seuil de détection minimal correspondant à une couverture théorique partielle de 0.63 % de couverture pour considérer un transcrit détecter. L’utilisation des méthodes DESeq2 et RUV démontré l’apparition d’un plus grand nombre de gènes significativement dérégulés mais avec une apparition de faux positifs plus importante. Enfin l’intégration des données sur la plateforme d’analyse IPA® démontre une augmentation de la significativité de l’activation des voies de signalisation avec la méthode FPKM par rapport aux méthodes RUV et DESeq2. En particulier les voies de signalisation de la réponse antivirale (Réponse aux IFNs, activation des senseurs cytosoliques) apparaissent comme les voies majoritaires, corrélant ainsi avec les données de PCR précédemment observées dans le modèle d’hépatocytes dérivés de cellules souches embryonnaires et avec les descriptions classiques de la réponse antivirale. Ces données sont néanmoins à reconsidérer dans une étude où la variabilité des souches étudiées et celle des modèles cellulaires restent réduites en comparaison d’études cliniques ou inter-espèces où les variabilités techniques te biologiques nécessiteront la reconsidération de ces approches.

Cette étude nous a ainsi permis de définir les paramètres standard de l’analyse du transcriptome de nos modèles suite à l’infection par les virus YFV Asibi ou YFV 17D. Ainsi, la méthode FPKM a été privilégiée dans nos analyses et seuls les transcrits présentant une couverture minimale de 0.63 dans l’ensemble des réplicas d’une condition expérimentale ont été considérés pour l’analyse.

142