• Aucun résultat trouvé

Techniques bas ´ees sur le s ´equenc¸age

Dans le document TH `ESE TH `ESE (Page 26-29)

Contexte biologique

1.1 Donn ´ees d’expression de g `enes

1.1.3 Techniques bas ´ees sur le s ´equenc¸age

RNA-Seq

Le RNA-Seq [53] est une technique de s´equenc¸age, `a haut d´ebit, qui mesure l’abondance de s´equences d’ARN dans une cellule ou un tissu donn´e pour des milliers de g`enes simul-tan´ement. Le s´equenc¸age d’un fragment d’ARN consiste `a d´eterminer l’ordre d’enchaˆınement des nucl´eotides qui le constituent.

Apr`es avoir extrait et isol´e l’ARNm, il est transform´e en ADNc. Le brin compl´ementaire de l’ADNc est ´egalement produit. L’ADNc est alors amplifi´e par PCR afin d’en disposer une quantit´e suffisante pour le quantifier.

Nous d´ecrivons ici les diff´erentes ´etapes du s´equenc¸age de l’ADNc par la technologie RNA-Seq :

1. lecture des brins d’ADNc: l’ADNc est coup´e en petits fragments de longueurs de 200

`

a 300 paires de bases. Ces fragments sont lus par un s´equenceur. Les lectures donn´ees par ce dernier sont appel´esreads;

2. contrˆole de qualit´e du s´equenc¸age: lesreadsde mauvaises qualit´es sont supprim´es ou r´etr´ecis (trimming). En effet, les premi`eres bases d’unread sont g´en´eralement s´equenc´ees avec beaucoup de fiabilit´e, mais plus on avance dans la s´equence, plus des erreurs sont probables. Letrimmingconsiste donc `a amputer les extr´emit´es des s´equences de fac¸on `a am´eliorer la qualit´e desreadset par cons´equent l’alignement ; 3. alignement des reads : l’alignement (mapping, en anglais) consiste `a rechercher

dans le g´enome la position d’une sous-s´equence similaire `a celle dureadobtenu par s´equenc¸age. Si le g´enome de r´ef´erence est disponible, lesreadssont align´es sur celui-ci.

Id´ealement, le g´enome de r´ef´erence est la s´equence compl`ete d’ADN `a partir de laquelle

les ARN ont ´et´e produits. G´en´eralement, il s’agit de la s´equence d’ADN type de l’esp`ece

´

etudi´ee. Celle-ci est disponible, par exemple, en t´el´echargement depuis le site NCBI3; 4. comptage desreads: lesreadsalign´es sur chaque r´egion g´enomique d’int´erˆet sont compt´es. Le nombre dereadslus et align´es sur une r´egion d’int´erˆet est a priori consid´er´e comme proportionnel au niveau d’expression de la r´egion d’int´erˆet et `a la taille de cette r´egion. Le nombre moyen dereadsalign´es par position du g´enome s’appelle la couverture de s´equenc¸age. Plus elle est grande, plus le s´equenc¸age est complet. Le nombre total dereadsalign´es pour un ´echantillon est appel´e profondeur de s´equenc¸age ou taille de librairie. Le r´esultat final est repr´esent´e sous la forme d’un tableau de comptage, comportant en ligne les g`enes et en colonnes les ´echantillons et dont les entr´ees sont le nombre dereadstrouv´es dans un ´echantillon donn´e qui ont ´et´e align´es sur la s´equence d’un g`ene donn´e.

La figure 1.6 permet de r´esumer les diff´erentes ´etapes de la technique RNA-Seq sous la forme d’un sch´ema.

Figure 1.6 Les diff´erentes ´etapes du RNA-Seq.

Les donn´ees obtenues sont quantitatives et discr`etes. Tout le g´enome ´etant s´equenc´e, le nombre de variables (soit de transcrits) est de l’ordre de plusieurs milliers. Cependant, la technologie RNA-Seq ´etant on´ereuse, le nombre d’individus est g´en´eralement relativement faible. Il est de l’ordre de quelques dizaines pour des ´etudes standards. Pour des projets importants, ayant plus de moyens financiers, il est possible d’avoir des donn´ees avec quelques centaines d’individus.

La technologie RNA-Seq mesure l’expression sans limite d’amplitude (c’est-`a-dire que les donn´ees sont non born´ees) contrairement `a la technologie des puces `a ADN qui subissent une saturation de l’intensit´e de fluorescence pour les g`enes tr`es exprim´es. De plus, l’alignement des s´equences peut ˆetre r´ealis´e sur un g´enome de r´ef´erence incomplet (alignementde novo) permettant ainsi la d´ecouverte de nouveaux g`enes.

Avec le d´eveloppement des technologies de s´equenc¸age `a haut d´ebit, le RNA-Seq est devenu un nouveau standard dans l’analyse du transcriptome. N´eanmoins, le coˆut d’acquisition reste assez ´elev´e. Un nouveau protocole a donc ´et´e mis en place pour r´eduire les d´epenses des diff´erentes ´etapes n´ecessaires pour obtenir les donn´ees d’expression des g`enes.

QuantSeq

Le QuantSeq [150] est une nouvelle m´ethode de s´equenc¸age `a haut d´ebit. Il permet de r´eduire le temps d’analyse des donn´ees et d’analyser plus d’´echantillons simultan´ement.

Le principe de cette technique est de g´en´erer un seul fragment pour chaque transcrit et de

3. https://www.ncbi.nlm.nih.gov/

1.1 Donn ´ees d’expression de g `enes 27

l’amplifier. Les fragments s´equenc´es sont situ´es pr`es de l’extr´emit´e 3’ du transcript (voir figure 1.7). Cette fac¸on de proc´eder permet d’obtenir des valeurs d’expression tr`es pr´ecises.

5’ AAAAA 3’

dernier exon

Figure 1.7 Zone du g`ene s´equenc´e par le protocole QuantSeq.

Le protocole QuantSeq se d´eroule en plusieurs ´etapes, illustr´ees par la figure 1.8 : 1. pr´eparation des librairies: cette ´etape est initi´ee grˆace `a une amorce en oligodT

qui se fixe sur le brin d’ARN. Une transcription inverse est alors effectu´ee. L’ARNm initial est supprim´e et une amorce al´eatoire (random priming) permet de synth´etiser le second brin. La librairie est purifi´ee pour supprimer diverses composants de r´eactions inutiles pour les ´etapes suivantes :

2. amplification: les librairies sont amplifi´ees par PCR. Cette ´etape a notamment pour objectif de g´en´erer une quantit´e suffisante de mat´eriel pour le contrˆole de la qualit´e et pour le s´equenc¸age ;

3. s´equenc¸age: les fragments sont lus par un s´equenceur ;

4. traitement des donn´ees: lesreadssont align´es le long du g´enome et compt´es. Le niveau d’expression d’un transcript est proportionnel au nombre dereadsalign´es sur la s´equence de ce transcript.

Un des principaux avantages de la technologie QuantSeq par rapport `a celle du RNA-Seq est sa tol´erance `a la mauvaise qualit´e de l’ARN. Autrement dit, il est possible, avec la technique QuantSeq, de quantifier des transcrits provenant d’ARN de qualit´e m´ediocre. En outre, cette technologie est moins coˆuteuse et plus rapide. En revanche, avec cette technique, la recherche d’isoformes (variantes des transcrits pour un g`ene donn´e) n’est plus possible.

Comme pour le RNA-Seq, les donn´ees sont des donn´ees de comptage. Elles sont donc quantitatives et discr`etes. Le nombre de g`enes est ´egalement de l’ordre de plusieurs milliers.

Comme cette technologie est moins ch`ere que le RNA-Seq, il est possible de s´equencer plus d’´echantillons pour un prix ´equivalent, de l’ordre de cinq `a dix fois.

(AAA...A)

Figure 1.8 Sch´ema du protocole QuantSeq.

Le tableau 1.1 r´ecapitule les diff´erentes techniques, pr´esent´ees dans ce chapitre, permet-tant de quantifier l’expression des g`enes, ainsi que quelques unes de leurs caract´eristiques.

Techniques Type de donn´ees Nombre de g`enes Nombre d’individus G`enes RT-qPCR donn´ees continues plusieurs dizaines `a

quelques centaines

donn´ees continues plusieurs milliers une dizaine connus RNA-Seq donn´ees discr`etes Tableau 1.1 R´ecapitulatif des m´ethodes pour quantifier l’expression des g`enes.

Dans cette th`ese, nous nous int´eressons en particulier aux donn´ees issues des tech-nologies de s´equenc¸age (RNA-Seq et QuantSeq). Des donn´ees RT-qPCR seront ´egalement utilis´ees pour apporter de l’information suppl´ementaire.

Dans le document TH `ESE TH `ESE (Page 26-29)