• Aucun résultat trouvé

CHAPITRE I Revue bibliographique

I.1.1 Révolution biologique

La révolution biologique a été initiée par quatre événements majeurs : la découverte de l’ADN en tant que support de l’information génétique (Avery et al., 1944) et de sa structure en double hélice (Watson et Crick, 1953), ainsi que la mise en place du dogme central de la biologie moléculaire et le déchiffrage du code génétique (Matthaei et al., 1962). Ces événements constituent les fondements de la génomique.

Le dogme central est la modélisation simplifiée du flux de l’information génétique à travers différentes molécules de la cellule et se résume en trois processus (Figure I.1).

ADN ARNm Protéine

Figure I.1:Dogme central de la biologie moléculaire

Grâce à ces principes, de nouvelles techniques de biologie moléculaire ont pu être développées, et en synergie avec la montée en puissance et la disponibilité des ordinateurs, une nouvelle discipline a émergé : la bioinformatique.

L’apparition de deux nouvelles approches de séquençage de l’ADN (Maxam et al., 1977; Sanger et al., 1977) a permis à la bioinformatique prend réellement son envol. La production de séquences par ces méthodes est l’occasion de créer les nouvelles banques de données EMBL (Cochrane et al., 2009) et GenBank (Benson et al., 2009), afin de répertorier ces séquences nucléiques, et de développer de nouveaux algorithmes

Réplication

H. Lemriss Thèse de doctorat Université Mohammed V-Rabat 19

permettant de traiter les données biologiques. Ces derniers ont abouti aux outils majeurs de la bioinformatique que sont FASTA (Pearson et Lipman, 1988), CLUSTALW (Thompson

et al., 1994), et BLAST (Altschul et al., 1997).

Avec l’apparition des séquenceurs automatiques et de nouveaux outils de biologie moléculaire, la production des séquences s’accélère et l’on voit apparaître des projets de séquençage de génomes complets qui aboutissent vers la fin du siècle.

Après dix années d’efforts, l’arrivée des premières séquences préliminaires du génome Humain (Lander e tal., 2001; Venter et al., 2001) marque la fin de l’ère génomique et l’entrée dans l’ère post-génomique. Cependant, il a fallu attendre jusqu’en 2004 pour obtenir de la part de l’IHGSC Consortium une version que l’on peut considérer comme finalisée (IHGSC, 2004).

Actuellement, grâce aux techniques de séquençage haut-débit, les projets de séquençage se sont multipliés (environ 60000) de sorte que la communauté scientifique a accès à 1530 génomes complets et publiés (Figure I.2).

Figure I.2 : Evolution du nombre de génomes complets disponible

H. Lemriss Thèse de doctorat Université Mohammed V-Rabat 20 I.1.2 Séquençage génomique

Le séquençage de l’ADN constitue une méthode dont le but est de déterminer la succession linéaire des bases A, C, G et T prenant part à la structure de l’ADN. La lecture de cette séquence permet d’étudier l’information biologique contenue par celle-ci. Étant donné l’unicité et la spécificité de la structure de l’ADN chez chaque individu, la séquence de l’ADN permet de nombreuses applications dans le domaine de la médecine, comme, par exemple, le diagnostic, les études génétiques, l’étude de paternité, la criminologie, la compréhension de mécanismes physiopathologiques, la synthèse de médicaments, les enquêtes épidémiologiques. L’objectif de la partie ci-dessous est de décrire l’évolution du séquençage manuel jusqu’aux séquenceurs haut débit qui sont les plus utilisées à l'heure actuelle.

I.1.2.1 Historique

En 1965, Holley et ses collaborateurs ont séquencé les deux premiers acides nucléiques de l’histoire, l’ARNt de l’alanine de la bactérie Escherichia coli, puis celui de la levure

Saccharomyces cerevisiae. C’est grâce à la capacité de purifier des ARNt particuliers et à la

connaissance de RNAses, dont la spécificité était connue, que ces premiers séquençages ont pu avoir lieu. De plus, il a été possible de déterminer la structure secondaire de l’ARNt, puisque l’hybridation entre les bases était connue à l’époque. C’est en 1971 que la première molécule d’ADN a été séquencée. Cette molécule consistait en une séquence de 12 nucléotides, soit la séquence des extrémités cohésives du phage lambda (Wu, 1970). Ces premières séquences ont été obtenues à l’aide de réactions chimiques spécifiques, comme la dépurination. Ces méthodes permettaient d’obtenir des séquences longues de 10 à 20 nucléotides.

En 1975, Sanger et Coulson ont introduit la méthode de terminaison des chaînes pour le séquençage de l’ADN (Figure I.3). En 1977, Maxam et Gilbert ont conçu une méthode similaire à celle de Sanger, mais ils utilisaient plutôt des nucléotides qui ne permettaient pas l’élongation des chaînes. La même année, Sanger a introduit la méthode des didéoxynucléotides, méthode qui permettait de séquencer jusqu’à 100 nucléotides. Cette technique a permis le séquençage du génome du phage PhiX (Sanger et al., 1977).

H. Lemriss Thèse de doctorat Université Mohammed V-Rabat 21

La grande innovation suivante dans l’histoire du séquençage a été l’automatisation des protocoles et de l’analyse (Première génération) (Hutchison, 2007). Cette avancée importante a permis de démocratiser le séquençage, jusqu’à permettre le séquençage de génomes complets (95%), dont le génome humain en février 2001 (Lander et al., 2001, Venter et al., 2001) et le génome des TriTryp en 2005.

La seconde génération d’outils de séquençage est apparue en 2005 en réponse au prix élevé et au faible débit du séquençage de première génération. Ici, des dizaines de milliers de séquences sont traitées ensemble et en parallèle. C’est l’apparition du séquençage haut-débit (« high throughput sequencing » ou encore le « next-generation sequencing »).

Alors que le projet de séquençage du génome humain a coûté trois milliards de dollars et a duré 13 ans (achevé en 2006), celui de James Watson (âgé de 79 ans, co-découvreur de la structure de l’ADN) a coûté un million de dollars et a été réalisé en deux mois. Il a été effectué sur un séquenceur FLX de Roche (société 454 Life Sciences, Baylor College of Medicine, Houston, Texas, États-Unis,). Quatre mois après, l’institut Craig Venter publiait le génome complet de Craig Venter (Levy et al., 2007). Contrairement à celui de James Watson, celui-ci a été séquencé selon la technique classique de Sanger (Figure 3).

En 2009, un des co-fondateurs de la société Helicos Bionsciences, Stephen R. Quake, séquence son génome (Pushkarev et al., 2009) avec une profondeur de 28x et une couverture de génome de 90% pour un coût de 48000 dollars. La même année (2009), quatre autres génomes humains ont été décrits : ceux d’un homme yoruba du Nigeria (Bentley et al., 2008) séquencé à une profondeur de 30x, de 2 coréens (Ahn et al., 2009 ; Kim et al ., 2009) à une profondeur de 28 et 29x et d’un chinois Han (Wang et al., 2008) à une profondeur de 36x. Ces séquençages individuels constituent une étape majeure vers la médecine personnelle

Les plateformes NGS actuellement disponible dans le marché utilisent des technologies de séquençage à haut débit de la seconde génération proposées par Roche 454 Life Sciences, Illumina, Solid et Ion Torrent et la troisième génération (« next-next-generation sequencing ») proposé par Pacific Biosciences (PacBio RS) (Metzker, 2010 ; McAdam et al., 2014).

H. Lemriss Thèse de doctorat Université Mohammed V-Rabat 22 Figure I.3 : Quelques étapes importantes démontrant l’évolution des progrès du séquençage

(Blow, 2008).

I.1.2.2 Constitution de banque d’ADN

Tout projet de séquençage commence par la constitution d’une ou plusieurs banques d’ADN. Cette banque est une collection de fragments d’ADN à séquencer qui ont été intégrés au génome de cellules hôtes (généralement des microorganismes) à des fins de stockage et de réplication. L’intégration est réalisée par l’intermédiaire d’une molécule d’ADN, appelée vecteur de clonage, à l’intérieur de laquelle a été placé un fragment de l’ADN que l’on veut séquencer (appelé dans le cas présent ‘insert’).

Il existe deux types de banques d’ADN : les banques d’ADN génomique dont les inserts sont issus de la fragmentation du matériel génétique initial à séquencer, et les banques d’ADNc dont les inserts sont des ARNm qui ont été « recopiés » en ADN sous l’effet d’une enzyme de rétrovirus, la transcriptase inverse. Les banques génomiques sont utilisées dans le cadre de séquençage de génomes, alors que les banques d’ADNc sont utilisées dans des études d’expression de gènes.

Mis à part une première étape différente entre la construction d’une banque génomique et celle d’une banque d’ADNc, les autres étapes sont communes aux deux (Figure I.4).

H. Lemriss Thèse de doctorat Université Mohammed V-Rabat 23

Première étape :

Banque génomique : consiste à fractionner l’ADN génomique par digestion partielle

avec une endonucléase, ou une enzyme de restriction, mais les méthodes physiques sont préférées car elles sont plus reproductibles et les fragmentations sont plus aléatoires. Ces méthodes physiques peuvent mettre en jeu la sonication, la nébulisation sous haute pression, ou la force de cisaillement (Levinthal et Davison, 1961).

Banque d’ADNc : aucune fragmentation n’est nécessaire. Au contraire, une attention toute particulière est apportée pour préserver les molécules d’ARN qui sont plus fragiles que l’ADN, puisqu’elles ne sont constituées que d’un seul brin. Lors de cette première étape, l’ARNm est rétro-transcrit en ADN sous l’action de la transcriptase inverse, une enzyme de rétrovirus.

Les autres étapes :

Elles consistent en une séparation par électrophorèse sur gel d’agarose des fragments d’ADN ou d’ADNc afin de sélectionner et d’extraire du gel les fragments de taille désirée, puis de les intégrer au vecteur de clonage choisis. Les cellules hôtes sont ensuite transformées par l’insertion d’un vecteur à leur matériel génétique. Finalement, les cellules ayant été transformées sont cultivées et isolées en colonies bien distinctes. Les cellules ayant intégré un vecteur sont sélectionnées à l’aide d’un des marqueurs du vecteur, généralement un gène de résistance à un antibiotique présent dans le milieu de culture, et qui empêche la multiplication des cellules non transformées. Chaque colonie est ensuite repiquée, conservée et étiquetée par un identifiant unique en vue de son séquençage.

H. Lemriss Thèse de doctorat Université Mohammed V-Rabat 24 Figure I.4 : Schéma simplifié de préparation de banques d’ADN génomique et d’ADNc

(http://www.britannica.com/)

I.1.2.3 Séquençage 1er génération I.1.2.3.1 Méthodes de séquençage

Il existe deux méthodes de séquençage dites « classiques » : la méthode de Maxam et Gilbert, par dégradation chimique sélective et la méthode De Sanger par synthèse enzymatique. Alors que l’utilisation de la première est restée confidentielle, la deuxième a été largement développée et constitue aujourd’hui la technique de référence.

 Méthode chimique (Maxam et al., 1977)

Cette méthode est basée sur une dégradation chimique de l'ADN et utilise les réactivités différentes des quatre bases A, T, G et C, pour réaliser des coupures sélectives. En reconstituant l'ordre des coupures, on peut remonter à la séquence des nucléotidesde l'ADN correspondant. On peut décomposer ce séquençage chimique en six étapes successives :

Marquage : Les extrémités des deux brins d'ADN à séquencer sont marquées par un

traceur radioactif (32P). Cette réaction se fait en général au moyen d'ATP radioactif et de polynucléotide kinase.

H. Lemriss Thèse de doctorat Université Mohammed V-Rabat 25

Isolement du fragment d'ADN à séquencer : Celui-ci est séparé au moyen d'une

électrophorèse sur un gel de polyacrylamide. Le fragment d'ADN est découpé du gel et récupéré par diffusion.

Séparation de brins : Les deux brins de chaque fragment d'ADN sont séparés par

dénaturation thermique, puis purifiés par une nouvelle électrophorèse.

Modifications chimiques spécifiques : Les ADN simple-brin sont soumis à des

réactions chimiques spécifiques des différents types de base. Walter Gilbert a mis au point plusieurs types de réactions spécifiques, effectuées en parallèle sur une fraction de chaque brin d'ADN marqué : par exemple, une réaction pour les G (alkylation par le sulfate de diméthyle), une réaction pour les G et les A (dépurination), une réaction pour les C, ainsi qu'une réaction pour les C et les T (hydrolyse alcaline).

Coupure : Après ces réactions, l'ADN est clivé au niveau de la modification par réaction

avec une base, la pipéridine.

Analyse : Pour chaque fragment, les produits des différentes réactions sont séparés par

électrophorèse en conditions dénaturantes et analysés pour reconstituer la séquence de l'ADN. Cette analyse est analogue à celle que l'on effectue pour la méthode de Sanger (Figure I.5).

Les produits chimiques utilisés dans les milieux réactionnels lors des coupures spécifiques étant excessivement dangereux pour la santé, cette méthode a été abandonnée au profit de la méthode par synthèse enzymatique.

Figure I.5 : Schéma récapitulatif de la méthode de séquençage de Maxim et Gilbert

H. Lemriss Thèse de doctorat Université Mohammed V-Rabat 26

 Méthode enzymatique (Sanger et al., 1977).

Cette méthode, encore appelée méthode De Sanger en raison de son inventeur, est basée sur l’activité de l’ADN polymérase qui permet de polymériser un brin d’ADN complémentaire à un brin matrice, à partir d’un oligonucléotide, appelé amorce. Cette capacité est utilisée pour synthétiser un brin complémentaire, mais de façon incomplète, en arrêtant aléatoirement la réaction de manière à obtenir statistiquement des produits issus de réaction interrompue à chacune des bases du fragment à séquencer.

Le mix réactionnel est constitué du vecteur de clonage contenant le fragment à cloner, de la polymérase, des amorces et des dNTP. Pour arrêter aléatoirement la réaction, une faible concentration de ddNTP est ajoutée. Ces ddNTP ne comportant pas de groupement 3’-OH, ils agissent comme des terminateurs de la réaction de polymérisation en empêchant l’accomplissement d’une liaison 5'-3' phosphodiester ultérieure.

A l’instar de la méthode chimique, un marquage des produits de réaction est nécessaire pour pouvoir détecter ces derniers après leur séparation par électrophorèse sur gel. Pour ceci, il existe deux chimies : dyeprimer et dyeterminator(Figure I.6).

Figure I.6 : Séquençage d’ADN par synthèse enzymatique avec chimie dye primer et

dyeterminator (http://www.appliedbiosystems.com/)

Documents relatifs