• Aucun résultat trouvé

Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines b

N/A
N/A
Protected

Academic year: 2022

Partager "Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines b"

Copied!
51
0
0

Texte intégral

(1)

Génomique : les méthodes de séquençage d'acides nucléiques et l'acquisition des données

Tweet

1. Introduction

a. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

b. "Préhistoire" du séquençage

2. Détermination des séquences de nucléotides a. Méthode historique de Fréderick Sanger

b. La technique de séquençage avec des didésoxyribonucléotides fluorescents 3. Méthode du pyroséquençage

4. Stratégies initiales de séquençage des génomes : méthode hiérarchique vs. méthode en "vrac"

5. Les contigs et l'assemblage, les trous, l'appel de base

6. Les nouvelles technologies de séquençage à trés haut débit ("next- generation high-throughput DNA sequencing technologies" - NGST ou NGS)

a. Introduction

b. Caractéristiques élémentaires des NGS

c. Les technologies NGS et les entreprises actuelles d. Les technologies NGS à venir

e. Le côut des séquençages

7. Quelques exemples d'apports du séquençage

8. Etude des éléments de la régulation de la transcription - Structure de la chromatine et épigénomique

9. Epigénétique - modifications de l'ADN et des histones

10. Séquençage du transcriptome - RNAseq

a. Analyse des données RNAseq et reconstruction des transcrits pleine longueur (assemblage)

b. Caractéristiques des bordures exon-intron ("exon-intron borders")

11. Liens Internet et références bibliographiques

(2)

1. Introduction

a. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

Le "matériaux de base" de la génomique et de la protéomique est la séquence : l'enchaînement ordonné et orienté de nucléotides (acides nucléiques) ou d'acides aminés (protéines).

ADN : Acide DésoxyriboNucléique

macromolécule : chaîne nucléotidique

constituée par un enchaînement d'unités élémentaires : les désoxyribonucléotides

forme de stockage de l'information génétique. Cette information est

représentée par une suite linéaire de gènes

formée de deux brins complémentaires enroulés en double hélice ce qui lui permet de se dupliquer en deux molécules

identiques entre elles et identiques à la molécule mère

On distingue :

l'ADN du génome du noyau

l'ADN du génome mitochondrial

l'ADN du génome chloroplastique

ARN : Acide RiboNucléiques

macromolécule : chaîne nucléotidique

constitués par un enchaînement d'unités élémentaires : les ribonucléotides

forme qui permet de transférer et de traiter l'information dans la cellule

le plus souvent formé d'un simple brin On distingue :

les ARN messagers ou ARNm : ils sont

transcrits à partir d'un gène (ADN). Ils sont ensuite traduits en protéines.

les ARN de transfert

les ARN ribosomaux

les ARN nucléaires

les divers "petits" ARN non codants

Protéines

macromolécule : chaîne polypeptidique

constituées par un enchaînement d'unités

élémentaires : les acides aminés

l'ensemble des protéines assurent les principales fonctions cellulaires

se replient sur elles-mêmes et adoptent une conformation ou structure particulière dans l'espace. Cette structure

tridimensionnelle est à l'origine de la fonction des protéines et de leur spécificité de cette fonction.

Les chaînes nucléotidiques possèdent 2 extrémités distinctes. On peut donc les représenter de manière orientées de l'extrémité dite 5' vers l'extrémité dite 3'.

En conséquences, les chaînes nucléotidiques sont représentées par une succession ordonnée et orientée de lettres qui représentent les unités élémentaires :

ADN : 4 nucléotides = C, G, A et T

ARN : 4 nucléotides = C, G, A et U

Voir des rappels sur les bases azotées, les nucléosides et les nucléotides (et leurs pendants désoxy-).

(3)

La taille des génomes nucléaires varie énormément au sein des Eucaryotes :

de 1 à 1000 chez les plantes

de 1 à 3300 chez les animaux

de 1 à 300 000 chez les protistes (algues, amibes, euglènes, ...) L'un des plus célèbres génome séquencé est celui de l'homme de Neandertal (Green et al., 2010).

Source : B. Dujon (2008)

(4)

b. "Préhistoire" du séquençage des acides nucléiques

Un énorme effort humain, financier, technologique, a été fait dans les années 90 pour obtenir des outils pour les premiers pas du séquençage, de plus en plus performants et surtout automatisés.

Pour le séquençage des premiers génomes "historiques" (entre autre le génome humain), l'automatisation a requis dans les années 1990 / 2000 le développement :

de système d'électrophorèse capillaire piloté par ordinateur qui ont remplacé les gel à plat

de robot passeur d'échantillon qui permet d'enchaîner les échantillons

de marqueurs fluorescents dont la lumière réfléchie après excitation par un laser est captée par une cellule CCD (Charge-Coupled Device)

de suites logicielles permettant l'analyse des signaux sortant des séquenceurs et leur mise en forme sous forme de fichiers analysables (électrophorègramme et séquence)

Figure ci-contre : ligne de production automatique pour la préparation des échantillons pour le séquençage du génome humain au Whitehead Institute - Center for Genome Research, en 2001.

Source : Nature 409, 860 - 921

(5)

2. Détermination des séquences de nucléotides

a. Méthode historique de Fréderick Sanger (Prix Nobel chimie 1958 et Prix Nobel chimie 1980)

Fréderick Sanger est décédé le 19 novembre 2013. Il fût l'un des plus admirables scientifiques - biochimistes.

Bien que de moins en moins utilisée au profit de techniques nouvelles, la méthode de Sanger est historiquement capitale puisqu'elle a permis les premiers séquençages de génomes complets :

(6)

Haemophilus influenzae 1995

Saccharomyces cerevisiae 1996

Escherichia coli K-12 1997

Caenorhabditis elegans 1998

Arabidopsis thaliana 2000

Drosophila melanogaster 2000

Homme 2001

Mus musculus 2002

Rat 2004

Les nucléotides au sein des acides nucléiques sont liés par une liaison phosphodiester qui s'établit entre le groupement OH sur le carbone 3' du ribose du nucléotide dit en position 5' et le phosphore du groupe phosphoryle en position α du nucléotide dit en position 3'.

La méthode de séquençage de Sanger (dite par terminaison de chaîne) utilise des nucléotides appelés didésoxyribonucléotides (ddNTP) qui ont un atome d'hydrogène à la place du groupement OH sur le carbone 3' du ribose.

Ils peuvent donc être incorporés dans un brin d'ADN en cours de synthèse, mais ils ne permettent pas qu'un autre nucléotide soit incorporé après eux : en effet, l'absence de l'atome d'oxygène en 3' empêche la formation d'une nouvelle liaison phosphodiester.

L'allongement du brin d'ADN s'arrète donc au niveau du ddNTP incorporé, d'où terminaison de la synthèse de l'ADN.

(7)

Sanger et al. (1977) Proc. Natl Acad. Sci. 74, 5463-5467

La polymérase nécessitant un court fragment complémentaire du brin à séquencer pour initier la synthèse du brin copie, la méthode de séquençage de Sanger utilisait une amorce marquée radioactivement ("dye-labeled primer").

Quatre réactions de séquençage sont donc menées en parallèle dans quatre tubes distincts, contenant chacun un seul didésoxyribonucléotide (ddTTP, ddATP, ddCTP et ddGTP) :

ADN matrice + amorce marquée + dNTP + ddTTP

ADN matrice + amorce marquée + dNTP + ddATP

ADN matrice + amorce marquée + dNTP + ddCTP

ADN matrice + amorce marquée + dNTP + ddGTP

Dans chaque tube, toutes les copies d'ADN synthétisés sont interrompues derrière un seul type de nucléotide.

(8)

Le rapport des concentrations entre les dNTP et les didésoxyribonucléotides (ddNTP) et le nombre de réactions simultanées catalysées par la polymérase assure statistiquement que toutes les copies partielles intermédiaires possibles de la molécule d'ADN sont synthétisées.

On séparait alors les copies selon leur taille par une migration électrophorétique dans un gel poreux (entre 2 larges plaques de verre) le contenu de chaque tube étant déposé dans un puits distinct.

Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide.

Exemple ci-contre : profil d'électrophorèse du contenu du tube avec le ddCTP. Toutes les copies intermédiaires d'ADN synthétisé sont terminées par un C.

Source : University of Michigan

b. La technique de séquençage avec des didésoxyribonucléotides fluorescents ("dye terminator sequencing") Smith et al. (1986) "Fluorescence detection in automated DNA sequencing" Nature 321, 674 - 679

Cette technique utilise des didésoxyribonucléotides dont chacun est marqué par un fluorophore spécifique. Les fragments d'ADN synthétisés portent ce fluorophore terminal.

On les appelle des terminateurs d'élongation ou "Big Dye Terminators" ou "Dye-labeled terminator".

(9)

Ci-contre et ci-dessous, exemple de structures de ddNTP fluorescents :

6-TAMRA-ddTTP

6-FAM-ddTTP

5-TET-ddCTP

5-HEX-deaza-ddGTTP

R = 2',3'-dideoxyribose-5'-triphosphate

FAM = 6-carboxyfluorescéine

Source : Brandis (1999)Nucleic Acids Res. 27, 1912-1918

Améliorations apportées par la méthode des ddNTP fluorescents par rapport à la méthode de Sanger

a. La méthode initiale de Sanger utilisant une amorce marquée radioactivement était plus laborieuse, coûteuse (4 réactions distinctes) et dangereuse (radioactivité) que celle des ddNTP fluorescents.

b. Par ailleurs, l'un des problème du séquençage est la formation de "faux-stop" : c'est la terminaison prématurée d'une copie qui implique un désoxyribonucléotide à la place d'un ddNTP. Avec la méthode des ddNTP fluorescents, les "faux-stop" ne sont pas détectés car ils ne fluorescent pas.

(10)

c. Une réaction de séquençage en présence des 4 didésoxyribonucléotides :

ADN matrice + dNTP + ddCTP fluorescent bleu + ddATP fluorescent vert + ddGTP fluorescent jaune + ddGTP fluorescent rouge

L'excitation se fait à 2 longueurs d'onde différentes par un laser à l'argon. L'émission de fluorescence

est mesurée à 4 longueurs d'onde correspondant aux 4 fluorophores.

Chaque base a donc un signal spécifique qui permet de l'identifier lors de son passage dans le faisceau d'un photomètre situé à la sortie du capillaire.

L'analyse des signaux reçus est réalisés par un ordinateur et permet de reconstituer la séquence avec une grande précision (figure ci-contre).

Source : University of Michigan Ci-dessous, le séquenceur "MegaBACE®" (société Amersham) : plateforme capillaire à haut débit pour le séquençage d'ADN.

Schématiquement, l'appareil est composé de 96 capillaires, d'un système d'électrophorèse, d'un laser et d'une caméra CCD (Charge-Coupled Device).

Les capillaires (diamètre environ 250 µm), sont remplis d'un polymère qui sert de tamis moléculaire.

Les molécules d'ADN sont introduites à une extrémité des capillaires par électro-injection et migrent ensuite tout au long de ceux-ci sous l'effet d'un très haut voltage (8500 volts) de façon à les séparer en fonction de leur

longueur.

Près de l'anode, un rayon laser traverse chaque capillaire afin d'exciter les ddNTP fluorescents incorporées à

l'ADN au cours de la réaction de séquençage.

(11)

Une caméra CCD mesure l'émission de fluorescence au fur et à mesure que les copies d'ADN passent devant le laser. Les ddNTP fluorescents sont distingués les uns des autres selon la longueur d'onde émise. Exemples : TAMRA : excitation 552 nm - émission 575 nm / FAM : excitation 490 nm - émission 520 nm.

La dernière étape est la lecture des profils bruts ou "base- calling" (détermination de la séquence par appel de bases).

3. Méthode du pyroséquençage

Elle permet d'effectuer un séquençage rapide et à moindre coût qu'un séquençage par la méthode de Sanger car elle ne nécessite pas de clonage et la lecture de la séquence obtenue après le séquençage est directe.

Les désoxyribonucléotides triphosphate (dNTP) sont ajoutés l'un après l'autre (et non pas tous ensemble comme dans la méthode de Sanger).

Source : Ahmadian et al. (2006)

(12)

Si le désoxyribonucléotide ajouté est complémentaire du désoxyribonucléotide du brin matrice, il est incorporé dans le brin en cours de synthèse et un pyrophosphate inorganique (PPi) est libéré.

L'ATP sulfurylase transforme stoechiomètriquement le pyrophophate libéré en ATP en présence d'un substrat : l'adénosine 5' - phosphosulfate (APS).

L'ATP formé est utilisé par une luciférase qui transforme la luciférine en oxyluciférine qui génère un signal lumineux dans le visible proportionnel à la quantité d'ATP.

L'apyrase dégrade les nucléotides non incorporés et l'excès d'ATP.

Remarque importante : l'ATP est le substrat de la polymérase (pour l'élongation du brin en cours de synthèse) mais il est aussi formé par l'ATP sulfurylase.

Pour la polymérisation, on utilise donc un analogue de l'ATP : la désoxyadénosine α-thio triphosphate (dATPαS) qui n'est pas un substrat de la luciférase.

Le capteur CCD du séquenceur capte le signal lumineux et le traduit par un pic sur le pyrogramme™.

La hauteur du pic est proportionnelle à l'intensité du signal lumineux, elle-même proportionnelle au nombre de nucléotides incorporés au même moment.

Source : Ahmadian et al. (2006) On déduit la séquence à partir de la taille des pics obtenus.

En cas de mélange de nucléotides à une même position (polymorphisme de séquence), la taille des pics permet d'avoir une quantification de la proportion de brins porteurs de l'un ou l'autre des nucléotides.

Application du pyroséquençage : étude du transcriptome de Arabidopsis thaliana

Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32-42 Aller à l'outil de visualisation. Modifier le menu déroulant de la vision la plus précise "Voir 100 bp" à la plus large "Voir 100 kbp".

(13)

Méthode longueur des lecture (nucléotides) nombre de lectures total par tour ("run") (Mpb) coût relatif par nucléotide

Sanger 700 - 800 96 0,07 1

pyroséquençage 250 400.000 100 0,1

phase solide 25 - 35 40 à 80 millions 1000 - 2000 0,01

Cette partie retrace un "historique" des stratégies de séquençage avant l'avènement des nouvelles technologies des équençage à très haut débit.

En regard de l'avancée phénoménale des techniques et des capacités d'analyse, certaines parties peuvent sembler obsolètes mais elles posent certains fondements de la génomique.

4. Stratégies initiales de séquençage des génomes a. La méthode hiérarchique ou "clone par clone"

Le génome est découpé en un nombre "restreint" (quelques dizaines de milliers) de fragments de grande taille (50 à 200 kilo paires de base) qui couvrent l'ensemble du génome.

Ces fragments sont clonés dans des vecteurs spéciaux : les YAC ("Yeast Artificial Chromosome" - problème d'échange de fragments d'ADN), les BAC ("Bacterial Articifial Chromosome") ou des vecteurs dérivés du phage P1 (les PAC).

Une carte physique des clones est établie pour faciliter l'obtention de la séquence finale du génome : elle permet d'ordonner les clones dans le génome.

Source : "Précis de génomique" Gibson & Muse (2004)

(14)

Les cartes de liaison disposent des marqueurs ordonnés le long des chromosomes par la mesure de leur liaison deux à deux. Ces cartes de liaison permettent de se repérer dans le génome et sont une aide essentielle dans la construction de la carte physique.

Un sous-ensemble avec un minimum de recouvrement (pour avoir une couverture la plus complète possible du génome) est ensuite choisi et séquençé en

"vrac" (voir ci-dessous) : chaque clone de grande taille est découpé en un grand nombre de fragments de petite taille (environ 2000 paires de bases) et les extrémités sont séquencées individuellement.

Les problèmes d'assemblage ne se posent qu'à l'échelle des grands fragments et sont facilement résolus en multipliant le nombre de lectures dans ces zones.

b. La méthode de séquençage aléatoire global ou "en vrac" ou "shotgun"

Méthode très différente et complémentaire.

Une carte de grands fragments ordonnés n'est pas établie au préalable.

Un trés grand nombre de séquences sont obtenues de façon aléatoire à l'échelle du génome entier. Les extrémités d'une partie de ces fragments sont séquencés. Puis ces séquences sont assemblées selon leurs recouvrements.

Du fait du grand nombre de fragments et du clonage, certaines séquences ne sont jamais séquencées.

Source : "Précis de génomique" Gibson & Muse (2004)

La difficulté d'assemblage est beaucoup plus grande que dans la stratégie "clone par clone" et le nombre énorme de comparaisons de séquences nécessite une puissance de calcul considérable.

Il n'est pas possible, pour combler les trous entre les contigs (voir ci-dessous), de diriger le travail de séquençage supplémentaire sur un grand fragment bien identifié.

(15)

Méthode "shotgun"

Processus aléatoire d'échantillonnage de N lectures de taille L, pour un génome de taille G :

couverture : a = N L / G

nombre de contig obtenu (Nc) en fonction de la couverture : Nc = (aG/L) e-a

taille moyenne des contigs : Lc = (ea - 1)L/a

Lander & Waterman (1988) "Genomic mapping by fingerprinting random clones: A mathematical analysis" Genomics 2 , 231 - 239

Evolution des "stratégies" de séquençage de type "shotgun" :

Roach et al. (1995)

stratégie "parking"

les méthodes "paired end sequencing"

les nouvelles technologies de séquençage à très haut débit, non limitantes (exemple : "WGS sequences = whole genome shotgun sequences") Quelle que soit la stratégie adoptée, lors de l'assemblage terminal du génome, il faut éliminer :

les fragments d'ADN contaminants d'origine bactérienne

les clones ne provenant pas, à l'origine, d'un même fragment du génome du fait d'une recombinaison à l'intérieur du BAC ou d'une mauvaise annotation lors de la construction de la collection de fragments pour la phase de séquençage en vrac

les séquences répétées peuvent aussi poser un problème lors de l'assemblage des grands génomes car elles peuvent conduire à assembler 2 séquences provenantde régions distantes du génome. Lors de l'assemblage, elles sont donc "masquées" par des programmes informatiques tel que

RepeatMasker. Ces logiciels remplaçent les nucléotides de ces régions par le symbole "N" qui décrit n'importe quel nucléotide.

(16)

5. Les contigs et l'assemblage, les trous, l'appel de base

Avec les technologies encore les plus courantes dans un grand nombre de laboratoires, chaque séquençage ne permet d'obtenir une lecture que de quelques milliers de paires de base. Il n'est donc pas possible de séquencer en une seule fois des molécules d'ADN aussi grandes que les chromosomes.

Pour reconstituer ces immenses séquences, il faut effectuer un grand nombre de séquençages, plusieurs fois supérieur à la taille du chromosome. Ces séquençages redondants permettent :

de raccorder les séquences les unes aux autres

de s'assurer de la qualité du résultat de chaque lecture

Pour les premiers séquençages des génomes avant l'avènement des nouvelles technologies de séquençage à très haut débit, la redondance était d'un facteur 8 à 10 (on dit une "profondeur de 8 à 10X").

Celà signifie :

fractionner le fragment à séquencer en sous-fragments

effectuer un nombre de séquençage tel que l'ensemble de ces séquençage, mis bout à bout, représentent 10 fois la longueur de la séquence du fragment initial

en d'autres termes, chaque base du fragment initial doit apparaître dans 10 lectures en moyenne

Source : B. Dujon (2008)

La comparaison des séquences permet d'aligner les parties qui se recouvrent partiellement ou chevauchantes.

Les séquences chevauchantes peuvent être assemblées en enchaînements plus grands que l'on appelle contigs.

En collant des contigs à d'autres contigs, on reconstitue des séquences de plusieurs millions à plusieurs dizaines de millions de bases : c'est l'assemblage.

(17)

Ces opérations sont effectuées par des programmes bioinformatiques.

Source : Genoscope - FAQ Scaffold : ensemble de contigs orientés et ordonnés. Les trous ("gaps" - voir ci-dessous) sont de longueur connue.

Mapped scaffold : ensemble de scaffolds localisés le long des chromosomes (pas forcément ordonnés ou orientés). Les trous sont de longueur inconnue.

Les trous ou "gap" : Comme le séquençage est effectué sur des sous-fragments pris de manière aléatoire, même avec un tel niveau de redondance, il reste des parties non assemblées : des trous ("gap") qui peuvent être "comblés" par un travail ciblé.

Pour déterminer les relations de voisinage des contigs, les liens clones sont considérés, c'est-à-dire les lectures obtenues aux deux extrémités d'un même fragment d'ADN. On recherche parmi ces paires celles qui s'ancrent dans deux contigs différents.

Cela permet de jeter un pont entre les deux contigs et de les orienter. De plus, le fragment d'ADN "à cheval" sur le trou entre les deux contigs peut faire l'objet d'un séquençage supplémentaire, ce qui permet de combler le trou.

La lecture des profils bruts ou "base-calling" : c'est la détermination de la séquence par appel de bases qui s'effectue en routine par des programmes informatiques qui déterminent l'identité des bases, comparent les séquences et fournissent une plate-forme intuitive de correction.

La suite logicielle publique développée à l'Université de Washington contient les programmes :

Phred : il convertit les fichiers "traces" (chromatogramme au milieu de la figure ci-contre) en séquences qui sont immédiatement déposées dans des

banques.

Phrap / CrossMatch / Swat : ensembles de programmes pour l'assemblage de séquences d'ADN en contigs.

(18)

Consed : outil graphique de visualisation et d'édition des séquences assemblées par Phrap.

La fonction "Autofinish" (Gordon et al . 2001) du programme Consed permet de combler les trous en proposant des amorces et en identifiant des matrices d'ADN qui permettent de franchir les discontinuités entre 2 contigs.

Source : "Précis de génomique" Gibson & Muse (2004)

6. Les nouvelles technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST ou NGS) a. Introduction

Une révolution en génomique fonctionnelle a eu lieu avec l'avènement des technologies de séquençage à trés haut débit ou massivement parallèles. Des quelques 800 à 1000 nucléotides qu'un chercheur pouvait espérer séquencer en quelques jours par des techniques lourdes, complexes et dangereuses (utilisation d'isotopes radioactifs) dans les années 80, on est arrivé à l'heure actuelle à des techniques de séquençage simplifiées qui génèrent des millions de nucléotides par jour.

Bientôt des milliards ?

L'ensemble des données de séquençage est implémenté en temps réel dans des bases de données pour leur analyse.

Avec les technologies initiales et surtout l'avènement des nouvelles technologies de séquençage à trés haut débit, de plus en plus de génomes sont séquencés ou en cours de séquençage.

Juillet 2014

Nombre de génomes séquencés : > 6.400

Nombre de génomes en cours: > 24.000

"Genomes OnLine Database" - GOLD

NCBI - Genome sequencing projects

Phytozome : a tool for green plant comparative genomics

(19)

Projets de très grande envergure de séquençage de génomes

"Beijing Genomics Institute" (BGI) espère dépasser l'équivalent de 10.000 séquençages du génome humain par an.

10,000 Microbial Genomes Project

1,000 Plant and Animal Reference Genome Project

1,000 Genomes Project : séquençage des génomes d'un très grand nombre d'individus pour obtenir un recueil de la variation génétique chez l'homme (fréquence de variation d'au moins 1%).

b. Caractéristiques élémentaires des NGS

Ces techniques permettent le séquençage d'un nombre colossal de nucléotides (jusqu'à 1012 bases séquencées par expérience - Illumina) à un coût

nettement moindre qu'avec la méthode de Sanger.

Séquençage en un temps record : ces technologies de séquençage permettent d'amplifier spécifiquement un fragment d'ADN isolé, en évitant les étapes de clonage bactérien particulièrement longues.

Ces méthodes sont parallèlisées : des millions de réactions ont lieu en même temps dans des barettes qui contiennent des puits minuscules en fibre optique.

Les fragments séquencés sont courts : 30 - 250 paires de base selon la technologie.

La petite taille et le nombre très élevé des fragments séquencés induit un travail d'analyse colossal en aval car il faut assembler ces fragments en grandes portions continues (contigs).

Le séquençage de novo : c'est le séquençage d'un génome pour la première fois. Il nécessite l'assemblage d'un très grand nombre de petites séquences du génome. Il nécessite aussi un génome de réference (s'il en existe un) afin de positionner (par comparaison) les séquences obtenues.

Définitions importantes

lecture ("read") : une séquence d'un fragment

contigs : séquences continues générées par l'alignement de séquences de fragments qui se chevauchent.

brèches ("gaps") : parties du génome non séquencées ou dont les séquences ne chevauchent pas avec d'autres et ne peuvent donc entrer dans un contig.

régions de faible compléxité : parties du génome dont les séquences sont très peu diversifiées comme les séquences répétées.

Le séquençage complet d'un génome avec les NGS conduit à un nombre colossal de petits fragments séquencés (un grand nombre de petites séquences ou lectures) que l'on essaye ensuite d'assembler en contigs. La qualité de couverture du séquençage et donc liée à celle des contigs (leur longueur et leur continuité) et donc au nombre de brèches.

(20)

L'un des inconvénients des NGS est la petite taille des fragments séquencés d'où un nombre élevé de gaps, en particulier pour les régions de faible compléxité. Pour pallier à cette difficulté, on peut séquencer les fragments :

à partir d'une extrémité ("single-end sequencing") : on obtient le début de la séquence du fragment à une extrémité.

à partir des 2 extrémités ("paired-end sequencing") : on obtient le début de la séquence du fragment à une extrémité et le début de la séquence du fragment à l'autre extrémité mais pas la séquence au milieu du fragment (le séquençage ne génére que de courtes séquences).

la distance entre chaque fragment séquencé étant connue, les algorithmes d'alignement utilisent cette information pour localiser avec plus de précision

(21)

ces fragments dans les régions de faible compléxité.

Un autre moyen est de construire des banques avec des inserts de petites tailles (0,2 - 0,8 kpb) et des banques avec des inserts de grandes tailles (2 - 40 kpb).

On obtient ainsi des fragments séquencés de tailles variables ("short-insert paired end reads" et "long-insert paired end reads" ou "mate paired") qui aboutissent à un meilleur assemblage du fait de contigs plus longs.

L'acquisition et la compilation d'une masse de données de plus en plus astronomique d'une part et l'analyse des résultats des NGS nécessite le développement d'outils bioinformatiques de plus en plus spécialisés (exemple : Allpaths-LG propose un assembleur pour grand génomes).

Les NGS permettent d'aborder (liste non-exhaustive) :

le séquençage d'un génome inconnu (séquençage de novo ) ou le re-séquençage d'un génome connu

l'annotation (ou la ré-annotation) de plus en plus précise et exhaustive d'un génome

l'étude de la variabilité génétique et du polymorphisme de nucléotide simple (SNP)

le séquencage d'haplotypes particuliers lors du clonage positionnel d'un gène d'intérêt

l'étude du transcriptome :

1. identification des sites de démarrage de la transcription, des séquences frontière intron/exon

2. étude des évènements de l'épissage 3. analyse quantitative du niveau

d'expression des gènes

4. quantification et détection d'ARN rares, identification de régions dont on ne savait pas au préalable qu'elles sont transcrites 5. étude du profil en petits ARN non codants

("small ncRNAs"), découverte de gènes codant ces types d'ARN

6. l'édition des ARN : modification post- ou co-transcriptionnelle (essentiellement changement de l'adénosine en inosine)

(22)

Source : Shendure & Aiden (2012)

épigénétique et épigénomique

1. étude de l'influence de l'environnement et de l'histoire individuelle sur les modifications de l'expression des gènes d'une génération à l'autre. Le préfixe "épi" signifie "sur, au-dessus, ..."

2. étude du profil de méthylation de l'ADNet de la structure de la chromatine 3. étude des interactions ADN / protéines

4. étude des modifications post-traductionnelles des histones

la métagénomique : étude du génome d'un organisme prélevé directement dans un environnement complexe (intestin, océan, sols, ...), à l'inverse d'un organisme de laboratoire. Le but est d'obtenir des informations sur l'incidence de cet environnement. Le préfixe "méta" signifie "après, au-delà de, avec, ...". "Metagenomics at EBI".

l'étude du microbiome. Exemple : "Human Microbiome Project"

le séquençage simultané d'un très grand nombre d'échantillon ("Next-generation DNA barcoding")

la génomique médicale (évènements aberrants de mutation)

...

c. Les technologies NGS et les entreprises actuelles

De nouvelles technologies apparaissent chaque année (plus puissantes, plus rapides, plus économiques, ...). Il est illusoire de les lister : ne sont donc présentées que celles qui ont permis les premiers grands bonds.

1. "llumina sequencing" : Illumina représente environ 56% du marché des NGS.

Voir un développement de la technique et du principe des réactions chimiques basées sur l'amplification, l'accrochage sur puce et l'utilisation de terminateurs de chaîne réversibles marqués par des fluorochromes.

Exemple de séquençages Illumina : analyse RNA-seq des vers Echinococcus multilocularis, E. granulosus et Hymenolepis microstoma.

Historiquement, l'entreprise s'est d'abord appelée Solexa (1998) avec un modèle de séquenceur ("Genome Analyzer") lancé en 2006. En 2007, la société Illumina a fait l'acquisition de Solexa.

(23)

2. La technologie Roche 454

La société "454 Life Sciences" (Connecticut - USA) a développé les séquenceurs GS20 et GS FLX ("Genome Sequencer" - distribution par Roche Diagnostics).

La technique utilisée (Margulies et al., 2005) est basée sur l'amplification d'ADN lié à une bille en émulsion et au pyroséquençage.

Voir un film qui décrit le principe de cette méthode de séquençage.

Source : 454.com Exemples d'application

Etude des SNP de l'eucalyptus (Novaes et al., 2008).

Séquençage du génome du blé (16 milliards de nucléotides) - Université de Bristol : publication en Août 2010 d'un "brouillon" du génome du blé

( variété "Chinese spring") obtenu avec la technologie Roche 454.

Voir aussi le consortium international pour le séquençage du blé (IWGSC)

Comparaison des technnologies Illumina et 454

Illumina (ex-Solexa) 454 (Roche)

Amplification en phase solide - séquençage par synthèse (mesure

de fluorescence) Amplification dans une émulsion - pyroséquençage

(24)

L'ADN génomique est fragmenté.

Des adaptateurs sont fixés aux extrémités des fragments d'ADN.

L'ADN est dénaturé puis chaque brin est immobilisé en le fixant à une amorce, elle-même fixée sur un support.

Le brin complémentaire est synthétisé puis ce nouvel ADN double- brin est dénaturé.

Chaque brin fixé forme alors un pont en s'hybridant localement avec l'amorce complémentaire de l'autre extrémité. Le brin complémentaire est synthétisé.

L'opération est répétée un grand nombre de fois : il y a formation d'amas ("cluster") du même fragment d'ADN.

L'ADN génomique est fragmenté (300 - 800 paires de bases).

Des adaptateurs sont fixés aux extrémités des fragments d'ADN simple brin.

L'un des adaptateurs contient la biotine qui se fixe à la steptavidine, elle-même fixée sur une bille.

Le rapport [billes/molécules d'ADN] est tel que la plupart des billes ne fixent qu'une molécule de fragment d'ADN : une bille = un fragment = une lecture.

Voir une vidéo.

Source des figures : Metzker M. (2010)

Un nucléotide marqué par une étiquette fluorescente

("fluorescently labeled chain-terminating nucleotide") est incorporé dans la chaîne en cours de synthèse (synthèse du brin complémentaire de celui qui est séquencé). La fluorescence de ce nucléotide est mesurée.

Mais l'incorporation de ce terminateurs de chaîne est réversible, ce qui permet que la synthèse continue jusqu'à ce qu'un autre

terminateur de chaîne soit incorporé.

Une émulsion (mélange eau-huile) encapsule cette bille et forme une goutelette : l'amplification PCR du fragment d'ADN en milliers de copies s'effectue dans cette goutelette.

L'émulsion est éliminée. L'ADN est dénaturé et les [billes - ADN simple brin] sont ensuite déposées dans des millions de puits ("picotiter plate").

Les nucléotides fluorescents sont délivrés les uns après les autres (pyroséquençage).

Faible taux d'erreurs d'insertion/délétion (indel). Taux plus élevé d'insertion/délétion (indel) que la technologie Illumina.

1 milliard de bases séquencées (lectures d'environ 30-40 bases - les terminateurs de chaîne réversibles sont incorporés moins

efficacement) avec une exactitude moindre que la technologie 454.

1 million de bases séquencées (lectures plus longues d'environ 250 bases) avec une exactitude de 99.5%.

(25)

3. La technologie "Ion Torrent"

L'une des dernières technologies en date, basée sur des puces semi-conductrices remplies de puits.

Un proton est relargué quand un nucléotide est incorporé par la polymérase dans l'ADN.

Cela résulte en un changement de pH localqui est détecté par cette technologie sensible à la variation d'ions.

Cette technologie ne nécessite :

pas de camera, pas de scanner

pas de cascade enzymatique

pas de fluorophore ou chemiluminescence

débit en 2012 : 1000 Mpb/expérience

temps d'expérience total (construction de la banque / données intégrées) : 2 jours

un tour : 3,5 heures

Source : Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352

4. La technologieSOLiD ("Sequencing by Oligonucleotide Ligation and Detection") : le séquençage est basé sur l'amplification par émulsion et l'hybridation-ligature chimique. Il utilise une ligation avec une DNA ligase.

Voir un développement de la technique et du principe des réactions chimiques.

(26)

5. La technologie "Helicos BioSciences"

Remarque : cette entreprise phare a fait faillite en novembre 2012. Les nucléotides fluorescents sont ajoutés l'un après l'autre. Les nucléotides non incorporés (selon le brin matrice) sont éliminés.

Une illumination avec un faisceau laser induit une émission de fluorescence aux endroits où le nucléotide a été incorporé.

Le groupe fluorescent du nucléotide qui vien dêtre incorporé est à son tour éliminé afin que le nucléotide suivant puisse être incorporé par la polymérase.

Voir une vidéo qui décrit cette technologie (figure ci-contre).

Source : Helicos BioSciences

d. Les technologies NGS à venir

1. Le passage de fragments d'ADN au travers des nanopores constitués de protéines (hémolysine) incluses dans une bicouche lipidique.

Voir une vidéo de ce processus.

Voir les figures 14 à 18 de l'article "Nanopores: A journey towards DNA sequencing" pour comprendre les principes physiques (électriques) de la détermination de l'identité du nucléotide qui traverse le nanopore.

Source : Rusk (2013)

(27)

Exemple : l'ADN testé (figure ci-contre) est constitué de répétitions "CAT"

à l'exception d'un triplet "CAG" au milieu de la séquence.

La trace du courant moyen montre un profil répété de 3 niveaux (barres bleues) dont la régularité est interrompue au niveau du G (en orange) : les 4 niveaux de courant autour du G sont affectés.

Le courant résiduel est donc influencé par 1 ou 2 nucléotides.

Source : Manrao et al. (2012)

On envisage d'appliquer la technique des nanopores au séquençage des protéines : la grande difficulté est de déplier la chaîne polypetidique. Une piste est l'utilisation de la "AAA+ unfoldase ClpX".

Voir : "Unfoldase-mediated protein translocation through an α-hemolysin nanopore" (Nivala et al., 2013) 2. La spectromètrie de masse appliquée aux fragments d'ADN.

3. La visualisation directe de molécule d'ADN par microscopie de force atomique.

4. "REvolutionary Approaches and Devices for Nucleic Acid analysis" (READNA) : consortium européen - fiancement via le FP7 ("European Commission's seventh Framework Programme")

(28)

e. Le côut des séquençages

Un chiffre : le marché du séquençage a été de 1,3 milliard de dollars en 2012 et il est estimé à 2,7 milliards de dollars en 2017. Comparaison des caractéristiques des nouvelles technologies de séquençage

(29)

Source : biorigami.com

Du fait des données en masse liées aux nouvelles technologies de séquençage à très haut débit, des "simulateurs" ont été développés pour prédire le coût et la durée (estimés sur la base du génome d'Arabidopsis thaliana et de son annotation).

Côut du séquençage du génome de l'homme (publié en 2001) : environ 100 millions de dollars.

Au cours des premières années, la réduction du côut des séquençages diminuait (diminution ressemblant

approximativement à la "Loi - ou énoncé - de Moore").

Janvier 2008 : chute drastique du côut des séquençages avec l'avènement des nouvelles technologies de

séquençage à très haut débit, dites de "seconde génération".

Depuis le côut baisse régulièrement : il est actuellement d'environ 5000 dollars.

On s'approche d'un séquençage complet du génome de l'homme à 1000 dollars.

Illumina a annoncé une machine appelée "HiSeq-X Ten" (d'un côut de 10 millions de dollars) pour atteindre cet objectif.

(30)

Dans les années à venir, c'est le côut de l'analyse bioinformatique en aval du séquençage d'un génome qui sera prédominante.

Acronymes de la figure : AM : Binary Sequence Alignment/Map - BED : Browser Extensible Data - CRAM : compression algorithm - MRF : Mapped Read Format - VCF : Variant Call Format.

Source : Sboner et al. (2011)

7. Quelques exemples d'apports du séquençage

(31)

a. Le génome de l'homme : "ENCODE"

Septembre 2012 - Publication de 30 articles par le consortium ENCODE ("The Encyclopedia of DNA Elements") qui montrent notamment que :

environ 20% de l'ADN non-codant du génome humain est en fait fonctionnel (codage d'ARN régulateurs)

environ 60% de l'ADN non-codant est transcrit mais les fonctions des transcrits ne sont pas connues

la plus grande partie de l'ADN non-codant fonctionnel est impliquée dans la régulation de l'expression des gènes de l'ADN codant

la transcription des gènes de l'ADN codant est contrôlée par de multiples sites de régulation localisés à proximité ou à distance de ces gènes. Ces

résultats démontrent que la régulation de l'expression des gènes est bien plus complexe que ce que l'on en sait.

On estime que l'exome humain (partie de l'ADN constituée par les exons) correspond à environ 20.000 gènes codant des protéines (exome : 180.000 exons - 1,5% du génome humain - 30 Mbases).

Pour accéder aux articles de manière interactive : Nature ENCODE explorer

Evolution du nombre de génes estimés dans le génome humain

Technique Date Nombre de gènes estimés Hypothèses et commentaires

"Calcul" initial 1990 100 000 Avec l'hypothèse que la taille moyenne d'un gène = 30 kb

Ebauche de séquençage du génome 1994 71 000 Résultat biaisé par les régions riches en gènes ?

Ilôts CpG 80 000 Avec l'hypothèse que 66% des gènes humains ont de tels "ilôts"

Analyse des EST 1994 64 000 Gènes ayant un homologue dans GenBank - Redondance des EST de 50%

Chromosome 22 1999 45 000 Correction liée à la haute densité en gène de ce chromosome

Technique "Exofish" ("Exon Finding

by Sequences Homology") 2000 28 000 - 34 000

Avec l'hypothèse que les régions codantes sont plus conservées que les régions non-codantes. Comparaison des génomes homme - poisson

("Tetraodon nigroviridis")

EST 2000 35 000

120 000

Nombre de gènes Nombre de transcrits

Premier "brouillon" du génome 2001 30 000 - 40 000 Gènes connus + prédictions

Comparaison avec le génome de la

souris 2002 30 000 Gènes connus + prédictions

Analyse du génome de l'homme en cours d'aboutissement

2004 20 000 - 25 000 Gènes connus + prédictions

(32)

2007 20 000 Annotation des gènes améliorée Analyse du génome de l'homme aboutie 2012 20 687 gènes codant des

protéines "The ENCODE Project Consortium"

Nature 489, 57-74 (2012)

Quelques données sur le génome humain (les chiffres ne sont évidemment pas définitifs, le décryptage étant loin d'être fini) Régions transcrites en ARN : 0,05% Tailles moyennes :

Gènes : 45 kb

Séquence codante : 1500 nucléotides

Exon : 145 nucléotides

Intron : 5200 nucléotides

5' UTR : 210 nucléotides

3' UTR : 740 nucléotides

Introns - exons

1. Nombre d'introns : 6 ± 3 introns / 1000 paires de bases de séquence codante 2. Introns / [introns + séquence codante] : 92%

3. Epissage alternatif pour plus de 90% des gènes Régions codant pour des protéines : 1,2%

Introns : 31%

ADN intergénique : 61%

ADN satellite : 6 - 7%

Pseudogènes : 1 - 1,2%

Eléments transposables : 42 - 46 %

Source :Duret L. (2011) "Bioinformatique: Annotation des génomes (eucaryotes)" Université Lyon 1

b. Evolution de ENCODE : "Comparative modENCODE/ENCODE" (analyse comparative de métazoaires)

Les données de ENCODE permettent désormais la comparaison spatio-temporelle des génomes, des transcriptomes, des séquences qui codent les divers types d'ARN, de la structure de la chromatine, des interactions ADN-protéine ...

C'est ce qui a été publié en 2014 pour 3 espèces de métazoaires apparemment distantes : l'homme, le ver nématode (Caenorhabditis elegans) et la mouche (Drosophila melanogaster).

Gerstein et al. (2014) "Comparative analysis of the transcriptome across distant species" Nature 512, 445-448

Ho et al. (2014) "Comparative analysis of metazoan chromatin organization" Nature 512, 449-452

Boyle et al. (2014) "Comparative analysis of regulatory information and circuits across distant species" Nature 512, 453-456

L'ensemble des données (notamment le stockage des données de séquençage de milliards de fragments) est disponible à la sous-partie du consortium ENCODE : "Comparative modENCODE/ENCODE".

Human : 257 ChIP-seq, 164 RNA-seq (includes 25 with shRNA knockdown), 22 RAMPAGE, 7 ChIA-PET, 20 RNA Bind-n-Seq

Mouse : 260 ChIP-seq, 2 RNA-seq, 28 Shotgun Bisulfite-seq (WGBS)

(33)

Araya et al. (2014) Nature 512, 400-405 : distribution spatio-temporelle dans le génome de Caenorhabditis elegans des sites de liaison de 92 facteurs de transcription et protéines régulatrices à plusieurs stades de développement (241 expériences ChIP-seq).

c. Visualisation des protéines de Caenorhabditis elegans

Des constructions génétiques permettent l'expression in vivo des protéines de Caenorhabditis elegans. Ces protéines sont marquées par affinité par des sondes fluorescentes (voir : Sarov et al., 2012).

73% des protéines sont ensuite actuellement visualisables in vivo dans chaque type de compartiment à un moment donné de l'existence de Caenorhabditis elegans (figure ci-contre).

TransgeneOme : Une plateforme dédiée à Caenorhabditis elegans transgènique à l'échelle de son génome.

Elle contient 16.000 constructions (fosmides) sur les 20.000 gènes codant des protéines.

Remarque : ce ver nématode est à l'origine de la description exacte du phénomène d'interférence ARN (RNAi) par Fire et Mello.

Source : TransgeneOme

d. La domestication du chien

Cette domestication a été un épisode important dans le développement de la civilisation humaine. Cependant, la période et les lieux de cet événement ne sont pas encore clairement établis.

Par ailleurs, on connaît mal les changements génétiques qui ont accompagné la transformation des loups primitifs en chiens domestiques.

Un re-séquençage du génome entier du chien et du loup a permis d'identifier 3,8 millions de variants génétiques utilisés. Ces variants ont a leur tour permis d'identifier 36 régions du génome, probablement cibles de la sélection au cours de la domestication du chien (Axelsson et al., 2013).

19 régions contiennent des gènes importants dans le fonctionnement du cerveau, dont huit appartiennent à des voies de développement du système nerveux qui sous-tendent potentiellement les changements de comportement au cours de la domestication du chien.

10 gènes ayant des rôles clés dans la digestion de l'amidon et le métabolisme des acides gras montrent également des signaux de sélection.

Il est ainsi fort probable que les processus adaptatifs qui ont permis aux ancêtres du chien moderne de prospérer avec une alimentation riche en amidon

(34)

(issus principalement des déchets des humains sédentarisés), par rapport à l'alimentation carnivore du loup, a constitué une étape cruciale dans la domestication du chien.

e. Le codage de l'information numérique dans de l'ADN

La production de ressources numériques, la transmission de données et leur stockage ont révolutionné notre vie moderne. Cependant, de manière parallèle, les tâches d'archivage actif et d'entretien en continu des médias numériques sont de plus en plus complexes.

La molécule d'ADN s'avère un support particulièrement attractif pour le stockage de l'information. C'est, peut-être, le support de l'avenir, du fait

notamment de ses capacités d'encodage à haute densité de l'information et de sa longévité dans des conditions de conservation faciles à mettre en oeuvre.

Récemment, un éventail de formats de fichiers courants en informatique ont été codés sous la forme d'ADN (Goldman et al., 2013):

les 154 sonnets de Shakespeare : format texte ASCII

l'article original de Watson & Crick (structure de l'ADN) : format PDF

une photographie en couleur à une résolution moyenne : format JPEG 2000

un extrait de 26 secondes du discours de Martin Luther King en 1963 ("I have a dream") : format MP3

le code de Huffman utilisé pour convertir les octets en digits en base 3 : format texte ASCII

voir la partie "Supplementary information" de l'article de Goldman et al. (2013)

Soit un total de codage dans une molécule d'ADN de l'équivalent de 739 kilo- octets de stockage sur un disque dur avec un taux estimé d'informations de Shannon de 5.2 106 bits.

(35)

L'ADN a été synthétisé, puis séquencé et les fichiers d'origine ont été reconstruits avec une précision de 100% ! L'analyse théorique indique que le stockage dans de l'ADN est :

une technologie d'archivage numérique à long terme réaliste

applicable à une échelle bien au-delà des volumes actuels de stockage de l'information f. Support de la théorie endosymbiotique

Les génomes nucléaires de 2 algues unicellulaires, remarquables par leur complexité génétique et cellulaire, ont été séquencés : la cryptophyte Guillardia theta et la chlorarachniophyte Bigelowiella natans.

Le transfert de gènes endosymbiotiques, c'est-à-dire le mouvement de l'ADN de l'endosymbiote vers l'hôte avant, pendant et après l'évolution d'un organite, a eu un rôle notable dans l'évolution des algues et de leurs génomes nucléaires.

Les plastes secondaires de ces algues (qui ont évolué indépendamment) sont uniques du fait qu'ils ont conservé un noyau "relique" de l'endosymbiote, appelé nucléomorphe. Les cellules des cryptophytes et des chlorarachniophytes ont ainsi 4 génomes et contiennent des systèmes sub-cellulaires complexes pour l'adressage des protéines et pour la coordination entre les compartiments.

Les algues Guillardia theta et Bigelowiella natans ont des plastes entourés par 4 membranes (figure ci-contre).

Chez les cryptophytes, la membrane ultra-périphérique est en continuité de l'enveloppe nucléaire et sa surface est parsemée de ribosomes.

Entre les paires de membranes internes et externes se trouve le compartiment péri- plastidial (PPC), qui contient le nucléomorphe (NM).

Les chiffres indiquent le nombre estimé de gènes codant des protéines dans les génomes des plastes, des mitochondries (MT), du nucléomorphe et du noyau.

C : hydrates de carbone; PY : pyrénoïdes.

Source : Curtis et al. (2012)

(36)

g. Les origines de l'espèce humaine : le séquençage du génome de l'homme de Neanderthal

Le premier brouillon du génome de l'homme de Neanderthal a été publié en 2010 par l'équipe de Svante Pääbo (Green et al. (2010) "A Draft Sequence of the Neandertal Genome" Science 328, 710 - 722).

En mars 2013, la même équipe du "Max Planck Institute for Evolutionary Anthropology" (Leipzig - Allemagne) a publié une séquence encore plus précise de ce génome. Il est issu d'un ADN extrait d'un os d'orteil découvert dans la grotte de Denisova en Sibérie du Sud en 2010.

Le séquençage a été effectué avec une plate-forme Illumina HiSeq :

il correspond à à une couverture moyenne du génome 50 fois supérieure à celle du brouillon de 2010

99,9 % des 1.7 Gb des séquences d'ADN cartographiables de façon unique sont couvertes au moins 10 fois

La conclusion phare est qu'il semblerait que, contrairement à ce que pensaient de nombreux chercheurs, des Néandertaliens et des hommes modernes se soient mélangés par le passé.

Source : Neanderthal genome project (2013) Cette conclusion est diamètralement opposée à celle formulée par la même équipe en 1997 : l'homme de Neandertal n'a pas contribué à notre patrimoine génétique et constitue une espèce distincte de la nôtre, sans métissage possible.

Il est à noter que le premier génome était celui de la mitochondrie, bien plus petit et donc moins riche en informations.

Références

Documents relatifs

Le travail doit être fait sur une copie soigneusement présentée. Tous les calculs doivent être rédigés correctement et les résultats encadrés. On répond à un problème avec

Cela correspond au fait que la norme x 2 + y 2 de l’entier de Gauss x + iy est une fonction multiplicative, et ne change pas quand on remplace x +iy par son conjugu´ e x − iy ou par

I- Introduction : De la découverte de l’ADN au décodage du génome humain II- Constituants des acides nucléiques.. Les bases azotées et leurs

Chaque molécule d'ADN s'enroule sur des protéines (histones) et forme un chromosome. L'ensemble des

Transcription inverse : nécessaire pour que l'information génétique puisse s'insérer dans l'ADN hôte ARN -> ADN.. Cas des virus à ARN : permet la poursuite du cycle

Des régions secondaires plus ou moins distantes (dans un plan en 2 dimensions) d’une molécule d’ARN peuvent interagir entre elles et entraîner un repliement dans l’espace de

liaison : partie la plus sensible aux nucléases (= enzymes de digestion de l’ADN) Cette association forme « la fibre en collier de perle de 10 nm » ; qui.. correspond à une

 L'ARN existe sous forme d'une seule chaîne polynucléotidique (simple brin) sauf chez quelques rares virus pour lesquels l’information. génétique est constituée d’ARN,