• Aucun résultat trouvé

Epissage alternatif pour plus de 90% des gènesRégions codant pour des protéines : 1,2%

Introns : 31%

ADN intergénique : 61%

ADN satellite : 6 - 7%

Pseudogènes : 1 - 1,2%

Eléments transposables : 42 - 46 %

Source :Duret L. (2011) "Bioinformatique: Annotation des génomes (eucaryotes)" Université Lyon 1

b. Evolution de ENCODE : "Comparative modENCODE/ENCODE" (analyse comparative de métazoaires)

Les données de ENCODE permettent désormais la comparaison spatio-temporelle des génomes, des transcriptomes, des séquences qui codent les divers types d'ARN, de la structure de la chromatine, des interactions ADN-protéine ...

C'est ce qui a été publié en 2014 pour 3 espèces de métazoaires apparemment distantes : l'homme, le ver nématode (Caenorhabditis elegans) et la mouche (Drosophila melanogaster).

Gerstein et al. (2014) "Comparative analysis of the transcriptome across distant species" Nature 512, 445-448

Ho et al. (2014) "Comparative analysis of metazoan chromatin organization" Nature 512, 449-452

Boyle et al. (2014) "Comparative analysis of regulatory information and circuits across distant species" Nature 512, 453-456

L'ensemble des données (notamment le stockage des données de séquençage de milliards de fragments) est disponible à la sous-partie du consortium ENCODE : "Comparative modENCODE/ENCODE".

Human : 257 ChIP-seq, 164 RNA-seq (includes 25 with shRNA knockdown), 22 RAMPAGE, 7 ChIA-PET, 20 RNA Bind-n-Seq

Mouse : 260 ChIP-seq, 2 RNA-seq, 28 Shotgun Bisulfite-seq (WGBS)

Araya et al. (2014) Nature 512, 400-405 : distribution spatio-temporelle dans le génome de Caenorhabditis elegans des sites de liaison de 92 facteurs de transcription et protéines régulatrices à plusieurs stades de développement (241 expériences ChIP-seq).

c. Visualisation des protéines de Caenorhabditis elegans

Des constructions génétiques permettent l'expression in vivo des protéines de Caenorhabditis elegans. Ces protéines sont marquées par affinité par des sondes fluorescentes (voir : Sarov et al., 2012).

73% des protéines sont ensuite actuellement visualisables in vivo dans chaque type de compartiment à un moment donné de l'existence de Caenorhabditis elegans (figure ci-contre).

TransgeneOme : Une plateforme dédiée à Caenorhabditis elegans transgènique à l'échelle de son génome.

Elle contient 16.000 constructions (fosmides) sur les 20.000 gènes codant des protéines.

Remarque : ce ver nématode est à l'origine de la description exacte du phénomène d'interférence ARN (RNAi) par Fire et Mello.

Source : TransgeneOme

d. La domestication du chien

Cette domestication a été un épisode important dans le développement de la civilisation humaine. Cependant, la période et les lieux de cet événement ne sont pas encore clairement établis.

Par ailleurs, on connaît mal les changements génétiques qui ont accompagné la transformation des loups primitifs en chiens domestiques.

Un re-séquençage du génome entier du chien et du loup a permis d'identifier 3,8 millions de variants génétiques utilisés. Ces variants ont a leur tour permis d'identifier 36 régions du génome, probablement cibles de la sélection au cours de la domestication du chien (Axelsson et al., 2013).

19 régions contiennent des gènes importants dans le fonctionnement du cerveau, dont huit appartiennent à des voies de développement du système nerveux qui sous-tendent potentiellement les changements de comportement au cours de la domestication du chien.

10 gènes ayant des rôles clés dans la digestion de l'amidon et le métabolisme des acides gras montrent également des signaux de sélection.

Il est ainsi fort probable que les processus adaptatifs qui ont permis aux ancêtres du chien moderne de prospérer avec une alimentation riche en amidon

(issus principalement des déchets des humains sédentarisés), par rapport à l'alimentation carnivore du loup, a constitué une étape cruciale dans la domestication du chien.

e. Le codage de l'information numérique dans de l'ADN

La production de ressources numériques, la transmission de données et leur stockage ont révolutionné notre vie moderne. Cependant, de manière parallèle, les tâches d'archivage actif et d'entretien en continu des médias numériques sont de plus en plus complexes.

La molécule d'ADN s'avère un support particulièrement attractif pour le stockage de l'information. C'est, peut-être, le support de l'avenir, du fait

notamment de ses capacités d'encodage à haute densité de l'information et de sa longévité dans des conditions de conservation faciles à mettre en oeuvre.

Récemment, un éventail de formats de fichiers courants en informatique ont été codés sous la forme d'ADN (Goldman et al., 2013):

les 154 sonnets de Shakespeare : format texte ASCII

l'article original de Watson & Crick (structure de l'ADN) : format PDF

une photographie en couleur à une résolution moyenne : format JPEG 2000

un extrait de 26 secondes du discours de Martin Luther King en 1963 ("I have a dream") : format MP3

le code de Huffman utilisé pour convertir les octets en digits en base 3 : format texte ASCII

voir la partie "Supplementary information" de l'article de Goldman et al. (2013)

Soit un total de codage dans une molécule d'ADN de l'équivalent de 739 kilo-octets de stockage sur un disque dur avec un taux estimé d'informations de Shannon de 5.2 106 bits.

L'ADN a été synthétisé, puis séquencé et les fichiers d'origine ont été reconstruits avec une précision de 100% ! L'analyse théorique indique que le stockage dans de l'ADN est :

une technologie d'archivage numérique à long terme réaliste

applicable à une échelle bien au-delà des volumes actuels de stockage de l'information f. Support de la théorie endosymbiotique

Les génomes nucléaires de 2 algues unicellulaires, remarquables par leur complexité génétique et cellulaire, ont été séquencés : la cryptophyte Guillardia theta et la chlorarachniophyte Bigelowiella natans.

Le transfert de gènes endosymbiotiques, c'est-à-dire le mouvement de l'ADN de l'endosymbiote vers l'hôte avant, pendant et après l'évolution d'un organite, a eu un rôle notable dans l'évolution des algues et de leurs génomes nucléaires.

Les plastes secondaires de ces algues (qui ont évolué indépendamment) sont uniques du fait qu'ils ont conservé un noyau "relique" de l'endosymbiote, appelé nucléomorphe. Les cellules des cryptophytes et des chlorarachniophytes ont ainsi 4 génomes et contiennent des systèmes sub-cellulaires complexes pour l'adressage des protéines et pour la coordination entre les compartiments.

Les algues Guillardia theta et Bigelowiella natans ont des plastes entourés par 4 membranes (figure ci-contre).

Chez les cryptophytes, la membrane ultra-périphérique est en continuité de l'enveloppe nucléaire et sa surface est parsemée de ribosomes.

Entre les paires de membranes internes et externes se trouve le compartiment péri-plastidial (PPC), qui contient le nucléomorphe (NM).

Les chiffres indiquent le nombre estimé de gènes codant des protéines dans les génomes des plastes, des mitochondries (MT), du nucléomorphe et du noyau.

C : hydrates de carbone; PY : pyrénoïdes.

Source : Curtis et al. (2012)

g. Les origines de l'espèce humaine : le séquençage du génome de l'homme de Neanderthal

Le premier brouillon du génome de l'homme de Neanderthal a été publié en 2010 par l'équipe de Svante Pääbo (Green et al. (2010) "A Draft Sequence of the Neandertal Genome" Science 328, 710 - 722).

En mars 2013, la même équipe du "Max Planck Institute for Evolutionary Anthropology" (Leipzig - Allemagne) a publié une séquence encore plus précise de ce génome. Il est issu d'un ADN extrait d'un os d'orteil découvert dans la grotte de Denisova en Sibérie du Sud en 2010.

Le séquençage a été effectué avec une plate-forme Illumina HiSeq :

il correspond à à une couverture moyenne du génome 50 fois supérieure à celle du brouillon de 2010

99,9 % des 1.7 Gb des séquences d'ADN cartographiables de façon unique sont couvertes au moins 10 fois

La conclusion phare est qu'il semblerait que, contrairement à ce que pensaient de nombreux chercheurs, des Néandertaliens et des hommes modernes se soient mélangés par le passé.

Source : Neanderthal genome project (2013) Cette conclusion est diamètralement opposée à celle formulée par la même équipe en 1997 : l'homme de Neandertal n'a pas contribué à notre patrimoine génétique et constitue une espèce distincte de la nôtre, sans métissage possible.

Il est à noter que le premier génome était celui de la mitochondrie, bien plus petit et donc moins riche en informations.

h. Reconstitution de la domestication des agrumes comestibles

La production des agrumes comestibles représentait 9 milliards de dollars en 2012.

Les premiers agrumes comestibles ont été cultivés il y a plusieurs milliers d'années en asie du sud-est mais les voies qu'ont suivies les différentes variétés cultivées actuellement ont été perdues. La très faible diversité génétique des agrumes comestibles les rend très vulnérables à diverses maladies.

Le séquençage de plusieurs génomes de mandarine/clémentine, d'orange et de pamplemousse et la comparaison de ces génomes (synténie - ancêtre

eudicotyledon hexaploïde) permettent d'établir des stratégies pour améliorer la résistance des agrumes modernes (Wu et al. (2014) Nature Biotech. 32, 656-62).

- Phytozome v.10 : "High-quality reference genome from a haploid derivative of Clementine mandarin (C. x clementina cv. Clemenules)"

- ICGC : International Citrus Genome Consortium

8. Etude des éléments de la régulation de la transcription - Structure de la chromatine et épigénomique

Chromatine = ADN + protéine (histones et non-histone) + ARN. Les chromosomes en métaphase représentent le degré le plus élevé de compaction de la chromatine.

Voir un cours sur l'épigénétique (modifications de l'ADN et des histones).

L'accessibilité des protéines (facteurs de transcription et de régulation de la transcription) dépend de la compacité de la chromatine. Le contrôle de la structure de la chromatine est donc un autre mode de contrôle de la transcription des gènes.

De très nombreuses technologies sont développées pour :

étudier des parties très spécifiques des génomes et des éléments de régulation de la transcription

étudier les divers produits de la transcription des gènes

l'épigénomique (ensemble des facteurs épigénétiques) qui est l'étude des modifications de la chromatine qui régulent la transcription des gènes sans

que la séquence de l'ADN ne soit altérée. On peut citer : la méthylation de l'ADN (CPG), les modifications post-traductionnelles des histones, la fixation des protéines de régulation sur la chromatine, ...

Figure ci-contre : Techniques de traitement des acides nucléiques avant séquençage pour l'analyse de parties spécifiques des génomes.

Par exemple :

l'hétérochromatine : les régions riches en

nucléosomes (complexe ADN - histones)

l'euchromatine : les régions pauves en nucléosomes

Source : ENCODE

Eléments du génome cartographiées Techniques utilisées

Régions transcrites en ARN RNA-seq / CAGE / RNA-PET / annotation manuelle

Régions codant des protéines Spectromètrie de masse

Sites de fixation des facteurs de transcription ChIP-seq / DNase-seq

Structure de la chromatine DNase-seq / FAIRE-seq / Histone ChIP-seq / MNase-seq

Sites de méthylation de l'ADN RRBS

Le développement de nouvelles technologies permet l'étude du chromosome interactome et des interactions chromatine-chromatine à longue distance in vivo :

"Chromosome Conformation Capture" (3C)

"Circularized Chromosome Conformation Capture" ou "Chromosome conformation capture-on-chip" (4C)

"Carbon-Copy Chromosome Conformation Capture" (5C)

ChIA-PET

Hi-C ...

Source : de Wit & de Laat (2012) Définitions des acronymes de ces nouvelles technologies

RNA-seq : RNA sequencing (voir ci-dessous)

CAGE : Cap Analysis Gene Expression

PET : Paired-End Tags / technologies : RNA-PET, DNA-PET, ChIP-PET, ChIA-PET

ChIA-PET : Chromatin Interaction Analysis by Paired-End Tag Sequencing

ChIP-seq : Chromatin ImmunoPrecipitation sequencing (base de données ChIPBase)

DNase-seq : DNase I hypersensitive sites sequencing

FAIRE-seq : Formaldehyde-Assisted Isolation of Regulatory Elements sequencing

MNase-seq : Micrococcal nuclease digestion followed by sequencing

MAINE-seq : MNase-Assisted Isolation of Nucleosomes sequencing (purification of mononucleosomes to extract histone-bound DNA)

Epigénomique : techniques utilisant la méthylation de l'ADN ("DNA methylation") :

Documents relatifs