• Aucun résultat trouvé

Organisation et évolution de familles de gènes impliqués dans la maturation du fruit chez le bananier

N/A
N/A
Protected

Academic year: 2021

Partager "Organisation et évolution de familles de gènes impliqués dans la maturation du fruit chez le bananier"

Copied!
369
0
0

Texte intégral

(1)

Délivré par UNIVERSITE MONTPELLIER 2

Préparée au sein de l’école doctorale SIBAGHE

Et de l’unité de recherche AGAP

Spécialité : Biologie intégrative des plantes

Présentée par Cyril JOURDA

Soutenue le 19/12/2013 devant le jury composé de

M. Jean-Claude PECH, Professeur, INP-ENSAT Rapporteur

Mme Maud TENAILLON, Directeur de Recherche, CNRS Rapporteur Mme Mathilde CAUSSE, Directeur de Recherche, INRA Examinateur Mme Magali LESCOT, Ingénieur de Recherche, CNRS Examinateur Mme Angélique D’HONT, Chercheur, CIRAD Directeur de thèse

Mme Nabila YAHIAOUI, Chercheur, CIRAD Co-directeur de

thèse

Doctorat réalisé au sein de l’équipe Structure et évolution des génomes UMR Amélioration Génétique et Adaptation des Plantes méditerranéennes et

tropicales

Campus Lavalette, Bât 3, TA A-108 / 03 - Avenue Agropolis - 34398 Montpellier

Organisation et évolution de familles de

gènes impliqués dans la maturation du fruit

chez le bananier

[Tapez une citation prise dans le document ou la synthèse d'un passage intéressant. Vous pouvez placer la zone de texte n'importe où dans le document. Utilisez l'onglet Outils de zone de texte pour modifier la mise en forme de la zone de texte de la citation.]

(2)
(3)

En premier lieu, je tiens à remercier les rapporteurs de mes travaux de thèse d’avoir accepté de consacrer du temps à lire ce manuscrit et pour les différents commentaires et critiques concernant celui-ci. Je remercie aussi les membres du jury qui écouteront ma présentation lors de ma soutenance prochaine et participeront à la discussion qui en découlera. Merci aussi à Catherine Feuilllet (INRA, Clermont-Ferrand) pour sa participation avec Mathilde Causse (INRA, Avignon) à mes deux comités de thèse et à leurs remarques très avisées.

Je tiens à remercier tout le personnel (permanent et non-permanent) de la station de Neufchâteau en Guadeloupe que j’ai eu la chance de côtoyer dans une très bonne ambiance durant deux semaines en Guadeloupe. Plus particulièrement, merci à Didier Mbéguié-A-Mbéguié pour son encadrement ainsi que nos nombreuses discussions. Merci aussi pour ses métaphores très « exotiques ». Je voudrais aussi remercier Olivier Hubert qui a réalisé le suivi des régimes de bananes afin de récolter correctement le matériel biologique pour mes travaux de recherche et de m’avoir appris à réaliser des mesures physico-chimiques pour caractériser ce matériel. Merci à Solen Rocher pour l’accueil à la sortie de l’aéroport ainsi que Sébastien Ricci et Frédéric Salmon pour notre journée de récolte du matériel végétal. Merci aussi aux collègues pour la balade autour des chutes du Carbet, la visite de la capitale de l’île et la journée à la plage.

Je remercie tous les « locataires » du bâtiment 3 et de son extension pour les bonjours, les sourires, leurs services, les échanges, les conseils et autres discussions. J’ai passé trois années de thèse très agréables dans une excellente ambiance collective au sein de l’unité AGAP. Merci aux membres de la plateforme SouthGreen en particulier les membres de l’équipe ID et les collègues de Bioversity International avec qui j’ai pu collaborer. Merci aussi au groupe ARCAD avec qui j’ai pu échanger lors de nos réunions mensuelles (les « arcadthons »).

1 Pour toute réclamation, veuillez adresser votre demande à l’adresse ci-dessous :

(4)
(5)

une école d’ingénieur ou chercher directement un travail d’ingénieur ? Naturellement, je penchais pour le doctorat mais les mésaventures de certains ami(e)s pouvaient m’inquiéter. J’ai vite compris que le choix du projet et de l’encadrement étaient cruciaux pour réussir une thèse. J’ai alors passé une année « sabbatique » pour réfléchir tout en réalisant un CDD pour finaliser mes travaux de recherche à Toulouse ainsi qu’un autre équivalent à l’INRA. Ces travaux m’ont permis de prendre confiance et de renforcer mon envie de poursuivre ma route en thèse et j’ai alors commencé à prospecter. C’est à cette période charnière que j’ai reçu un email de Monsieur Yves Barriere concernant un sujet de thèse susceptible de m’intéresser. A ce moment là, tout est allé très vite. A peine avais-je fini de lire l’email que j’ai eu une envie soudaine de rédiger mon CV et lettre de motivation.

Tout d’abord, merci à Nabila Yahiaoui, merci de m’avoir fait confiance car j’imagine aussi que cela ne doit pas être aisé de donner sa confiance à un jeune inconnu. Merci pour cette magnifique aventure « bananesque », pour ton suivi constant et assidu au cours de ces trois ans et quelques mois, ta rigueur, ta disponibilité, tes conseils, tes corrections d’anglais (et de français aussi) et ton management. Merci aussi à Angélique D’Hont pour l’encadrement de ma thèse et les multiples corrections, commentaires et suggestions. Plus largement merci à tous les membres de l’équipe SEG. Un grand merci infini à Céline Cardi pour son soutien technique important, son sourire et sa gentillesse permanents. Merci à Olivier Garsmeur pour ses compétences dans un grand nombre de domaines, ses commentaires et ses remarques toujours pertinentes, ses anecdotes personnelles (il lui arrive toujours des aventures), sa bonne humeur permanente et les pauses cafés. Merci à Guillaume Martin, mon colocataire de bureau. En plus d’être scientifiquement très pertinent, c’est un gars super sympathique que j’ai été ravi de côtoyer durant ces deux dernières années. Merci aussi pour ses blagues et son humour décapant. Je ne me fais aucun souci quant à son avenir professionnel. Merci aussi à Carine Charron pour ses corrections et commentaires ainsi qu’aux autres membres de l’équipe, Franc-Christophe Baurens, Catherine Hervouet, Françoise Carreel, Guy Blaise Noumbissie et Florence Chazot pour nos discussions plus ou moins scientifiques et les bons moments partagés ensemble. J’ai beaucoup appris à leurs côtés sur la science en général, le coté administratif (c’est pire que je pensais), sur le CIRAD, sur la banane, sur la canne à sucre...

(6)
(7)

breuvages et mets locaux, de « viendez en Gascogne », de nouvel an, de randonnées, de voyages ou juste de soirées pour se revoir simplement. Un grand merci à Mathieu, Yohann, Ambre, Nadia et Laure en particulier pour leur accompagnement durant une de mes semaines les plus difficiles cette année pour les raisons personnelles que vous connaissez. Merci aussi à ceux que je ne revoie pas ou presque pas à cause de l’éloignement géographique et/ou par manque de temps mais avec qui je continue à échanger. J’aurais aussi une pensée plus émue pour la famille de Kévin.

Plus fortement encore, je remercie ma famille surtout ma mère qui m’a toujours soutenu dans mon aventure et qui a toujours cru en mes capacités, ainsi que mon petit frère et mon tonton. Cette année 2013 fut très difficile pour nous tous et j’espère que cette thèse vous apportera un peu de fierté et de bonheur.

(8)
(9)

« Je suis de ceux qui pensent que la science est d’une grande beauté. Un

scientifique dans son laboratoire est non seulement un technicien : il est aussi

un enfant placé devant des phénomènes naturels qui l’impressionnent comme

des contes de fées. Nous ne devrions pas laisser croire que tout progrès

scientifique peut être réduit à des mécanismes, des machines, des rouages,

quand bien même de tels mécanismes ont eux aussi leur beauté. Je ne crois pas

non plus que l’esprit d’aventure risque de disparaître dans notre monde. Si je

vois quelque chose de vital autour de moi, c’est précisément cet esprit

d’aventure, qui semble qui me paraît indéracinable et s’apparente à la curiosité.

Sans la curiosité de l’esprit, que serions-nous ? Telle est bien la beauté et la

noblesse de la science : désir sans fin de repousser les frontières du savoir, de

traquer les secrets de la matière et de la vie sans idée préconçue des

conséquences éventuelles. »

(10)
(11)
(12)
(13)

Les duplications totales du génome (WGD) sont répandues chez les plantes et l’analyse de la séquence du génome du bananier (Musa acuminata ssp. malaccensis, accession DH-Pahang) a identifié trois évènements de WGD chez cette espèce. Pour étudier l’impact de ces duplications sur l’évolution des familles de gènes chez le bananier, nous nous sommes focalisés sur les gènes impliqués dans deux voies biologiques importantes pour la maturation des fruits du bananier: la voie de biosynthèse et de signalisation de l’éthylène et le métabolisme de l’amidon.

L’impact de l’éthylène sur la maturation des bananes a été étudié par une analyse transcriptomique (RNA-Seq) de fruits à cinq jours après traitement par l’acétylène, un analogue de l’éthylène. Les résultats ont montré une reprogrammation globale de l’expression des gènes au cours de la maturation impliquant jusqu’à plus de 4000 gènes différentiellement exprimés dont 597 facteurs de transcription, ainsi que des gènes codant pour des enzymes de dégradation des parois et de la biosynthèse d’amidon et de sucres.

En parallèle, les membres de 14 familles de gènes de la voie de biosynthèse/signalisation de l’éthylène et du métabolisme de l’amidon ont été identifiés par une approche de génomique comparative. L’évolution des familles a ensuite été étudiée à travers des analyses phylogénomiques et par l’identification des modes de duplication des gènes. Chez le bananier, sept des dix familles de gènes de la voie de l’éthylène ont évolué par les WGD et quatre d’entre elles (ACS, EIL, EBF, ERF) ont montré une rétention préférentielle après WGD. Les gènes EIL de bananier (MaEIL) orthologues des gènes AtEIN3 et AtEIL1, deux gènes clés de la voie de signalisation de l’éthylène, étaient en expansion ainsi que les gènes EBF qui sont responsables du contrôle des niveaux de protéines EIL. Les analyses d’expression des gènes dans la pulpe et la peau des fruits suggèrent une redondance fonctionnelle pour plusieurs gènes MaEIL et MaEBF dupliqués par WGD ainsi que de la sous-fonctionnalisation pour certains d’entre eux.

Une évolution indépendante de quatre familles de gènes du métabolisme de l’amidon chez le bananier et les graminées a aussi été identifiée, à travers des duplications spécifiques dont les WGD pour les AGPases et des sous-familles de starch synthases et de β-amylases, et les duplications monogéniques pour les α-amylases.

Enfin, ces analyses de génomique comparative et de phylogénie associées aux analyses de profils d’expression des gènes dans les fruits ont permis l’identification de membres de ces familles de gènes potentiellement impliqués dans la maturation des fruits de bananier.

Les résultats obtenus au cours de cette thèse illustrent l’impact des WGD sur l’évolution des familles de gènes à l’échelle des voies biologiques et représentent aussi une base de travail afin d’identifier ultérieurement une partie des bases génétiques d’un caractère complexe, la qualité du fruit chez les bananiers.

Mots clés : évolution, duplication totale de génome (WGD), maturation des fruits, éthylène, amidon

(14)
(15)

Whole genome duplications (WGD) are widespread in plants and the analysis of the banana (Musa acuminata ssp. malaccensis, accession DH-Pahang) genome has identified three whole genome duplication events in this species. To study the impact of these WGDs on the evolution of banana gene families, we have focused on genes involved in the ethylene biosynthesis and signalling pathway and in starch metabolism which are of particular importance for fruit ripening in banana.

The impact of ethylene on banana ripening was studied by fruit transcriptome analysis using RNA-Seq, at five days after treatment with acetylene (an ethylene analog). The results have shown a global transcriptional reprogramming involving up to more than 4000 differentially expressed genes including 597 transcription factors, genes encoding enzymes of cell wall degradation and genes of the starch and soluble carbohydrate metabolisms.

In parallel, all members of 14 gene families involved in ethylene biosynthesis and signalling and in starch metabolism have been identified through a comparative genomics approach. Gene family evolution was studied by phylogenetic analyses and the identification of gene duplication modes. In banana, seven out of ten ethylene pathway gene families have evolved through WGD and four of them (ACS, EIL, EBF, ERF) have expanded through preferential retention after WGD. Banana orthologs to AtEIN3 and AtEIL1, two major genes for ethylene signalling in Arabidopsis were found particularly expanded and a co-expansion of EBF genes that are responsible for control of EIL proteins levels was also observed. Gene expression profiles in banana pulp and peel tissues suggested functional redundancy for several MaEBF and MaEIL gene duplicates resulting from WGD and subfunctionalisation for some of them. In addition, four gene families from the starch metabolism have evolved in an independent way in banana and in the grasses, through specific duplications including WGDs for the AGPases and for subfamilies of the starch synthases and β-amylases, and through gene scale duplications for α-amylases.

Finally, these comparative genomics and phylogenetic approaches combined to expression data in banana fruits allowed the identification of gene members from these gene families that are potentially involved in the fruit ripening process.

The results obtained here illustrate the impact of WGDs on the evolution of banana gene families throughout biological pathways and represent a basis for future work on the characterisation of the genetic bases of an important and complex trait, banana fruit quality.

(16)
(17)

1

Avant-propos ... 7

Introduction ... 13

I. Les modes d’évolution des familles de gènes ... 15

1. Définitions des relations entre les gènes ... 15

2. La génomique comparative pour inférer les relations d’orthologie et le transfert d’annotation entre espèces... 15

a) L’approche de génomique comparative pour l’étude des familles de gènes ... 15

b) La recherche de similarité pour le regroupement en familles de gènes ... 17

c) La phylogénie moléculaire ... 19

3. Les différents types de duplication ... 19

a) Les duplications totales du génome (WGD) ... 19

b) Les duplications segmentales ... 23

c) Les duplications monogéniques ou à l’échelle du gène ... 25

4. Les modèles théoriques de l’évolution par duplication ... 25

a) La redondance fonctionnelle ... 27

b) Les différents modèles de la néo- et sous-fonctionnalisation ... 27

c) L’hypothèse de balance des gènes ou « gene balance hypothesis » ... 31

5. Biais dans la rétention et l’élimination des gènes après duplication ... 33

II. Du séquençage des génomes à la génomique comparative et fonctionnelle chez les plantes non modèles ... 35

1. Apport des technologies de séquençage pour l’analyse des génomes chez les plantes ... 35

2. Apport des nouvelles technologies à l’analyse de l’expression des gènes ... 41

III. Les bananiers ... 45

1. Description botanique ... 45

2. La systématique des bananiers ... 47

a) Les bananiers séminifères dits sauvages ... 49

b) Les bananiers parthénocarpiques, dits cultivés, diploïdes et triploïdes ... 49

3. La banane dessert, une monoculture potentiellement fragile ... 53

IV. Deux caractéristiques des fruits de bananier : la réponse à l’éthylène et le stockage d’amidon ... 53

1. Les bananes, fruits climactériques ... 53

a) La maturation des fruits climactériques ... 53

b) La banane, un fruit climactérique particulier ... 55

2. La voie de l’éthylène ... 57

(18)
(19)

3

3. Le métabolisme de l’amidon ... 63

a) Généralités sur l’amidon ... 63

b) La biosynthèse de l’amidon ... 65

c) La dégradation de l’amidon ... 67

d) Le métabolisme de l’amidon chez les bananiers ... 69

e) Évolution des familles de gènes impliqués dans le métabolisme de l’amidon chez les plantes ... 71

V. Présentation du projet de recherche ... 73

Publication n°1: The banana (Musa acuminata) genome and the evolution of monocotyledonous plants ... 79

1. Préambule à l’article ... 81

2. Article : The banana (Musa acuminata) genome and the evolution of monocotyledonous plants ... 83

3. Conclusions ... 115

Publication n°2: Expansion of banana gene families involved in ethylene biosynthesis and signalling after lineage-specific whole genome duplications ... 119

1. Préambule à l’article ... 121

2. Article : Expansion of banana gene families involved in ethylene biosynthesis and signalling after lineage-specific whole genome duplications ... 123

3. Conclusions ... 177

Publication n°3: Genome-wide analysis of starch metabolism-related genes in banana (Musa acuminata L.) ... 179

1. Article : Genome-wide analysis of starch metabolism-related genes in banana (Musa acuminata L.) 2. Conclusions ... 229

Discussion et perspectives ... 231

Références bibliographiques ... 249

Annexe 1: Informations supplémentaires de la publication n°2 ... 303

(20)
(21)

5

Figure 1. Représentation schématique des concepts d'orthologie et de paralogie ... 14

Figure 2. Evolution des génomes de plantes à travers les évènements de WGD ... 20

Figure 3. Identification des évènements de WGD (α/β et γ) chez le bananier ... 23

Figure 4. Représentation schématique du processus de « fractionation » ... 24

Figure 5. Destins évolutifs des copies de gènes issues d’un évènement de duplication ... 28

Figure 6. Evolution du nombre de séquences de génomes des plantes disponibles ... 34

Figure 7. Types de lectures obtenues par séquençage ... 34

Figure 8. Le bananier et ses principales caractéristiques ... 44

Figure 9. Relations phylogénétiques entre les Musaceae et les autres plantes supérieures .... 46

Figure 10. Répartition géographique des espèces Musa acuminata et Musa balbisiana en Asie du Sud Est ... 48

Figure 11. Modèle illustrant le processus de maturation des fruits climactériques ... 54

Figure 12. Caractérisations physiques et biochimiques des fruits du bananier ‘Cavendish’ en fonction du stade de développement et du temps post-traitement à l’acétylène ... 56

Figure 13. Modèle simplifié de la voie de signalisation de l’éthylène chez A. thaliana ... 58

Figure 14. Modèle simplifié du métabolisme de l’amidon dans les feuilles d’A. thaliana ... 64

LISTE DES TABLEAUX

Tableau 1. Comparaison des technologies de séquençage ... 36

Tableau 2. Liste des génomes de plantes publiés ... 38

(22)
(23)
(24)
(25)

9

Les développements technologiques au cours de cette dernière décennie concernant le séquençage des génomes ont permis des progrès rapides et considérables sur notre connaissance des génomes des plantes (Flagel & Blackman, 2012; Todd & Jackson, 2013). Ces génomes sont souvent issus de plusieurs évènements de duplications totales (WGD ou polyploïdie) suivis de nombreux évènements de pertes de gènes par le processus de « fractionation » qui se déroule après les WGD (Lockton & Gaut, 2005). Les évènements anciens de WGD (paléopolyploïdisation) sont très répandus chez les plantes et peuvent être partagés entre certaines espèces ou spécifiques à une espèce. Les WGD les plus récentes sont relativement faciles à détecter et à dater à travers des analyses de synténie et de taux de mutations. Des WGD plus anciennes ont aussi été suggérées dont une, identifiée par des approches phylogénomiques, se serait déroulée il y a plus de 300 millions d’années (Jiao et

al., 2011).

Avec l’augmentation du nombre de projets de séquençage des génomes et les développements des outils informatiques pour le traitement des données de séquences, les études de génomique comparative sont devenues très fréquentes ces dernières années. La génomique comparative est utilisée pour comparer les structures des génomes, et associée à la phylogénie, elle permet d’identifier des gènes orthologues entre différentes espèces et le transfert d’annotations structurales et fonctionnelles des gènes entre les espèces modèles très étudiées et les autres espèces (Miller et al., 2004). C’est une approche très puissante pour comprendre l’évolution des génomes, des gènes et des familles de gènes et pour identifier les différents évènements génétiques tels que les duplications (Kellis et al., 2004; Blomme et al., 2006; Scannell et al., 2006).

Une séquence de référence du génome des bananiers a été obtenue récemment et organisée en onze pseudo-molécules (D’Hont et al., 2012). La reconstruction des blocs génomiques ancestraux a permis d’identifier trois WGD spécifiques chez le bananier. La disponibilité de cette séquence ouvre de nouvelles perspectives pour l’étude de l’histoire évolutive des génomes et des familles de gènes car elle représente un intermédiaire entre les séquences des espèces de plantes très étudiées que sont les graminées (appartenant aux monocotylédones) et les plantes eudicotylédones. Elle permet aussi, pour la première fois, l’accès à l’ensemble des gènes du bananier, apportant ainsi un soutien indispensable à l’identification de gènes d’intérêt agronomique chez cette espèce économiquement importante.

C’est ainsi que dans le cadre de cette thèse, il a été possible d’identifier et d’étudier l’histoire évolutive de familles de gènes impliqués dans des voies biologiques clés pour la maturation

(26)
(27)

11

des fruits du bananier : la biosynthèse et signalisation de l’éthylène et le métabolisme de l’amidon. Des hypothèses sur l’histoire évolutive de ces familles de gènes chez les bananiers ont été formulées à partir de la reconstruction d’arbres phylogénétiques, des profils d’expression des gènes et des modèles théoriques de l’évolution des gènes par duplication.

(28)
(29)

13

(30)

Figure 1. Représentation schématique des concepts d'orthologie et de paralogie

(a) Concepts d’ultraparalogie et de co-orthologie. Les évènements de duplications (en rouge) au sein de deux espèces génèrent des ultraparalogues A1-A2 et B1-B2, A1 et A2 étant deux gènes d’une espèce A et B1 et B2 étant deux gènes d’une autre espèce B. Les relations entre les gènes de l’espèce A et ceux de l’espèce B issus d’un ancêtre commun après spéciation sont définies comme des relations de co-orthologie. (b) Différences entre les concepts d’ultraparalogie et d’out-paralogie. Les ultraparalogues A2-A3 sont issus d’un ancêtre commun dupliqué après un évènement de spéciation au sein d’une même espèce alors que les out-paralogues A1 et A2/A3 sont issus d’un ancêtre commun dupliqué avant l’évènement de spéciation (D’après Sonnhammer & Koonin, 2002; Zmasek & Eddy, 2002).

(31)

15

I. Les modes d’évolution des familles de gènes

1. Définitions des relations entre les gènes

Une famille multi-génique correspond à un ensemble de gènes issus d’un seul gène ancestral. Les gènes qui dérivent de cet ancètre commun et qui présentent des similarités de séquence sont appelés gènes homologues (Fitch, 1966). Les gènes homologues séparés par un évènement de spéciation et donc retrouvés dans des espèces différentes sont dits orthologues. Les gènes paralogues sont des gènes homologues séparés par un évènement de duplication au sein d’une même espèce (Fitch, 1970). Si un de ces gènes perd sa fonction au cours de l’évolution, il est appelé pseudogène. Les relations plus complexes au sein d’une famille multi-génique ont été définies plus récemment. Un ou plusieurs gènes d’une même espèce qui sont orthologues à un ou plusieurs gènes d’une autre espèce sont définis comme co-orthologues (Figure 1a). Ces co-co-orthologues au sein d’une même espèce sont des in-paralogues (ou ultrain-paralogues) apparus par duplication après un évènement de spéciation ou des out-paralogues si ils sont apparus par duplication avant l’évènement de spéciation (Zmasek & Eddy, 2002; Figure 1b). Le terme d’ohnologue a aussi été suggéré pour se référer à un gène paralogue issu d’une duplication totale du génome (WGD, whole genome duplication) en l’honneur des travaux d’Ohno (Birchler & Veitia, 2007).

Il est parfois difficile d’inférer une relation exacte d’orthologie au sein d’une famille multi-génique à cause des pertes de gènes au sein d’une même lignée évolutive. Ces pertes induisent des erreurs de prédictions de gènes apparaissant comme orthologues du fait d’une ou plusieurs perte(s) de gène(s) au sein d’une espèce alors que ces gènes sont en fait paralogues. Pour améliorer l’identification des relations de paralogie/orthologie, une approche de génomique comparative incluant un grand nombre d’espèces différentes est nécessaire.

2. La génomique comparative pour inférer les relations d’orthologie et le transfert d’annotation entre espèces

a) L’approche de génomique comparative pour l’étude des familles de gènes

La génomique comparative consiste à comparer les génomes et les gènes de différentes espèces. C’est une approche puissante pour identifier des gènes orthologues entre différentes espèces, permettant un transfert d’annotations structurales et fonctionnelles des gènes entre

(32)
(33)

17

les espèces modèles très étudiées, comme A. thaliana chez les eudicotylédones et le riz chez les monocotylédones, et les autres espèces (Miller et al., 2004). Ce transfert d’annotation se base sur le postulat que les gènes orthologues ont une forte probabilité d’avoir une structure et une fonction similaires chez les différentes espèces. Les relations d’orthologie seules ne permettent pas toutefois de définir clairement la fonction d’un gène car des fonctions équivalentes peuvent être assurées par des gènes non-orthologues voire non-homologues (Koonin, 2005). Les études de génomique comparative ont aussi pour objectif de comprendre l’évolution des génomes, des gènes et des familles de gènes et d’identifier les différents évènements génétiques tels que les duplications qui ont façonné la structure des génomes (Kellis et al., 2004; Blomme et al., 2006; Scannell et al., 2006). Pour identifier et analyser les familles de gènes, les méthodes de recherche de similarité et de phylogénie moléculaire ont été utilisées au cours de cette thèse.

b) La recherche de similarité pour le regroupement en familles de gènes

La méthode initiale consiste à regrouper les séquences nucléotidiques ou protéiques en familles de gènes en se basant sur la recherche de similarité de séquences réalisée soit au niveau global des séquences (BLAST ; Basic Local Alignment Search Tool ; Altschul et al., 1990) soit par la recherche de domaines ou motifs protéiques conservés dans des bases de données (InterProScan ; Quevillon et al., 2005). La méthode de relation simple consiste à regrouper en familles toutes les séquences qui ont une similarité supérieure à un seuil fixé avec au moins une des séquences de la famille en utilisant un outil comme BlastClust (Altschul et al., 1997). Une autre stratégie consiste à regrouper les gènes en utilisant des outils basés sur un algorithme de type «MCL (« Markov Cluster Algorithm »). Le MCL est un algorithme basé sur la simulation de chemins aléatoires dans un graphe comme TribesMCL (Enright et al., 2002). Les nœuds du graphe correspondent aux gènes et les distances entre les nœuds correspondent aux niveaux de similarités. Les gènes sont regroupés à partir du graphe et d’un seuil de probabilité plus ou moins strict. Ces algorithmes implémentés dans des bases de données comme Greenphyl (http://www.greenphyl.org/cgi-bin/index.cgi, Rouard et al., 2011) sont rapides et simples à mettre en place. Cependant les seuils de similarité sont difficiles à fixer. Ces méthodes sont basées sur les niveaux de similarités de séquence et non sur une relation de parenté depuis un gène ancestral commun. Pour étudier l’histoire évolutive d’un gène et identifier les relations d’orthologie les plus probables, la phylogénie moléculaire est indispensable.

(34)
(35)

19 c) La phylogénie moléculaire

La phylogénie a été développée en premier lieu afin de retracer l’histoire évolutive des espèces sous forme d’arbres en se basant sur des caractères morphologiques et anatomiques. Les premiers arbres de familles de gènes ont été réalisés à partir de séquences protéiques puis nucléiques avec des séquences de différentes espèces : on parle de phylogénie moléculaire (Zuckerkandl & Pauling, 1965). Chaque embranchement de l’arbre correspond à un évènement de duplication de gène ou de spéciation tandis que la longueur de branche correspond à un taux de mutations entre les différentes séquences. Parmi les méthodes mises au point pour reconstruire les arbres phylogénétiques, une méthode probabilistique nommée PhyML (Phylogenetic estimation using Maximum Likelihood) basée sur le maximum de vraisemblance (Guindon et al., 2010) a été utilisée au cours de la thèse. Cette méthode a été conçue pour traiter de grands jeux de données et recherche la topologie de l’arbre qui maximise la vraisemblance en fonction de l’ensemble de l’alignement multiple utilisé et du modèle d’évolution choisi. L’avantage de cet outil réside dans un large choix d’options permettant de réaliser des analyses rapides et efficaces ou des analyses plus lentes mais plus précises. Les évènements de spéciation et de duplication peuvent alors être identifiés en comparant l’arbre des gènes obtenus avec l’arbre des espèces, on parle de « réconciliation » des arbres (Altenhoff & Dessimoz, 2012).

3. Les différents types de duplication

Dès les années 1930, l’importance des duplications de gènes avait été suggérée sur la base d’observations cytologiques de duplications chromosomiques (Haldane, 1933). Actuellement, la duplication de gènes, c'est-à-dire la formation de paralogues, est considérée comme un mécanisme important de l’évolution chez les eucaryotes, en permettant l’acquisition d’un nouveau matériel génétique redondant qui échapperait à la pression de la sélection naturelle et qui pourrait accumuler des mutations pour aboutir finalement à une nouvelle fonction (Ohno, 1970; Zhang, 2003). Ces duplications de gènes sont classées en différents types en fonction principalement de leur échelle de taille et du mécanisme impliqué, et sont détaillées ci-après.

a) Les duplications totales du génome (WGD)

Les duplications totales du génome (WGD) consistent au doublement de l’ensemble du génome. Les WGD sont issues de divisions cellulaires anormales dues à l’échec des paires de

(36)

Figure 2. Evolution des génomes de plantes à travers les évènements de WGD

Les évènements de WGD (étoiles) ainsi que leur date estimée sont indiqués sur le cladogramme des espèces. Les WGD spécifiques aux bananiers sont indiquées en bleu. Seules les 12 espèces utilisées au cours de cette thèse sont illustrées (D’après Blanc et

al., 2003; Bowers et al., 2003; Paterson et al., 2004; Jaillon et al., 2007; Salse et al.,

2008; Schnable et al., 2009; Tang et al., 2010; Shulaev et al., 2011; Jiao et al., 2011; The Tomato Genome Consortium, 2012; D’Hont et al., 2012; Verde et al., 2013)

(37)

21

chromosomes à se séparer correctement au cours des premières étapes de la méiose, spécifiquement lors de l’anaphase. Les WGD résultent donc le plus souvent de la formation de gamètes non-réduits et de leur union au sein de la même espèce (Ramsey & Schemske, 1998). Ces évènements de duplication sont fréquents au cours de l’évolution des plantes (Figure 2). L’identification des évènements de WGD est basée sur les similarités de séquences d’ADN ou de protéines au sein d’un même génome. Afin de distinguer ce type de duplication des autres, les gènes dupliqués par WGD sont identifiés comme localisés au sein de grands blocs dupliqués non-chevauchants du génome et conservés en position synténique, c’est-à-dire dans le même ordre (Tang et al., 2011; Figure 3a). Plus il y a accumulation de mutations (taux de substitutions) entre les deux copies, plus l’évènement de WGD est ancien. Les analyses des taux de substitutions synonymes (Ks) entre gènes dupliqués sont utilisées afin d’estimer la date approximative de la WGD (Figure 3b).

Les données récentes issues des différents programmes de séquençage des génomes des plantes ont révélé l’existence de plusieurs WGD qui coïncident avec l’origine de la diversification des plantes, incluant une WGD à l’origine des plantes à graines et une autre à l’origine des angiospermes (Soltis et al., 2009; Fawcett et al., 2009; Jiao et al., 2011). Un évènement de triplication du génome (noté γ) coïncide avec l’origine des eudicotylédones (Jiao et al., 2012). Un grand nombre de familles de plantes a évolué à travers des WGD indépendantes telles que les Asteraceae, les Solanaceae, les Fabaceae, les Brassicaceae, les Poaceae et les Musaceae (Van de Peer et al., 2009; Soltis et al., 2009; D’Hont et al., 2012). Ainsi, deux évènements WGD additionnels ont été identifiés chez A. thaliana (α and β, Blanc

et al., 2003; Bowers et al., 2003) et une hexaploidisation additionnelle chez les Solanaceae

(triplication « T », The Tomato Genome Consortium, 2012). Par contre, aucune WGD récente n’a été identifiée chez la vigne, le fraisier des bois et le pêcher (Jaillon et al., 2007; Shulaev et

al., 2011; Verde et al., 2013). Chez les monocotylédones, les premières duplications totales

du génome ont d’abord été caractérisées par l’analyse des génomes séquencés des Poaceae (graminées), en particulier le riz, puis le sorgho, le maïs et Brachypodium (Yu et al., 2005a; Paterson et al., 2009; Schnable et al., 2009; International Brachypodium Initiative, 2010). Deux évènements WGD partagés par ces espèces ont été identifiés. La WGD notée ρ s’est déroulée il y a environ 50 à 70 millions d’années (MYA) (Paterson et al., 2004; Salse et al., 2008) et une autre WGD (notée σ) plus ancienne a été proposée (Tang et al., 2010). La comparaison des séquences de plusieurs génomes des graminées a permis de préciser l’évènement ρ et de reconstruire le génome ancestral des graminées antérieur à cet évènement (Salse et al., 2009). Une WGD additionnelle plus récente a été détectée chez le maïs et s’est

(38)
(39)

23

déroulée il y a environ 5 à 12 MYA (Schnable et al., 2009). Chez le bananier, une étude basée sur le séquençage de clones BAC (chromosome bactérien artificiel) a permis d’identifier une WGD spécifique de la lignée des bananiers après la divergence avec la lignée des Zingiberaceae, il y a environ 60 MYA (Lescot et al., 2008). Au cours de ma thèse, le séquençage du génome du bananier (Musa acuminata) a permis d’identifier trois évènements de WGD (α, β and γ) non partagés ni avec les Poaceae ni avec les palmiers. De plus, une WGD a été détectée chez le palmier dattier (Phoenix dactylifera) par analyse phylogénétique (D’Hont et al., 2012).

b) Les duplications segmentales

Les duplications segmentales correspondent à des régions chromosomiques dupliquées suite à une division cellulaire anormale qui, à l’inverse des WGD, n’implique qu’une partie du génome, souvent un segment chromosomique unique (Koszul & Fischer, 2009). En raison de leur taille limitée, seules les duplications les plus récentes peuvent être clairement identifiées sans ambiguités et ces régions dupliquées partagent généralement un niveau élevé d’identité de séquence (> 90%) (Eichler, 2001). En effet, les segments synténiques issus de duplications segmentales anciennes peuvent être difficiles à distinguer de ceux issus de WGD, en particulier suite à la perte de synténie après le processus de « fractionation » décrit dans le

←Figure 3. Identification des évènements de WGD (α/β et γ) chez le bananier

(a) Régions Musa paralogues colorées en fonction de la reconstruction des 12 blocs ancestraux β des bananiers. Les régions colinéaires (traits sur la figure) Musa vs Musa ont été construites en utilisant l’outil SynMap de la plateforme CoGe (http://genomevolution.org/CoGe/SynMap.pl). La tentative de reconstruction des blocs ancestraux β des bananiers a donné lieu à l’identification de 12 blocs différents. Les régions paralogues Musa ont été colorées en fonction de leur appartenance à un des blocs ancestraux définis. La couleur violette supplémentaire a été utilisée pour indiquer les régions paralogues qui sont colinéaires avec deux blocs ancestraux différents et correspondent probablement à des évènements de duplication plus anciens (un exemple est illustré par un cercle). (b) Distributions des valeurs de Ks pour les paralogues Musa et les orthologues Musa-riz. La courbe bleue correspond aux paralogues attribués aux WGD α et β, la courbe rose correspond à ceux attribués à la WGD γ et la courbe noire correspond aux orthologues Musa-Riz. Les évènements α et β ont été proposés sur la base du nombre de segments paralogues (4 en majorité, illustré par le cadre noir horizontal où 4 régions génomiques situées sur les chromosomes 10, 2, 3 et 6 sont identifiées comme régions colinéaires) (D’Hont et al., 2012).

(40)

Figure 4. Représentation schématique du processus de « fractionation »

Les cercles colorés représentent les gènes le long d’une région chromosomique. Suite à une WGD, l’ensemble du contenu génomique (incluant les chromosomes et leur contenu génique) est copié en même temps donnant deux sous-génomes strictement identiques (S1 et S2). Au cours du temps, un grand nombre de gènes dupliqués (mais pas tous) sont éliminés d’une des deux régions homéologues (croix roses). Les gènes conservés en doublon (cadre vert) dans le génome actuel sont utilisés pour détecter

les blocs génomiques synténiques (D’après

(41)

25

paragraphe 4 de cette introduction et aux nombreux réarrangements du génome après les évènements de WGD (Van de Peer, 2004). L’obtention de séquences de génome d’espèces proches apparentées peut faciliter la différenciation de ces deux types de duplications (Kellis

et al., 2004; Dujon et al., 2004).

c) Les duplications monogéniques ou à l’échelle du gène

En plus des duplications à large échelle (WGD et segmentales), d’autres modes de duplications de gènes qualifiés de duplications monogéniques (Cusack & Wolfe, 2007b) ou de duplications à l’échelle du gène (Maere et al., 2005) peuvent être à l’origine de nouveaux matériels génétiques. Parmi ces duplications, une duplication en tandem génère des copies consécutives dans le génome et résulterait de recombinaisons chromosomiques inégales entre deux chromosomes homologues au cours de la méïose (Li & Graur, 1991) tandis qu’une duplication proximale génère des copies relativement proches l’une de l’autre mais non consécutives dans le génome. Les duplications dites proximales pourraient correspondre à des duplications en tandem suivies de l’insertion d’autres gènes entre les copies dupliquées, ou de recombinaisons inégales entre régions homologues distantes, ou seraient induites par les activités localisées de transposons (Zhao et al., 1998). Les gènes dupliqués en tandem peuvent correspondre à environ 10% des gènes chez le riz et A. thaliana (Rizzon et al., 2006). Un autre type de duplication de gène correspond aux duplications induites par les transposons à ADN ou les rétrotransposons. La copie générée est transloquée sur une autre région chromosomique non-homologue par un mécanisme de copier-coller par les rétrotransposons ou de couper-coller par les transposons à ADN (Freeling et al., 2008).

4. Les modèles théoriques de l’évolution par duplication

La caractéristique la plus notable des duplications en comparaison avec d’autres formes de mutations est qu’elles créent une redondance génétique. Après duplications, les gènes paralogues peuvent avoir différentes destinées évolutives. La majorité est éliminée à travers différentes combinaisons d’évènements de suppression et d’insertion, conversion et/ou mutations ponctuelles qui induisent la formation de pseudogènes (Langham et al., 2004). Dans le cas particulier des WGD, le processus d’élimination des gènes dupliqués est connu sous le nom de « fractionation » (Lockton & Gaut, 2005 ; Figure 4). Certains des gènes dupliqués sont soit préférentiellement retenus soit trouvés en copie unique (Freeling, 2009).

(42)
(43)

27

Si le retour à l’état de copie unique est la destinée évolutive la plus fréquente des gènes dupliqués (Lynch & Conery, 2000), plusieurs modèles ont été proposés afin d’expliquer la rétention des gènes après les évènements de duplication.

a) La redondance fonctionnelle

Immédiatement après duplication, les gènes en double copie sont fonctionnellement redondants. Cette redondance fonctionnelle peut être persistante au cours de l’évolution entre les deux gènes paralogues en particulier après les évènements de WGD. En se basant sur des analyses de SNP (polymorphisme d'un seul nucléotide) de gènes retenus en copies dupliquées et de gènes en simple copie chez le riz et A. thaliana, des auteurs ont suggéré que l’avantage principal de la rétention des paralogues pourrait être la mise en « mémoire tampon » des fonctions essentielles. Cet effet tampon fonctionnel pourrait être très important lors des « turbulences génomiques » caractérisées par des réarrangements structuraux et fonctionnels immédiatement après les WGD et pourrait continuer d’agir pendant plusieurs millions d’années (Chapman et al., 2006). En se basant sur des données d’expression des gènes et d’intéractions protéine-protéine, d’autres auteurs ont suggéré que la rétention des membres des réseaux génétiques après WGD pouvait être liée largement à la redondance fonctionnelle. Cette redondance permet de limiter les effets délétères des mutations sur une des deux copies. Si une des copies est éliminée ou non-fonctionnelle, la fonction pourra être assurée par l’autre copie (De Smet & Van de Peer, 2012; Figure 5b). Cette redondance fonctionnelle entre gènes dupliqués a tendance à diminuer au cours du temps comme le suggèrent différentes études indiquant une augmentation de la divergence d’expression et de la divergence des intéractions protéiques pour les copies dupliquées (Casneuf et al., 2006; Li et al., 2009b; Arabidopsis Interactome Mapping Consortium, 2011; Guo et al., 2013).

b) Les différents modèles de la néo- et sous-fonctionnalisation

Parmi les modèles expliquant la rétention des gènes dupliqués, le modèle classique de la néo-fonctionnalisation a été proposé dès les années 1970 (Ohno, 1970). Celui-ci stipule que l’unique mécanisme par lequel les gènes dupliqués peuvent échapper définitivement au « déclin » mutationel est la néo-fonctionnalisation, c’est à dire l’acquisition pour une des deux copies d’une nouvelle fonction bénéfique pour l’organisme alors que l’autre copie conserve la

(44)

Figure 5. Destins évolutifs des copies de gènes issues d’un évènement de duplication

Les exons sont représentés sous forme de boîtes rouges, bleues et jaunes (une couleur par fonction) et les éléments régulateurs sous différentes formes géométriques (Cañestro

(45)

29

fonction d’origine (Ohno, 1970; Ohta, 1988; Walsh, 1995; Nowak et al., 1997; Figure 5c). En plus de la redondance génétique, de la perte de gène et de la néo-fonctionnalisation, le modèle DDC (Duplication, Dégénérescence et Complémentation ; Force et al., 1999) suggère une autre possiblité pour la préservation des gènes dupliqués : la sous-fonctionnalisation (Figure 5d). Les deux gènes dupliqués sont maintenus suite à la séparation complémentaire des structures ancestrales ou des fonctions de régulation entre les duplicats de telle manière que l’addition de leur fonction correspond au moins aux différentes fonctions du gène ancestral. Ce modèle impliquant le découplage des fonctions, prédit que les gènes retenus en doublon montreront des contraintes évolutives moindres que le gène ancestral. Ces gènes dupliqués devraient donc être plus tolérants à l’accumulation de mutations conduisant au partage des profils d’expression tissus-spécifiques du gène ancestral (Lynch & Force, 2000). Le modèle DDI (Duplication, Dégénérescence et Innovation) affirme une étape préliminaire au modèle DDC en suggérant que les séquences régulatrices des gènes dupliqués peuvent acquérir de nouveaux sites de liaisons aux facteurs de transcription dûs à des mutations aléatoires. Ces modifications facilitent l’innovation et la néo-fonctionnalisation (Jiménez-Delgado et al., 2009). La néo- et la sous-fonctionnalisation apparaissent comme deux principales destinées évolutives des gènes après un évènement de duplication (Lynch & Conery, 2000; Innan & Kondrashov, 2010). Cependant, les modèles DDC et DDI seuls n’expliquent que la rétention initiale des gènes dupliqués. Un modèle développé plus récemment nommé EAC (« Escape from Adaptative Conflict » ; Hittinger & Carroll, 2007) suggère qu’un gène singleton (non dupliqué) peut évoluer vers deux fonctions simultanément, créant un « conflit d’adaptation » car il est peu probable qu’un même gène ait une efficacité maximale pour exécuter ces deux fonctions. Après duplication de ce gène, les deux copies pourraient se partager les deux fonctions du gène ancestral afin d’optimiser l’exécution des deux fonctions initiales. Le modèle EAC a donc le même résultat que le modèle DDC (deux paralogues fonctionnellement spécialisés) mais se différencie en insistant sur l’état multi-fonctionel des gènes avant les évènements de duplication et donne une explication légèrement différente (conflit d’adaptation du gène ancestral multi-fonctionnel) en supposant une pression de sélection positive (processus par lequel la fréquence d’un variant génétique avantageux va augmenter dans une population) sur les gènes après duplication. Un autre modèle dit mixte suggère que la sous-fonctionnalisation peut être un état intermédiaire des gènes après duplication avant l’obtention de nouvelles fonctions (He & Zhang, 2005; Rastogi & Liberles, 2005). De plus, un autre modèle a été développé afin d’expliquer l’évolution de nouvelles fonctions des gènes dupliqués tout en conservant les fonctions ancestrales et est nommé IAD

(46)
(47)

31

(Innovation, Amplification et Divergence Bergthorsson et al., 2007). Le modèle se base sur le fait que l’innovation, c’est-à-dire l’établissement de nouvelles fonctions moléculaires, peut se produire à travers des activités secondaires proches de l’activité principale des protéines sans être optimisée pour cela. Par exemple, une enzyme peut catalyser plusieurs réactions bien que généralement, elle n’est optimale que pour une seule. Ces fonctions proches peuvent alors être amplifiées à partir de l’obtention de copies du gène si elles apportent un avantage évolutif. Ces nouvelles copies pourront accumuler des mutations qui pourront éventuellement entraîner une optimisation pour une des activités secondaires qui devient l’activité principale de la nouvelle copie après divergence de séquence.

c) L’hypothèse de balance des gènes ou « gene balance hypothesis »

Le concept de la balance génétique remonte au début du XXème siècle à partir de travaux en génétique des plantes (Blakeslee et al., 1920) et chez la drosophile (Bridges, 1925). Ces études ont mis en évidence que l’ajout d’un chromosome unique à un génotype était très nocif alors que l’ajout d’un génome complet (polyploïdisation) était viable avec des effets moindres sur le phénotype. Ce concept a ensuité été étendu au niveau moléculaire en suggérant que les changements des niveaux protéiques entre les génotypes aneuploïdes et polyploïdes résultent des changements stœchiométriques des produits de gène de régulation (Birchler & Newton, 1981). Des études ont ensuite mis en évidence de nombreux gènes sensibles au dosage tels que ceux codant pour des facteurs de transcription, des suppresseurs de tumeur et des membres de réseaux de signalisation (Seidman & Seidman, 2002; Veitia, 2002, 2003; Kondrashov & Koonin, 2004). Plusieurs résultats expérimentaux, comme la sous-représentation, dans les régions de variation du nombre de copies dans le génome humain, des gènes codant pour les membres d’un complexe protéique, suggèrent l’implication de relations relatives de stœchiometrie entre les membres d’un même complexe macromoléculaire dans de nombreux effets de dosage (Papp et al., 2003; Veitia, 2004; Liang et al., 2008; Schuster-Böckler et al., 2010). Se basant sur ces résultats, l’hypothèse de balance des gènes explique que les gènes en interaction les uns avec les autres tels que ceux codant des membres d’un complexe protéique, ou ceux impliqués dans des réseaux de régulation, ou ceux impliqués dans des réseaux de signalisation, auront tendance à être sensibles au dosage car les changements dans la stœchiométrie des composants individuels seront néfastes aux organismes (Birchler et al., 2005). Ces gènes sont donc plus enclins à être co-retenus après WGD (Birchler & Veitia, 2007). Cette hypothèse fournit des prédictions sur les types de

(48)
(49)

33

gènes qui devraient être préférentiellement retenus ou éliminés après WGD. D’après cette hypothèse, plus un gène code pour une protéine impliquée dans des intéractions avec d’autres protéines ou pour une protéine présente dans un réseau de régulation, plus ce gène aura une sensibilité de dosage importante (Birchler et al., 2005; Freeling & Thomas, 2006). L’équilibre relatif de dosage génique (préservation des équilibres stœchiométriques entre les gènes) expliquerait surtout la rétention immédiate des gènes dupliqués après WGD. Une étude plus récente a suggéré que la rétention de gènes à long terme après WGD pourrait aussi être expliquée par un bénéfice de cette augmentation absolue du dosage génique induisant une production accrue de certains produits de gènes impliqués dans des réseaux métaboliques comme la glycolyse (Bekaert et al., 2011).

5. Biais dans la rétention et l’élimination des gènes après duplication

La rétention et l’élimination des gènes après duplication ne sont pas aléatoires dans le génome et varient en fonction de l’appartenance de ces gènes à différentes classes fonctionnelles (Blanc & Wolfe, 2004; Seoighe & Gehring, 2004; Paterson et al., 2006) et des types de duplications (Freeling, 2009). En accord avec l’hypothèse de balance des gènes, un biais de rétention des gènes « connectés », c’est-à-dire les gènes sensibles au dosage dont les produits sont impliqués dans des réseaux de régulation ou dans des complexes macromoléculaires ou dans des réseaux de signalisation, a été mis en évidence chez les plantes après WGD (Thomas et al., 2006). Les gènes codant pour des facteurs de transcription, des composants de transduction de signal et des ribosomes ont été identifiés comme préférentiellement retenus après WGD par rapport à la rétention globale des gènes à l’échelle du génome complet chez plusieurs plantes (Blanc & Wolfe, 2004; Seoighe & Gehring, 2004; Maere et al., 2005; D’Hont et al., 2012). En comparaison de la rétention préférentielle de ces gènes après WGD, ceux-ci sont très faiblement retenus après duplication monogénique (Maere et al., 2005). L’élimination de ces gènes « connectés » après duplications monogéniques peut aussi être expliqué par un important effet de dosage de ces gènes (Birchler et al., 2001). A l’inverse, les gènes impliqués dans le métabolisme secondaire, les réponses aux stress ou la mort cellulaire sont très retenus après duplication monogénique et non après WGD chez A. thaliana (Maere et al., 2005).

Les évènements de duplications et de pertes de gènes au sein d’une même famille peuvent être spécifiques d’une espèce comme chez les hominidés (Fortna et al., 2004) et chez les plantes (Charon et al., 2012). Ces évènements de duplications et de pertes de gènes

(50)

Figure 6. Evolution du nombre de séquences de génomes des plantes disponibles

L’effectif cumulé de génomes de plantes supérieures séquencés est indiqué en fonction des années où ils ont été publiés (Tableau 2).

Figure 7. Types de lectures obtenues par séquençage

(a) Les lectures de type « single-ends ». Une amorce spécifique (bleu clair) d’une séquence adaptatrice est utilisée pour séquencer une unique extrémité d’un fragment d’ADN (en vert) dont les extrémités sont liées avec des séquences adaptatrices (bleu/orange). (b) Les lectures de type « paired-ends ». Deux réactions séparées vont être réalisées en utilisant des amorces spécifiques (bleu clair, orange clair) de chaque séquence adaptatrice pour séquencer les deux extrémités du fragment. (c) Les lectures de type « mate-pair ». Un fragment d’ADN (en vert pour sa partie interne et en violet et jaune pour ses extrémités) va être lié par ses extrémités terminales à un nucléotide marqué à la biotine (B*) pour former une molécule circulaire qui est clivée en fragments plus petits. Seuls les fragments portant la biotine et ayant la taille souhaitée sont sélectionnés. Des séquences adaptatrices (orange et bleu) sont liées aux extrémités des fragments choisis puis séquencés (Hamilton & Buell, 2012).

0 10 20 30 40 50 60 70 80 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 Années N om br e

(51)

35

spécifiques d’une espèce ou d’une lignée peuvent être corrélés avec l’acquisition d’expressions tissus-spécifiques comme dans les graines des céréales (e.g. Corbi et al., 2012). Afin de comprendre l’évolution des familles de gènes et d’identifier les spécificités de leur évolution au sein d’une espèce, le développement récent des technologies de séquençages appliquées aux génomes des plantes permet d’identifier l’ensemble des gènes d’une famille chez un grand nombre d’espèces différentes, d’inférer plus précisément les relations d’homologie (orthologie et paralogie) et d’établir les profil d’expression des gènes afin de pouvoir formuler des hypothèses probables sur l’histoire évolutive des familles de gènes chez les plantes.

II. Du séquençage des génomes à la génomique comparative et

fonctionnelle chez les plantes non modèles

1. Apport des technologies de séquençage pour l’analyse des génomes chez les plantes

L’explosion des études de génomique comparative ces dernières années est complètement liée à l’augmentation du nombre de projets de séquençage des génomes (Figure 6) et aux développements des outils informatiques pour le traitement des données de séquences. Le premier génome de plante séquencé a été celui de l’espèce modèle A. thaliana (125 Mb ; Arabidopsis Genome Initiative, 2000) par séquençage avec la technologie Sanger (Sanger & Coulson, 1975; Sanger et al., 1977) de BAC préalablement ordonnés par cartographie physique. D’autres technologies de séquençage à très haut débit ont été développées ces dix dernières années (Pareek et al., 2011; Hirsch & Buell, 2013). Parmi l’ensemble de ces technologies, les plateformes 454 et Illumina ont été les plus utilisées et sont à l’origine de l’explosion des projets de séquençage et de reséquençage de génomes de différents organismes et en particulier les génomes de plantes (Todd & Jackson, 2013).

Dès 2005, une technologie de séquençage haut-débit par synthèse basée sur la méthode brevetée de pyroséquençage (Melamede, 1985) est publiée (Margulies et al., 2005). La plateforme utilise la PCR en émulsion qui consiste à amplifier par clonage un fragment unique d’ADN en immergeant des gouttelettes d’eau contenant des réactifs de PCR dans de l’huile. Les lectures séquencées peuvent être de type « single-end » ou de type « mate-pair » (Figure 7) afin de fournir des informations de « scaffolding » (assemblage de lectures dans un

(52)

Tableau 1. Comparaison des technologies de séquençage

Société Roche GS FLX

(454) Illumina-Solexa Life Technologies (SoLiD™) Pacific Biosciences Préparation de la matrice Amplification clonale par PCR en émulsion sur la surface d’une bille Amplification enzymatique par « pont PCR » Amplification clonale par PCR en émulsion sur la surface d’une bille

Détection d’une molécule unique

Méthode de

détection Lumière émise issue des réactions initiées par la libération de pyrophosphate Emission de fluorescence issue des nucléotides marqués et incorporés au cours de la synthèse Emission de fluorescence issue des nucléotides marqués et incorporés au cours de la synthèse

Détection en temps réel du marqueur fluorescent incorporé dans le site actif de la polymérase

Méthode de génération des données

PCR en

émulsion « Amplification par ponts » sur une surface solide

PCR en émulsion Séquençage par synthèse en temps réel d’une molécule unique Chimie/méthode

de séquençage Pyroséquençage Marquage réversible Séquençage par cycles itératifs de liaison de sonde oligonucléotidique

Séquençage par synthèse avec des nucléotides fluorescents

Bases par

matrice 400 35-100 35-50 800-1000

Longueur des lectures

400-1000 bases 35-100 bases 35-50 bases > 1000 bases (moyenne à 4500)

Nombre de bases par série

450-700 Mb 50-600 Gb 25-100 Gb 100 Gb par heure

Durée d’une série de séquençage

> 1 jour 2-11 jours 4-16 jours 10 heures

Coût par Mb ~80 $ ~5 $ ~5 $ < 5 $

D’après (Pareek et al., 2011) ; http://454.com/products/gs-flx-system/index.asp ;

http://res.illumina.com/documents/products/datasheets/datasheet_hiseq_systems.pdf ;

http://www3.appliedbiosystems.com/cms/groups/global_marketing_group/documents/general

(53)

37

ordre précis). La dernière mise à jour du système Roche 454 FLX Titanium génère un million de lectures d’une taille avoisinant les 1000 paires de bases (Tableau 1).

En 2008, une méthode de séquençage par synthèse à très haut-débit utilisant des marqueurs réversibles est développée par Solexa et rapidement acquise par Illumina (Bentley

et al., 2008 ; http://www.illumina.com). Cette technologie se caractérise par l’utilisation de

« ponts PCR ». Des groupes de fragments d’ADN correspondant aux ADN à séquencer sont directement synthétisés sur un support solide et vont être utilisés pour amplifier la matrice d’ADN. Le séquençage se fait directement sur ces produits PCR à l’aide de ponts nucléotidiques marqués par fluorescence et modifiés avec une séquence terminatrice afin qu’ils ne puissent pas être étendus au-delà d’un cycle. Les lectures séquencées peuvent aussi être de type « single-end », « paired-ends » ou de type « mate-pair » (Figure 7). La dernière plateforme Illumina (HiSeq2000) peut générer entre 540 et 600 gigabases par série. Cela correspond à près de six milliards de lectures de 100 paires de bases synthétisées et pré-analysées en une durée maximale de deux semaines (Tableau 1).

Parmi les nouvelles méthodes de séquençage à très haut-débit, la plateforme SoLiDTM

(Applied Biosystems) utilise aussi la PCR en émulsion et séquence par cycles itératifs de ligatures (McKernan et al., 2009). Bien que moins utilisée en comparaison à la technologie 454 ou celle d’Illumina, cette technologie a été utilisée pour plusieurs applications avec succès comme l’analyse de transcriptomes et des projets de re-séquençage chez A. thaliana (Ashelford et al., 2011; Autran et al., 2011) ainsi qu’un projet de séquençage de novo du génome du fraisier des bois (Fragaria vesca ; Shulaev et al., 2011). D’autres nouvelles technologies dites de « troisième génération » ont récemment émergé comme la technologie Pacific Biosciences PacBio qui mesure l’activité enzymatique d’une unique polymérase d’ADN en temps réel (e.g. Rasko et al., 2011). Cependant, ces technologies sont encore peu utilisées en comparaison aux technologies citées précédemment. De nombreux projets utilisent plusieurs technologies de séquençage afin de combiner les différents avantages de celles-ci (Tableau 2).

Avec le développement de ces technologies de séquençage, la stratégie initiale de séquençage BAC par BAC par la méthode Sanger a été remplacée par des approches basées sur le « shotgun » initialement utilisé pour séquencer les génomes de virus (Staden, 1979). Le principe repose sur la cassure aléatoire de l’ADN en nombreux fragments qui sont séquencés. Les lectures séquencées chevauchantes sont ensuite ordonnées pour former des contigs (séquences génomiques continues et ordonnées). Les contigs peuvent ensuite être reliés entre eux au sein de scaffolds en suivant les connections des séquences « mate pairs » et/ou des

(54)

Tableau 2. Liste des génomes de plantes publiés

Nom scientifique Année Groupe d’espèces Chr. Type de séquenceur Revue PMID

Arabidopsis thaliana 2000 dicot 5 Sa Nature 11130711

Oryza sativa 2002 monocot (graminée) 12 Sa Science 11935017

Oryza sativa 2002 monocot (graminée) 12 Sa Science 11935018

Oryza sativa 2005 monocot (graminée) 12 Sa Nature 16100779

Populus trichocarpa 2006 dicot 19 Sa Science 16973872

Vitis vinifera 2007 dicot 19 Sa Nature 17721507

Vitis vinifera 2007 dicot 19 Sa,4 PlosOne 18094749

Physcomitrella patens 2008 bryophyta 27 Sa Science 18079367

Carica papaya 2008 dicot 9 Sa Nature 18432245

Lotus japonicus 2008 dicot 6 Sa DNA Research 18511435

Sorghum bicolor 2008 monocot (graminée) 10 Sa Nature 19189423

Cucumis sativus 2009 dicot 7 Sa,I Nature Genetics 19881527

Zea mays 2009 monocot (graminée) 10 Sa Science 19965430

Glycine max 2009 dicot 20 Sa Nature 20075913

Glycine soja 2009 dicot 20 I, 4 PNAS 21131573

Brachypodium distachyon 2010 dicot 5 Sa Nature 20148030

Oryza glaberrima 2010 monocot (graminée) 12 NA The Plant Journal 20626650

Ricinus communis 2010 monocot (graminée) 10 Sa Nature Biotechnology 20729833

Malus x domestica 2010 dicot 17 Sa,4 Nature Genetics 20802477

Jatropha curcas 2010 dicot NA Sa, DNA Research 21149391

Theobroma cacao 2011 dicot 10 Sa,4,I Nature Genetics 21186351

Fragaria vesca 2011 dicot 7 4,S,I Nature Genetics 21186353

Arabidopsis lyrata 2011 dicot 8 Sa Nature Genetics 21478890

Selaginella moellendorffii 2011 lycopod NA Sa Science 21551031

Phoenix dactylifera 2011 monocot (non graminée) 18 I Nature Biotechnology 21623354

Solanum tuberosum 2011 dicot 12 Sa,4,I Nature 21743474

Thellungiella parvula 2011 dicot 7 4,I Nature Genetics 21822265

Cucumis sativus 2011 dicot 7 Sa,4 PlosOne 21829493

Cucumis sativus 2011 dicot 10 I Nature Genetics 21873998

Cannabis sativa 2011 dicot ? 4,I Genome Biology 22014239

Cajanus cajan 2011 dicot 11 Sa,I Nature Biotechnology 22057054

Medicago truncatula 2011 dicot 8 Sa,4,I Nature 22089132

Brassica rapa 2011 dicot 10 I Nature Genetics 21873998

Setaria italica 2012 monocot (graminée) 9 I Nature Biotechnology 22580950

Setaria italica 2012 monocot (graminée) 9 Sa Nature Biotechnology 22580951

Solanum lycopersicum 2012 dicot 12 Sa,4,S,I Nature 22660326

Solanum pimpinellifolium 2012 dicot 12 Sa,4,S,I Nature 22660326

Cucumis melo 2012 dicot 12 Sa,4,I PNAS 22753475

Linum usitatissimum 2012 dicot 15 I The Plant Journal 22757964

Musa acuminata 2012 monocot (non graminée) 11 Sa,4,I Nature 22801500

Gossypium raimondii 2012 dicot 13 I Nature Genetics 22922876

Azadirachta indica 2012 dicot 14 4,I BMC Genomics 22958331

Hordeum vulgare 2012 monocot (graminée) 7 NA Nature 23075845

Citrullus lanatus 2013 dicot 11 I Nature Genetics 23179023

Triticum aestivum 2012 monocot (graminée) 21 4 Nature 23192148

Sa, Sanger; 4, Roche/454; S, SOLiD; I, Illumina; T, Ion Torrent, NA, non disponible dans la publication; Chr, chromosome; PMID, PubMed ID (d’après Todd & Jackson, 2013).

Références

Documents relatifs

This work described the successful establishment of transgenic lines carrying the two transcription factors HbERF-IXc4 and HbERF- IXc5 under the control of 35S CaMV or

Céline Cardi , CIRAD, Montpellier, France Angelique D'Hont , CIRAD, Montpellier, Fran Nabila Yahiaoui , CIRAD, Montpellier, France A reference genome sequence of banana was

Ethylene biosynthesis genes are transcriptionally induced in peel tissue by ripening (i.e. an increase in their mRNA accumulation in the median zone), MaACS1 and MaACO1 being the

1,2   and Mbéguié‐A‐Mbéguié D 1,2 *    1 CIRAD, UMR QUALISUD, F‐ 97130 Capesterre‐Belle‐Eau, Guadeloupe France 

A differential gene expression was observed during plant development (Kuswanhadi et al., 2005) and a kinetic in response to ethephon, ethylene and wounding in 3-month-old

The levels of ACC and ethylene production and, those of ACC oxidase (MA-ACO1 and MA-ACO2) and ACC Synthase (MA-ACS1) mRNA were examined in pulp tissue of each of these fruits.

In phylogenetic analysis, although MaEIL1, 3 and 4 belong to the cluster consisting of EIN3 and EIN3-like proteins known to be involved in ethylene transduction pathway,

In addition, the mutant RA1062 showed a higher susceptibility to complement-dependent killing, increased bacterial adhesion and invasion capacities to Vero cells, decreased