• Aucun résultat trouvé

Développement et utilisation d'une puce de capture d'exons pour l'étude à large spectre de régions génomiques divergentes entre populations sympatriques de grand Corégone (Coregonus clupeaformis)

N/A
N/A
Protected

Academic year: 2021

Partager "Développement et utilisation d'une puce de capture d'exons pour l'étude à large spectre de régions génomiques divergentes entre populations sympatriques de grand Corégone (Coregonus clupeaformis)"

Copied!
69
0
0

Texte intégral

(1)

DÉVELOPPEMENT ET UTILISATION D’UNE PUCE DE

CAPTURE D’EXONS POUR L’ÉTUDE À LARGE

SPECTRE DE RÉGIONS GÉNOMIQUES DIVERGENTES

ENTRE POPULATIONS SYMPATRIQUES DE GRAND

CORÉGONE (COREGONUS CLUPEAFORMIS)

Mémoire

François Olivier Gagnon Hébert

Maîtrise en biologie

Maître ès sciences (M.Sc.)

Québec, Canada

(2)

RÉSUMÉ

Le processus biologique fondamental que représente la spéciation permet l’émergence d’une diversité fulgurante sur Terre. L’un des défis qui se posent actuellement pour les biologistes évolutionnistes est de comprendre les mécanismes moléculaires fondamentaux qui sous-tendent l’expression de cette diversité observée en milieu naturel. Advenant la colonisation d’un nouvel environnement par une espèce donnée, ces mécanismes peuvent se mettre en place rapidement afin de permettre une exploitation différentielle et indépendante des niches écologiques disponibles. La divergence entre populations exploitant différentes niches s’exprime alors, au niveau génétique, par l’établissement de barrières au flux génique de façon hétérogène à l’intérieur des génomes. La situation évolutive du grand corégone en Amérique du Nord correspond précisément à ce contexte. En effet, on retrouve en milieu lacustre des populations sympatriques de deux écotypes, soit la forme normale benthique et la forme naine limnétique, qui démontrent des signes évidents de divergence morphologique et génétique. Dans le cadre de cette récente divergence entre écotypes, nous avons utilisé les plus récents développements biotechnologiques afin d’identifier et caractériser les régions génomiques fortement différenciées entre écotypes de grand corégone. Les objectifs de la présente étude étaient de i) mettre au point une bio-puce de capture ciblée d’ADN génomique, ii) d'hybrider de l’ADN génomique de plusieurs corégones appartenant aux populations sympatriques à l’aide de la puce conçue, iii) d’assembler et annoter un maximum de gènes capturés et iv) de caractériser la nature et l’ampleur des régions génomiques de divergence entre nains et normaux. L'utilisation de cette technique a permis de capturer et d'assembler avec précision 2 728 gènes (~10% du génome) afin de procéder à une étude à large spectre des différences génétiques entre les deux écotypes. Ce travail a permis d'identifier 267 marqueurs SNP, situés dans 210 gènes, fortement différenciés et potentiellement impliqués dans la divergence écologique qui s’exerce entre écotypes de grand corégone. Les résultats suggèrent que la régulation de l’expression des gènes et un ensemble de mutations, chacune de faible effet, interviennent tôt dans le processus de spéciation chez le corégone, par opposition aux mutations structurales qui modifient la séquence codante des gènes.

(3)

ABSTRACT

The fundamental process of speciation allows the emergence of an astonishing diversity on Earth. One of the main challenges in evolutionary biology is to understand and document the fundamental molecular mechanisms underlying this diversity observed in nature. The establishment of these mechanisms can be extremely rapid when a species colonizes new environments, which gives birth to niche specialization. On the genetic level, this population divergence appears by the emergence of heterogeneous barriers to gene flow in the genome. Lake Whitefish species pairs in North America represent a good model to study the ongoing process of speciation given its particular evolutionary situation. Various lakes in northeastern North America harbor sympatric populations of dwarf (limnetic) and normal (benthic) whitefish showing clear signs of morphological and genetic divergence. In this study, we have taken advantage of recent biotechnological developments in order to identify and document genomic regions of divergence between whitefish ecotypes. The objectives were to i) develop an exon capture chip, ii) enrich and capture genomic regions from multiple samples in natural populations, iii) assemble and annotate a maximum of captured genes and, ultimately, iv) document the extent of genetic differentiation between whitefish ecotypes. This new approach available with the technology of sequence capture allowed us to specifically capture and assemble 2,728 genes (~10% of the genome) to document on a large scale the extent of genetic differentiation between both ecotypes. In total, 267 SNP loci, located in 210 genes, were significantly divergent. This vast array of genes associated to many different biological processes potentially and partly explains the ecological divergence between whitefish ecotypes. Results suggest a greater role of regulation of gene expression and the role of many changes, each of small effect, as explaining early divergence between dwarf and normal whitefish, compared to functional mutations in the protein coding regions.

(4)

AVANT-PROPOS

« When the dead walk, señores, we must stop the killing… or lose the war » Dawn of the Dead, par George A. Romero (1978)

Lorsque les zombies sonneront les glas de l’apocalypse, deux choix se présenteront à l’humanité : s’unir pour combattre l’oisiveté qu’elle aura involontairement généré, ou abdiquer pour s’effondrer pathétiquement et sombrer dans l’oubli opaque et chaotique du néant. La connaissance et la conscience consistent en des qualités inhérentes et essentielles à l’humain. Or, comme l’indique cette métaphore introductoire, elle requière la collaboration concertée d’un ensemble d’individus. Le présent mémoire de maîtrise répond à une logique analogue, dans la mesure où rien n’aurait pu être possible sans la participation d’une myriade d’individus tous plus importants les uns que les autres.

Je tiens d’abord à remercier Louis Bernatchez pour la confiance dont il a fait preuve envers moi en remettant entre mes mains un projet visant l’utilisation d’une technique jusqu’alors peu connue et peu utilisée. Les embuches qui se sont dressées sur notre passage dans le choix du projet n’ont fait que renforcer la pertinence de l’exercice de recherche, tout en donnant naissant à une relation professionnelle et amicale guidée par le respect et l’admiration.

Les prémisses fondamentales sur lesquelles s’appuie un chapitre de cette lutte idéaliste contre la zombification de nos sociétés ont été établies en grande partie par Général Pick, de son nom commun Éric Normandeau, qui m’a généreusement transmis ses connaissances bioinformatiques, une condition plus que nécessaire à la réalisation du projet. Tous les membres du laboratoire Bernatchez ont également été d’une précieuse aide à tout moment, que ce soit pour discuter science ou pour profiter des derniers moments de bonheur avant l’immuable tempête apocalyptique qui nous guette, autour d’un délicieux breuvage houblonné.

Merci infiniment à Judith Breton, la femme de ma vie, aux côtés de laquelle je demeurerai jusqu’au moment ultime où nous devrons utiliser les deux dernières munitions de 9mm. Sans jamais remettre en question l’utilité de cette lutte, elle comprend chacun des aspects du

(5)

mouvement de la résistance. Merci mon amour.

Merci à mes parents pour le support moral et financier. Merci à mon frère, Jean-Philippe qui m’a pratiquement tout appris entre l’âge de 0 et 12 ans. Sans lui, je n’aurais su développer les atouts qui me seront utiles pour participer à la résistance avec les individus qui survivront. Enfin, merci à tous mes amis qui rendent la vie si agréable et heureuse.

Ce projet visait à développer une puce de capture exonique spécifique au grand corégone pour documenter à large spectre la nature et l’ampleur de la différenciation génétique qui s’exerce entre populations sympatriques de grand corégone. Le chapitre 1 de ce mémoire présentera les résultats obtenus suite à l’exercice de capture d’ADN génomique sur des individus nains et normaux. Il consiste en un article intitulé : « Large-scale targeted exons re-sequencing implies a predominant role of regulatory regions in incipient speciation of lake whitefish (Coregonus

clupeaformis) », qui sera publié dans la revue Molecular Biology and Evolution.

Le soutien financier pour ce projet a été assuré par le Fond Recherche Nature et Technologie du Québec (FRNTQ), par le Conseil de Recherche en Sciences Naturelles et en Génie du Canada (CRSNG), le Bureau des Bourses et de l’Aide Financière de l’Université Laval (BBAF), la Chaire de recherche du Canada en Génomique et Conservation des Ressources Aquatiques, ainsi que le groupe interinstitutionnel de recherches océanographiques Québec-Océan.

(6)

TABLE DES MATIERES

RÉSUMÉ ... i

ABSTRACT ... ii

AVANT-PROPOS ... iii

LISTE DES TABLEAUX ... vi

LISTE DES FIGURES ... vi

LISTE DES ANNEXES ... vi

INTRODUCTION GÉNÉRALE ... 1

LA DIVERSITÉ DU VIVANT ET SON ÉVOLUTION ... 2

NATURE POREUSE DES GÉNOMES EN COURS DE SPÉCIATION ... 3

AUTO-STOP GÉNÉTIQUE ET ÎLOTS DE DIVERGENCE ... 4

BALAYAGE GÉNOMIQUE... 6

SYSTÈME SYMPATRIQUE –GRAND CORÉGONE ... 6

Différences phénotypiques ... 7

Isolement reproductif incomplet ... 7

Différences d'expression génique ... 8

Différenciation génétique ... 8

CAPTURE EXONIQUE... 8

OBJECTIF PRINCIPAL ... 10

CHAPITRE 1 : LARGE-SCALE TARGETED EXONS RE-SEQUENCING IMPLIES A PREDOMINANT ROLE OF REGULATORY REGIONS IN INCIPIENT SPECIATION OF LAKE WHITEFISH (COREGONUS CLUPEAFORMIS) ... 12

ABSTRACT ... 13

INTRODUCTION ... 14

MATERIALS AND METHODS ... 17

DISCUSSION ... 24

CONCLUSION ... 33

ACKNOWLEDGMENTS ... 34

CONCLUSION GÉNÉRALE... 45

CAPTURE EXONIQUE CHEZ UN SALMONIDÉ ... 46

(7)

IMPACT FONCTIONNEL DES GÈNES DIVERGENTS ... 48

NATURE DE LA DIFFÉRENCIATION GÉNÉTIQUE ... 48

UTILITÉ ET PERTINENCE DE LA TECHNIQUE ... 50

LIMITATIONS ... 51

PERSPECTIVES FUTURES ... 52

BIBLIOGRAPHIE ... 54

ANNEXES ... 62

LISTE DES TABLEAUX TABLE 1. SUMMARY STATISTICS OF CAPTURED GENES ... 35

TABLE 2.OUTLIER SNP RESULTS FOR ANNOTATED CODING AND NON-CODING REGIONS. PROPORTIONS IN PARENTHESES ARE THE PROPORTION AMONG ALL ANALYZED SNPS... 36

TABLE 3. FUNCTIONAL GROUPS OVER-REPRESENTEDŦ AMONG OUTLIER GENES COMPARED TO THEIR PROPORTION AMONG ALL GENES ASSEMBLED. ... 37

TABLE 4. SEQUENCE CAPTURE OUTLIERS (SEQ. CAP) ALSO LABELED AS OUTLIERS IN A PREVIOUS GENOME SCAN. ... 37

LISTE DES FIGURES FIGURE 1 DISTRIBUTION OF FST ESTIMATES BETWEEN DWARF AND NORMAL WHITEFISH AT 2,302 SNP LOCI………...……….40

FIGURE 2 FST-BASED SCAN FOR SELECTION USING FDIST2 IMPLEMENTED IN LOSITAN WORKBENCH. ... 41

FIGURE 3 OBSERVED HETEROZYGOSITY (HO) FOR OUTLIER AND NON-OUTLIER LOCI FOR BOTH DWARF AND NORMAL POPULATIONS. ... 42

FIGURE 4 ASSEMBLED PROSTAGLANDIN-E SYNTHASE 2(PGE-2 SYNTHASE) WITH SNP AND PROBE POSITIONS ... 43

FIGURE 5 ASSEMBLED SEQUENCE (PARTIAL) FOR GLUTATHIONE PEROXIDASE. ... 44

LISTE DES ANNEXES FIGURE S1DISTRIBUTION OF ALLELIC FREQUENCY DIVERGENCE AT EACH LOCUS. ... 62

(8)

1 INTRODUCTION GÉNÉRALE

(9)

La diversité du vivant et son évolution

« There is grandeur in this view of life, with its several powers, having been originally breathed into a few forms or into one; and that, whilst this planet has gone cycling on according to the fixed law of gravity, from so simple a beginning endless forms most beautiful and wonderful have been, and are being, Evolved ».

Charles Darwin, On the Origin of Species (1859) Cette « grandeur » dont parle Darwin dans la toute première version de son livre décrivant l’évolution par sélection naturelle, revêt une signification particulière dans le contexte de la biologie évolutive moderne. Elle invoque toute la complexité du mécanisme fondamental auquel il a consacré sa vie et qui peut être perçue comme l’une des idées scientifiques les plus puissantes de l’histoire de l’humanité. En science, les questions les plus simples deviennent souvent les plus profondes, raison pour laquelle la communauté scientifique s’efforce encore de comprendre et découvrir les mécanismes fondamentaux qui donnent naissance à cette grande diversité qui caractérise les êtres vivants et ce, après plus de 150 ans de recherche sur le sujet. Plusieurs aspects de la dynamique évolutive qui s’installe entre les êtres vivants et leur environnement sont toutefois bien documentés, notamment le concept de radiation adaptative. La sélection naturelle associée à des changements écologiques ou à la colonisation de nouveaux habitats peut mener à une divergence rapide entre populations phénotypiquement et génétiquement distinctes, jouant ainsi un rôle prépondérant dans le processus de spéciation (Orr & Smith 1998). Actuellement, plusieurs phénomènes moléculaires et génétiques qui constituent la base de la divergence adaptative et de la spéciation ont été caractérisés de manière exhaustive. En effet, plusieurs études se sont concentrées sur la caractérisation de la variation nucléotidique au sein de génomes spécifiques (par exemple, la drosophile : Burke et al. 2010; Karn et al. 2010; la souris : Karn et

al. 2010) en tentant d’élucider le rôle des forces évolutives qui génèrent les patrons observés

(Mitchell-Olds et al. 2007). La diversité génomique qui résulte de l’action synergique de ces forces naturelles, en l’occurrence la sélection, la mutation, la dérive et la recombinaison, permet alors de sculpter des phénotypes différents qui possèdent une valeur d’aptitude (fitness) intrinsèque variable. Il existe donc une variation d’aptitude associée à la variation génétique observée entre les individus en milieu naturel.

(10)

3

Nature poreuse des génomes en cours de spéciation

Jusqu’à présent, les modifications phénotypiques associées aux changements évolutifs des espèces en milieu naturel ont été largement documentées. Cependant, les bases moléculaires qui sous-tendent ces modifications phénotypiques et la nature des forces évolutives en jeu, de même que leur influence mutuelle demeurent encore ambiguës (Coyne 2004; Schluter 2009; Nei & Nozawa 2011). L’étude de l’architecture génomique qui sert de base aux phénotypes observables en nature permet entre autres de mettre en évidence les changements moléculaires structuraux qui déterminent les différences s’accumulant progressivement entre des populations en processus de divergence (Lynch 2007). La définition « classique » du concept d’espèce avancée par Ersnt Mayr (1963) implique la formation de barrières à la reproduction entre les groupes d’organismes définis comme étant des espèces distinctes. De nombreuses recherches ont davantage focalisé leur attention sur les traits ou les facteurs qui causent l’isolement reproductif, avec un intérêt prépondérant pour la découverte de gènes directement associés à cet isolement (Schluter 2001; Rundle & Nosil 2005; Feder et al. 2005; Nosil & Feder 2011). Peu de données empiriques sont cependant disponibles concernant l’architecture génomique de la spéciation, de même que la nature et le nombre de gènes impliqués dans la divergence génétique qui mène à la création de nouvelles espèces (Nosil & Feder 2012). Les bases moléculaires qui sous-tendent les modifications phénotypiques et la nature des forces évolutives en jeu, de même que leur influence mutuelle représentent donc des sujets d’étude majeurs (Coyne & Orr 2004; Schluter 2009; Nei & Nozawa 2011).

Des analyses moléculaires menées sur de jeunes lignées évolutives en processus de divergence au sein de zones hybrides ont révélé l’existence de patrons génomiques d’introgression entre locus qui s’avèrent extrêmement hétérogènes et complexes (Teeter et al. 2010; Presgraves 2010; Gagnaire et al. 2011; Gompert et al. 2012). L’importante variation observée dans les taux d’introgression entre différentes régions génomiques est attribuable à la présence de barrières génétiques qui s’opposent au flux de gènes, limitant par la même occasion le taux d’introgression aux locus avoisinants (Barton 1979; Barton & Bengtsson 1986). Une interaction compétitive subtile entre l’intensité des forces sélectives et l’ampleur de la recombinaison (Felsenstein 1981) détermine alors le taux d’introgression aux locus neutres, tandis que les allèles avantageux auront

(11)

tendance à être légèrement ralentis par ces barrières, tout dépendant du taux de migration et de la force de la sélection. La présence de taux d’introgression dynamiques et variables favorise la formation, au sein des génomes, de barrières semi-perméables au flux génique entre taxons en cours de différenciation (Payseur 2010). Dans une situation de divergence adaptative, la sélection naturelle favorisera alors la différenciation génétique des locus conférant un fitness supérieur selon le contexte écologique, permettant toutefois le flux de gènes au sein des régions neutres (Wu 2001; Turner et al. 2005; Nosil et al. 2009). Cette « vision génique de la spéciation » permet d’expliquer comment la spéciation écologique peut survenir dans un contexte sympatrique. Au fil du temps ou avec l’augmentation des pressions de sélection, ces régions génomiques imperméables au flux génique, qualifiées d’« ilots génomiques de divergence », devraient augmenter en taille et en nombre par « autostop génétique » (Maynard Smith & Haig 1974) jusqu’à ce que les génomes deviennent complètement génétiquement isolés (Wu 2001; Wu & Ting 2004; Via 2009, 2012; Feder et al. 2012).

Auto-stop génétique et îlots de divergence

La recherche des régions potentiellement sous sélection qui se trouvent dans les îlots génomiques de divergence s’appuie sur le concept d’« autostop génétique » qui fait appel à différents principes de génétique des populations. D’abord, une mutation favorable se retrouve à très faible fréquence lorsqu’elle apparaît de novo dans la population. La fréquence de la mutation favorable peut par la suite augmenter grâce à l’action de la sélection naturelle jusqu’à l’atteinte de la fixation dans la population. Par la même occasion, cette mutation entraine avec elle dans son ascension les régions adjacentes neutres qui augmenteront également en fréquence dans la population (Maynard Smith & Haigh 1974; Barton 2000). L’influence de la mutation favorable sur les régions en amont et en aval diminue en fonction de la distance du site sélectionné (Schlötterer 2002; Stephan et al. 2006; Derome, Baudry, et al. 2008a; Neafsey et al. 2010). D’autre part, la taille des régions soumises à l’auto-stop génétique peut varier en fonction du taux de recombinaison et de la force de la sélection (Schlötterer 2002). Deux hypothèses non mutuellement exclusives ont été proposées pour expliquer la taille des régions de différentiation aux stades précoces du processus de spéciation. La première stipule qu’un faible nombre de locus associés à certains caractères phénotypiques adaptatifs seront sélectionnés, donnant naissance à de larges régions de différenciation autour de ces sites. Le patron observé s’expliquerait par une

(12)

5 réduction des taux effectifs de recombinaison et de migration entre populations qui permettraient ainsi l’expansion progressive des régions (Via 2009). L’hypothèse alternative notamment vérifiée par simulations par Feder & Nosil (2010) prévoit que la sélection agira simultanément et localement sur une multitude de régions isolées et physiquement non liées. La quantité de régions divergentes produites par auto-stop génétique et leur étendue ne sont pas absolues et varient le long d’un continuum notamment selon le temps de divergence, les tailles effectives des populations, le taux de migration et l’intensité de la sélection (Feder & Nosil 2010; Michel et al. 2011).

Plus récemment, quatre phases successives le long de ce continuum ont été décrites par Feder et

al. (2012). La première phase, soit la « sélection directe », s’applique au cours de la divergence

primaire, en l’occurrence pendant la phase d’adaptation locale qui se caractérise par l’effet de la sélection divergente à quelques locus seulement. Les locus sélectionnés ne démontrent que de très faibles niveaux de déséquilibre de liaison et se comportent à l’instar de barrières génétiques indépendantes et peu efficaces dans la réduction du flux génique aux locus à proximité (Barton 1979; Charlesworth et al. 1997). Si l’ampleur de la sélection augmente ou si le déséquilibre de liaison se forge entre locus sélectionnés, une seconde phase s’entame, soit la divergence par auto-stop (divergence hitchhiking, Via & West 2008). Cette phase se caractérise par la réduction du taux de migration autour des locus sélectionnés sur plusieurs centimorgans (Via 2012). Si l’effet cumulé de la sélection sur un ensemble de locus devient suffisant pour réduire le taux de migration effective aux locus qui ne sont pas liés, les patrons de divergence s’étendent alors à tout le génome. Il s’agit de la troisième phase, appelée auto-stop génomique (genome

hitchhiking), qui se caractérise par des patrons génomiques de différenciation (Barton &

Bengtsson 1986; Feder & Nosil 2010). L’augmentation de la divergence conduit à la quatrième et ultime phase, soit l’isolation reproductive complète. Par conséquent, les changements adaptatifs doivent être identifiés tôt dans le processus de divergence avant que d’autres différences génétiques ne s’accumulent au fil du temps, érodant ainsi les traces des processus fondamentaux à l’origine de la différenciation. En dépit d’un cadre conceptuel élaboré permettant d’expliquer d’un point de vue théorique la divergence génomique au cours du processus de spéciation en présence de flux génique, de nombreuses questions persistent en ce qui a trait à l’architecture génomique de la spéciation et l’importance relative des processus qui favorisent ou ralentissent

(13)

l’extension des locus divergents (Nosil & Feder 2012).

Balayage génomique

Les progrès réalisés dans le domaine de la génétique des populations ont facilité l’étude des îlots génomiques de divergence en permettant l’identification des régions du génome potentiellement soumises à la sélection naturelle. En dépit des différences phénotypiques notables qui peuvent exister entre populations divergentes, les régions génomiques neutres ne démontrent qu’une faible différenciation. Conséquemment, elles établissent un contraste par rapport aux régions sous sélection (potentiellement adaptatives) qui seront davantage différenciées (Schlötterer 2002). Ce type d’analyse qualifié de « balayage génomique » vise à identifier des gènes candidats qui démontrent une différenciation marquée, contrairement aux régions neutres qui présentent une distribution de fréquences alléliques similaire entre les populations en processus de divergence (Schlötterer 2002; Vasemagi & Primmer 2005; Nosil et al. 2008; Hancock et al. 2011). L’acquisition de données de séquençage devenue moins complexe et plus abordable, il est désormais possible d’obtenir rapidement une masse considérable de séquences d’ADN, rendant les études à large spectre excessivement puissantes (Ellegren 2008; Nosil et al. 2009; Davey et al. 2011; Nosil et al. 2012).

Système sympatrique – Grand corégone

Dans ce contexte, les populations de grand corégone (Coregonus clupeaformis) en Amérique du Nord représentent une situation unique pour l’étude des processus de spéciation en présence de flux génique. En effet, de nombreux lacs nord-américains abritent des populations sympatriques de deux écotypes distincts de grand corégone qui se trouvent à un stade précoce d’isolement reproductif et de divergence génomique (Lu et Bernatchez 1998; Bernatchez 2004; Rogers et Bernatchez 2006; Nolte et al. 2009; Renaut et al. 2009). L’apparition indépendante et répétée de deux sous-espèces (écotypes) de corégone en sympatrie dans plusieurs lacs s’explique d’abord par une phase allopatrique qui remonte à la dernière glaciation (-60 000 ans, Jacobsen 2012). Au cours du Pléistocène, des barrières géographiques ayant isolé des populations distinctes de corégone a permis l’émergence de races glacières morphologiquement similaires et légèrement différenciées d’un point de vue génétique (Bernatchez 2004). Suite à la fonte des glaces (-12 000 ans), un contact secondaire entre ces races glacières a donné naissance à une situation de

(14)

7 divergence morphologique sympatrique (Bernatchez et Dodson 1990). Des interactions de compétition intra-spécifique combinées à un certain niveau d’opportunisme écologique ont ainsi permis l’apparition d’une forme naine limnétique dérivée de la forme ancestrale benthique (Bernatchez et Campbell 2004; Landry et al. 2007; Bernatchez et al. 2010).

Différences phénotypiques

Plusieurs études ont permis d’identifier des différences phénotypiques marquées modulées par l’action de la sélection divergente entre écotypes de corégone. Ces caractères phénotypiques comprennent notamment certains traits d’histoire de vie (Chouinard et al. 1996), la croissance (Rogers & Bernatchez 2005; 2007), le taux métabolique (Trudel et al. 2001), les stratégies d’acquisition des ressources trophiques (Lu & Bernatchez 1999) et différents comportements (Rogers et al. 2002). L’utilisation de techniques de génétique quantitative a également permis de construire une carte de liaison à partir de marqueurs AFLP, révélant une association statistique significative entre la variation génétique à plusieurs locus le long des groupes de liaison et certains phénotypes quantitatifs divergents (Rogers & Bernatchez 2005; 2007). Ces résultats démontrent un lien entre plusieurs régions génomiques de flux génique réduit entre nains et normaux et de nombreux caractères quantitatifs associés, entre autres, à la croissance, l’activité de nage et la morphologie (Rogers et al. 2002; Campbell & Bernatchez 2004). Il existe également une corrélation significative entre le niveau de différenciation entre populations sympatriques de corégone et l’ampleur de la variation de leur niche respective (Landry et al. 2007). Ce type de relation suggère une association phénotype-environnement prononcée.

Isolement reproductif incomplet

Conjointement à ces nombreux travaux, des efforts de recherche ont été investis afin de documenter les bases génétiques de l’isolement post-zygotique intrinsèque et extrinsèque ayant évolué au cours de la différenciation des populations sympatriques (Rogers & Bernatchez 2006). Plusieurs résultats démontrent une mortalité et une infertilité partielle des hybrides, réduisant ainsi considérablement leur fitness, ce qui suggère l’installation progressive de mécanismes d’isolement reproductif. En effet, un bon nombre de preuves empiriques confirment la présence de mécanismes intrinsèques et extrinsèques permettant de créer et de maintenir un isolement reproductif entre les populations naine et normale (Rogers & Bernatchez 2006).

(15)

Différences d'expression génique

Les travaux de Britten et Davidson (1969) et King et Wilson (1975) portant sur les rôles évolutifs des processus de régulation génique ont permis de mettre en lumière le fait que la variation des niveaux d’expression de gènes constitue une source de nouveauté pouvant être soumise à l’action de la sélection naturelle et ainsi, participer de manière significative à la divergence phénotypique des espèces (Oleksiak et al. 2002; Wray 2007; Wittkopp 2007; Fay & Wittkopp 2008). Plusieurs études ont effectivement démontré l’implication de la sélection naturelle dans le maintien de la divergence entre écotypes de corégone sur la base de patrons d’expression génique, notamment pour des gènes liés à l’activité de nage et au métabolisme énergétique (Derome & Bernatchez 2006; Derome et al. 2006; Jeukens et al. 2009; 2010). Conjointement, l’étude de la transcriptomique chez le corégone a révélé des patrons d’expression génique marqués entre nains et normaux, traduisant les compromis de traits d’histoire de vie inhérents à l’exploitation de leur niche écologique respective (St-Cyr et al. 2008).

Différenciation génétique

Suite au séquençage du transcriptome des populations sympatriques de corégone et d’hybrides rétro-croisés, une analyse préliminaire de polymorphismes nucléotidiques simples (« Single

Nucleotide Polymorphisms », SNP) a révélé une différenciation significative entre nains et

normaux. Les gènes différenciés étaient associés à une large gamme processus biologiques potentiellement impliqués dans la divergence adaptative des écotypes (Renaut et al. 2010; 2011). Cette analyse de marqueurs SNP dans les séquences codantes de corégone suggère l’action de la sélection naturelle sur la variation génétique préexistante dans un grand nombre de gènes (Renaut

et al. 2011). Capture exonique

L’ensemble de ces travaux de recherche a permis d’élucider de nombreuses questions concernant l’architecture génomique qui sous-tend la divergence adaptative chez le corégone. En effet, les résultats combinés des études menées jusqu’à présent laissent entrevoir la participation potentielle de plusieurs centaines de gènes candidats dans la divergence adaptative qui s’exerce entre les populations de corégone en milieu naturel. Peu de données concernant le

(16)

9 polymorphisme de séquences à grande échelle à travers le génome sont cependant disponibles pour cette espèce. Puisque pour comprendre la base génétique des phénotypes adaptatifs il importe de génotyper plusieurs milliers de locus cibles susceptibles de jouer un rôle dans la variation phénotypique, les régions codantes s’inscrivent comme des cibles de choix pour répondre à ce type de problématique (Mitchell-Olds et al. 2007; Ellegren 2008). Cependant, de nombreuses questions persistent à savoir quels types de régions génomiques sont impliquées dans la différenciation des populations (Hoekstra et Coyne 2007; Nosil et Feder 2012). Beaucoup de travail se focalisant sur l’étude comparative de régions codantes et non codantes est par conséquent requis afin de déterminer l’apport respectif de différents types de régions génomiques dans la différenciation des génomes au cours de la spéciation (Nosil et Feder 2012). La technique de capture exonique sur support solide (Albert et al. 2007; Hodges et al. 2007) permet, dans ce contexte, de traiter de la question de la divergence à la fois dans les régions codantes très ciblées, qui représentent environ 1%-3% du génome typique eucaryote (Cosart et al. 2011), et dans les régions non codantes.

Cette technologie novatrice qui s’apparente à celle des biopuces à expression de gènes (microarrays, Schena et al. 1995; Gibson 2002) permet l’enrichissement et le re-séquençage à haut débit d’un ensemble de locus pouvant aller jusqu’à la totalité de l’exome et ce, en parallèle sur plusieurs individus (Porreca et al. 2007; Ng et al. 2009). L’outil utilisé pour réaliser l’expérience de capture consiste en une lame de verre sur laquelle sont directement synthétisées de courtes sondes oligonucléotidiques (75-100 paires de bases, pb) correspondant aux régions ciblées dans le génome (l’ensemble des régions codantes par exemple). Les quelques 380 000 sondes disponibles sur la puce couvrent de manière chevauchante les régions sélectionnées afin d’offrir une profondeur de couverture et une représentativité optimales pour l’ensemble des cibles (note technique, Roche NimbleGen). Après extraction d’ADN génomique sur plusieurs individus, l’ensemble de ce matériel génétique est fragmenté, dénaturé et on y appose des étiquettes individuelles (MID tags) en plus d’adaptateurs pour séquençage à haut débit. La solution d’ADN génomique ainsi obtenue est déposée sur la puce afin que les régions génomiques complémentaires aux sondes (régions ciblées) viennent s’y hybrider. Les sondes ont la capacité de couvrir de manière aussi efficace les 100 pb qui se trouvent en amont et en aval des régions ciblées, ce qui permet d’amasser de l’information génomique supplémentaire qui n’était pas visée

(17)

au départ, notamment des fragments d’ADN non codant (régions introniques). Les fragments d’ADN génomique ainsi capturés, comprenant à la fois les régions codantes et en supplément une portion des régions non codantes, sont séquencés à haut débit et subséquemment assemblés et analysés à l’aide de divers programmes bioinformatiques et tests statistiques permettant d’en comparer le polymorphisme. En définitive, cette technologie offre des avantages significatifs en termes i) de spécificité, ii) de sensibilité, iii) d’uniformité à travers les cibles, iv) de reproductibilité, v) de coûts, vi) de simplicité d’utilisation et vii) de matériel génétique de départ (Mamanova et al. 2011). La technique de capture d’ADN génomique appliquée à la résolution de questions évolutives a notamment permis de mettre en lumière l’importance de mutations non codantes dans l’expression de phénotypes adaptatifs chez l’humain (Yi et al. 2010). D’autre part, les quelques rares exemples d’utilisation chez des espèces autres que l’humain ont pu mettre en évidence l’architecture génomique sous-jacente à la divergence adaptative d’organismes en cours de spéciation (puceron : Smadja et al. 2012; papillons Heliconius : Nadeau et al. 2012). De fait, ces études ont combiné l’utilisation de la biopuce de capture aux principes de génomique des populations afin d’identifier et de caractériser efficacement les régions génomiques de forte différenciation entre populations et sous-espèces en cours de divergence.

Dans un contexte de recherche où aucun génome de salmonidé n’est actuellement disponible, il s’agit d’une technique fort utile pour l’étude de la différenciation génomique des écotypes de corégone. Elle permet de cibler rapidement et efficacement plusieurs régions codantes susceptibles d’avoir un rôle dans la variation phénotypique, tout en considérant également l’ampleur de la divergence dans les régions non codantes. Ce type d’expérience représente une manière efficace de contourner les problèmes liés à l’assemblage de génomes massifs, complexes et truffés d’éléments répétés et dupliqués tel que celui du corégone (~ 3Gb, Animal Genome Size Database, Radice et al. 1994; Krasnov et al. 2005; Davidson et al. 2010).

Objectif principal

L’objectif général de ce projet de maîtrise consiste à développer une puce de capture exonique spécifique au grand corégone pour l’ensemble des régions codantes connues et disponibles pour l’espèce afin d’étudier à large spectre l’ampleur de la différenciation génétique entre nains et normaux. Il s’agit de caractériser la nature et le nombre de régions génomiques divergentes entre

(18)

11 populations sympatriques de corégone pour un maximum de gènes connus. L’hypothèse de départ propose que de nombreux gènes associés à une vaste gamme de fonctions biologiques sont impliqués dans la divergence adaptative chez le corégone, ce qui se traduit potentiellement par une forte divergence dans les régions codantes, soit les régions les plus susceptibles de moduler la variation phénotypique. Cette étude des régions codantes et non codantes permettra de comparer les niveaux de divergence entre différents types de régions génomiques, en plus de confirmer le rôle de certains gènes candidats précédemment identifiés, tout en ciblant de nouveaux gènes candidats. Ce projet de maîtrise devrait contribuer à l’avancement des connaissances en ce qui a trait à la manière dont est modelée l’architecture des génomes de corégone nains et normaux au cours de leur spéciation et de façon plus large, à l’élucidation des bases moléculaires et des processus fondamentaux qui permettent la différenciation des génomes.

Le chapitre 1 du présent mémoire présente les résultats de capture et d’analyses de génomique des populations par le biais d’un article présentement sous presse dans la revue Molecular

(19)

CHAPITRE 1

LARGE-SCALE TARGETED EXONS RE-SEQUENCING IMPLIES A PREDOMINANT ROLE OF REGULATORY REGIONS IN INCIPIENT SPECIATION OF LAKE WHITEFISH (COREGONUS CLUPEAFORMIS)

(20)

13

Abstract

Latest theoretical and technological developments in evolutionary biology bring new challenges aiming at documenting the intricate genetic architecture of species divergence. Sympatric populations of lake whitefish (Dwarf limnetic and Normal benthic) represent one of the key systems to investigate this issue. Despite the constantly decreasing costs of next generation sequencing technologies, it remains labor intensive and challenging to perform whole genome resequencing, especially in the case of complex and recently duplicated genomes such as found in salmonid fishes. We thus designed a sequence capture array (Roche/Nimblegen) targeting 2,773 annotated genes to document the nature and the extent of genomic divergence between sympatric dwarf and normal whitefish. Among the 2,728 genes successfully captured, 2,182 coding and 10,415 non-coding putative SNPs were identified. A genome scan with a quality-refined selection of 2,203 SNPs identified 267 outlier SNPs in 210 candidate genes potentially involved in whitefish divergence. We found highly heterogeneous FST estimates among SNP loci.

Interestingly, there was an overall low level of coding polymorphism, with a predominance of non-coding mutations among outliers. We suggest that the heterogeneous patterns of divergence among loci confirm the porous nature of genomes during speciation with gene flow. Considering that few protein-coding mutations were identified as highly divergent, our results, along with previous transcriptomic studies, imply that changes in regulatory regions most likely had a greater role in the process of whitefish population divergence than protein coding mutations. This study is the first to demonstrate the efficiency of large scale targeted re-sequencing for a non-model species with such a complex and un-sequenced genome..

(21)

Introduction

Speciation, a fundamental process responsible for biological diversity, is the result of neutral and selective forces acting synergistically at the genetic and phenotypic levels (Mitchell-Olds et al. 2007; Presgraves 2010). Although many of the intricate mechanisms associated with these evolutionary forces still remain unknown (Koonin 2012), recent advances in genetic studies have helped to understand some of the key processes shaping genomic architecture during the process of species divergence (Wu & Ting 2004; Jones et al. 2012). Evidence from various studies has shown that among these processes, ecologically driven genomic divergence can occur in the face of gene flow (Nosil et al. 2008; Cadillo-Quiroz et al. 2012; Gagnaire, Normandeau, & Bernatchez 2012a).

Molecular analyses of young and diverging lineages in natural hybrid zones reveal highly heterogeneous and complex genome wide patterns of genetic introgression among loci (Gagnaire

et al. 2011; Gompert et al. 2012). The observed variation in introgression rates among genomic

regions can be attributed to the presence of genetic barriers to gene flow, which also limit the rate of introgression of nearby linked loci (Barton 1979; Barton & Bengtsson 1986). Competitive interplay between the intensity of selective forces and the extent of recombination (Felsenstein 1981) determines the rate of introgression at neutral loci, while advantageous alleles might be slightly delayed by these barriers, depending on migration rate and strength of selection. Consequently, these dynamic and variable introgression rates create semipermeable barriers to gene flow between diverging taxa (Payseur 2010). In a situation of ecological adaptive divergence, natural selection promotes the genetic divergence of loci associated with a higher fitness, while still allowing gene flow in neutral regions (Turner et al. 2005; Nosil et al. 2009). With increasing time or selective pressures, these genomic regions impermeable to gene flow, called genomic islands of divergence, are predicted to expand in number and size through genetic hitchhiking (Maynard Smith & Haigh 1974) until both genomes become completely genetically isolated (Wu 2001; Feder et al. 2012; Via 2012). Consequently, adaptive genetic changes must be identified in the early stages of genome differentiation prior to the completion of the speciation process and before other differences accumulate over time. Much theoretical work has been done in order to develop a conceptual framework for genomic divergence in the context of speciation. Yet, major questions pertaining to the genomic architecture of speciation and the relative

(22)

15 importance of various processes facilitating or impeding the spread of divergent loci remain unresolved (Nosil & L Feder 2012).

The advent of second-generation sequencing technologies and new computational developments has opened the possibility of studying such questions on a genome-wide scale. The method predominantly used to find divergent genomic regions consists in scanning large portions of the genome in order to estimate the extent of genetic differentiation among loci (FST-based

genome scans) (Lewontin & Krakauer 1973; Beaumont & Nichols 1996; Excoffier et al. 2009). Such approaches have been useful in identifying multiple regions of differentiation with variable degrees of divergence (e.g. Lawniczak et al. 2010; Strasburg et al. 2012). Moving beyond the identification of outlier genomic regions by characterizing the genes involved and their association with known divergent phenotypes brings compelling evidence of how genome architecture is modeled during ecological speciation (Presgraves 2010). For example, Smadja et

al. (Smadja et al. 2012) conducted a large-scale candidate gene approach combining population genomics and QTL methods on the pea aphid system (Acyrthosiphon pisum). Their results suggested a restricted effect of hitchhiking around selected loci, giving birth to small islands of divergence, which is similar to the observations made by Nadeau et al. (Nadeau et al. 2012) in

Heliconius butterflies. Conversely, genome-wide patterns of divergence in various species pairs

have revealed large islands of divergence rather than small and independent selected regions during the early stages of reproductive isolation (Via & West 2008; Hohenlohe et al. 2012; Renaut et al. 2012). These apparently contradictory findings might reflect different methods for defining regions of divergence, different timing of divergence along the speciation continuum or different demographic dynamics of species (Feder et al. 2012).

Lake whitefish species pairs represent a unique situation to study the ongoing process of speciation given the occurrence of sympatric populations of two different ecotypes in several lakes in northeastern North America (Lu & Bernatchez 1999; Bernatchez et al. 2010). Considering their pronounced phenotypic differences at many complex traits and their recent divergence marked by a phase of allopatry (~60 000 yr BP) followed by secondary contact in sympatry about 12 000 yr BP (Bernatchez & Dodson 1990; Jacobsen et al. 2012), these incipient species of lake whitefish, exploiting distinct ecological niches, are amenable to investigate early

(23)

mechanisms involved in the process of ecological divergence. Previous work using QTL mapping and common garden experiments has provided evidence for a genetic basis of adaptive traits (swimming behavior, growth, morphology, gene expression variation) known to differ between both ecotypes (Rogers et al. 2002; Rogers & Bernatchez 2007; St-Cyr et al. 2008; Derome, Bougas, et al. 2008b; Whiteley et al. 2008; Jeukens et al. 2010). An integrated approach linking QTL mapping and gene expression studies with single nucleotide polymorphisms (SNPs) analyses also revealed pronounced allele frequency divergence for several key genes differentially expressed between ecotypes (Renaut et al. 2010; 2011). Overall, these comprehensive studies have documented the role of natural selection molding levels of gene expression, which in turn drives the ecological divergence of lake whitefish. As such, they represent an excellent starting point towards a deeper and more precise characterization of the genetic architecture underlying ecological speciation.

Here, the technique of sequence capture (Hodges et al. 2007) was used to enrich a large set of genes, get a deeper and wider picture of the extent of genetic differentiation between both ecotypes, and quantify the strength of selection on protein coding divergence. The aim was also to refine and extend the list of candidate genes potentially involved in the process of adaptive divergence. In total, 2,773 genes were targeted by the array based on available EST and cDNA sequences. Thus, regions of interest among the large and complex whitefish genome (~3 Gbp, Animal Genome Size Database) (Jeukens et al. 2011), which also underwent a recent duplication event approximately 60 MYA (Crête-Lafrenière et al. 2012), were efficiently and rapidly retrieved and sequenced. Sequencing data from multiple individuals were de novo assembled to reconstruct whole gene sequences and document patterns of genetic divergence between dwarf and normal populations through an FST-based genome scan. In a context where no salmonid

genome is yet available, it proved to be an efficient way of targeting genomic DNA in both coding and non-coding regions, while circumventing the problems inherent to the sequencing and assembly of massive amounts of repetitive and non-coding elements.

(24)

17

Materials and methods

Study system and DNA preparation

Fish were collected in 2010 from Cliff Lake (46°23`51``N, 69°15`05``W, St John River drainage, ME, USA), which harbors sympatric populations of normal and dwarf whitefish. Twelve dwarf and twelve normal individuals (24 chromosome sets from each population) were randomly chosen among the captured fish. Genomic DNA was extracted from a caudal fin clip using DNeasy tissue kit (Qiagen, Duesseldorf, Germany) according to the manufacturer’s protocol. A minimum of 5 µg of unamplified genomic DNA was obtained for each sample.

Selecting exon targets, DNA enrichment and sequencing

NimbleGen capture array technology (Roche, Madison, USA) was used to enrich pre-selected coding regions from whitefish genes only. All publicly available whitefish Expressed Sequence Tags (ESTs) (cGRASP, http://web.uvic.ca/grasp/) were used as primary data for the first probe design, in addition with cDNA sequences from previous work (454 GS-FLX platform, (Renaut et

al. 2010). A total of 13,516 coding sequences were further processed in order to eliminate

redundancy (sequences with BLASTn evalue > 1e-20 were collapsed and sequences of length < 200 bp were discarded) and only selected sequences annotated in either nt, nr or swissprot were kept (BLASTn evalue < 1e-25, BLASTx evalue < 1e-25 or BLASTx evalue < 1e-25, respectively). Mitochondrial DNA and repetitive sequences, prone to generate an excessive capture compared to other gene targets, were discarded. Following these steps, 3,242 unigene sequences were selected as targets for the first array design. The design was validated and improved by conducting two successive capture tests with three normal and three dwarf individuals using a Roche 454 GS-FLX sequencer at the Plate-forme d’Analyse Génomique (IBIS, Université Laval, Québec, Canada). A small fraction of the initial targets (2.7%), mainly composed of remaining mitochondrial DNA and repetitive elements that had not been discarded through previous cleaning steps, was discarded for capturing more than 90% of the sequenced reads. These optimized targets were sent to NimbleGen bioinformatics service to build the final array spanning the coding sequence (exons) of 2,773 whitefish genes. A total of 358,847 tiling DNA oligonucleotides (probes) spanning 100% of the targeted genes were designed.

(25)

size of 200-250 bp were prepared for each individual according to the manufacturer’s protocol. Each individual was tagged using a unique five bp molecular identifying sequence (MID). The capture step was performed by the Plate-forme d’Analyse Génomique (IBIS, Université Laval, Québec, Canada) and the captured DNA samples sequenced at the Genome Quebec Innovation Centre (McGill University, Montréal, Canada) on an Illumina HiSeq 2000 platform.

Assembly and sequence analysis

All paired-end reads for the 24 individuals were successively and independently assembled with four different k-mer values (k-mer values = 27, 37, 47, 57) using ABySS (Simpson et al. 2009). CLC Genomics Workbench 5.1 (CLC bio, Aarhus, Denmark) was used to perform a final de

novo assembly of the four distinct assemblies previously generated with ABySS (similarity 0.95,

overlap 0.5). Since four different global assemblies were made, final contigs showing a coverage > 4X, i.e. produced by more than four previously assembled contigs, were considered suspicious due to potential paralogy and discarded. Contigs of length < 200 bp were also discarded.

Given the complex nature of the recently duplicated whitefish genome (Radice et al. 1994; Krasnov et al. 2005), some contigs may represent chimeras or assemblage of different non-specific genomic DNA fragments being the result of secondary capture (Fu et al. 2010). Contigs were then blasted against the 3,039 original targets and queries returning no significant hits (BLASTn e-value < 1e-10) were discarded. Redundant contigs (BLASTn e-value > 1e-20) were then merged together using custom Python scripts (v. 2.6.5). These longer contigs represent the complete set of assembled genes, including exons, introns, several gaps of variable length between exons and, in several cases, putative non-coding regions located before the first exon and after the last exon. All paired-end reads used in the assembly step were ultimately mapped back to this final reference set of genes using BWA (v. 0.6.1) with default parameters (Li &

Durbin 2009). Assembly statistics were estimated using custom Python scripts (v. 2.6.5) and R (v. 2.15.1; The R Foundation for Statistical Computing®, 2012, 3-900051-07-0). Functional categories (gene ontology biological functions) were associated with each gene sequence in the final dataset with Blast2GO (Conesa et al. 2005).

(26)

19 was used to predict exon positions within the assembled genes. To improve these predictions, a raw assembly of the complete whitefish transcriptome (Dion-Côté et al., unpublished data) was integrated in the algorithm as a species-specific supplementary resource. The Bayesian model “mpileup” implemented in SAMTOOLS (0.1.18) (Li et al. 2009) was used to call consensus bases

and single nucleotide polymorphisms (SNPs). Read bases with a Phred quality score less than 20 or with an insufficient overall depth of coverage (< 64 reads) to call genotypes with high confidence (and infer allele frequency differences between populations) were excluded. We performed various tests that showed that the best compromise in order to maximize the number of high quality SNPs detected in as many individuals as possible, considering the dataset quality, was four reads per individual for a minimum of eight individuals for each of the two populations (minimum of 64 reads in total). A high coverage threshold (>5000 reads) was also applied to exclude all possible bases located in repetitive regions or in regions of high representation in the genome. Outlier tests were conducted on the subset of remaining loci following all filtering procedures.

Population genetics analyses

Open reading frames (ORF) for each polymorphic gene were generated (minimum ORF length = 75 nt) using the program getorf in EMBOSS (European Molecular Biology Open Software Suite,

(Rice et al. 2000). Predictions on any damaging effect of non-synonymous mutations on phenotypes were then computed using an iterative greedy algorithm implemented in POLYPHEN-2

(Adzhubei et al. 2010). Allele frequencies were subsequently estimated based on direct read counts from SAMTOOLS output file using custom Python scripts and absolute allelic frequency

divergence (δD/N = |ƒallele1,D - ƒallele1,N|) was finally computed for every SNP according to these

frequency estimates. SNPs with a minor allele count of less than 2 were discarded. A total of 722 SNP loci showing a percentage of observed heterozygosity greater than 50% were also discarded. This final subset of SNPs highly cleaned in order to eliminate almost all paralogs from analyses was used to perform the FST-based genome scan.

To measure the extent of population differentiation, FST values (Wright 1951) were calculated

according to the method of Beaumont and Nichols (Beaumont & Nichols 1996) in LOSITAN

(27)

simulations were performed to obtain the joint distribution of FST values (FDR = 0.05, confidence

interval = 0.99). Expected heterozygosity was also calculated for each locus based on Hardy-Weinberg equilibrium. Loci outside the 99% confidence interval were considered as outliers, based on a 5% false discovery rate threshold.

In order to integrate knowledge from previous studies, genes identified as outliers were classified into the 12 broad functional categories established by St-Cyr et al. (St-Cyr et al. 2008) in a previous transcriptomic study of whitefish, according to their gene ontology (biological process). Two of these categories were not represented in the final outlier dataset (germ-line formation and

lipid metabolism), and two additional categories were added: i) growth and development (bone morphogenesis heart development, fin development, growth, regulation of developmental process) and ii) nervous system and learning (learning, neural development, cognition).

(28)

21

Results

Sequencing and capture efficiency

DNA enrichment and re-sequencing yielded more than 841 million short sequence reads (Table 1), with an average of 35.1 million sequence reads per sample (range: 27.8M to 50.8M). While only 11.8% of the reads uniquely mapped back to a targeted sequence, 98% of targeted genes (2,728) were successfully captured and assembled (Table S1), with a mean read depth of 1,648X (Table 1). Average proportion of annotated coding regions (exons) in assembled genes reached 23.8%. More than 95% of targeted genes successfully captured had 60% of their length covered by assembled contigs (average proportion per target: 88.8%, range: 12.9-100%). Among these 2,728 assembled genes, 2,364 (86.7%) were polymorphic.

A total of 12,597 putative SNP markers were identified, among which 2,182 were coding and 10,415 were non-coding. After filtering out undesired loci (see Materials and methods), 3,021 bi-allelic markers were retained, with a mean depth of coverage per sample of 29.4-fold, representing 1,104 genes (Table S2). Overall polymorphism rate per gene was relatively low (1.89 SNPs/Kb), with 60 genes (2.2%) showing a number of SNPs per kilobase greater than five (Table 1). In order to test if the most polymorphic genes are more associated with biological functions potentially involved in whitefish phenotypic divergence, an enrichment analysis has been conducted on the 60 most polymorphic genes. These 60 genes were associated with various functional groups, among which nine are significantly overrepresented compared with frequencies of functional groups among all genes (Fisher’s exact test, p-value < 0.05). Among these overrepresented functional groups, three biological processes had most of the hits: hem binding, G-protein binding and hydrogen ion transporting ATP synthase. The majority of the 3,021 retained SNPs (Table S2) were located in putative introns, with a total of 2,258 non-coding SNPs distributed in 910 different genes, while the remaining 763 SNPs were located in the putative exons of 383 different genes. We identified 383 ORFs and among the 539 SNPs that fell within these ORFs, 306 were non-synonymous and 233 were synonymous.

Divergent loci and functional analysis

After all filtering procedures, a final subset of 2,302 SNPs was kept for outlier detection analyses (see Materials and methods). These loci showed a skewed distribution of allelic frequency

(29)

divergence toward low values, exhibiting a median of 0.09 (Fig. S1), while 271 SNPs had significant divergent allelic frequencies (Q-value < 0.05) and 56 were highly divergent (δD/N ≥

0.5, Table S2). Observed genome-wide level of differentiation was moderate (FST = 0.046), yet

considerable heterogeneity was observed among FST values estimated between populations (Table

S2). Average multi-locus FST estimate was similar between putative coding and non-coding

regions (FST - NON-CODING = 0.041, FST - CODING = 0.049, p-value > 0.2).

Coalescent simulations performed with LOSITAN were used to obtain the distribution of FST

estimates among all loci (Fig. 1). These were plotted against their respective expected heterozygosity (He) (Fig. 2). Most loci were located within the 99% confidence interval (CI)

expected under neutrality, but 267 FST estimates (in 211 genes, 7.6% of captured genes and

11.5% of polymorphic SNPs) laid outside this envelope and were thus considered as outliers. Since outlier SNP density per gene was relatively low, no linkage disequilibrium analysis was conducted. This group of loci represents highly differentiated markers that could harbor potential genes of interest in the study of whitefish divergence. Such markers could be under selection or be linked with direct targets of selection. Results indicate that 27 outliers were non-synonymous substitutions (Tables 2 & S4), compared with 28.9 expected based on the proportion among the whole dataset (55.6% of non-synonymous SNPs expected among all coding SNPs). Similarly, proportions of synonymous and non-synonymous SNPs among total outliers were not significantly different (Fisher’s exact test, p-value = 0.5517, Table 2). In total, 52 outliers were located in putative coding regions (19.5% of the total amount of outliers), a similar result compared with the overall proportion of coding SNPs and overall proportion of coding regions within assembled genes (25% and 24% respectively, Fisher’s exact test, p-values > 0.1). Outliers were neither enriched for coding SNP nor non-synonymous SNPs. Concurrently, proportions of non-coding SNPs were identical in outliers and non-outliers (Table 2). A significant reduction in observed heterozygosity (Ho) among outlier loci was also observed, but only in the dwarf

population (t-test, Ho(dwarf) - outliers = 0.13 vs. Ho(dwarf) – non-outliers = 0.28 and Ho(normal) – non-outliers =

0.25, p-value < 0.05 in both cases, Fig. 3). Average Ho for outliers was also lower in dwarf than

normal population (Ho(dwarf) - outliers = 0.13 vs Ho(normal) - outliers = 0.23) and this difference was

(30)

23 According to a function enrichment analysis performed by BLAST2GO on these 210 outlier genes,

78 biological processes classified into 12 general functional groups (see Materials and methods) and associated with 72 different genes were overrepresented among outliers compared with their frequencies among all assembled genes (Fisher’s exact test, p-value < 0.05, Tables 3 & S5). Of particular interest among outliers, two nuclear genes (prostaglandin E synthase 2 like, average

FST = 0.81 and glutathione peroxydase, Fst = 0.91), involved in energy metabolism, were the two

most differentiated genes between dwarf and normal whitefish. More specifically, three high quality SNPs were identified in prostaglandin E synthase 2 like (Fig. 4). Two of them are non-synonymous mutations: the first one, L21V, located in putative exon 1, changes a leucine into a valine (FST = 0.84) and the second one, M115V, located in putative exon 4, changes a methionine

into a leucine (FST = 0.67). None of these two substitutions seem to have a deleterious impact on

protein function, according to the functional analysis performed using PolyPhen-2 (PolyPhen scores of 0.013 and 0.001 respectively, mutations are predicted to be benign). The third mutation was located in putative intron 4 (FST = 0.90). The second most divergent gene, glutathione

peroxydase, showed one high quality SNP located in putative exon 2 (Fig. 5). This was a synonymous substitution in the codon GTG associated with a valine for the alternative codon GTC, a less common codon used for the same amino acid (Codon Usage Database, http://kazusa.or.jp/codon/).

Comparison with previous whitefish studies

Other studies have also identified several genes potentially involved in the process of adaptive divergence of lake whitefish. Among 267 outlier loci identified in this study, 32 of them, representing the same number of candidate genes, have been labeled as divergent in previous work (Table S6). Seven of these genes were also previously identified by Renaut et al. (Renaut et

al. 2011) in a genome scan based approach using FST estimates from natural populations in

multiple lakes. Although these loci that have been identified as outliers, FST estimates differed

(31)

Discussion

In a research context in which new technologies are spreading out, sequencing costs are constantly decreasing and theoretical frameworks are getting refined, it is now feasible to perform more in-depth analyses of patterns of genetic differentiation between related taxa spanning the speciation continuum. New research avenues taking advantage of this progress are required towards deciphering the respective roles of evolutionary processes involved in each phase of speciation (Nosil & L Feder 2012). The lake whitefish system offers this possibility with a series of lakes harboring sympatric populations of partially isolated ecotypes. Moreover, these lakes occupy different positions on the continuum of morphological and genomic differentiation (Renaut et al. 2011; 2012). Here, by conducting a large-scale targeted enrichment genome scan in the lake showing the most divergent species pair in the study system, we observed that neither synonymous nor non-synonymous mutations were over-represented among outlier SNP loci, while more than half of the divergent SNPs were non-coding mutations. These observations suggest that genetic divergence driven by selection might be more oriented toward non-coding and perhaps regulatory changes, compared to structural changes, as discussed below.

Sequence capture applied to a salmonid genome

We successfully applied the technique of sequence capture to enrich, sequence and assemble several thousand genomic regions of the whitefish genome in a de novo context. Despite excellent results in terms of proportion of genes captured (98%), percentage of on-target reads was low (11.8%) compared with other studies (33.5% and 54% respectively in Heliconius and pea aphid, (Smadja et al. 2012; Nadeau et al. 2012). A plausible explanation for this result is the use of a non-specific DNA blocker solution prior to the hybridization step, combined with the complexity of whitefish genome. In the case of targeted enrichment of human DNA, preparations of C0t1 DNA comprising short fragments (50-300 bp) of human placental DNA enriched for

repetitive elements is added to the hybridization reaction in order to improve capture specificity (Mamanova et al. 2010). Since no whitefish-specific DNA blocker was available, solutions of human C0t1 and PlantCaptureEnhancer (Roche) were used. Such blockers might not have been

efficient enough in preventing secondary and non-specific capture on the array. In the context of a large, duplicated and complex salmonid genome, the use a non-specific blocker solution might have resulted in a lower capture efficiency, compared with smaller and less complex genomes

(32)

25 that are fully sequenced, like Heliconius and A. pisum genomes. Nonetheless, other than requiring more sequencing effort, decreased capture efficiency was not immensely problematic since 98% of the genes were captured and assembled and mean coverage per gene was very high.

Genetic differentiation between sympatric populations

Using pre-defined criteria for selecting SNP loci with high confidence genotypes for a sufficient number of individuals in each population, we identified a lower rate of polymorphism than expected according to previous work based on 454 sequencing (Renaut et al. 2010). Here, highest mean number of SNPs per kilobase was 18.7 whereas Renaut et al. (Renaut et al. 2010) identified a maximum of 44.8 SNPs per kilobase using cDNA. Difference in level of polymorphism is not surprising considering the discrepancy between datasets, assembly parameters and SNP detection methods used. Renaut et al. (Renaut et al. 2010) used a partial non-normalized transcriptome assembly to call SNP genotypes with a significantly lower coverage threshold (minimum of 6X compared to 64X in this study). The array developed here spans a larger number of genes and is considerably more precise, resulting in a high quality assembly that was optimized for paralog detection (see Materials and methods). Genes with highest level of polymorphism in Renaut et al. (Renaut et al. 2010) were mainly ribosomal genes, which have a high probability of being paralogous sequences. Difference between both studies also stems from the fact that we used genomic DNA to perform the assembly and to find and call SNP genotypes instead of cDNA. First, sequencing errors committed during cDNA library construction could explain these biased estimates. It has also been suggested that differential expression of paralogs could be responsible for biased sequence polymorphism estimates when using cDNA data. Such a difference in levels of polymorphism was observed by Gagnaire et al. (Gagnaire, Normandeau, Côté, et al. 2012b) in

Anguilla rostrata (American eel) where cDNA yielded significantly higher estimates of levels of

polymorphism and genetic differentiation compared with gDNA. Similarly, a recent study on sockeye salmon (Oncorhynchus nerka) also reported abnormally high levels of polymorphism detected in cDNA sequences, due to the presence of paralogous sequence variants (Everett et al. 2011). Our results thus re-emphasizes that measures of levels of polymorphism and population differentiation based on cDNA genotyping are likely to be highly biased and should be interpreted with caution.

Figure

Table  2.  Outlier  SNP  results  for  annotated  coding  and  non-coding  regions.  Proportions  in  parentheses are the proportion among all analyzed SNPs
Figure 1 Distribution of FST estimates between dwarf and normal whitefish at 2,302 SNP loci
Figure  3  Observed  heterozygosity  (HO)  for  outlier  and  non-outlier  loci  for  both  dwarf  and  normal populations
Figure  5  Assembled  sequence  (partial)  for  glutathione  peroxidase,  representing  the  first  two  exons  (red),  incomplete  non-coding  regions  (blue  with  white  gaps)  and  an  outlier  synonymous  SNP  in  exon  2
+2

Références

Documents relatifs

The objectives of this study were to construct a wild x cultivated tetraploid genetic map using the co-dominant SSR markers, to assess the type of inheritance and the synteny

Dans ces conditions, nous montrons que le prix de transfert qui per- met a la multinationale de maximiser ses benefices consolides est fonction de trois effets: (1) un effet

Figure 3. No cytidine deaminase activity associated with pYA3chr4. A) Alignment of exon 3 of YA3chr4 proteins to human A3Bc, A3Gc and A3A. Differences with respect to YA3chr4

Les résultats obtenus de la comparaison des moyennes de la teneur en lipides dans la chair des crevettes entre les mâles et les femelles d'une même espèce ne

Ces espaces ont été introduits par Hilbert en 1909, pour développer l’Analyse fonc- tionnelle abstraite, dont le point de départ consiste à considérer des fonctions comme

The key ingredient to specify what kind of structure should be given to sequents comes from works on focalization in logical programming: Andreoli states in [15] that a proof in

L’accès à ce site Web et l’utilisation de son contenu sont assujettis aux conditions présentées dans le site LISEZ CES CONDITIONS ATTENTIVEMENT AVANT D’UTILISER CE SITE WEB.

Beyond the need of a clear definition of the two phases of the propulsion cycle, this study showed that the assumption on wheelchair locomotion usually admitted on