• Aucun résultat trouvé

La génétique des populations analyse le polymorphisme des espèces pour inférer leur histoire évolutive et décrire les événements migratoires et démographiques au sein de leurs populations. Ainsi de même que le nombre de pixels d’une photo est important pour avoir une bonne résolution de l’objet photographié, plus nombreuses seront les données indépendantes acquises au sein d’un génome, et meilleur sera le diagnostic au sein de l’espèce en évitant ainsi de considérer l’histoire évolutive de quelques gènes comme une vérité générale pour l’espèce ou la population considérée.

La génétique des populations a longtemps reposé sur l’analyse en fréquence de variants morphologiques et/ou enzymatiques (allozymes). Elle a cependant connu deux avancées majeures d’un point de vue technique, au niveau de la détection des mutations, tout d’abord avec l’apparition du séquençage Sanger (Sanger et al., 1997) dans lequel on génère une collection de fragments d’ADN d’un gène donné par terminaison de chaîne, puis avec la mise au point du séquençage de gènes en parallèle, dit de nouvelle génération (NGS).

Dans la technique Sanger, les désoxyribonucléotides triphosphates (dNTP) normaux incorporés par la polymérase pour construire le brin complémentaire du gène ciblé sont mélangés avec des didésoxyribonucléotides triphosphates (ddNTP) liés à des marqueurs fluorescents différents. Les ddNTP empêchent la suite de l’extension du brin complémentaire lors de la réaction et génèrent une collection de fragments de différentes tailles. Ces fragments possèdent tous en dernière position un ddNTP marqué par une couleur spécifique selon que ce soit une adénine, une thymine, une guanine ou une cytosine. Les fragments obtenus sont ensuite soumis à une électrophorèse et migrent en fonction de leur taille sur un gel d’acrylamide/résine d’un capillaire. La lecture du signal fluorescent au cours de cette migration permet ainsi d’identifier successivement la nature de chaque base du fragment séquencé.

Dans le séquençage de nouvelle génération ou NGS (« Next Generation Sequencing » en anglais), un grand nombre de gènes différents sont séquencés en parallèle. Cette méthode consiste en quatre grandes étapes, quelle que soit la technique utilisée. Dans un premier temps (Figure II-1 -A), les banques NGS sont préparées par une fragmentation de l’ADN génomique et les fragments obtenus sont ligués avec des adaptateurs spécifiques contenant un site d’amorçage pour le séquençage. Dans le cas du séquençage Illumina, les banques d’ADN sont ensuite chargées sur une surface appelée « flow cell » (Figure II-1 -B). Chaque fragment ligué

à la surface est amplifié localement grâce à un système de double hybridation des brins permettant le maintien des deux fragments au sein du groupe ou ‘cluster’ après un cycle d’amplification. Le séquençage (Figure II-1 -C) suit ensuite le principe de la méthode Sanger. A chaque cycle de séquençage, seule une base est ajoutée à chaque fragment. Les dNTP utilisés sont marqués par fluorescence avec une couleur différente par base, ce qui permet en identifiant cette couleur au sein d’un cluster (initié par un unique brin d’ADN) de déterminer à chaque cycle la base spécifiquement ajoutée à chaque ‘cluster’ (gène). Après la lecture, le marquage fluorescent est éliminé par photolyse, libérant ainsi l’extrémité 3’OH, qui permet de fixer une base au cycle suivant. Les séquences propres à chaque ‘cluster’ sont ensuite exportées dans un fichier texte avec un code « qualité » (phred score). Ces séquences courtes (50-150 bp ou lectures : ‘reads’ en anglais) sont ensuite traitées par différents outils bioinformatiques (Figure II-1 -D). Ces outils permettent l’alignement des lectures obtenues sur un génome de référence préexistant ou à partir de locus construits de novo à partir desdites séquences (par association homologue) afin de pouvoir identifier et caractériser le polymorphisme des échantillons étudiés. A ces bases de données individuelles, des traitements d’assignation, de nettoyage des données sont effectués pour obtenir le plus de locus communs entre individus séquencés et appréhender le polymorphisme de l’espèce à l’échelle du génome.

Figure II-12 : Etapes principales d'un séquençage NGS Illumina (source : Illumina.com) Ce travail de thèse étant basé en grande partie sur des données Illumina, le parti a été pris de présenter l’ensemble des protocoles et techniques d’analyses dédiés au séquençage haut débit dans cette première partie afin d’éviter toute redite entre les chapitres et faciliter par la même occasion la compréhension des différents types de traitements des données et leur enchaînement dans une suite d’analyses bioinformatiques et génétiques.

La méthode utilisée pour l’obtention des séquences au cours de cette thèse est le ddRADseq (Baird et al., 2008). Le principe de cette technique est relativement simple. L’ADN génomique est digéré par 2 enzymes de restriction à haute fidélité de reconnaissance d’un motif d’ADN, l’un (MseI) coupant plus souvent que l’autre (PstI) dans le génome. Ceci permet d’accéder à un sous-échantillonnage du nombre de locus dans un génome en n’utilisant que les fragments d’ADN présentant les deux sites de restriction et séparés par une distance maximale de 300 bases. Cette technique permet donc d’échantillonner dans le génome des mutations polymorphes sans a priori mais d’une façon ciblée afin d’obtenir le plus grand nombre de locus

orthologues entre individus avec une couverture suffisante si la taille du génome le permet. Pour obtenir des données de polymorphisme sur nos espèces, nous avons donc :

(1) construit nos banques de fragments d’ADN

(2) envoyer ces banques à une plateforme de séquençage haut débit (McGill university, Canada)

(3) traiter les données de séquences obtenues (nettoyage, filtrage, obtention des locus), et (4) analyser les patrons de diversité génétique au sein et entre espèces

Les étapes de construction des banques (méthodes de biologie moléculaire) avant le séquençage et le traitement des données de séquence (outils bioinformatiques) sont expliqués en détail dans les parties qui suivent.

1 - Traitement des échantillons et construction des banques