• Aucun résultat trouvé

La génétique des populations pour déterminer la structure des populations

1.4. Mettre en évidence l’évolution : du laboratoire à l’expérimentation

1.4.1. La génétique des populations pour déterminer la structure des populations

L’essence de la génétique des populations est la variabilité génétique entre individus, c’est-à-dire le

matériau brut sur lequel l’évolution peut agir (Conner and Hartl, 2004). Savoir si cette variabilité se répartit entre populations ou au sein des populations devient une question fondamentale. La première étape nécessaire est de pouvoir accéder à l’information moléculaire. Les progrès technologiques ont été considérables dans le domaine des marqueurs moléculaires au cours des dernières décennies avec comme tendance générale la diminution des coûts et l’augmentation du débit, c’est-à-dire du nombre de bases pouvant être lues. L’idée ici n’est pas de faire une revue complète des méthodes de génotypage mais plutôt de comprendre quelles ont été les avancées cruciales dans ce domaine et les motivations de ces progrès. Les premières méthodes dans les années 1960 employaient des migrations de protéines par électrophorèse sur un gel, ces protéines étaient souvent des enzymes couramment appelées isozymes ou allozymes. Ces techniques relativement peu couteuses permettaient d’obtenir des informations importantes comme la distinction des individus homozygotes et des hétérozygotes, mais un inconvénient majeur était que les protéines résultant de l’expression d’un gène ne révèlent des différences que dans les régions codantes du génome qui sont pourtant minoritaires (Conner and Hartl, 2004; Falque, 2011). La mise au point de la méthode de PCR (Polymerase Chain Reaction) dans les années 1980 (Saiki et al., 1985) a révolutionné la génétique moléculaire moderne : il est alors devenu possible d’amplifier l’ADN, et donc malgré de faibles concentrations, d’étudier son polymorphisme. Schématiquement, le polymorphisme de l’ADN est dû à deux types de variation entre individus : soit un locus donné uniquement est substitué, on parle alors de Single Nucleotide Polymorphism (SNP) ; soit des séquences plus ou moins longues d’une à plusieurs mégabases sont

23

insérées ou supprimées, il s’agit d’Insertion Deletion Polymorphism (IDP) (Falque, 2011). Parmi les IDP, mentionnons le cas particulier des microsatellites qui consistent en une répétition d’un motif d’une à quatre bases et dont le nombre de répétitions peut varier fortement entre individus.

Depuis les années 2000, de nouvelles méthodes se développent rapidement appelées les Next Generation Sequencing (NGS). Toutefois pour utiliser les NGS à des fins de génotypage il est nécessaire d’obtenir une bonne couverture du génome (Falque, 2011), de réaliser un gros travail bioinformatique pour réassembler les séquences. Ce travail est facilité pour les espèces modèles dont le génome a été séquencé entièrement (Falque, 2011; Metzker, 2010). D’autre part, même si les NGS permettent d’avoir accès à une quantité d’information très importante, leur coût est plus élevé que pour un génotypage avec des marqueurs SNP ou microsatellites dont l’automatisation récente a permis de réduire les coûts.

Les microsatellites et les SNP sont des marqueurs fréquemment employés pour génotyper des espèces non modèles (Morin et al., 2004; Coates et al., 2009; Helyar et al., 2011). Les SNP présentent de nombreux avantages car ils sont répartis en grand nombre le long du génome et peuvent être relativement facilement développés, de plus le génotypage est facilement réplicable entre laboratoires (Morin et al., 2004; Coates et al., 2009; Helyar et al., 2011). Il est toutefois nécessaire de disposer de davantage de marqueurs SNP comparativement aux microsatellites pour obtenir le même degré de précision, principalement parce que les microsatellites sont multiallèliques alors que les SNP sont en majorité bialléliques (Morin et al., 2004).

Toutefois un des problèmes des SNP, lorsqu’on les utilise pour caractériser la diversité génétique est le biais de recrutement (Morin et al., 2004; Coates et al., 2009; Helyar et al., 2011). En effet, les SNP avec une fréquence allélique de l’allèle rare élevée (ou Minor Allelic Frequency – MAF –) sont davantage susceptibles d’être échantillonnés alors qu’ils sont théoriquement moins abondants que ceux avec une MAF faible, ce qui biaise la distribution de la MAF dans les populations génotypées et altère l’estimation de la diversité génétique (Helyar et al., 2011). Pour pallier ce problème il est nécessaire d’augmenter le nombre de marqueurs utilisés pour éviter les conclusions trompeuses basées sur des faux positifs ou des faux négatifs (Morin et al., 2004; Helyar et al., 2011). De façon empirique, certaines études comparant ces deux types de marqueurs n’ont pas établi de différence entre les approches (van Inghelandt et al., 2010; Filippi et al., 2015). Cependant, il a aussi été montré que les SNP étaient plus performants que les microsatellites pour étudier la structure des populations alors que les microsatellites surpassaient les SNP dans l’estimation de la diversité génétique. (Singh et al., 2013).

24

Le génotypage des individus échantillonnés nous permet de déterminer si l’individu est homozygote dominant ou récessif ou encore hétérozygote. Tout l’enjeu va être ensuite d’analyser la variabilité génétique observée et de déterminer sa structuration parmi les populations, en analysant à quel niveau elle se situe : est-elle répartie entre individus au sein d’une population, entre populations ? Différentes méthodes d’analyse existent.

D’une façon générale, elles peuvent être faites au niveau de l’individu ou de la population. A l’échelle de la

population, nous allons pouvoir estimer plusieurs paramètres : la fréquence allélique, les taux d’hétérozygotie théoriques ou observés, la richesse allélique. Ces indices nous renseignent sur la diversité génétique de chaque population et leur comparaison entre populations va permettre de comprendre les événements qui ont contribué à la différenciation des populations. Par exemple, une diminution du nombre d’allèles ou du taux d’hétérozygotie peut indiquer un goulot d’étranglement (diminution importante de la taille de la population) ou un effet de fondation (formation d’une population à partir d’un petit nombre d’individus).

Pour aller plus loin que ces estimateurs de la diversité génétique, Sewall Wright, un des fondateur de la génétique des populations, a développé les F-Statistiques (Wright, 1951). L’objectif de ces statistiques est de décrire la répartition de la variabilité génétique d’une espèce en trois niveaux hiérarchiques : variation au sein des

populations, entre populations et variation totale. Trois indices sont ainsi calculés le FIS, le FST et le FIT. Nous

allons décrire ici en quelques lignes le FST, indice qui permet de renseigner sur le degré de différenciation entre

populations. Plusieurs façons de le calculer existent mais une façon couramment admise est celle de Weir et Cokerham (1984) qui se base sur un rapport de variance :

�� = 2

(�2 +�2 ) (2)

ou �2 (B pour between) représente la variance génétique entre populations et �2 (W pour within) représente la

variance génétique au sein des populations(Weir and Cockerham, 1984). La somme de �2 et de �2 représente la

variance génétique totale. Ainsi ce ratio nous renseigne bien sur la part de la variabilité génétique totale due à la

variabilité génétique entre populations. Comme le FST est calculé à partir de marqueurs moléculaires neutres, il

renseigne sur la différenciation entre populations due aux forces évolutives neutres (migration, dérive génétique

et mutation) et ne prend pas en compte l’effet de la sélection. D’après Wright, une valeur de FST comprise entre 0

et 0.05 suggère une différenciation entre populations faible, entre 0.05 et 0.15 le FST traduit une différenciation

modérée, entre 0.15 et 0.25 il témoigne d’une différenciation importante et au-delà de 0.25, le FST illustre une

différenciation très importante. Pour parachever les analyses de génétique au niveau des populations, différentes méthodes basées sur des analyses à l’échelle de l’individu existent, telles celles implémentées par le logiciel STRUCTURE (Pritchard et al., 2000), BAPS (Corander et al., 2008; Corander and Marttinen, 2006), TESS (Chen

25

et al., 2007; François et al., 2006), GENELAND (Guillot et al., 2005) ou une analyse discriminante en composante principale (DAPC) intégrée au package R ADEGENET (Jombart, 2008; Jombart et al., 2010). Selon le logiciel utilisé, il est possible d’inclure ou non l’information de la localisation géographique des populations. Nous avons employé le logiciel STRUCTURE pour nos analyses, cette méthode permet d’attribuer un coefficient d’appartenance de chaque individu aux K groupes génétiques définis dans l’analyse, K étant un paramètre que nous pouvons faire varier. Ainsi un individu totalement attribué à un groupe aura un coefficient d’appartenance de 100% pour ce groupe, ce coefficient pouvant quantifier une appartenance partielle à plusieurs groupes (individu dit « admixed »). Il est ainsi possible d’identifier le nombre de groupes génétiques parmi l’ensemble des individus et de comparer la structuration des individus sur critère génétique et leur structuration en population sur critère géographique. Ce type d’analyses permet de discerner des structures génétiques intéressantes entre populations ou de retrouver les populations sources. Dans le cas d’introduction d’espèces invasives, l’utilisation des marqueurs moléculaires pour déterminer l’histoire de l’introduction et la structure des populations est encore récente (Cristescu, 2015; Estoup and Guillemaud, 2010; Fitzpatrick et al., 2012). Toutefois, un nombre croissant d’études utilisent les apports des marqueurs moléculaires pour retracer l’histoire de l’invasion, chez les arbres nous pouvons citer les exemples de : Acacia saligna (Thompson et al., 2015), Olea europaea (Besnard et al., 2014), Prunus serotina (Pairon et al., 2010) et Quercus rubra (Merceron et al., 2017).