• Aucun résultat trouvé

2. Analyses de la structure génétique des populations

2.2. Analyses du polymorphisme nucléotidique mitochondrial

2.2.3. Analyses des données

Les variations génétiques observées sur le marqueur mitochondrial sont le polymorphisme de séquences (nombre et distribution des substitutions nucléotidiques). Une mutation est dite synonyme lorsque, du fait de la redondance du code génétique, elle n’entraîne aucune modification de la séquence protéique. Le terme d'haplotype correspond à une séquence nucléotidique, qui peut être commune à plusieurs individus, mais diffère des autres haplotypes par une ou plusieurs substitution de nucléotides. Un haplotype privé est un haplotype qui ne se retrouve que dans une seule population.

Les relations entre individus ou populations sont visualisées via la construction d’arbres, par agglomération des plus proches voisins (arbres dits de « Neighbor-joining » = NJ, (Saitou & Nei, 1987)), basée sur un calcul de matrice de distances génétiques qui a pour objectif la minimisation de la longueur totale de l’arbre. La distance utilisée est celle du Kimura-2p (= 2 paramètres) qui intègre le fait que les transitions (Q) et les transversions (P) ne sont pas équiprobables lors de l’évolution des séquences, notamment pour l’ADN mitochondrial où les transitions peuvent représenter 90% des mutations (Kimura, 1980). La distance du K2P se calcule selon la formule :

) 2 1 ln( 4 1 ) 2 1 ln( 2 1 2 P Q Q DK P =− − − − −

La construction des arbres ainsi que les tests sur la constance du taux d’évolution entre lignées et les calculs des distances moyennes (Dmoy) entre populations et/ou groupes de populations sont effectués grâce au logiciel Mega 2.1 (Kumar et al., 2001).

Les relations entre haplotypes peuvent également être appréhendées par la construction de réseaux d’haplotypes (Figure I.3). Les réseaux de lien moyen (Bandelt et al., 1999), choisis dans cette étude, intègrent l’information contenue dans plusieurs arbres d’envergure minimale ; les connexions ne se font pas que sur les haplotypes présents dans l’échantillonnage mais également sur des haplotypes manquants, augmentant ainsi la diversité du réseau. Ces réseaux d’haplotypes sont construits grâce au logiciel Network 4.1 (disponible

à : www.fluxus-technology.com). La construction de ces réseaux est basée sur la théorie de la

coalescence (Kingman, 2000). Cette théorie consiste en une approche rétrospective qui décrit mathématiquement le processus de fusion binaire de tous les lignages généalogiques d'un échantillon de gènes jusqu'à leur plus proche ancêtre commun.

Les diversités haplotypique et nucléotidique sont estimées pour chaque population grâce au programme DNASP 4.0 (Rozas et al., 2003). La diversité haplotypique (Hd) définit la probabilité que deux gènes tirés au hasard dans un échantillon soient différents (Nei, 1987) et prend en compte le nombre d'individus ainsi que la fréquence des haplotypes. Le calcul de Hd, avec n, le nombre de gènes dans l’échantillon (égal au nombre d’individus quand le locus est haploïde) et pi la fréquence de chaque haplotype, est défini par:

La diversité nucléotidique π mesure la divergence nucléotidique moyenne entre toutes les paires de séquences d'un même échantillon (Tajima, 1983) ; elle définit la probabilité que deux gènes tirés au hasard dans un échantillon soient différents au niveau d’un nucléotide donné. Le calcul de π se faits selon la formule :

avec pi la fréquence de l’haplotype i et dij le nombre de mutations entre les haplotypes i et j.

Le programme DNASP 4.0 (Rozas et al., 2003) est également utilisé pour calculer différents tests de neutralité, notamment les valeurs de D de Tajima (1989) et le test de McDonald & Kreitman (1991). La statistique D est basée sur une comparaison de deux estimateurs de θ (mesure du polymorphisme attendu dans une séquence). Lorsque le polymorphisme génétique s’explique par un équilibre entre la mutation et la dérive, alors les deux paramètres sont égaux et le D de Tajima est nul. Au contraire, un excès de variants peu divergents (une ou deux bases de divergence) entraîne un D de Tajima négatif ; cet excès peut être dû à un balayage sélectif (apparition et propagation rapide d’un mutant avantageux dans la population) ou à une expansion démographique récente. Un excès de variants intermédiaires entraîne un D de Tajima positif ; cet excès peut être dû à un effet de sélection

Figure I.4. Exemple de réseau d’haplotypes. Chaque cercle correspond à un haplotype ; la taille du cercle est proportionnelle à la fréquence de l’haplotype dans le jeu de données. La longueur des segments entre chaque haplotype est proportionnelle au nombre de mutations qui les sépare (pas mutationnels). Le carré rouge symbolise un haplotype non détecté durant l’étude mais nécessaire à la construction du réseau (haplotypes manquants ou perdus par dérive au cours de l’évolution).

− − = (1 ²) 1 pi n n Hd

= ij i j ij d p p π

balancée (maintien d’allèles avantageux ancestraux) ou à une diminution démographique (goulot d’étranglement génétique). Le programme DNASP 4.0 (Rozas et al., 2003) permet aussi une représentation graphique des distributions de différences nucléotidiques par paires de séquences dans un échantillon défini, permettant la visualisation de l’écart qui peut exister entre la distribution observée des mutations dans la population étudiée et celle théorique (attendue dans une population stable, à l’équilibre mutations-dérive, c’est-à-dire sans variation de taille, sans sélection).

Le test de McDonald & Kreitman (1991) compare l’homogénéité entre les distributions des mutations synonymes et non-synonymes qui sont fixées entre taxons (le ratio KN/KS) et de celles qui s’accumulent au sein d’un taxon (le ratio θNS). Si le ratio KN/KS est supérieur au ratio θNS, cela signifie qu’au moins un des deux taxons est sous l’effet d’une sélection darwinienne positive, tandis qu’à l’inverse un ratio KN/KS inférieur indique le maintien d’un polymorphisme ancestral entre taxons, l’accumulation de mutations légèrement délétères dans le polymorphisme ou l’émergence d’un polymorphisme adaptatif au sein d’un des deux taxons.

Les valeurs de différenciation génétique par paire de populations (φst) ainsi que les probabilités associées sont estimées grâce au logiciel Arlequin 2.0 (Schneider et al., 2001). Soit πt la diversité nucléotidique estimée pour l’ensemble des populations et πs la diversité nucléotidique moyenne de chaque population, alors le calcul de φst prend la forme :

t s t st π π π φ =

Le logiciel Arlequin 2.0 (Schneider et al., 2001) est aussi utilisé pour les analyses de variance moléculaire (AMOVA) qui permettent de partitionner la variance totale entre covariances dues à différents niveaux de structure prédéfinis : dans le cas d’une hiérarchie spatiale, par exemple, à l’intérieur d’une population (avec l’indice de fixation associé ΦST), entre populations à l’intérieur d’un groupe (avec l’indice de fixation associé ΦCT) et entre groupes (avec l’indice de fixation associé ΦSC).

Des estimations des taux de migration passée et des tailles de populations efficaces historiques sont simulées avec le logiciel Migrate_n (Beerli & Felsenstein, 2001) dont le principe repose sur la théorie de la coalescence. Le paramètre θ est estimé, dans le cas d’un gène mitochondrial, par la formule θ = Ne.µ (avec Ne, la taille de population efficace et µ, le taux de mutation par site nucléotidique par génération) d’où se déduit Nem, le nombre de migrants moyen efficace par génération, par Nem = θ.Μ (avec Μ = m/µ, et m, le taux de 26

migration par génération). Le logiciel s’appuie sur une approche de Monte Carlo par chaînes de Markov (MCMC) pour déterminer, selon la méthode du maximum de vraisemblance, l’arbre de coalescence le plus vraisemblable dans l’univers des généalogies possibles. Le logiciel permet de coupler petites et longues chaînes MCMC (dans notre cas, dix courtes chaînes de 500 pas et trois longues chaînes de 5000 pas) et de synthétiser plusieurs jeux de simulations (dix dans notre cas), augmentant encore la vraisemblance des résultats.

2.3. Analyses allozymiques