4 - Analyse de la diversité génétique des espèces

A - Estimation des diversités synonyme et non-synonyme : Reads2snp

Dans le cas des études visant à comparer la diversité génétique entre espèces proches mais vivant dans des environnements différents, une partie des données ddRAD de plusieurs individus de chaque espèce ont été assignées à des transcriptomes de référence réduits et filtrés afin d’identifier le polymorphisme synonyme et non synonyme au sein de chaque espèce. En effet même s’il existe des biais d’utilisation de certains codons (Akashi, 1995), les mutations synonymes sont pour la plupart insensibles à l’effet de la sélection alors que les mutations non-synonymes (remplacement d’acides aminés ou insertion de codons stop) peuvent être soumises à une forte pression de sélection, ainsi la comparaison des taux de fixation de ces deux types de polymorphisme constitue un bon moyen de décrypter les mécanismes influençant l’évolution

des séquences considérées (Yang & Nielsen, 2000). On s’attend ainsi par exemple dans le cas du modèle neutre à observer le même ratio piN/piS entre des lignées proches (Yang & Nielsen, 1998), ou à une augmentation de ce ratio dans le cas d’un relâchement de la sélection sur la fonction d’une protéine (Crandall & Hillis, 1997).

Pour ce faire, le script reads2snp développé par l’équipe de Nicolas Galtier (ISEM) permet à partir de données Illumina de type RNAseq issues de plusieurs d’individus d’une même espèce et d’espèces proches d’identifier la diversité nucléotidique d’une espèce à l’échelle du génome à partir des SNPs (« single nucleotide polymorphism » en anglais) trouvés dans les séquences (Gayral et al., 2013 ; Yan et al., 2017).

La commande utilisée pour ce programme est la suivante :

Reads2snp –bamlist A -bamref B

avec : A – un fichier texte contenant une liste de fichiers BAM et la correspondance de ces fichiers avec les individus utilisés

B – le génome ou transcriptome de référence utilisé pour la cartographie des lectures ayant fourni les fichiers BAM utilisés

Après avoir obtenu les données de polymorphisme, un second script dNdSpiNpiS appartenant aussi au pipeline développé par l’équipe de Nicolas Galtier permet de le catégoriser en polymorphisme synonyme ou non-synonyme en lui fournissant l’information sur le positionnement des SNPs dans les séquences codantes. Il est aussi possible de fournir à ce script des séquences provenant d’un ‘outgroup’ (espèce proche) afin d’estimer à la fois les piN et piS et les dN et dS, mais cette option n’est pas utilisée ici en raison de la trop grande divergence entre les espèces dont nous disposons. Dans ces analyses nous avons paramétré certaines variables pour réaliser le calcul des diversités uniquement sur les locus les plus informatifs (i.e. présents chez un large nombre d’individus). Les lectures obtenues étant cartographiées sur le transcriptome, le script filtre par défaut les informations provenant de séquences de référence (transcrits) que si celles-ci sont couvertes par les lectures à au moins 50% de leur longueur totale. Dans notre cas, les lectures proviennent de ddRAD et, donc constituent des locus de seulement 120 paires de bases très éparpillées sur le transcriptome. Nous avons donc re-paramétré cette valeur à 0.001% de la couverture exigée. En revanche, nous avons défini le calcul des piN et piS sur une longueur minimale de 30 codons ce qui correspond à 90 paires de

bases. Enfin, seuls les sites polymorphes retrouvés chez au moins la moitié des individus est prise en compte dans un premier temps.

La commande utilisée pour ce programme est la suivante :

dNdSpiNpiS alignment_file=A ingroup=sp gapN_seq=0.99999 min_nb_codon=30 -gapN_site=10 -out=my_res

avec : A – nom du fichier de sortie de reads2snp contenant l’information sur le polymorphisme B – sp est la façon dont reads2snp nomme l’espèce utilisée par défaut, cette option à remplir obligatoirement sert principalement à différencier l’espèce d’intérêt de l’espèce ‘outgroup’ lorsqu’une deuxième espèce est utilisée pour calculer les dN et dS.

-gapN_seq : proportion maximale de non-couverture tolérée le long des séquences de référence (transcrits)

-min_nb_codon : nombre minimum de codons exigé pour prendre en compte une séquence dans le calcul du piN et piS

-gapN_site : nombre minimum de copies (allèles) exigé pour un locus pour prendre en compte une séquence dans le calcul, la valeur maximale que peut prendre ce paramètre est 2 fois le nombre d’individus puisque que le script prend les deux allèles de chaque individu en compte

Remarque : Le nombre exigé et nécessaire de séquences pour une estimation au plus près de la réalité sera testé par la suite sous la forme de courbes de raréfaction en fonction du nombre d’individus analysés.

B - Calcul d’indices de diversité et tests de neutralité : Genepop/DNAsp

Les logiciels Genepop et DNAsp peuvent être utilisés en mode ‘batch’ sur un très grand nombre de locus et sont donc particulièrement adaptés pour regarder la distribution en fréquence de certains estimateurs du polymorphisme ou de certains tests de neutralité à l’échelle d’un génome. Le logiciel Genepop (Rousset, 1995, 2008) réalise locus par locus des tests exacts de Fisher pour tester des écarts à l’équilibre de Hardy-Weinberg et la différenciation génétique entre populations. Il permet également de calculer différents indices de différenciation (Fis et Fst) ainsi les déséquilibres de liaison entre locus. Le logiciel DNAsp (Librado & Rozas, 2009) permet quant à lui d’estimer la taille efficace des populations et le flux de gènes entre

populations et permet d’effectuer différents tests d’écart à la neutralité dans l’accumulation des mutations dans le polymorphisme (Fu et Li (1993), Kreitman et Aguadé(Hudson et al., 1987), Tajima (1989), McDonald et Kreitman (1991), etc).

Ces deux programmes utilisent des fichiers au format .genepop ou des alignements au format .fasta qui font partie des sorties qu’il est possible de générer respectivement avec le script populations de Stacks ou dNdSpiNpiS.

5 - Identification des locus « outliers » (ou aberrants) sous sélection

positive avec différents modèles de populations : Lositan & DetSel

Il est possible d’effectuer un criblage des locus ayant un comportement que l’on pourrait qualifier d’aberrant du point de vue de la différenciation génétique entre des populations choisies sous l’hypothèse neutre de la migration/dérive. En effet, en connaissant les fréquences alléliques à un locus donné, on peut connaître de quelle façon ce polymorphisme se distribue dans les populations selon le modèle de population utilisé en prenant ou non en compte les phénomènes démographiques. En utilisant l’information de la différenciation multi-locus et en se basant sur des hypothèses prédéfinies, il est possible d’estimer un intervalle dans lequel l’indice de différenciation entre populations peut varier et hors duquel les locus seront considérés comme ayant un comportement aberrant du point de vue de l’attendu migration/dérive. On parle alors de locus « outliers », dont le comportement ne peut s’expliquer qu’à travers l’action de la sélection naturelle.

Deux méthodes différentes ont été utilisées ici. La méthode de détection des Fst outliers développée par Beaumont & Nichols (1996) sur la base de la relation entre différenciation génétique attendue et hétérozygotie est implémentée dans le logiciel Lositan (Antao et al., 2008). Ce modèle suppose que lorsqu’il y a de la sélection sur des locus en particuliers, leur nombre doit être assez faible et ne pas impacter la tendance générale observée au sein du jeu de données, ce qui permet de les identifier en raison de leur comportement exagérément différenciant au vu de leur hétérozygotie. Ainsi ce modèle est d’autant plus efficace que le nombre de locus utilisés est grand. Ce programme détermine une enveloppe de confiance autour des Fst produits par un grand nombre de locus en se basant sur un modèle en îles, c’est-à-dire dans lequel toutes les populations échangent un flux de gènes équivalent. DetSel (Vitalis, 2012) est un package utilisable sous R qui lui suppose un début de spéciation avérée entre deux

sous-populations et donc un flux de gènes réduit voire absent entre les sous-populations. Pour calculer son enveloppe de confiance autour des valeurs de Fst multi-locus, DetSel simule un goulot d’étranglement qui précède la séparation des deux populations soeurs. Pour réaliser cette simulation il faut avoir une idée a priori sur plusieurs paramètres populationnels comme les tailles efficaces des populations actuelles ainsi que celle avant et au moment du goulot d’étranglement respectivement nommées Ne et No, ainsi que les temps écoulés en générations depuis le début du goulot d’étranglement (to) et après le début de l’isolement des populations (t) (Figure II-2).

Figure II-13 : Représentation du modèle d’isolement de deux populations, utilisé par DetSel pour détecter des locus « outliers » sous sélection positive avec les valeurs d’exemple pour les différents paramètres utilisés. A droite, la phylogénie associée obtenue à partir de 20 gènes et utilisée dans l’exemple. Traduit de Vitalis 2012.

6 - Bilan

La figure II-3 résume les enchaînements possibles entre les différents scripts et programmes présentés précédemment pour analyser les données Illumina obtenues au cours de cette thèse.

Figure II-14 : Représentation des enchaînements de traitements de données et analyses bioinformatiques (encadrés) réalisés et des types de données obtenues au cours de cette thèse.

III - Rôle de l’adaptation locale et des barrières physiques

Dans le document Histoire évolutive et influence de la sélection sur la diversité génétique des annélides polychètes d’environnements extrêmes (Page 61-67)