• Aucun résultat trouvé

Choix de modèle pour la détection de contraction passée de la taille de

Le séquençage des génomes complets d’organismes de plus en plus divers (bac-téries, animaux, humains...) ouvre des perspectives nouvelles dans le domaine de la génétique des populations. Dans ce travail, nous montrons comment on peut tirer pro-fit de longues portions d’ADN pour estimer des tailles de populations. Pour ce faire, nous utilisons la distribution empirique des longueurs de segments identiques entre deux haplotypes, appelée homozygotie haplotypique. Ces quantités portent beaucoup d’information sur l’histoire démographique de la population et en particulier sa taille efficace.

Dans le cas d’un organisme eucaryote diploïde, le génome d’un seul individu, comme mosaïque des génomes de tous ses ancêtres, reflète l’histoire démographique de la population. Avec cet unique génome comme donnée pour inférer les tailles ef-ficaces historiques de la population, nous proposons une méthodologie basée sur la distribution des longueurs de séquences conservées entre deux haplotypes, appelée Homozygotie Haplotypique (notée HH).

Les méthodes de maximum de vraisemblance (MCMC, IS) et les méthodes baye-siennes approchées (ABC) sont adaptées pour des jeux de données de polymorphisme de quelques loci, celles basées sur Sites Frequency Spectrum (SFS) peuvent traiter un grand nombre de SNPs. Cependant, les unes comme les autres supposent l’indépen-dance des généalogies des différents loci. Pour tirer parti de l’information portée par la recombinaison, nous devons considérer la dépendance des généalogies des positions adjacentes dans le génome.

Une famille de méthodes basées sur la structure des haplotypes considère le désé-quilibre de liaison (LD, de l’anglais Linkage Disequilibrium) c’est-à-dire la corrélation entre les généalogies des sites voisins. Elles tirent donc parti de l’information de la recombinaison présente dans des données denses de type génome complet. Ainsi, les loci ne sont plus supposés indépendants et la vraisemblance des données ne s’écrit plus comme le produit des vraisemblances pour chaque locus. Contrairement à la mutation, la recombinaison affecte la structure de l’arbre généalogique de l’échantillon. Lorsque l’on modélise la recombinaison, la vraisemblance prend alors la forme d’une intégrale sur l’espace de tous les graphes de recombinaison ancestraux (ARG, de l’anglais An-cestral Recombination Graph) possibles pour l’échantillon de séquences (Griffiths and Tavaré[1994a]). Cet espace est de dimension bien plus grande que celle de l’espace des généalogies de gènes, et il devient plus difficile encore de mener l’inférence en utilisant les méthodes d’inférence basées sur la vraisemblance, sans plus de simplifications. Une analyse des données sous un modèle de coalescent complet n’est pas envisageable en pratique pour un grand nombre de marqueurs en considérant la recombinaison. Deux principales approches ont été développées, d’une part des méthodes basées sur l’ap-proximation du coalescent avec recombinaison : le coalescent séquentiel avec modèles de Markov cachés (PSMC et coal-HMM) et d’autre part des méthodes basées sur les longueurs de segments identiques entre deux haplotypes.

1.3 Choix de modèle pour la détection de changement de taille de population 29

[2011] utilise un modèle de Markov caché pour approximer la dépendance des temps de coalescence des deux haplotypes ente des loci voisins. Elle a été étendue par Mai-lund et al. [2011] et des variantes de cette approche ont été développées (Burgess and Yang [2008], Schiffels and Durbin [2014]). Au lieu d’échantillonner parmi les généa-logies de gènes, la méthode Coalescent Hidden Markov Model (Coal-HMM) de Ho-bolth et al.[2007] considère la généalogie non observée de chaque position génomique comme un état latent d’un modèle de Markov caché. Les temps de calcul deviennent importants pour ces méthodes lorsque l’on inclut de multiples séquences.

L’approche alternative modélisant la recombinaison est basée sur la distribution des longueurs de segments identiques. Deux segments d’ADN sont dits identiques par état (IBS, de l’anglais Identical By State) s’ils présentent les mêmes suites de bases dans ce segment alors que deux segments sont dits identiques par descendance (IBD, de l’anglais Identical By Descent) s’ils sont dérivés d’un même ancêtre commun sans événement de recombinaison, c’est-à-dire que ces deux segments ont la même origine ancestrale. Une définition alternative considère que deux segments IBD sont dérivés d’un même ancêtre commun sans événement de recombination. Comme détaillé plus bas, les segments courts sont principalement affectés par le passé ancien alors que les segments longs sont principalement affectés par le passé récent. À cause de la difficulté à détecter de courts segments IBD, la distribution des longueurs de segments IBD est plutôt utilisée pour inférer la démographie passée récente. Palamara et al. [2012] ex-priment cette distribution comme une fonction de la démographie de la population et dérivent une procédure d’inférence pour reconstituer cette histoire démographique. Ils testent des modèles paramétriques de plus en plus flexibles et utilisent un critère d’in-formation d’Akaike (AIC, de l’anglais An Ind’in-formation Criterion, Akaike[1974]) pour comparer leurs modèles en tenant compte de leurs degrés de liberté. Browning and Browning [2015] proposent une méthode d’estimation non paramétrique de la taille efficace récente de la population en utilisant aussi des longs segments IBD inférés. Ils utilisent une procédure généralisée d’espérance-maximisation (EM) pour ajuster les trajectoires des tailles de populations historiques. Ringbauer et al. [2016] ont récem-ment utilisé une approximation de la diffusion pour remonter les lignées génétiques ancestrales dans le passé et ont dérivé des formules analytiques pour des patrons de longs blocs de segment IBD isolés par la distance, pouvant tenir compte des change-ments récents de la taille de la population. Leur schéma d’inférence repose sur une approche de vraisemblance pour ajuster ces formules aux quantités observées.

Bien que le statut IBD d’un segment ne soit pas observable directement, on peut observer si deux haplotypes présentent des bases identiques pour un segment d’ADN donné. Tout d’abord, Hayes et al. [2003] et MacLeod et al. [2009] ont introduit des formules analytiques de la probabilité pour une paire d’haplotypes de partager un nombre donné de positions adjacentes IBS. Modélisant la taille de la population comme une fonction constante par morceaux, leurs formules sont basées sur un coalescent ap-proché tenant compte de la mutation et de la recombinaison. Malheureusement, les évaluations de ces formules sont coûteuses. Ces outils ont été affinés par MacLeod et al.[2013] pour inférer l’histoire de la population et ont été appliqués à des données de type génome complet. Ils ont estimé les paramètres démographiques en ajustant leur HHth théorique au HH observé sur une vache donnée. Pour valider le modèle démographique inféré, ils ont ensuite simulé des séquences sous ce modèle et les ont

comparées aux séquences observées pour une autre vache puis inversé les rôles.Harris and Nielsen[2013] présentent une méthode d’estimation conjointe des dates et intensi-tés d’événements passés d’admixture ainsi que des dates de divergence de populations et de changement de taille efficace de la population. Ils ont estimé une taille de popu-lation constante par morceaux à partir de la distribution des longueurs de segments IBS en maximisant une vraisemblance composite dérivée d’une approximation mar-kovienne du coalescent. Ces méthodes basées sur l’identité par état plutôt que par descendance s’affranchissent donc de la détection de segments IBD. Ainsi, nous choi-sissons ici de considérer le LD et de nous baser sur la distribution des longueurs de segments IBS entre deux haplotypes pour détecter des changements passés de la taille de la population.

Les patrons de LD entre des marqueurs polymorphiques sont façonnés par l’his-toire ancestrale de la population. On peut donc inférer l’hisl’his-toire passée de la popula-tion à partir de prédicteurs multiloci de LD. Plusieurs méthodes existent pour mesurer le déséquilibre de liaison entre deux haplotypes, basées par exemple sur des fréquences alléliques (voir Zhao et al. [2007]). Nous avons choisi de mesurer le LD grâce à l’ho-mozygotie haplotypique utilisée parMacLeod et al.[2009], notée HH. Lors d’un tirage aléatoire d’un segment de longueur donnée dans la séquence complète observée, HH est la probabilité que les marqueurs de ce segment soient tous homozygotes entre les deux brins d’ADN considérés, ici les deux brins d’un même individu diploïde.

Les patrons d’homozygotie haplotypique observés sont affectés par des change-ments de taille de la population : plus la taille de la population est grande et plus l’homozygotie haplotypique est faible. De plus, la théorie prédit que le LD pour un segment de longueur c Morgans est principalement affecté par la taille de la popula-tion approximativement 1/2c générapopula-tions auparavant, si l’on suppose un changement linéaire de la taille de la population. Ainsi,Hayes et al. [2003] ont montré sur des si-mulations que l’on peut inférer des tailles efficaces de la population à différentes dates dans le passé en utilisant des segments de chromosomes de longueurs comprises dans une large plage de valeurs.

Les méthodes précédentes se concentrent principalement sur l’inférence des chan-gements historiques de la taille efficace de la population. Elles ne considèrent pas la complexité du modèle démographique ajusté et peuvent souffrir d’un surajustement aux données : dans de nombreux cas, un modèle démographique plus simple pour-rait aussi s’ajuster correctement aux données en ne retenant que les événements les plus marquants de l’histoire de la population considérée. Même si certaines d’entre elles proposent un contrôle d’un potentiel surajustement, à notre connaissance, au-cune procédure de choix de modèle entre des modèles démographiques de complexité différentes n’a été proposée à partir de longueurs de segments IBS.

Nous proposons de combler ce manque en ciblant une question simple : existe-t-il un changement dans la taexiste-t-ille de la population au cours du temps ou bien est-elle constante ? Nous introduisons une procédure de choix de modèle entre deux modèles emboîtés : un modèle de taille de population constante et un modèle présentant un changement historique de la taille de la population. Pour ce faire, nous définissons un critère des moindres carrés pénalisé, basé sur la comparaison d’homozygoties haplo-typiques observée et attendue.

1.3 Choix de modèle pour la détection de changement de taille de population 31

Notre pénalisation repose sur des calculs d’indices de sensibilité de Sobol. Le prin-cipe est de tenir compte uniquement de la part d’erreur que le modèle a la capacité d’expliquer. C’est une forme de pénalité liée à la complexité du modèle puisqu’une er-reur d’ajustement donnée du HHth attendu auHH observé pénalisera plus fortement un modèle complexe qu’un modèle plus simple. En effet, une des préoccupations ma-jeures de l’analyse de sensibilité est d’identifier les paramètres les moins influents pour réduire la dimension du modèle et de quantifier l’erreur commise (Sobol et al.[2007],

Saltelli et al. [2010]). À cet effet, elle décompose la variance de la sortie du modèle en fractions qui peuvent être attribuées aux paramètres d’entrée au travers d’indices de sensibilité de Sobol. Dans notre cas, on considère l’homozygotie haplotypique atten-due comme une fonction des paramètres démographiques, supposés aléatoires pour le calcul. Les indices de sensibilité de Sobol mesurent alors la part de la variabilité de l’ho-mozygotie haplotypique théorique qui est expliquée par chaque paramètre du modèle le plus complexe considéré. Ce critère pénalisé nous a permis de détecter des tailles de population constantes ainsi que des contractions passées de la taille de la population sur des jeux de données simulés et sur un jeu de données de vache.

Plan

Le chapitre2présente les modèles de génétique des populations qui constituent le socle de cette thèse. Il rappelle le modèle de Wright-Fisher ainsi que le coalescent de Kingman et ses extensions permettant notamment de modéliser les tailles de popula-tion variables au cours du temps et la recombinaison génétique. Ce chapitre introduit finalement les questions d’inférence qui nous intéressent dans la suite de la thèse à savoir l’estimation de paramètres démographiques par maximum de vraisemblance et un choix de modèle pénalisé pour détecter une contraction passée de la taille de la population.

La première contribution de cette thèse est développée dans le chapitre3. Elle re-pose sur l’ajout d’une technique de rééchantillonnage dans l’algorithme d’échantillon-nage préférentiel séquentiel pour estimer les paramètres démographiques d’un modèle de taille de population variable au cours du temps. En utilisant l’information portée par la vraisemblance composite par paire de l’échantillon observé, cette technique per-met de limiter la dégénérescence des poids et ainsi de réduire le coût de calcul. Nous mettons en évidence cette amélioration de l’inférence sur des jeux de données simulés ainsi que sur un jeu de données de chauve-souris. Cette contribution a fait l’objet d’une publication dans Theoretical Population Biology, disponibleen ligne.

Le chapitre4 expose la seconde contribution de cette thèse. Elle vise à déterminer si la taille de la population est restée constante par le passé ou bien si elle a subi un changement. Cette question est abordée grâce à une procédure de choix de modèle. Le critère de choix de modèle est basé sur la comparaison d’homozygoties haploty-piques théorique et observée. L’homozygotie haplotypique permet de modéliser la recombinaison génétique et donc de tenir compte de la dépendance entre les généa-logies des positions adjacentes d’une séquence d’ADN. Les indices de sensibilité de Sobol sont utilisés pour construire une pénalité tenant compte de la complexité des

modèles mis en jeu. Ce critère pénalisé nous a permis de détecter des tailles de popula-tion constantes ainsi que des contracpopula-tions passées de la taille de la populapopula-tion sur des jeux de données simulés et sur un jeu de données de vache.

Un bref chapitre termine ce manuscrit en discutant les limites de ces travaux et en proposant des perspectives.

Documents relatifs