Partie III Reconstruction d’haplotypes dans les pedigrees animaux 115 7.2 Différents cadres d’étude 1 2 3 4 5 8 9 13 14 6 10 7 11 12 Figure 7.3 – Un pedigree de 14 individus. Les individus 2, 4, 5, 7, 9, 11, 13 et 14 sont des femelles, les autres des mâles. Les fondateurs de ce pedigree sont les individus 1, 2, 3, 4, 5, 8 et 9. Les individus 9 et 10 sont les parents des individus 13 et 14, ils sont reliés par un sommet de mariage. A B C D G H K E F N O J I M Figure 7.4 –Pedigree avec boucle de consanguinité. Les individus I et J ont un même ancêtre commun B, et ils sont parents de l’individu N. 7.2 Différents cadres d’étude 7.2.1 Méthodes en population Il existe beaucoup de méthodes de reconstruction d’haplotypes à partir d’individus non apparentés. Mais elles peuvent se regrouper en quatre familles de méthodes : méthode de Clark, les algorithmes de coalescences, l’approche de parcimonie pure et les méthodes statistiques. A B C D F H I K L M N E G J Figure 7.5 – Pedigree complexe avec boucle par alliance C A B D E F G H Figure 7.6 – Pedigree de demi-frères données de génotypes. L’algorithme est le suivant : Initialisation Les génotypes ne pouvant être construits qu’à partir d’une unique paire d’haplotypes : les génotypes homozygotes à tous les loci ou hétérozygotes sur un unique locus. Ces haplotypes sont ajoutés à un ensembleH d’haplotypes solutions. Itération Leurs génotypes pouvant être construits à partir d’un haplotype présent dans H. Si le second haplotype n’est pas dansH, il est ajouté. Finalisation Aucun génotype ne peut plus être construit à partir des haplotypes deH. Les méthodes de coalescence supposent pour une population que tous les haplotypes sont issus d’un unique ancêtre, ainsi ils ont tendance à se regrouper en fonction des mutations qui sont apparues. Dans ce cadre, un algorithme dit de Phylogénie Parfaite (PPH pour Perfect PHylogeny) proposé par [Gusfield, 2002] permet de déduire les haplotypes à partir d’une reconstruction phylogénétique. Le but de certaines méthodes statistiques est d’estimer la distribution (les fréquences) des haplo-types et d’associer avec la plus grande probabilité, une paire d’haplohaplo-types compatibles pour chaque génotype. Il y a les méthodes basées sur l’algorithme EM (Expectation Maximization) comme celles présentées dans [Excoffier and Slatkin, 1995, Hawley and Kidd, 1995]. Pour d’autres méthodes uti-7.2. Différents cadres d’étude 131 lisées dans PHASE [Stephens and Donelly, 2000] ou BEAGLE [Browning and Browning, 2007] des hypothèses supplémentaires ou un apriori sur la distribution sont faits pour guider la reconstruction des haplotypes. Pour plus de détails sur les méthodes en population [Niu, 2004]. 7.2.2 Méthodes combinatoires utilisant les liens de parenté Les individus peuvent être très liés les uns aux autres et l’information de pedigree devient une information importante. De nombreuses méthodes ont été proposées pour la résolution du problème de reconstruction d’haplotypes dans les pedigrees. Elles peuvent être classées en deux grandes familles : les approches statistiques (elles seront présentées dans la section7.3) et les approches combinatoires. Ces dernières reconstruisent les haplotypes en utilisant les lois d’hérédité de Mendel et optimisent la solution par rapport à différents critères comme minimiser le nombre d’événements de recombinaison ou encore supposer qu’il n’y a pas de d’événement de recombinaison sur les haplotypes. 7.2.2.1 Reconstruction sans événement de recombinaison Les événements de recombinaison sont rares dans les régions ADN de petites tailles Il est raison-nable dans ces régions de supposer que la reconstruction d’haplotypes ne comporte pas de recombi-naison. Problème Zero Recombinant Haplotype Configuration (ZRHC) Entrée : Un pedigree et les génotypes des individus du pedigree Sortie : Les haplotypes compatibles de chaque individu n’ayant aucun événement de recombinai-son Le problème ZRHC fut proposé en premier par Wijsman [Wijsman, 1987], il définit un ensemble d’une vingtaine de règles génétiques logiques permettant de retrouver les haplotypes d’un pedigree. O’Connell [O’Connell, 2000] propose un algorithme basé sur ces règles, qui enregistre les haplotypes d’un ensemble de loci très liés comme allèles d’un seul locus et qui supprime les génotypes incompa-tibles suivant l’algorithme de Lange et Goradia présenté dans [Lange and Goradia, 1987] et ainsi qui trouve toutes les configurations d’haplotypes compatibles (ayant zéro recombinaison) du pedigree. Les fréquences des haplotypes pour les fondateurs sont estimées à partir d’un algorithme EM [Dempster et al., 1977]. Une extension de cet algorithme est proposée par Zhang et al. [Zhang et al., 2005] (HAPLORE) et est basée sur la généralisation des règles génétiques de Wijsman supposant l’absence de recombinaison. 7.2.2.2 Minimiser le nombre d’événements de recombinaisons L’hypothèse précédente d’absence de recombinaison peut être contredite lorsque nous avons une carte dense de loci avec une région d’étude plus étendue [Li and Jiang, 2003]. Dans ce cas minimiser le nombre de ces événements devient plus adéquat. Problème Minimum Recombinant Haplotype Configuration (MRHC) Entrée : Un pedigree et les génotypes des individus du pedigree Sortie : Les haplotypes compatibles de chaque individu tels que le nombre de recombinaisons est minimal sur l’ensemble du pedigree Qian et Beckmann proposent un algorithme [Qian and Beckmann, 2002] basé sur six règles. Il consiste à effectuer une approximation du problème, en effet il trouve les configurations d’haplotypes pour chaque famille nucléaire qui minimisent le nombre de recombinaisons dans chacune d’elles et non sur l’ensemble du pedigree. Cette méthode ne peut être utilisée qu’avec de petites familles avec un petit nombre de loci. Pour pouvoir l’utiliser sur des pedigrees plus importants Li and Jiang ont étendu cette méthode en utilisant la programmation en nombres entiers. Cette méthode est implémentée dans le logiciel PedPhase [Li and Jiang, 2003]. Exemple 7.7 Soit une famille nucléaire (père-mère-fils) génotypée sur 4 loci : Père : ab bb bb bb Mère : ab ab aa ab Fils : aa bb ab ab Deux configurations d’haplotypes possibles minimisant le nombre de recombinaisons : 1. Père : bbbb abbb , Mère : abba baaa , Fils : abbb abaa 2. Père : bbbb abbb , Mère : aaba bbaa, Fils : abbb abaa Le fils a reçu le second haplotype complet de son père, de sa mère il a reçu les allèles mis en gras (dans l’haplotype du fils et de la mère). Dans les deux configurations, il y a eu un événement de re-combinaison entre les loci 2 et 3 dans la première solution et entre les loci 1 et 2 dans la seconde. En minimisation du nombre de recombinaisons ces deux solutions sont équivalentes cependant la recom-binaison ne se fait pas entre les mêmes loci, en fonction de la distance génétique entre eux le taux de recombinaison ne peut pas être le même. Par exemple, considérons que la carte génétique suivante (position en cM) : Locus 1 0 cM Locus 2 30 cM Locus 3 40 cM Les loci 2 et 3 sont plus proches (10 cM) que les loci 1 et 2 (30 cM), il est plus probable que l’événement de recombinaison se soit produit entre les loci 1 et 2. Dans le document Décompositions fonctionnelles et structurelles dans les modèles graphiques probabilistes appliquées à la reconstruction d’haplotypes (Page 146-150)