• Aucun résultat trouvé

Méthodes de cartographie par déséquilibre de liaison

Cartographie fine par déséquilibre de liaison

4.2 Méthodes de cartographie par déséquilibre de liaison

Les analyses d’association sont diverses: i) par la nature des phénotypes (les caractères peuvent être dichotomiques, par exemple, malade – non malade ; ou quantitatifs); ii) par le mode d’échantillonnage (les individus sont tirés au hasard ou la population est structurée comme dans les analyses cas-témoin) ; ou iii) par la façon de décrire le polymorphisme, génotypes en un marqueur ou haplotypes multi-marqueurs, nécessitant de déterminer les phases. On distinguera parmi les méthodes de cartographie fine celles qui ne font pas d’hypothèse quant à la nature du polymorphisme (par exemple les méthodes basées sur le modèle de régression), et de celles qui prennent en compte l’histoire génétique de la population. Dans ce manuscrit nous nous intéressons à des caractères quantitatifs, même si certaines méthodes qui seront évoquées ont été développées pour des caractères binaires.

4.2.1 Méthodes basées sur des modèles de régression

La régression linéaire est une des méthodes les plus utilisées en analyse d’association. Pour estimer la position des QTL, la première idée proposée a été de tester l’effet de chaque marqueur et de retenir ceux dont la statistique de test dépasse un seuil de rejet. La performance yi de l’individu i est régressée sur le nombre de copies xim (0, 1 ou 2) de l’allèle m (m = 1, 2, …, M) pour le marqueur N selon le modèle de régression 0

1 M i im m i m y x x b e = = +

+ ,

où x0 est le performance moyenne de la population, bm est le coefficient de régression pour

l’allèle m du marqueur N et ei une résiduelle i. La statistique de test pour examiner

l'association du marqueur N est obtenue en examinant le modèle ci-dessus contre le modèle

0

i i

y = +x e . Fan et Xiong (2002) ont étudié les propriétés d’un modèle de régression dans le cas de deux marqueurs bi-alléliques. Des travaux postérieurs ont étendu leurs résultats à plusieurs marqueurs (Jung et al., 2005), et au cas de marqueurs multi-alléliques (Fan et al., 2006). Des modèles de régression pour des caractères discrets et continus basée sur les haplotypes ont été développés par Zaykin et al. (2002) dans sa méthode Haplotype Trend Regression (HTR). Pei et al. (2009) ont étendu cette approche aux situations multi-caractères.

4.2.2 Méthodes basées sur des modèles qui prennent en compte l’histoire génétique des populations

Ces méthodes (Risch, 2000; Terwilliger, 1995; Woolf, 1955) visent à modéliser le fait que la structure de l’échantillon de génotypes (ou d’haplotypes) découle de l’histoire génétique de la population considérée. Ces méthodes supposent qu’un nouvel allèle est apparu par mutation t générations avant la génération courante dans un haplotype unique d’une population en équilibre de liaison. La taille de cet haplotype fondateur s’est réduite au cours des générations par des événements de recombinaison, et au moment de l’analyse, seuls les marqueurs les plus proches du nouvel allèle sont encore ceux de l’haplotype fondateur (Figure 3.2). La cartographie de gènes utilisant cette hypothèse a été mise en ouvre, entre autres, pour les caractères mendéliens dans les populations humaines isolées (Hästbacka et al., 1992). Les nombreuses méthodes de ce type peuvent être divisées en deux classes : i) celles qui comparent les fréquences des allèles ou des haplotypes dans le groupe d’individus identifiés malades (les «cas») à celles d’un groupe témoin (Woolf, 1955; Rish, 2000)). ii) celles qui estiment la probabilité d’IBD entre un haplotype quelquonque de la génération actuelle et l’haplotype fondateur (McPeek et Strahs, 1999; Morris et al., 2000; Meuwissen et Goddard, 2000, 2001; Hernández-Sánchez et al., 2006).

4.2.2.1 Méthodes basées sur les fréquences d’haplotypes

Les tests pour des caractères binaires (par exemple, malade – non malade) chez des individus non apparentés, impliquent de déterminer les différences des fréquences d'allèles ou de génotypes entre les individus «affectés » et les individus « non affectés ». La Figure 4.3 en illustre le principe. Les cercles colorés indiquent les allèles (ou les haplotypes) observés, les couleurs dénotent le statut, cas (bleue) ou témoin (rouge). Tous les allèles (haplotypes) dans l'ovale ombragé descendent d'un allèle apparu par mutation quelques centaines de générations dans le passé (étoile rouge). Il y a un excès de l'allèle mutant (et de l’haplotype porteur de cet allèle) parmi les cas par rapport aux témoins.

Figure 4.1. Principe des analyses d’association (modifié d’après Balding, 2006).

Terwilliger (1995) a proposé un test puissant de maximum de vraisemblance, qui n'est pas limité par le nombre d'allèles du marqueur ou par le nombre de marqueurs considérés. Le test est basé sur la maximisation de la vraisemblance faisant intervenir un paramètre λ, défini comme la proportion d'augmentation de la fréquence de l’allèle i (qi) du marqueur dans la

population des chromosomes portant l’allèle causal D muté, par rapport à sa fréquence dans la population générale (pi). Dans son modèle, qi= Pr(i | D) = pi + λ (1- pi). La fonction de

vraisemblance supposant qu’un allèle marqueur est lié à l’allèle de la maladie est calculée. S’il existe une liaison entre le marqueur et le gène de la maladie, qi > pi, (donc λ>0). Cette

hypothèse est testée contre celle d’absence d’excès de la fréquence d’allèle au marqueur et la maladie (λ=0) par le rapport de vraisemblance sommé sur tous les allèles. Ce rapport de vraisemblance suit une distribution ½ χ2 à 1 degré de liberté. Abdalla et al. (2004) ont généralisé cette méthode de cartographie de gènes causant des maladies à la cartographie de QTL. Cette extension fournit des estimations des effets génétiques et de la fréquence du QTL sous des modèles additif et de dominance. Les probabilités de porter un certain allèle marqueur conditionnellement au génotype au QTL sont écrites en fonction des distributions des phénotypes selon le génotype. Boitard et al. (2006) ont développé une extension de la méthode précédente aux haplotypes de deux marqueurs flanquant la position d’analyse (méthode nommée HapHim).

Ces approches sont basées sur l’hypothèse que des allèles au QTL portés par des haplotypes IBS ont plus de probabilité d’être IBD que des haplotypes porteurs d’allèles marqueurs différents.

4.2.2.2.1 Méthode basée sur une mesure de similarité-distance

Li et Jiang (2005) et Li et al. (2006) ont développé un algorithme pour la cartographie des gènes d’une maladie qui utilise un algorithme de regroupement d’haplotypes. A chaque position du génome analysée, un segment centré sur cette position est considéré. Puis, les haplotypes trouvés sur ce segment sont groupés à l’aide d’une mesure de similitude/distance par un algorithme de groupement spécifique (Density Based Spatial Clustering of Applications with Noise-DBSCAN, Ester et al., 1996). Cette mesure de similitude entre haplotypes est estimée par un algorithme développé par Li et Jiang (2005), appelé «points de similitude de l’haplotype». Finalement, l’association entre le caractère et chaque groupe est mesurée par un Q-score, qui représente l’écart de la moyenne phénotypique de chaque groupe d'haplotypes à la moyenne phénotypique de tous les autres groupes.

4.2.2.2.2 Méthode de composantes de la variance basée sur les probabilités d’IBD La méthode du maximum de vraisemblance pour cartographier un QTL par déséquilibre de liaison exploite le fait que, si deux animaux de la génération courante sont IBD en un QTL proche de la position testée, leurs phénotypes seront corrélés. Pour un jeu de q segments chromosomiques différents, le vecteur de phénotypes y est modélisé comme:

(

2

)

(

)

' 2

; ~N 0, p h ; ~ N 1 , ; Var( ) p h

µ

σ

µ

σ

= + + = = +

y 1 Zh e h H y V V y ZH Z R

µ est le vecteur d’effet fixes, h est le vecteur de dimensions (qx1) des effets aléatoires des haplotypes1 et e est le vecteur de résiduelles. Z est une matrice d’incidence pour les effets des haplotypes. La variance des résiduelles est R. La variance des effets des haplotyes est Hp

σ

h2, où Hp est la matrice de dimensions (qxq) de covariances des effets entre haplotypes hi et hj à chaque position p. Pour chaque position p d’un chromosome, la fonction

de vraisemblance est maximisée en optimisant les paramètres:

1

Le terme « haplotype » utilisé par Meuwissen et Goddard (2001) est en fait un « segment chromosomique dont on teste qu’il contient un QTL et sur lequel une série de marqueurs forment un certain haplotype.

(

2 2

)

1 ' 1 ' 1 , , ln | | ln |1 | ( ) ( ) 2 p p σ σh e µ µ − −   Λ H ∝ − V + V 1 + −y V y . La vraisemblance est également calculée sous l'hypothèse nulle d’absence de QTL (σ2h =0). Si la valeur maximum

du LRT est supérieure à un seuil de rejet prédéterminé, l’hypothèse nulle d’absence de QTL à cette position p est rejetée. La covariance entre les effets de deux haplotypes hi et hj

(au sens de deux segments chromosomiques présents dans la population) est: Cov(hi,hj) =

Pr(IBD | marqueurs dans les haplotypes) x σh2. La probabilité que les segments chromosomiques en un locus de deux individus soient IBD conditionnellement aux marqueurs qui les entourent peut être obtenue par des approches MCMC, par une méthode de régression, par la méthode de gene dropping, ou par une méthode déterministe. Comme cette dernière méthode a été utilisée dans cette thèse pour prendre en compte le déséquilibre de liaison dans des analyses de données simulées exploitant les phénomènes de déséquilibre de liaison et de liaison (deuxième partie de cette thèse), cette méthode est décrite de manière plus détaillée.

4.2.2.2.2.1 Approches MCMC

Pour localiser les gènes de maladies, McPeek et Strahs (1999) et Morris et al. (2000) ont proposé une méthode de calcul de vraisemblance basée sur la réduction de la longueur identique entre deux haplotypes (Decay of Haplotype Sharing). Ces méthodes reposent sur l’hyphotèse que la mutation causale d’une maladie est apparue dans un haplotype fondateur défini par des allèles en des marqueurs entourant ce point de mutation (le QTL) et qu’aucune autre mutation n’est intervenue depuis cet évènement, ni en ce locus, ni aux marqueurs. Chez les individus de la population d’étude, les allèles à gauche et à droite de ce point ont une probabilité d’être IBD avec leur homologous de l’haplotype fondateur qui dépend de ce statut au QTL, des recombinaisons accumulées et des fréquences alléliques. Ces probabilités vont en décrosissant quand on s’enloigne du QTL.Les méthodes de Monte Carlo par chaînes de Markov (MCMC) couplées à des modèles de Markov cachés (HMM pour “Hidden Markov Model”) ont été modélisées pour obtenir les probabilités de transition du statut IBD ou non d’un locus k vers le statut du locus k+1. Cette méthode a été également adaptée par Pérez- Enciso (2003) pour la cartographie de QTL.

4.2.2.2.2.2 Modèle de régression

Hernández-Sánchez et al. (2006) ont développé une méthode pour estimer les probabilités IBD entre paires d’allèles marqueurs. En oubliant les hypothèses sur la taille effective, le nombre de générations écoulées depuis la génération fondatrice, la fréquence des

allèles au QTL dans la population fondatrice et les haplotypes sont connues, l’estimation des probabilités IBD est basée sur un modèle de régression et ne fait pas appel à la théorie de coalescence.

Soit IBDiu jv, la probabilité qu’un allèle d'un locus inclus dans l'haplotype u de l'individu i soit IBD à l'allèle de ce locus pour l'haplotype v de l'individu j (qui peut être égale à i, on calcule alors la consanguinité). Le modèle de régression uni-marqueur pour estimer la probabilité IBD de l'individu i au locus à la position p est: IBDi i1, 2= +θ1 bXi. θ1 est le

coefficient moyen de consanguinité de la population au locus à la position p, b est le coefficient de régression qui lie Xi, l'état IBS entre les allèles 1 et 2 au marqueur de l'individu i, avec l'etat IBD à ce marqueur. Xi = −xi x, xi =1 indique que le locus est IBS (homozygotes) ou xi = 0 sinon; x est l'IBS moyenne dans la population. Si on se place dans le

cas multi-marqueur, le modèle s'écrit: IBDiu jv, = +

θ

1 '

R X où R est un vecteur de coefficients