• Aucun résultat trouvé

Entre parcimonie et vraisemblance

2.1 M´ ethodes statistiques de cartographie g´ en´ etique fine

2.1.2 Entre parcimonie et vraisemblance

La m´ethode de Lam et al. (2000) est int´eressante `a plus d’un titre. Nous allons voir que bien que l’approche soit assez diff´erente de ce que l’on propose dans cette th`ese, les deux m´ethodes partagent plusieurs points communs.

Les donn´ees sont un ´echantillon d’haplotypes de cas et de t´emoins. On sup- pose que la mutation causale se situe entre deux marqueurs sp´ecifi´es connus et qu’elle seule est responsable de tous les haplotypes de cas. La m´ethode se pr´esente comme une combinaison de parcimonie et de vraisemblance pour construire un arbre d’´evolution des haplotypes, avec chaque nœud s´epar´e par une mutation (Mu), ou par une recombinaison (Re) de son nœud parent. Le principe conduc- teur pour connecter les nœuds est que la mutation causale doit ˆetre conserv´ee dans l’intervalle suppos´e pour tous les haplotypes. Si plus d’un ´ev´enement de Mu ou de Re sont n´ecessaires pour connecter deux nœuds, des nœuds latents sont ins´er´es pour compl´eter l’arbre (cf. fig. 2.1.2). Une fois l’arbre construit, sa vraisemblance est calcul´ee `a partir d’un mod`ele de probabilit´e et de l’information a priori disponible. Sur la base d’un mod`ele de vraisemblance, chaque intervalle a une probabilit´e a posteriori que la mutation causale soit dans cet intervalle.

Pour le cas h´et´erog`ene, quand une seule mutation n’est pas responsable de tous les haplotypes malades, seulement des sous-ensembles d’haplotypes peuvent ˆ

etre organis´es en arbres coh´erents, et le nombre de ces groupes est inconnu. Pour chaque position de la mutation et d’un nombre de groupes sp´ecifi´es, l’algorithme organise les donn´ees en groupes homog`enes et construit un arbre pour chaque groupe; les inf´erences sont bas´ees sur le plus grand groupe seulement. La m´ethode est bas´ee sur la vraisemblance, mais n’essaye pas d’´evaluer une “pleine vraisem- blance”. La simplicit´e a ´et´e choisie pour faciliter l’interpr´etation, r´eduire le nom- bre d’hypoth`eses et accroˆıtre la flexibilit´e et l’extensibilit´e du mod`ele.

G H F L3 L2 E L1 D A B C

Figure 2.1.2. Les blocs repr´esentent des marqueurs, et les couleurs les all`eles de ces marqueurs. La mutation (•) est suppos´ee ˆetre dans l’intervalle 4, entre les marqueurs 4 et 5. A est la racine. Par exemple, A → D et L1 → E sont des recombinaisons, et les connections A → B, A → C, A → L1 se font par des ´ev´enements de mutation ou de recombinaison. Comme il est impossible de connecter A et E par un simple ´ev´enement, un haplotype latent L1 est ajout´e `a l’arbre (Adapt´ee de Lam et al., 2000).

Un haplotype est une suite de marqueurs ordonn´es (cf. fig. 2.1.3), de gauche `

a droite, ´etiquet´es de 1 `a L. L’intervalle contenant la mutation est d (d = 1, . . . , L− 1), et D est l’ensemble des intervalles consid´er´es. Soit T l’espace des topologies d’arbres qui d´ecrivent les liens entre les haplotypes, et soit τ une topolo- gie particuli`ere. Le param`etre d’int´erˆet est λ = (d, τ ). Soit Y un ´echantillon et soit Y = (S0, . . . , Sn) la s´erie unique des haplotypes dans Y avan¸cant dans le

temps, de la racine S0 jusqu’aux branches, comprenant les haplotypes latents.

1 2 j− 1 j j + 1 L− 1 L

1 2 k− 1 k L− 2 L − 1

Marqueur Intervalle

Figure 2.1.3. Illustration d’une s´equence, avec L marqueurs et L− 1 intervalles.

Sachant λ, la vraisemblance de Y est, par les propri´et´es markoviennes de tels arbres:

L(d, τ ) = P (Y|d, τ) = Pλ(S0 est racine)× 

o`u le produit est pris sur toutes les arˆetes de l’arbre. Ici, T|S signifie que T est reli´e directement `a S par un ´ev´enement de Re ou de Mu, et on a:

Pλ(T|S) =Pλ(T|S, Mu)P (Mu|Mu ou Re)

+ Pλ(T|S, Re)P (Re|Mu ou Re).

(2.2)

Si S et T diff`erent `a plus d’un marqueur, alors Pλ(T|S, Mu) = 0, et S et T sont

reli´es par un ´ev´enement de recombinaison; s’ils diff`erent `a un marqueur seulement, les deux termes contribuent `a (2.2). Soit γj la probabilit´e d’une mutation au

marqueur j, et θk est la probabilit´e d’une recombinaison dans l’intervalle k. La

probabilit´e totale d’une seule mutation est A =jγj



i=j(1− γi) et celle d’une

seule recombinaison est B =kθk



i=k(1− θk). D’autre part, Pλ(S0 est racine) est estim´e par la proportion des haplotypes S0dans Y , sachant que les haplotypes de cas plus anciens sont susceptibles d’ˆetre plus fr´equents.

Une paire d’haplotypes sont identiques par ´etat (IBS: “Identical by state”) s’ils partagent les mˆemes all`eles `a tous les marqueurs, quelle que soit leur re- lation de descendance; ils sont identiques par descendance (IBD: “Identical by descent”) s’ils sont IBS et que le mat´eriel g´en´etique de l’un provient de l’autre par descendance. De plus, Lam et al. (2000) d´efinissent IBS comme ´etant IBS mais partageant au plus une portion de l’haplotype IBD. Supposons que S et T apparaissent reli´es par un ´ev´enement de Re, qu’ils sont IBS `a gauche de k0 (k0 ≥ d) et diff`erent `a droite de k0. Soit R l’intervalle o`u la recombinaison a lieu. Le point de recombinaison peut ˆetre n’importe o`u entre d et k0, et on a donc:

Pλ(T, S, Re) = k0 

k=d

Pλ(T|S, Re, R = k)P (R = k).

Soit Sm:n le fragment de S couvert par les marqueurs m, m + 1, . . . , n. Si T est directement reli´e `a S par une cassure de recombinaison dans l’intervalle k, alors T1:k doit ˆetre IBD `a S1:k, et T(k+1):L est un haplotype partiel obtenu par recombinaison. Donc, on a:

Pλ(T|S, Re, R = k) = Pλ(T1:k IBD `a S1:k, T(k+1):L|T1:k IBS `a S1:k) = Pλ(T1:k IBD `a S1:k|T1:k IBS `a S1:k)Pλ(T(k+1):L). De plus, on a: Pλ(T1:k IBD `a S1:k|T1:k IBS `a S1:k) = Pλ(T 1:k IBD `a S1:k)

Pλ(T1:k IBD `a S1:k) + Pλ(T1:k IBS* `a S1:k)× Pλ(T1:k|T1:k IBS* `a S1:k)

,

car les haplotypes partiels T1:k et S1:k sont IBS s’ils sont IBD, ou si seulement une partie de la s´equence est IBD. Il reste alors `a calculer Pλ(T(k+1):L). D’autre

part, la probabilit´e d’une recombinaison dans une s´equence est θ = L−1k=1 θk, et

alors: P (R = k) ≡ P (R = k| 1 recombinaison) = (1− θ) gθ k (1− θ)gθ = θk θ ,

o`u g + 1 est le nombre de g´en´erations jusqu’`a ce que S recombine pour former T . Lam et al. (2000) assument ´egalement que:

Pλ(T1:k IBD `a S1:k) = Pλ(T1:k IBS* `a S1:k) =

1 2.

Il s’agit d’une probabilit´e non informative qui ne devrait favoriser aucune des hypoth`eses.

Si deux haplotypes S et T sont reli´es par un ´ev´enement de mutation, ils diff`erent exactement `a un marqueur que nous noterons M . Soit S−m l’haplotype S excluant m. Soit ∆m =|Sm:m−Tm:m| la taille de la mutation, i.e. la variation du

nombre de r´ep´etitions du microsatellite, et supposons que ∆m a une distribution

de probabilit´e µm. Si S et T diff`erent `a la position M = m0, alors la vraisemblance d’une mutation est Pλ(T|S, Mu) = Pλ(T|S, Mu, M = m0)P (M = m0). Si T et S sont reli´es par un ´ev´enement de mutation `a la position m0, alors T−m0 est IBS `a

S−m0, et Tm0:m0 est obtenu par une mutation de taille δ

Pλ(T|S, Mu, M = m0)

= Pλ(T−m0 IBD `a S−m0, ∆

m0 = δm0|T−m

0 IBS `a S−m0) = Pλ(T−m0 IBD `a S−m0|T−m0 IBS `a S−m0)Pλ(∆m0 = δm0).

En pratique, les taux de mutation et la distribution des changements dˆus `a la mutation sont n´ecessaires. Si les marqueurs consid´er´es sont des microsatellites, le taux de mutation est entre 10−2 et 10−5; s’il s’agit de SNPs, entre 10−6 et 10−8. Comme on l’a vu pr´ec´edemment, des estim´es de Pλ(Tm:n), la probabilit´e des haplotypes partiels, sont n´ecessaires. On suppose qu’un ´echantillon d’haplotypes est disponible, duquel les fr´equences des haplotypes partiels peuvent ˆetre estim´ees. Si l’´echantillon de r´ef´erence est grand, cette probabilit´e peut ˆetre estim´ee par la fr´equence de Tm:n dans l’´echantillon. Cependant, cette fr´equence peut ˆetre nulle et doit alors ˆetre estim´ee d’une autre fa¸con. La probabilit´e d’observer l’haplotype partiel [x1x2. . . xm] peut s’´ecrire:

P (x1x2. . . xm) = P (x1)P (x2|x1)P (x3|x1x2) . . . P (xm|x1x2. . . xm).

Une approche pour estimer cette quantit´e est de supposer l’ind´ependance des marqueurs et de faire le produit des fr´equences d’all`eles. Pour tenir compte des d´ependances entre all`eles, les probabilit´es conditionnelles peuvent ˆetre bas´ees sur le plus haut niveau de d´ependance des haplotypes dans l’´echantillon de r´ef´erence. Supposons que l’haplotype le plus long ressemblant `a [x1 x2. . . xj] et incluant xj

est [xj−2 xj−1 xj]. Alors:

P (xj|x1 x2. . . xj−1) = P (xj|xj−2 xj−1) =

P (xj−2 xj−1 xj)

P (xj−2 xj−1) .

Finalement, on cherche ˆd en trouvant ˆλ = (ˆd, ˆτ ), tel que: L(ˆd, ˆτ) = max

Aussi, une analyse bay´esienne bas´ee sur la distribution marginale a posteriori de d donne: P (d|Y ) ∝ πD(d) τ∈T P (Y|d, τ)πT(τ ) = πD(d)P (Y|d).

Un estim´e de d est alors le mode de la distribution a posteriori. Notons que l’expression pr´ec´edente n’est pas ´evaluable en pratique. Les inf´erences faites sur d demandent une maximisation sur l’espace des arbresT , de cardinalit´e infinie. Une solution consiste `a construire de fa¸con heuristique un arbre que l’on pense proche de l’arbre optimal. La m´ethode de construction choisie favorise un minimum de nœuds inobserv´es (parcimonie). Le processus est it´eratif, commen¸cant par regrouper les haplotypes les plus proches puis en regroupant ces groupes.

La m´ethode passe par la mod´elisation d’un haplotype ancestral, c’est-`a-dire un unique haplotype ancestral, mais il peut exister dans la r´ealit´e plusieurs haplo- types ancestraux. Ceci peut ˆetre caus´e par plusieurs raisons: (1) Un seul haplotype ancestral mais on a perdu le d´ebut de l’histoire; (2) la mutation s’est produite plusieurs fois sur plusieurs chromosomes ancestraux; (3) plus d’une mutation est pr´esente dans le g`ene `a l’´etude; (4) des individus malades ne poss`edent pas la mu- tation. La solution consiste `a trouver un groupe d’haplotypes homog`enes. La so- lution propos´ee par les auteurs consiste `a chercher diff´erents groupes d’haplotypes homog`enes, mais de ne faire l’analyse que sur le plus grand groupe, qui devrait ˆ

etre celui qui contient les haplotypes descendant de l’unique haplotype ancestral. Les auteurs soulignent que la m´ethode n’est pas robuste `a des erreurs d’ordre de marqueurs, mais toutes les m´ethodes multilocus souffrent de ce probl`eme. En effet, bien que les cartes g´en´etiques et les estimations des taux de recombinaison entre marqueurs s’am´eliorent constamment, on peut croire que la s´equence or- donn´ee des marqueurs X, Y, et Z est X-Y-Z, alors qu’en r´ealit´e la s´equence est X-Z-Y.

Documents relatifs