Algorithme - Cartographie génétique fine par le graphe de recombinaison ancestral

Etant donné que le graphe de recombinaison ancestral est un processus markovien, il est assez simple de programmer sa reconstruction. Une fois les données et les paramètres lus, il suffit d’insérer le TIM dans le premier in- tervalle entre marqueurs, de construire K graphes afin d’´evaluer la vraisemblance sur cet intervalle, et de continuer ainsi pour chaque intervalle. Pour construire un graphe, il suffit d’étudier les événement possibles, de calculer leur probabilité, de choisir un événement au hasard, de calculer et mémoriser le poids de l’événement pour la vraisemblance, de mettre à jour les données et les paramètres, et de recommencer jusqu’à ce que l’ancêtre commun de toutes les séquences soit trouvé. Enfin, il suffit de chercher le maximum de vraisemblance, et d’imprimer les résultats. Nous allons maintenant décrire plus formellement l’algorithme. La notation “f()” est utilisée pour dénoter une fonction f qui dépend de certains paramètres.

// Algorithme d´ebut{

LireDonn´ees() lecture des donn´ees

LireParam`etres() lecture des param`etres

pour (p=1 `a L− 1){ pour chacun des intervalles

cr´eer Dist[] modiﬁcation du vecteur des distances

cr´eer Y [] modiﬁcation de la matrice

des haplotypes

pour (k=1 `a K){ pour chacune des K simulations

tant que(n>1){ tant que le MRCA n’est pas trouv´e

PossCoaId() ´etudier les coalescences de types

identiques possibles

diﬀ´erents possibles

PossMut() ´etudier les mutations possibles

PossRecom() ´etudier les recombinaisons possibles

ChoisirÉvénement () choisir un évènement

MiseÀJour() mise à jour des données

} } }

EcrireResultat() ´ecriture des r´esultats

} Fin

Le programme commence par lire le nom du fichier contenant les paramètres, entré sur la ligne de commande. Dans ce fichier de paramètres, le programme lit les informations suivantes:

1) le nom du ﬁchier de donn´ees, 2) u, le taux de mutation,

3) r1, r2, . . . , rL−1, les distances entre marqueurs (de position connue), 4) K, le nombre de simulations,

5) N , la taille eﬀective de la population,

6) ξ, le poids que l’on accorde aux ´ev´enements de recombinaison,

7) κ, le param`etre de la distribution exponentielle pour une taille de population variable,

8) le nombre de points pour lesquels on veut évaluer la vraisemblance, 9) les éventuels nombres de points spécifiés par intervalle,

10) le nom du fichier dans lequel les résultats seront écrits, 11) ν, le nombre maximum d’it´erations dans un graphe,

12) le choix des recombinaisons: dans chaque s´equence et chaque intervalle, ou en utilisant l’approximation de la section 3.11.

Les donn´ees lues sont les haplotypes (Y), le trait (T), la multiplicit´e des s´equences (n), et les distances entre marqueurs (r), dont voici un exemple:

Y=    0 0 0 1 0 0 1 0 0 0 0 1    , T =    0 0 1 1    , n =    2 3 1 2    , r = [ 0.02, 0.06 ] .

Dans la matrice Y, de dimension d× (L − 1), chaque ligne est une séquence, et chaque colonne un marqueur. Ainsi, par exemple, la première séquence est (0, 0, 0) et la seconde (1, 0, 0). Notons que la repr´esentation informatique que nous utilisons pour un site primitif ancestral est un 0, pour un site mutant un 1 et pour un site non ancestral un 9, mais dans le texte qui suit nous représentons un site non ancestral par le symbole “•” afin de faciliter la lecture. La iième _s´_equence de Y est un cas si Ti = 1, et un t´emoin si Ti = 0. Aussi, la iième séquence de

Y a pour multiplicit´e ni (le iième él´ement de n). Ainsi, la quatri`eme séquence de

Y qui est (0, 0, 1) est un cas et a pour multiplicit´e 2. Enﬁn, puisque nous avons trois marqueurs, nous avons deux distances entre marqueurs (voir r): la distance entre le premier et le second marqueur est 0.02, et la distance entre le second et le troisi`eme est 0.06.

Une fois les données et les paramètres lus, pour chaque intervalle entre mar- queurs p (p = 1, . . . , L− 2), on modifie les haplotypes et le vecteur de distance:

(a) Donn´ees brutes _0.02 _0.06

(b) Intervalle 1 r1= 0.01 r2= 0.01 r3= 0.06 (c) Intervalle 2 r1= 0.02 r2= 0.03 r3= 0.03

Figure 4.2.1. Schéma d’insertion du TIM ( ) dans la séquence des marqueurs observés de position connue ( ). Les chiffres indiquent des distances entre loci. (a) Données brutes: 3 marqueurs. Modification des séquences et des distances pour l’évaluation de la vraisemblance dans l’intervalle entre marqueurs (b) un (c) deux.

pour l’intervalle p, on ins`ere dans chacune des d s´equences de Y un nouveau marqueur, dont la valeur se trouve dans le vecteur T, exactement entre les mar- queurs p et p + 1. Il faut en cons´equence ajuster le vecteur des distances en divisant la distance rp existante en deux (car la valeur conductrice est au mi-

lieu de l’intervalle entre marqueur p), et en rajoutant la mˆeme distance après l’él´ement p du vecteur r, comme illustré dans la figure 4.2.1.

Voici un exemple, o`u l’on travaille sur l’intervalle 2 (p = 2) avec les donn´ees ci-dessus: r = 0.02 0.06 , Y=    0 0 0 1 0 0 1 0 0 0 0 1    , r =  0.030.02 0.03   , Y =    0 0 0 0 1 0 0 0 1 0 1 0 0 0 1 1    .

Par la suite, on construit K graphes avec Y et r. Notons que la dimension de Y est maintenant d×L, et que dans toutes les étapes de reconstruction qui suiv- ent, nous travaillons avec les L marqueurs. La reconstruction du graphe est tr`es simple: à chaque pas, les mêmes étapes se répètent (le processus est markovien). Il faut commencer par regarder tous les événements possibles: coalescence de séquences du même type (PossCoaId), coalescence de séquences différentes (Poss- CoaDi), mutation (PossMut), et recombinaison (PossRecom).

PossCoaId(): ´Ev´enement de coalescence pour des s´equences identiques Ci. Une co-

alescence correspond à l’événement où deux séquences trouvent un ancêtre commun. Un tel événement est possible pour la s´equence i si cette s´equence a une multiplicit´e d’au moins deux (ni ≥ 2).

PossCoaDi(): Événement de coalescence de séquences diff´erentes C_ijk. Cet événement

est possible si deux s´equences i et j ne poss`edent pas de mutations in- compatibles: aucun locus m (m = 1, . . . , L) ne doit satisfaire `a l’une des

conditions suivantes: !

Yim = 1 et Yjm= 0

Yim = 0 et Yjm= 1.

o`u Yimd´enote l’all`ele du marqueur m de l’haplotype i. Si un tel ´ev´enement

est possible, il nous faut calculer la nouvelle s´equence k r´esultante de l’´ev´enement: pour m = 1, . . . , L,

(_Y

km= 0, si Yim = 0 ou Yjm= 0,

Y_km= 1, si Yim = 1 ou Yjm= 1,

Y_km=•, si Yim =• et Yjm =•,

L’étape suivante consiste alors à vérifier si cette nouvelle s´equence k existe déjà, ou s’il faut la créer. La probabilité de l’événement dépend alors de la multiplicit´e de k, δ_ik et δ_jk.

PossMut(): ´Ev´enement de mutation M_ij(m). Une mutation est possible `a chacun

des L marqueurs, si une seule s´equence de multiplicité 1 possède une mutation à ce locus (une valeur 1). Dû au codage des données, il suffit de lire la matrice Y en colonne: pour avoir ´evénement de mutation, il faut que la somme en colonne de Y, en tenant compte des multiplicit´es, soit exactement 1. Autrement dit, une mutation est possible au marqueur m si et seulement si:

i=1

niYim= 1.

Si une mutation est possible, il faut alors chercher dans les différentes séquences quelle est celle qui possède un site mutant à ce locus (s´equence i). L’étape suivante consiste alors à construire la s´equence j en faisant muter le locus identifié de la s´equence i, et `a vérifier si la nouvelle s´equence j existe déjà, afin de connaˆıtre sa multiplicité dont dépend la probabilité de l’événement.

PossRecom(): ´Ev´enement de recombinaison Rjk_i (p). Un ´ev´enement de recombinai-

son est possible dans chacun des intervalles (p = 1, . . . , L−1), pour chacune des s´equences i, si l’intervalle en question est ancestral: cette situation se

pr´esente s’il est inclus entre γiet κi, que l’on aura déjà calculés. Pour chaque

événement de recombinaison possible, il faut créer les séquences parentales j et k, et v´erifier si elles existent afin d’obtenir leur multiplicité pour le calcul de la probabilité de l’événement.

Une fois que l’on a évalué tous les événements possibles et que l’on a rassemblé les informations indispensables aux calculs des probabilit´es (ατ, βτ), on peut cal-

culer ces dernières. Un événement est alors choisi au hasard, proportionnellement `

a son poids.

Pour passer à l’étape suivante du graphe, il ne reste qu’à ajuster les données et la valeur de certains paramètres. Si une coalescence de séquences de type identique se produit (Ci), il faut ajuster la multiplicité de la s´equence i: ni− = 1

(notation qui signifie que ni à l’´etape τ + 1 est ´egal `a ni à l’´etape τ moins 1), et

enlever la s´equence i de Y si ni devient nul. Ensuite, s’il s’agit d’un ´ev´enement

de coalescence de séquences diff´erentes (C_ijk), on ajoute la s´equence k `a Y si elle n’existe pas encore. Si k existe d´ejà, on modifie sa multiplicit´e, tel que nk+ = 1.

Dans tous les cas, on diminue la multiplicit´e des s´equences i et j: ni− = 1 et

nj− = 1. Si ni ou nj devient nul, il faut alors enlever la s´equence i ou j de Y. Si

l’év´enement choisi est une mutation (M_ij(m)), on ajoute la séquence j `a Y si elle n’existe pas encore. Si la s´equence j existe d´ejà, on modifie sa multiplicité qui devient nj+ = 1. Dans tous les cas, on diminue la multiplicité de la s´equence i,

ni− = 1. Si nidevient nul, il faut alors enlever la s´equence i de Y. Si l’´ev´enement

choisi est une recombinaison (Rjk_i ), il faut créer les deux nouvelles séquences et vérifier si elles existaient auparavant. Pour chacune de ces nouvelles séquences, si elles n’existaient pas, il faut les rajouter `a la matrice Y, sinon il suffit d’ajuster la multiplicité de la séquence. Quel que soit l’événement choisi, il faudra recalculer, ou mettre à jour, selon les param`etres, les vecteurs γ, κ, a, b, n (qui contiennent de l’information pour chaque type de s´equence: par exemple, le vecteur γ est de dimension d et contient la valeur de γipour chaque s´equence i) et les param`etres

Une des options concerne le nombre de points pour lesquels la vraisemblance est évaluée (NbCan). Si x est la valeur de la variable NbCan, le programme répartit

les x candidats sur la longueur totale de la s´equence, de telle fa¸con que l’on ait xp points dans l’intervalle p (proportionnellement `a la longueur de l’intervalle),

et que le nombre total de points soit x. Une autre option s’offre ´egalement à l’usager afin de lui permettre de préciser le nombre de points par intervalle; celle-ci permet, par exemple, de ne pas évaluer la vraisemblance dans certains intervalles, tout en utilisant l’ensemble de la séquence pour construire les graphes. Le temps de calcul grandit légèrement en fonction du nombre de points pour lesquels la vraisemblance est évaluée. Cependant, plus le nombre de points est élevé, plus la courbe de vraisemblance est précise. La figure 4.2.2 illustre cette différence. Les deux calculs pour (a) et (b) sont identiques (même racine aléatoire) mais le nombre de points pour lesquels la vraisemblance est évaluée est de 50 dans la première analyse, et de 200 dans la seconde. Pour cet exemple (A), alors qu’il faut 6 heures pour calculer la vraisemblance avec 1M d’itérations avec 50 valeurs candidates, il faut 7 heures et 12 minutes avec 200 valeurs candidates pour le même nombre d’itérations.

La courbe de vraisemblance est habituellement représentée sur toute la longueur de la séquence, mais elle n’est en fait pas définie entre le dernier point d’un

-124 -122 -120 -118 -116 -114 -112 -110 -108 -106 -104 -102 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 (a) -129 -126 -123 -120 -117 -114 -111 -108 -105 -102 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 (b)

Figure 4.2.2. Illustration de l’eﬀet du nombre de points pour lesquels la vraisemblance est calcul´ee: (a) NbCan est 50, (b) NbCan est 200.

intervalle et le premier point de l’intervalle suivant, comme l’illustre la figure 4.2.2: aux deux séparations entre marqueurs (lignes en pointillé verticales `a x = 0.05 et x = 0.10), la vraisemblance n’est pas repr´esentée.

Dans le document Cartographie génétique fine par le graphe de recombinaison ancestral (Page 147-154)