Nombre de réarrangements - Inférence des paramètres d’une histoire évolutive à partir des

III.2 Inférence des paramètres d’une histoire évolutive à partir des

III.2.6 Nombre de réarrangements

  F (0) si j = 1 F _γ−1^j−1− F^(j−1)−1_γ−1 si j ≥ 2 ^(III.5) |c_j| =^jg × f (j)^k (III.6)

avec f (j) l’histogramme discrétisé et normalisé des tailles de chromosomes du génome initial, g le nombre de gènes dans le génome initial, x = ^k−1_γ−1, le rang normalisé du chromosome de rang k et ^jg × f (j)^k, la partie entière de

g × f (j).

Enfin, si la somme des gènes dans les chromosomes du génome initial,

Pγ

j=1|c_j| est inférieure à g, les gènes restant, g −Pγ

j=1|c_j|, sont distribués dans les γ chromosomes. Autant que possible, les gènes restant sont distribués uniformément dans les γ chromosomes et, si cela est nécessaire, quelques chromosomes de destination sont choisis au hasard.

III.2.6 Nombre de réarrangements

Nombre de fissions et de fusions

Dans un premier temps le long de chaque branche du grand arbre les nombres de fissions et de fusions sont estimés par parcimonie à partir des nombres de chromosomes à chaque noeud (section III.2.4). Si l’espèce parent a plus de chromosomes que l’espèce enfant, le nombre de fusions nécessaires, pour diminuer en conséquence le nombre de chromosomes, est attribué à la branche. De même si l’espèce parent a moins de chromosomes que l’espèce enfant, le nombre de fissions nécessaires, pour ajuster le nombre de chromosomes, est attribué à la branche. Les nombres de fissions et de fusions le long des branches de l’arbre simulé sont déduits de ceux du grand arbre en additionnant les évènements de fusions et de fissions des multiples branches du grand arbre. Les nombres de fusions et de fissions peuvent donc tous les deux être non

nuls sur la même branche de l’arbre simulé. Par exemple, le long d’une lignée du grand arbre entre trois espèces consécutives A → B → C, admettons qu’il y ait 2 fusions sur la branche A → B et une fission sur la branche B → C. L’arbre simulé, qui, par exemple, ne contient que les espèces A et C, cumulera alors 2 fusions et une fission sur la branche A → C. Si nous avions calculé les fissions et les fusions par parcimonie directement sur l’arbre simulé, nous n’aurions inféré qu’une fusion sur la branche A → C.

Nombre de translocations réciproques et nombre d’inversions

Dans un premier temps nous estimons le nombre de translocations et d’inver-sions qu’il y a probablement eu entre deux espèces modernes.

Les inversions et les translocations qui séparent deux espèces modernes sont estimées à partir des segments conservés entre ces deux espèces. Nous reprenons pour cela la démarche de Matthew Mazowita [Sankoff et Mazowita, 2005][Mazowita et al., 2006]. À l’origine de son calcul, Mazowita fait une hypothèse issue du RBM. Dans son calcul, la sélection des deux chromo-somes transloqués se fait proportionnellement à leurs tailles. Ceci garantit que toutes les localisations des chromosomes sont d’équiprobables points de cassures de translocations. Si les chromosomes transloqués sont sélectionnés de manière uniforme la probabilité p_i(j) de Mazowita sera 1

c, avec c le nombre de chromosome dans le 1er génome (A), au lieu d’être _1−p(i)^p(j) comme c’est le cas dans le calcul de Mazowita. Une fois ce changement opéré, l’équation (9) devient X i c⁽ⁱ⁾ = cd − c (d − 1) " d − 1 d #2t c , (III.7)

avec d le nombre de chromosomes dans le deuxième génome (B), c(i) le nombre de chromosomes de B qui contiennent des segments conservés en commun avec le chromosome i de A et t le nombre de translocations que nous cherchons à estimer.

Nous proposons une interprétation intuitive de cette équation. Le terme de gauche correspond au nombre de paires de chromosomes, l’un dans A et l’autre dans B, qui partagent au moins un segment conservé. Ce terme est évalué à partir des données réelles. Le terme de droite correspond au nombre attendu de paires de chromosomes avec au moins un segment conservé en commun quand il y a t translocations. cd est le nombre total de paires de chromosomes, ^h^d−1_d ⁱ

2t c

est la probabilité qu’une paire de chromosomes ne partage pas de segment conservé malgré t translocations et c (d − 1) est égal au nombre de paires de chromosomes moins les c chromosomes de B qui

contiennent a priori un segment conservé (les vestiges des chromosomes de A) même s’il n’y a pas eu de translocations.

La formule précédente permet d’estimer le nombre de translocations qui séparent chaque combinaison de deux espèces modernes. Similairement à la suite du raisonnement de Mazowita, nous estimons le nombre d’inversions à partir du système d’équations suivant

s = c + k − (r + e + d) (III.8)

k = f + 2i + 2t. (III.9)

Dans la première équation s est le nombre de segments conservés, c le nombre de chromosomes de A, k le nombre de points de cassures, r le nombre de réutilisations de points de cassures, e le nombre de points de cassures qui sont tombés aux extrémités des chromosomes de A et d le nombre de segments conservés supprimés à cause des délétions de gènes ancestraux. Dans la deuxième équation f est le nombre de fissions, i le nombre d’inversions et t le nombre de translocations.

Comme Mazowita, pour mener à bien notre calcul nous faisons l’hypothèse que r, e et d sont suffisamment petits par rapport à s, c et k pour pouvoir les négliger. Nous reviendrons sur cette hypothèse plus tard (section III.8.2). Il s’ensuit que

i = ¹

2^{(s − c − 2t − f ).} ^(III.10) Nous construisons deux matrices de distances, l’une pour les inversions et l’autre pour les translocations. Dans la première matrice, les distances correspondent aux nombres de translocations réciproques qui séparent deux espèces modernes et dans la deuxième les distances sont les inversions. Le nombre d’inversions et le nombre de translocations pour chaque branche de l’arbre des espèces, sont calculés tour à tour en appliquant la méthode d’inférence phylogénétique des moindres carrés [Felsenstein, 2004], avec la contrainte que les nombres de translocations et d’inversions soient non nuls le long de toutes les branches, Non-Negative Least Squares (NNLS).

Nous venons d’inférer de nombreux paramètres évolutifs des espèces que nous souhaitons simuler. Nous détaillons par la suite comment le simulateur effectue les simulations.

Dans le document Etude de l'évolution de l'ordre des gènes de vertébrés par simulation (Page 115-118)