Am´ elioration de l’algorithme pr´ ec´ edent

Le programme correspondant à l’algorithme précédent nécessite beaucoup de temps de calcul, surtout pour des exemples réels. On parle ici de plusieurs se- maines de calcul. Il est donc primordial d’améliorer la performance de l’algorithme. Nous présentons ici une version plus performante la plupart du temps. Com- men¸cons par faire une évaluation sommaire des calculs que nous faisons présentement, afin de voir comment on peut gagner du temps de calcul.

Les calculs pour évaluer si une coalescence de séquences identiques est possible sont simples, puisque seule la multiplicité des séquences est un critère: il suffit de consulter le vecteur contenant la multiplicité des séquences. Pour évaluer si des coalescences de séquences de diff´erents types (C_ijk) sont possibles, il faut v´erifier si une coalescence est possible entre les dτ séquences (o`u dτ est le nombre

de séquences différentes à l’´etape τ ), donc effectuer dτ(dτ − 1)/2 vérifications.

Afin de savoir si une coalescence est possible pour une paire de séquences, il n’y a pas d’autres solutions que de comparer un à un tous les marqueurs, c’est-à-dire faire L comparaisons au maximum. En effet, quand on compare si deux s´equences sont identiques, le nombre d’op´erations est au maximum L, car si l’on constate que le second marqueur, par exemple, est différent, on sait que les séquences sont différentes, quelle que soit la suite des séquences. Le nombre d’opérations associé `

a la vérification des événements de coalescence de séquences de types différents est donc L× dτ(dτ − 1)/2. Par exemple, pour la première étape dans le cas de

l’exemple D, on a 105 coalescences à v´erifier (d0=15), et puisque L = 6, le nombre d’opérations nécessaires est donc de 630. Le même calcul dans le cas de l’exemple E nous donne 42 090 (dτ = 61 et L = 23). Si c coalescences sont possibles, il

faut alors déduire la nouvelle s´equence pour chacun des c ´evénements, et voir si elle existe déj`a ou non: nous ajoutons ainsi c× dτ× L opérations (au maximum).

Evidemment, les ordinateurs modernes calculent rapidement, mais il faut pren- dre en considération qu’un seul graphe peut nécessiter de quelques dizaines à quelques milliers d’étapes pour sa construction, et que des centaines de milliers, voir des millions de graphes sont nécessaires afin d’évaluer la vraisemblance.

Les calculs nécessaires pour évaluer les événements de mutation possibles demandent moins de temps. En effet, une mutation n’est possible que si le site mutant est unique. Un vecteur dénot´e par V , de dimension L, contenant la somme (pondérée par les multiplicités des s´equences) en colonne de Y nous informe si une mutation est possible:

V_l =

i=1

Si un él´ement du vecteur V est 1, alors une mutation est possible; il suffit de chercher quelle séquence possède la mutation, ce qui repr´esente dτ×L opérations

au maximum. `

A moins que l’on n’utilise la méthode approximative pour les recombinaisons (comme le présente la section 3.11), chaque séquence peut recombiner à chaque intervalle si celui-ci est ancestral. Pour chaque recombinaison, il est nécessaire de créer temporairement les séquences parentales, afin de trouver leur multiplicité. Une approximation est que, pour chacune des dτ s´equences, L−1 recombinaisons

sont possibles, et `a chacune d’elle, 2L op´erations sont nécessaires pour vérifier si les parents existent. Donc un nombre d’op´erations total de l’ordre de dτ × (L −

1)× 2L qui donne pour la première étape de l’exemple D, 900 opérations, et 61 732 pour celle de l’exemple E.

Le nombre d’opérations nécessaire pour évaluer tous les événements possibles et leur probabilité étant considérable, une solution a été cherchée afin de dimin- uer le temps de calcul. Comme nous l’avons vu, à chaque étape de la construction du graphe nous recalculons tous les événements possibles. Or, entre deux étapes successives de la construction d’un graphe, la liste des événements possibles est presque identique. Par exemple, si à l’´etape τ , l’´ev´enement C_2,65 est possible, il est probable qu’il le soit encore à l’´etape τ + 1, car parmi tous les ´evénements possibles, un seul est choisi, et celui-ci ne modifie que trois séquences au maximum (dans le cas d’une recombinaison ou d’une coalescence). Si nous prenons la liste des événements possibles aux étapes 4 et 5 de l’exemple de la section 4.3, sept événements sont possibles à chacune de ces deux étapes, mais un seul est différent. De fa¸con générale, parmi tous les événements possibles à l’´etape τ , la plupart sont encore possibles à l’´etape τ + 1. Notons par contre que leur proba- bilité a changé. Nous modifions donc l’algorithme pour ne pas avoir à recalculer systématiquement tous les événements possibles à chaque étape. Pour cela, nous modifions la liste des événements d’une étape à l’autre. Il suffit de prévoir toutes les conséquences qu’un événement a sur la liste des événements possibles.

A la premi`ere ´etape de la reconstruction du graphe, il faut commencer par ´

etablir une liste des événements possibles en utilisant la méthode précédente. Une fois l’événement choisi, il faut mettre à jour les paramètres et données avec le moins d’opérations possibles. Dans le cas d’une coalescence de séquences de type identique Ci, il suffit de mettre `a jour la valeur de ni (qui diminue de 1). Si

n_i est 1 (nous noterons n_i la nouvelle multiplicit´e de la s´equence i apr`es qu’un ´

evénement ait lieu), il faut aussi retirer l’événement en question de la liste des ´

evénements possibles, puisqu’une coalescence identique de cette séquence devient impossible, et vérifier si de nouvelles mutations sont possibles. En effet, le fait de changer la multiplicité de la séquence peut créer de nouveaux événements de mutation.

Si l’événement choisi est une coalescence de séquences diff´erentes C_ijk, il faut générer la s´equence k, `a moins qu’elle n’existe déj`a; si n_i = 0 (n_j = 0), il faut enlever (ou modifier) tous les événements impliquant la s´equence i (j); il est en effet possible qu’il existe un autre événement de coalescence impliquant une des s´equence i ou j. Si ni = 1 (nj = 1), il faut supprimer les événements de coales-

cence Ci et Cj qui étaient dans la liste des événements possibles. Si une nouvelle

s´equence k est cr´eée, c’est-`a-dire si n_k = 1, il faut vérifier si une coalescence est possible entre la s´equence k et les dτ − 1 autres séquences. Il faut également

vérifier si la nouvelle s´equence k est impliqu´ee dans d’autres événements: par exemple, s’il existe un év´enement C_ik_j mais que la s´equence k n’existait pas encore, alors il faut recalculer la probabilité de l’év´enement. Si n_k = 2, il faut ajouter un ´

ev´enement de coalescence Ck. Enfin, il faut vérifier si l’événement en question a

des implications sur les ´ev´enements de mutation: de nouvelles mutations peuvent ˆ

etre possibles.

Dans le cas d’une mutation M_ij, il faut retirer les événements où la séquence i est impliqu´ee et enlever la s´equence i du vecteur des s´equences, puisque sa multiplicit´e est maintenant nulle. Si n_j = 1, c’est-à-dire que la s´equence j est une nouvelle séquence, il faut vérifier si de nouvelles coalescences de séquences

de types différents sont possibles, et si cette nouvelle séquence est impliquée dans d’autres év´enements. Finalement, si n_j = 2, il faut ajouter l’év´enement Cj à la

liste des ´ev´enement possibles.

Pour un év´enement de recombinaison Rjk_i , il faut effacer la s´equence i et tous les événements qui y sont reli´es si n_i = 0. Si n_i = 1, il faut enlever l’événement Ci de la liste des év´enements. Si nj = 1 (nk = 1), il faut vérifier si de nouvelles

coalescences de séquences différentes impliquant la s´equence j (k) sont possibles, et si parmi les événements possibles, certains impliquent les nouvelles séquences j et k. Enfin, si nj = 2 (n_k = 2) il faut ajouter l’év´enement Ci (Cj).

Ce nouvel algorithme donne des résultats concluants: il est plus rapide, de l’ordre d’une fois et demi à deux fois, que le précédent.

Dans le document Cartographie génétique fine par le graphe de recombinaison ancestral (Page 158-162)