Techniques reposant sur les réarrangements

3. Impact évolutif des réarrangements chromosomiques

3.2. La reconstruction de génomes ancestraux

3.2.2. Des traces de l’origine commune des génomes au génome ancestral

3.2.2.1. Techniques reposant sur les réarrangements

Les méthodes reposant sur la distance/le nombre de réarrangements utilisent des modèles d’évolution des génomes pour rechercher les génomes ancestraux d’un groupe d’espèces en minimisant le nombre total de réarrangements (ou distance) observés sur toutes les branches d’un arbre phylogénétique. La recherche des génomes ancestraux est guidée par le principe de parcimonie qui se cache derrière le fait que la structure d’un génome reconstruit doit a priori provenir du scénario évolutif le moins couteux en réarrangements (le moins « long ») (Figure 5). Les méthodes reposant sur les réarrangements utilisent des graphes de points de cassure entre trois génomes G1 et G2 et G3 pour inférer les réarrangements qui ont fait diverger leur structure. Pour construire un tel graphe, il faut d’abord rechercher les blocs de synténie partagés entre ces génomes. Ensuite, un génome est fixé comme référence et ses blocs sont numérotés consécutivement par ordre croissant avec le signe « + ». On dit que ce génome est « identité ». L’ordre et l’orientation des blocs de synténie des autres génomes sont alors exprimés en fonction de l’identité. Ainsi si

le génome G2 possède une suite de blocs [1, 2, 3, 4, 5, 6, …] et que les blocs 2, 3 et 4 ont subi une inversion dans le génome G1, la permutation correspondante sera [1, -4, -3, -2, 5, 6]. On représente alors chaque bloc de synténie entre deux génomes (par exemple G1 et G2) par deux nœuds du graphe, chaque nœud représentant une des deux extrémités du bloc. Dans ce graphe, les arêtes représentent donc les adjacences entre les blocs. Dans la Figure 6, Les arrêtes en traits pleins représentent les adjacences dans G1 tandis que les adjacences en pointillé représentent les adjacences dans G2. Dans ce graphe, on observe que les arrêtes forment des cycles. Chacun de ces cycles peut correspondre à un ou plusieurs types de réarrangements. Un cycle de longueur 4 sous-entend l’existence d’une translocation réciproque ou d’une inversion. Pour des cycles de longueur supérieure, il devient difficile de retrouver quels types d’événements ont été mis en œuvre, en particulier lorsqu’un point de cassure est réutilisé et que deux événements ne peuvent plus être considérés indépendamment. Le principe des algorithmes reposant sur les réarrangements est de faire correspondre ces cycles à différents types de réarrangements, l’objectif étant d’identifier un « génome médian », c’est à dire la structure ancestrale qui minimise le nombre de réarrangements entre le génome ancestral reconstruit et trois espèces actuelles de référence (Figure 5). Même dans le cas où l’on considère seulement trois génomes, ce problème est np-complet (Avdeyev et al., 2016; Pe’er and Shamir, 1998) c'est-à-dire que la durée de résolution du problème augmente de manière exponentielle avec le volume de données à traiter.

Figure 5 Principe des méthodes de reconstruction utilisant les événements/la distance. (A) Les espèces actuelles G1 et G2 ont un ancêtre commun qu’on souhaite reconstruire R. L’espèce actuelle G3 sert de référence externe. (BCD) Le logiciel recherche une structure ancestrale R telle que la distance D correspondant à la somme des distances entre la reconstruction et les génomes existants soit minimale. Ici, le scénario B est le moins parcimonieux et D est le plus parcimonieux et sera retenu. (E) En réalité, il est rare, voire impossible de pouvoir trouver l’agencement ancestral totalement correct. Avec les trois chemins évolutifs G1G2, G2G3 et G3G1 il s’agit d’inférer la structure de R qui se situe quelque part dans la zone grise. Selon la position plus ou moins excentrée de R dans cette zone, le génome Sreconstruit présentera une proportion variable d’adjacences erronées. La difficulté du problème est évidemment bien supérieure à la situation présentée ici on l’on cherche un barycentre dans un espace en 2D. La reconstruction de génomes est un problème multidimensionnel et mesurer une « distance » entre des structures de génomes est difficile.

Figure 6 Graphe de points de cassure. Chaque entité (bloc, en rouge) i de la permutation G1 = [3, −5, 8, −6, 4, −7, 9, 2, 1, 10, −11] est

représenté par les nœuds 2i − 1 et 2i, le signe de i étant codé par l’ordre de 2i − 1 et 2i lorsque i est positif, et par 2i avant 2i − 1 lorsque i est négatif. Les nœuds 0 et 23 représentent les télomères. Les adjacences de la permutation G1 sont représentées par les lignes noires et celles de la permutation identité G2 par les lignes pointillées. Les différents cycles A, B, ...F représentent une ou plusieurs inversions : par exemple, F représente l’inversion du bloc 11.(Hannenhalli and Pevzner, 1999).

Les logiciels BPAnalysis (Blanchette et al., 1997), GRAPPA (Moret et al., 2001a), MGR (Bourque and Pevzner, 2002) et EMRAE (Zhao and Bourque, 2009) ont été les premiers dans ce domaine. Toutefois ils sont extrêmement lents. Les méthodes les plus récentes d’optimisation de ce problème comprennent

MGRA2 (Alekseyev and Pevzner, 2009; Avdeyev et al., 2016), GASTS (Xu and Moret, 2011) et PATHGROUPS

(Zheng and Sankoff, 2011).

BPAnalysis a été le premier algorithme permettant de mesurer des distances génomiques pour plus de

deux génomes. En 1997, Blanchette et Sankoff définirent la notion à la base de ces approches : il y a point de cassure quand deux gènes sont adjacents dans le génome G1 mais pas dans le génome G2 et la distance entre les génomes est le nombre de points de cassure qu’ils présentent (sans considérer les réarrangements qui les ont formés). BPAnalysis cherche à résoudre le problème du génome médian comme un problème « du voyageur de commerce » en parcourant l’arbre dont on souhaite reconstruire les nœuds internes de manière itérative. Cette approche est très couteuse en temps de calcul puisque chaque itération est un problème np-complet à résoudre. Pour un jeu de données de 13 génomes avec 105 segments génétiques, la durée d’exécution du programme est estimée à 200 ans (Moret et al., 2001b).

MGR (Multiple Génome Réarrangements) a été développé pour répondre au manque de robustesse de BPAnalysis sur les génomes à plusieurs chromosomes, et pour améliorer le taux d’erreur de ce dernier. Ils

ont marqué une certaine différence avec les outils précédemment présentés car ils mesurent la distance entre génomes en nombre de réarrangements plutôt qu’en nombre de points de cassure. MGR a été utilisé pour reconstruire les génomes ancestraux de mammifères (Murphy et al., 2005) ce qui a permis de tirer d’intéressantes conclusions sur l’évolution de ces génomes (voir le paragraphe 3.2.3, page 61). Ces résultats biologiques sont prometteurs, toutefois les reconstructions générées par MGR contiennent d’une part un faible nombre de gènes retracés (du fait de l’utilisation de marqueurs universels) et de plus l’algorithme utilise des approches heuristiques très « risquées » pour faire converger coûte que coûte la structure des génomes analysés en un ancêtre unique. En effet, MGR choisit simplement d’appliquer des événements de manière à ne pas rencontrer de « cul-de-sac » c’est à dire à générer un génome exact, même en introduisant des réarrangements peu fiables. MGR a été amélioré en 2008 par l’usage du modèle « Double-cut-and-Join » (DCJ) ce qui lui a permis de manipuler un plus grand nombre de réarrangements différents, notamment les translocations réciproques et les transpositions (Adam and Sankoff, 2008).

Le modèle DCJ (Yancopoulos et al., 2005) consiste à modéliser n’importe quel réarrangement (fusion, fission, inversion, translocation, excision et circularisation, transposition) par un seul et même mécanisme. Un événement DCJ sélectionne deux adjacences (soient deux adjacences AB et CD) qu’il rompt, les cassures étant réparées de manière à former de nouvelles adjacences AC et BD ou bien AD et BC. La nouvelle métrique associée à ce modèle de réarrangements compte simplement le nombre de DCJ ce qui simplifie beaucoup la combinatoire à manipuler pour obtenir des génomes médians et permet aux algorithmes de résolution du problème du génome médian de s’exécuter en temps linéaire, ce qui constitue un avantage majeur. En un sens, le fait d’introduire des cassures qui sont réparées de manière « accidentelle » peut sembler refléter la réalité biologique des réarrangements chromosomiques, toutefois certains aspects du modèle DCJ ne sont pas très réalistes, pour inférer la structure de génomes ancestraux comme par exemple le fait d’autoriser la circularisation de fragments (ce qui peut être le cas quand on s’intéresse aux réarrangements cancéreux impliquant des double minute chromosomes (Hahn, 1993)), ou le fait d’autoriser des translocations non-viables (ne tenant pas compte de la position des centromères). Une amélioration du modèle DCJ permet également de manipuler les délétions et duplications (Yancopoulos and Friedberg, 2009).

L’algorithme MGRA « Multiple Génome Rearrangements and Ancestors » (Alekseyev and Pevzner, 2009) dont nous reparlerons dans la partie résultats de cette thèse, repose sur une définition élargie du graphe de

points de cassure à n ≥ 2 espèces. Les nœuds du graphe peuvent donc avoir jusqu’à n arrêtes. L’algorithme répète deux étapes de façon itérative. La première consiste à identifier les réarrangements « fiables » c’est-à-dire ceux qui sont présents dans tous les scénarios parcimonieux possibles et qui ne réutilisent pas de points de cassure. La deuxième étape consiste à résoudre les réarrangements réutilisant des points de cassure à l’aide d’heuristiques pour pouvoir continuer à simplifier le graphe à l’aide de l’étape 1. L’algorithme s’arrête quand le graphe ne peut plus être simplifié. L’analyse des cycles extraits de ce graphe permet à MGRA de reconstruire l’arbre phylogénétique des espèces considérées, d’identifier les réarrangements sur les branches de l’arbre et enfin de générer les génomes ancestraux des espèces analysées avec une grande efficacité. Néanmoins, l’algorithme présente plusieurs limitations. Tout d’abord, comme pour les logiciels présentés précédemment, les blocs de synténie utilisés comme données d’entrée doivent être présents chez toutes les espèces analysées, ce qui restreint la proportion des génomes couverte par les blocs de synténie en particulier lorsque des espèces distantes sont analysées. D’autre part le fait que l’algorithme repose sur des heuristiques (bien que l’usage en soit restreint par rapport à MGR) pour résoudre les chemins réutilisant les points de cassure peut entrainer des erreurs. MGRA2 est capable de gérer des réarrangements plus élaborés que MGRA incluant les insertions, délétions et duplications (Avdeyev et al., 2016).

Dans le document Impact phénotypique des réarrangements chromosomiques et évolution des génomes de levures (Page 54-57)