• Aucun résultat trouvé

Evaluation de la pertinence des reconstructions à partir de génomes simulés

4. Réarrangements chromosomiques et évolution des génomes chez les Saccharomycotina

4.1. Évaluation des performances d’AnChro

4.1.4. Evaluation de la pertinence des reconstructions à partir de génomes simulés

4.1.4.1. Intérêt des données simulées

Les critères biologiques présentés précédemment permettent d’apprécier la qualité des génomes reconstruits dans leur globalité, mais ne donnent pas accès aux différents types d’erreurs des outils de reconstruction utilisés. Par exemple, on pourrait avoir l’impression qu’un génome reconstruit est pertinent sur la base de son contenu en gènes alors qu’il introduit un grand nombre d’adjacences fausses dans les reconstructions. Comme on ne dispose malheureusement pas d’ADN ancestral de levures Lachancea pour évaluer la pertinence des génomes reconstruits par comparaison des espèces actuelles, il faut trouver un autre moyen pour mesurer la performance des outils de reconstruction.

Afin de quantifier les taux d’erreurs des différents outils de reconstruction (ANGES, GapAdj, MGRA et

AnChro) nous avons simulé de manière réaliste l’évolution de génomes comparables en taille à ceux des Lachancea. L’objectif de ces simulations est de présenter aux logiciels de reconstruction un grand nombre

de problèmes similaires à celui que représente la reconstruction des génomes réels de Lachancea afin de quantifier avec précision le taux d’erreur de chaque méthode (puisqu’on connait la structure des génomes ancestraux simulés) et ainsi de valider indirectement la pertinence des reconstructions à partir de données réelles.

Chaque simulation démarre avec un génome de 5000 gènes, distribués entre 8 chromosomes, contenant chacun un centromère. Notons que les génomes sont ici représentés par des listes d’identifiants de gènes, aucune donnée protéique ou nucléique ne leur est associée. Nous avons ensuite simulé 100 arbres binaires à 11 feuilles et 9 nœuds, similaires à l’arbre des Lachancea enraciné avec une espèce externe au clade. Ces arbres ont été générés selon le processus décrit dans (Kuhner and Felsenstein, 1994). Dans chaque arbre, des réarrangements chromosomiques balancés (inversion et translocations réciproques) ont été simulés le long des branches de l’arbre avec un minimum de 10 événements par branche et de manière à ce que le nombre de blocs et la taille des blocs de synténie dans les génomes simulés suivent la distribution observée dans les génomes des Lachancea. Etonnamment, nous avons dû induire selon les simulations entre 3 et 7 fois le nombre de réarrangements balancés estimés à partir des génomes de Lachancea, probablement parce que le simulateur utilisé n’introduit pas de duplications, délétions ou transpositions. Pour chaque réarrangement, nous avons fixé comme équiprobables les translocations réciproques et les inversions. La taille de ces dernières suit une loi de Poisson d’une moyenne de 5 gènes.

4.1.4.2. Pertinence des données simulées

Nous avons utilisé i-ADHoRe pour détecter les blocs de synténie pairwise entre les génomes simulés et avons comparé le nombre et la taille des blocs avec la distribution observée dans les génomes des

Lachancea avec SynChro (Figure 24). La pertinence de cette comparaison mérite quelques explications.

Premièrement, les blocs de synténie pairwise identifiés avec SynChro et i-ADHoRe sont très similaires en taille et en nombre, ce qui autorise leur comparaison. Deuxièmement, les données simulées n’étant associées à aucune donnée protéique, seul le logiciel i-ADHoRe permet de détecter la synténie entre les génomes simulés car SynChro requiert l’utilisation de séquences protéiques pour la reconstruction des blocs

95

de synténie. Nous avons donc décidé d’utiliser des blocs issus d’i-ADHoRe pour reconstruire les génomes ancestraux des simulations. Ce choix est plutôt en faveur des logiciels ANGES, GapAdj, MGRA et PMAG+, qui génèrent de meilleures reconstructions à partir de ces données et en défaveur d’AnChro qui comme nous l’avons vu, reconstruit des génomes ancestraux un peu plus fragmentés avec ces blocs. Au final, on observe que la distribution du nombre de gènes par blocs suit bien la distribution observée dans les génomes réels actuels des Lachancea (Figure 24). Ce jeu de données simulées a donc été utilisé par la suite pour évaluer la performance des logiciels de reconstruction AnChro, ANGES, GapAdj, MGRA et PMAG+.

Figure 24 Nombre de blocs de synténie et d’ancres obtenus à partir des comparaisons de génomes deux à deux avec SynChro sur les

génomes des Lachancea, en rouge et i-ADHoRe sur les génomes simulés en bleu. Chaque point représente une comparaison de deux génomes. Les intervalles de confiance représentent la dispersion du nombre d’ancres dans les blocs.

4.1.4.3. Résultats des reconstructions

Les 900 génomes ancestraux (9 ancêtres x 100 arbres), correspondants aux nœuds de tous les arbres simulés ont été reconstruits avec ANGES, GapAdj, MGRA, PMAG+ et AnChro. Notons que pour AnChro, nous n’avons pas optimisé la reconstruction des ancêtres, une seule version ayant été calculée par ancêtre, en utilisant la comparaison entre les génomes G1 et G2 les moins réarrangés c’est-à-dire les génomes dont le nombre de blocs de synténie est minimum.

La qualité des reconstructions en termes de nombre de scaffolds, nombre de gènes et en pourcentage de

scaffolds possédant un seul centromère est représentée (Figure 25). Les reconstructions par défaut

d’AnChro comprennent en moyenne 4602 gènes tandis que les autres outils ont une moyenne d’environ 1500 gènes. Le nombre d’ancêtres reconstruits avec huit chromosomes est variable : 213 avec AnChro, 217 avec PMAG+, 46 avec GapAdj, 3 avec ANGES et seulement 1 avec MGRA. Les reconstructions d’AnChro,

PMAG+, GapAdj, ANGES et MGRA ont un pourcentage de scaffolds avec un seul centromère de 42, 0%, 22,

96

Figure 25 Reconstructions de génomes ancestraux à partir des espèces actuelles simulées. La figure représente 900 ancêtres

reconstruits correspondant à 9 ancêtres par simulation et 100 simulations, pour chacun des logiciels : AnChro (reconstruction par défaut), ANGES, GapAdj, MGRA et PMAG+. Chaque génome ancestral est représenté par un point. La qualité des reconstructions est représentée par le nombre de gènes retracés (idéalement 5000), le nombre de scaffolds (idéalement 8) et la proportion de scaffolds de chaque reconstruction possédant un unique centromère (idéalement 100%). (Vakirlis et al., 2016)

De plus, nous avons calculé la proportion d’adjacences reconstruites de manière correcte et erronée entre les blocs de synténie des 900 génomes reconstruits comparativement à leur équivalent simulé (Figure 26). Pour ce faire, nous avons appliqué la méthode expliquée ci-après sur tous les génomes reconstruits. Pour toute adjacence de blocs dans l’ancêtre reconstruit (noté R), nous avons déjà déterminé si cette adjacence est télomérique, c'est-à-dire si cette adjacence est constituée d’un bloc de synténie « réel » et d’un bloc artificiel représentant un télomère. Si oui, on vérifie que cette adjacence est également présente dans la simulation auquel cas l’adjacence correspond à un télomère. En résumé, elle est correcte et on la représente en vert. Si cette adjacence ne correspond pas à un télomère dans l’ancêtre simulé, c’est que l’adjacence avec le bloc voisin observé dans le génome simulé n’a pas pu être reconstruite, on représente cette adjacence en gris. Dans le cas où l’adjacence de R considérée n’est pas située à l’extrémité d’un

scaffold, on cherche si cette adjacence existe dans le génome simulé correspondant. Si c’est le cas,

l’adjacence est directement catégorisée comme correcte (en vert). Dans le cas contraire, l’adjacence a été reconstruite de manière erronée. Nous avons fait la distinction entre différents types d’erreur. Si les deux blocs qui forment cette adjacence sont tous deux localisés sur le même chromosome simulé, on parle d’erreur intra-chromosomique (en orange) et plus spécifiquement, s’ils sont voisins c’est une inversion d’un seul bloc : les deux blocs sont bien voisins dans la reconstruction mais leurs extrémités en contact ne sont

97

pas les bonnes. Ces erreurs sont représentées en bleu. Si les deux blocs de l’adjacence reconstruite ne sont pas situés sur le même chromosome simulé, l’erreur est plus grave car elle mélange des chromosomes simulés. On parle d’erreur inter-chromosomique (en rouge). On peut en principe identifier les cas où deux télomères simulés ont été rejoints dans la reconstruction mais cette distinction n’est pas représentée dans la Figure 26.

Figure 26. Quantification des erreurs de reconstructions à partir des données simulées. Les adjacences correctes sont en vert. Les

erreurs intra-chromosomiques ont été décomposées en deux catégories : les inversions d’un seul bloc sont en bleu et les autres erreurs sont en orange. Les erreurs inter-chromosomiques sont en rouge. La proportion d’adjacences non reconstruites est également indiquée en gris. (A) méthode de quantification des erreurs. Le génome ancestral reconstruit est noté R. Le génome ancestral simulé est noté S. (B) Proportion moyenne d’adjacences reconstruites de manière correcte et incorrecte dans les 900 reconstructions obtenues avec les cinq programmes.

Cette analyse a montré qu’AnChro reconstruit la plus haute proportion d’adjacences correctes (67,9%) comparativement à PMAG+, ANGEs, MGRA et GapAdj (48.2%, 32.8%, 24.4% and 16%, respectivement). De plus, AnChro reconstruit la plus petite fraction d’adjacences fausses (3,5%) comparativement à MGRA, ANGEs, PMAG+ et GapAdj (27.6%, 41%, 48% and 77.6%, respectivement). Ces chiffres donnent une valeur prédictive positive de 0.95, 0.50, 0.47, 0.44 et 0.17 pour AnChro, PMAG+, MGRA, ANGEs and GapAdj, respectivement (Équation 1).

Équation 1 : Calcul de la valeur prédictive positive (VPP)

98

Si l’on considère l’ordre relatif des blocs indépendamment de leur orientation, les adjacences dues aux inversions d’un seul bloc peuvent être considérées comme correctes. Par conséquent, le taux d’erreurs dans les reconstructions des génomes des Lachancea est de 3,5% à 1,5% si l’on considère les blocs inversés comme correctement positionnés. Notons que ces proportions peuvent avoir été légèrement surestimées car ces évaluations reposent sur les reconstructions par défaut d’AnChro (blocs issus d’i-ADHoRe et pas d’optimisation a posteriori) alors que les reconstructions des génomes des Lachancea utilisées pour inférer l’histoire évolutive du clade ont été optimisées. Dans ce cas, les inversions d’un seul bloc sont considérées comme correctes et les VPP deviennent 0.98, 0.81, 0.78, 0.75 et 0.44 pour AnChro, PMAG+, ANGEs, MGRA et GapAdj, respectivement.