• Aucun résultat trouvé

4. Réarrangements chromosomiques et évolution des génomes chez les Saccharomycotina

4.2. Reconstruction des génomes ancestraux des Saccharomycotina

4.2.2. Construction de l’arbre phylogénétique des 66 espèces de Saccharomycotina

4.2.3.2. Choix des meilleures reconstructions

Après la reconstruction des génomes ancestraux, nous disposons de 36 versions de chaque génome ancestral. On compare alors l’ordre des gènes retracés dans toutes ces versions, deux à deux. Ces comparaisons permettent d’identifier différents types de contradictions : intra-chromosomiques, inter-chromosomique, fragmentation. On choisit alors la reconstruction qui minimise le nombre de contradictions par rapport à toutes les autres. Un exemple est présenté Figure 39. Nous avons appliqué au préalable cette approche aux génomes des Lachancea et avons remarqué que les reconstructions les moins contradictoires sont également celles qui sont reconstruites en respectant le mieux les critères biologiques définis précédemment (nombre de scaffolds, nombre de gènes retracés, nombre de centromères par chromosome), ce qui est cohérent.

120

Figure 39 Choix de la reconstruction ancestrale optimale pour un

ancêtre (A) parmi les versions (∆, ∆’) possibles. Chaque nœud représente une version de l’ancêtre A obtenue avec les valeurs de (∆, ∆’) entre parenthèses. Les arrêtes représentent le nombre de contradictions entre les différentes versions. Le chiffre dans chaque nœud représente le nombre total de contradictions de la version de l’ancêtre avec toutes les autres. La version en vert est la moins contradictoire, c’est celle qu’on conserve.

Nous avons alors tracé le nombre de scaffolds et le nombre de gènes retracés dans les ancêtres reconstruits en fonction des caractéristiques (pourcentage de divergence, nombre de blocs de synténie, nombres de gènes conservés en synténie) des génomes G1 et G2 utilisés pour calculer les reconstructions (Figure 40). On remarque que le niveau de fragmentation des génomes ancestraux augmente de manière exponentielle avec la divergence protéique et le nombre de blocs de synténie et diminue avec un nombre croissant de gènes conservés en synténie entre G1 et G2. De manière assez symétrique, le nombre de gènes retracés diminue avec l’augmentation du pourcentage de divergence et l’augmentation du nombre de blocs de synténie et augmente avec le nombre de gènes conservés en synténie. En résumé, ces résultats valident a

posteriori la pertinence de l’approche employée pour choisir les espèces G1/G2 (Figure 38) et démontrent la

« valeur prédictive » du pourcentage de divergence et du nombre de blocs de synténie sur la qualité du génome ancestral obtenu. Notons que sept génomes ancestraux se distinguent clairement des autres génomes reconstruits (en rouge dans la Figure 40). Il s’agit des génomes 2.16, 2.17, 2.18, 2.19, 2.20, 3.01 et 3.02.

Figure 40 Nombre de scaffolds et nombre de gènes retracés dans les génomes ancestraux reconstruits en fonction du pourcentage

de divergence, du nombre de blocs de synténie et du nombre de gènes conservés en synténie entre les génomes G1 et G2 utilisés pour les reconstruire. Les sept reconstructions exclues sont représentés en rouge.

121

Les résultats des reconstructions des génomes ancestraux ainsi que la paire d’espèces actuelles G1/G2 utilisées pour chaque reconstruction sont représentés sur la Figure 41. On observe que les 60 génomes ancestraux ont pu être reconstruits. On voit également les sept génomes ancestraux qui se distinguent du reste des reconstructions en termes de nombre de gènes et de niveau de fragmentation (2.16, 2.17, 2.18, 2.19, 2.20, 3.02 et 3.01) ont été reconstruits en utilisant comme espèces G1 et G2, les génomes

Babjeviella inositovora avec Lodderomyces elongisporus ainsi que Babjeviella inositovora avec Ogataea parapolymorpha et Geotricum candidum avec Nadsonia fulvescens, trois couples d’espèces

définissant des chemins évolutifs très longs (Figure 41). Dans le cas de 3.01, les deux espèces G1 et G2 comparées, Geotricum candidum et Nadsonia fulvescens sont trop divergées, le signal synténique est saturé mais on ne peut pas choisir d’espèces plus proches pour obtenir de meilleure reconstruction. Pour les autres génomes (2.16, 2.17, 2.18, 2.19, 2.20, 3.02), les paires de génomes G1/G2 utilisées se trouvent à la limite de la région verte dans la Figure 38 (page 119), indiquant qu’un seuil de 37% voire 36% au lieu de 38% de divergence serait plus adapté pour choisir les paires de génomes G1/G2. Par conséquent, ces génomes ancestraux ont été exclus des analyses ultérieures.

Nous nous sommes alors intéressés aux nombres de gènes retracés ainsi qu’au nombre de scaffolds dans les 53 autres reconstructions (Figure 42, page 123). Comme on peut le voir, le nombre de gènes retracés est centré autour de 4000 ce qui représente environ 70% de la taille des génomes actuels (Figure 42C). De plus, les ancêtres reconstruits sont très contigus comme on peut le voir Figure 42B : 34/53 (64%) des génomes sont reconstruits en moins de 25 scaffolds. On remarque avec intérêt qu’AnChro est capable de reconstruire des génomes ancestraux moins fragmentés que les génomes G1/G2 utilisés (Figure 42A, flèches noires). C’est particulièrement visible dans le cas de 1.04 reconstruit à partir du génome de K. dobzhanskii, 1.08 reconstruit à partir de L. quebecensis et 1.10 reconstruit à partir de L. lanzarotensis. Cette aptitude d’AnChro provient du fait que ce dernier peut inférer des adjacences ancestrales qui ont disparu. Dans la plupart des cas, on observe qu’un des deux génomes G1/G2 est peu fragmenté. Cela peut laisser penser que l’ancêtre reconstruit est de bonne qualité grâce à ce génome, mais ce n’est pas toujours le cas. Par exemple les ancêtres 1 .11, 1.24 et 1.25 sont moins fragmentés que les deux génomes actuels qui ont servi à leur reconstruction.

122

Figure 41 Reconstructions des génomes ancestraux des Saccharomycotina. Les génomes sont représentés sous la forme de

diagramme circulaires dont la taille est proportionnelle au nombre de gènes retracés. La taille des secteurs est proportionnelle au nombre de gènes dans les scaffolds reconstruits. Les génomes actuels sont représentés en niveaux de gris. La duplication totale du génome est indiquée par une étoile noire et les génomes actuels issus de cet événement sont entourés en noir. Les génomes ancestraux sont représentés en couleur. En outre, la paire d’espèces G1/G2 utilisée pour reconstruire chaque ancêtre est représentée par un chemin coloré dans l’arbre. La couleur du chemin est la même que celle de l’ancêtre. Les branches fines, en noir ne font partie d’aucun chemin évolutif G1/G2.

123

Figure 42 Nombre de scaffolds et contenu en gènes des génomes ancestraux reconstruits (en gris) et des génomes actuels (en vert).

(A) Comparaison du nombre de chromosomes dans les reconstructions comparativement aux génomes G1 et G2 qui ont servi à les reconstruire. Les flèches indiquent des génomes ancestraux moins fragmentés que les espèces référentes actuelles. (B) Distribution du nombre de scaffolds dans les génomes reconstruits et actuels. (C) Distribution du nombre de gènes dans les génomes reconstruits et actuels.

124