• Aucun résultat trouvé

4. Réarrangements chromosomiques et évolution des génomes chez les Saccharomycotina

4.1. Évaluation des performances d’AnChro

4.1.1. Obtention des blocs de synténie

4.1.1.2. Détection de la synténie avec i-ADHoRe

Le logiciel i-ADHoRe utilise en données d’entrée des « listes de gènes » récapitulant la position et le brin où se trouvent les gènes sur chaque chromosome de chaque génome ainsi qu’un tableau récapitulant entre chaque paire de génomes l’ensemble des gènes homologues identifiés. Cette liste de gènes homologues peut être obtenue en réalisant un alignement de toutes les séquences codantes d’un génome contre toutes les séquences codantes d’un autre génome, puis en appliquant un filtre pour éliminer les alignements non significatifs. Or, la première étape de SynChro consiste à identifier les RBH entre les paires de génome. Nous avons donc utilisé les RBH identifiés par SynChro pour générer la table d’homologie.

L’algorithme i-ADHoRe identifie tout d’abord des régions homologues colinéaires entre deux génomes en traçant des « gene homology matrix », ou GHM (Figure 18). Cette matrice est obtenue en traçant un tableau à 2 dimensions dans lequel l’entrée des lignes et des colonnes correspondent à l’ordre des gènes dans deux génomes à comparer. Pour chaque cellule du tableau, si l’entrée de la ligne et de la colonne correspondent à des gènes orthologues, le résultat de la cellule vaut 1. Si les gènes des deux génomes ne sont pas orthologues, la cellule vaut 0. Le logiciel i-ADHoRe recherche des clusters de gènes alignés dans cette matrice qui correspondent à des régions homologues dans les génomes analysés.

86

Figure 18 Exemple de « Gene Homology Matrix » entre deux

chromosomes d’Arabidopsis Thaliana (Simillion et al., 2008). On identifie trois grandes régions homologues (encadrées en vert). Les points bleus représentent l’intervalle de confiance de la régression linéaire utilisée pour valider ces multiplicons. Les cadres rouges indiquent des multiplicons qui n’ont pas été validés.

Les paires des gènes homologues issus de clusters linéaires de la matrice sont ensuite alignés. L’utilisateur peut choisir entre deux algorithmes : soit l’algorithme de Needleman et Wunsch (Needleman and Wunsch, 1970), soit un aligneur progressif développé pour i-ADHoRe (Fostier et al., 2011) et permettant de corriger avec l’ajout de nouvelles « séquences » les erreurs d’alignement créées aux étapes antérieures de l’algorithme. Les alignements sont convertis en un profil combinant l’ordre et l’orientation des ancres. Ensuite, d’autres segments homologues sont recherchés en comparant les autres génomes au profil établi précédemment (et non plus à de simples segments de génomes). Si de nouveaux segments s’alignent avec le profil, ils sont incorporés à ce dernier. Le processus est répété de manière itérative jusqu’à ce que plus aucun nouveau segment homologue ne soit détecté à l’aide du profil. L’utilisation d’un profil permet de détecter une conservation de la synténie même « lointaine », par exemple dans le cas où des gènes homologues auraient été perdus dans certains des génomes analysés.

Les paramètres suivants ont été utilisés : cluster_type=colinear (on recherche des régions homologues colinéaires et non pas simplement avec un contenu en gènes similaires dont l’ordre ne serait pas conservé), alignment_method=gg2 (la dernière méthode d’alignement des profils implémentée dans i-ADHoRe 3.0 qui corrige les erreurs précoces de l’alignement de séquences multiples), gap_size=30 (pseudo-distance maximale autorisée entre les points d’un cluster de gènes), cluster_gap=35 (pseudo-distance maximale entre de petits blocs de synténie qui seront fusionnés en un bloc plus grand). Ces deux valeurs ont été choisies assez grandes afin de permettre la détection de blocs de synténie entre des génomes très divergés afin de limiter la perte d’information due au fait que l’on cherche des blocs ubiquitaires. Dans le cas où l’on cherche des blocs de synténie en comparant des génomes deux à deux, nous avons fixé gap_size=6 et cluster_gap=6. Nous avons fixé q_value=0.75 (valeur comprise entre 0 et 1 indiquant la mesure de linéarité minimale d’un groupe d’ancres de la GHM considérées comme appartenant à un bloc), prob_cutoff=0.01 (seuil de probabilité déterminant qu’un cluster de gènes n’apparait pas par chance dans un génome), anchor_points=3 (nombre minimal d’ancres nécessaire pour générer un bloc), level_2_only=false (false pour identifier des blocs ubiquitaires, true si l’on cherche des blocs issus de comparaisons de génomes deux à deux, voir paragraphe b), number_of_threads=4 (nombre de processeurs affectés au calcul).

Les résultats d’i-ADHoRe sont organisés sous la forme d’un graphe orienté dans lesquels les nœuds sont appelés « multiplicons » et représentent des blocs de synténie à une itération donnée du programme. Les multiplicons contiennent des « segments » homologues appartenant à différents génomes. On appelle « niveau » le nombre de segments que possède un multiplicon. Ainsi tout multiplicon est au moins de niveau 2. A chaque itération, un nœud fils est ajouté à chaque multiplicon pour lequel un nouveau segment est détecté. Les multiplicons correspondant à des blocs ubiquitaires dans n espèces sont donc de niveau n. A la dernière itération de l’algorithme, quand plus aucun nouveau segment n’est détecté, les feuilles du graphe correspondent aux blocs de synténie « définitifs » identifiés par i-ADHoRe. Ces feuilles ont été

87

extraites, et seuls les multiplicons possédant exactement un segment dans chaque génome ont été conservés.

Chaque multiplicon identifié par i-ADHoRe a été transformé en une liste de coordonnées génomiques décrivant la localisation des segments du bloc de synténie dans les différents génomes analysés. Chaque segment est localisé par le nom du génome dans lequel il apparait, le nom du chromosome qui le porte, sa position de début et de fin (en paires de bases) sur ce chromosome et enfin par son orientation, déduite de son alignement avec le profil généré par i-ADHoRe. Ces marqueurs sont bien ubiquitaires (présents dans tous les génomes) et à plus forte raison, uniques (présents exactement une fois dans chaque génome). Toutefois certains se chevauchent ou se recouvrent complètement. ANGES n’accepte pas de tels marqueurs. De plus, GapAdj, MGRA et PMAG+ prennent en données d’entrée des permutations signées de blocs de synténie, et ne supportent donc pas le chevauchement ou le recouvrement de marqueurs. C’est pourquoi les marqueurs ont été filtrés selon les règles suivantes :

 Si un grand marqueur en recouvre un plus petit, le marqueur le plus grand est conservé.

 Si un marqueur est recouvert par plusieurs autres, il est éliminé. Dans les marqueurs restants après ce filtre, si plusieurs marqueurs sont tous recouverts par un même grand marqueur, on détermine s’il est préférable de retirer le grand marqueur ou les petits en cherchant à maximiser la couverture moyenne (en paires de bases) dans les différents génomes.

 Si deux marqueurs se chevauchent partiellement, le marqueur le plus grand est raccourci pour que le chevauchement soit nul. Si le marqueur ainsi raccourci est plus court que la longueur équivalente à trois gènes du génome analysé (en paires de bases), il est éliminé.

Au terme de ces étapes, nous avons obtenu 342 marqueurs recouvrant en moyenne 75% (en paires de bases) des génomes des Lachancea (Figure 19, page 88). Les blocs obtenus ont été écrits dans les différents formats attendus par ANGES (coordonnées génomiques des segments de chaque bloc), GapAdj, MGRA et

PMAG+ (qui prennent tous les trois des permutations signées de marqueurs en données d’entrée).

Pour reconstruire les génomes des Lachancea avec AnChro à partir des blocs de synténie identifiés par

i-ADHoRe, nous avons détecté les blocs de synténie entre les différentes paires de génomes avec les

paramètres pairwise mentionnés précédemment : cluster_gap=6, gap_size=6. Toutefois nous avons conservé anchor_points=3 afin d’éviter que trop de petits blocs ne soient générés. Nous avons également fixé level_2_only=true car les blocs sont alors recherchés entre des paires de génomes. Nous avons converti les multiplicons d’iADHoRe au format attendu par AnChro (blocs de synténie et ancres). Le nombre et la taille des blocs obtenus avec ces paramètres sont très similaires à ceux obtenus avec SynChro.

Nous avons représenté Figure 20, la couverture des génomes des Lachancea par les blocs ubiquitaires obtenus avec SynChro et i-ADHoRe. Au total nous avons identifié avec SynChro 339 blocs ubiquitaires, recouvrant en moyenne 77% (en paires de bases) des génomes des Lachancea. On remarque que cette proportion est légèrement plus importante que celle qu’on a obtenue avec i-ADHoRe (Figure 20). Cette différence peut être attribuée au fait que l’on autorise les blocs de deux ancres seulement dans les blocs reconstruits par SynChro alors que le nombre minimal d’ancres par bloc recommandé pour détecter les blocs de synténie avec i-ADHoRe est de 3.

88

Figure 19 Carte chromosomique représentant la localisation des marqueurs ubiquitaires obtenus avec i-ADHoRe en analysant les génomes des Lachancea et de Zygosaccharomyces rouxii. Chaque ligne

représente un génome, chaque bloc numéroté symbolise un chromosome. La couleur grise indique les régions non-couvertes par un bloc de synténie. En moyenne, 75% des génomes (en paires de bases) sont recouverts par un bloc de synténie ubiquitaire. On remarque que les télomères, régions dynamiques dans lesquels s’accumulent des séquences répétées, ne sont pas couverts.

LACI : Lachancea cidrii, LADA : Lachancea dasiensis, LAFA : Lachancea fantastica, LAFE : Lachancea fermentati, LAKL : Lachancea kluyveri, LAME : Lachancea meryersii, LAMI : Lachancea mirantina, LANO : Lachancea nothofagi, LATH : Lachancea thermotolerans, LAWA : Lachancea waltii, ZYRO : Zygosaccharomyces rouxii

89

Figure 20 Proportion (en paires de bases) des chromosomes des espèces de Lachancea et de Z. rouxii couverts par les blocs de synténie détectés par SynChro et i-ADHoRe. Chaque colonne représente

un chromosome. La couleur indique le nombre d’espèces avec lequel une région considérée est retrouvée en synténie. On remarque que les blocs ubiquitaires (retrouvés chez 10 espèces en plus du génome considéré) et représentés en beige couvrent environ 77% des génomes. Pour la majorité des chromosomes, les blocs de synténie ubiquitaires identifiés par SynChro recouvrent un plus grand nombre de paires de bases que les blocs identifiés par i-ADHoRe (losanges noir). De plus on remarque qu’environ 20% des génomes sont couverts par des blocs de synténie non-ubiquitaires. Contrairement aux autres logiciels de reconstruction de génomes ancestraux, AnChro est en mesure d’exploiter l’information de ces blocs.

LACI : Lachancea cidrii, LADA : Lachancea dasiensis, LAFA : Lachancea fantastica, LAFE : Lachancea fermentati, LAKL : Lachancea kluyveri, LAME : Lachancea meryersii, LAMI : Lachancea mirantina, LANO : Lachancea nothofagi, LATH : Lachancea thermotolerans, LAWA : Lachancea waltii, ZYRO : Zygosaccharomyces rouxii

90