• Aucun résultat trouvé

2.3 Signature génomique et arbres taxonomiques

2.3.2 Arbres taxonomiques

Quand la partition utilisée est {Su, u ∈ A}, δ coïncide avec la diérence d'abon-dance relative de dinucléotides dénie par Karlin et Mràzek [53]. Elle est calculée dans le Tableau 2.7. On peut la comparer à la distance d'abondance relative basée sur la CGR (donnée dans le Tableau 2.6) et calculée à partir de la partition P2 représentée sur la Figure 2.1. Cette partition est elle aussi formée de 4 ensembles, mais aucun de ses ensembles n'est réunion de carrés Sw correspondant à des mots w de longueurs entières .

Dans les deux cas, les diérences entre séquences d'une même espèce sont très faibles.

De plus, les familles Eutheria, Diptera, Plantes, Firmicutes, Probacteria, Actinobacte-ria et Archae forment des groupes cohérents. On compare tout d'abord les diérences maximales intra-espèces avec les diérences minimales entre espèces diérentes. On peut remarquer que 14 espèces sont plus proches de leur propre groupe dans le cas des simula-tions basées sur la CGR, alors que seulement 10 espèces le sont pour les distances basées sur les rapports de fréquences de dinucléotides. Plus précisément, la démarcation est plus radicale pour les espèces suivantes : Streptomyces Coelicolor, Streptomyces Avermitilis, les Bacillus, Plasmidium falciparum, Yarrowia Lipolytica.

An de mesurer l'inuence de la taille de la partition, on refait les mêmes calculs sur une partition P0 régulière de taille 10×10 zones, ce qui revient, selon la terminologie d'Almeida et al. [3] à compter les mots de longueur fractionnaire log210 ≈ 3.32. Le Tableau 2.8 donne les diérences moyennes δ (multipliées par 1 000) entre tous les rap-ports dans la partition P0. Le nombre (17) d'espèces ayant une diérence intra-groupe maximale supérieure à la diérence minimale avec les autres groupes est plus grand que pour les autres partitions. En particulier, Drosophila Melanogaster et Oryza Sativa sont démarquées.

En conclusion, on constate, en comparant ces matrices de distances, que l'utilisation de zones qui ne correspondent pas à des mots, ni à des unions de mots, permet un gain de précision et d'information dans la comparaison des séquences biologiques. Les avantages évoqués par Fertil et al. [36] sont toujours valables dans l'étude de ces prols sur la CGR, à savoir la stabilité locale et le traitement rapide et simultané d'un grand nombre de séquences.

2.3.2 Arbres taxonomiques

La phylogénie cherche à étudier la formation et l'évolution d'organismes biologiques an d'établir leur parenté. L'utilisation des signatures génomiques ne prend pas en compte à proprement parler les diérents taux de mutation au cours de l'évolution.

Les arbres obtenus à partir des matrices de mesures de diérences par Karlin et Mràzek

macemazessolmbovsavescoebaccbachbrajccremlotpfalylipceleggalhomsammusratnagamdmelaathalosat échantillons(40)(40)(29)(40)(41)(41)(40)(40)(41)(40)(41)(32)(43)(22)(68)(53)(43)(77)(10)(45)(28)(42) mace23281031621731738068139111130140115911351141441401161069487 maze1895177187187848215111914014012410312611013813612611110288 ssol1032418918519098128193143203140127163122109112114164153114111 mbov1910911812110110788106182113126198200202193107143133148 save1093637151137130112150240135184224230223215182212161199 scoe1183729158144144122165246140187228235227219186220165208 bacc2749130104129101898811810613312983787561 bach1710485101129866913512315014677837676 braj317043213155148204201223219168171161157 ccre2078189116134156156168165142152127139 mlot22203151135197191219215156155154149 pfal3614213115612716416013110612293 ylip281101041101059710612252119 celeg5415113716416274809890 gal3460475014714587135 homsa37616013712588104 mmus273416216694148 ratn3415616387146 agam43679890 dmela673610857 athal523496 osat5728 Tab.2.6:Diérencesδd'abondancerelativebaséesurlaCGR(multipliéepar1000)entrelesespècesreprésentées dansleTableau2.5,construitesenutilisantlapartitionP2.Lorsqueladiérencemaximaleintra-groupeest bienpluspetitequetouteslesdiérencesentregroupes,lesvaleurscorrespondantessontengras.Sinon,les valeursproblématiquessontenitalique.

macemazessolmbovsavescoebaccbachbrajccremlotpfalylipceleggalhomsammusratnagamdmelaathalosatéchantillons(40)(40)(29)(40)(41)(41)(40)(40)(41)(40)(41)(32)(43)(22)(68)(53)(43)(77)(10)(45)(28)(42)mace2632108202208209109892031641841681221021661311561491481278390maze20102209224225113972131741931721291131521191481421531328795ssol10810231243246248145171267218272147151183165124136131212188125123mbov2011813414312213097115195132147237246253241114162157155save1343636175150154112168254143183277280279268172217175191scoe13425181157166122183268147186281285282271177226178201bacc32711711311571551219414615218116877698848bach7120135991141841216617918320619878879784braj356352270213179279290309302180195204186ccre1969236162144233242257250148170153140mlot23256207151266278302295150167190175pfal38174183224178199193193168161128ylip2712914814914413112514164123celeg591721731911839095102102gal38686867174155125140homsa355754189163123129mmus3139215196132160ratn38201186117150agam4876116103dmela69764311476athal643486osat488631

Tab.2.7:Diérencesd'abondancerelativededinucléotides(multipliéespar1000)entrelesespècesdécritesdansleTableau2.5.Lorsqueladiérencemaximaleintra-groupeestbienpluspetitequetouteslesdiérencesentregroupes,lesvaleurscorrespondantessontengras.Sinon,lesvaleursproblématiquessontenitalique.

macemazessolmbovsavescoebaccbachbrajccremlotpfalylipceleggalhomsammusratnagamdmelaathalosat échantillons(5)(5)(3)(5)(6)(6)(5)(5)(6)(5)(6)(4)(8)(22)(68)(53)(8)(77)(10)(45)(28)(7) mace2140171259275295156156259260246243182161194192195191192171157178 maze18178280294313170174274275262251197176185188191189206182170187 ssol42284306325156193304302309240190212205204202198224216158186 mbov19165191205186146167148307191209312325324317194213211233 save1655665249223198183215332214253334352342335252280245279 scoe1916542273248221202239352237275354372363356275304267297 bacc28106229239227226157146194220224217129133138150 bach19187203184251158145222244240233143155137174 braj3312070347246235335353351346235248245261 ccre23120345234245330342332328256261243269 mlot28342244226328343341336232235245256 pfal45221237262242240235243235215213 ylip2814819119718317615715499146 celeg65195200206200123115131134 gal431009597203183179185 homsa498186224192177173 mmus3846222201168185 ratn43215198162182 agam50101148142 dmela35146125 athal9937120 osat12031 Tab.2.8:Diérencesδd'abondancerelativebaséessurlaCGR(multipliéespar1000)entrelesespèceslistéesdans leTableau2.5,construitesàpartird'unegrillerégulièredetaille10×10formantunepartition.Lorsque ladiérencemaximaleintra-groupeestbienpluspetitequetouteslesdiérencesentregroupes,lesvaleurs correspondantessontengras.Sinon,lesvaleursproblématiquessontenitalique.

[53] sont en fait plutôt des arbres taxonomiques, la taxonomie étant la science qui étudie la classication des êtres vivants. Les arbres de la Figure 2.6 sont construits à partir des matrices des Tableaux 2.7 et 2.6 respectivement, générés avec la méthode dite Neighbor-Joining (grâce à l'outil NJPLOT) introduite par Saitou et Nei [82], et développée par Perrière et Gouy [72]. Cette méthode consiste à regrouper (clustering) les éléments deux par deux en prenant d'abord les deux plus proches (notés A et B) dans la matrice de distances. Un nouvel élément, noté C, les remplace dans la matrice. Pour calculer la distance∆ entreC et un autre élémentD, on calcule la moyenne

∆(C, D) = 1

2 ∆(A, D) + ∆(B, D) .

On itère ainsi jusqu'à regrouper tous les termes. La Figure 2.7 représente l'arbre construit avec le Tableau 2.8.

Sur la Figure 2.8, on construit l'arbre taxonomique de toutes les séquences de Bacteria répertoriées dans le Tableau 2.5. Dans les deux expériences, les séquences sont regroupées par espèces sauf pour une séquence de Streptomyces Coelicolor et une de Streptomyces Avermitilis. Pour l'arbre construit à partir des diérences δ basées sur la CGR, les trois groupes Firmicutes, Probacteria et Actinobacteria sont clairement séparés en trois familles distinctes.

Dans une dernière série d'expériences, on s'intéresse aux reconstructions basées sur des partitions un peu plus originales que des ensembles de rectangles. On partitionne le carré unité en une partition régulière de taille 20×20zones. Puis on regroupe les zones aléatoirement en 16 ensembles. Chaque zone a une probabilité1/16d'appartenir à chacun des ensembles. La Figure 2.9 représente la forme de l'arbre obtenu. Pour comparaison, l'arbre construit à partir de la partition régulière en 16 zones, équivalente au comptage de mots de 3 lettres, a été ajouté à la Figure 2.10. Les séquences utilisées pour ces expériences sont celles du Tableau 2.5 auxquelles on a ajouté celles du Tableau 2.9.

Dans l'arbre construit à partir des 400 zones groupées en 16 ensembles, les trois familles d'archées, eucaryotes et bactéries sont bien séparées (à l'exception de 3 espèces d'archées). Au contraire, dans l'arbre construit à partir des zones correspondant aux trinucléotides, les espèces sont davantage mélangées.

Une nouvelle fois, le résultat est plus satisfaisant avec le prol basé sur la CGR ne correspondant pas à du comptage de mots.

Les arbres présentés ici sont des exemples de reconstruction taxonomique à partir de la CGR, qui donnent des résultats plus satisfaisants que les arbres construits à partir des prols de fréquences de dinucléotides. On pourrait aussi penser à toutes sortes de partitions (diagonales, sinusoïdales, fractales, ...) où les zones ne sont pas rectangulaires.

Les résultats ne sont pas tous présentés dans cette thèse, mais peuvent être consultés en ligne sur http://mycgr.inria.fr/. Les programmes qui ont permis ces expérimenta-tions sont aussi sur ce site (cf. Section 2.4).

Fig. 2.6: Arbres taxonomiques non enracinés construits avec la méthode Neighbor-Joining à partir des diérences d'abondance relative de dinucléotides du Ta-bleau 2.7 (en haut) et des diérences d'abondance relative basées sur la CGR du Tableau 2.6 (en bas). Amniotea, Probacteria et Actinobacteria forment des groupes cohérents. Au contraire, les groupes Firmicutes, Metazoa, Viridiplan-tae sont séparés et les Archae sont mélangées avec des Eukaryota.

Fig. 2.7: Arbre taxonomique non enraciné construit avec la méthode Neighbor-Joining à partir des diérences d'abondance relative basées sur la CGR du Tableau 2.8 avec la partitions régulière de taille10×10.

Abbr Séquence GenBank

paer Pyrobaculum Aerophilum NC_003364

stok Sulfolobus Tokodaii NC_003106

aful Archaeoglobus Fulgidus NC_000917

halo Halobacterium sp NC_002607

mkan Methanopyrus Kandleri NC_003551

mther Methanothermobacter Thermautotrophicus NC_000916

paby Pyrococcus Abyssi NC_000868

phor Pyrococcus Horikoshii NC_000961

taci Thermoplasma Acidophilum NC_002578

tvol Thermoplasma volcanium NC_002689

bthe Bacteroides Thetaiotaomicron NC_004663

viol Chromobacterium Violaceum NC_005085

ecol Escherichia Coli NC_004431

rbal Rhodopirellula Baltica NC_005027

vibp Vibrio Parahaemolyticus NC_004603

xcam Xanthomonas Campestri NC_003902

ypse Yersinia Pseudotuberculosis NC_006155

Tab. 2.9: Liste des séquences supplémentaires utilisées pour les résultats des Figures 2.9 et 2.10.

Fig. 2.8: Arbres taxonomiques non enracinés construits avec la méthode Neighbor-Joining à partir des diérences d'abondance relative de dinucléotides du Ta-bleau 2.7 (en haut) et des diérences d'abondance relative basées sur la CGR du Tableau 2.6 (en bas) pour toutes les séquences de bactéries du Tableau 2.5.

Avec la CGR, les3groupes Firmicutes, Probacteria et Actinobacteria sont dé-marqués, alors que Firmicutes apparaît comme une famille d'Actinobacteria dans l'arbre du haut.

Fig. 2.9: Arbre taxonomique (en bas) construit à partir des diérences d'abondance re-lative basées sur la CGR avec une partitions de 400 zones régulières regroupées aléatoirement en 16 ensembles (représentée en haut). Les diérentes espèces d'archées sont en bleu, les eucaryotes en vert et les bactéries en jaune, orange ou marron.

Fig. 2.10: Arbre taxonomique (en bas) construit à partir des diérences d'abondance relative basées sur la CGR avec la partition régulière de 16 zones (en haut), correspondant au comptage des trinucléotides.

Documents relatifs