• Aucun résultat trouvé

Conclusion sur les structures de données existantes

Algorithme 6: Fonction EstDansIndex(seq) de Compareads.

4.3 résultats de compareads sur des données mé tagénomiques réelles

4.3.2 Métagénomique intestinale de l’escargot

Dans une récente étude sur le métagénome de l’escargot Achatina fulica [98], Ana Tereza R. Vasconcelos et al. ont comparé 34 métagénomes provenant d’img/m [72] avec le métagénome intestinal d’Achatina fulica. La comparaison se base sur les similarités enzymatiques produites par les métagénomes, en interrogeant la base de données cazy. Cazy est une base de données d’enzymes, classées par familles de structures protéiques. Le résultat de cette comparaison a été mis en forme par clustering hiérarchique et est représenté sur le dendrogramme figure44.

Figure 44: Dendrogramme représentant la comparaison enzymatique de 34 métagénomes issue de la publication d’Ana Tereza R. Vasconcelos et al. [98]. Le dendrogramme est réalisé suite à un clustering hiérarchique. Les couleurs permettent de différencier des clusters. Les clusters contenant les deux métagénomes de porc n’est pas coloré.

Les deux métagénomes de porc (swi266 et swi267) n’étant plus disponibles sur img/m, 32 des 34 métagénomes ont été comparés deux à deux avec Compareads, en recherchant 2 33- mers de partagés entre toutes les séquences. Les résultats sont présentés, après clusterisation hiérarchique, figure 45. On peut remarquer que tous les échantillons de fonges (acofunb, acofunt, acefun, clofun, funcomb, funter et trafun) sont regroupés ensemble par Com- pareads alors que cinq sur les sept sont ensemble dans la publication d’origine. Dans les deux études, deux des trois échantillons de sol sont ensemble, mais ce ne sont pas les deux mêmes. Dans la publication d’origine, les métagénomes intestinaux d’humains, de pandas

Figure 45: Dendrogramme représentant le résultat de Compareads sur 32 métagénomes. Le dendro- gramme est réalisé suite à un clustering hiérarchique. Les couleurs permettent de différen- cier les clusters identifiés figure44.

et de wallaby sont regroupés ensemble. Compareads sépare les humains des pandas et le wallaby n’apporte pas assez de signal pour être correctement clusterisé.

Deux autres clusters sont intéressants. Le premier, dans Compareads, regroupe les deux échantillons provenant d’insectes du genre Xyleborus. Ces deux insectes sont corrélés, dans la publication de base, avec un autre arthropode, Sirex noctilio. Ce dernier insecte est, avec Com- pareads, dans le second cluster d’intérêt, cluster qui regroupe les échantillons d’escargot et de deux arthropodes, une espèce de coccinelle et Sirex noctilio. Dans l’étude d’origine, l’escargot et la coccinelle sont regroupés avec le riz, deux fonges et un échantillon de sol.

Les différences entre les deux approches sont significatives, mais il faut garder en tête que les deux méthodes utilisées sont très différentes. De plus, on ne dispose pas d’une référence permettant de juger laquelle des deux méthodes est la plus proche de la vérité ; d’un point de vue général, les deux approches apportent de l’information, et semblent complémentaires. D’un point de vue performance, le temps moyen d’une intersection entre deux métagénomes avec Compareads est de 2m07s : ces métagénomes sont petits, ils contiennent en moyenne 152 050 séquences de quelques centaines de paires de bases.

4.3.3 Metasoil

Comme expliqué sous-section2.2.2, l’étude des métagénomes de metasoil a montré que les échantillons traités par une même technique d’extraction partagent plus de similarité au ni- veau fonction que deux échantillons traités par des techniques d’extractions différentes [120]. Pour rappel, les treize métagénomes de metasoil, deux autres métagénomes de sol et un mé- tagénome d’eau de mer de gos ont été clusterisés sur la base du nombre de fonctions de références qu’ils partagent les uns avec les autres, à l’aide de mg-rast. Le dendrogramme issu de cette comparaison est montré figure 4.3.3. Tous ces métagénomes, sauf un provenant de sol italien non disponible, ont été analysés les uns contre les autres avec Compareads. Le dendrogramme issu de Compareads (voir figure47) est très proche de celui de base.

Sur ces deux figures, tous les échantillons provenant d’extraction directe d’adn sont re- groupés ensemble. Sur la figure provenant de Compareads, on voit que tous les échantillons provenant d’extraction indirecte sont aussi regroupés ensemble, ce qui n’est pas le cas sur

4.3 résultats de compareads sur des données métagénomiques réelles 95

Figure 46: Dendrogramme obtenu sur quinze métagénomes, dont les treize de metasoil. La comparai- son a été menée avec mg-rast [120]. Le calcul de similarité entre les échantillons est basé sur 835 fonctions, chacune présente dans au moins un des échantillons.

Figure 47: Dendrogramme obtenu sur quatorze métagénomes, dont les treize de metasoil. La compa- raison a été menée avec Compareads en utilisant 2 33-mers partagés pour identifier les séquences similaires entre deux échantillons.

la figure d’origine. En allant plus loin, on voit que les sous-groupes sont très proches dans les deux cas. Les groupes “In plugs lysis”, “mp bio 101” et “gram positive” sont similaires. Le groupe “dna tissue” est mieux représenté sur la figure d’origine. Finalement, dans la figure de Compareads, les deux échantillons ne provenant pas de metasoil sont tout à fait à l’ex- térieur de l’arbre. Dans la publication d’origine, l’échantillon d’eau de mer est très loin des autres, mais le sol de puerto rico semble beaucoup plus proche. Malgré cette proximité, cet échantillon reste loin de tous les autres.

Cette analyse confirme la pertinence biologique de Compareads. Bien que fondamentale- ment différentes, les deux approches mènent à la même conclusion, à savoir que les techniques d’extraction d’adn avant séquençage ont un impact réel sur les données obtenues. Ainsi, au sein d’une expérience, il est important d’utiliser une seule et unique technique d’extraction d’adn.