Comparaison avec d’autres programmes - Élaboration d’une méthodologie d’analyses bio-informatiq

Afin d’évaluer la capacité d’ADAPTI à effectuer des analyses, le jeu de donnée ITS1 « Mock » (Hoggard et al., 2018) a été soumis aux trois outils décrits plus tôt pour une analyse complète. Les fichiers de sortie des programmes ont ensuite été comptabilisés pour déterminer quelles sont les espèces détectées par chaque programme, et ce pour les échantillons uniques (une seule espèce par échantillon) et un mélange en triplicata de toutes les espèces utilisées dans l’étude. Le décompte des OTUs restant a ensuite été comptabilisé pour chaque fichier de sortie et les entrées dupliquées ont été retirées pour obtenir les résultats finaux.

Tableau 8 : Synthèse résultats (échantillons uniques, données provenant de Hoggart 2018) comparaison des pipelines ADAPTI, DADA2, Snakemake AAFC et Hoggard 2018)

Légende tableau 8 : Les cases vertes confirment l’identification des espèces visées, les cases jaunes correspondent à une identification erronée au niveau de l’espèce et les cases rouge correspondent à une identification erronée ou une absence, mais le bon genre.

Le tableau 8 démontre que les quatre pipelines d’analyse affichent des résultats variables. Les pipelines Dada2 et AAFC_Snakemake affichent le plus haut taux d’identification erroné ou d’incapacité de détection. ADAPTI a montré des performances supérieures en identifiant trois espèces de plus que Hoggard, mais présente les mêmes limitations pour Aspergillus niger et Candida glabrata.

Le tableau 9 donne les résultats des ADN des 22 espèces mélangées, c’est-à-dire 3 échantillons (triplicata) contenant les 22 espèces équimolaires. Dada2 et AAFC_Snakemake affichent toujours des taux d’erreurs importants. ADAPTI démontre sa performance en identifiant deux espèces étant passées sous le radar pour les trois autres pipelines. Les espèces de Malassezia semblent être défavorisées lors de l’amplification PCR et ne se manifestent qu’à l’état de trace.

Organisme \ Programme # SRA (Sample) ADAPTI Dada2 AAFC_SM Hoggard

Alternaria alternata SRS2937515 X Alternaria NA Alternaria NA X

Aspergillus brasiliensis SRS2937513 X X X

Aspergillus flavus SRS2937512 X X Aspergillus SP X

Aspergillus fumigatus SRS2937510 X X

Aspergillus niger SRS2937505 brasiliensis brasiliensis brasiliensis

Candida albicans SRS2937504 X X X X

Candida glabrata SRS2937532

Candida parapsilosis SRS2937531 X X X X

Candida tropicalis SRS2937525 X X X X

Cladosporium sphaeospermum SRS2937616 X X X X

Cryptococcus neoformans SRS2937530 X X Basidiomycota X

Exophiala spinifera SRS2937528 X X exophialae X

Fusarium solani SRS2937607 X keratoplasticum pseudensiforme X

Malassezia furfur SRS2937529 X X X X

Malassezia globosa SRS2937533 X X X X

Malassezia pachydermatis SRS2937534 X X X X

Penicillium chrysogenum SRS2937640 X Penicillium sp X

Saccharomyces cerevisiae SRS2937639 X X X X

Trichophyton mentagrophytes SRS2937641 X dermatis simii

Trichosporon dermatis SRS2937643 X X Trichosporon sp X

Tableau 9 : Synthèse résultats (échantillons assemblé) comparaison des pipelines ADAPTI, DADA2, Snakemake AAFC et Hoggard 2018

Tableau 10 : Tableau de décompte des OTUs pour ADAPTI, AAFC_Snakemake et dada2

Le Tableau 10 montre les décomptes de séquences à différentes sections des pipelines. Le décompte de séquences après nettoyage montre qu’ADAPTI laisse passer beaucoup plus de séquences que les autres programmes, mais cela résulte en un nombre beaucoup plus élevé d’OTUs au total. Après filtration des OTUs non identifié, ADAPTI possède tout de même le plus grand nombre d’OTUs au final. Dada2, par contre, se retrouve avec moins d’OTUs uniques qu’il y a d’espèces dans le jeu de donnée original, alors que AAFC_Snakemake est le plus près de la cible.

Organisme \ Programme # SRA (Sample) ADAPTI Dada2 AAFC_SM Hoggard

Alternaria alternata SRS2937515 X Alternaria sp Alternaria sp X

Aspergillus brasiliensis SRS2937513 X X X

Aspergillus flavus SRS2937512 X Aspergillus SP X

Aspergillus fumigatus SRS2937510 X X

Aspergillus niger SRS2937505 brasiliensis brasiliensis brasiliensis

Candida albicans SRS2937504 X X X X

Candida glabrata SRS2937532

Candida parapsilosis SRS2937531 X X X X

Candida tropicalis SRS2937525 X X X X

Cladosporium sphaeospermum SRS2937616 X X X X

Cryptococcus neoformans SRS2937530 X X Basidiomycota X

Exophiala spinifera SRS2937528 X X exophialae X

Fusarium solani SRS2937607 X keratopklasticum pseudensiforme X

Malassezia furfur SRS2937529 Traces Traces Traces Traces

Malassezia globosa SRS2937533 Traces Traces Traces Traces

Malassezia pachydermatis SRS2937534 Traces Traces Traces Traces

Penicillium chrysogenum SRS2937640 X Penicillium sp X

Saccharomyces cerevisiae SRS2937639 X X X X

Trichophyton mentagrophytes SRS2937641 X dermatis simii

Trichosporon dermatis SRS2937643 X X Trichosporon sp X

Yarrowia lipolytica SRS2937636 Faible Fungi

ADAPTI AAFC_Snakemake dada2

# séquences brutes 3667939 3667939 3667939

# séquences après réassemblage 3105670 1465774 247466

# séquences après nettoyage 3011659 1465774 247466

Total 260141 850 30

Non identifié 110465 N/A N/A

Identifié avec identifiant unique 1188 69 18

Tableau 11 : Synthèse des caractéristiques, capacités et performances des différents pipelines de metabarcoding

Programme ADAPTI Pipecraft

Snakemake

AAFC Dada2

Travaille avec des données pré démultiplexé

Automatique 1

Interface Graphique

Fonction détection Pathogène

Fonction études écologiques 2

Paramétrage simple 3

Temps de traitement 248M 48 CPUS (heures) 76 ND Échec 8

Ram nécessaire (Go) 314 ND Échec 223

Légende : (1) Boîte à outils nécessitant le développement d’un pipeline. (2) ADAPTI non optimisé pour l’étude des fonctions biologiques. (3) Paramétrage nécessitant de modifier le script de travail.

Le tableau 11 résume différents paramètres techniques des différents outils testés. Du point de vue performance Dada2 est nettement plus performant qu’ADAPTI. Pipecraft ne pouvait faire le travail et AAFC_Snakemake a échoué en cours de route, car dépassé par la tâche. Cependant ADAPTI est prêt à usage, alors que Dada2 demande une équipe de bioinformaticiens pour supporter son usage.

ADAPTI génère un très grand nombre d’OTUs par rapport aux autres méthodes, ce qui est attendu pour un pipeline de détection de pathogènes, où il est important de ne pas perdre d’OTUs rares typiques des espèces de ravageurs nouvellement introduites (organismes exotiques).

4 Chapitre 4 : Discussion

Cette section fait le point sur les différents résultats présentés à la section précédente. Elle sera composée d’un retour sur ces résultats, les analysant pour faire ressortir les forces et les faiblesses d’ADAPTI, et pour identifier des pistes de solutions pour poursuivre son l’amélioration. Les prochaines sections jusqu’à la section 4.4 inclusivement, couvrent les des sections Résultats portant le même entête. Les sections 4.5 et 4.6 traitent des pistes pour l’amélioration des performances d’ADAPTI.

4.1 Efficacité multifilaire

Lorsque la quantité de données en entrée d’ADAPTI est faible (Figure 18), l’augmentation du nombre de fils d’exécution permet d’obtenir une amélioration jusqu’à concurrence d’environ 8 à 16 fils, soit la capacité d’un ordinateur de bureau conventionnel. Bien que le blast soit l’étape la plus lourde de l’analyse, elle est aussi la plus apte à tirer profit de l’augmentation du nombre de fils d’exécution, car la courbe correspondant au blast est de la même forme que la courbe totale. Les autres étapes semblent peu ou pas affectées par l’augmentation du nombre de fils; une mince amélioration est observable pour la clusterisation effectuée par Swarm, mais ses performances semblent être stagnantes et même diminués pour des valeurs de fils plus élevées. Les méthodes de parallélisme conventionnelles consistent à séparer le jeu de données en entrée de programme en plusieurs sections indépendantes qui sont chacune envoyées à un processeur pour traitement. Comme la taille des données en entrée est faible, il est probable que le gain en temps entre l’analyse de 1/8ème des données soit marginal par rapport à 1/32ème des données. Par exemple, si on prend un jeu de données de 1 million de séquences et qu’on le sépare en 10 parties égales (donc 10 portions avec chacune 100 000 séquences), l’augmentation du nombre de cœurs par 10 donnera 20 portions avec chacune 50 000 séquences. Si une séquence demande 1 microseconde d’analyse, il y aura une différence de 50 000 microsecondes (50 secondes) entre les deux analyses. Cependant, cette marge de gain d’efficacité

diminuera au fur et à mesure que le nombre de portions (fils d’exécutions) augmentera, d’où la perte d’efficacité à un nombre de fils d’exécution élevé.

Lorsque la taille des données en entrée augmente significativement (Figure 19), l’efficacité multifilaire augmente en conséquence. Suivant l’explication ci-dessus, des jeux de données plus imposants seront scindés en portions plus importantes, où le gain de performance est plus important, résultant en une augmentation de l’efficacité multifilaire.

Bien que la taille des données d’entrée ait un impact important sur l’efficacité multifilaire, il n’en demeure pas moins que ce n’est pas l’unique facteur l’influençant. Le taux de lecture/écriture sur le disque (I/O) est aussi un facteur à considérer dans ce type d’analyse. Un nombre plus élevé de fils d’exécution est souvent associé à un I/O beaucoup plus important. Dans cette optique, une grande quantité de cœurs aura tendance à surcharger le disque dur et donc de ralentir l’analyse, ce qui aura un impact direct sur l’efficacité du programme. Comme les disques durs du système utilisé pour l’efficacité multifilaire d’ADAPTI sont partagés entre plusieurs utilisateurs, l’impact réel est pratiquement impossible à mesurer. Les principes de fonctionnement des algorithmes ont aussi un impact sur leur efficacité multifilaire. Si l’on considère Illumicut; ce programme fonctionne sous le principe de minimisation de l’I/O en important entièrement les données d’entrée dans la mémoire vive du système. Le traitement est donc beaucoup plus rapide et ne dépend plus du disque dur. Cette technique de travail aura un effet potentiellement bénéfique pour l’efficacité multifilaire, bien que l’importation en RAM ne soit pas le seul facteur l’influençant. À l’instar d’Illumicut, HomopRemover minimise le plus possible l’importation en mémoire (ce programme effectuant des analyses simplifiées, l’importation en RAM n’était pas associée à une amélioration de l’efficacité). Ce programme remplace l’utilisation de la RAM par de l’utilisation disque pour des raisons d’économie, la RAM étant plus coûteuse que l’espace disque. Cette technique est évidemment affectée par une surcharge de l’I/O et peut aussi causer une surcharge à nombre élevé de fils, car chaque fil d’exécution écrit sur le disque simultanément.

Dans le document Élaboration d’une méthodologie d’analyses bio-informatiques pour des données de séquençage Illumina dans un contexte de metabarcoding (Page 71-77)