• Aucun résultat trouvé

8. Discussion

8.2 Facteurs impactant la qualité des MSPs

8.2.1 Nombre et diversité des échantillons métagénomique

Le nombre croissant d’échantillons métagénomiques disponibles sur les bases de données publiques (Figure 74) ainsi que la grande diversité phénotypique des individus dont ils proviennent (âge, origine géographique, état de santé, régime alimentaire etc.) améliorera la complétion des MSPs ainsi que leur qualité.

Figure 74 : Nombre total d’échantillons métagénomiques disponibles sur la base de données NCBI SRA par année.

Ces données sont fournies par l’outil curatedMetagenomicData [175]. Le nombre d’échantillon disponibles en 2017 est sous-estimé car tous les projets n’ont pas encore été indexés.

A mesure que le nombre d'échantillons augmente, MSPminer identifiera des espèces rares et assignera des gènes accessoires rares (cloud genes) à leurs MSPs respectives. De plus, les gènes accessoires hautement prévalent seront reclassifiés de core à accessoires comme observé lors du séquençage d’un nombre croissant de souches d’une espèce [28].

8.2.2 Séquençage

Les technologies de séquençage ainsi que des paramètres tels que le nombre de lectures générées, leur longueur et leur type (single-end, paired-end) impactent la qualité des MSPs et leur quantification.

117 Profondeur de séquençage

L’augmentation de la profondeur de séquençage consistant à générer plus de lectures par échantillon permet d’obtenir des assemblages métagénomiques de meilleure qualité composés de contigs plus longs et moins fragmentés. Par conséquent, les MSPs grouperont plus de gènes dont une proportion importante de gènes complets. Les espèces sous-dominantes seront détectées et partiellement assemblées ce qui permettra éventuellement de générer des MSPs leur correspondant. Finalement, l’estimation de l’abondance des MSPs sera plus précise car les comptages des gènes seront plus forts.

Longueur des lectures

Actuellement des lectures courtes d’environ 100 paires de bases sont utilisées pour l’assemblage métagénomique et le comptage des gènes. La génération de lectures plus longues permettrait d’améliorer la qualité des gènes regroupés dans les MSPs. En effet, les assemblages seraient moins fragmentés car on lèverait des ambiguïtés liées aux régions répétées dans les génomes. Ainsi, on réduirait la proportion de gènes incomplets et on estimerait plus précisément l’abondance des gènes car le nombre d’alignements ambigus où une lecture est assignée à plusieurs gènes diminuerait. De plus, on augmenterait la proportion de comptages uniques et on diminuerait le nombre de gènes détectés à tort (faux positifs).

Dans le même ordre d’idée, le séquençage pairé (paired-end) consistant à séquencer les deux extrémités d’un fragment d’ADN génère virtuellement des lectures plus longues. La production de telles lectures améliore la qualité des assemblages et la spécificité des alignements.

8.2.3 Construction du catalogue

Chaque étape de la création d’un catalogue de gènes nécessite une expertise bioinformatique pour choisir les stratégies, outils et paramètres les plus appropriés.

Assemblage

L’assemblage métagénomique demeure une tâche complexe malgré le développement d’algorithmes et de logiciels dédiés [106]. En particulier, la présence dans un même échantillon d’espèces apparentées (même genre) peut amener à générer des contigs chimériques contenant des gènes sans réalité biologique.

Prédiction des gènes

Pour prédire des gènes sur les contigs, on utilise généralement des logiciels entraînés sur des génomes procaryotes comme Prodigal [176] ou MetaGeneMark [110]. L’utilisation de ces outils sur des génomes eucaryotes génère des résultats incohérents car les gènes y ont une structure différente (présence d’introns et d’exons). Par conséquent, les MSPs d’espèces eucaryotes contiennent actuellement un nombre de gènes étonnamment grand dont la plupart sont fragmentés. Par exemple, la msp_0002 représentative de l’espèce Blastocystis sp. subtype 1 est composée de 13 372 gènes dont 96,5% sont classifiés comme core. Or, le génome représentatif de cette espèce disponible sur Genbank (Blastocystis sp. ATCC 50177/Nand II) ne possède que 6 544 gènes. 96% (12 857/13 372) des gènes de la msp_0002 sont alignés sur toute leur longueur sur le génome (pourcentage d’identité ≥ 95%) mais seulement 2,9% (187/6 544) des gènes du génome sont complets dans la MSP. Pour éviter ce problème, on pourrait annoter les contigs obtenus après assemblage métagénomique et utiliser un prédicteur de gènes pour eucaryotes ou procaryotes suivant le domaine auquel ils sont assignés. En outre, ces outils peuvent parfois prédire des gènes chimériques fusionnant plusieurs gènes constitutifs. Les comptages des gènes chimériques seront incohérents s’ils agglomèrent des gènes qui ne sont pas systématiquement cooccurrents.

118

Suppression de la redondance

Pour rappel, la suppression de la redondance consiste à regrouper les gènes ayant un fort degré d’homologie. Les gènes regroupés sont finalement représentés par un seul gène dans le catalogue non redondant. Pour réaliser cette tâche complexe, on s’appuie sur des outils comme CD-HIT [111] qui pour produire des résultats en un temps raisonnable, choisissent systématiquement le gène le plus long comme représentant d’un cluster.

Ainsi, les gènes chimériques fusionnant plusieurs gènes ont une forte de chance de devenir représentant d’un cluster dans le catalogue final. Pour éviter ce problème, on pourrait étudier la longueur des gènes au sein d’un cluster et éliminer ceux ayant une longueur bien supérieure aux autres.

Actuellement, le pourcentage d’identité minimal pour regrouper des gènes dans un cluster est fixé à 95% d’identité nucléotidique. En effet, il est généralement admis qu’un pourcentage d’identité nucléotidique moyen (ANI) de 95% est une limite basse pour assigner deux souches à la même espèce [177]. Cependant, utiliser un seuil unique pour traiter tous les gènes n’est probablement pas la meilleure stratégie. Deux souches d’espèces différentes peuvent avoir un ANI inférieur à 95% mais posséder de nombreux gènes orthologues conservés ayant un pourcentage d’identité nucléotidique supérieur à ce seuil. Par exemple, les souches représentatives de Bacteroides ovatus (ATCC 8483) et

Bacteroides xylanisolvens (CL03T12C04) ont un ANI de 92,5% mais possèdent environ 1500 gènes avec pourcentage d’identité nucléotidique supérieur à 95%. Après suppression de la redondance, ces gènes conservés seront regroupés dans un même cluster et leur signal sera une combinaison linéaire de l’abondance de B. ovatus et B. xylanisolvens. Dans la cohorte du catalogue IGC, B. ovatus et B. xylanisolvens sont observées simultanément dans 58% des échantillons où au moins l’une de ces espèces est présente. Par conséquent, le signal des gènes conservés ne sera pas co-abondant avec les core génomes de ces espèces. Au final, ces gènes ne seront regroupés ni dans la MSP représentative de B. ovatus, ni dans celle représentative de B. xylanisolvens même en incluant les catégories « core partagé » et « accessoire partagé ». Pour règler ce problème, on pourrait utiliser un pourcentage d’identité adaptatif lors de la suppression de la redondance qui prendrait en compte le degré de conservation des orthologues au sein d’espèces proches.

8.2.4 Alignement et quantification des gènes

Lors de la construction d’un catalogue, on conserve en général les gènes de plus de 100 paires de bases ce qui correspond approximativement à la longueur des lectures produites par les séquenceurs modernes. A cause d’effets de bord, les lectures provenant de gènes présents dans le catalogue pourraient ne pas être alignées. En effet, il est possible qu’une lecture s’aligne à l’extrémité d’un gène ou qu’elle en chevauche deux (Figure 75). Ce phénomène est d’autant plus probable que les gènes sont courts. Dans de tels cas, l’alignement bout à bout (end-to-end) échoue ce qui augmente la dispersion des comptages. La mise en œuvre de nouvelles stratégies telles que l’alignement local ou le découpage des lectures en plusieurs fragments de même longueur permettraient de résoudre ce problème.

119

On considère 3 gènes (traits noirs) séparés par des régions intergéniques (traits gris) ainsi que 3 lectures (traits rouges). L’alignement bout à bout des deux lectures de gauche échoue pour car elles s’alignent aux extrémités du gène1. L’alignement de la lecture de droite échoue car elle chevauche les gènes 2 et 3.

Après alignement des lectures sur un catalogue, plusieurs stratégies de quantification des gènes sont envisageables. Le comptage unique considère uniquement les lectures s’alignant sur un seul gène du catalogue. Ainsi, on sous-estime l’abondance des gènes constitués de régions conservées partagées avec plusieurs autres gènes. Le comptage partagé incrémente de 𝑛1 les n gènes sur lesquels s’aligne une lecture. Cette stratégie génère des faux comptages qui compromettent la détection de la proportionnalité malgré l’utilisation d’une mesure robuste. Enfin, le comptage partagé « intelligent » distribue une lecture alignée sur plusieurs gènes proportionnellement aux comptages uniques de ces derniers. On maximise la sensibilité en considérant toutes les lectures alignées sur le catalogue tout en minimisant le nombre de faux positifs. Ainsi, l’estimation de l’abondance des gènes est plus précise ce qui permet d’obtenirdes MSPs de meilleure qualité.

121