• Aucun résultat trouvé

Classification supervisée appliquée à la métagénomique virale

4.2 Workflow général

4.3.3 Résultats et discussion

Les résultats de la classification par règne sont présentés Figure4.10: [Résultats de la classification par règne]. Il est possible d’effectuer plusieurs observations à partir de ces matrices :

— Augmenter la taille des k-mers améliore leur spécificité et donc, intuitivement, devrait améliorer les résultats. Or, l’inverse se produit : plus k est grand, plus la classification est mauvaise. Cet effet pourraît être dû au fait que plus k est grand, moins chaque k-mer est représenté dans les données et, par conséquent, plus les vecteurs de fréquences sont creux et donc difficilement comparables. — Sans filtration des données d’apprentissage, on observe en effet de nombreux

contigs viraux classifiés dans les classes du vivant et encore davantage de contigs vivants classifiés chez les virus. L’ambiguïté est donc vérifiée dans les données. Filtrer les données d’apprentissage permet en effet de décontaminer efficace-ment les résultats viraux, mais les appauvrit égaleefficace-ment. Cet appauvrisseefficace-ment augmente de manière drastique à mesure que k augmente.

Dans le contexte de cette thèse, les travaux présentés ici sont des travaux préli-minaires. De nombreuses améliorations sont envisageables, mais ils ont permis de confirmer la possibilité de récupérer des informations taxonomiques à partir de la classification de vecteurs de fréquences de k-mers dans le cadre d’une classification par règne de données métagénomiques en virologie, domaine largement absent de la littérature.

Parmi les améliorations envisageables, nous pouvons citer :

— La méthode de rééchantillonnage utilisée ici extrait des fragments des génomes de référence avec une probabilité de 0.5 d’obtenir le complément inverse (cor-respondant au brin opposé dans le cas d’un chromosome double-brin). Or, certains virions sont encapsidés sous forme simple brin (cf. Fig.1.14: [Classi-fication de Baltimore]), et par conséquent, des contigs issus de techniques de séquençage sans amplification préalable (copie des fragments séquencés pour amplifier le signal) peuvent ne pas présenter de complément inverse. Il est tout à fait envisageable que conserver cette méthode de rééchantillonnage dans ce

FI G U R E4.10 – Résultats de la classification par règne, pour des tailles de k-mers allant de 3 à 6 (une taille par ligne). Dans la colonne de gauche, nous avons les résultats d’un classifieur entraîné sur l’ensemble des contigs (10000 par classe). Dans la colonne de droite sont les résultats obtenus après filtrage des mêmes données d’apprentissage (cf.4.3.1.2: [Filtration des données virales]). Les résultats sont présentés sous forme de matrices de confusion avec la valeur du kappa de Cohen indiquée au dessus.

cas puisse contribuer à une perte de signal. Corriger cela implique de conser-ver deux informations : le type de séquençage utilisé et la classe de Baltimore du virus à rééchantilloner, et désactiver l’extraction du complément inverse au besoin.

— Il s’agit ici de séparer les contigs viraux des contigs issus de matériel génétique non-viral ne représentant pas d’intérêt et pour lequel la filtration mécanique n’aurait pas été efficace. C’est une étape de décontamination qui peut être réduite à un problème de classification binaire, mais il n’est pas exclu que la classification multiclasse ne présente pas des avantages en termes de perfor-mances, surtout lorsqu’il s’agit de données aussi diverses. En revanche, il serait intéressant d’effectuer une comparaison avec les résultats obtenus avec une machine à vecteur de support équivalente, mais en regroupant l’ensemble des données non-virales en une seule et même classe.

— Les données d’apprentissage utilisées ici ne représentent pas l’ensemble des données publiques disponibles. Les utiliser dans leur totalité pose de nom-breux problèmes. Parmi eux, on peut citer deux problèmes majeurs : le pre-mier est lié à l’espace disque disponible lors de la création du classifieur. L’en-semble des génomes disponibles représente un volume de données considé-rable qui demande non seulement de mobiliser un espace de stockage im-portant à chaque apprentissage (création du classifieur ou mise à jour afin de prendre en compte les avancées dans le domaine du séquençage), mais aussi d’importantes ressources de calcul en terme de temps (l’apprentissage n’est pas toujours parallélisable contrairement à la classification) et de mé-moire disponible. Le second problème est lié aux biais d’études entraînant la sur-représentation de certains taxons, et même certains règnes (cf. Fig. 3.1: [Données RefSeq par domaine]), par rapport à d’autres. Utiliser l’ensemble des données disponibles implique d’évaluer au préalable l’impact de ces biais et de construire une méthode permettant d’en atténuer les effets. Sachant que les données sont extrêmement bruitées et contiennent de nombreuses erreurs humaines, il s’agit d’un problème complexe pouvant faire à lui seul l’objet d’un important projet de recherche.

Il s’agit néanmoins de résultats encourageants dans un contexte où les difficultés inhérentes à la problématique sont nombreuses et difficiles à contourner. Ils nous ont également permis d’acquérir une expérience utile pour aborder la problématique de la classification détaillée et ont permis de mettre au jour un certain nombre de pistes à explorer afin d’améliorer ce type de méthode.

L’étape offrant le plus de perspectives d’amélioration est le rééchantillonage. En

classi-fieur par composition est très dépendante des données d’apprentissage. Deux pistes majeures se dessinent à ce sujet :

— L’information contenue par une séquence dépend directement de sa taille. Par conséquent, les profils de fréquences de k-mers vont être très différents selon la taille des fragments appris, ou des contigs manipulés. Sachant la grande varia-bilité de la taille des contigs expérimentaux, il serait intéressant de les séparer par taille et de les traiter différemment, en créant un classifieur spécifique par fourchette de longueur. Cela permettrait certainement d’améliorer la gestion des contigs très longs ( 4000nt) qui restent minoritaires et sont mal représentés dans les données d’apprentissage.

— Les différents taxons ne contiennent pas le même nombre de génomes séquen-cés et les génomes eux-mêmes présentent une grande variabilité en terme de longueur et de nombre de séquences. Cela implique un important biais de re-présentativité lorsque tous les taxons sont traités de la même manière à tous les niveaux, du rééchantillonage à l’apprentissage. Il serait intéressant d’explo-rer la possibilité de pondéd’explo-rer les données en fonction de leur nature et de leur nombre, afin de contourner ce biais.

L’étape de classification offre également des améliorations possibles. Les

machi-nes à vecteur de support restent des algorithmes très sensibles. Nous les avons choi-sis pour leur potentiel, mais il serait intéressant d’explorer des options plus stables, comme l’algorithme des k plus proches voisins. De plus, nous avons utilisé la dis-tance euclidienne comme mesure de disdis-tance, mais d’autres mesures peuvent être explorées, comme le coefficient de Pearson ou des mesures basées sur l’entropie de Shannon.