• Aucun résultat trouvé

III.3 D EVELOPPEMENT METHODOLOGIQUE

III.3.2 Comparaison des résultats des deux méthodes

La méthode hiérarchique a permis de clusteriser 2,45 millions de gènes en 65536 clusters de 3 à 9866

gènes, dont 871 clusters de plus de 700 gènes. La méthode Canopy a permis de clusteriser 1,53

million de gènes en 7381 clusters de 3 à 6319 gènes, dont 741 clusters de plus de 700 gènes. La

spécificité et la sensibilité des deux méthodes ont été calculées par utilisation de deux méthodes

indépendantes.

III.3.2.1 Validation par assignation taxonomique

Une première étape d’assignation taxonomique a été effectuée en utilisant le logiciel BLASTN et une

banque de référence générée au laboratoire (iMOMi) regroupant l’ensemble des génomes microbiens

actuellement disponibles sur les sites du NCBI, du DACC et de MetaHIT, soit plus de 6000 génomes

essentiellement bactériens. 121 espèces bactériennes avec au moins 500 gènes présents dans le

catalogue ont été utilisées (en sélectionnant la meilleure assignation BLASTN avec 95% d’identité sur

plus de 100 nucléotides) pour évaluer la spécificité et la sensibilité de nos méthodes. La spécificité et

la sensibilité on été calculées suivant ces formules :

Avec : Spe

c

= spécificité du cluster c; Sens

c

= sensibilité du cluster c ; Ng = Nombre de gène assignés à

l’espèce majoritaire g dans le cluster c ; Nc = Nombre de gènes dans le cluster c ; Tg = Nombre total

de gène du génome g dans le catalogue des 3,9 millions de gène.

Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013

63

La spécificité et la sensibilité sont des mesures statistiques permettant d’évaluer le niveau d’erreur

d’une méthode (spécificité) par rapport à son exhaustivité (sensibilité). Plus la méthode est spécifique,

plus le cluster contient d’éléments de même propriété sans fausse assignation. Plus la méthode est

sensible, plus le nombre d’éléments de même propriété est réunit au sein d’un même cluster. Dans ces

formules, plus la spécificité et la sensibilité est proche de 100, plus les clusters générés sont

homogènes en annotation taxonomique et regroupent la totalité de l’assignation taxonomique détectée

au sein du catalogue de gène.

Le niveau de congruence des clusters des deux méthodes est évalué par utilisation de l’indice Jaccard,

suivant cette formule :

Avec Jaccardindex= indice de Jaccard; Canopyg=gènes du cluster de la méthode Canopy ;

Hierarchicalg = gènes du cluster de la méthode Hiérarchique. La congruence est maximale lorsque

l’indice est égal à 1, minimale lorsqu’il est égal à 0.

On obtient ainsi une spécificité et sensibilité de la méthode Canopy de 75,71 et 62,86 respectivement,

et de 72,53 et 58,91 respectivement pour la méthode hiérarchique. De plus le niveau de congruence

des deux méthodes est de 0,68, indiquant que les résultats obtenus sont proches.

Il est important de noter que les gènes non annotés par BLASTN sont considérés comme des gènes

différents de l’assignation majoritaire, ce qui ne reflète pas le vrai taux de spécificité. De plus, la

méthode Canopy n’a pas capturé 7 espèces présentes dans au moins 4 échantillons alors que la

méthode hiérarchique les a toutes clustérisées, ainsi que les espèces rares (moins de 4 échantillons),

avec des niveaux de spécificité et sensibilité proches de la moyenne. Ces résultats bien que très

informatifs ne sont pas suffisants pour interpréter correctement la spécificité et la sensibilité de notre

méthode, à cause de la trop grande quantité de gènes non assignés. Il nous faut donc d’autres

estimateurs indépendants des références connues.

III.3.3.2 Cohérence avec les informations de scaffolds

Une seconde évaluation de la spécificité et de la sensibilité de la méthode a été réalisée par utilisation

des informations de colinéarité des gènes au sein de scaffolds. Un séquençage utilisant une

technologie 454 a été utilisé sur 6 des 396 échantillons de l’étude. Des scaffolds ont été assemblés à

partir de ces 6 échantillons et les 3.9 millions de gènes du catalogue y ont été alignés. 28915 scaffolds

contenant au moins 3 gènes du catalogue ont été détectés. Nous considérons maintenant chaque

scaffold comme une espèce différente, et effectuons le calcul de spécificité et sensibilité suivant les

formules :

Avec Spe

s

= spécificité de l’assignation dominante dans le scaffold s ; Sens

s

= sensibilité de

l’assignation dominante dans le scaffold s; Ns = Nombre de gène dans l’assignation dominante du

Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013

64

scaffold s ; Ts = Nombre total de gènes dans le scaffold s ; NA = Nombre de gènes non regroupés dans

le scaffold s.

Sur les 28915 ayant 3 gènes, 28484 scaffolds possèdent au moins un gène clusterisé dans la méthode

hiérarchique, et 23002 scaffolds possèdent au moins un gène clusterisé dans la méthode Canopy. Nous

observons ensuite que la méthode Canopy a une spécificité de 96,69 et une sensibilité de 84,52. La

méthode hiérarchique a une spécificité de 89,74 et une sensibilité de 78,08.

Ces résultats sont cohérents avec les résultats d’assignation taxonomique obtenue par BLASTN. La

méthode Canopy crée moins d’objets que la méthode hiérarchique mais possède une meilleure

spécificité et sensibilité sur les gènes regroupés. Pour ces raisons, nous avons décidé de conserver les

7381 clusters de la méthode Canopy pour la suite de nos analyses, afin d’obtenir des clusters à plus

forte spécificité au détriment d’une perte d’information.

III.3.3.3 Utilisation de données d’abondance indépendantes

Avoir une bonne estimation de la qualité de nos 7381 clusters est essentiel. Nous pensons que

l’utilisation d’une seconde matrice d’abondance, réalisée sur des individus indépendants n’ayant pas

servi au regroupement est un jeu de données pertinent pour l’évaluation de leur qualité. Il permet de

mettre en avant les clusters ayant un signal interne homogène, traduit par une corrélation interne forte

même dans un jeu de données indépendant.

Dans le projet MetaHIT, les séquences Illumina de 115 échantillons fécaux d’invididus danois ont été

alignés sur le catalogue de 3,9 millions de gène. Une matrice d’abondance normalisée a été calculée

en utilisant les mêmes paramètres que pour celle ayant servi au regroupement. L’histogramme des

corrélations Pearson médianes des gènes des clusters a été calculé sur ce jeu de données indépendant,

dont voici la distribution :

Figure 19: Histogramme de la corrélation médiane Pearson des clusters dans un jeu de données

indépendant.

Les 7381 clusters provenant de la méthode Canopy sont analysés au sein de 115 échantillons non

utilisés pour le regroupement.

Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013

65

Cet histogramme montre que 6557 clusters ont une corrélation Pearson médiane supérieure ou égale à

0,8, soit 88% de nos clusters et presque 2500 clusters possèdent une corrélation Pearson médiane

parfaite de 1. Ensuite, 372 clusters (5%) ne possèdent pas de signal sur le jeu de données indépendant

et ne peuvent être évalués par cette méthode. Les 452 restant (7%) ont un signal d’abondance médian

inferieur à 0.8, et pourraient contenir des gènes provenant d’autres espèces.

Documents relatifs