III.3 D EVELOPPEMENT METHODOLOGIQUE
III.3.2 Comparaison des résultats des deux méthodes
La méthode hiérarchique a permis de clusteriser 2,45 millions de gènes en 65536 clusters de 3 à 9866
gènes, dont 871 clusters de plus de 700 gènes. La méthode Canopy a permis de clusteriser 1,53
million de gènes en 7381 clusters de 3 à 6319 gènes, dont 741 clusters de plus de 700 gènes. La
spécificité et la sensibilité des deux méthodes ont été calculées par utilisation de deux méthodes
indépendantes.
III.3.2.1 Validation par assignation taxonomique
Une première étape d’assignation taxonomique a été effectuée en utilisant le logiciel BLASTN et une
banque de référence générée au laboratoire (iMOMi) regroupant l’ensemble des génomes microbiens
actuellement disponibles sur les sites du NCBI, du DACC et de MetaHIT, soit plus de 6000 génomes
essentiellement bactériens. 121 espèces bactériennes avec au moins 500 gènes présents dans le
catalogue ont été utilisées (en sélectionnant la meilleure assignation BLASTN avec 95% d’identité sur
plus de 100 nucléotides) pour évaluer la spécificité et la sensibilité de nos méthodes. La spécificité et
la sensibilité on été calculées suivant ces formules :
Avec : Spe
c= spécificité du cluster c; Sens
c= sensibilité du cluster c ; Ng = Nombre de gène assignés à
l’espèce majoritaire g dans le cluster c ; Nc = Nombre de gènes dans le cluster c ; Tg = Nombre total
de gène du génome g dans le catalogue des 3,9 millions de gène.
Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013
63
La spécificité et la sensibilité sont des mesures statistiques permettant d’évaluer le niveau d’erreur
d’une méthode (spécificité) par rapport à son exhaustivité (sensibilité). Plus la méthode est spécifique,
plus le cluster contient d’éléments de même propriété sans fausse assignation. Plus la méthode est
sensible, plus le nombre d’éléments de même propriété est réunit au sein d’un même cluster. Dans ces
formules, plus la spécificité et la sensibilité est proche de 100, plus les clusters générés sont
homogènes en annotation taxonomique et regroupent la totalité de l’assignation taxonomique détectée
au sein du catalogue de gène.
Le niveau de congruence des clusters des deux méthodes est évalué par utilisation de l’indice Jaccard,
suivant cette formule :
Avec Jaccardindex= indice de Jaccard; Canopyg=gènes du cluster de la méthode Canopy ;
Hierarchicalg = gènes du cluster de la méthode Hiérarchique. La congruence est maximale lorsque
l’indice est égal à 1, minimale lorsqu’il est égal à 0.
On obtient ainsi une spécificité et sensibilité de la méthode Canopy de 75,71 et 62,86 respectivement,
et de 72,53 et 58,91 respectivement pour la méthode hiérarchique. De plus le niveau de congruence
des deux méthodes est de 0,68, indiquant que les résultats obtenus sont proches.
Il est important de noter que les gènes non annotés par BLASTN sont considérés comme des gènes
différents de l’assignation majoritaire, ce qui ne reflète pas le vrai taux de spécificité. De plus, la
méthode Canopy n’a pas capturé 7 espèces présentes dans au moins 4 échantillons alors que la
méthode hiérarchique les a toutes clustérisées, ainsi que les espèces rares (moins de 4 échantillons),
avec des niveaux de spécificité et sensibilité proches de la moyenne. Ces résultats bien que très
informatifs ne sont pas suffisants pour interpréter correctement la spécificité et la sensibilité de notre
méthode, à cause de la trop grande quantité de gènes non assignés. Il nous faut donc d’autres
estimateurs indépendants des références connues.
III.3.3.2 Cohérence avec les informations de scaffolds
Une seconde évaluation de la spécificité et de la sensibilité de la méthode a été réalisée par utilisation
des informations de colinéarité des gènes au sein de scaffolds. Un séquençage utilisant une
technologie 454 a été utilisé sur 6 des 396 échantillons de l’étude. Des scaffolds ont été assemblés à
partir de ces 6 échantillons et les 3.9 millions de gènes du catalogue y ont été alignés. 28915 scaffolds
contenant au moins 3 gènes du catalogue ont été détectés. Nous considérons maintenant chaque
scaffold comme une espèce différente, et effectuons le calcul de spécificité et sensibilité suivant les
formules :
Avec Spe
s= spécificité de l’assignation dominante dans le scaffold s ; Sens
s= sensibilité de
l’assignation dominante dans le scaffold s; Ns = Nombre de gène dans l’assignation dominante du
Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013
64
scaffold s ; Ts = Nombre total de gènes dans le scaffold s ; NA = Nombre de gènes non regroupés dans
le scaffold s.
Sur les 28915 ayant 3 gènes, 28484 scaffolds possèdent au moins un gène clusterisé dans la méthode
hiérarchique, et 23002 scaffolds possèdent au moins un gène clusterisé dans la méthode Canopy. Nous
observons ensuite que la méthode Canopy a une spécificité de 96,69 et une sensibilité de 84,52. La
méthode hiérarchique a une spécificité de 89,74 et une sensibilité de 78,08.
Ces résultats sont cohérents avec les résultats d’assignation taxonomique obtenue par BLASTN. La
méthode Canopy crée moins d’objets que la méthode hiérarchique mais possède une meilleure
spécificité et sensibilité sur les gènes regroupés. Pour ces raisons, nous avons décidé de conserver les
7381 clusters de la méthode Canopy pour la suite de nos analyses, afin d’obtenir des clusters à plus
forte spécificité au détriment d’une perte d’information.
III.3.3.3 Utilisation de données d’abondance indépendantes
Avoir une bonne estimation de la qualité de nos 7381 clusters est essentiel. Nous pensons que
l’utilisation d’une seconde matrice d’abondance, réalisée sur des individus indépendants n’ayant pas
servi au regroupement est un jeu de données pertinent pour l’évaluation de leur qualité. Il permet de
mettre en avant les clusters ayant un signal interne homogène, traduit par une corrélation interne forte
même dans un jeu de données indépendant.
Dans le projet MetaHIT, les séquences Illumina de 115 échantillons fécaux d’invididus danois ont été
alignés sur le catalogue de 3,9 millions de gène. Une matrice d’abondance normalisée a été calculée
en utilisant les mêmes paramètres que pour celle ayant servi au regroupement. L’histogramme des
corrélations Pearson médianes des gènes des clusters a été calculé sur ce jeu de données indépendant,
dont voici la distribution :
Figure 19: Histogramme de la corrélation médiane Pearson des clusters dans un jeu de données
indépendant.
Les 7381 clusters provenant de la méthode Canopy sont analysés au sein de 115 échantillons non
utilisés pour le regroupement.
Thèse Mathieu Almeida - Caractérisation de flores microbiennes… 2013
65
Cet histogramme montre que 6557 clusters ont une corrélation Pearson médiane supérieure ou égale à
0,8, soit 88% de nos clusters et presque 2500 clusters possèdent une corrélation Pearson médiane
parfaite de 1. Ensuite, 372 clusters (5%) ne possèdent pas de signal sur le jeu de données indépendant
et ne peuvent être évalués par cette méthode. Les 452 restant (7%) ont un signal d’abondance médian
inferieur à 0.8, et pourraient contenir des gènes provenant d’autres espèces.
Dans le document
Caractérisation de flores microbiennes intestinale humaine et fromagère par méthode de métagénomique quantative
(Page 60-63)