• Aucun résultat trouvé

7. Applications

7.1 Découvertes de biomarqueurs associés à l’origine géographique

7.1.1 MSPs associées à l’origine géographique

Pour démontrer que MSPminer est utile pour la découverte de biomarqueurs, nous avons recherché des MSPs différentiellement abondantes en fonction de l’origine géographique des échantillons.

Méthode

L’abondance de chaque MSP a été estimée à partir de l’abondance relative médiane de ses 30 meilleurs gènes core (voir 4.1.2). Par la suite, les abondances relatives d’une MSP dans chaque population ont été comparées avec un test de Wilcoxon-Mann-Whitney bilatéral. Les p-valeurs obtenues ont été ajustées avec la procédure de Benjamini-Hochberg [121]. De plus, le ratio log2-transformé (FClog2) entre les abondances relatives moyennes de la MSP dans les deux populations comparées a été calculé. Les MSPs avec une p-valeur ajustée inférieure à 10−2 et un ratio log2-transformé supérieur à 1 en valeur absolue ont été étiquetées comme différentiellement abondantes.

Résultats

En s’appuyant sur la cohorte du catalogue IGC, nous avons trouvé 343 MSPs discriminantes entre les échantillons Occidentaux (Européens + Américains) et les échantillons Chinois (Figure 56). Toutes celles appartenant au phylum Proteobacteria (Klebsiella pneumoniae, Klebsiella quasipneumoniae,

Escherichia coli et Bilophila wadsworthia) sont plus abondantes chez les Chinois ce qui est cohérent avec des résultats précédemment publiés [113]. Les MSPs annotées comme Akkermansia muciniphila,

Dorea longicatena et Methanobrevibacter smithii font partie des espèces les plus abondantes chez les Occidentaux. Observation intéressante, trois MSPs assignées à l’espèce Faecalibacterium prausnitzii

sont discriminantes mais deux sont plus abondantes chez les Occidentaux et une chez les Chinois.

Figure 56 : Comparaison de l’abondance relative des 10 MSPs les plus discriminantes entre les échantillons Chinois et Occidentaux (Américains + Européens) du catalogue IGC.

L’abondance relative d’une MSP dans un échantillon correspond à l’abondance médiane de ses 30 meilleurs gènes core. A droite, la q-valeur est la p-valeur du test de Wilcoxon-Mann-Whitney ajustée avec la méthode FDR et l’AUC à l’aire sous la courbe ROC.

94

De plus, 134 MSPs discriminantes entre les échantillons Européens et Américains ont été découvertes dont 119 (89%) sont plus abondantes chez les Européens (Figure 57). Ce résultat est cohérent avec de précédentes études montrer une diversité du microbiote intestinal plus élevée chez les Européens que chez les Américains [123]. 3 MSPs associées du genre Bacteroides (Bacteroides vulgatus, Bacteroides thetaiotaomicron et Bacteroides stercoris) font partie des rares espèces plus abondantes chez les Américains.

Figure 57 : Comparaison de l’abondance relative des 10 MSPs les plus discriminantes entre les échantillons Américains et Européens du catalogue IGC.

L’abondance relative d’une MSP dans un échantillon correspond à l’abondance médiane de ses 30 meilleurs gènes core. A droite, la q-valeur est la p-valeur du test de Wilcoxon-Mann-Whitney ajustée avec la méthode FDR et l’AUC à l’aire sous la courbe ROC.

7.1.2 Gènes accessoires associés à l’origine géographique

Dans un second temps, nous avons effectué une analyse au niveau souche grâce aux MSPs. Pour ce faire, nous avons cherché des gènes accessoires clustérisés dans les MSPs plus fréquents dans des échantillons d’une origine donnée.

Méthode

Soit 𝑃 = {𝑝1, 𝑝2, . . , 𝑝𝑛}, l’ensemble des 𝑛 traits phénotypiques d’un caractère. Ici, le caractère considéré est l’origine géographique et les traits associés sont 𝑃 = {Chinois, Européen, Américain}

Soit 𝐸 = {𝑒1, 𝑒2, . . , 𝑒𝑠}, un ensemble de 𝑠 échantillons métagénomiques et {𝐸1, 𝐸2, . . , 𝐸𝑛}, une partition de 𝐸 composée des sous-ensembles d’échantillons disjoints associés à chaque trait de caractère. Dans notre cas, 𝐸1, 𝐸2 et 𝐸3 correspondent respectivement aux échantillons Chinois, Européens et Américains.

Soit 𝑀 la MSP contenant les gènes accessoires à tester.

Notons 𝑔1= (𝑔1,𝑒1, 𝑔1,𝑒2, … , 𝑔1,𝑒𝑠) le vecteur du nombre de lectures alignées sur le représentant du core génome de la MSP (voir 4.1.2) dans les échantillons métagénomiques E.

Notons 𝑔2= (𝑔2,𝑒1, 𝑔2,𝑒2, … , 𝑔2,𝑒𝑠) le vecteur du nombre de lectures alignées sur un gène accessoire de la MSP les échantillons métagénomiques E.

95 On cherche si la présence du gène accessoire est dépendante des traits de caractère associés aux échantillons où la MSP est détectée. Pour ce faire, on crée une table de contingence de dimensions

2 × 𝑛 suivante : Caractère

Gène accessoire Trait 𝑝1 Trait 𝑝𝑛

Présent

Nombre d’échantillons possédant le trait 𝑝1 où la MSP et gène accessoire

sont simultanément présent

Nombre d’échantillons possédant le trait

𝑝𝑛 où la MSP et gène accessoire sont simultanément présent Absent

Nombre d’échantillons possédant le trait 𝑝1 où la MSP est présente mais

pas le gène accessoire

Nombre d’échantillons possédant le trait

𝑝𝑛 où la MSP est présente mais pas le gène accessoire

Soient 𝑡1 et 𝑡2 les seuils de quantification associés respectivement à 𝑔1 et à 𝑔2 (3.3.4). Ces seuils sont utilisés pour considérer uniquement les échantillons où le gène accessoire et le core MSP sont détectés avec certitude et écarter les zéros d’échantillonnage (Figure 14, page 42). Formellement, la table de contingence devient :

Caractère

Gène accessoire Trait 𝑝1 Trait 𝑝𝑛

Présent |{𝑔 𝑒 ∈ 𝐸1 𝑡𝑒𝑙𝑠 𝑞𝑢𝑒 1,𝑒≥ 𝑡1 ∧ 𝑔2,𝑒 ≥ 𝑡2 }| |{ 𝑒 ∈ 𝐸𝑛 𝑡𝑒𝑙𝑠 𝑞𝑢𝑒 𝑔1,𝑒≥ 𝑡1 ∧ 𝑔2,𝑒 ≥ 𝑡2 }| Absent |{𝑔 𝑒 ∈ 𝐸1 𝑡𝑒𝑙𝑠 𝑞𝑢𝑒 1,𝑒 ≥ 𝑡1 ∧ 𝑔2,𝑒= 0 }| |{ 𝑒 ∈ 𝐸𝑛 𝑡𝑒𝑙𝑠 𝑞𝑢𝑒 𝑔1,𝑒≥ 𝑡1 ∧ 𝑔2,𝑒 = 0}|

Par la suite, un test du chi-deux prenant en entrée la table de contingence est effectué. Finalement, on considère que la présence du gène accessoire est dépendante du caractère considéré lorsque la p-valeur obtenue est inférieure à 10−10. Cette procédure est utilisée pour tester chaque gène accessoire de chaque MSP.

Résultats

Nous avons découvert 54 MSPs possédant au moins 200 gènes accessoires associés à l’origine géographique des échantillons (Tableau 14). Parmi ces MSP, 24 ne sont pas annotées au niveau espèce montrant qu’une analyse au niveau souche est possible y compris pour les espèces non séquencées à ce jour.

msp Annotation taxonomique Nombre de gènes accessoires associés à l’origine géographique des échantillons

msp_0027 Eubacterium eligens 1313

msp_0187 Coprobacillus non classifiée 1215

msp_0014 Roseburia faecis 1153 msp_0149 Ruminococcus torques 1152 msp_0070 Eubacterium rectale 1148 msp_0058 non annotée 788 msp_0078 non annotée 712 msp_0011 Parabacteroides distasonis 689 msp_0143 Ruminococcus sp. SR1/5 619

96

Tableau 14 : Liste des 10 MSPs possédant le plus de gènes accessoires associés à l’origine géographique des échantillons.

A titre d’exemple, la Figure 58 illustre les gènes accessoires de la msp_0027 dont la présence est dépendante de l’origine géographique des échantillons. On remarque que les souches des individus Chinois ont un contenu en gènes différent de celles des individus Occidentaux. Ceci révèle l’existence de deux sous-espèces d’Eubacterium eligens associées à l’origine géographique.

Figure 58 : Heatmap représentative de l’abondance relative des gène core et des gènes accessoires associés à l’origine géographique de la msp_0027 (Eubacterium eligens)

Chaque colonne représente un échantillon. Les échantillons bleus, rouges et verts correspondent respectivement aux Européens, aux Chinois et aux Américains. Chaque ligne représente un gène. Les gènes rouges, kakis, cyans et violets correspondent respectivement aux gènes core, accessoires, core partagés et accessoires partagés. Chaque case de la heatmap indique l’abondance relative d’un gène dans un échantillon donné suivant un gradient de couleur (blanc=absence, bleu=abondance faible, rouge=abondance élevée)