• Aucun résultat trouvé

4.4 État de l’art des méthodes d’analyse de données issues du microbiote

4.4.3 Analyse de corrélation

4.4.4.2 OTU différentiellement abondants

Les tests globaux, présentés à la sous section4.4.4.1, permettent de tester si la structure phylogénétique du microbiote est différente selon des groupes d’individus. La deuxième étape consiste à répondre à la question suivante : Quels sont les OTU différentiellement abondants entre des groupes d’individus ? De nombreux tests ont été proposés et des revues ont été publiées [Thorsen et al., 2016;Weiss et al.,2017; Xia and Sun,2017]. Elles rassemblent l’ensemble des tests de différences d’abondance univariés pour données de microbiote.

Les tests les plus simples sont le t-test de comparaison de moyennes (test de Welch) ou sa généralisation à plus de 2 groupes, l’ANOVA, sous condition de normalité des données et le test des rangs de Wilcoxon. Lefse [Segata et al., 2011] et STAMP [Parks et al., 2014] constituent des démarches d’analyse d’OTU différentiellement abondants à base de tests de Wilcoxon. Ces tests peuvent être utilisés sur les données d’abondance relative ou sur les données log-transformées. Metastats [White et al., 2009] estime la distribution nulle de manière non-paramétrique utilisant une méthode de permutation à partir de t-test.

Une autre approche consiste à considérer la distribution a priori des données d’abon-dance brute. Le plus souvent, pour modéliser des données de comptage, on utilise la distribution de Poisson. En effet, la loi de Poisson décrit le comportement du nombre d’évènements se produisant dans un volume fixé. Elle est paramétrée par λ qui est à la fois le paramètre de moyenne et de variance. Cependant, pour les données de séquençage, il est incohérent de supposer que la moyenne est égale à la variance dû à la sur-dispersion des données. La distribution Binomiale Négative (NB) est une alternative à la distribution de Poisson. La loi NB décrit le comportement du nombre d’échecs avant l’obtention de k succès de probabilité p dans une série d’épreuves de Bernoulli indépendantes et identique-ment distribuées. Dans le cas de données de comptage, Zij (suivant une NB) se modélise par un modèle linéaire généralisé avec une fonction de lien logarithmique :

Zij ∼ N B(moyenne = µij, dispersion = αj) i = 1, · · · , n j = 1, · · · , q µij = siγij

log γij = X>i β

où si est le facteur de taille spécifique de l’individu i représentant le nombre de séquences. Il peut être estimé par une méthode de normalisation telle que median-of-ratios décrit dans Anders et al. [2012]. γij est la vraie proportion de l’OTU j chez l’individu i. La dispersion est fonction de µij telle que αj = µij+µ

2 ij

l où l est un paramètre de dispersion. Le modèle NB généralisé [Bolker et al., 2009] a longtemps été utilisé en écologie pour 75

ANALYSE DE DONNÉES DE MICROBIOTE

modéliser l’abondance des espèces.

DESeq2 [Love et al., 2014] permet d’estimer si comme la médiane des ratios des données observées. En d’autres termes, les données brutes sont divisées par la moyenne géométrique de l’échantillon tel que :

ˆ sj = median i Zij  Qq j=1Zij 1/q i = 1, · · · , n

edegR [Robinson et al., 2010] et baySeq [Hardcastle and Kelly, 2013] se basent sur le même modèle et proposent une procédure bayésienne pour l’estimation des paramètres.

Comme nous l’avons dit précédemment, les données de microbiote comportent un nombre excessif de 0. Pour cela, des modèles Zero inflated (ZI), peuvent être employés. Le modèle ZI est défini comme un mélange d’un point de masse à 0, I{0}(Z) et une distribution dont la densité est notée f (θ) où θ est le vecteur de paramètres de la densité. La fonction de probabilité s’écrit :

fZI(Zij; si, β, θj) = πi(si).I{0}(Zij) + (1 − πi(si)) .f (Zij; θj)

où πi est le paramètre de mélange du modèle. Le nombre de zéros dépendant du nombre total de séquences, le paramètre πi(si) est paramétré à partir d’une régression logistique :

log πi

1 − πi = β0+ β1. log(si)

Lors de l’analyse du microbiote, différents modèles ZI ont été introduits : les modèles Poisson (ZIP) et NB (ZINB) ont été comparés par Xue et al. [2016] alors que

metage-nomeSeq [Paulson et al., 2013] s’appuie sur un modèle gaussien (ZIG). L’ensemble des paramètres sont estimés par maximum de vraissemblance à l’aide d’un algorithme EM.

Le test ALDEx2 (ANOVA-like differential expression) [Fernandes et al., 2013] a été développé spécifiquement pour le caractère compositionnel des données de microbiote. La première étape de la méthode consiste à convertir la table d’abondances brutes en une distribution de probabilités a posteriori. Cette conversion passe par un échantillonnage de Monte Carlo à partir de la distribution de Dirichlet pour chaque individu. La loi de Dirichlet étant une loi conjuguée, si on suppose que le modèle d’échantillonnage des in-dividus suit une loi de Dirichlet, il en sera de même pour la distribution a posteriori. Un prior non informatif de 1/2 est utilisé pour modéliser la fréquence des abondances nulles (a priori on a autant de chances d’observer la caractéristique que de ne pas l’ob-server). Chaque abondance d’OTU est alors représentée par un vecteur de probabilités a 76

ANALYSE DE DONNÉES DE MICROBIOTE

posteriori de taille M où M est le nombre d’instances de Dirichlet Monte Carlo échan-tillonnées. A la seconde étape, chaque instance de Dirichlet Monte Carlo est transformée par la transformation CLR. À l’étape suivante, des tests de comparaisons sont effectués sur chaque instance du vecteur entre les deux groupes. Chacune des M réalisations entre les conditions sont soumises à la fois à un t-test et à un test de Wilcoxon donnant deux vecteurs de p-valeurs. Chacune des M instances de p-valeur est corrigée pour des tests d’hypothèses multiples en utilisant l’approche du taux de fausse découverte (FDR) de Benjamini et Hochberg. La distribution a posteriori des p-valeurs obtenues et la distri-bution a posteriori des statistiques FDR peuvent être alors calculées pour les deux tests statistiques.

ANCOM (Analyse of composition of microbiome) [Mandal et al.,2015] teste l’hypo-thèse H0jk : EA  log Z˜j ˜ Zk  = EB  log Z˜j ˜ Zk 

pour j > k La statistique de test utilisée est celle de l’ANOVA (si les hypothèses sont vérifiées) ou l’alternative non paramétrique (Wilcoxon lorsqu’on compare 2 groupes et Kruskal-Wallis lorsqu’on compare plus de 2 groupes) permet de calculer la p-valeur correspondante. Des corrections de la multiplicité de tests est également appliquée.

L’ensemble de ces tests présentés ci-dessus, ainsi que leurs implémentations sont ré-pertoriés dans le Tableau 4.5.

ANALYSE DE DONNÉES DE MICROBIOTE

Article Description Normalisation Package

R/imple-mentation

Fonction R

t-test : Test paramétrique de comparaison de moyennes avec possibilité d’inégalité des variances.

Relative stats t.test()

Log t-test : Test paramétrique de comparaison de

moyenne avec possibilité d’inégalité des variances sur données log-transformées.

Relative stats t.test()

Segata et al.[2011]

Lefse : Test non-paramétrique de comparaison de

dis-tribution. Relative http:// huttenhower. sph.harvard. edu/galaxy Parks et al.[2014]

STAMP : Test non-paramétrique de comparaison de

distribution. Relative http://kiwi. cs.dal.ca/ Software/ STAMP White et al.[2009]

Metastats : Ne faisant pas d’hypothèse de

distribu-tion, ils utilisent un test de permutation pour test l’égalité des moyennes.

Relative http:

//metastats. cbcb.umd.edu/

Bolker et al.[2009]

Negative binomial generalized linear model (GLM) : Méthode longtemps utilisée en écologie dans

la modélisation des données d’abondance en ajou-tant un paramètre pour prendre en compte la sur-dispersion.

- MASS glm.nb()

Love et al.[2014]

DESeq2 : Estimation bayésienne basée sur un modèle

NB.

- DESeq2* DESeq2()

Robinson and Osh-lack[2010]

edgeR : Même modèle que DESeq2. La différence est

dans l’estimation de la variance qui l’estime moins grande.

TMM edgeR* exactTest()

Hardcastle and

Kelly[2013]

baySeq : Estimation bayésienne basée sur un modèle

Beta-binomial.

- baySeq* baySeq()

Paulson et al.

[2013]

metagenomeSeq ZIG : Estimation par maximum

de vraisemblance à l’aide d’un algortithme EM basé sur un modèle Zero Inflated Gamma (ZIG).

CSS metagenomeSeq* fitZig()

Fernandes et al.

[2014]

ALDEx2 : Basé sur une méthode de Monte Carlo

échantillonnant une distribution de Dirichlet et moyennant q valeurs sur tous les échantillons. Un test de comparaison de moyenne est ensuite utilisé pour tester la significativité des OTU.

- ALDEx2* aldex()

Mandal et al.

[2015]

ANCOM : Ne fait aucune hypothèse de distribution. - -

-Tableau 4.5 – Revue des tests univariés de différences d’abondance dans l’analyse de données de microbiote

ANALYSE DE DONNÉES DE MICROBIOTE

Documents relatifs