• Aucun résultat trouvé

Données de comptages d’espèces bactériennes (MGS)

3.2 Analyses multivariées des données de comptages

3.2.1 Données de comptages d’espèces bactériennes (MGS)

Pour la cohorte de la cirrhose du foie, notre matrice de comptages des MGS est de taille : n=

237 et p=1529. Il y a une proportion très élevée de zéros dans cette matrice (88 %). (Tableau 3-2)

Tableau 3-2-Tableau de comptages extrait des données du projet « cirrhose du foie »

Les lignes correspondent à cinq identifiants d’échantillons et les colonnes à quatre identifiants de MGSs différentes.

3.2.1.1 Méthodes non supervisées

Dans cette partie du rapport, nous souhaitons répondre à la question suivante : Parmi les 237 échantillons sains ou atteins de la cirrhose du foie, existe-t-il des échantillons (individus) qui se ressemblent en termes de composition en espèces bactériennes ?

Commençons par l’application des méthodes d’ordination.

3.2.1.1.1 Méthodes d’ordination :

L’analyse en composantes principales :

Pour avoir un premier aperçu de nos données de comptages non gaussiennes, nous avons appliqué une ACP.

Voici les graphes représentant la projection des individus sur le premier plan factoriel :

Figure 3-20- Graphes des individus après l’application d’une ACP

Les résultats de l’ACP pour la cohorte de la cirrhose du foie sont pauvres, c’est-à-dire cette méthode n’est pas pertinente en termes de recherche de structure du microbiote intestinal humain, parce qu’une faible variabilité des individus est mise en évidence. Après la coloration des points selon la variable « status » nous pouvons constater que bien qu’il n’y a pas de séparation marquée entre les deux groupes « healthy » et « liver », les deux nuages de points ne sont pas superposés. Ce résultat est bien prévu, vu la nature des données traitées. En effet, l'ACP prend uniquement en compte les dépendances linéaires entre les variables et ne peut donc pas fournir une projection pertinente pour une distribution non-linéaire de points.

Dans le but de réduire cette asymétrie des distributions de nos données d’abondances d’espèces, nous avons appliqué une transformation logarithmique (y' = log(y+ 1)) avant d’appliquer une ACP. Voici la projection des individus sur le premier plan factoriel :

Figure 3-21- Graphes des individus après une transformation logarithmique

Nous remarquons une petite amélioration au niveau de la dispersion des individus sains et malades. Le pourcentage de variance expliqué sur le premier plan factoriel est passé de 8.1%

à 13.2%. La transformation logarithmique nous a pas permis d’avoir une séparation des deux groupes « sain/ malade ».

Il est intéressant de remarquer qu’il y a deux outliers (H33, HV8) qui étirent la représentation.

En effet, en revenant à la partie analyse descriptive des données cliniques, nous pouvons constater que « H33 » et « HV8 » sont les deux individus les plus riches en espèces bactériennes dans notre cohorte (figure 3-3). Nous avons également remarqué que l’individu

« H33 » possède le taux de créatinine le plus faible dans le groupe des sains (figure 3-4), qui est égale à 30 µmol/l, alors que le taux normal doit se situer entre 50 et 100 µmol/l.

Dans le but d’améliorer le résultat de l’ACP, nous avons pensé : à supprimer de ces deux outliers. Voici alors les graphes d’individus dans le premier plan factoriel :

Figure 3-22- Graphes de l'ACP après suppression des outliers

La séparation des deux groupes apparaît plus clairement sur cette représentation, même si la distinction entre les deux groupes n’est pas parfaite. Le pourcentage de variance expliqué sur le premier plan factoriel est passé de 13.2 % à 21 %.

La séparation des deux groupes d’intérêt : sains/malades sur le deuxième et le troisième plan factoriel est moins franche que celle observée sur le premier plan. Nous avons également constaté une baisse du pourcentage de variance expliqué sur ces deux plans factoriels.

Voici par exemple le graphe de la projection des individus sur le troisième plan factoriel :

Figure 3-23- Projection des individus sur le troisième plan factoriel

Le positionnement multidimensionnel (MDS) :

À partir d’une matrice de dissimilarité, nous avons essayé de former des groupes sur la base d’une classification hiérarchique ascendante afin de voir si ces groupes collent avec le statut (sain/malade). En effet, à l’aide de la fonction « ordination-plot » du package « phyloseq » de R, Nous avons appliqué la méthode MDS en utilisant les deux dissimilarités : Bray-Curtis et Jaccard, et comparé leurs efficacités dans la recherche de ces groupes.

Figure 3-24- Graphes d’individus pour la méthode d’ordination MDS

Les deux graphes d’ordination MDS montrent qu’il n’y a pas de séparation claire et marquée entre les deux groupes sains/malades. Cependant, nous pouvons constater que la dissimilarité de Jaccard (graphe de droite) est légèrement meilleure que celle de Bray-Curtis en termes de séparation. Il est cependant intéressant de noter qu’avec la représentation de Bray-Curtis, la variabilité - en termes de composition microbienne - des individus malades est plus grande que celle des individus sains. La différence entre les deux mesures de dissimilarité utilisées met en évidence que la séparation entre sains et malades est plus forte en termes de

« répertoire d’espèces » qu’en terme de « composition des communautés ».

Dans le but d’améliorer nos résultats trouvés en utilisant les méthodes d’ordination, nous avons appliqué la méthode d’ACP probabiliste de poisson log-normal spécifiquement conçue pour des données de comptages.

3.2.1.1.2 L’ACP probabiliste de poisson log-Normal :

Dans cette partie, nous avons normalisé notre matrice de comptages en utilisant une matrice d’offset (pour prendre en compte la profondeur de séquençage et la taille des gènes, cf.

chapitre 2).

Nous avons appliqué cette méthode en utilisant la fonction « PLNPCA » du package

« PLNmodels » de R.

Figure 3-25- PPCA de poisson log-normal sur les données de comptages des MGS

Les deux graphes ci-dessus montrent que l’application de la méthode d’ACP probabiliste de poisson log-normal sur la cohorte de la cirrhose du foie n’a pas amélioré les résultats trouvés avec les méthodes d’ordination. En effet, il n’y a pas une séparation claire entre les deux groupes d’intérêt (sains/malades). Il est à noter que la densité le long du premier axe montre une petite différence entre les individus sains et les individus malades : les individus malades (points jaunes) sont plus dispersés que les individus sains (points bleus). La variabilité, en termes de composition d’espèces, est donc plus importante chez les malades.

La matrice de comptage est extrêmement creuse car un grand nombre de MGS n’est présent que chez un très faible nombre d’individu. Nous avons réduit le nombre de variables en ne conservant que les MGS les plus abondantes (celles présentes dans au moins de 10% des échantillons). Les nouvelles dimensions de notre jeu de données sont : 237 échantillons et 392 MGS.

PPCA de poisson log normal sur la matrice de comptage contenant les MGS les plus abondantes :

Figure 3-26- PPCA de poisson log-normal sur les données de comptages contenant les MGS les plus abondants

Nous remarquons une petite amélioration au niveau de la dispersion des individus sains et malades.

L’étude de l’influence des covariables « sexe et âge » sur la variabilité des données de comptages des MGS les plus abondantes :

L’ACP probabiliste permettant d’ajouter des covariables afin de de corriger les dépendances induites par ces covariables et de trouver d’autres types de structure, nous avons choisi de prendre en compte le sexe et l’âge des individus qui sont de potentiel facteurs de confusion au vu de leurs distributions différentes entre les sains et les malades.

Figure 3-27- Graphes d’individus après l'ajout des covariables

L’ajout des covariables « Âge et sexe » a permis d’améliorer légèrement la dispersion des données, mais pas de séparer totalement les deux groupes sain/malade.

Le faible effet de ces deux covariables choisies, peut être aussi constaté à partir des deux graphes (violon-plots) représentant la répartition de la variable « statut » selon l’âge et le sexe dans la partie d’analyse descriptive.

La méthode de l’ACP probabiliste du poisson log-normal n’a pas réussit à trouver les structures liées au statut : sain/malade dans la cohorte de la cirrhose du foie. Cependant, il est connu [Qin Nature 2014] que la richesse en MGS est un facteur structurant du microbiote intestinal. Nous avons construit à partir de la matrice de comptages Y, une nouvelle variable continue representant la richesse en espèces bactériennes.

Etude de la richesse :

Les points sont ici colorés selon « la richesse » en MGS. Voici le graphe de l’ACP probabiliste du poisson log-normal :

Figure 3-28- Graphe des individus coloré selon la richesse en espèces bactériennes

Nous remarquons que les individus les plus riches sont à gauche (bleu foncé) et les individus les moins riches sont à droite (jaune). On peut alors dire que cette méthode nous a permis de trouver une séparation entre les deux communautés « riche/ pauvre » en espèces bactériennes dans la cohorte de la cirrhose du foie.

Figure 3-29- Comparaison entre le graphe d’individus coloré selon la variable « status » et celui coloré selon « la richesse »

À travers ce graphe, on peut constater qu’il existe une relation entre la richsse et le statut clinique. Cette relation avait déjà été mise en évidence dans la partie analyse descriptive des données cliniques. En effet, on peut remarqué que les individus sains sont plus riches en especes bacteriennes que les individus atteints de la cirrhose du foie.

Afin de confirmer l’effet richesse dans la structuration de nos données de comptages, nous avons pensé à la prise en compte de la richesse comme covariable dans notre modèle. Ceci est representé dans le graphe ci-dessous :

Figure 3-30- PPCA en prenant en compte la richesse comme covariable

La différence entre les deux communautés « sains/malades » ne se voit plus au niveau global.

En effet, la variabilité de nos données ne colle pas avec le statut. Nous pouvons alors confirmer l’effet de la richesse dans la structuration de nos données de comptages des MGS . 3.2.1.2 Méthode supervisée

Dans le cas non supervisé, nous avons recherché les structures des communautés bactériennes du microbiote intestinal pour voir si elles correspondaient au statut clinique. Dans le cas supervisé, nous avons un échantillon d’apprentissage contenant des variables d’entrée (les comptages des 1529 MGS pour les 237 individus) et la cible (le statut : sain/malade).

Nous avons appliqué la méthode supervisée « analyse linéaire discriminante » à l’aide de la fonction « PLNLDA » du package PLNmodels de R.

Figure 3-31- Positions des échantillons le long du premier axe de l’analyse discriminante et densité de ces positions, obtenue via une analyse PLNLDA de la matrice de comptage de tous

les MGS

Nous constatons une séparation totale entre les deux groupes d’individus « sains et malades ».

Ce résultat est attendu. En effet, avec un nombre de variable assez élevé (1529 >> nombre d’observation), Nous pouvons facilement trouver des combinaisons linéaires d’abondance des espèces pour prédire le statut clinique.

Figure 3-32- Contribution de chacune des MGS au premier axe de la LDA avant suppression des espèces les moins occurrentes.

On peut noter que les nombreuses MGS positionnées en –1 ou +1 sont souvent spécifique d’un unique échantillon.

Pour pouvoir mieux comprendre et interpréter ce résultat dans un contexte biologique, nous avons pensé à appliquer cette même méthode sur la matrice contenant uniquement les MGS les plus occurrentes construite précédemment.

Figure 3-33- Idem Figs. 3-16 et 3-17 mais en se restreignant aux MGS les plus occurrentes

Nous constatons ici une séparation plus faible de deux groupes sains/malades. Ce résultat peut être expliqué par le fait que les espèces rares sont les responsables à la séparation totale de deux communités sains/ malades ou parce qu’elles contribuaient fortement au surapprentissage.

3.2.1.3 Conclusion sur les méthodes non supervisées utilisées :

Les résultats d’application de la méthode d’analyse multivariée probabiliste « pPCA » sur les données de comptages des MGS n’est pas pertinente en termes de recherche des structures qui collent avec le phénotype « sain/malade ». Mais, nous avons réussi à trouver les structures cohérentes avec la variable « richesse » en espèces bactériennes. En effet, nous avons trouvé que les sains sont plus riches en MGS que individus atteints d’une cirrhose du foie.

L’application de la méthode d’ordination « MDS », nous a aussi aidé à conclure que la mesure de dissimilarité de Jaccard est meilleure que la dissimilarité de Bray et que la distance

euclidienne (ACP) dans la séparation entre sains et malades en termes de « répertoire d’espèces ».

Dans la prochaine partie, nous allons appliquer les mêmes méthodes sur des données de comptages des fonctions des gènes. Notre but est de tester la robustesse de ces trois méthodes d’analyses multivariées non supervisées dans un contexte métagénomique fonctionnel : l’exploration des interactions entre les modules fonctionnels.

Documents relatifs