• Aucun résultat trouvé

CHAPITRE 2: La Métabonomique: une méthode d’analyse statistique des spectres pour

2. Logiciels et technique analytique utilisés

2.4 Développement d’outil statistique pour la combinaison des données de différentes

La recherche de variables discriminantes permettant d’attribuer un individu à un même groupe expérimental ou clinique est la problématique actuelle des méthodes d’investigation globale des sciences biologiques. Une nouvelle stratégie de découverte de corrélation entre ces différentes sciences que sont la Génomique, la Protéomique et la Métabolomique implique de comparer ces données non pas par domaine mais certainement de manière holistique. Une telle démarche nécessite la transformation de la matrice des variables brutes en une matrice de variables centrées réduites (voir § 1.2.1). Il en est de même lorsque l’on souhaite combiner les informations provenant de spectres RMN de nature différente obtenus à partir d’un même individu. Ce peut être, par exemple, le traitement statistique combiné de spectres de RMN 1H obtenus à partir de la fraction aqueuse et de la fraction organique de l’extrait, ou bien encore la combinaison de spectres RMN 1H et 31P du même individu. Nous

CP1 CP2

présentons ici les résultats et les écueils rencontrés au cours du développement de cette approche innovante de combinaison de données issues de plusieurs analyses réalisées par RMN pour un même individu.

2.4.1 Normalisation et criblage des variables.

Afin de contraindre les variables qui proviennent de mesures d’origine différente à faire partie du même espace, ces variables doivent être centrées et réduites et non pas seulement normalisées par rapport à la somme des «buckets» comme c’est souvent le cas lorsque nous travaillons avec des données d’une seule origine135-137. Cette normalisation a pour effet de donner le même potentiel informationnel à chaque variable, en l’occurrence à chaque «bucket». Cependant, un des effets pervers de la normalisation des données spectroscopiques est de ramener les variables provenant de signaux fortement influencés par le bruit au même niveau que les variables pertinentes du signal138. Ainsi, des valeurs proches de 0 dans la matrice non normée prennent autant de poids que toutes les autres variables lors de la réalisation d’une ACP normée. Ceci aboutit en définitive à une perte du pouvoir discriminant des variables par bruitage de l’information pertinente. Il faut donc éliminer, avant la normalisation, les variables qui sont soit fortement influencées par le bruit soit non porteuses d’une information pertinente. Deux méthodes ont été utilisées: l’écrêtage ou l’analyse supervisée de la variance des variables.

L’écrêtage des variables, c'est-à-dire l’élimination des «buckets» dont l’intensité est inférieure à un seuil défini, permet de supprimer les variables fortement influencées par le bruit. En utilisant l’écrêtage, nous avons obtenu des résultats en ACP normée proches voire identiques à ceux obtenus avec l’ACP non normée. Bien que donnant les résultats attendus, cette méthode présente l’inconvénient majeur d’obliger l’utilisateur à effectuer des opérations supplémentaires afin de déterminer le seuil d’écrêtage. De plus, l’écrêtage étant réalisé avec un seuil défini par l’utilisateur, cette méthode est arbitraire.

La deuxième méthode de filtrage des données que nous avons utilisé consiste à réaliser une analyse supervisée de la variance (ANOVA). Le recours à l’ANOVA nécessite une supervisation des individus, c'est-à-dire l’affectation préalable des individus à un groupe expérimental. Cette affectation ne pose pas de problème dès lors que les groupes sont définis expérimentalement, ce qui est le plus souvent le cas. La classification des individus en groupe

peut aussi réalisée de manière strictement analytique par la méthode de k-means139 dès lors que l’on fixe le nombre de groupes expérimentaux. Dans tous les cas, la méthode de classification par la méthode des k-means a été utilisée pour la supervisation des groupes avant l’ANOVA.

Ainsi, nous pouvons choisir de déterminer l’appartenance d’un échantillon à un groupe d’individus de manière manuelle (supervisée) ou automatique (par la méthode k-means).

2.4.2 Combinaison de variables de différentes origines.

La combinaison de variables de différentes origines a deux objectifs; le premier est d’aboutir à la plus grande discrimination possible entre les groupes, le second est la possibilité de repérer d’éventuelles corrélations existant entre ces variables différentes140-141.

Nous avons réalisé une étude métabolomique sur trois variétés de courges (Potimarron et Bleu de Hongrie de l’espèce Cucurbita maxima et Butternut de l’espèce Cucurbita moshata). L’échantillonnage des spectres RMN HR-MAS 1

H et 31P fournit donc des variables de nature, d’intensité différente.

Pour chaque variété, nous avons réalisé 3 mesures par RMN HR-MAS 1H et 31P. Les ACP de chaque origine, c'est-à-dire l’ACP réalisée sur les variables obtenues à partir des spectres RMN HR-MAS 1H et l’ACP réalisée sur les variables obtenues à partir des spectres RMN HR-MAS 31P, sont présentées dans la figure 2.6.

Figure 2.6: Représentation des individus suivant les composantes principales CP1 et CP2

après l’ACP issue de l’analyse des spectres RMN HR-MAS (a) 1H et (b) 31P de trois variétés de courges. Les spectres caractéristiques de ces variétés sont présentés à droite.

La distribution des individus suivant les deux premières composantes principales des deux ACP permet une bonne discrimination des 3 groupes de courges à la fois pour les données 1H et pour les données 31P.

Après un filtrage de l’ensemble des données spectroscopiques par ANOVA, l’ACP normée est réalisée sur les variables combinées. Comme la figure 2.7 permet de le constater, la discrimination des individus est plus grande lorsque l’ACP est réalisée sur la combinaison des variables. L’analyse fine de la distribution des variables suivant les composantes principales permet de mettre en évidence des corrélations d’ordre métabolique entre ces variables. En particulier, le niveau en glucides (composants majoritairement observés sur les spectres 1H) est corrélé au niveau en sucre phosphate (PME) dans la zone allant de 4 à 6 ppm (sur les spectres 31P).

1 2 3 4 6 5 7 8 9 ppm 4,0 3,0 2,0 1,0 Potimarron Bleu de Hongrie Butternut 7 8 9 1 2 3 4 6 5 Bleu de Hongrie 5,0 0,0 -5,0 -10,0 ppm Potimarron Butternut a b PME CP2 CP2 CP1 CP1

Figure 2.7: Représentation des individus suivant les composantes principales CP1 et CP2

après l’ACP issue de l’analyse des spectres RMN HR-MAS 1H et 31P regroupés de trois variétés de courges. Bleu de Hongrie Potimarron Butternut CP1 CP2

3. Application à la recherche de marqueurs métaboliques caractéristiques de la

Documents relatifs