• Aucun résultat trouvé

On rappelle que l’analyse statistique des données spectrales est toujours précédée par l’étape de « binning » de la région spectrale d’intérêt de chaque spectre CPMG en régions de 0,01 ppm de largeur (la valeur est ajustée afin de minimiser les effets de déplacement des pics dus aux variations de pH) ou de « binning adaptatif ». L’intégrale du pic au sein de chaque région est numérisée et normalisée par rapport à l’intégrale de toute la région spectrale considérée. Cette étape génère une matrice de données X qui seront prétraitées afin de donner un poids statistique équivalent aux métabolites présents en quantité variable.

Si la technique de binning en régions de 0,01 est simple à mettre en place et suffisamment robuste, établir des liaisons entre les résultats de l’analyse multivariée et des métabolites spécifiques peut se révéler peu aisé et chronophage. Quantifier les métabolites d’interêt afin d’utiliser ces valeurs dans des procédures statistiques univariées représente une façon plus intuitive et complémentaire des analyses multivariées realisées en première intention. Cette modalité permettrait de mettre en évidence les métabolites significativement différents entre les groupes examinés et donc vraisemblablement à la base de la classification phénotypique des échantillons analysés.

Dans ce travail, les deux approches statistiques ont été utilisées avec des objectifs complémentaires. Les spectres entiers ont été soumis aux méthodes multivariées sans a priori (analyse par composante principale ou principal component analysis, PCA) et, successivement, avec a priori (analyse discriminante partielle des moindres carrés ou partial least-squares discriminant analysis, PLS-DA). L’association PCA et PLS-DA a été souvent utilisée dans nos études, toujours à l’aide du logiciel SIMCA P (Umetrics AB, Umea, Suède). Nous avons également quantifié un certain nombre de métabolites caracterisés par des signaux suffisamment isolés (sans recouvrement majeur). Les valeurs quantitatives ont été ainsi utilisés dans des procedures statistiques univariées non paramétriques, tel que le test de Mann-Whitney U en utilisant le logiciel STATISTICA version 7 (STATSOFT; www.statsoft.com).

Analyse par composante principale (PCA)

La PCA est une méthode d'analyse statistique descriptive non supervisée et présentée pour la première fois en 1933 par Hotelling. La PCA est une méthode statistique pour l’exploration de données multi‐variables, notamment dans le domaine de la transcriptomique ou, plus généralement, du traitement du signal. La PCA est la méthode de base qui sert de fondement théorique aux autres méthodes de statistique factorielle. L’objectif de cette méthode est de réduire la dimension de l’espace des données en déformant le moins possible la réalité. Elle permet de mettre en évidence les corrélations existantes entre N variables aléatoires parmi une population de K individus en recherchant les directions (composantes principales) de l'espace qui contiennent la plus grande quantité d’informations et donc de variance. Cette méthode permet de détecter les variables les plus significatives et de représenter les individus et les variables selon les composantes principales selon deux modalités graphiques : le loading plot, où chaque point représente la projection d’une variable dans un plan défini par les composantes principales, et le score plot où chaque point représente la projection d’un individu dans un plan défini par les composantes principales.

Dans notre travail, l’analyse PCA a été utilisée pour repérer des groupes d’individus dont l’ensemble des variables est homogène et de visualiser les différences de variables entre les individus. Elle a permis egalement d’évaluer rapidement la qualité des données et d’identifier des échantillons aberrants (outliers) correspondant souvent à des spectres mal résolus ou contenant des signaux anormalement élevés en raison de la présence en grande quantité de contaminants (Ebbels et al. 2007) et qui seront donc exclus de la population étudiée.

Analyse discriminante partielle des moindres carrés (PLS-DA)

Les études typiques de métabolomique comportent en principe deux groupes, souvent appelés pathologique et contrôle, et sont menées de manière exploratoire ou prédictive (Broadhurst et al. 2006). Une étude exploratrice est réalisée pour voir si les données spécifiques contiennent suffisamment d'informations pour

établir une distinction entre les deux groupes. Cette approche est généralement suivie par la création d’un modèle capable de prédire, pour un échantillon donné, l’appartenance à un groupe pathologique ou contrôle.

Le profil métabolique en fonction de la classification tumorale est l'une des premières approches de la métabolomique s’intégrant dans la récente recherche translationnelle. La grande problématique de l’analyse métabolomique est le déséquilibre entre le nombre d’échantillons et le nombre de variables (421 pour l’analyse du spectre entre 0,5 et 4,7 ppm). Pour cette raison, les statistiques multivariées supervisées prennent une grande importance. La PLS-DA est l'une des méthodes d'analyse des données largement utilisée (Barker et al. 2003). Les techniques PLS ont été proposées au cours des années 1980 (Wold et al. 1983); elles se sont montrées ensuite bien adaptées pour les études métabolomiques (Wold et al. 1991). La PLS est une méthode d’analyse supervisée qui prend en considération l’appartenance de classe. Elle est spécifiquement construite pour étudier les relations entre un ensemble de variables réponses Y et un ensemble de variables explicatives X lorsque la multi‐colinéarité est forte ou le nombre de variables explicatives et/ou réponses est élevé par rapport au nombre d’échantillons étudiés. La régression PLS effectue une analyse en composantes principales pour chaque ensemble de variables X et Y, sous la contrainte d’une forte corrélation entre les composantes de X et celles de Y. Cette méthode est rapide, efficace et optimale pour un critère de minimisation des covariances bien maîtrisé. Malgré les multiples avantages de la PLS-DA, les résultats obtenus par celle-ci doivent être considérées avec précaution, notamment en raison du risque de surajustement (overfitting) : ceci peut facilement conduire à des classifications qui ne reflètent pas la réalité et, donc, à des modèles qui donnent une séparation des échantillons exclusivement liée au hasard. L’étape de validation des résultats doit être donc effectuée (Brereton et al. 2006, Harrington et al. 2006, Rubingh et al. 2006). Broadhurst et al. (2006) résume bien les principaux problèmes existants dans l'analyse de données multivariées, en alléguant la taille de la population étudiée. Un critère satisfaisant de taille de l'échantillon reste cependant difficile à définir. La méthode de validation croisée est généralement utilisée pour valider une classification avec un faible nombre d'échantillons disponible. Il est fondamental que les éléments à prédire ne soient en aucun cas utilisés dans le

développement du modèle lui même (Anderssen et al. 2006, Brereton et al. 2006, Broadhurst et al. 2006).

L’analyse discriminante partielle orthogonale des moindres carrés ou orthogonal partial least-squares discriminant analysis (OPLS-DA) est une variante très employée de PLS-DA où la première composante orthogonale à la variable dépendante est exclue (Trygg et al. 2002). L’OPLS-DA facilite en ce sens l'interprétation de la PLS-DA en incluant toutes les informations de classification en une seule composante. La puissance de la prédiction des deux modèles est généralement la même (Trygg et al. 2002).

De nombreuses possibilités existent pour évaluer la qualité d'un modèle de classification comme par exemple définir le nombre de faux positifs et négatifs, vrais positifs et négatifs. Cette approche permet de définir les valeurs de sensibilité (nombre de vrais positifs trouvés parmis tous les positifs) et de spécificité (nombre de vrais négatifs trouvés parmi tous les négatifs) du modèle en question.

La figure 24 résume les différentes étapes de l’analyse métabolomique.

Figure 24. Représentation schématique des 3 principales étapes du processus d’analyse métabolomique : (1) Identification du profil métabolique à partir des spectres des échantillons tissulaires, (2) attribution des métabolites aux signaux spectraux, (3) quantification des métabolites et validation du modèle (figure issue de Spratlin et al. 2009).

Le protocole analytique rapporté dans la section Matériels et Méthodes a fait l’objet d’un chapitre d’un ouvrage récemment publié par notre équipe (Piotto et al. 2013, annexe 4).