C) IDENTIFICATIONS METABOLIQUES
2.3.2. L’ANALYSE STATISTIQUE
2.3.2.3. ANALYSE EN COMPOSANTE PRINCIPALE
Applications de la RMN HRMAS en cancérologie 110 pour les m cas) est souvent nécessaire afin de ne conserver que les paramètres pertinents pour le diagnostic. Cette étape fait appel à des méthodes d’analyse de données telles que l’analyse en composantes principales ou la régression aux moindres carrés partiels.
Nous allons dans un premier temps nous pencher sur cette réduction d’espace de variables. Une matrice de données de n métabolites et m échantillons représente un espace de données à n points et m dimensions. Quelque soit la configuration, le caractère multidimensionnel des données est difficile à appréhender. Actuellement, aucun outil de visualisation n’est capable d’analyser un si grand espace. Toutefois, les analyses factorielles, méthodes statistiques descriptives, permettent de réduire le nombre de dimensions de l’espace des données et par conséquent la complexité du problème. Le principe des analyses factorielles est la projection des données dans un espace aux dimensions réduites. Cet espace est construit grâce à une combinaison linéaire des variables qui explique le mieux les variations des données d’origine, l’objectif étant de perdre le moins d’informations possibles. Ces techniques reposent sur l’idée qu’une grande partie de la variation des données peut être expliquée par un petit nombre de variables transformées. L’idée directrice de l’analyse factorielle est de résumer le problème en réduisant le nombre de variables explicatives en restant le plus fidèle possible au problème d’origine.
Les méthodes factorielles regroupent trois principales techniques, déjà employées dans l’analyse des données d’expression : l'analyse en composantes principales (Alter et al., 2000; Fellenberg et al., 2001), l'analyse des correspondances (Khan et al., 1998) et l'analyse des correspondances multiples (Bittner et al., 2000). 2.3.2.3. ANALYSE EN COMPOSANTE PRINCIPALE Présentée pour la première fois en 1933 par Hotelling, l’ACP est une méthode statistique pour l’exploration de données multi‐variables, également connue sous les noms « d’analyse par décomposition des données en valeur singulière » (SVD ‐ Singular Value Decomposition) (Alter et al., 2000; Holter et al., 2000) dans le domaine de la transcriptomique ou, dans le domaine plus général du traitement du signal, comme l’« Karhunen‐Loève expansion » (Alter et al., 2000). L’ACP est la méthode de base qui sert de fondement théorique aux autres méthodes de statistiques factorielles.
L’objectif de cette méthode est de réduire la dimension de l’espace des données en déformant le moins possible la réalité. Pratiquement, l’ACP consiste en la détermination d’une suite d’axes orthogonaux, non corrélés, conservant au mieux les distances entre les individus.
Chapitre II. Matériels et Méthodes.
Applications de la RMN HRMAS en cancérologie 111
Ces axes sont appelés axes principaux d’inertie ou composantes principales et forment un nouvel espace dimensionnel pour les données. Les composantes principales (axes) sont définies par les vecteurs propres. La conservation des distances (aux données d’origine) pour chaque axe est mesurée par la variance des coordonnées des individus sur cet axe, encore appelée valeur propre.
Mathématiquement cela correspond, à partir d’une matrice de données d’expression à m observations et n variables, à calculer un nouveau système de coordonnées. La matrice de données peut être centrée ou non, normalisée (basée sur la matrice de corrélations) ou non (basée sur la matrice de variance‐covariance). Ceci définit les différents types d’ACP et explique également les différences de noms (Yeung and Ruzzo, 2001). Les directions du nouveau système de coordonnées sont les vecteurs propres de la matrice de variance‐covariance ou de la matrice des corrélations des profils d’expression. Figure 32: distribution spatiale normale et principe de l’analyse en composante principale.
De manière plus imagée, la nouvelle matrice capture la forme des données. Par exemple, pour un nuage de points ovoïde à n dimensions, le vecteur propre de la matrice (composante principale) est le grand axe de l'ovale. Ce premier axe d'inertie est l'axe sur lequel la projection du nuage de points a le plus de variance. L'axe secondaire sera l'axe orthogonal au premier et calculé de la même manière. p axes principaux d'inertie sont ainsi calculés par rotation et dans l’ordre décroissant de la variation qu’ils expliquent. Cet ensemble de p axes principaux ainsi généré est représentatif des composantes principales de la distribution. Généralement, mais aussi idéalement, les composantes principales utilisées sont les 2 ou 3 premières puisqu’elles témoignent des principales variations observées dans le jeu de données
Chapitre II. Matériels et Méthodes.
Applications de la RMN HRMAS en cancérologie 112
original et permettent une représentation spatiale aisée du résultat. Les dernières composantes reflètent quant à elles les bruits résiduels. Cependant, il a été montré que les premières composantes d’une ACP ne permettent pas nécessairement de mettre en évidence la structure des données, i.e. la répartition en groupes (Yeung and Ruzzo, 2001). Néanmoins l’ACP et ses variantes peuvent s’avérer utile dans le choix du nombre de classes à définir a priori pour l’application des algorithmes de classification supervisée telles que l’analyse PLS ou la classification par technique de type K‐means. Elle peut également être à la base de certains de ces algorithmes (Bicciato et al., 2003). Il est toutefois intéressant de noter que l’ACP, selon certain auteurs ne forme pas de groupe et encore moins de classification (Yeung and Ruzzo, 2001). Selon ces auteurs, elles n’améliorent pas, voire dégradent, la qualité des regroupements, c’est pourquoi ils déconseillent l’utilisation directe des vecteurs propres (et ou valeurs propres) dans les algorithmes de classification.
Moins répandu dans le monde de la métabolomique, l’analyse factorielle des correspondances ou AFC (CA ‐ Correspondance Analysis), proposée par Benzécri dans les années 60, est une méthode exploratoire pour analyser des données qualitatives (tableaux de contingence, présence‐absence, enquête). L’objectif est de rechercher et d’étudier les associations entre variables. Tout comme l’ACP, elle représente les données dans un espace de dimension réduite, encore appelé carte. Elle permet de visualiser les paramètres (variables gènes) et les objets (variables échantillons) dans le même espace, mettant en évidence d’éventuelles dépendances entre les deux. C’est en employant une technique d’AFC que Fellenberg (Fellenberg et al., 2001) a pu mettre en évidence des gènes associés à certaines phases du cycle cellulaire de la levure. De même, le positionnement multidimensionnel (MDS ‐ Multidimensional Scaling) proposé par Shepard et Kruskal dans les années 60, bien qu’étant une technique principalement utilisée dans le monde économique, a elle aussi montré sa possible application au domaine de la métabolomique. Ainsi, Bittner (Bittner et al., 2000) a pu démontrer que la méthode MDS, couplée à des méthodes de classification, permet de distinguer des catégories de mélanomes jusqu’à présent non identifiées sur la base de critères cliniques. Cette technique permet donc d’estimer le nombre de classes à définir a priori pour l’application des algorithmes de classification supervisée. Elle peut également aider au choix de la distance à utiliser lors de l’application d’un algorithme de regroupement.
2.3.2.4. LA REGRESSION AUX MOINDRES CARRES PARTIELS.
Chapitre II. Matériels et Méthodes. Applications de la RMN HRMAS en cancérologie 113