• Aucun résultat trouvé

Analyse statistique multivariée 95

Dans le document en fr (Page 110-114)

CHAPITRE V : LA METABOLOMIQUE : DE LA CHIMIE A LA BIOLOGIE 66

6. Analyses des données 91

6.4. Analyse statistique 94

6.4.2. Analyse statistique multivariée 95

Les analyses métabolomiques génèrent des quantités de données importantes aussi bien sur le plan qualitatif que quantitatif. L’analyse de ces données nécessite des outils mathématiques et statistiques répondant à cet impératif de multidimensionnalité. Les analyses statistiques multivariées sont les mieux adaptées pour organiser, extraire et interpréter l’information biologique complexe associée. La visualisation des signatures métaboliques est d'une importance primordiale pour analyser la complexité biologique. La flexibilité des méthodes PLS en général et de O-PLS permet d’améliorer l'analyse des données complexes, ce qui facilite l'extraction des informations relatives aux processus biologiques. Ces approches sont utilisées pour résoudre les problèmes présents dans les ensembles de données biologiques complexes et multifactorielles.

6.4.2.1. Analyse multivariée descriptive : Approche non supervisée 6.4.2.1.1. Analyse en Composante Principale (ACP)

L’objectif principal de cette méthode est la compression des données et leur exploration globale. Le principe commun à toutes les méthodes multivariées est de considérer les échantillons comme étant des points dans un espace défini par des variables et que les coordonnées d'une observation sont données par les valeurs de chacune de ces variables. Le principe de l’Analyse en Composante Principale (PCA) est de trouver les directions de plus grande dispersion des observations dans cet espace. L'idée étant que les directions de la plus grande dispersion sont les directions contenant le plus de variance et donc d’information [177-179]. Si les données ne contiennent que du bruit, les individus seront dispersés de façon homogène et uniforme dans toutes les directions. Une direction qui s'écarte d'une telle répartition sphérique contiendrait de l'information potentiellement pertinente. Mathématiquement, la PCA calcule des combinaisons linéaires des variables de départ donnant de nouveaux axes qui contiennent la plus grande partie de la variabilité de la matrice de données de départ. La PCA est une méthode non supervisée, car aucune hypothèse préalable n'est faite concernant les relations éventuelles entre les individus et entre les variables. Pour éviter d'avoir la même «information» dans plusieurs Composantes Principales, celles-ci doivent toutes être orthogonales les unes par rapport aux autres. La décomposition matricielle de la PCA permet d’obtenir des matrices des

CHAPITRE V : La Métabolomique : de la Chimie à la Biologie

- 96 -

coordonnées factorielles (ou «scores») et des contributions factorielles (ou «loadings»), à partir de la matrice de données originale, pour avoir les coordonnées factorielles des individus et les contributions factorielles des variables sur les Composantes Principales. La quantité de variance (information) contenue dans chaque PC est proportionnelle à sa valeur propre («eigenvalue»). Les composantes principales sont simplement des entités mathématiques qui peuvent représenter, après un choix d’un ensemble de variables représentatif, la matrice de départ. D’un point de vue géométrique, la PCA peut être plus facilement comprise comme une méthode de rotation des données pour que l’observateur soit le mieux placé pour comprendre les relations entre les individus. Les coordonnées factorielles permettent de projeter les individus sur des plans construits à partir des PC, où l'on peut éventuellement détecter des répartitions structurées des objets, la formation de groupes ou la présence d'individus aberrants (Figure 14).

Figure 14. Les diagrammes de dispersion des observations (scores plot à gauche) et des loadings (à droite) doivent être interprétés simultanément afin d’analyser les relations entre les tendances de regroupement des observations et quelles variables - métabolites – en sont responsables. La position des variables peut être superposée à celle des observations pour l’interprétation des relations entre les variables et observations.

6.4.2.1.2. Identification des Outliers

Les échantillons aberrants « Outliers » sont facilement identifiés en analyse multivariée. Une observation avec une déviation significative sera évidente sur le score plot avec une ellipse qui indique l'intervalle de confiance (e. g. 95%) établie en utilisant une généralisation multivariée du test de Student, appelé Hotelling T2. Une autre façon des détecter les valeurs aberrantes modérées est d’utiliser la distance au modèle défini dans l'espace X comme DModX, implémentée dans SIMCA Umerics, ce qui équivaut à la déviation standard de l'observation. Quand DModX est plus grande que la distance critique choisie (Dcrit > 95%), l'observation est considérée comme une valeur aberrante modérée [179] (Figure 15).

CHAPITRE V : La Métabolomique : de la Chimie à la Biologie

- 97 -

Figure 15. Score plot en deux dimensions de l’analyse en composante principale montrant la dispersion des observations. En rouge sont montrées les observations aberrantes (outliers).

6.4.2.2. Analyse multivariée explicative : Approche supervisée 6.4.2.2.1. Partial Least Squares Regression (PLS)

L'objectif de cette méthode est de construire des modèles de régression multivariée. La régression PLS, ou régression au sens des moindres carrées partielles ou régression par projection sur des structures latentes (PLS) cherche à trouver les relations entre deux matrices à travers un modèle linéaire multivarié. Elle permet l’analyse des données avec des variables colinéaires, bruitées ou incomplètes dans les deux matrices [180- 182]. Les variables prédictives (X) sont souvent des spectres, mais peuvent aussi être des mesures physico- chimiques, la plupart du temps avec une forte colinéarité. Les réponses (matrice Y) peuvent être de natures variées, dont des concentrations des substances à prédire, mais aussi des propriétés physico-chimiques, des activités biologiques. En métabolomique, les variables (X) correspondent aux couples Dimension1_Dimension2_Dimension(n) [exemple de dimensions : tR, m/z, CCS] et les réponses Y correspondent aux intensités.

Outliers

CHAPITRE V : La Métabolomique : de la Chimie à la Biologie

- 98 -

6.4.2.2.2. PLS-DA ( PLS-Discriminant Analysis)

En biologie, il est courant que la variable réponse « y » soit catégorielle, définissant une appartenance à une classe ou groupe, par exemple Témoins/Traités, Patients/Controles. L’analyse discriminante PLS-DA (PLS- DA) n’est en fait qu'une régression PLS classique où la variable réponse « y » est catégorielle. L’objectif de la PLS-DA est d’accentuer la séparation entre les groupes d'observations et de déterminer les variables qui portent l'information permettant la séparation des classes en examinant les loadings des variables correspondant sur les composantes latentes ayant permis la séparation [182,183]. La Figure 16 présente un exemple de score plot de PLSDA.

Figure 16. Exemple d'une représentation PLS-DA montrant la séparation des groupes 1 et 2.

6.4.2.2.3. OPLS-DA (Orthogonal Partial Least Square Discriminant Analysis)

L’Orthogonal Partial Least Square Discriminant Analysis (OPLS-DA) est une modification de l’algorithme initial de la PLS avec l'objectif d'éliminer la variation de X qui n'est pas corrélée avec y [184-187]. Les données analytiques contiennent souvent des variations systématiques qui ne sont pas liées à la réponse Y. Cette variation systématique peut être expérimentale ou biologique. Il est ainsi important de séparer la variation X non corrélée avec la réponse y, car elle affecte les performances prédictives des modèles statistiques générés. L’OPLS fournit une méthode pour supprimer la variation de X indépendante de Y, donc orthogonale et améliore l'interprétation des modèles PLS en réduisant la complexité du modèle (Figure 17).

CHAPITRE V : La Métabolomique : de la Chimie à la Biologie

- 99 -

Figure 17. Interprétation de la variabilité intra et inter-groupes en OPLS-DA est facilitée par la séparation de la composante prédictive des composantes orthogonales.

Dans le document en fr (Page 110-114)