• Aucun résultat trouvé

Les analyses chimiométriques

Chapitre I : Généralités

4 De l’analyse des lipides à la lipidomique

4.3 Traitement des données des analyses lipidomiques

4.3.3 Les analyses chimiométriques

Les statistiques univariées sont classiquement utilisées pour déterminer des corrélations entre deux variables quantitatives ou pour effectuer une analyse de variance entre une variable qualitative (appartenance à un groupe) et une variable quantitative. Le choix des différents tests a été largement décrit et dépend notamment de la loi de distribution. Les données issues de la spectrométrie de masse couplées à la chromatographie liquide sont de natures multivariées. L’application des tests univariés est possible mais ne prend pas en compte les différentes corrélations qu’il peut exister entre les variables et peut conduire à des résultats faussement significatifs. Les statistiques multivariées permettent une réduction de la dimensionnalité pour visualiser l’information cachée. La chimiométrie regroupe les méthodes d’analyses discriminantes, des plans d’expériences et des analyses multivariées239–241.

4.3.3.1 Les analyses multivariées

Le principe est de réduire la dimensionnalité des données afin de pouvoir détecter des tendances au sein des échantillons. L’analyse en composante principale (ACP) est une méthode qui recherche une combinaison linéaire des variables de départ décrivant la dispersion des échantillons. Son calcul n’est pas orienté, autrement dit il est non supervisé. La combinaison linéaire des variables de départ est calculée pour maximiser la variance ou la dispersion entre les échantillons et en même temps pour minimiser la matrice résiduelle. Les composantes principales sont orthogonales les unes des autres et permettent le classement décroissant des sources de variance. La Figure 38 résume le principe du calcul de l’analyse en composante principale.

57

Figure 38 : Principe de la décomposition matricielle de la matrice de X lors d’une analyse en composantes principales (la notation « ‘ » représente la matrice transposée)

Souvent, le calcul de deux ou trois composantes résume l’information contenue dans les données. Les échantillons (scores) et les variables (loadings) peuvent être projetés dans l’espace défini par les composantes qui montrent les directions de dispersion des échantillons et des variables qui sont responsables de cette organisation242–244.

La méthode des moindres carrés partiels (PLS) est une variante de l’ACP dont le principe est de relier les données (X) à une réponse (Y). A la différence de l’ACP, la PLS est un calcul orienté puisque les (Y) sont connus. Le plus souvent, l’objectif de la PLS est de pouvoir prédire la réponse (Y) d’un deuxième set de données245–247.

L’emploi des statistiques multivariées a pour but de détecter au sein de l’ensemble des variables explicatives des variations d’intensité responsables des différences observées entre les échantillons. A l’évidence, ces traitements statistiques sont appliqués sur des données qui minimisent le bruit de fond et les artéfacts pour ainsi éviter d’orienter à tort le calcul des composantes. Plusieurs outils ont été préalablement cités comme la nécessaire reproductibilité des extractions en phase pré-analytique, l’utilisation éventuelle d’un étalon interne ou encore la nécessité de réaliser un mélange de

58 l’ensemble des groupes d’échantillons pour éventuellement corriger les variations de l’instrumentation.

De plus, lors de l’utilisation d’outils de statistique multivariée, il est très souvent effectué une transformation des données de la matrice X ou mise à l’échelle. Cette étape a pour but de diminuer les variations observées au sein des données brutes. Le centrage des données consiste à soustraire aux données brutes la moyenne de chaque descripteur. Ainsi, chaque variable présente une moyenne égale à zéro et diminue le poids des concentrations entre les métabolites. De plus, il est possible de diviser chaque variable par un facteur de mise à l’échelle ou « scaling ». L’objectif est de corriger les différences d’intensités observées en exprimant les données en intensité relative. Le facteur de mise à l’échelle peut être basé sur l’utilisation d’un facteur de dispersion (écart type) ou l’utilisation d’un facteur relatif à la taille de l’échantillon (la moyenne par exemple). Enfin, les transformations non linéaires (log ou racine carré) sont possibles. Cela permet de diminuer l’hétéroscédasticité des différents descripteurs si l’écart type est relativement homogène248,249. Les différentes méthodes de mise à l’échelle et de transformation des données sont présentées, Tableau 5.

59

Nom et formule Objectif (1) Avantages (2) Inconvénients

Centré

=

Concentrer l’analyse sur les différences et non sur les similitudes entre les données

(1)- Eliminer les décalages dans les données

(2)- Insuffisant en cas d’hétéroscédasticité dans les données

Centré réduit

= Comparer les variables suivant les corrélations

(1)- Toutes les variables ont la même importance (2)- Augmentation des erreurs de mesure

« Range scaling »

=

Comparer les métabolites suivant la gamme de la réponse biologique

(1)- Toutes les variables ont la même importance

(2)- Augmentation des erreurs de mesure sensibles aux échantillons atypiques ou « ouliers »

« Pareto scaling »

=

Diminuer l’importance relative des valeurs élevées sans modifier la structure des données

(1)- Reste proche des données originales (2)- Sensible aux variations importantes

« Vast scaling »

=

Focaliser sur les variables qui présentent de faibles fluctuations

(1)- Vise la robustesse dans les données

(2)- Insuffisant, si les variations sont importantes dans le cas des analyses non supervisées

« Level scaling »

= S’intéresser aux réponses relatives

(1)- Intéressant pour l’identification des biomarqueurs (2)- Augmente les erreurs de mesure

Transformation log

=

Corriger l’hétéroscédasticité des données par une pseudo mise à l’échelle

(1)- Diminuer l’hétéroscédasticité des données, les effets multiplicatifs deviennent additifs

(2)- Données avec un large écart type ou nul

Transformation racine carré

= √

(1)- Diminuer l’hétéroscédasticité dans les données, même avec les petites valeurs

(2)- Choix arbitraire

Tableau 5 : Différentes méthodes de mise à l’échelle utilisées pour le traitement chimiométrique des données, x représente les données brutes, x ̃ représente les données transformées et s l’écart type248

60 Par ailleurs, deux critères de performance sont classiquement évalués lors du calcul des modèles d’ACP ou de PLS. Le R² évalue la part de variance expliquée par la composante au sein du modèle. Son calcul est basé sur le rapport de la part de variance expliquée par le modèle et la variance totale. Le choix du nombre de composantes doit être en relation avec le pourcentage de variance expliquée apporté par l’ajout de la composante (n+1).

Le deuxième paramètre associé au R² est le Q² ou capacité de prédiction. Son calcul est basé sur le rapport entre l’erreur de prédiction et la variance prédite par le modèle. En d’autres termes, il est construit sur le principe de la validation croisée. Une partie des données du set initial est utilisée pour construire un modèle et l’autre partie pour prédire les données restantes. Le choix du nombre de composantes doit se faire en rapport avec les caractéristiques du set de données (origine biologique, nombre d’échantillons notamment) mais aussi par rapport au gain obtenu en termes de R² et Q² obtenus par l’ajout d’une composante supplémentaire. Plus ces deux paramètres sont proches de 1 et plus le modèle est performant. De plus, il est admis que la différence observée entre R² et Q² ne doit pas excéder 0,3. Dans le cas contraire, le modèle est alors en sur-apprentissage. Ces deux paramètres ne sont pas les seuls à juger de la performance des modèles, mais ils sont largement utilisés quels que soient les modèles mis en œuvre (analyses multivariées, analyses discriminantes ou plans d’expériences)250.

4.3.3.2 Les analyses discriminantes

A partir des données obtenues après le prétraitement, les analyses discriminantes (DA ou discriminant analysis) permettent de prédire l’appartenance d’un échantillon à une classe. Les analyses discriminantes sont largement utilisées pour explorer les données de métabolomique.

La régression PLS est d’une manière générale utilisée pour établir des relations entre une matrice X et une réponse Y. Ce mode de calcul est très largement utilisé lors d’un étalonnage multivarié où la réponse Y est quantitative. Cependant, la réponse peut être aussi qualitative, c’est-à-dire qu’il s’agit ici d’intégrer dans la réponse Y le fait d’appartenir à une classe ou un groupe d’échantillon. Cela correspond à une analyse PLS discriminante. Le principe est de séparer la variabilité des X en deux parties (une systématique et une résiduelle). Néanmoins, une partie de la variance modélisée n’est pas forcément corrélée à la classe des échantillons et les composantes discriminantes calculées peuvent correspondre à un mélange entre la composante discriminante et non discriminante.

61 La correction orthogonale du signal (Orthogonal Signal Correction ou OSC) a été initialement développée pour le traitement des données spectrales. Le principe est d’utiliser la structure de la matrice Y (réponse) pour identifier dans la matrice des descripteurs X, les sources de variances qui sont orthogonales (non corrélées) à la réponse. Le filtre OSC élimine de la matrice X la part d’informations non corrélées à la matrice Y et construit ainsi une nouvelle matrice X ou Xosc. L’OPLS-DA est actuellement plus largement utilisée pour traiter les données de métabolomiques249,251–255.

L’OPLS-DA est une extension de la PLS-DA intégrant le filtre OSC. Ce mode de calcul utilise l’information contenue dans la matrice Y pour décomposer la matrice X en deux blocs. Une première partie contient l’information discriminante corrélée au Y et une autre orthogonale non corrélée. La Figure 39 illustre les différences entre PLS-DA et OPLS-DA. En effet, la PLS-DA oriente le choix des composantes en fonction des sources de variances contenues dans le set de données tandis que l’OPLS-DA choisit la première composante de façon à séparer les échantillons en fonction de leurs classes. Ainsi, l’OPLS-DA est d’interprétation plus facile que la PLS-DA.

Figure 39 : Illustration de la différence entre PLS-DA et OPLS-DA251

Le S-plot permet de visualiser les variables ayant de l’influence sur la discrimination des échantillons. Cette figure combine la représentation de la covariance et de la corrélation des loading sur la projection de la composante discriminante. La covariance représente l’importance de la variation et la corrélation représente la reproductibilité. Ainsi, avec cet outil de présentation des variables suivant la composante discriminante, un tri des variables discriminantes ou non peut être réalisé. Leur sélection se fait de manière à choisir des groupes de variables qui présentent un maximum de variance et de covariance, autrement dit à l’extrémité de Splot251 comme le représente la Figure 40.

62

Figure 40 : Représentation S-plot d’un modèle obtenu en OPLS-DA, d’après256 le cadre tracé en rouge figurant la zone où se situent les variables discriminantes

4.3.3.3 Les plans d’expériences

Ils permettent de modéliser les paramètres d’un processus expérimental en minimisant le nombre d’essais réalisés. Ces paramètres peuvent être quantitatifs (débit de phase mobile, pourcentage de solvant) ou qualitatifs (présence ou non d’une agitation dans un milieu réactionnel). Pour réaliser un plan d’expériences, il faut définir les objectifs (optimisation ou analyse d’effets). Cela conditionne le choix du plan d’expériences qui correspond souvent à un compromis entre la minimisation du nombre d’expériences à réaliser et la précision ou la fiabilité des informations que l’on souhaite obtenir. Ensuite, il est nécessaire de définir les paramètres ainsi que leurs bornes, choisir la ou les réponses, enfin réaliser les expériences et valider le plan. Une régression linéaire multiple est calculée et permet d’étudier les effets principaux et selon les cas, les interactions entre les paramètres et les réponses choisies257.

Le plan d’expériences le plus connu est le plan factoriel complet. Ce type de plan permet d’étudier aussi bien les effets principaux des différents paramètres que leurs interactions. Le nombre d’essais à effectuer est de 2n, n étant le nombre de paramètres étudiés. Le plan factoriel complet est difficilement utilisable lorsque n est élevé. Ce dernier a été largement utilisé pour optimiser des techniques de chromatographie liquide ou définir des paramètres d’ionisation en spectrométrie de

63 masse258,259. Il existe également d'autres plans d'expériences qui peuvent être employés comme alternative au plan factoriel complet.

4.4 Identification des ions pseudo-moléculaires utilisant les données de

Documents relatifs