• Aucun résultat trouvé

La régression PLS discriminante (Partial Least Square regression-Discriminant Analysis)

Partie II- Métabolomique

III. 2.2) Approche algébrique

III.4) La régression PLS discriminante (Partial Least Square regression-Discriminant Analysis)

III.4) La régression PLS discriminante (Partial Least Square

regression-Discriminant Analysis)

Tout comme l’ACP, la régression des moindres carrés partiels (PLS) est une méthode statistique de réduction des données, cependant elle diffère de l’ACP par son caractère supervisé. La régression PLS requiert tout comme SIMCA, une prédéfinition à un groupe d’appartenance (classe) des différents objets du jeu de données.

La régression PLS discriminante (PLS-DA) est une extension de la régression PLS et peut facilement s’adapter au cas de la classification supervisée surtout lorsque le nombre de variables explicatives est nettement supérieur au nombre d’individus et/ou lorsque les variables sont corrélées. En effet, dans ce cas précis, l’utilisation de techniques de classement discriminante telle que l’Analyse Discriminante Linéaire (ADL) ou l’Analyse Discriminante Quadratique (ADQ) est inappropriée.

La régression PLS étant initialement introduite pour la construction de modèles de calibration, il est nécessaire de reformuler le problème de classification sous la forme d’une équation de régression. Ceci est accompli à travers l’introduction d’une matrice factice Y, qui codifie

54

l’appartenance des échantillons à une classe. Cette matrice Y possède autant de colonnes que de nombre de classes définies et autant de lignes que de nombre d’échantillons. Pour chaque observation dans le jeu de données de formation, son appartenance à une classe donnée est codée de manière binaire (1 pour sa classe, 0 sinon). Par exemple, si 4 classes sont définies et que l’ième

échantillon appartient à la classe 3 la ième ligne (yi) de la matrice Y vaut :

(22)

En utilisant ce codage binaire pour l’appartenance des classes, il est alors possible de transformer le problème de classification en un problème de régression à travers une fonction associant la matrice de données X contenant les variables mesurées sur les échantillons et la matrice factice Y telle que :

(23)

En supposant qu’il existe une relation linéaire entre ces deux matrices, l’équation précédente devient :

(24)

où B est une matrice de coefficients de régression. L’approche PLS peut alors être utilisée pour calculer le modèle et ceci même lorsque le nombre d’échantillons est inférieur au nombre de variables. La méthode de classification correspondante est appelée régression PLS discriminante (PLS-DA).

La régression PLS suppose que la matrice indépendante X et la matrice dépendante Y puissent être projetées sur un espace à dimensions réduites et qu’une relation linéaire existe entre les scores des deux blocs. D’un point de vue mathématique, X et Y sont décomposées en matrice de scores et de loadings selon les équations suivantes :

(25)

55

où T et U sont les matrices contenant respectivement les scores de X et de Y, P et Q sont celles contenant les loadings de X et les loadings de Y, et EX et EY celles contenant les résidus.

De plus, la dépendance linéaire entre les scores de X et de Y supposée précédemment implique :

(27)

où C est une matrice diagonale des coefficients. En se basant sur les deux équations précédentes (26) et (27), il est possible de calculer une matrice contenant les coefficients de régression, notée B, qui permet de prédire les valeurs de la matrice dépendante Yn pour les échantillons inconnus à laquelle sont associées les variables mesurées Xn :

(28)

Il est important de souligner qu’à la différence de la matrice factice Y qui est codée en binaire, les valeurs prédites sur les échantillons inconnus Yn seront des nombres réels. Ainsi, si 4 classes sont impliquées dans le problème de classification comme ce fut le cas de notre exemple précédent, quand le modèle est testé sur un échantillon inconnu, le résultat se présentera sous la forme d’un vecteur de valeurs réelles à 4 dimensions qui pourra prendre des valeurs telles que [0.05 -0.16 0.88 0.09]. La classification de l’échantillon est alors réalisée en assignant cet échantillon à la catégorie (classe) correspondant à la valeur la plus élevée des valeurs prédites, dans notre exemple à la classe 3 (0.88).

Puisque la PLS est une technique basée sur le nombre de composantes, lors de la construction du modèle, il est nécessaire d’estimer le nombre de variables latentes opportun afin d’obtenir un modèle fiable et d’éviter la surestimation des résultats. Cette procédure est le plus souvent réalisée par validation croisée comme nous le verrons plus tard dans cette Partie (III-6)).

Une fois le modèle calculé, il est essentiel d’interpréter les résultats afin d’identifier les variables initiales qui sont les plus significatives pour la discrimination. En effet, il est important d’identifier les éventuels marqueurs chimiques et de s’assurer que cette différence ne provient pas d’erreurs de prétraitement des données ou de apprentissage (ou sur-ajustement).

56

La méthode la plus courante pour estimer la contribution des variables individuelles au modèle dans le cadre de la PLS-DA, est l’inspection de l’importance des variables dans la projection (Variable Importance in Projection, notée VIP). VIP est un index qui a été spécialement introduit pour exprimer à quel point un prédicteur est significatif dans la définition des vecteurs latents du modèle. D’un point de vue mathématique, le score VIP d’une variable j est défini tel que :

(29)

Ou tk est le vecteur des scores des échantillons le long de la kème variable latente, ck est le coefficient de la kème variable latente,Nvar le nombre de variables expérimentales et wjk est le poids de la jème variable pour la kème variable latente et wk le vecteur poids pour la kème variable latente.

L’avantage d’utiliser les scores VIP pour estimer la contribution des variables initiales au modèle PLS-DA est qu’il peut être démontré que la moyenne des scores VIP au carré est égale à 1. Ainsi, tous les scores supérieurs à 1 correspondent aux variables significatives. Plus cette valeur est élevée, plus cette variable est importante dans la construction du modèle.

L’interprétation des résultats peut être améliorée par l’inspection des coefficients de régression du modèle PLS-DA qui, soigneusement examinés, peuvent indiquer si les valeurs des différentes variables mesurées sur les échantillons provenant d’un certaine classe, sont supérieurs ou inférieurs de ceux enregistrés pour les autres classes.

En effet, comme l’équation (24) l’indique, les coefficients de régression sont les poids linéaires associés avec les variables indépendantes pour la prédiction des différentes composantes de Y. Ainsi plus leur valeur est élevée, plus la contribution du prédicteur à la composante spécifique de Y est importante. En effet, la kème colonne de B contient les coefficients des variables X pour la prédiction de kème composante de Y. Cependant, certains facteurs doivent être pris en compte dans l’interprétation des coefficients de régression. Tout d’abord, l’amplitude des éléments de B est associée à celle de X. Ainsi, la valeur absolue des coefficients de régression associée à une variable peut être plus élevée que les autres juste à cause d’une faible amplitude de cette variable mesurée impliquant un coefficient élevé afin d’être consistant avec y et non pas à cause de sa contribution. L’interprétation de ces

57

coefficients est rendue beaucoup plus intuitive lorsque les données ont été préalablement réduites.

Analyse Discriminante par projections orthogonales des moindres carrés partiels (Orthogonal Partial Least Square-Discriminant Analysis, OPLS-DA)

L’OPLS-DA, introduite par Trygg et Wold115

, est une modification récente de la PLS-DA dont l’objectif est d’améliorer l’interprétation des modèles PLS et de réduire la complexité du modèle. Comme nous l’avons vu précédemment, l’utilisation de classes dans la PLS-DA permet à l’algorithme PLS d’améliorer la séparation des groupes dans l’espace des scores. L’O-PLS fournit une méthode pour éliminer la variation systématique des données d’entrée X qui n’est pas corrélée au jeu de réponse Y, en d’autre mots cela revient à supprimer la variabilité dans X qui est orthogonale à Y. Cette technique analyse la variation gênante de chaque composante PLS. La variation corrélée à X est séparée de celle non-corrélée, cette dernière pouvant alors être analysée et étudiée séparément. La suppression de la variation non corrélée des données, préalablement à la modélisation, n’est pas seulement intéressante d’un point de vue prédictif, elle facilite également l’interprétation des modèles prédictifs.

La méthode O-PLS proposée par Trygg et al115, consiste en une modification de l’algorithme NIPALS originel. Celle-ci peut être vue comme une méthode de prétraitement pour éliminer la variation orthogonale systématique d’un jeu de données X (Figure 13).

Figure 13 : Schéma de l’apport de l’OPLS vis-à-vis de la PLS inspiré de la publication de Trygg et Wold115. La variation systématique non corrélée à Y est séparée du jeu de données facilitant l’interprétation et réduisant la complexité de modèles PLS. Celle-ci peut alors être étudiée et analysée séparément et les sources de variation orthogonale peuvent être identifiées.

Jeu de données initial (X) Jeu de données orthogonal (variation non corrélée) Jeu de donnée après traitement OPLS OPLS PLS  Difficile à interpréter Nombre de composantes PLS plus importantes Contient la variation orthogonale de X PLS

Plus facile à interpréter Réduction du nombre de composantes PLS

58

Le modèle O-PLS est constitué de deux variations modélisées, celle prédictive de Y ( ) et celle orthogonale de Y ( ). En revanche, seule la variation prédictive de Y est utilisée pour la modélisation de Y. Le modèle OPLS est ainsi défini par :

(30) (31)

Où et sont les matrices contenant les scores, Pp et P0 celles contenant les loadings, E et F représentent les matrices contenant les résidus de X et Y respectivement. L’O-PLS peut alors être appliquée à la PLS-DA et être utilisée pour la discrimination (OPLS-DA). La variation entre les classes et la variation interclasses sont alors séparées par l’OPLS-DA ce qui n’est pas le cas lors d’une PLS-DA, facilitant l’interprétation du modèle OPLS-DA. En effet, les scores et les loadings prédictifs de l’OPLS-DA utilisés pour estimer Y sont alors composés de la variation directement corrélée avec Y exempte de celle non corrélée, améliorant l’interprétation par rapport à une analyse PLS-DA classique116

.

De plus, le risque de sur-apprentissage est grandement réduit par l’utilisation de méthodes de validation appropriée et/ou de critères sur les valeurs propres, dans le but de déterminer le nombre de composantes orthogonales. Pour la validation croisée, il est courant d’employer une technique de validation croisée intégrale. L’approche basée sur les valeurs propres consiste, quant à elle, à analyser le rapport , qui devient nul pour les composantes PLS corrélées lorsqu’il n’y a plus de variation orthogonale au sein de X. Un graphique de ce ratio en fonction du nombre de composantes orthogonales fournit une bonne indication du nombre de composantes à extraire. Ce graphique est alors interprété de la même manière que pour le diagramme d’éboulis que nous présenterons dans la section III-6) de cette partie pour le cas de l’ACP.

Enfin, il est important de signaler que l’OPLS-DA ne fournit pas d’avantage prédictif par rapport à la PLS-DA ; en effet, en l’absence de variation non corrélée à Y au sein de X, les modèles résultants de ces deux méthodes statistiques seront quasi-similaires.

59