• Aucun résultat trouvé

Démarche analytique : matériels et méthodes associés

3.4.2 Serial PLS

La méthode Serial PLS (S-PLS) a été introduite par Berglund et Wold [11]. Le principe de la S-PLS est le suivant : "Les modèles de chaque bloc sont calculés à partir des résidus de y du modèle précédent", chaque modèle étant développé en utilisant une régression PLS. La philosophie de cette méthode diffère donc de la MB-PLS car les blocs sont traités en série. De plus, contrairement aux méthodes multiblock pour lesquelles les données sont combinées dans une matrice contenant les scores, en S-PLS les données sont uniquement reliées par la réponse y. La régression S-PLS s’écrit :

X1 = T1· PT1 + E1 (3.15)

X2 = T2· PT2 + E2 (3.16)

y = T1· qT1 + T2· qT2 + f (3.17)

avec T : matrice des scores PLS

P : matrice des loadings des variables q : matrice des loadings de la réponse E : Residus sur X

f : Résidus sur y

De manière équivalente, le modèle de régression S-PLS peut également s’écrire selon l’Equation 3.18 en faisant intervenir les coefficients de régression β.

3.4. LA FUSION DE DONNÉES SPECTRALES

L’algorithme de la S-PLS est un algorithme itératif qui peut se diviser en plusieurs étapes. Nous illustrons cet algorithme dans le cas où deux blocs de variables, notés X1 et X2, sont considérés (Figure 3.11) :

1. Initialisation : f2 = y

2. Calculer le 1er modèle PLS avec X1 et f2

3. Calculer les résidus du 1er modèle : f1 = y - (T1· qT

1) 4. Calculer le 2ndmodèle PLS avec X2 et f1

5. Calculer les résidus du 2ndmodèle : f2 = y - (T2· qT

2) 6. Répéter les étapes 2 à 5 jusqu’à la convergence

La convergence de l’algorithme est atteinte lorsque la somme des différences quadra-tiques entre les résidus f2 de deux itérations successives est inférieure à un seuil.

PLS (f

2

, X

1

)

PLS (f

1

, X

2

)

f

2

= y

f

1

= y – (T

1

. Q

1

)

f

2

= y – (T

2

. Q

2

)

Figure 3.11 – Principe de la S-PLS

Le principal avantage de cette méthode est que la variance de y qui n’est pas expliquée par un bloc peut potentiellement l’être par un autre bloc. On peut donc s’attendre à ce que la variance totale de y expliquée par cette méthode soit plus grande qu’avec d’autres méthodes telles que la PLS ou la MB-PLS. De plus, la S-PLS étant composée de régressions PLS, les outils d’interprétation sont identiques à ceux de la PLS (pourcentage de variance expliquée, coefficients de régression β, poids des variables P, scores T). Enfin, ces outils

d’interprétation étant disponibles pour chaque bloc, les résultats obtenus permettent de déterminer la contribution de chaque bloc pour la description de la réponse y.

La méthode S-PLS est donc intuitive et facile à mettre en œuvre. Bien que la phase itérative puisse paraitre superflue, Berglund et Wold ont montré qu’elle permettait d’obtenir de meilleurs résultats [11]. Ils interprètent cette observation par le fait que, lorsque l’itération est effectuée, tous les modèles sont calculés à partir de résidus de y. Dans le cas contraire, le premier bloc est calculé sur les données brutes de y, ce qui peut influencer les résultats.

La méthode S-PLS permet d’affecter un nombre de facteurs différent pour chaque bloc. Berglund et Wold précisent néanmoins qu’ils doivent être fixés indépendamment. Ils proposent pour cela d’utiliser la validation croisée et de tester toutes les combinaisons possibles. Si un modèle S-PLS est calculé en considérant deux blocs, les résultats cor-respondent à une matrice carrée contenant toutes les valeurs d’erreur de prédiction en validation croisée où les lignes correspondent aux nombres de composantes pour le pre-mier bloc et les colonnes à celles du deuxième bloc.

Nous pouvons noter que l’ordre des blocs est également important car l’initialisation est réalisée sur les valeurs brutes de y. Ceci se traduit notamment par une décroissance, du premier bloc au dernier, de la variance expliquée et des valeurs des coefficients PLS. Par conséquent, il est nécessaire de tester les différentes combinaisons possibles d’ordre des blocs.

3.5 La comparaison de modèles

Le pouvoir prédictif des étalonnages multivariés est généralement évalué par des cri-tères statistiques tels que la RMSEP (Annexe A.5). Dans de nombreuses études, lors de l’optimisation d’un étalonnage multivarié, les comparaisons de modèles ne sont basées que sur les valeurs de RMSEP. Le modèle le plus performant est alors choisi en terme de RMSEP la plus faible. Cependant, lors de l’optimisation d’un étalonnage multivarié, les valeurs de RMSEP obtenues par différentes approches peuvent être relativement proches. Ainsi, il est souvent difficile de déterminer, sur la base de ces valeurs de RMSEP, si le

3.5. LA COMPARAISON DE MODÈLES

pouvoir prédictif des modèles est significativement différent.

Afin de procéder à une comparaison rigoureuse des performances des modèles de pré-diction, un test statistique peut être réalisé. De nombreuses méthodes peuvent être mises en œuvre pour la comparaison statistique de modèles tels que le test de Fisher [49, 90], le "Wilcoxon signed rank test" [91] et le "randomisation t-test" [103]. Toutes ces approches sont potentiellement utilisables mais également critiquables, rigoureusement parlé, car il n’existe pas de procédures établies pour la comparaison d’étalonnages multivariés. Dans cette partie, nous décrivons un test de comparaison de la distribution des erreurs de pré-diction : le "Randomisation t-test". Nous discuterons également de l’intérêt des méthodes de bootstrap pour l’estimation de régions de confiance sur les prédictions des valeurs de propriétés. Nous parlerons ici de région de confiance, et non d’intervalle de confiance, car le bootstrap ne permet d’estimer que l’erreur engendrée par le modèle et non l’erreur totale sur la mesure. En effet, afin d’estimer l’erreur totale sur la mesure, il serait égale-ment nécessaire de tenir compte des erreurs effectuées sur les valeurs de référence et sur l’acquisition des spectres.