• Aucun résultat trouvé

Soft Independent Modelling of Class Analogy (SIMCA)

Partie II- Métabolomique

III. 2.2) Approche algébrique

III.3) Soft Independent Modelling of Class Analogy (SIMCA)

(7)

Les loadings peuvent ainsi être obtenus par plusieurs algorithmes de calculs des vecteurs propres/valeurs propres. Les deux algorithmes les plus couramment utilisés sont NIPALS (« Non-linear Iterative PArtial Least Squares »)108 et SVD (« Singular Value Decomposition »)109. Lorsque le nombre de variables mesurées est largement supérieur au nombre d’individus, l’algorithme NIPALS est le plus adapté, celui–ci pouvant être stoppé dès qu’un certain critère est atteint comme le pourcentage désiré de variance expliqué par exemple.

III.3) Soft Independent Modelling of Class Analogy (SIMCA)

SIMCA (Soft Independent Modelling of Class Analogy) est une méthode statistique descriptive supervisée de classement de données développée par Wold et al en 1976110 basée sur l’ACP qui requiert un ensemble de données de calibration où l’appartenance de chaque objet à une classe est définie en amont. L’hypothèse de base de cette méthode est, que la principale variabilité systématique caractérisant les échantillons d’une classe, peut être capturée par un modèle construit à l’aide d’une ou plusieurs composantes principales de dimensionnalité déterminée par validation croisée sur le jeu de données de formation. SIMCA génère autant de modèles différents qu’il n’y a de classes.

A partir de la matrice XA correspondant aux données collectées sur les échantillons du groupe A, SIMCA suppose que l’information importante en termes de similarité à travers les échantillons de cette classe, peut être capturée par un modèle ACP à C composantes selon l’équation suivante :

(8)

Où TA et PA sont respectivement les matrices des scores et des loadings obtenus sur les C composantes des échantillons du groupe A et EA la matrice contenant les résidus non modélisés de XA.

49

Une fois la décomposition calculée par l’ACP, les résultats sont utilisés pour définir le modèle de la classe en question.

Initialement, dans la première version de l’algorithme SIMCA, seulement l’information contenue dans les résidus est utilisée pour vérifier si un échantillon appartient ou non à une certaine classe. La distance entre un objet p et le modèle de la classe A est reliée à la déviation standard résiduelle selon :

(9)

Où ν représente le nombre de variables, nA le nombre d’échantillons de la classe A, C le nombre de composantes principales du modèle et eij la ième ligne et la jème colonne de la matrice des résidus EA.

peut être considérée la mesure de l’étendue, en moyenne, de la distance entre les différents points du modèle et le modèle construit. C’est ce concept de distance au modèle qui constitue la base de la classification des échantillons inconnus. Ainsi, afin de vérifier si un échantillon inconnu, caractérisé par un vecteur de mesures xn appartient ou non à une classe, celui-ci est projeté sur l’espace en composantes principales défini dans l’équation (8) :

(10)

Où tn,a est le vecteur contenant les scores de l’échantillon inconnu sur les C composantes principales du modèle de la classe en question. Ensuite, la représentation du modèle de l’échantillon inconnu xn,a est obtenu par une projection des scores au sein de l’espace original des variables :

50

Il est alors possible de calculer le vecteur des résidus, noté en,A pour l’échantillon inconnu par rapport à la représentation en composantes principales de la classe A comme étant la différence entre xn et xn,A :

(12)

Une fois le vecteur des résidus calculé, celui-ci est alors utilisé pour définir la distance de l’échantillon inconnu au modèle qui est exprimé comme nous l’avons vu précédemment par une déviation standard sn,A définie par :

(13)

Où enj,A représente le jème élément du vecteur des résidus en,A. Pour vérifier si la distance de l’échantillon au modèle est comparable ou trop importante par rapport à la variabilité de la classe étudiée, un test F (test de Fisher), est appliqué pour comparer s0,A et sn,A. Le test de Fisher mesure le rapport entre les deux variances et le compare à une certaine valeur théorique issue de la table de Fisher. Si la valeur est inférieure à celle théorique l’hypothèse nulle est acceptée, auquel cas celle-ci est rejetée.

Généralement, une valeur de 95 % est utilisée pour le test de Fisher (5% d’erreur), et une limite pour les valeurs des distances entre les échantillons inconnus et le modèle de la classe A est définie par :

(14)

Ainsi, si la distance de l’échantillon au modèle de la classe A sn,A est plus petite que la valeur du seuil , alors celui-ci est accepté par la classe A sinon il est rejeté. Si plusieurs classes sont présentes, cette procédure est alors appliquée à l’ensemble des modèles.

Les mêmes concepts sont utilisés pour les différentes améliorations existantes dans la littérature apportées à cette première version de SIMCA. Wold proposa ainsi, une première amélioration en 1977111, tenant compte, non seulement de la distance orthogonale d’un objet

51

au modèle (résidus), mais également de la distance entre celui-ci et les autres observations dans l’espace des composantes principales (distance en termes de scores).

Nous allons à présent nous intéresser à une version alternative, qui est celle que nous allons utiliser dans cette thèse, où le degré d’appartenance d’un individu est évalué à l’aide d’une procédure empruntée aux contrôles de processus statistiques multivariés (Multivariate Statistical Process Control)112. Après avoir calculé le modèle statistique selon l’équation (8) le critère d’acceptabilité de cette méthode alternative est défini à l’aide d’une distance orthogonale (notée Q) et d’une distance en termes de scores (notée T ) de la façon suivante. Tout d’abord, pour mesurer la distance d’un échantillon dans l’espace des scores, une variable statistique notée T2, qui représente le carré de la distance de Mahalanobis113 est introduite :

(15)

Où tk,A est le vecteur colonne rassemblant les scores du kème échantillon sur les composantes principales du modèle de la classe A, ΛA est une matrice diagonale possédant autant d’éléments que de valeurs propres des C composantes principales et est la valeur T2 pour le kème échantillon par rapport au modèle de la classe A.

De plus, la somme des carrés résiduels, notée Q, est utilisée pour définir la distance orthogonale :

(16)

est la valeur Q pour le kème échantillon par rapport au modèle de la classe A.

Ensuite, les deux limites pour T2 et Q sont calculées basées sur 95 % de leurs distributions correspondantes :

52

est la limite critique de T2 pour la classe A, le 95ème centile de la distribution F correspondant aux C et (nA – C) degrés de liberté.

Et la limite de Q est calculée en utilisant l’approximation de Jackson et Mudholkar114

: (18) Avec (19) Et (20)

est la limite critique de Q pour la classe A, est le 95ème centile de la distribution normale standardisée, est la valeur propre e la lème composante principale pour la classe A et la somme de l’équation (20) est calculée pour toutes les composantes non incluses dans la définition du modèle de la classe A.

Une fois que ces deux valeurs limites ont été déterminées, la distance d’un échantillon k au modèle de la classe A, notée est exprimée selon :

(21)

et correspondent respectivement au T2 réduit et Q réduit qui sont les valeurs pour l’échantillon k lorsqu’il est projeté sur le modèle de la classe A, normalisés par leur valeurs limites correspondantes pour la classe A. Une valeur de est couramment fixée comme critère d’acceptation ou de rejection d’un échantillon à un modèle donné. Ainsi, si

, l’échantillon k est considéré comme appartenant au modèle de la classe A auquel cas celui-ci est rejeté.

Un exemple de modèle SIMCA est présenté en Figure 12. Sur celle-ci une valeur de 1 est fixée comme critère d’acceptation.

53

Figure 12 : Exemple de modèle SIMCA à 5 composantes principales, obtenu à l’aide des données acquises sur des échantillons de caviar. En rouge les points utilisés pour la construction du modèle et en vert ceux utilisés pour le classement des échantillons inconnus. L’axe des abscisses représente les valeurs de tandis que celui des ordonnées représente les valeurs de . Les limites du modèle sont délimitées par les axes en points tillés bleu (valeur limite de 1 dans le cas présent).