• Aucun résultat trouvé

Sélection du nombre de composantes et validation croisée

Partie II- Métabolomique

III. 2.2) Approche algébrique

III.6) Sélection du nombre de composantes et validation croisée

De manière générale, quelle que soit la méthode statistique utilisée et présentée dans les premières sections de ce chapitre (ACP, OPLS-DA ou SIMCA), une question se pose : Combien de composantes doivent être utilisées ? En effet, le nombre de composantes doit être déterminé de telle sorte que toute l’information contenue dans le jeu de données initial soit utilisée tout en faisant attention à ne pas réaliser du sur-apprentissage.

La réponse diffère en fonction de la méthode statistique employée, nous allons donc présenter les différentes techniques ou critères utilisés pour déterminer le nombre optimal de composantes en séparant le cas de l’ACP de celui des techniques de classification.

62

Une décomposition classique de l’ACP consiste en la distinction de la variance expliquée et du bruit. Cependant, il est plus juste de la présenter sous la forme « information pertinente » + « autre variance expliquée » + bruit. Ainsi, l’établissement du nombre de composantes principales correspondant à l’information pertinente est crucial et extrêmement utile.

Un des règles les plus simples est de retenir un nombre de composantes correspondant à un pourcentage donné de la variance expliquée (critère de Jolliffe120), par exemple 80-90%. Dans ce cas, le type de données et de prétraitement doivent être pris en compte. Par exemple, si les données n’ont pas été centrées la première composante principale expliquera un grand pourcentage de la variance de celles-ci.

Un autre règle est basée sur l’évaluation numérique des valeurs propres et consiste à ne garder que les valeurs propres ( ) qui sont supérieures à la moyenne des valeurs propres (critère de Kaiser121). Ce critère admet que dans le cas d’une parfaite indépendance entre les variables, les composantes principales sont les mêmes que les variables originales et de variance égales (l’ACP représente une rotation de ces axes) et que seules les valeurs supérieures à la moyenne sont jugées informatives. Dans le cas d’une ACP normée la moyenne est de 1 et toutes les composantes possédant une valeur inférieure à 1, seront écartées.

Enfin, un dernier moyen de déterminer le nombre de composantes principales optimales est la représentation graphique du diagramme d’éboulis (« scree-plot ») correspondant à la représentation des valeurs propres ( ) en fonction de chaque composante principale. Le principe consiste à rechercher s’il existe un point d’inflexion, également appelé « coude », sur la courbe de décroissance de l’inertie et à ne conserver que les composantes jusqu’à ce « coude » (critère de Cattell122). Un exemple de diagramme d’éboulis est donné en Figure 15.

63

Figure 15 : Exemple de diagramme d’éboulis, représentant les valeurs propres ( ) en fonction de chaque composante principale. Dans le cas présent, le coude est obtenu au niveau de la 4ème composante principale.

Différentes considérations sont à prendre dans le cas où l’ACP est utilisée comme technique de classification (SIMCA) ou dans le cas des régressions (OPLS-DA) et la détermination du nombre de composantes optimal est alors réalisée par validation croisée.

Avec la validation croisée, les données initiales sont utilisées à la fois pour la construction du modèle et pour l’évaluation de celui-ci.

Tout d’abord, le jeu de données initial est séparé en deux matrices : une matrice de calibration et une matrice de validation. Ainsi, certains individus sont alors exclus du jeu de données de calibration et le modèle est calibré sur les individus restants. Ensuite, les valeurs pour les objets exclus sont prédites et les résidus de prédiction sont calculés. Cette procédure est alors répétée avec un autre sous ensemble de jeu de données de calibration et ainsi de suite jusqu’à ce que tous les objets aient été exclus une fois. Une fois cette étape réalisée, tous les résidus de prédictions ainsi obtenus sont combinés pour calculer la variance résiduelle de validation et la racine carrée de l’erreur quadratique (« Root Mean Squared Error», notée RMSE) qui permettent d’estimer le score de validation croisée. Le modèle optimal (et donc le nombre de composantes optimal) est défini comme celui ayant obtenu le meilleur score de validation croisée. 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 0 2 4 6 8 10 V al e ur s pr op re s N° de Composante principale

Diagramme d'éboulis

Point d'inflexion

64

Plusieurs schémas de validation croisée peuvent être employés :

- La validation croisée intégrale (« leave-one-out ») qui exclut seulement un objet à la fois. Les autres objets sont utilisés pour construire le modèle qui est par la suite appliqué à l’échantillon écarté. Cette procédure est répétée jusqu’à ce que tous les échantillons aient été exclus. Cette option est principalement utilisée pour les jeux de données peu important.

- La validation croisée segmentée qui décompose en un certain nombre de segments aléatoires la matrice de données initiale, par exemple 10% des données dans chaque segment. Un des segments est exclu (qui servira à tester le modèle) et le modèle est construit à l’aide des autres segments. La procédure est alors répétée sur un autre segment, le segment précédemment exclu étant réincorporé aux données de construction du modèle, et jusqu’à ce que tous les segments aient été testés. Ce schéma de validation croisée est employé pour les jeux de données conséquents pour lesquels la validation croisée conduirait à un temps de calcul trop important.

- La validation croisée segmentée systématique qui exclut un certain nombre d’objets de façon logique. Un exemple typique de l’utilisation de cette méthode est le cas des réplicas d’un échantillon. La matrice de données initiale est décomposée en plusieurs segments dont le nombre dépend du nombre de réplicas.

- La validation croisée catégorique. Les données sont séparées en plusieurs matrices en fonction d’un paramètre spécifique (saison, fournisseur, région, année, opérateur, envoi…). Cette procédure permet d’évaluer la robustesse du modèle en fonction de paramètres particuliers.

Aucune de ces procédures de validation n’est préférable à une autre : le choix de la méthode employée dépend du jeu de données et est à réaliser au cas par cas. Il est notamment important de s’assurer que des spectres issus du même échantillon (duplicat ou triplicat) font partie du même groupe de calibration.

Maintenant que nous avons réalisé une présentation de la métabolomique et détaillé les procédures de prétraitement des données RMN en vue de leur analyse par les différentes méthodes statistiques décrites au sein de cette partie (ACP, SIMCA et OPLS-DA), nous allons présenter succinctement, dans la Partie III, les différentes séquences et paramètres RMN utilisées pour l’acquisition des spectres ainsi que les protocoles de préparation des échantillons de poisson par RMN HR-MAS et de caviar par RMN liquide. Une fois cette

65

nouvelle partie traitée, nous pourrons alors nous intéresser aux résultats obtenus lors de la réalisation des travaux de cette thèse, sur des matrices semi-solides par RMN HR-MAS puis à ceux de l’étude du caviar par RMN liquide (Partie IV).

66