• Aucun résultat trouvé

Les données qui ont été générées par le biais de l’analyse d’images ont été utilisées en tant que matrice X, à la fois pour la construction de modèles PCA et PLS. Dans le cas des modèles PLS, deux types de matrices Y ont été utilisées. Dans certains cas, la variable Y prédite était une variable utilisée dans l’expérience (par exemple, le nombre de colonies par gélose). Dans d’autres cas, la matrice Y contenait des valeurs binaires correspondant au conditionnement appliqué (par exemple, la variable Y aurait une valeur de 1 pour un échantillon conditionné et de 0 pour un échantillon non conditionné). Cette approche a été utilisée parce que la valeur exacte du taux de dégradation de la plupart des échantillons n’a pas été déterminée. L’analyse a donc été effectuée sous un angle de classification entre échantillons conditionnés ou pas. Néanmoins, un modèle PLS utilisant deux classes à distinguer est mathématiquement identique à un modèle prédisant deux valeurs

45

quantitatives de Y après que celles-ci aient été centrées et réduites. Ainsi, obtenir un modèle PLS permettant un certain degré de classification est en quelque sorte préalable à l’obtention d’un modèle PLS quantitatif.

Bien que cela n’ait pu être pleinement abordé dans le cadre du projet, le choix de l’utilisation de modèles PLS a été fait pour permettre la prédiction du taux de dégradation d’un échantillon bactérien en conditions de stabilité. En effet, ce taux de dégradation pourrait être modélisé à partir de l’équation suivante :

𝑘 =log10( 𝑛0

𝑛)

𝑡 (17)

Où k est la constante de dégradation, n0 le nombre de CFU initialement viables et n le nombre de CFU viables après un temps t145. Ainsi, le k des observations pourrait être utilisé en tant que matrice Y dans un modèle PLS, permettant ainsi de convertir les données générées sur un échantillon bactérien en une prédiction de la stabilité attendue de l’échantillon.

Validation

Différents outils ont été utilisés pour vérifier la qualité des modèles créés. L’un de ces indicateurs est le R2, qui représente la proportion de la variance expliquée par le modèle relativement à la variance totale. Cet indicateur a toutefois le défaut de ne pas révéler la présence de sur-ajustement. En effet, R2 ne permet pas de distinguer entre la variance due au bruit du jeu de données et la variance « utile ». Afin de pallier à ceci, , la validation croisée a été utilisée pour calculer une version ajustée de R2. En bref, cette méthode de validation consiste à subdiviser les données disponibles en sous-groupes et à prédire les données de chaque sous-groupe à partir d’un modèle construit avec les sous-groupes restants139. Cette méthode permet de calculer Q², qui constitue une version validée de R² et permet donc de vérifier si un modèle est réellement ajusté à un phénomène et non seulement à du bruit aléatoire. L’indicateur Q2 a été utilisé lors de l’ajustement des modèles multivariés de ce mémoire afin de déterminer le nombre de composantes à utiliser. Ainsi, des composantes ont été ajoutées jusqu’à l’atteinte d’une valeur plafond pour Q2. L’utilité et la pertinence des composantes ajoutées ont ensuite été évaluées à partir des autres indicateurs décrits ci-dessous ainsi que par observation des poids afin d’identifier si ces composantes semblaient modéliser un aspect significatif du jeu de données.

46

Certaines variables ont également été validées par le biais de jackknifing. Cette approche consiste en le retrait d’un sous-groupe d’observations et le recalcul des variables à valider146. La distribution formée par ces variables recalculées permet d’estimer des intervalles de confiance. Ainsi, une variable dont la valeur change considérablement lors du cycle de validation croisée comporte probablement beaucoup de bruit et n’est pas potentiellement pas corrélée avec Y.

L’erreur de prédiction d’un modèle PLS est typiquement rapportée par le biais de trois estimateurs. Dans les trois cas, l’erreur (appelée RMSE, pour Root Mean Square Error) est calculée et résumée par le biais de l’équation suivante :

𝑅𝑀𝑆𝐸 = √∑ (𝑦𝑖,𝑝𝑟é𝑑𝑖𝑡−𝑦𝑖,𝑟é𝑒𝑙)2 𝑛

𝑖=1

𝑛 (18)

Dans cette équation, yi,prédit est la valeur de y prédite par le modèle, yi,réel est la valeur mesurée de y et n est le nombre d’observations. Les trois versions du RMSE généralement utilisées sont les suivantes :

 RMSEE, pour Estimation, où le RMSE est calculé directement sur les observations utilisées pour construire le modèle;

 RMSECV, pour Cross Validation, où les observations sont divisées en sous-groupes et le RMSE est calculé pour chaque sous-groupe à partir des prédictions formées pour un modèle contenant toutes les observations à l’exception du sous-groupe en question;

 RMSEP, pour Prediction, où le RMSE est calculé à partir des observations d’un jeu de validation147.

D’autre part, la validité d’un modèle PLS peut être évaluée par le biais de la permutation des valeurs de Y148. Dans ce cas, la stratégie consiste en les étapes suivantes :

 Permutation des valeurs de Y utilisées dans le modèle PLS;

 Calcul de la corrélation entre les valeurs de Y permutées et les valeurs de Y originales;

 Calcul du Q² pour un modèle formé à partir des valeurs de Y permutées;  Répétition des étapes précédentes.

Les résultats obtenus par cette procédure sont représentés sur un graphique ayant la corrélation entre les Y sur l’axe des X et le Q² correspondant sur l’axe des Y. Il est attendu

47

d’un modèle valide que les valeurs de Q² obtenues par permutation soient plus faibles que le Q² du modèle original.

Outils d’interprétation employés

Divers outils peuvent être utilisés pour faciliter l’analyse des modèles multivariés. Cette section vise donc à expliquer les quelques outils qui ont été employés et qui sont présentés dans le chapitre suivant.

Dans un modèle PLS, les variables peuvent être classées en ordre de poids global dans le modèle. Cette opération est effectuée par le biais des VIP (pour Variable Importance in Projection), qui sont calculés en utilisant le poids de chaque variable pour chacune des composantes et en normalisant ces valeurs simultanément avec l’ensemble des variables149. Ainsi, une variable d’importance moyenne obtient une valeur d’environ 1, alors qu’une valeur plus élevée que 1 est attribuée aux variables plus importantes et vice- versa.

Toujours au niveau des modèles PLS, le poids des variables peut également être résumé sous la forme des coefficients. Ces derniers représentent en fait les coefficients qui sont obtenus si le modèle est réécrit sous la forme d’un modèle de régression linéaire :

𝑌 = 𝑋 ∙ 𝐵 (19)

où la matrice B contient les coefficients. Ils sont donc une indication de l’importance de chaque variable ainsi que la direction de sa corrélation générale avec Y (positive ou négative).

Le graphique des scores consiste simplement en une représentation des scores sur un système à deux axes, chacun représentant une composante principale. Ce type de graphique est utile pour percevoir le regroupement des observations et déterminer si des structures sont présentes. Une ellipse est ajoutée à ce graphique pour représenter l’intervalle de confiance à 95%, à l’intérieur duquel approximativement 95% des observations devraient se situer. Les observations à l’extérieur de cette ellipse sont relativement différentes des observations contenues dans le modèle. Il est possible qu’elles constituent des données aberrantes, quoique ce ne soit pas nécessairement le cas.

Enfin, il est pratique de produire un graphique ayant sur l’axe des X les valeurs prédites par le modèle et sur l’axe des Y les valeurs réelles correspondantes. Dans un modèle

48

parfait, tous les points seraient situés sur la bissectrice du graphique. Toute déviation de cette ligne constitue donc une erreur de prédiction.

49

Chapitre 3 – Résultats