jusqu'à Variable - Acquisition finale - Développement d'une méthode d'évaluation de la viabilit

Acquisition finale

Variable 1 jusqu'à Variable

Fraction du nombre de colonies dont Variable est située dans l'une de 10 classes, calculé de façon cumulative

Variable mu Moyenne de la distribution normale ajustée de Variable Variable sigma Écart-type de la distribution normale ajustée de Variable Variable normal Indique si Variable suit une distribution normale en vertu du

test de Kolmogorov-Smirnov (niveau de signification de 5%) Variable skew Asymétrie de la distribution de Variable, calculé à l’aide de la

fonction skewness de MATLAB, indiquant si la distribution est plus étalée à gauche ou à droite du centre

Variable kurt Kurtosis de la distribution de Variable, calculé à l’aide de la fonction kurtosis de MATLAB, indiquant si la distribution est plutôt aplatie ou centrée

Variable median Médiane de la distribution de Variable, indiquant la valeur qui est au centre de la distribution

L’ensemble des données ainsi compilées constituaient 608 variables qui étaient ensuite utilisées pour analyse.

Analyse multivariée

Tel que décrit dans la section précédente, un nombre important de données ont été générées à partir de chaque échantillon. Pour cette raison, la comparaison des échantillons par approche univariée uniquement aurait été fastidieuse et aurait vraisemblablement conduit à l’omission de certaines relations. D’autre part, plusieurs des variables générées étaient fortement corrélées. Conséquemment, l’utilisation de MLR (multiple linear regression) n’aurait pas été optimale, puisque cette dernière est sensible à la présence de colinéarité entre les prédicteurs139.

Considérant ces observations, l’utilisation de méthodes multivariées (PCA et PLS, décrites ci-dessous) a été préconisée. En effet, ces méthodes peuvent efficacement utiliser un grand nombre de variables simultanément et les synthétiser en un modèle plus facile à interpréter. De plus, ces dernières sont aptes à gérer la présence de variables fortement corrélées.

Ainsi, cette section vise à expliquer le fonctionnement de ces méthodes ainsi que la façon dont elles ont été appliquées aux données généréesF.

PCA

L’analyse par composantes principales (appelée PCA par la suite, de l’anglais principal component analysis) est en quelque sorte la fondation de l’analyse multivariée140,141. L’algorithme PCA est appliqué à une matrice de données X de dimensions N par K, où N est le nombre d’observations (lignes de la matrice) et K est le nombre de variables mesurées (colonnes de la matrice). L’algorithme PCA permet de représenter ces données X à l’aide de composantes principales (aussi appelées variables latentes).

Prétraitement des données

L’utilisation de prétraitements mathématiques permet d’éviter que certaines variables aient un poids disproportionné dans la génération du modèle140. Dans cette optique, les données utilisées dans ce projet ont été centrées et réduites. Ainsi, la moyenne de chaque variable a été soustraite de la valeur de la variable pour chaque observation.

Outre les références spécifiques mentionnées dans la section, cette dernière a été principalement élaborée à partir des ouvrages de Kevin Dunn139,141 et Amélie Dufour166.

Subséquemment, la valeur de chaque variable a été divisée par son écart-type. Mathématiquement, ce prétraitement peut être représenté ainsi :

𝑥𝑘,𝑖 =𝑥𝑘,𝑖,𝑏𝑟𝑢𝑡_𝜎 −𝑥̅̅̅̅̅̅̅̅̅̅𝑘,𝑏𝑟𝑢𝑡

𝑘,𝑏𝑟𝑢𝑡 (3)

Où 𝑥𝑘,𝑖,𝑏𝑟𝑢𝑡 est la valeur d’une variable k pour une observation i avant prétraitement, 𝑥𝑘,𝑏𝑟𝑢𝑡

̅̅̅̅̅̅̅̅̅ est la moyenne de la variable k avant prétraitement, 𝜎𝑘,𝑏𝑟𝑢𝑡 est l’écart-type de la variable k avant prétraitement et 𝑥𝑘,𝑖 est la valeur de la variable k à l’observation i après prétraitement. Il est à noter que centrer et réduire les données ne change pas la relation entre les données, en ce sens où deux variables qui étaient positivement corrélées avant le prétraitement le seront également suite au prétraitement.

Interprétation géométrique

L’algorithme PCA peut être approché intuitivement sous un angle géométrique. Ainsi, le nombre de variables K peut également être interprété comme étant le nombre de dimensions de l’hyperespace dans lequel se situe le point correspondant à une observation. En utilisant pour exemple un cas où K = 2 (donc 2 variables), chaque observation centrée et réduite correspond à un point dans un espace à 2 dimensions (Figure 9). Un nuage de points est ainsi formé par l’ensemble des observations. Dans ce contexte, la première composante principale correspond à la ligne qui passe à travers le nuage de points et qui y est la mieux ajustée. Les points peuvent alors être projetés sur la première composante principale, leur distance le long de la composante principale à partir du centre du modèle étant le score t1 de l’observation. La deuxième composante principale consiste en la ligne perpendiculaire à la première ligne permettant un meilleur ajustement du modèle (c’est-à-dire les deux composantes principales) au nuage de points. Ainsi, la distance d’une observation le long de cette deuxième composante correspond au score t2 de l’observation.

Figure 9: Explication géométrique d'un modèle PCA à 2 composantes (le centre du modèle est représenté par un point blanc)

L’approche expliquée au paragraphe précédent (ajout de composantes perpendiculaires pour mieux ajuster un nuage de points) peut également être appliquée à des données possédant plus de dimensions (K>2). Ces composantes peuvent être ajoutées jusqu’à ce que leur nombre soit égal au minimum entre N ou K.

La représentation d’observations relativement aux composantes principales permet de résumer plus efficacement ces dernières et de mieux percevoir la façon dont elles se ressemblent ou diffèrent. En effet, les composantes principales constituent les directions dans lesquelles les données varient le plus, ce qui implique que les distances mesurées dans ces directions peuvent représenter une grande différence entre les observations impliquant plusieurs variables.

42 Application numérique

Diverses méthodologies peuvent être appliquées pour calculer les composantes principales d’une matrice de données X. L’algorithme décrit ci-dessous, intitulé NIPALS, est celui qui est utilisé par le logiciel d’analyse de données qui a été employé pour ce projet (SIMCA-P, par Umetrics142). L’algorithme implique les matrices suivantes :

 X (matrice contenant les données prétraitées);

 t (vecteurs des scores des observations, compilés dans la matrice T);

 p (vecteurs des poids (loadings) de chacune des variables pour chaque composante principale, compilés dans la matrice P);

 E (erreur, c’est-à-dire l’écart non-expliqué par le modèle).

L’algorithme NIPALS fonctionne de manière itérative et applique les étapes suivantes143_: 1. Initialisation de t avec une colonne quelconque de X

2. Calcul de la première composante

a. Calcul de p1, brut par régression de X et t1 (𝑝1,𝑏𝑟𝑢𝑡𝑇 = 𝑡1𝑇∙𝑋 𝑡₁𝑇∙𝑡1) (4) b. Normalisation de p1 (𝑝1𝑇 = 𝑝_{1,𝑏𝑟𝑢𝑡}𝑇 ‖𝑝_{1,𝑏𝑟𝑢𝑡}𝑇 ‖) (5) c. Calcul de t1 à partir de p1 et X (𝑡1= 𝑋 ∙ 𝑝1) (6) d. Vérification de la convergence de t1 par comparaison avec t1 calculé

précédemment et répétition des étapes a à c si t1 n’a pas encore convergé

3. Calcul de E (𝐸 = 𝑋 − 𝑡1∙ 𝑝1𝑇) (7)

4. Calcul de la composante principale suivante (t2, p2, etc.) en utilisant E plutôt que X Selon ce processus, les scores t obtenus représentent la distance entre les observations et le centre du modèle selon la composante principale correspondante, tel que décrit précédemment. Les poids P constituent la direction que prend chaque composante principale. L’ajout de composantes principales permet de réduire l’erreur du modèle E. Toutefois, l’inclusion d’un trop grand nombre de composantes principales peut conduire à un sur-ajustement du modèle, où les composantes excédentaires modélisent le bruit présent dans le jeu de données plutôt que les phénomènes d’intérêt. Le choix du nombre de composantes à employer est décrit dans la section décrivant l’algorithme PLS.

PLS

Comparaison à l’algorithme PCA

L’algorithme PLS peut être perçu comme étant une extension du PCA. Dans ce cas, une matrice X est employée pour prédire les valeurs contenues dans une matrice Y144. Cet objectif est accompli en ajustant des composantes principales dans l’espace X et l’espace Y et en maximisant la covariance entre ces composantes principales. Ainsi, l’algorithme PLS peut être interprété dans une certaine mesure comme étant la génération simultanée de deux modèles PCA qui sont calculés de façon à être alignés, ce qui permet donc d’utiliser les données en X pour passer dans l’espace Y et ainsi obtenir une prédiction. Il est important de souligner qu’un modèle PLS se base sur la corrélation entre les données, mais n’implique pas nécessairement que les phénomènes décrits dans l’espace Y soient causés par les phénomènes de l’espace X. Par exemple, dans le cas de la quantification d’un actif pharmaceutique dans un comprimé par une méthode spectroscopique, les données en X (données spectroscopiques) sont utilisées pour prédire la concentration de l’actif (espace Y), alors qu’en pratique c’est la concentration en actif qui cause un changement dans la réponse spectroscopique mesurée117.

Application numérique

La procédure générale décrite ci-dessous correspond au NIPALS143. Dans ce cas, les matrices suivantes sont impliquées :

 X et Y (matrices de données servant à la prédiction et étant prédites, respectivement);

 t et u (vecteurs des scores des composantes calculées pour X et Y compilés dans les matrices T et U, respectivement)

 w et c (vecteurs des poids (loadings) de chacune des variables pour chaque composante principale compilés dans les matrices W et C, respectivement, où w contient les poids du sous-espace X et c les poids du sous-espace Y)

Comme pour l’algorithme PCA, la méthode de calcul est itérative143_: 1. Initialisation de u à partir d’une colonne de Y

2. Calcul de la première composante

a. Calcul de wbrut à partir de X et u (𝑤 = 𝑋𝑇∙𝑢

44 b. Normalisation de wbrut en w (𝑤 = 𝑤𝑏𝑟𝑢𝑡 ‖𝑤𝑏𝑟𝑢𝑡‖) (9) c. Calcul de t à partir de X et w (𝑡 = 𝑋∙𝑤 𝑤𝑡_∙𝑤) (10) d. Calcul de c à partir de Y et t (𝑐 =𝑌_𝑡_𝑇𝑇_∙𝑡∙𝑡) (11) e. Calcul de u à partir de Y et c (𝑢 = 𝑌 ∙ 𝑐) (12)

f. Itération des étapes a. à e. jusqu’à convergence de u 3. Déflation des matrices X et Y

a. Calcul de p (𝑝 =𝑋_𝑡_𝑇𝑇_∙𝑡∙𝑡) (13)

b. Déflation de X à partir de p et t (𝑋𝑑é𝑓𝑙𝑎𝑡𝑖𝑜𝑛 = 𝑋 − 𝑡 ∙ 𝑝𝑇) (14) c. Déflation de Y à partir de c et t (𝑌𝑑é𝑓𝑙𝑎𝑡𝑖𝑜𝑛= 𝑌 − 𝑡 ∙ 𝑐𝑇) (15) 4. Répétition des étapes 2 et 3 pour les composantes suivantes à partir des matrices

X et Y une fois leur déflation effectuée

D’autre part, W est généralement converti sous la forme de W*, où :

𝑊∗= 𝑊 ∙ (𝑃𝑇∙ 𝑊)−1 (16)

Cette transformation rend W en une forme plus facilement interprétable, puisqu’elle relie alors directement les scores au produit de la matrice X et des poids, contrairement à W non-transformé qui ne peut faire ce lien que sur X suivant les déflations requises selon la composante analysée.

Application aux données générées

Dans le document Développement d'une méthode d'évaluation de la viabilité et de la stabilité de Bifidobacterium longum par analyse d'images (Page 52-58)