• Aucun résultat trouvé

Approches chimiométriques pour l’analyse des données

Chapitre VI Interprétation et validation des résultats

V. Approches chimiométriques pour l’analyse des données

V.1

Généralités

Le terme chimiométrie a été introduit pour la première fois par Svante Wold en 1974245. Il définit une réelle discipline scientifique dont la vocation est de sélectionner les procédures optimales pour acquérir des données de nature chimique et d’en extraire un maximum d’informations pertinentes. La chimiométrie fait donc appel à diverses méthodes issues de disciplines quantitatives : mathématiques appliquées, statistiques multivariées et informatique. Ces approches permettent d’explorer de grands volumes de données comprenant des mesures de plusieurs variables sur plusieurs échantillons à plusieurs instants. Dans notre cas, la complexité et la dimension des données acquises en spectrométrie de masse rendent archaïques les méthodes classiques univariées de visualisation des données. Des approches chimiométriques plus sophistiquées permettent d’explorer ces données dans leur globalité. Dans cette approche, il est primordial de préserver l’aspect combinatoire du code histone et en tenant compte des effets conjoints des variables, c’est-à-dire de la façon dont elles interagissent les unes avec les autres. Les approches statistiques multivariées utilisées en chimiométrie, à l’inverse des méthodes classiques univariées qui ne prennent en compte que quelques variables à la fois, permettent de considérer l’ensemble des variables. Elles constitueront ainsi une unité que l’on appelle une forme ou un motif. Les méthodes statistiques multivariées permettent d’identifier des formes à partir des données brutes et attribuent chaque forme à une catégorie d’échantillons. Ces formes identifiées sont ensuite comparées entre elles afin d’extraire les variables responsables de leurs similitudes et de leurs différences. C’est ce que l’on appelle la reconnaissance de formes ou pattern recognition,

branche de l’apprentissage automatique. Ces méthodes seront donc particulièrement utiles dans le cadre de notre approche histonomique globale puisqu’elles nous permettront de comparer les profils d’histones d’échantillons sains versus ceux d’échantillons exposés à des xénobiotiques que l’on soupçonne de perturber la régulation épigénétique. Elles répondent parfaitement à notre volonté de conserver l’information combinatoire du code histone et de considérer l’ensemble des variables comme une entité.

Les méthodes de reconnaissance de formes sont regroupées en deux classes distinctes : les méthodes non supervisées et les méthodes supervisées. Le choix de la méthode dépend du type d’information recherché. Les méthodes non supervisées sont des méthodes descriptives tandis que les méthodes supervisées sont prédictives. Nous détaillerons au cours de ce chapitre les raisons pour lesquelles nous avons employé ces méthodes ainsi que la nature de l’information que nous avons pu extraire de chacune d’elles. Les détails concernant le principe mathématique de ces méthodes ainsi que l’évaluation et l’interprétation des modèles générés sont présentés en partie expérimentale.

V.2

Méthodes non supervisées

Les méthodes non supervisées sont utilisées pour analyser un ensemble de variables sans attendre de réels résultats quantifiables. Ce sont des méthodes descriptives qui explorent les données de façon aveugle sans aucun a priori sur la nature des échantillons, considérés comme analogues. Elles nous permettent d’explorer la variabilité naturelle qui existe entre tous les échantillons et de révéler des structures à l’intérieur des matrices de variables. En résumé, elles mettent en évidence les tendances naturelles de regroupement qui peuvent exister entre les échantillons. Pour ce faire, les méthodes non supervisées utilisent principalement des représentations graphiques. Leurs résultats sont donc évalués visuellement.

V.2.1 Classification ascendante hiérarchique

La classification ascendante hiérarchique (CAH) est la première méthode non supervisée que nous avons mise en œuvre pour explorer les tendances naturelles de

regroupement entre nos échantillons. Sans indiquer la nature des échantillons (exposés ou non) cette méthode permet de les fractionner en groupes naturels ou

clusters. L’approche que nous avons utilisée est dite agglomérative. Chaque échantillon constitue à la base son propre groupe, puis les groupes sont fusionnés deux à deux au fur et à mesure que l’on remonte dans la hiérarchie. Pour décider quels échantillons doivent être agglomérés ensemble, nous avons utilisé la méthode de Ward246 comme critère de classification. La représentation en dendrogramme utilise la distance Euclidienne comme mesure de la dissimilarité entre les groupes de variables. Ainsi, plus les branches du dendrogramme sont longues, plus la distance Euclidienne est grande et plus les groupes sont différents. Le regroupement hiérarchique est donc une méthode intéressante pour relier le comportement global des variables avec la nature des échantillons. Cependant, au regard du très grand nombre de variables, elle trouve vite ses limites lorsqu’il s’agit d’extraire celles qui sont principalement responsables de la formation des

clusters.

V.2.2 Analyse en composantes principales

V.2.2.1 Principe

L’analyse en composantes principales (ACP) est probablement la méthode non supervisée la plus populaire pour l’analyse multivariée de données biologiques. C’est la méthode exploratoire de choix lorsque l’on dispose de données volumineuses. Elle permet de réduire la dimension des données en les projetant dans un espace de plus faible dimension. Pour cela, son principe de base est de décomposer la matrice des variables X en une combinaison de la matrice des scores

T, la matrice des loadings P et la matrice des résidus E (figure 77) de façon à obtenir la relation suivante : !! = ! ∗ ! + !.

Figure 77 : décomposition matricielle de la matrice X effectuée lors d’une analyse en composantes principales.

L’ACP permet de révéler des structures cachées à l’intérieur des données en construisant des composantes principales (PC). Ces composantes sont des directions maximales de dispersion dans l’espace qui décrivent les sources de variance existant entre les échantillons. Elles correspondent en réalité aux vecteurs propres de la matrice des variances-covariances. Ces vecteurs propres sont calculés successivement afin de minimiser l’erreur résiduelle à chaque étape, et chaque vecteur propre consécutif représente un maximum de variation dans le jeu de données247.

Chaque échantillon est projeté dans un plan tridimensionnel (score plot), et nous n’avons qu’à observer la répartition naturelle des échantillons dans cet espace pour repérer des tendances de regroupement, ou à l’inverse des directions de dispersion, voire des points qui ont un comportement totalement différent du reste des échantillons et que l’on qualifiera d’aberrants (outliers). L’ACP nous permet de déterminer en un coup d’œil s’il existe des différences entre les profils d’histones des différents types d’échantillons et si elles sont reliées à la condition expérimentale étudiée, à savoir une exposition à un xénobiotique. Dans un second temps, chacune des variables peut également être projetée dans le même espace défini par les composantes principales (loading plot) afin d’identifier les principales variables responsables de la répartition géographique des échantillons dans le plan. L’ACP est donc très utile dans le cas d’une approche globale, mais ne suffit pas à établir un profil d’histones caractéristique d’une condition, profil qui

nous permettrait par la suite de classer les échantillons en fonction de leur code histone.

V.2.2.2 Choix du nombre de composantes

D’un point de vue théorique, il existe autant de composantes principales que de direction possible de dispersion des échantillons. Autrement dit, il existe autant de composantes principales que d’échantillons étudiés lors d’une ACP. En pratique, le choix du nombre de composantes est très important et conditionne la qualité du modèle statistique qui en découle. Pour faire ce choix, deux paramètres doivent être pris en compte : le degré d’ajustement du modèle aux données et son pouvoir prédictif. Le degré d’ajustement du modèle peut être évalué quantitativement à l’aide du paramètre R²X qui traduit la part de variation expliquée mathématiquement par le modèle. Plus R²X est élevé, plus le modèle capte une part importante de la variation existante dans le jeu de données d’apprentissage. Cependant, un paramètre R²X élevé pris en compte seul n’est pas garant de la qualité d’un modèle statistique. En effet, le modèle peut capter du bruit ou une source de variation non pertinente comme lors de la présence d’individus aberrants (outliers). Il peut ainsi atteindre arbitrairement la valeur maximale de 1, soit 100% de la variation expliquée par le modèle. Il existe un paramètre plus significatif que le degré d’ajustement. Il s’agit du pouvoir prédictif d’un modèle. Il est mesuré à l’aide du paramètre quantitatif Q²X qui représente le pouvoir prédictif du modèle construit.

Les paramètres R²X et Q²X ont des comportements différents en fonction du degré de complexité du modèle, c’est-à-dire en fonction du nombre de composantes sélectionnées. Le paramètre R²X tend vers l’ajustement parfait, soit la valeur 1, lorsque la complexité du modèle augmente. Le paramètre Q²X quant à lui ne tend pas obligatoirement vers 1 et peut décroître lorsque le modèle devient trop complexe. Il faut donc trouver le meilleur équilibre entre la complexité du modèle et la part de variation prédite. Ce compromis se situe au niveau du plateau de Q² comme illustré sur la figure 78.

Figure 78 : évolution des paramètres R² et Q² en fonction du nombre de composantes sélectionnées dans le modèle. L’axe vertical représente la part de variation expliquée ou prédite. L’axe horizontal représente la complexité du modèle. La valeur de Q² atteint un plateau entouré ici en pointillés.

Dans notre cas nous avons utilisé la procédure de validation croisée248 (cross-

validation, CV) sur le R² et Q². Cette procédure de validation interne vise à trouver la dimension optimale d’un modèle afin qu’il présente les meilleures performances. L’idée de base de la validation croisée consiste à exclure une partie des données initiales lors de la construction du modèle puis de se servir du modèle pour prédire ces données. Les valeurs prédites sont comparées avec les valeurs réelles afin d’évaluer la performance du modèle. Cette procédure est répétée plusieurs fois jusqu’à ce que chaque individu ait été exclu une seule fois. Au final, les carrés des différences observées entres les valeurs prédites et les valeurs réelles sont additionnées afin de calculer le PRESS (Predictive Residual Sum of

Squares), mesure du pouvoir prédictif. Lorsqu’on augmente la complexité du

modèle, chaque composante est considérée comme significative si le PRESS divisé par la somme des carrées résiduels (residual sum of squares, SS) de la composante précédente est inférieur à 1.

V.2.2.3 Interprétation des résultats

Une ACP fournit principalement des représentations graphiques qui permettent d’interpréter les résultats. A partir du modèle généré et validé, deux types de représentation sont utiles pour visualiser la variabilité naturelle qui existe à l’intérieur d’un jeu de données (figure 79). La première représentation graphique est appelée scores plot. Elle correspond à la projection des échantillons dans

l’espace défini par les composantes principales. Elle permet donc de visualiser les tendances de regroupement des échantillons en fonction de leurs similitudes et de leurs différences. En parallèle, chaque variable peut être projetée dans ce même espace sur un loadings plot, qui permet, en le superposant au scores plot, d’identifier les variables responsables des regroupements observés.

Figure 79 : principe de construction et d’interprétation des résultats d’une analyse en composantes principales.

V.3

Méthodes supervisées

L’objectif final l’approche globale mise au point étant de discriminer les échantillons sur la base de leur profil d’histones, les méthodes supervisées se sont imposées comme étant des méthodes de choix. Elles considèrent les échantillons non plus de manière naïve mais en fonction d’une réponse observée. Elles englobent des méthodes de régression et de classification en fonction du problème posé. Les premières permettent de prédire une valeur numérique à l’image d’une droite de régression linéaire, tandis que les secondes permettent de prédire l’appartenance à une classe d’échantillons. Pour notre part nous avons utilisé les méthodes de classification. A partir d’un jeu de données d’apprentissage (training

set), chaque échantillon est étiqueté en fonction de son appartenance à une classe

Les méthodes de classification apprennent à reconnaître à partir du training set les critères qui ont permis de classer les échantillons dans chacun des groupes déterminés.

V.3.1 Analyse discriminante PLS

V.3.1.1 Principe

L’analyse discriminante par la méthode des moindres carrés partiels (Partial

Least Squares/Projection to Latent Structures-Discriminant Analysis, PLS-DA) est une méthode de classification dont le principe est de maximiser la covariance entrela matrice X des variables et la matrice Y des classes249 (figure 80).

Figure 80 : lors d’une analyse PLS-DA, la matrice Y est créee afin de labelliser chacun des échantillons présents dans la matrice X comme appartenant à une classe (0 ou 1 dans le cas d’une comparaison entre deux classes).

Pour cela, elle réalise une rotation de la projection dans l’espace afin d’obtenir des variables latentes qui se concentrent sur la discrimination des classes250. Contrairement aux analyses non supervisées, elle prend en compte l’appartenance des échantillons à une classe dès les premières étapes de la construction du modèle. Le modèle généré permettra donc d’obtenir une séparation maximale entre les classes sur la base des variables contenues dans la matrice X, puis d’extraire les variables responsables de cette discrimination. Cette analyse discriminante requière une certaine homogénéité à l’intérieur de chaque classe et peut modéliser entre 2 et 4 classes différentes. Au-delà, la discrimination devient hasardeuse.

V.3.1.2 Choix du nombre de composantes : validation croisée

La validation croisée se fait selon la même procédure que celle décrite précédemment pour les modèles ACP. Elle permet de déterminer le nombre nécessaire de composantes pour capturer suffisamment de variation sans intégrer de bruit au modèle. Les paramètres R²(cum) et Q²(cum) obtenus en additionnant respectivement les valeurs de R² et Q² de chaque composante retenue permettent d’estimer le pouvoir prédictif du modèle. Ces valeurs doivent ainsi être les plus élevées et les plus proches possibles l’une de l’autre pour garantir la fiabilité du modèle. Il survient parfois un phénomène de surapprentissage qui signifie que le modèle capte de l’information dans les données qui n’est en fait que du bruit et qui n’offrira aucun pouvoir prédictif. C’est pour éviter cela que les modèles PLS-DA doivent être soigneusement validés avant d’en tirer une quelconque interprétation biologique.

V.3.1.3 Validation des modèles

CV-ANOVA :

Une des limites du paramètre Q² fourni par la validation croisée est qu’il n’évalue que le pouvoir prédictif d’un modèle, mais ne fournit aucune information sur la significativité statistique du pouvoir prédictif estimé. Une des manières d’obtenir cette information est d’utiliser le test CV-ANOVA (ANalysis Of VAriance

testing of Cross-Validated predictive residuals). Ce test est un véritable outil

diagnostique qui évalue la fiabilité d’un modèle PLS-DA. Il consiste à réaliser un test d’hypothèse ANOVA sur les résidus obtenus après validation croisée du modèle251. Plus simplement, il teste si les résidus issus de la prédiction par le

modèle PLS-DA sont significativement inférieurs à la simple variation moyenne. Une

p-value faible indique donc que les résidus prédits sont inférieurs aux résidus

moyens et attestent de la significativité du modèle. Test de permutation :

Le test de permutation est un des moyens utilisés pour valider un modèle supervisé. Il est plus complexe que le test CV-ANOVA et requiert davantage de

temps de calcul, en particulier si le modèle est complexe. En partant des données d’apprentissage initiales, la matrice X est laissée intacte, tandis que les valeurs de la matrice Y sont réarrangées entre elles de façon aléatoire pour apparaître dans un ordre différent. Un modèle PLS-DA est alors généré à partir de la matrice Y permutée, et les valeurs de R² et Q² sont calculées par validation croisée. Cette procédure est répétée x fois (entre 25 et 999 fois) aboutissant à la génération de x modèles PLS-DA permutés. La distribution des valeurs de R² et Q² à travers ces modèles permutés est ensuite comparée aux valeurs de R² et Q² du modèle réel. Pour que le modèle soit considéré comme valide, il faut que ses valeurs de R² et Q² soit supérieures aux valeurs d’intersection entre l’axe des ordonnées et les droites de régression linéaire de R² et Q² issues des modèles permutés.

Validation externe :

Les méthodes de validation mathématiques telles que la validation croisée et le test de permutation sont des méthodes de validations internes. Elles fournissent une idée raisonnable du pouvoir prédictif d’un modèle PLS-DA. Cependant, il existe une façon beaucoup plus rigoureuse et drastique de valider un modèle PLS-DA. Il s’agit de la validation externe à partir de données test. Cette procédure consiste à utiliser un jeu de données indépendant jamais utilisé auparavant lors de la construction du modèle, et à prédire l’appartenance des échantillons à l’une des classes. Le pouvoir prédictif du modèle se mesurera alors par le pourcentage de prédictions justes. Ces données test doivent être représentatives des données d’apprentissage. La validation externe met donc le modèle à l’épreuve de la réalité et rend compte de sa capacité éventuelle à être utilisé en pratique.

V.3.1.4 Interprétation des résultats

L’interprétation des résultats d’une analyse PLS-DA repose en premier lieu sur la validation du modèle. En effet, les représentations graphiques de type scores

plot sont en réalité artéfactuelles et la séparation que l’on peut y observer ne reflète pas obligatoirement la différence qui existe réellement entre les classes. En revanche, si le modèle est correctement validé, la séparation observée est significative et représente une réelle différence dans les données. L’étape suivante consistera donc à extraire les variables responsables de la discrimination entre les

classes. Pour cela, il existe un paramètre qui mesure l’importance de la variable dans la projection, c’est-à-dire sa contribution relative à la séparation des classes. Ce paramètre est appelé score VIP (Variable Importance in the Projection). La somme des carrées de tous les scores VIP d’un modèle étant égale au nombre de variables présentes dans la matrice X, le score VIP moyen est égal à 1. Ainsi, il est possible de comparer les scores VIP entre eux, et un score supérieur à 1 traduit une contribution significative de la variable dans la discrimination des classes.

V.3.2 Analyse discriminante OPLS

V.3.2.1 Principe

L’analyse discriminante OPLS252 (Orthogonal Projection to Latent Structures-

Discriminant Analysis, OPLS-DA) est une modification de la méthode PLS-DA qui sépare la variabilité présente dans la matrice X en deux parties : une partie prédictive qui est linéairement reliée à la matrice Y, et une partie orthogonale qui n’est pas reliée à la matrice Y. C’est une méthode particulièrement adaptée à la discrimination de deux classes différentes. Les modèles générés possèdent les mêmes propriétés que les modèles PLS-DA, à la différence que l’information prédictive recherchée est concentrée sur la première composante, tandis que toute la variabilité présente dans la matrice X qui n’est pas reliée à la discrimination entre les deux classes est placée sur la ou les composante(s) orthogonale(s). Cette partition de la variabilité améliore sensiblement la transparence des modèles et simplifie leur interprétation. C’est donc la méthode de choix pour comparer des échantillons exposés ou non à un xénobiotique et pour extraire uniquement l’information discriminante reliée à l’exposition.

V.3.2.2 Choix du nombre de composantes et validation des modèles

Les modèles OPLS-DA sont dérivés des modèles PLS-DA et possèdent les mêmes caractéristiques et le même pouvoir prédictif. Ainsi, tous les paramètres de sélection des composantes et de validation sont identiques à ceux des modèles PLS- DA, hormis le test de permutation qu’il n’est pas possible d’effectuer pour un modèle OPLS-DA.

V.3.2.3 Interprétation des résultats

L’interprétation des résultats et l’extraction des variables discriminantes à partir des modèles OPLS-DA se font de la même manière que pour les modèles PLS- DA. Les scores VIP sont un bon reflet de l’importance de chaque variable dans la discrimination des classes. Il existe cependant une représentation graphique propre aux logiciels Umetrics qui permet d’extraire plus facilement les variables discriminantes des modèles OPLS-DA. Il s’agit du S-plotTM, qui fournit une