• Aucun résultat trouvé

Matériel et méthode

5. Analyses statistiques

L’analyse statistique des données de métabolomique peut se faire sous 2 angles :

- A partir de l’échantillonage, par comparaison des intégrales de chaque bucket et identification des métabolites pour lesquels les spectres diffèrent ; pour ce faire, des analyses multivariées complexes sont réalisées à type de PCA, PLS-DA ou OPLS-DA

- A partir de la quantification des métabolites, par comparaison des quantités de métabolites en fonction de groupes préalablement identifiés. Les analyses peuvent être uni- (test T de Student, test U de Mann-Whitney selon la population étudiée) ou multivariées. Une analyse de réseau (ADEMA) peut être particulièrement intéressante pour étudier des différences de quantités de métabolites même dans des populations très faibles.

Au cours de cette thèse, les 2 approches ont été utilisées de façon complémentaire. En pratique, les spectres étaient comparés dans leur intégralité par méthode multivariée sans a priori (non targeted metabolomics). La méthode utilisée était l’Analyse en Composantes Principales (PCA). Dans un 2ème

temps, une méthode permettant d’accentuer une différence identifiée par PCA était utilisée de type Analyse Discriminante par régression aux Moindres Carrés Partiels par projection orthogonale (OPLS-DA). En effet, dans le cadre de la PCA, l’analyse est dite non supervisée, c’est-à-dire qu’elle est

réaliser sans présager du groupe de l’échantillon. Il s’agit donc d’une technique très puissante qui, à partir de la matrice entrée dans le logiciel, regroupe les observations présentant des similitudes et éloigne les observations présentant des différences. Les modèles ainsi identifiés sont très puissants. L’analyse en PLS-DA spécifie le groupe d’appartenance des variables permettant de forcer le modèle. Les données issues de ces analyses se présente sous la forme d’une cible avec des points correspondant chacun à un échantillon. La dispersion des points est visuellement exprimée par un centre et un ovale, mathématiquement par R2. On considère un R2 > 0.75 comme étant correct. Le degré de similitudes / différences entre les groupes est visualisé par le regroupement de points de même couleur (blanc ou noir) et leur séparation le long de l’axe X. Il est mathématiquement exprimé par la valeur Q2qui est arbitrairement considérée comme significative si Q2> 0,5.

5.1 Analyse de réseau ADEMA

Il s’agit d’un algorithme pour déterminer les changements de métabolites prévu en utilisant l’information mutuelle. Il s’agit d’une technique d’analyse multivariée qui permet d’analyser les changements d’un groupe de variables, reliées selon un réseau métabolique, entre le groupe cas et le groupe contrôle, au lieu d’analyser les variables une par une. En incluant la topologie du réseau métabolique, ADEMA permet ainsi de savoir si un groupe de métabolites - liés par une voie métabolique donnée – peut être utilisé comme biomarqueur et permet d’identifier la direction du changement de niveau de chaque métabolite. Il est à noter que l’algorithme ADEMA fonctionne grâce à des variables discrètes et non continues ce qui conduit nécessairement à une 1èreétape de discrétisation (« segmentation » de variables continues en variables discrètes). L’un des intérêts majeurs de cette technique est qu’elle requiert un petit nombre d’observations en détectant des variations de groupes de métabolites.

Ainsi, en dehors des étapes purement mathématiques de l’algorithme, il est nécessaire, outre l’identification des cas et des contrôles, d’identifier les sous-ensembles de métabolites ou groupes de métabolites qui sont reliés entre eux. Pour ce faire, le réseau métabolique utilisé pour déterminer ces groupes est le réseau décrit à la figure 11.

Ce réseau est adapté à chaque situation. Afin d’affiner certaines voies, notamment indirecte, nous avons utilisé le site des Kegg Pathways (www.genome.jp/kegg-bin/get_htext). Pour ce travail, étant donné que certains métabolites n’étaient pas quantifiables ou identifiables sur les spectres, nous avons utilisé les groupes de métabolites suivants :

- Glucose / ascorbate / glutathione / glutamate - Glucose / alanine / valine / isoleucine

- Choline / glycerophosphocholine / phosphocholine / choline totale

Figure 11 : réseau métabolique utilisé pour les analyses ADEMA (collaboration Dr N. Dali-Youcef)

L’algorithme ADEMA a été codé sous le logiciel R, grâce à Stéphanie Battini en collaboration avec Ciçek, l’un des créateurs de l’algorithme. Sans entrer dans les détails (voir thèse de Science soutenue par le Dr S Battini), il existe 5 étapes mathématiques consistant à 1/ discrétiser les observations en utilisant des courbes B-splines ; 2/identifier les sous-ensembles de métabolites en générant un mode élémentaire de flux (EFM) ; 3/trouver les combinaisons de métabolites informatifs par rapport à une condition ; 4/ calculer les niveaux de métabolites attendus pour chaque groupe en se basant sur l’information mutuelle fournie ; 5/ comparer les niveau attendus entre eux.

Cette analyse de réseau était mené sur les logiciels R et Tinn-R.

5.2 Autres analyses statistiques

Les variables continues étaient exprimées en moyenne ±écart-type ou en médiane (extrêmes) selon leur distribution. Les variables nominales étaient exprimées en valeur absolu et pourcentage de la population pour laquelle les données étaient disponibles (lorsqu’il existait des données manquantes,

le nombre était précisé). La répartition des variables nominales était comparée par test de Chi-2. Les variables continues étaient comparées par test t de Student ou test U de Mann-Whitney selon leur répartition et la taille de l’échantillon. Les corrélations entre 2 variables continues étaient analysées par test Z. Ces analyses étaient conduites grâce au logiciel Statview (logiciel R pour les tests de corrélation). Dans tous les cas une valeur de p <0,05 était considérée pour identifier une différence significative.

Afin d’identifier des seuils significatifs d’un biomarqueur, une courbe ROC était réalisée. Le seuil était déterminé afin d’obtenir le meilleur compromis de sensibilité et spécificité. La spécificité était privilégiée lorsque le compromis n’était pas évident. Ces analyses étaient conduites avec le logiciel SPSS.