• Aucun résultat trouvé

La métabolomique non ciblée

3 Les différentes étapes d’une analyse métabolomique par spectrométrie de masse

3.4 Travail sur le jeu de données

3.4.2 Outils informatiques pour la détection automatique des signaux

Une fois l’analyse validée, la première étape du traitement de données est la détection automatique des informations présentes dans les fichiers d’acquisition. Il s’agit à la fois d’informations spectrales avec la détection des différents signaux de masse présents à un instant t mais aussi d’informations chromatographiques avec la détection des pics chromatographiques correspondant aux différents ions détectés au cours du temps. L’objectif de cette étape est de transformer les signaux bruts en un format matriciel permettant de traiter facilement et de manière groupée les données de l’ensemble des échantillons.

Différents logiciels, soit libres (« open source ») soit commerciaux, permettent de réaliser cette étape. La majorité des logiciels commerciaux sont commercialisés par les constructeurs d’instruments. Ces logiciels présentent l’avantage d’être en général assez simples d’utilisation mais ils ne sont pas universels. Cela implique qu’il n’est pas possible d’appliquer le même processus à des fichiers venant d’instruments de marques différentes ce qui complexifie les études communes à plusieurs laboratoires. De plus, comme il s’agit de logiciels brevetés, les données de code ne sont pas accessibles et il n’est pas possible de savoir clairement quels sont les algorithmes utilisés. Enfin, ces logiciels sont souvent en retard par rapport à l’évolution des besoins.

Parmi les logiciels open source, XCMS (Smith et al., 2006) est l’un des plus utilisés. Il présente l’avantage d’être codé sous un format de langage R qui permet d’avoir accès au code source et de

~ 57 ~

comprendre, de suivre et éventuellement de modifier ou d’adapter les différentes étapes de l’analyse. Ce logiciel permet de traiter les données sous différents formats libres de fichiers tels que .NetCDF ou .mzXML. Comme il s’agit de formats libres, les données acquises en format constructeur doivent préalablement être converties sous l’un de ces formats. Il existe actuellement différents logiciels open source qui permettent de faire cette conversion (Kessner et al., 2008). De nouvelles versions de ces logiciels de conversion sont disponibles lorsque la structure des fichiers au format constructeur est modifiée et la dernière version du logiciel doit donc être utilisée pour prendre en compte ces potentielles modifications, notamment lors de changement d’instrument ou de version du logiciel d’acquisition.

Lors du traitement d’un jeu de donnée par XCMS, différents algorithmes sont utilisés (Figure 4). La première étape est la détection de pics sur chacun des échantillons. La seconde étape est l’alignement des pics identifiés sur les différents échantillons. En effet de petites variations des temps de rétentions peuvent être observées au cours de l’analyse. Une étape de correction de ces temps de rétention est donc réalisée pour permettre de grouper de façon optimale les signaux d’un même ion présents sur les différents échantillons. Suit enfin une étape de recherche des valeurs manquantes. En effet, les intensités des pics d’un composé pouvant varier d’un échantillon à l’autre, il est possible que certains pics ne soient pas détectés sur tous les échantillons lors de la première détection sans a priori. Ils sont alors recherchés de manière ciblée pour permettre de vérifier que la première détection n’a pas oublié un signal.

~ 58 ~

FFigure 4 : Déroulé d’un traitement de données par XCMS

La première étape de détection de pics est l’étape la plus délicate du processus de traitement quel que soit le logiciel utilisé. Différentes études ont cherché à comparer les résultats obtenus par les différents logiciels (Rafiei and Sleno, 2015). Il apparait de grandes différences dans la détection des pics avec à peine 10% des pics détectés dans les 4 logiciels testés. Une autre étude comparant XCMS et MZmine 2, un autre logiciel de prétraitement gratuit très utilisé, confirme ces divergences entre les deux logiciels sans pour autant pour conclure sur la supériorité de l’un par rapport à l’autre (Myers et al., 2017). Cela souligne l’importance de bien maitriser l’algorithme de détection que l’on souhaite utiliser afin de pouvoir l’optimiser au mieux. Cette étape d’optimisation est indispensable pour pouvoir limiter le nombre de faux pics détectés et le nombre de vrais pics omis (Eliasson et al., 2012). Il existe maintenant des logiciels open source codés en R permettant d’optimiser automatiquement les différents paramètres des outils de détection automatique des signaux, notamment dans le cas d’XCMS (Libiseller et al., 2015).

~ 59 ~

Le résultat de cette étape d’obtention des variables est une matrice telle que présentée en Figure 4. Chaque ligne correspond à une variable définie par un couple m/z et temps de rétention. Pour chaque variable, différentes données sont présentées puis l’aire sous la courbe du signal correspondant à cette variable est indiquée pour chaque échantillon. C’est à partir de ces aires que sont réalisées toutes les étapes de validation de l’analyse et d’étude statistique.

Afin de réduire les temps de prétraitement des données, des solutions basées sur le cloud ont été développées. Le stockage et le traitement sur des serveurs à distance permet d’accroitre les capacités de calculs par opposition à l’utilisation d’un ordinateur seul. Il existe notamment une version en ligne d’XCMS (XCMS Online) qui permet de traiter ses données sur des serveurs à distance (Gowda et al., 2014). Appuyé sur XCMS Online, XCMS Stream optimise encore le workflow de prétraitement en chargeant automatiquement les données au fur et à mesure de leur acquisition (Montenegro-Burke et al., 2017). Cela permet de commencer le prétraitement des données (conversion de format, détection de pics, …) avant la fin de la séquence d’analyse et ainsi d’accéder plus rapidement aux résultats. Cela présente aussi l’avantage de pouvoir adapter la suite de l’acquisition des données en fonction des premiers résultats, ce qui peut s’avérer très intéressant, notamment lors d’analyse en mode données dépendant. Il est par exemple possible réaliser des acquisitions MS² dites biology-dependant. Lors de l’acquisition d’une cohorte comportant des témoins et des patients, le traitement en continu des données va permettre de déclencher l’enregistrement d’un spectre MS² correspondant à une variable dès qu’un seuil de significativité est atteint ((Rinehart et al., 2014). Cela permet de focaliser l’acquisition de spectres MS² sur des éléments biologiquement pertinents.