• Aucun résultat trouvé

multiparamétrique et haut-débit

6. A NALYSE DES RESULTATS

Les analyses multiparamétriques sur biopuce permettent la génération d’une quantité importante de données qui ne sont parfois pas interprétables directement. C’est pourquoi des méthodes chimiométriques sont parfois utilisées réduisant le nombre d’informations à analyser, et les présentant sous forme graphique pour simplifier l’interprétation. Les résultats de détection sont souvent prétraités, puis ces données sont analysées selon différentes techniques d’analyses à plusieurs variables. La figure 1 illustre la catégorisation de ces méthodes d’analyse (Jurs et al. 2000). Elles sont séparées en 3 groupes principaux (statistique, cluster ou réseaux neuronaux artificiels), puis en fonction de leur utilisation pour la classification ou pour la quantification, et enfin les méthodes nécessitant un regroupement par classes sont séparées des autres (Figure 1-24). Les principales méthodes utilisées sont décrites ci-après.

Figure 1-24. Diagramme des méthodes chimiométriques utilisées pour l’analyse des données de biopuces

6.1. PRE-TRAITEMENT DES DONNEES

Dans certains cas, les résultats générés par les différentes méthodes de détection peuvent être utilisés tels quels pour l’analyse chimiométrique. La plupart du temps cependant, une étape de traitement des résultats est requise. Cette étape peut affecter de façon importante l’analyse qui suivra, c’est pourquoi il est très important de choisir le traitement adapté aux données. Les différentes méthodes permettent d’obtenir différents types d’informations lors de l’analyse chimiométrique, elles peuvent être utilisées pour lisser les résultats ou pour s’affranchir de certaines variations, dans le but d’obtenir la meilleure résolution possible. Les résultats de l’analyse chimiométrique effectuée avec des données pré-traitées devront systématiquement être comparés avec celle effectuée avec des données brutes, de même pour

les données traitées selon différentes méthodes, afin de vérifier que le traitement serve à l’analyse, et ne favorise pas de perte d’information importante (Anzenbacher et al. 2010).

Différentes méthodes de pré-traitement ont été utilisées, incluant la mise à l’échelle relative, la soustraction du bruit de fond, la moyenne du signal, la linéarisation, le centrage autour de la moyenne, la mise à l’échelle automatique ou selon des paliers. Les méthodes de normalisation sont généralement utilisées pour des résultats qualitatifs, car certaines sont responsables de la perte de la relation de dépendance entre le signal et la concentration d’un composé. Ces méthodes mettent également en jeu la moyenne des réplicats, et le calcul de la déviation standard entre ceux-ci, pour calculer les limites de quantification par exemple. Les méthodes de linéarisation sont utiles par exemple pour déterminer la gamme pour laquelle le signal est dépendant de la concentration lors de mesures donnant des réponses non-linéaires. D’autre part, certaines méthodes de mesure connaissent des variations intrinsèques, dues à une variation de la surface du détecteur par exemple. Un traitement sera donc utilisé pour focaliser l’analyse sur les variations dues à la cible détectée, en s’affranchissant de la variation intrinsèque au capteur.

Les différentes méthodes de pré-traitement ne seront pas décrites ici, les plus classiques uniquement, déjà citées ci-dessus, étant utilisées dans cette thèse. Suite au pré-traitement des données, différentes méthodes d’analyse peuvent être appliquées. Les plus utilisées pour les biopuces sont décrites brièvement ci-dessous.

6.2. M

ETHODES D

ANALYSE

6.2.1. ANALYSE EN COMPOSANTES PRINCIPALES (PCA)

La méthode de PCA est un traitement statistique consistant en la réinterprétation d’un groupe de données multidimensionnelles en un nouveau groupe de dimensionnalité réduite de façon à ce que les caractéristiques les plus significatives soient conservées. La réduction du nombre de données est effectuée par décomposition en vecteurs propres et valeurs associées, qui correspondent aux composantes principales. L’importance de ces valeurs représente la variance des données et peut être affichée graphiquement sur des axes de composantes principales. Cette analyse permet de mettre en avant la possibilité de classification des résultats donnés par la matrice sous la forme de nuages de points, impliquant alors la possibilité de discriminer les analytes correspondant. En entrant comme données de base les valeurs de différentes sources de résultats, la contribution de chacune de ces sources peut être représentée sur les différents axes PC, et l’importance de ces sources peut ainsi être évaluée. C’est l’une des méthodes les plus utilisées. Wright et Anslyn ont par exemple passé en revue les performances de différents capteurs permettant la reconnaissance de molécules de différents types (nucléotides, protéines, peptides, composés organiques, ions métalliques etc), évalués à l’aide de cette méthode (Wright and Anslyn 2006). Récemment, l’équipe de Palucci a par exemple utilisé cette méthode pour l’interprétation de résultats de spectres de SERS, difficiles à interpréter de façon visuelle, pour la détection de différents explosifs (Botti et al. 2013). Cet exemple est illustré sur la Figure 1-25.

Figure 1-25. Spectres obtenus par SERS et leur représentation graphique après analyse en composantes principales

(Extrait de Botti et al. 2013) Encadrés en noir sont représentés les spectres de RDX (à gauche de la figure) et les résultats PCA associés (sur le graphique de droite), en bleu ceux de EGDN, en vert ceux de PETN et en rouge ceux de TNT.

La méthode de régression en composantes principales peut ensuite être utilisée, à partir des résultats de PCA. Cette méthode est basée sur l’idée que les composantes principales obtenues par PCA sont des variables qui peuvent intervenir dans une régression multiple. Cette approche est un outil intéressant pour l’analyse multiparamétrique, elle est cependant moins utilisée, au profit de la méthode des moindres carrés partiel (PLS, Partial Least Squares) (Keithley et al. 2009).

La méthode des moindres carrés partiels permet d’obtenir des informations assez similaires à celles obtenues par PCA, en utilisant plus d’informations. Elle a été utilisée pour séparer et quantifier des analytes d’intérêt, à partir des données extraites de la réponse de différents capteurs. Jurs et al. en ont présenté plusieurs exemples (Jurs et al. 2000).

6.2.2. ANALYSE PAR DISCRIMINATION LINEAIRE (LDA)

Ce type d’analyse est utilisé également pour classer des résultats, et pour déterminer l’appartenance d’un analyte à une classe particulière. Dans ce cas, les données entrées sont les résultats par classe d’analyte. Des fonctions discriminantes sont calculées dans le but de maximiser la séparation entre les classes et de minimiser les différences au sein de la même classe. Dès lors que les classes sont connues, un analyte peut être assigné à une classe en particulier, lorsque les résultats obtenus pour cet analyte sont proches de ceux obtenus pour l’ensemble des analytes de la classe définie. Cette approche a par exemple été utilisée pour distinguer différentes lignées de cellules cancéreuses, ou pour distinguer des cellules normales de cellules cancéreuses ou métastatiques à l’aide de la mesure par fluorescence de leurs interactions avec 3 types de nanoparticules fonctionnalisées, comme l’illustre la Figure 1-26 (Bajaj

Figure 1-26. Diagramme de résultats obtenus par mesure de fluorescence et leur représentation graphique après analyse par discrimination linéaire

(Extrait de Bajaj et al. 2009) A. diagramme de la variation de fluorescence observée pour différentes lignées cellulaires avec trois types de nanoparticules, B. représentation graphique des résultats de LDA associés.

6.2.3. ANALYSE PAR CLUSTER HIERARCHIQUE (HCA)

L’analyse par cluster hiérarchique est une méthode qualitative, basée sur la différence de la forme de réponse donnée par chaque analyte et groupe d’analytes, qui permet de grouper les analytes de façon hiérarchique. Elle utilise un paramètre calculé sur la base de la distance entre deux points dans différentes dimensions correspondant au nombre de réponses du capteur, ce paramètre est appelé distance métrique euclidienne. Cette méthode produit un résultat sous forme de dendrogramme qui met en avant les différences ou similarité entre les observations selon un mode unidimensionnel. Lim et

al. ont par exemple utilisé cette méthode appliquée à l’analyse des résultats issus de la détection

multiparamétrique à révélation colorimétrique d’analytes volatils, et en particulier de 19 produits chimiques industriels toxiques. Les résultats obtenus dans cette étude (détection colorimétrique et HCA appliqué aux résultats) sont illustrés dans la Figure 1-27, présentant la classification des composés grâce à cette méthode (Lim et al. 2009). Cette approche est cependant peu efficace pour les données présentant un bruit de fond important ou peu de similarités.

Figure 1-27. Image de résultats obtenus après détection colorimétrique et leur représentation graphique après analyse par cluster hierarchique.

(Extrait de Lim et al. 2009) Les images correspondent à la détection de 19 composés et d’un contrôle (une image par composé, à gauche de la figure), et leur classification par HCA est représentée sous forme d’un dendrogramme (graphique de droite)

6.2.4. RESEAUX NEURONAUX ARTIFICIELS (ANN)

Les réseaux neuronaux artificels sont des modèles adaptatifs qui permettent d’établir toutes les relations possibles entre des données. Ils sont conçus comme des boites noires utilisées pour cartographier les relations entre vecteurs entrants et sortants. Ils sont basés sur un système multi-couches, constitué de différentes unités et de différentes connexions. Chaque unité doit être activée, et chaque lien entre unité a un poids précis. Les unités sont organisées en couches. Il y a trois types d’unités distinctes : une couche des données acquises par le capteur (les données d’entrée), une couche des données de sortie (les analytes par exemple), et une couche d’unités cachées. L’idée de base est que l’information passe par un chemin et arrive à une synapse, une analogie avec les axones neuronaux. Une fois arrivée à la synapse, l’information est transformée et envoyée au neurone suivant. Ce transfert d’information est stimulé par un signal entrant, modifié par le poids synaptique, pour arriver en un signal sortant. Les couches cachées sont déterminées par l’utilisateur et ajustées en fonction du système. Le processus ajuste le poids des couches pour maximiser le nombre de données de sortie désirées en fonction des données d’entrée, en minimisant les divergences entre les données de sorties du réseau et des valeurs attendues pour un groupe de données connues. Le système permet alors la détermination d’un analyte à partir des données d’entrée de cet analyte (Anzenbacher et al. 2010). Riul et al. ont par exemple utilisé cette méthode pour identifier des échantillons de différents vins à l’aide d’un capteur gustatif électronique (electronic tongue), dont certains plus vieux et stockés dans différentes conditions ne pouvaient être identifiés par PCA (Riul Jr et al. 2004).