• Aucun résultat trouvé

B. L’échantillonnage passif

III. Systèmes multi-capteurs – Nez électroniques 1 Description

III.2. Traitement du signal associé aux dispositifs multi-capteurs

La mesure de la variation de la réponse des capteurs fournit une information sur l’évolution de l’environnement gazeux et de son interaction avec la surface sensible. L’exploitation directe de cette réponse permet d’interpréter des phénomènes relativement simples (variation de la concentration d’une ou deux espèces) dans des conditions contrôlées mais il n’est par exemple pas possible de déduire la nature d’un gaz ou sa concentration dans des matrices plus complexes. Malheureusement, l’interprétation de l’évolution de la réponse des capteurs d’un nez électronique dans des mélanges où plus de deux ou trois composés différents interviennent est complexe (Phaisangittisagul and Nagle, 2011). En effet, même si l’on connait l’influence de chacun des composés du mélange sur la réponse des différents capteurs, en mélange, les différentes réponses et sensibilités des capteurs n’évoluent pas linéairement et ne sont pas additives (Carmel et al., 2005). Si elle était additive, la solution la plus simple serait de disposer d’un nombre suffisant de n capteurs différents pour

identifier n composés gazeux par résolution d’un système de n équations à n inconnues. La réponse R d’un capteur à un mélange de gaz n’est donc pas concrètement modélisable par l’addition des réponses individuelles Ri de ce capteur, qui présente des coefficients de sensibilité Si aux n

composantes du mélange de concentration xi tel que :

= C =

B

C . D

B

L’ensemble des réponses de chaque capteur d’un module multi-capteur représente la signature d’un mélange gazeux (son empreinte). L’objectif du traitement du signal des différents capteurs est soit d’identifier la contribution de chaque espèce dans cette réponse globale afin de discriminer les différents composés, soit de différencier ou d’identifier plusieurs empreintes. La partie décisionnelle du modèle de traitement de données peut également permettre de mettre en évidence des paramètres d’influence (humidité, température…) ainsi que la dérive des capteurs (Artursson et al., 2000). De nombreuses techniques d’analyse des données sont utilisées dans le cadre du traitement du signal multi-capteurs : ce sont des méthodes d’analyses multivariées, outil mathématique utilisé en statistique depuis les années 70 qui s’est ensuite développé en analyse chimique sous le terme « chimiométrie » (Miller and Miller, 2005), des méthodes de reconnaissance de formes (Scott et al., 2006) et des techniques de classification et d’apprentissage appartenant plus généralement au domaine de « machine learning » ou « apprentissage automatique » (Alpaydin, 2004). L’apprentissage automatique fait référence au développement de méthodes qui permettent à une machine d’évoluer grâce à un processus d’apprentissage, et ainsi remplir des tâches qu’il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques. L’objectif est d’extraire et d’exploiter automatiquement l’information présente dans un jeu de données.

III.2.1. Principe de modélisation : méthode d’« Apprentissage »

Afin d’obtenir le maximum d’informations à partir de la réponse de capteurs non spécifiques exposés à un mélange gazeux, il est indispensable de disposer d’une matrice adéquate : un ensemble judicieux de capteurs ayant des sensibilités et sélectivités différentes aux composés du mélange, couplés à un algorithme de reconnaissance de forme. Les mesures effectuées par ces capteurs permettent d’identifier la nature d’un gaz ou l’empreinte électronique d’un environnement gazeux (analyse qualitative), voire la concentration d’un gaz dans des cas simples (analyse quantitative) ou encore des niveaux de concentration (analyse semi-quantitative). La technique d’élaboration d’un dispositif de reconnaissance de forme est généralement appelée « apprentissage », pour lequel on cherche à établir un système autonome permettant de reconnaitre des empreintes connues. Les méthodes d’apprentissage se distinguent en deux catégories : l’apprentissage supervisé d’une part et l’apprentissage non-supervisé d’autre part.

Dans le cas de l’apprentissage supervisé, les classes sont connues a priori et sont définies par un expert qui étiquette correctement des situations au préalable. Le principe de modélisation consiste à relier, avec une loi mathématique, des variables Y difficilement mesurables qui ne sont pas issues des capteurs, comme la concentration ou la composition de différents mélanges gazeux (classes), avec des variables X facilement mesurables, comme la réponse des capteurs, la

température ou l’humidité relative. Le vecteur de données X qui décrit notamment la réponse des capteurs est défini selon le type de mesure effectuée, le choix des points de mesures (intervalle et nombre) et le prétraitement éventuel de mise en forme (moyenne, réponse relative, normalisation…). Le choix de la méthode de modélisation la plus adaptée est complexe, il est important de trouver le meilleur compromis entre complexité du modèle, efficacité, rapidité et poids de calcul. En apprentissage supervisé (Kotsiantis et al., 2007), la première étape de modélisation consiste à étalonner le modèle, c’est-à-dire à définir le modèle mathématique reproduisant au mieux les relations entre les variables X et les variables Y connues tel que Y=f(X). Lorsque le modèle, également appelé classifieur, est établi, une étape de validation de ce dernier est nécessaire. Pour cela, le classifieur est testé sur une partie des données d’apprentissage (en général, on réserve 80% des données à la modélisation et 20 % des données à la validation), et les variables de sorties estimées sont comparées aux variables Y connues afin de définir le taux de réussite du classifieur. Ce taux de réussite correspond au pourcentage de classes correctement affectées aux observations de l’ensemble d’apprentissage Cette étape permet d’estimer les performances du modèle d’apprentissage mais également d’écarter un potentiel problème de sur-ajustement du modèle (« overfitting »). En effet, lorsque le modèle établi est trop complexe, il permet d’aboutir à un meilleur résultat pour le jeu de données d’étalonnage puisqu’il sera optimisé pour cet échantillon mais prendra en compte ses particularités spécifiques (Hawkins, 2004). Dans ce cas, le classifieur ne peut pas être efficacement généralisé à toutes nouvelles données. Enfin, la phase de « prédiction » permet d’étiqueter de nouvelles données X connues selon les classes préalablement définies (estimation des variables Y) à l’aide du modèle : c’est la « classification ». Les différentes phases de l’apprentissage supervisé sont schématiquement représentées sur la Figure II - 12.

Figure II - 12 : Schéma de principe de l’apprentissage supervisé

Dans le cas où les variables de sorties (classes) ne sont pas connues a priori, il est possible de réaliser un traitement de l’information fournie par les données des capteurs uniquement. Cette technique, issue de l’informatique, est l’apprentissage non supervisé (souvent nommé « clustering ») qui traite des données d’entrée collectées comme des variables aléatoires et construit différents groupes pour cet ensemble de données dispersées (Ghahramani, 2004). L’algorithme doit être

capable de déterminer seul la structure des données. L’objectif de ces méthodes de partitionnement est de regrouper des données en sous-ensembles homogènes (clusters) de données similaires afin d’extraire des connaissances de ce système. Il revient ensuite à l’opérateur d’interpréter les regroupements ainsi obtenus.

Une multitude de techniques ont été adaptées de la chimiométrie et appliquées à l’analyse de données issues de réseaux de capteurs. Les méthodes de modélisation se distinguent par l’algorithme utilisé. D’un côté, les méthodes linéaires supposent que la réponse des variables est décrite dans un espace euclidien. Cette hypothèse n’est valable que dans le cas de réponses linéarisées, ce qui n’est en général pas le cas des capteurs de gaz, à moins de travailler à faible concentration dans une gamme où la réponse est linéaire. D’autre part, des techniques telles que l’apprentissage par réseaux de neurones artificiels permettent de gérer des données non linéaires, et peuvent prendre en compte le bruit et la dérive potentielle des capteurs. Les performances de ces techniques sont également supérieures aux techniques classiques de la chimiométrie. Une comparaison des performances de 7 méthodes différentes (Marco et al., 1996) pour l’analyse de faible échantillon de données (300 points) provenant de nez électroniques montre la robustesse des résultats issus des réseaux de neurones artificiels pour répondre aux problèmes de non-linéarités des capteurs. Cette méthode a permis d’obtenir de faibles erreurs de prédiction par rapport à des méthodes statistiques simples telles que l’analyse en composante principale. Scott et al., 2006 différencient les techniques d’analyse de données issues de nez électroniques entre les méthodes statistiques conventionnelles et les techniques non conventionnelles basées sur l’intelligence artificielle. Les principales techniques de reconnaissance de forme sont brièvement présentées dans les paragraphes suivants, séparées entre les méthodes non-supervisées (III.2.2) et les méthodes supervisées (III.2.3) comme décrits précédemment.

III.2.2. Méthodes non-supervisées