Méthodes « sans modèle » - Méthodes de détection et de localisation des défauts

1.4 Méthodes de détection et de localisation des défauts

1.4.1 Méthodes « sans modèle »

Quand aucun modèle dynamique n’est exploitable, les connaissances a priori sur le système se résument aux mesures acquises en temps réel complétées par un éventuel historique du fonctionnement du processus. Deux stratégies sont possibles pour tirer partie de ces données. La première est la classification, qui implique la construction de classes de fonctionnement dans la base de données de manière supervisée (avec l’aide d’un expert) ou semi-supervisée (création automatique de classes en regroupant les éléments jugés proches, puis appel à l’expert pour identifier les classes). Un classifieur est alors entraîné à distinguer ces classes pour permettre de placer un nouveau point dans une de celles-ci (typiquement, selon un mode de fonctionnement défaillant ou non défaillant). La deuxième approche est la régression, qui vise à construire un modèle empirique en exploitant la redondance inhérente à la base de données pour prédire les valeurs des différentes variables, ce qui permet ensuite de générer des résidus en les comparant à leurs mesures.

1.4.1.1 Approches qualitatives

En l’absence même d’historique de fonctionnement, les seules informations disponibles sur le système surveillé sont la connaissance empirique des experts, qui peut être incor-porée dans des systèmes experts. Ces processus regroupent un ensemble de règles imitant le raisonnement humain, associant prémisses et conclusions pour déterminer une suite logique d’événements. Un défaut est signalé lorsqu’une séquence interdite d’événements survient. Les principaux inconvénients de ces dispositifs sont leur manque de généralité et l’impossibilité de prendre en compte des situations non prévues [180]. L’analyse

qua-litative de tendance vise quant à elle à décomposer un signal mesuré en une séquence de primitives connues (stable, croissant...). Cette décomposition peut se faire en analysant le signe des dérivées successives du signal ou en utilisant une base de données contenant des échantillons étiquetés [181]. Les deux cas de figure impliquent l’implantation délicate de règles heuristiques. Les défauts sont détectés de la même manière que par un système expert.

Si un modèle du processus est accessible, mais que la confiance à accorder à ses para-mètres et ses sorties est très faible, des équations qualitatives peuvent permettre d’ex-primer d’une manière limitée les liens et variations entre les variables. Cette physique qualitative a le même objectif que les méthodes précédentes, à savoir le suivi des événe-ments du processus afin de détecter un comportement anormal [182]. Ces liens causaux peuvent également être représentés par des graphes signés orientés (signed digraph – SDG) [183]. A part dans des cas très simples, ces modélisations qualitatives ont malheu-reusement des capacités de prédiction très restreintes.

1.4.1.2 Diagnostic par reconnaissance de formes

A l’aide d’un historique de mesures, le diagnostic de défauts est réalisable par re-connaissance de formes, où de nouvelles mesures sont à classer entre des modes de fonctionnement prédéterminés. La connaissance a priori est regroupée dans une base de données contenant des observations passées de variables à surveiller, telles que les variables d’état (1.3.13) ou les paramètres aérodynamiques. Deux opérations préalables doivent être réalisées hors ligne : les données d’apprentissage sont à regrouper par classes et une règle de décision est à définir. Chaque point de la base de données est étiqueté comme appartenant à l’une des classes. Dans le cas du diagnostic, les classes à consi-dérer sont le mode de fonctionnement non défaillant et tous les modes de pannes à détecter [184]. Si la base de données ne contient que des mesures en fonctionnement normal, une solution est d’avoir recours à de la classification mono-classe [185–187], bien que cela ne permette pas de localiser les défauts mais simplement de les détecter. La règle de décision peut être paramétrique ou non paramétrique.

La classification paramétrique définit des frontières directes entre les classes, en ayant recours à des fonctions de base. Le cas le plus simple est la classification linéaire binaire, à partir de laquelle la plupart des méthodes sont bâties [188]. L’objectif est de trou-ver un hyperplan qui sépare les données en deux classes tout en respectant l’étiquetage initial. Cette séparatrice est déterminée de manière optimale selon un critère prédéfini ; une norme doit ainsi être choisie pour évaluer la distance à la séparatrice avec un terme additionnel de régularisation pour éviter le « sur-apprentissage ». Dans le cas non li-néaire, où aucune séparatrice linéaire n’est calculable, des fonctions de base de degré supérieur (quadratique, cubique...) sont utilisables, bien que cela accroisse dangereuse-ment le nombre de paramètres de réglage. Une solution très employée est de concevoir ces séparatrices à l’aide de réseaux de neurones [124, 189]. Dans ce cas, les difficultés de conception deviennent la sélection d’une fonction d’activation et de la structure du

réseau (nombres de couches et de neurones). Les poids des neurones sont généralement obtenus en minimisant la distance quadratique entre les sorties du réseau et la sortie attendue par l’algorithme de rétro-propagation, qui risque toutefois de biaiser le résultat en convergeant vers des solutions locales sous-optimales. Cette méthode a été largement exploitée en diagnostic [190–193].

Deux notions clés ont fait leur apparition dans le cadre de la reconnaissance de formes moderne afin de construire des séparatrices paramétriques non linéaires, à savoir le noyau

(kernel) et la parcimonie (sparsity). Le kernel trick autorise la généralisation directe des

méthodes linéaires en transformant l’espace de représentation des données en un espace de plus grande dimension. La sortie d’une machine à noyau est de la forme

y_k(ζ) =^X

γ_i· k(ζ, ζ_i), (1.4.1)

où ζ est un nouveau point à classer, les ζ_i sont les points d’apprentissage, k(., .) est la fonction noyau et les γ_i sont des pondérations à déterminer. Pour réduire la charge de calcul, il faut faire preuve de parcimonie, car il serait dommageable d’avoir un poids pour chaque échantillon de la base de données, alors que tous ne portent pas d’information. Cette parcimonie est assurée par un choix judicieux de la fonction coût à minimiser pour trouver les poids γ_i [194, 195]. Les séparateurs à vaste marge (Support Vector Machines

– SVM), introduits par Vapnik, ont permis de diffuser ces concepts [196]. Un SVM

vise à trouver une séparatrice linéaire des données dans l’espace transformé de plus grande dimension. Cette séparatrice est conçue pour minimiser le risque empirique et il faut noter que l’optimisation des poids est un problème convexe, ce qui est un énorme avantage par rapport aux réseaux de neurones ou à d’autres méthodes purement para-métriques. Une approche similaire utilise des Processus gaussiens (gaussian Processes –

GP), qui peuvent être vus comme la généralisation de distributions gaussiennes

multi-variables à un espace de dimension infinie (nous y reviendrons au cours de la partie 3). A noter que la régression par GP est également nommée krigeage par la communauté des géostatisticiens [197]. Un choix approprié de la covariance du GP, qui joue le rôle d’un noyau, permet de réduire la complexité de problèmes de grandes dimensions. De telles machines à noyaux ont déjà servi à résoudre des problèmes de diagnostic des sys-tèmes [185, 186, 198–200], mais très peu dans le contexte aérospatial [103, 104], bien que cela semble un moyen prometteur pour l’amélioration de la détection de défauts. Par ailleurs, les critères décrits précédemment pour la classification peuvent être adaptés au contexte de la régression. Un formalisme similaire permet de créer un modèle boîte noire (ou grise) qui génère des résidus en comparant ces sorties avec les mesures issues du sys-tème, pour la détection des défauts. Il faut toutefois noter que les choix de la fonction noyau et de la fonction coût assurant la parcimonie sont des points cruciaux qui doivent être effectués avec soin [197].

Si une séparatrice paramétrique ne donne pas de résultats satisfaisants, une solution alternative est de combiner une mesure de distance et un simple vote pour réaliser une

classification non-paramétrique. Connaissant les données étiquetées, un nouveau point acquis est alors classé en fonction de son voisinage dans l’espace de représentation. La méthode la plus connue dans ce contexte est celle des k-plus proches voisins, qui attribue une classe au nouveau point en fonction de la majorité de celles des k-plus proches points. Une mesure de distance doit être choisie pour déterminer quels points sont à considérer comme les plus « proches » [201, 202].

1.4.1.3 Analyse en composantes principales (ACP)

L’ACP est une méthode de réduction de dimension consistant à projeter les données d’apprentissage sur les l vecteurs propres de la matrice de covariance qui sont associées aux valeurs propres supérieures à un certain seuil. Supposons que n_m échantillons de

n_v variables, obtenus en fonctionnement non défaillant, forment la matrice de données

X ∈ Rnm×n_v, avec un prétraitement conférant aux variables une moyenne nulle et une variance unitaire [203]. Sa matrice de covariance empirique est alors

S = ¹

n_m− 1^X

TX, (1.4.2)

qui peut se factoriser en

S =^h T Te ⁱ   Λ 0 0 Λe   h T Te ⁱ^T (1.4.3) où T est une matrice de dimension n_m× l et Λ la matrice diagonale des l plus grandes valeurs propres, l étant alors le nombre de composantes principales. La projection dans le sous-espace principal d’un nouveau vecteur mesuré ζ est donnée par

ζ = TT^Tζ. (1.4.4)

Dans le sous-espace résiduel, elle est donnée par

ζ =TeTe^Tζ. (1.4.5)

Une norme de ζ peut alors être utilisée comme résidu indicateur de la présence dee

défauts, puisque cette projection doit être de faible norme en conditions nominales. Par ailleurs, un défaut affectant l’une des variables peut être estimé en calculant la différence entre sa valeur mesurée et celle estimée en utilisant la matrice de projection et les valeurs mesurées de toutes les autres variables [204]. Une procédure de calcul alternative de la matrice de covariance pour la rendre robuste aux données aberrantes a été suggérée dans [205].

Cette méthode suppose une dépendance linéaire entre les variables mesurées, ce qui n’est pas nécessairement réaliste. L’extension au cas non linéaire a été examinée à l’aide

du kernel trick [206], ou par le biais d’autres types de décompositions comme l’analyse en composantes indépendantes [207]. Une approche similaire porte le nom de régression PLS (Partial Least Squares) [208].

Dans le document Diagnostic des systèmes aéronautiques et réglage automatique pour la comparaison de méthodes (Page 43-47)