Surveillance Dynamique par Réseaux de Neurones Récurrents Réseaux de Neurones Récurrents

Introduction générale

Chapitre 4 Surveillance Dynamique par Réseaux de Neurones Récurrents Réseaux de Neurones Récurrents

. .

Chapitre 4 - Surveillance Dynamique par

Réseaux de Neurones Récurrents

4.1 INTRODUCTION

Les réseaux de neurones peuvent fournir une solution intéressante pour des problématiques de surveillance d’équipements industriels. En effet, leur utilisation ne nécessite pas l’existence d’une modélisation formelle de cet équipement. Par ailleurs, leurs capacités de mémorisation, d’apprentissage, d’adaptation et le parallélisme du calcul représentent des fonctions très utiles à tout système de surveillance autonome.

Les techniques de surveillance par réseaux de neurones sont fondées sur l’existence d’une base de données d’apprentissage et non sur l’existence d’un modèle formel ou fonctionnel de l’équipement. Le principe d’une telle application est de trouver une relation entre une (des) variable(s) d’entrée et une (des) variable(s) de sortie. Les variables d’entrée peuvent être quantifiables (sorties capteurs) ou qualifiables (observations faites par l’opérateur). A partir de ces variables d’entrée, le réseau de neurones donne une réponse caractérisée par deux types de variables de sortie. Des variables de sortie réelles qui peuvent représenter une sortie estimée d’un paramètre de surveillance, ou des variables de sortie catégorielles qui représentent l’état de fonctionnement de l’équipement.

Selon la nature des données en sortie, il existe deux types d’applications. Le premier type est une application d’approximation de fonctions, qui consiste à estimer une sortie mesurée de l’équipement. Dans ce cas, les réseaux de neurones sont utilisés en tant qu’approximateur universel et fournissent un modèle sous la forme d’une boîte noire du système. Ceci n’est autre que de l’identification des processus industriels. Comme pour les méthodes à base de modèle, décrites au chapitre précédent, la comparaison de la sortie du réseau de neurones avec celle du système réel donne un résidu qui servira à déterminer si le système est dans un état défaillant ou pas. Le deuxième type d’application considère le

problème de la surveillance comme un problème de reconnaissance des formes²⁹. La forme

à reconnaître est caractérisée par l’ensemble des données (quantifiables et – ou – qualifiables) et les classes d’appartenance représentant les différents modes (de fonctionnement ou de dysfonctionnement). Le réseau de neurones doit nous fournir une réponse qui nous renseigne sur l’état de fonctionnement de l’équipement. Il assure la fonction de détection (fonctionnement normal ou pas), sous la forme d’une détection

intelligente (reconnaître un mode de défaillance) qui ne représente pas – selon les définitions que nous avons retenues au chapitre précédent – à proprement parler un

diagnostic mais qui peut faciliter sa mise en œuvre ultérieure, en précisant la classe de symptômes.

La figure ci-dessous illustre les deux types d’applications. Les avantages les plus importants que l’on peut donc attribuer à une application de surveillance par réseaux de neurones sont :

- La modélisation et l’estimation de fonctions non linéaires par apprentissage - La fusion de données et le parallélisme

page 86

- La généralisation et reconstruction des signaux capteurs

I1 I2 I3 Procédé industriel Données quantifiables Données qualifiables Données de sortie Données quantifiables Données qualifiables Identification de processus Reconnaissance de forme x(t) t • Mode nominal • Mode dégradé • Mode de défaillance 1 Réseau de neurones

Figure 32. Application des réseaux de neurones en surveillance.

En prenant en considération les caractéristiques souhaitables d’un système de surveillance dynamique, nous avons noté dans le chapitre précédent que la flexibilité occupe une place importante. Dans cet objectif, parmi les structures classiques de réseaux de neurones statiques, le réseau de neurones à fonctions de base radiales RFR (RBF - radial basis function) semble de loin le plus efficace. En effet, son approche locale (due à la présence des gaussiennes en tant que fonctions d’activation) est d’un grand intérêt pour la surveillance. Ceci permet à ce type de structures de développer un apprentissage dynamique, en signalant les modes encore inconnus (élément fondamental en surveillance) et incluant éventuellement ces nouveaux modes, sans être obligé pour autant d’oublier tout ce qui a été appris précédemment.

Un autre problème d’une grande importance dans la surveillance industrielle, est constitué par la possibilité d’effectuer une détection des fausses alarmes et éventuellement de prédire une défaillance. Ces problématiques rentrent dans le cadre de la surveillance dynamique, méthode permettant à terme de s’orienter vers le concept de maintenance proactive et, plus particulièrement, vers le pronostic.

Dans ce contexte, nos travaux se sont orientés vers les réseaux de neurones temporels et plus précisément les réseaux de neurones dynamiques récurrents. Un état de l’art du domaine a ainsi été effectué, en focalisant très rapidement vers la catégorie des réseaux de neurones récurrents, la classe de réseaux temporels présentant une adéquation prononcée avec le domaine d’application visé – la surveillance dynamique.

A partir de ce constat, nos efforts de recherche se sont concentré sur la conception et la mise en œuvre d’une structure neuronale dynamique récurrente, faisant appel à une approche récurrente locale (Localement Récurrentes Globalement Feedforward – LRGF) et aux fonctions gaussiennes, très efficaces dans la surveillance statique. Nous avons ainsi proposé un concept nouveau – le Réseau Récurrent à Fonctions de base Radiales – RRFR (RRBF-Recurrent Radial Basis Function).

Ce chapitre est structuré en quatre parties. La première sera dédiée à une brève présentation des concepts fondamentaux liés aux réseaux de neurones, comme l’apprentissage et la généralisation. La deuxième partie présente un aperçu des principales contributions dans la surveillance et surveillance dynamique par réseaux de neurones. Un état de l’art synthétique sera ensuite introduit en troisième partie, pour finir avec l’introduction de notre nouvel outil neuronal récurrent – le RRFR.

Chapitre 4 – Surveillance Dynamique par Réseaux de Neurones Récurrents page 87

4.2 P

ROPRIETES FONDAMENTALES DES

R

ESEAUX DE NEURONES

ARTIFICIELS

Dans ce paragraphe, nous nous proposons d’introduire brièvement les propriétés les plus importantes des réseaux de neurones artificiels, propriétés auxquelles nous allons faire référence tout au long de notre étude. L’ensemble des références bibliographiques étudiées, ainsi qu’un résumé étendu des différentes structures avec les techniques d’apprentissage correspondantes peuvent être consultées dans (Zemouri, 2003).

4.2.1 APPRENTISSAGE ET MEMOIRE

L’une des caractéristiques les plus complexes du fonctionnement de notre cerveau est bien la phase d’apprentissage. C’est une phase au bout de laquelle certaines modifications s’opèrent entre les connexions des neurones : certaines sont renforcées et d’autres affaiblies ou carrément inhibitrices. Le cerveau converge alors vers un comportement souhaité : par exemple l’apprentissage d’une langue, ou encore l’apprentissage par un enfant à reconnaître son environnement. Ceci nous emmène à la notion de mémoire qui donne au cerveau la capacité de retrouver des expériences passées. Le cerveau possède plusieurs types de mémoires. Nous ne nous attarderons pas sur ces différents types de mémoires mais ce que nous pouvons retenir c’est que le cerveau humain procède par association. Cela permet par exemple de retrouver une information à partir d’éléments incomplets ou imprécis (bruités). Par exemple, le fait de voir un bout d’une photographie qu’on connaît déjà est suffisant pour que notre cerveau soit capable de la reconnaître. Dans le paragraphe suivant, nous détaillerons d’avantage cette importante caractéristique des réseaux de neurones artificiels, plus connue comme capacité de généralisation. Le mécanisme de l’association permet aussi au cerveau de converger vers un état à partir d’un autre état. Par exemple, le fait de passer devant une boulangerie nous fait rappeler qu’on devait acheter du pain. Cette deuxième importante caractéristique est aussi connue sous le nom de mémoire adressée par le contenu, dont le modèle de Hopfield s’en inspire. Par analogie avec les réseaux de neurones biologiques, les réseaux de neurones artificiels tentent de reproduire les caractéristiques les plus importantes du comportement biologique, à savoir l’apprentissage, la généralisation et l’association.

L’apprentissage des réseaux de neurones artificiels est une phase qui permet de déterminer ou de modifier les paramètres du réseau, afin d’adopter un comportement désiré. Plusieurs algorithmes d’apprentissage ont été développés depuis la première règle d’apprentissage de Hebb (1949). Ces algorithmes d’apprentissage sont classés en deux catégories : supervisé et non supervisé.

Dans l’apprentissage supervisé, un superviseur (ou expert humain) fournit une valeur ou un vecteur de sortie (appelé cible ou sortie désirée) que le réseau de neurones doit associer au vecteur d’entrée. L’apprentissage consiste dans ce cas à modifier les paramètres du réseau de neurones afin de minimiser l’erreur entre la sortie cible et la sortie réelle du réseau de neurones.

Dans l’apprentissage non supervisé, les données ne contiennent pas d’informations sur une sortie désirée. Il n’y a pas de superviseur. Il s’agit de déterminer les paramètres du réseau de neurones suivant un critère à définir (fonction d’énergie à minimiser/maximiser).

page 88

4.2.2 SOUS-

APPRENTISSAGE

,

GENERALISATION ET SUR

-

APPRENTISSAGE

La capacité de généralisation est une raison de base qui motive l’étude et le développement des réseaux de neurones artificiels. Elle peut être définie par la capacité d’élargir les connaissances acquises après apprentissage à des données nouvellement rencontrées par le réseau de neurones. C’est de cette façon que les réseaux de neurones sont capables d’approximer une fonction uniquement à partir d’une partie des données, ou encore d’associer un vecteur d’entrée qui n’a pas fait l’objet d’un apprentissage, à une classe. On peut distinguer deux types de généralisation : locale et globale.

Dans l’approche locale, chaque neurone est associé à une région d’activation (région d’influence) localisée dans l’espace des données. Seule une partie des neurones participe donc à la réponse du réseau. Deux types d’architectures neuronales possèdent cette particularité : les Réseaux à base de Fonctions Radiales et la carte de Kohonen.

Par contre, dans l’approche globale, l’ensemble des neurones du réseau participe à l’élaboration de la sortie du réseau. L’information est donc distribuée dans le réseau tout entier. C’est le cas des réseaux de neurones de type Perceptron Multi Couches ou le modèle de Hopfield. L’approche globale est supposée plus robuste aux pannes éventuelles de quelques neurones isolés. Par ailleurs, lors d’un apprentissage incrémental, des problèmes d’interférences catastrophiques peuvent apparaître : la modification des paramètres d’un neurone a des répercussions sur l’ensemble de la fonction modélisée par le réseau. Des régions de l’espace des données éloignées de la région de la donnée à mémoriser risquent d’être perturbées. En d’autres termes, tandis que le réseau apprend dans une région de l’espace des données, le modèle peut oublier ce qu’il a appris dans d’autres régions.

La figure ci-dessous illustre la différence de généralisation entre les deux architectures neuronales caractérisées par les deux fonctions d’activation (locale pour le RFR et globale pour le PMC) : X1 X2 Classe A Classe B Vecteur associé à la Classe A Vecteur associé à la Classe B X1 X2 Classe A Classe B Vecteur associé à aucune classe Vecteur associé à aucune classe , vecteurs d’apprentissage , vecteurs ne faisant pas partie de la

base d’apprentissage

a b

Figure 33. Différence des capacités de généralisation entre le PMC (a) et les RFR (b).

La capacité de généralisation est très liée à la notion de surapprentissage³⁰. Ces deux

caractéristiques sont complètement antagonistes. On parle de sur-apprentissage quand le réseau a trop parfaitement appris les exemples proposés. Il sera donc incapable de généraliser.

Chapitre 4 – Surveillance Dynamique par Réseaux de Neurones Récurrents page 89

Un indicateur utilisé pour étudier ce phénomène est la mesure de complexité k du système d'apprentissage (indicateur lié à la taille du réseau de neurones). En pratique, on calcule alors la moyenne des erreurs quadratiques - appelée ‘erreur base apprentissage’ - sur l’ensemble A de données d’apprentissage, et - ‘erreur base test’ - sur l’ensemble T de données de test (différent de celui d’apprentissage). Plus on agrandit l’ensemble A, plus l’erreur base apprentissage diminue, plus l’erreur base test augmente, ce qui implique la perte des capacités de généralisation. La figure suivante illustre clairement ce compromis entre surapprentissage, sous-apprentissage et bonne généralisation.

Erreur moyenne Complexité k du modèle Base apprentissage Base test k optimal Bonne Généralisation

Dans le document Contribution à la Surveillance des Systèmes de Production en Utilisant l'Intelligence Artificielle (Page 90-94)