1.7.2.1 Méthode de centre de gravité - Techniques de l'intelligence artificielle

Chapitre II: Techniques de l'intelligence artificielle

II. 1.7.2.1 Méthode de centre de gravité

La défuzzification par centre de gravité consiste à calculer l’abscisse du centre de gravité de la fonction d’appartenance résultante

µ

_r . En pratique, on estime le centre de gravité, en calculant la moyenne d’un certain nombre de points échantillonnés sur la fonction:

* ( )

( )

i r i

r i

y y

∑

(II.1)

II.1.7.2.2 Méthode moyenne dumaximum Cette méthode, s’applique uniquement dans le cas où la fonction d’appartenance

associée à l’ensemble de sortie n’admet qu’un seul maximum. On choisit comme sortie l’abscisse y^*correspondant à ce maximum.

II.1.8 Traitement numérique des inférences

Dans les règles précédemment décrites, interviennent les opérateurs ET et OU.

L’opérateur ET s’applique aux variables à l’intérieur d’une règle alors que l’opérateur OU lie les différentes règles. A cause de l’empiètement des fonctions d’appartenance, en général deux ou plusieurs règles sont activées en même temps. Ce fait doit être pris en considération lors de la réalisation de l’opérateur OU. Une méthode d’inférence doit être utilisée permettant le traitement numérique des différents opérateurs dans cette inférence. L’idée générale est d’obtenir une certaine allure de la fonction d’appartenance résultante de la variable de sortie à partir de certaines valeurs pour les fonctions d’appartenance des variables d’entrées. La méthode d’inférence max-min est utilisée dans notre cas. La conclusion dans chaque règle lie le degré d’appartenance de la variable de sortie par l’opérateur ET alors réalisé par la formation du minimum. Enfin, l’opérateur OU qui lie les différentes règles est réalisé par la formation du maximum. La figure (II.7) représente graphiquement le principe de la méthode d’inférence max-min. Ce schéma traite l’exemple d’un système de deux règles liant deux variables d’entrées, x et y, à une variable de sortie, z. L’allure de la fonction d’appartenance de la variable de sortie résultat de l’application de ces règles à deux valeurs données des variables d’entrée, x1 et y1, est ainsi montrée. Cet exemple met en évidence le choix du degré d’appartenance minimal représentant l’opérateur ET qui vient affecter la fonction d’appartenance de la variable de sortie désignée dans chaque règle. L’opérateur OU reliant les deux règles est traité en choisissant le degré d’appartenance maximal à chacun des ensembles flous de la variable de sortie obtenue par l’application de chacune des deux règles.

Figure (II.7) : Méthode d’inférence max-min pour deux variables d’entrée et deux règles

Étant donnée l’allure de la fonction d’appartenance résultante de la variable de sortie, µres

(z), la dernière phase du traitement numérique des inférences est notamment la transformation de cette information floue en une valeur déterminée. C’est précisément la phase de défuzzification, méthode inverse de la fuzzification. Concrètement, pour une valeur donnée des variables d’entrées, une valeur précise de la variable de sortie est ainsi fournie par le mécanisme d’inférence flou. Nous allons utiliser la méthode la plus utilisée qui consiste à déterminer le centre de gravité de la fonction d’appartenance résultante comme le montre la figure (II.8). La valeur de la variable de sortie résultante, zres est ainsi l’abscisse de ce centre de gravité.

µ^res

z^res z

Figure (II.8) : Méthode de défuzzification par calcul de l’abscisse du centre de gravité de la fonction d’appartenance résultante

II.1.9 Régulateur flou de type PI

La présente section a pour but de présenter plus en détails la structure retenue pour les correcteurs flous de type PI utilisés dans nos travaux. Ce correcteur représenté par la figure (II.9).

err eur

dèrivèe de l’erreur

Fuzzification mécanisme d’infér ence

et base de règle

dèfuzzification

G∆u ∫

∆u u

∆ê G∆e

G^e

Figure (II.9) : Régulateur flou de type PI

Deux entrées sont traitées, l’erreur e et la dérivée de l’erreur ∆e pour une unique commande u . Les deux entrées sont normalisées au moyen de gains de normalisation, G_epour l’erreur et G_∆_epour la dérivée de l’erreur. Un gainG_∆_u , est utilisé pour normaliser la sortie.

L’univers du discours est ainsi ramené sur l’intervalle [−1, +1]. Les facteurs de normalisation permettent ainsi de définir le domaine de variation normalisé des entrées et le gain de dénormalisation définit le gain en sortie du correcteur flou de type PI. Ces éléments permettent d’agir de façon globale sur la surface de commande en élargissant ou réduisant l’univers du discours des grandeurs de commande.

II.1.10 Définition de la loi de commande floue

Cette loi est fonction de l’erreur et de sa variation (u = ( ,f e ∆e)). Par conséquent, l’activation de l’ensemble des règles de décision associées donne la variation de la commande

∆u nécessaire, permettant l’ajustement de la commande u [34].

La forme générale de la loi de commande est donnée par [34] [35] :

∆ Variation de la commande.

Te: période d'échantillonnage.

L’erreur e et la variation de l’erreur ∆e sont normalisées comme suit:

Ge et G_∆_e représentent les facteurs d’échelle (Gain de normalisation). On fait varier ces facteurs de façon à trouver un réglage convenable.

II.1.11 Régulateur PID à base d'un système flou

L'algorithme de régulation PID est exprimée sous forme d'un contrôle discret par:

(II.3)

Il est très difficile de régler correctement les gains des contrôleurs PID, car de nombreuses installations industrielles sont souvent accablés par des problèmes tels que d'ordre élevé, des retards, et non-linéarités [36][37]. Pour cette raison, de nombreux chercheurs ont mis en avant de nombreuses nouvelles stratégies de contrôle PID basé sur des algorithmes intelligents [38][39][40]. Une des méthodes les plus intéressantes est basée sur les concepts de la logique floue. La Figure (II.10) montre le schéma de commande du système en utilisant un régulateur PID à base d'un système flou, où les valeurs de gain du régulateur PID sont ajustes par un contrôleur flou [29].

y^r

y system flou

PID système

KP Ki Kd

∆e

dtd

Figure (II.10) : Régulateur PID-flou

Trois tables de contrôle flou distinctes sont utilisées pour définir les trois paramètres du régulateur PID-flou, on peut les voir dans les tableaux (II.2) à (II.4) [41].

Tableau(II.2): Base d’inférence pour Kp

∆e

NB NM NS Z PS PM PB

NB PB PB PM PM PS Z Z

NM PB PB PM PS PS Z NS

NS PM PM PM PS Z NS NS

Z PM PM PS Z NS NM NM

PS PS PS Z NS NS NM NM

PM PS Z NS NM NM NM NB

PB Z Z NM NM NM NB NB

Tableau(II.3): Base d’inférence pour Ki

∆e

NB NM NS Z PS PM PB

NB NB NB NM NM NS Z Z

NM NB NB NM NS NS Z Z

NS NB NM NS NS Z PS PS

Z NM NM NS Z PS PM PM

PS NM NS Z PS PS PM PB

PM Z Z PS PS PM PB PB

PB Z Z PS PM PM PB PB

système flou

Tableau(II.4): Base d’inférence pour Kd

∆e

NB NM NS Z PS PM PB

NB NS NB NB NB NS PS PS

NM NS NB NM NM NS Z PS

NS NS NS NM NS NS Z Z

Z NS NS NS NS NS Z Z

PS Z Z Z Z Z Z Z

PM NS PS PS PS PS PB PB

PB PM PM PM PS PS PB PB

II.1.12 Régulateur PD-flou avec action intégrale

Il est simple de concevoir un régulateur PID floue avec trois termes entrés : erreur, intégrale de l'erreur et dérivée de l'erreur. Une base de règles avec trois entrées devient grande et les règles relatives à l'action intégrale sont encombrantes. Par conséquent, on distingue l'action intégrale. Un régulateur PD-flou avec un régulateur I classique peut être obtenu en plaçant un régulateur PD- flou en parallèle avec le dispositif de commande intégral conventionnel [17]. Le modèle du PD- flou avec contrôleur classique I est comme indiqué sur la figure (II.11).

Régulateur y

PD-flou Systeme

Kⁱ

Action intégrale

u e

∆e d dt

Figure (II.11) : Régulateur PD-flou avec action intégrale

II.2 Réseaux de neurones artificiels

Les réseaux de neurones artificiels constituent une approche récente de modélisation des systèmes complexes, particulièrement utiles lorsque ces systèmes sont difficiles à modéliser à l’aide des méthodes statistiques classiques. Les réseaux de neurones artificiels sont issus des premiers travaux réalisés dans le domaine de l’intelligence artificielle.

II.2.1 Historique

C’est en 1943 que W. Mc Culloch et Pitts introduisent dans leurs travaux les réseaux de neurones et donnent ainsi naissance au connexionnisme [10]. En 1949 Hebb parle de la propriété de plasticité synoptique en proposant une explication à l’apprentissage. En 1957, Rosemblatt présente le premier modèle opérationnel de ces réseaux de neurones, montre que le perceptron inspiré du système visuel est capable d’apprendre à calculer certaines fonctions logiques en modifiant ses connexions synaptiques [43].

Après un désintéressement des chercheurs et des investisseurs, on assiste dès 1980 à un renouveau des réseaux de neurones. C’est en 1982 que Hopfield a montré l’analogie des réseaux de neurones avec certains systèmes physiques ce qui a permis d’appliquer un formalisme mieux maîtrisé [44]. Depuis, les recherches et les applications ont progressé.

II.2.2 Neurone formel II.2.2.1 Définition

Le neurone formel est un modèle mathématique du neurone biologique. Il fait la somme pondérée de ses entrées, suivie d’une non-linéarité appelée fonction d’activation ou fonction de seuil. Les entrées d’un neurone sont soit des entrées externes, soit des sorties d’autres neurones. Le choix de la fonction d'activation dépend de l'application.

Le schéma d’un neurone formel est donné par la figure (II.12).

f(x) x¹

x²

xⁿ

w²

x y

Figure (II.12): Schéma d’un neurone formel.

II.2.2.2 Principe de fonctionnement

L’équation de sortie ydu neurone est donnée par [45]:

( )

y =f x (II.4)

Où

1 n

i i

x x w

∑

Les entrées du neurone sont désignées par xi (i=1,...n), et les paramètres wi reliant les entrées aux neurones sont appelés poids.

II.2.2.3 Fonction d'activation

Les fonctions les plus souvent utilisées sont représentées par la figure (II.13).

s f

Fonction linéaire avec seuil s

Fonction sigmoide

s f

Fonction Heaviside Fonction linéaire sans activation

s f

Fonction a seuils multiples

Figure (II.13): Les différentes formes de la fonction d’activation

II.2.3 Propriétés des réseaux de neurones

Les Propriétés remarquables que possèdent les réseaux de neurones c’est de dépasser les limitations de l’informatique traditionnelle, tant au niveau programmation qu’au niveau machine.

II.2.3.1 Le parallélisme

Ce concept est à la base de l’architecture des réseaux de neurones, ils sont considérés comme un ensemble d’entités élémentaires œuvrant simultanément. C’est à partir de l’étude du

fonctionnement des réseaux de neurones, qu’on pourrait aboutir à des nouvelles techniques de formalisation de problème qui permettraient de les traiter en parallèle.

II.2.3.2 La capacité d’adaptation

La capacité d’apprentissage est liée aux nouvelles contraintes et données du milieu extérieur. Certains réseaux ont une capacité d’auto organisation qui leur assure une stabilité en tant que systèmes dynamiques capables de tenir compte des situations non encore connues.

II.2.3.3 La mémoire distribuée

Dans les réseaux de neurones, la mémoire est analogue à une carte d’activation de neurones. Cette carte est un codage mémorisé ce qui attribue à ces réseaux l’avantage de résister aux bruits (pannes), la perte d’un élément ne correspond pas à la perte d’un fait mémorisé.

II.2.3.4 La capacité de généralisation

La capacité de généralisation est utile dans l’élaboration des recueils d’expertise lorsque le système expert devient laborieux (reconnaissance intuitive ou implicite). Les réseaux neuronaux sont aptes à retrouver les règles à partir d’exemples.

II.2.4 Architectures des réseaux de neurones

On a deux groupes importants d’architectures des réseaux de neurones : Les réseaux statiques non récurrents et les réseaux dynamiques récurrents.

II.2.4.1 Les réseaux statiques

Dans un réseau statique ou non récurrent, la sortie d’un neurone n’a aucune influence sur les sorties d’autre neurones. Dans ce cas, la sortie du réseau est reçue directement après l’application du signal d’entrée, l’information circule dans une seule direction de l’entrée vers la sortie.

Les réseaux statiques réalisent des transformations non linéaires de la forme : y =f (x) ou x_∈R^m et y ∈ Rⁿ^, m et n sont les dimensions du vecteur d’entrée x et du vecteur de sortie y respectivement.

Un réseau multicouches ou réseau statique englobe trois couches : une couche d’entrée, plusieurs couches cachées et une couche de sortie. Les neurones cachés (ou invisibles à la sortie)

n’ont pas des sorties du système, l’entrée de chaque neurone est connectée à toutes les sorties des neurones précédents.

Dans ces réseaux statiques, la sortie de chaque neurone d’une couche l est connectée à l’entrée de chaque neurone de la couche suivant l+1.

L’architecture d’un tel réseau est donnée par la figure (II.14).

Couche

d’entrée Couche

cachée

Couche de sortie

Figure (II.14) Forme d’un réseau non bouclé.

II.2.4.1.1 Le Perceptron

Présenté originellement par Rosenblatt, en 1958, le perceptron est la forme la plus simple du réseau de neurones. Il permet de classifier correctement des objets appartenant à deux classes linéairement séparables [46].

II.2.4.1.1.1 Structure du Perceptron

L’architecture générale d’un Perceptron comme décrit en figure (II.15) comprend trois éléments principaux :

a- Rétine: La première couche, composée de la rétine, comprend plusieurs cellules qui jouent le rôle de capteurs. Elle reçoit les exemples ou formes à classer. Chaque élément de la rétine peut être considéré comme un pixel prenant des valeurs binaires 1 et 0.

b- Couche d’association: La deuxième couche d’association est composée de cellules associatives qui sont connectées totalement ou de façon aléatoire aux cellules de la rétine, Ces cellules d’associations sont dotées de façons d’association qui peuvent par exemple réaliser des fonctions booléennes ou bien utiliser des fonctions linéaires.

c- Couche de cellule de décision: La cellule de décision est un automate à seuil de fonction de transfert qui délivre la sortie binaire.

Rétine Couche d’association

Couche de décision

Figure (II.15): Schéma d’un Perceptron.

II.2.4.1.2 Le perceptron multicouche

Ils sont une amélioration du perceptron comprenant une ou plusieurs couches intermédiaires dites cachées. Ils utilisent, pour modifier leurs poids, un algorithme de rétro propagation du gradient, qui est une généralisation de la règle de Widrow Hoff. Il s’agit toujours de minimiser l’erreur quadratique, ce qui est assez simple quand on utilise une fonction f dérivable (la sigmoïde par exemple) et consiste à propager la modification des poids de la couche de sortie jusqu’à la couche d’entrée [47].

II.2.4.1.2.1 Structure des perceptrons multicouches

(PMC ou noté MLP pour Multi Layer Perceptron en anglais) est directement inspiré du perceptron monocouche, et cela afin de résoudre les problèmes de classification non linéaire du perceptron et dépasser les limites principales de celui-ci. Il est organisé en couches tel que :

a. La couche d’entrée: Elle recevra les données sources que l'on veut utiliser pour l'analyse. Sa taille est donc directement déterminée par le nombre de variables d'entrées.

b. Les couches cachées : Le MLP peut comporter une ou plusieurs couches cachées, en ce sens qu'elle n'a qu'une utilité intrinsèque pour le réseau de neurones et n'a pas de contact direct avec l'extérieur. Les fonctions d'activations sont en général non linéaires sur cette couche mais il n'y a pas de règle à respecter. Le choix de sa taille n'est pas implicite et doit être ajusté.

c. La couche de sortie : Elle donne le résultat obtenu après compilation par le réseau des données entrées dans la première couche. Sa taille est directement déterminée par le nombre de variables qu’on veut en sortie.

Couche d’entrée

Couche de sortie

Couches cachées

Figure (II.16): Exemple d’un réseau de type perceptron multicouche.

II.2.4.1.2.2 Architecture du réseau perceptron multicouches

La mise en cascade de perceptrons conduits à ce qu’on appelle le perceptron multicouches. Les perceptrons employés ici diffèrent cependant de celui de Rosenblatt, par le fait que la non-linéarité utilisée est à présent une fonction continue, d’allure sigmoïdale par exemple, et non plus la fonction de signe. Lorsque le vecteur de caractéristiques d’un objet est présenté à l’entrée du réseau, il est communiqué à tous les neurones de la première couche. Les sorties des neurones de cette couche sont alors communiquées aux neurones de la couche suivante, et ainsi de suite. La dernière couche du réseau est appelée couche de sortie, les autres étant désignées sous le terme de couches cachées car les valeurs de sortie de leurs neurones ne sont pas accessibles de l’extérieur.

II.2.4.1.3 Réseau de neurones de type RBF (Radial Basis Functions)

Les réseaux à fonctions radiales de base (RBF) sont des modèles connexionnistes simple à mettre en œuvre et assez intelligible. Ils sont très utilisés pour la régression et la discrimination Leur propriétés théoriques ont été étudiées en détail depuis la fin des années 80 ; il s’agit certainement, avec le perceptron multicouche, du modèle connexionniste le mieux connu [48].

II.2.4.1.3.1 Architecture de réseau RBF

Introduit par Powell et Broomhead [49], le réseau RBF (Radial Basis Functions) fait partie des réseaux de neurones supervisés. Il est constitué de trois couches (figure II.17):

une couche d'entrée qui retransmet les entrées sans distorsion, une seule couche cachée qui contient le neurones RBF qui sont généralement des gaussiennes [50] et une couche de sortie dont les neurones sont généralement constitués par une fonction d'activation linéaire.

Chaque couche est complètement connectée à la suivante et il n'y a pas de connexions à l'intérieur d'une mêmecouche.

Figure (II.17): Présentation schématique d'un réseau RBF.

Ce réseau est constitué de N neurones d'entrée, M neurones cachés et J neurones de sortie. La sortie du m^ièmeneurone de la couche cachée est donnée par la fonction gaussienne:

wmj sont les poids reliant la couche cachée à celle de la sortie.

II.2.4.2 Les réseaux dynamiques différentielles. Un exemple de réseaux dynamiques est donné par la figure (II.18).

1 3

Figure (II.18): Forme d’un réseau bouclé

II.2.5 Apprentissage des réseaux de neurones

Les réseaux de neurones sont considérés comme une boite noire renfermant l’information qu’elle doit apprendre et mémoriser. Au départ on choisit notre réseau, la boite noire est vide et ne contient aucune information, ni aucune connaissance sur son sujet, d’où un apprentissage est nécessaire. Le réseau de neurones subit un enseignement qui est un apprentissage, ceci est une phase du développement du réseau de neurones durant laquelle le comportement du réseau est modifié jusqu'à l'obtention du comportement désiré. L’apprentissage neuronal demande des exemples de comportement. L’apprentissage des réseaux de neurones consiste à adapter ses différents paramètres (poids) d’après un algorithme itératif d’ajustement ou d’adaptation lui permettant de prendre en considération toutes les données (exemples) qui lui sont fournies à son entrée et ainsi ajuster ses paramètres pour trouver le juste milieu permettant de prendre en charge n’importe quel exemple ou donnée apparaissant à son entrée provenant de son environnement.

Les algorithmes d’apprentissages donnent des meilleurs résultats lorsqu’on leur fournit des exemples multiples et variés ; ainsi le réseau peut assimiler toutes les connaissances. Il existe différente règles d’apprentissage parmi lesquelles on peut distinguer: La règle de Widrow-Hoff, la règle de Hebb, la règle du perceptron, la règle de Grossberg, etc... [51][52][53].

II.2.5.1 Apprentissage supervisé

Avec la découverte par Rumelhart de l’algorithme de rétro-propagation de l’erreur (RP) on a débuté à établir l’apprentissage des réseaux de neurones multicouches à partir d’exemples.

Cette méthode de détermination des poids est appelée apprentissage supervisé.

L'apprentissage supervisé, est basée sur des exemples qui sont des couples (entrée, sortie désirée). On présume l’existence d’un expert qui prend en charge la sortie de notre réseau en lui fournissant une sortie désirée et les associes aux sorties réelles fournies par le réseau d’après les données à l’entrée. Le réseau adapte ses paramètres en fonction de

la différence qui existe entre la sortie réelle et la sortie désirée en prenant compte de tous les exemples de l’environnement.

Superviseur

Réseaux de neurones

Erreur

En tré es

Figure (II.19): Illustration de l’apprentissage supervisé

II.2.5.2 Apprentissage non supervisé

L’apprentissage non supervisé est un apprentissage autodidacte, à l’inverse de l’apprentissage supervisé, il n’a pas besoin d’expert pour le guider à adapter ses paramètres, il ne dispose que des valeurs entrées. Les modèles d’apprentissage non supervisé nécessitent avant la phase d'utilisation une étape de labellisation effectuée par l’opérateur.

Réseaux de

neurones Sortie

En tré es

Figure (II.20): Illustration de l’apprentissage non supervisé

II.2.6 Algorithmes d'apprentissage des RNAs

Il existe plusieurs types d’algorithmes d'apprentissage, parmi lesquels nous pouvons citer : la rétro-propagation, fast-retropropagation, recurrent-retropropagation, random optimisation

Dans le document Présenté par : AKKA ALI. Intitulé (Page 37-0)