Les perceptrons multi-couches

Chapitre 4 : État de l’art de la reconnaissance de l’écriture manuscrite

Couche d'entrée couche cachée 1 couche cachée 2 Couche de sortie

Sens de propagation

e : désigne les exemples de la base d'apprentissage Nb-e : représente le nombre d'exemples de la base d'apprentissage

c : indique le numéro de la couche cachée du PMC Nb-c : indique le nombre de différentes couches cachées du PMC

Tant que la condition d'arrêt n'est pas satisfaite

Pour e = 1 jusqu’à Nb-e

Choisir un exemple de la base d’apprentissage d’une façon aléatoire

vers l’état sortie

Calcul de la valeur de l'erreur en sortie du réseau

Pour c = Nb-c jusqu’à 1 (rétro propagation)

Détermination de la valeur de l'erreur pour chaque neurone de la couche cachée c

Pour c = 1 jusqu’à Nb-c

Correction et réaffectation des poids du réseau Fin Pour c

Vérification de la condition d'arrêt Fin Tant que

Chapitre 4 : État de l’art de la reconnaissance de l’écriture manuscrite

3 Les réseaux de neurones

3.2 Les perceptrons multi-couches

Figure 14 : réseau de neurones représenté par un graphe orienté.

3.2 Les perceptrons multi-couches

Généralement, les perceptrons multi-couches (PMC) (Badran et al, 2001) sont

qualifiés souvent par le terme « boîtes noires », car, il est difficile de les interpréter, les

Chapitre 4 : État de l’art de la reconnaissance de l’écriture manuscrite

59

implémenter et les régler, ils sont souvent utilisés dans le domaine de la reconnaissance (écrit,

visage, parole, signature, etc.).

3.2.1 Architecture d'un PMC

Un PMC contient trois couches : couche d'entrée, une ou plusieurs couches cachées et une

couche sortie. Si le neurone de chaque couche est connecté à tous les autres neurones de la

couche inférieure, dans ce cas, le réseau est appelé réseau complètement connecté.

La figure ci-dessous montre un PMC à quatre couches. Dans ce PMC, la couche d'entrée

contient trois paramètres, la première couche cachée possède cinq neurones, la seconde

couche contient quatre neurones. Enfin, la couche de sortie (phase de décision) ne doit

contenir qu'un seul neurone.

Dans un PMC, le but des couches cachées est l'extraction de l'information pertinente à partir

de l’entrée afin de résoudre les problèmes de décision. Généralement, les entrées sont

présentées dans leurs formes brutes (données originales).

Figure 15 : Exemple d’un perceptron multi-couches

Généralement, le calcul de la sortie dans un PMC se fait de gauche à droite, on commence par

le calcul de sortie de chaque neurone à partir de la première couche cachée jusqu’à la dernière

couche cachée et, enfin, on calcule la sortie y. Si on applique le PMC sur un système de

reconnaissance de caractères, généralement, on trouve dans la sortie du réseau le même

60

nombre de neurones que celui de classes à reconnaître (par exemple, on trouve 10 neurones

dans le cas des chiffres de 0 à 9). Généralement, pour déterminer la décision finale en

reconnaissance de l'écriture, on utilise un vecteur qui détermine les probabilités d'une classe

par rapport à l'entrée de PMC. Selon (Bridle, 1990), il faut utiliser la fonction Softmax

comme fonction de transfert pour obtenir en sortie de probabilités entre 0 et 1.

- i est l'indice du neurone qui correspondant à la classe Ci.

- k est l'indice balayant tous les neurones qui appartient à la même

couche.

- v désigne le potentiel du neurone.

- x correspond à l'entrée des neurones.

Concernant le calcul dans les couches cachées, il existe deux fonctions de transfert possible ;

la fonction sigmoïde et la fonction tangente hyperbolique (Harrington, 1993).

3.2.2 Apprentissage

Avant d’associer un élément à une classe, il faut tout d’abord apprendre à discriminer

cette classe et être capable d’extraire les règles ou les problèmes avec quelques échantillons

en apprentissage, car il est impossible avec une seule encre de récupérer tous les prototypes

possibles.

3.2.3 Les bases d’apprentissage

En général, l'apprentissage se fait d’une manière supervisée, à partir d’une base de

données suffisamment importante, découpée en deux, voire trois sous-bases. La première

sous-base est utilisée pendant la phase d'apprentissage. Elle permet d'apprendre les poids du

réseau de neurones. La deuxième sous-base est appelée base de test. Elle est utile dans le

réglage des méta-paramètres de l'algorithme d'apprentissage (nombre de couches cachées, pas

de gradient, nombre de neurones, etc.). Elle permet l’évaluation optimiste des différentes

erreurs. Enfin, la troisième sous-base, si on l’utilise, elle sert comme base de validation afin

Chapitre 4 : État de l’art de la reconnaissance de l’écriture manuscrite

61

d'évaluer le système sur des nouveaux exemples. Le découpage de ses bases dépend de

nombre d’échantillons et de nombre de paramètres du PMC.

3.2.4 Algorithme d’apprentissage

Le but de l'apprentissage est la correction des erreurs liées aux classements des

données. Au cours de l'entraînement supervisé du système, ce dernier adapte ses paramètres

PMC ajustables pour que la sortie tende vers le résultat désiré.

Principalement, on utilise les méthodes, qui sont très efficaces, utilisant le gradient pour

adapter les poids. Les algorithmes de calcul de gradient conjugué sont nombreux, par contre,

ils sont coûteux en calculs et en mémoire. À cause de ces contraintes, généralement la

méthode de descente de gradient stochastique est la plus utilisée dans les processus

d’apprentissage. Cette méthode est itérative et elle suit la règle suivante pour la mise à jour

(Bottu, 2012) :

Avec :

µ

: désigne le pas de descente.

l : correspond à l'indice de la couche en cours.

i : correspond à l’indice du neurone.

Équation 1 : formule de calcul du gradient local et total

L’utilisation de l’approche de la rétro-propagation (LeCun, 1987) est très efficace si on

souhaite calculer le gradient de la fonction d'erreur d'un PMC, par rapport à la méthode

directe (Rossi, 1995). Dans notre système de reconnaissance de l’écriture manuscrite, nous

allons adapter cette méthode de calcul du gradient.

Étant donné :

62