Apprentissage de R´ eseaux de Neurones Artiﬁciels

7.7 Applications

7.7.4 Apprentissage de R´ eseaux de Neurones Artiﬁciels

Nous abordons ici le problème de l’approximation de fonctions : étant donné une fonction F dont les valeurs ne sont connues qu’en un nombre fini de k points{p1,· · · , pk},

on veut construire un mod`ele qui approximera F en tout point. Les R´eseaux de Neu-rones Artificiels (RNA) sont des modèles possibles pour l’approximation de fonctions (voir (Widrow, 1990) pour un exposé synthétique des RNA). Nous nous proposons de résoudre le problème de l’apprentissage des poids d’un réseau par l’algorithme API.

L’approximation de fonctions par RNA a été couplée au calcul évolutionnaire à la fois pour apprendre les poids du réseau (Yao, 1993) mais aussi sa topologie (Angeline et al., 1993; Mandischer, 1995). Ce type de problème a été abordé par exemple avec une stratégie d’évolution (SE) et en programmation génétique (PG)(Sebag et al., 1997). La SE a été utilisée pour l’approximation paramétrique (recherche des poids) et la PG pour l’approximation non paramétrique (recherche des poids et de la topologie). Si le modèle est bien choisi, la SE donne des résultats plus précis et plus rapidement que la PG qui a tendance à se perdre dans l’espace de recherche qui est beaucoup plus grand. Il ressort de cet article que dans les deux cas (SE et PG), les données expérimentales sont cruciales.

Le mod`ele que nous utilisons ici est le Perceptron Multi-Couches (Multi Layer

Perceptron : MLP) (Rumelhart et al., 1986). La figure 7.20 pr´esente un MLP à quatre entrées, une couche cachée et deux sorties.

E 1 E2 E3 4 E S₁ S₂ Couche d'entrée Couche cachée Couche de sortie

Fig. 7.20 – Perceptron multi-couche (MLP) `a quatre entr´ees (E₁, . . . , E₄), une couche cach´ee et deux sorties (S₁, S₂).

La sortie de chaque cellule est calculée en fonction de ses entrées. Chaque arc poss`ede un poids w_ij. La sortie d’une cellule est donnée par sa fonction de transfert. Nous avons utilisé la fonction sigmo¨ıde :

sgm(x) = ¹− e−2x

1 + e^−2x ^(7.20)

la valeur de x est donn´ee par les entr´ees de la cellule j :

x =

i∈E

w_ijy_i (7.21)

o`u E est l’ensemble des cellules de la couches inf´erieure et y_i leur sortie.

Nous ne considérons pas le problème de la détermination de la topologie du réseau, les solutions seraient de toutes les fa¸cons assez proches de celles utilisées pour les chaˆınes de Markov cachées (cf 7.7.3).

API pour l’apprentissage du MLP

L’objectif est de d´ecouvrir les valeurs w_ij des poids du MLP aﬁn de minimiser l’erreur quadratique E_q calcul´ee sur l’ensemble de la base d’apprentissage :

E_q = k i=1 |F (pi)− ˆF (p_i)| (7.22) o`u ˆF correspond `a l’approximation du MLP.

Du point de vue de API, la position s d’une fourmi correspond `a un vecteur deRW o`u W est le nombre d’arc du MLP. L’´evaluation de cette position correspond `a l’erreur quadratique obtenue par un MLP ayant comme poids les valeurs de s.

168 7.7 Applications E₁ E₂ XOR(E₁,E₂) [−1, 0[ [−1, 0[ [−1, 0[ [−1, 0[ [0, 1] [0, 1] [0, 1] [−1, 0[ [0, 1] [0, 1] [0, 1] [−1, 0]

Tab.7.20 – Sorties de la fonction XOR.

k N_c RPG RPG RPG API APIh δ = 0.005 δ = 0.05 δ = 0.5 10 3 15.99 16.05 25.08 16.60 15.79 10 5 17.01 17.95 27.84 15.41 14.55 10 7 20.79 19.90 37.73 17.45 15.80 50 3 9.94 12.48 41.99 11.73 9.18 50 5 7.14 6.65 48.87 11.13 6.81 50 7 6.62 8.63 49.60 8.05 6.79 100 3 7.38 8.07 37.7 10.04 7.50 100 5 4.16 6.09 49.65 7.29 5.26 100 7 3.58 4.60 62.75 6.30 4.61

Tab. 7.21 – Comparaison de API et de la RPG pour l’apprentissage de la fonction XOR. Les valeurs indiquées correspondent à la moyenne des pourcentages d’erreur quadratique. Le symbole signale les meilleurs résultats obtenus pour chaque couple (k, N_c).

Exp´erimentations

Nous avons considéré un problème classique dans le domaine de l’approximation de fonctions : la fonction XOR. L’apprentissage de la fonction XOR (ou exclusif) consiste `

a découvrir les poids d’un MLP prenant en entrée deux valeurs r´eelles E₁ et E₂ toutes deux comprises dans [−1, 1]. La sortie est déterminée par le tableau 7.20. L’algorithme

API a été dans un premier temps comparé à l’algorithme de Rétro-Propagation de Gradient (RPG) (Rumelhart et al., 1986). Cet algorithme nécessite de définir un pa-ram`etre de pas (δ), trois valeurs sont test´ees : 0.005, 0.05 et 0.5. Nous avons utilisé trois tailles (k) pour la base d’apprentissage : 10, 50 et 100. Nous avons aussi fait va-rier la structure du MLP : 3, 5 et 7 neurones ont été utilisés pour une couche cachée unique (N_c). Les résultats obtenus correspondent à l’erreur quadratique moyenne ob-tenue pour dix essais et sur une base de test de 100 valeurs. Pour chaque essai, API dispose de 10 000 évaluations de l’erreur quadratique. Les résultats sont présentés dans le tableau 7.21. Les param`etres de API sont les suivants : n = 18, A_locale = 0.01,

A_site = 0.1, P_locale = 10, p = 2 et P_N = 20. Les poids du r´eseau sont dans l’intervalle [−2, 2].

Les résultats obtenus semblent indiquer que API_h est plus performant que la RPG pour des tailles d’apprentissage réduites. Cela laisse présager que API est intéressant

k N_c API∪RPG APIh∪RPG δ = 0.005 δ = 0.05 δ = 0.5 δ = 0.005 δ = 0.05 δ = 0.5 10 3 14.89 16.79 13.07 15.55 14.37 13.09 10 5 15.15 16.28 11.40 15.02 17.49 9.80 10 7 14.59 17.86 10.40 16.48 18.00 13.12 50 3 8.11 6.68 12.19 8.14 6.81 11.85 50 5 6.68 6.57 9.24 6.60 6.85 10.65 50 7 6.16 6.98 9.24 6.83 7.32 8.77 100 3 7.50 7.67 13.17 7.37 7.76 12.36 100 5 4.48 4.62 13.72 4.29 4.59 12.02 100 7 3.64 4.43 11.83 4.15 4.33 13.82

Tab. 7.22 – Résultats obtenus par l’hybridation de API et de la RPG pour l’ap-prentissage de la fonction XOR. Les valeurs indiquées correspondent à la moyenne des pourcentages d’erreur quadratique. Le symbole signale les meilleurs résultats obtenus pour chaque couple (k, Nc).

quand il est difficile d’obtenir des données expérimentales. De plus, plus le nombre de neurones cachés est important, plus les résultats de la RPG se dégradent alors que le phénomène est moins marqu´e pour API. Enfin, le pas δ de 0.005 pour la RPG est le plus performant.

Tout comme cela a été fait pour les chaˆınes de Markov cachées avec l’algorithme Baum-Welch, nous proposons d’hybrider API avec la RPG : API∪RPG. Le tableau 7.22

donne les résultats obtenus en suivant le même protocole de tests que précédemment. L’hybridation donne des résultats qui s’opposent sur deux points aux constatations que nous avions formulées pour les résultats des méthodes séparées :

– la version hétérogène de API s’est montrée dans tous les cas plus performante que la version homogène (tableau 7.21). Quand on hybride API et la RPG cette tendance est inversée : API∪RPG donne plus souvent de meilleurs résultats que

APIh∪RPG ;

– le pas de 0.005 est le plus intéressant quand la RPG opère seule. Quand API est utilisé pour initialiser la RPG cette conclusion n’est plus valable puisque les trois valeurs de pas testées ont toutes réussi à être performantes pour un couple de param`etres (k, N_c).

Les résultats obtenus sur l’apprentissage de réseaux de neurones nous ont montré que le succès de l’hybridation de API avec une heuristique issue du domaine n’est pas toujours évident, même dans le cas d’un problème simple. Les résultats présentés dans les tableaux 7.21 et 7.22 montrent que globalement les résultats sont meilleurs quand on hybride les méthodes. Le principal inconvénient est que l’on ne peut dégager de conclusion nette sur le paramètrage de l’hybridation (pas de la RPG et population homogène/hétérogène de API).

170 7.8 Discussion

7.8 Discussion

Dans le document Algorithmes de fourmis artificielles : applications à la classification et à l'optimisation (Page 179-183)