G´en´eralisation - "Une nouvelle fonction de coût régularisante dans les réseaux de neurones ar

Sens de rétropropagation des erreurs

H O

+ -Vecteur d’entrée

Sens de la propagation du vecteur d’entrée

Vecteur de sortie désiré Vecteur de sortie

obtenu

Fig. 4.2 - Représentation schématique de la rétropropagation de l’erreur.

pas d’apprentissage trop petit, le réseau de neurones apprend très lentement, a contrario avec un pas d’apprentissage trop grand les poids du réseau de neurones et la fonction d’erreur divergent. Par conséquent, trouver un “bon” pas d’ap-prentissage n’est pas chose aisée. Depuis 1986-1987, de nombreux chercheurs ont travaillé à l’amélioration de l’algorithme présenté ci-dessus. Une des méthodes permettant d’accélérer la convergence dans les plateaux consiste à rajouter dans l’équation de mise à jour des poids un terme de moment (ou inertie) [Plaut et al., 1986]. Dans ce cas la règle de modification des poids devient :

w_ij^t⁺¹ =w_ij^t −αG^x_is^x_j +β∆w_ij^t (4.18) On peut citer aussi d’autres travaux destinés à améliorer la vitesse de conver-gence de l’algorithme de rétro-propagation [Falhman, 1988; Riedmiller et Braun, 1993]. Le lecteur pourra aussi considérer d’autres méthodes de minimisation de l’erreur [Jacobs, 1988; Becker et Le Cun, 1988].

4.3 G´ en´ eralisation

4.3.1 Capacit´ e et g´ en´ eralisation

• Généraliser c’est étendre à toute une classe ce qui a été observé sur un nombre limité d’éléments ou d’individus appartenant à cette classe. Dic-tionnaire Hachette.

Dans un processus d’apprentissage le réseau de neurones est construit en mi-nimisant, par exemple, une fonction de coût sur un ensemble fini d’exemples, l’ensemble d’apprentissage. Cependant, le plus important est la faculté de gé-néraliser la représentation construite par le réseau à toutes les données, y com-pris celles n’appartenant pas à l’ensemble d’apprentissage. Une manière d’évaluer cette faculté consiste à mesurer les performances du réseau de neurones sur des données représentatives du problème non apprises. Il s’agit d’une évaluation de l’erreur de généralisation. La différence entre l’erreur d’apprentissage et l’erreur de généralisation représente une mesure de la qualité de l’apprentissage effectué [Vapnik, 1982; Vapnik, 1995; Boucheron, 1992].

L’erreur de généralisation dépend avant tout de trois paramètres : le nombre d’exemples utilisés pour l’apprentissage, la complexité du problème sous-jacent et l’architecture du réseau.

Les approches statistiques de la g´en´eralisation [Vapnik et Chervonenkis, 1971;

Vapnik, 1982] sont un des domaines d’investigation majeur pour optimiser les performances de l’apprentissage des réseaux de neurones. Ce domaine est devenu, avec le temps, très riche et complexe aussi le lecteur est invité à considérer par exemple l’article de synthèse de Wolpert [Wolpert, 1992]. On constate qu’une amélioration de la généralisation peut être vue sous deux aspects imbriqués :

– Si la taille du réseau est fixée, quel est l’ensemble d’exemples d’apprentissage qui donnera la meilleure généralisation?

– Si le nombre des exemples est fixé, comment choisir le réseau pour avoir la meilleure généralisation?

Il est difficile de répondre à chacune de ces questions de manière individuelle tant la réponse à l’une nécessite de se pencher sur l’autre. Il est nécessaire ici d’introduire la notion decapacité: si on considère le réseau de neurones comme un système permettant de choisir une fonction parmi un ensemble déterminé par la structure du réseau, alors la capacité du système représente le nombre d’exemples que le réseau peut apprendre correctement à tout coup. Plus un système peut approximer de fonctions différentes, plus sa capacité est élevée en général plus le nombre de poids est élevé, plus la capacité augmente (figure 4.3).

Une mesure de la capacité du système est la dimension de Vapnik Cher-vonenkis ou VC dim [Vapnik et CherCher-vonenkis, 1971]. Cette capacité est liée à la généralisation comme le montrent les résultats de Vapnik et Chervonenkis.

Pour un nombre d’exemples fixéN, si on commence l’apprentissage avec une VC dim minimale que l’on augmente progressivement (par exemple en augmentant le nombre de connexions), l’erreur de généralisation décroˆıt jusqu’à une valeur critique de la VC dim. Une fois ce point passé, augmenter la VC dim aura pour effet d’augmenter l’erreur de généralisation (l’erreur de généralisation est l’erreur

4.3. G´en´eralisation 75

Généralisation Erreur

N Fixe

Généralisation

Apprentissage Capacité

Capacité fixe Erreur

N Apprentissage

Fig. 4.3 - Relation entre capacité et généralisation des réseaux de neurones artificiels.

sur de nouveaux exemples pris en dehors du premier ensemble). De plus, pour une VC dim fixée, augmenter le nombre d’exemples n’améliorera la généralisation que jusqu’à une valeur asymptotique qui dépend de la VC dim.

4.3.2 G´ en´ eralisation et crit` ere d’arrˆ et pour l’apprentis-sage

L’une des méthodes qui permet de contrôler la capacité d’un réseau de neu-rones consiste à arrêter l’apprentissage “à temps”. De ce fait différents critères permettant de décider quand stopper l’algorithme d’apprentissage ont été déve-loppé :

– quand l’erreur d’apprentissage a atteint un seuil fixé ; – après un nombre fixé de cycles d’apprentissage ;

– quand une estimation de l’erreur de g´en´eralisation est minimum.

Les méthodes qui évaluent l’erreur de généralisation sont presque toutes ba-sées sur la partition de l’ensemble des données qu’on possède en plusieurs sous-ensembles. Par exemple un ensemble utilisé pour l’apprentissage et un ensemble de validation. L’ensemble de validation est utilisé pour contrôler et mesurer la généralisation du réseau. Pendant l’apprentissage l’erreur d’apprentissage décroˆıt continuellement, tandis que sur l’ensemble de validation elle ne diminue que jus-qu’à un certain point au-delà duquel elle augmente. A partir de ce point le réseau apprend par cœur les données de l’ensemble d’apprentissage et l’apprentissage doit être stoppé (ceci est illustré par la figure 4.4). Ces deux ensembles servent à

Optimum de

temps d’apprentissage Erreur

Erreur de test

Erreur d’apprentissage généralisation

Fig. 4.4 - Evolution des erreurs d’apprentissage et de test au cours du temps.

déterminer l’architecture la plus appropriée pour le problème à traiter : pour dif-férentes architectures (nombre de neurones cachés variable), on contrôle l’erreur de validation et on choisit l’architecture pour laquelle elle est minimale.

Parmi les méthodes utilisant cette méthodologie on peut citer les méthodes appelées “split-samples” , “Cross-validation”, “bootstrapping”²:

La technique nommée “split-samples” réserve un troisième ensemble de don-nées appelé ensemble de test, pour tester le réseau sur des dondon-nées qui n’ont jamais été utilisées ni pour l’apprentissage ni pour la validation.

Pour la cross-validation l’ensemble des données de départ est découpé en k parties de taille égale, k pouvant être de la taille de l’ensemble de départ, si tel est le cas on parle de “leave-one-out” sinon on parle de “leave-v-out”. Le réseau est entraˆıné k fois, chaque fois en utilisant k−1 parties pour l’apprentissage et la dernière pour la validation et le calcul des erreurs commises en généralisation.

Des variantes de cette méthode existent comme par exemple celle utilisée par Breiman et Spector [Breiman et Spector, 1992] appelé “10-fold cross-validation”

ou encore celle nommée “bootstrapping”. Le lecteur pourra trouver une compa-raison de ces méthodes dans [Tibshirani, 1996]. Notre choix s’est porté sur la méthode du partage de l’ensemble des exemples en trois ensembles (apprentis-sage, validation, test) citée ci-dessus car nous préférons ne jamais “apprendre”

les exemples de l’ensemble de validation.

2Les termes en anglais sont laissés car communément utilisés

4.3. G´en´eralisation 77

4.3.3 Am´ elioration de la g´ en´ eralisation

Il existe différentes fa¸cons d’améliorer la généralisation obtenue par un réseau.

Nous avons vu plus haut que la capacité d’un réseau détermine sa faculté à généraliser correctement. Cette capacité est reliée à la taille du réseau et est fonction du nombre de neurones utilisés mais aussi du nombre de poids ainsi que de leurs domaines de variation. C’est pourquoi de nombreuses méthodes visant

à réduire le nombre de poids ou à contraindre leurs domaines de variations sont apparues de manière à contrôler la capacité d’un réseau de neurones :

– Recherche d’une architecture minimale avant apprentissage telle la méthode des poids partagés qui consiste à imposer des connexions locales et à for-cer for-certaines connexions à partager les mêmes poids (et donc à réduire le nombre de paramètres libres). Ce type d’architecture est couramment uti-lisée dans les problèmes de reconnaissance de la parole [Waibel, 1989] et de traitement d’image [Loncelle, 1990].

– Minimisation du nombre de poids, voire de l’architecture au cours de l’ap-prentissage. Cette m´ethode propos´ee par Le Cun [Le Cun, Y. et al., 1990]

consiste à supprimer les connexions qui n’ont qu’une petite influence sur l’erreur d’apprentissage. Depuis, d’autres méthodes de ce type appelées pru-ning, ont vu le jour et reposent sur le même principe.

– Introduction d’un terme incluant la complexité du réseau dans la fonction de coût à minimiser pendant l’apprentissage telles que les méthodes appelées

“weight decay” [Hinton, 1986] et “weight elimination” [Rumelhart, 1988].

– Utilisation de la connaissance a priori pour structurer le r´eseau de neurones.

Parmi les méthodes utilisant la connaissance a priori on trouve les réseaux modulaires. En fait on peut voir un système à base de réseaux modulaires comme un très gros réseau à connexions locales et/ou ayant subi un processus d’élagage de poids. Ici l’élagage a été fait à l’aide de la connaissance a priori que l’on a sur le problème à résoudre. Les systèmes modulaires permettent de combiner des modules qui peuvent être hybrides. La justification de l’utilisation de tels modules est de combiner des sous-tâches pour pouvoir résoudre une tâche globale. Par exemple les mélanges conditionnels d’experts ont été introduits par Jacobs et Jordan [Jacobs, R. A. et al., 1991; Jacobs, R. A. et Jordan, M. I., 1991]. Ils sont composés d’une série d’estimateurs, par exemple des réseaux de neurones, et d’un réseau “porte” permettant de choisir l’expert approprié à l’entrée. Le réseau porte calcule la probabilité que l’un des experts soit le plus approprié en se basant sur la connaissance de l’entrée x.

Il y a de nombreuses raisons pratiques pour décomposer une tâche complexe en plusieurs sous-tâches. Le temps de calcul peut être réduit par l’utilisation

d’un groupe de petits réseaux plutôt qu’un seul gros réseau, des tâches de nature différentes peuvent être combinées, la maintenance et la modification de plusieurs petits réseaux est plus simple que celle d’un unique réseau et enfin une série de petits modules peut avoir de meilleures performances en généralisation qu’un gros module. L’approche modulaire permet de plus de combiner des tâches de natures différentes.

D’autres méthodes associent plusieurs réseaux de neurones pour prendre en compte le dilemme biais - variance comme par exemple les ensembles qui tra-vaillent sur une même tâche (voir 4.4.3 pour une description). L’intérêt théorique des ensembles de réseaux de neurones est justifié par le dilemme biais - variance.

En effet, si un réseau obtenu A répond d’une meilleure manière au sens du di-lemme biais - variance qu’un réseau B alors on sait que le réseau A généralisera mieux que le réseau B [Geman, S. et al., 1992; Breiman, 1994; Hansen, L. K. et Salamon, P., 1990; Perrone, 1993; Wolpert, 1992; Raviv, Y. et Intrator, N., 1996].

L’utilisation d’un ensemble de réseaux de neurones permet de réduire la va-riance, quand les estimateurs sont identiquement et indépendamment distribués.

On admet que l’hypothèse d’indépendance et de distribution identique des estima-teurs est vérifiée quand ils sont entraˆınés sur des ensembles de données différents mais provenant de la même distribution.

De plus, l’utilisation de l’algorithme de rétro-propagation du gradient de l’er-reur impose d’initialiser les poids de manière aléatoire. Les réseaux ainsi obtenus sont identiquement distribués et on peut supposer que les différents réseaux, en-traˆınés sur les mêmes données avec une initialisation de poids aléatoire, sont indépendants.

Dans le document "Une nouvelle fonction de coût régularisante dans les réseaux de neurones artificiels : Application à l'estimation des temps de blocage dans un noeud ATM (Page 73-78)