• Aucun résultat trouvé

Sens de rétropropagation des erreurs

H O

f

f

f

f

f

f

f

+ -Vecteur d’entrée

Sens de la propagation du vecteur d’entrée

Vecteur de sortie désiré Vecteur de sortie

obtenu

Fig. 4.2 - Repr´esentation sch´ematique de la r´etropropagation de l’erreur.

pas d’apprentissage trop petit, le r´eseau de neurones apprend tr`es lentement, a contrario avec un pas d’apprentissage trop grand les poids du r´eseau de neurones et la fonction d’erreur divergent. Par cons´equent, trouver un “bon” pas d’ap-prentissage n’est pas chose ais´ee. Depuis 1986-1987, de nombreux chercheurs ont travaill´e `a l’am´elioration de l’algorithme pr´esent´e ci-dessus. Une des m´ethodes permettant d’acc´el´erer la convergence dans les plateaux consiste `a rajouter dans l’´equation de mise `a jour des poids un terme de moment (ou inertie) [Plaut et al., 1986]. Dans ce cas la r`egle de modification des poids devient :

wijt+1 =wijt −αGxisxj +β∆wijt (4.18) On peut citer aussi d’autres travaux destin´es `a am´eliorer la vitesse de conver-gence de l’algorithme de r´etro-propagation [Falhman, 1988; Riedmiller et Braun, 1993]. Le lecteur pourra aussi consid´erer d’autres m´ethodes de minimisation de l’erreur [Jacobs, 1988; Becker et Le Cun, 1988].

4.3 G´ en´ eralisation

4.3.1 Capacit´ e et g´ en´ eralisation

• G´en´eraliser c’est ´etendre `a toute une classe ce qui a ´et´e observ´e sur un nombre limit´e d’´el´ements ou d’individus appartenant `a cette classe. Dic-tionnaire Hachette.

Dans un processus d’apprentissage le r´eseau de neurones est construit en mi-nimisant, par exemple, une fonction de coˆut sur un ensemble fini d’exemples, l’ensemble d’apprentissage. Cependant, le plus important est la facult´e de g´e-n´eraliser la repr´esentation construite par le r´eseau `a toutes les donn´ees, y com-pris celles n’appartenant pas `a l’ensemble d’apprentissage. Une mani`ere d’´evaluer cette facult´e consiste `a mesurer les performances du r´eseau de neurones sur des donn´ees repr´esentatives du probl`eme non apprises. Il s’agit d’une ´evaluation de l’erreur de g´en´eralisation. La diff´erence entre l’erreur d’apprentissage et l’erreur de g´en´eralisation repr´esente une mesure de la qualit´e de l’apprentissage effectu´e [Vapnik, 1982; Vapnik, 1995; Boucheron, 1992].

L’erreur de g´en´eralisation d´epend avant tout de trois param`etres : le nombre d’exemples utilis´es pour l’apprentissage, la complexit´e du probl`eme sous-jacent et l’architecture du r´eseau.

Les approches statistiques de la g´en´eralisation [Vapnik et Chervonenkis, 1971;

Vapnik, 1982] sont un des domaines d’investigation majeur pour optimiser les performances de l’apprentissage des r´eseaux de neurones. Ce domaine est devenu, avec le temps, tr`es riche et complexe aussi le lecteur est invit´e `a consid´erer par exemple l’article de synth`ese de Wolpert [Wolpert, 1992]. On constate qu’une am´elioration de la g´en´eralisation peut ˆetre vue sous deux aspects imbriqu´es :

– Si la taille du r´eseau est fix´ee, quel est l’ensemble d’exemples d’apprentissage qui donnera la meilleure g´en´eralisation?

– Si le nombre des exemples est fix´e, comment choisir le r´eseau pour avoir la meilleure g´en´eralisation?

Il est difficile de r´epondre `a chacune de ces questions de mani`ere individuelle tant la r´eponse `a l’une n´ecessite de se pencher sur l’autre. Il est n´ecessaire ici d’introduire la notion decapacit´e: si on consid`ere le r´eseau de neurones comme un syst`eme permettant de choisir une fonction parmi un ensemble d´etermin´e par la structure du r´eseau, alors la capacit´e du syst`eme repr´esente le nombre d’exemples que le r´eseau peut apprendre correctement `a tout coup. Plus un syst`eme peut approximer de fonctions diff´erentes, plus sa capacit´e est ´elev´ee en g´en´eral plus le nombre de poids est ´elev´e, plus la capacit´e augmente (figure 4.3).

Une mesure de la capacit´e du syst`eme est la dimension de Vapnik Cher-vonenkis ou VC dim [Vapnik et CherCher-vonenkis, 1971]. Cette capacit´e est li´ee `a la g´en´eralisation comme le montrent les r´esultats de Vapnik et Chervonenkis.

Pour un nombre d’exemples fix´eN, si on commence l’apprentissage avec une VC dim minimale que l’on augmente progressivement (par exemple en augmentant le nombre de connexions), l’erreur de g´en´eralisation d´ecroˆıt jusqu’`a une valeur critique de la VC dim. Une fois ce point pass´e, augmenter la VC dim aura pour effet d’augmenter l’erreur de g´en´eralisation (l’erreur de g´en´eralisation est l’erreur

4.3. G´en´eralisation 75

Généralisation Erreur

N Fixe

Généralisation

Apprentissage Capacité

Capacité fixe Erreur

N Apprentissage

Fig. 4.3 - Relation entre capacit´e et g´en´eralisation des r´eseaux de neurones artificiels.

sur de nouveaux exemples pris en dehors du premier ensemble). De plus, pour une VC dim fix´ee, augmenter le nombre d’exemples n’am´eliorera la g´en´eralisation que jusqu’`a une valeur asymptotique qui d´epend de la VC dim.

4.3.2 G´ en´ eralisation et crit` ere d’arrˆ et pour l’apprentis-sage

L’une des m´ethodes qui permet de contrˆoler la capacit´e d’un r´eseau de neu-rones consiste `a arrˆeter l’apprentissage “`a temps”. De ce fait diff´erents crit`eres permettant de d´ecider quand stopper l’algorithme d’apprentissage ont ´et´e d´eve-lopp´e :

– quand l’erreur d’apprentissage a atteint un seuil fix´e ; – apr`es un nombre fix´e de cycles d’apprentissage ;

– quand une estimation de l’erreur de g´en´eralisation est minimum.

Les m´ethodes qui ´evaluent l’erreur de g´en´eralisation sont presque toutes ba-s´ees sur la partition de l’ensemble des donn´ees qu’on poss`ede en plusieurs sous-ensembles. Par exemple un ensemble utilis´e pour l’apprentissage et un ensemble de validation. L’ensemble de validation est utilis´e pour contrˆoler et mesurer la g´en´eralisation du r´eseau. Pendant l’apprentissage l’erreur d’apprentissage d´ecroˆıt continuellement, tandis que sur l’ensemble de validation elle ne diminue que jus-qu’`a un certain point au-del`a duquel elle augmente. A partir de ce point le r´eseau apprend par cœur les donn´ees de l’ensemble d’apprentissage et l’apprentissage doit ˆetre stopp´e (ceci est illustr´e par la figure 4.4). Ces deux ensembles servent `a

Optimum de

temps d’apprentissage Erreur

Erreur de test

Erreur d’apprentissage généralisation

Fig. 4.4 - Evolution des erreurs d’apprentissage et de test au cours du temps.

d´eterminer l’architecture la plus appropri´ee pour le probl`eme `a traiter : pour dif-f´erentes architectures (nombre de neurones cach´es variable), on contrˆole l’erreur de validation et on choisit l’architecture pour laquelle elle est minimale.

Parmi les m´ethodes utilisant cette m´ethodologie on peut citer les m´ethodes appel´ees “split-samples” , “Cross-validation”, “bootstrapping”2:

La technique nomm´ee “split-samples” r´eserve un troisi`eme ensemble de don-n´ees appel´e ensemble de test, pour tester le r´eseau sur des dondon-n´ees qui n’ont jamais ´et´e utilis´ees ni pour l’apprentissage ni pour la validation.

Pour la cross-validation l’ensemble des donn´ees de d´epart est d´ecoup´e en k parties de taille ´egale, k pouvant ˆetre de la taille de l’ensemble de d´epart, si tel est le cas on parle de “leave-one-out” sinon on parle de “leave-v-out”. Le r´eseau est entraˆın´e k fois, chaque fois en utilisant k−1 parties pour l’apprentissage et la derni`ere pour la validation et le calcul des erreurs commises en g´en´eralisation.

Des variantes de cette m´ethode existent comme par exemple celle utilis´ee par Breiman et Spector [Breiman et Spector, 1992] appel´e “10-fold cross-validation”

ou encore celle nomm´ee “bootstrapping”. Le lecteur pourra trouver une compa-raison de ces m´ethodes dans [Tibshirani, 1996]. Notre choix s’est port´e sur la m´ethode du partage de l’ensemble des exemples en trois ensembles (apprentis-sage, validation, test) cit´ee ci-dessus car nous pr´ef´erons ne jamais “apprendre”

les exemples de l’ensemble de validation.

2Les termes en anglais sont laiss´es car commun´ement utilis´es

4.3. G´en´eralisation 77

4.3.3 Am´ elioration de la g´ en´ eralisation

Il existe diff´erentes fa¸cons d’am´eliorer la g´en´eralisation obtenue par un r´eseau.

Nous avons vu plus haut que la capacit´e d’un r´eseau d´etermine sa facult´e `a g´en´eraliser correctement. Cette capacit´e est reli´ee `a la taille du r´eseau et est fonction du nombre de neurones utilis´es mais aussi du nombre de poids ainsi que de leurs domaines de variation. C’est pourquoi de nombreuses m´ethodes visant

`a r´eduire le nombre de poids ou `a contraindre leurs domaines de variations sont apparues de mani`ere `a contrˆoler la capacit´e d’un r´eseau de neurones :

– Recherche d’une architecture minimale avant apprentissage telle la m´ethode des poids partag´es qui consiste `a imposer des connexions locales et `a for-cer for-certaines connexions `a partager les mˆemes poids (et donc `a r´eduire le nombre de param`etres libres). Ce type d’architecture est couramment uti-lis´ee dans les probl`emes de reconnaissance de la parole [Waibel, 1989] et de traitement d’image [Loncelle, 1990].

– Minimisation du nombre de poids, voire de l’architecture au cours de l’ap-prentissage. Cette m´ethode propos´ee par Le Cun [Le Cun, Y. et al., 1990]

consiste `a supprimer les connexions qui n’ont qu’une petite influence sur l’erreur d’apprentissage. Depuis, d’autres m´ethodes de ce type appel´ees pru-ning, ont vu le jour et reposent sur le mˆeme principe.

– Introduction d’un terme incluant la complexit´e du r´eseau dans la fonction de coˆut `a minimiser pendant l’apprentissage telles que les m´ethodes appel´ees

“weight decay” [Hinton, 1986] et “weight elimination” [Rumelhart, 1988].

– Utilisation de la connaissance a priori pour structurer le r´eseau de neurones.

Parmi les m´ethodes utilisant la connaissance a priori on trouve les r´eseaux modulaires. En fait on peut voir un syst`eme `a base de r´eseaux modulaires comme un tr`es gros r´eseau `a connexions locales et/ou ayant subi un processus d’´elagage de poids. Ici l’´elagage a ´et´e fait `a l’aide de la connaissance a priori que l’on a sur le probl`eme `a r´esoudre. Les syst`emes modulaires permettent de combiner des modules qui peuvent ˆetre hybrides. La justification de l’utilisation de tels modules est de combiner des sous-tˆaches pour pouvoir r´esoudre une tˆache globale. Par exemple les m´elanges conditionnels d’experts ont ´et´e introduits par Jacobs et Jordan [Jacobs, R. A. et al., 1991; Jacobs, R. A. et Jordan, M. I., 1991]. Ils sont compos´es d’une s´erie d’estimateurs, par exemple des r´eseaux de neurones, et d’un r´eseau “porte” permettant de choisir l’expert appropri´e `a l’entr´ee. Le r´eseau porte calcule la probabilit´e que l’un des experts soit le plus appropri´e en se basant sur la connaissance de l’entr´ee x.

Il y a de nombreuses raisons pratiques pour d´ecomposer une tˆache complexe en plusieurs sous-tˆaches. Le temps de calcul peut ˆetre r´eduit par l’utilisation

d’un groupe de petits r´eseaux plutˆot qu’un seul gros r´eseau, des tˆaches de nature diff´erentes peuvent ˆetre combin´ees, la maintenance et la modification de plusieurs petits r´eseaux est plus simple que celle d’un unique r´eseau et enfin une s´erie de petits modules peut avoir de meilleures performances en g´en´eralisation qu’un gros module. L’approche modulaire permet de plus de combiner des tˆaches de natures diff´erentes.

D’autres m´ethodes associent plusieurs r´eseaux de neurones pour prendre en compte le dilemme biais - variance comme par exemple les ensembles qui tra-vaillent sur une mˆeme tˆache (voir 4.4.3 pour une description). L’int´erˆet th´eorique des ensembles de r´eseaux de neurones est justifi´e par le dilemme biais - variance.

En effet, si un r´eseau obtenu A r´epond d’une meilleure mani`ere au sens du di-lemme biais - variance qu’un r´eseau B alors on sait que le r´eseau A g´en´eralisera mieux que le r´eseau B [Geman, S. et al., 1992; Breiman, 1994; Hansen, L. K. et Salamon, P., 1990; Perrone, 1993; Wolpert, 1992; Raviv, Y. et Intrator, N., 1996].

L’utilisation d’un ensemble de r´eseaux de neurones permet de r´eduire la va-riance, quand les estimateurs sont identiquement et ind´ependamment distribu´es.

On admet que l’hypoth`ese d’ind´ependance et de distribution identique des estima-teurs est v´erifi´ee quand ils sont entraˆın´es sur des ensembles de donn´ees diff´erents mais provenant de la mˆeme distribution.

De plus, l’utilisation de l’algorithme de r´etro-propagation du gradient de l’er-reur impose d’initialiser les poids de mani`ere al´eatoire. Les r´eseaux ainsi obtenus sont identiquement distribu´es et on peut supposer que les diff´erents r´eseaux, en-traˆın´es sur les mˆemes donn´ees avec une initialisation de poids al´eatoire, sont ind´ependants.