• Aucun résultat trouvé

Comme on le verra dans le chapitre 5, dans la pratique, X = Rn, µ est une mesure de probabilit´e, W est un sous-ensemble compact de Rt et E = Lp(µ). Chaque Fk peut alors ˆetre n’importe quel r´egresseur param´etrique (perceptron multi-couches, B-spline, s´eries de Fourier, etc).

3.6 Apprentissage

Si l’on consid`ere un perceptron fonctionnel dont les fonctions de poids sont repr´esent´ees par des r´egresseurs param´etriques, le mod`ele fonctionnel obtenu est enti`erement param´etr´e par un nombre fini de valeurs r´eelles. Le probl`eme de l’apprentissage d’un tel r´eseau est donc similaire `a celui d’un perceptron multi-couches num´erique : il n´ecessite de pouvoir effectuer des calculs de gradient afin d’appliquer les algorithmes classiques d’optimisation (voir par exemple [60], [35] et [61]). Dans la section suivante, on montre comment la d´eriv´ee du neurone en fonction de ses diff´erents param`etres peut ˆetre calcul´ee.

3.6.1 Calcul du gradient

Si l’on consid`ere le cas particulier du neurone fonctionnel o`u chaque individu est d´ecrit par une unique fonction. Le neurone calcule alors la fonction suivante :

N(g) = T  b + Z F (w, .)g 

Le gradient de N en fonction du vecteur param`etre w peut alors ˆetre calcul´e comme indiqu´e dans la proposition suivante :

Proposition 1. On suppose que ∂F

∂w existe µ-presque partout, est mesurable et est domin´ee (i.e. il existe une fonction mesurable positive f tel que ∂F

∂w(w, x)) ≤ f (x) pour µ-presque tout x et R

f gdµ < ∞). Alors w 7→R

F (w, x)g(x)dµ(x) est d´erivable en fonction de w et le gradient est donn´e par :

Z ∂F

∂w(w, x)g(w)dµ(x) (3.6) D´emonstration. Cette proposition est une cons´equence directe du th´eor`eme de convergence domin´ee.

Si de plus la fonction T est elle-mˆeme d´erivable, on a : ∂N ∂w(w, b, g) = T  b + Z F (w, x)g(x)dµ(x)  Z ∂F ∂w(w, x)g(x)dµ(x) (3.7)

3.6.2 R´etro-propagation

L’architecture du perceptron multi-couches fonctionnel ´etant tr`es proche de celle du perceptron num´erique classique (seule la premi`ere couche diff`ere), l’algo-rithme de r´etro-propagation du gradient peut facilement ˆetre adapt´e au mod`ele fonctionnel.

Si de plus, la fonction de poids F est calcul´ee grˆace `a un perceptron multi-couches num´erique, l’algorithme de r´etro-propagation g´en´eralis´ee, pr´esent´e dans [37], peut ˆetre utilis´e afin de calculer efficacement l’expression ∂F

∂wg. On montre en effet, dans le cas o`u F est `a valeurs vectorielles, que l’algorithme de r´etro-propagation standard dissocie le calcul de ∂F

∂w, et l’´evaluation du produit scalaire avec g. Dans l’algorithme de r´etro-propagation g´en´eralis´ee en revanche, l’expres-sion ∂F∂wg est ´evalu´ee directement, ce qui r´eduit le coˆut du calcul (cf [37]).

3.7 Conclusion

Dans ce chapitre, on a pu voir que l’extension du perceptron multi-couches aux espaces fonctionnels s’effectuait naturellement en consid´erant une d´efinition adapt´ee du neurone num´erique classique. De plus, on a montr´e que grˆace `a la repr´esentation des fonctions de poids par des r´egresseurs param´etriques, le perceptron multi-couches fonctionnel se trouvait param´etr´e par un nombre fini de param´etres num´eriques. Ceci permet l’utilisation des algorithmes standards d’optimisation, ainsi que l’adaptation de l’algorithme de r´etro-propagation du gradient.

Dans le chapitre suivant, on ´enonce un r´esultat d’approximation universelle qui est la justification th´eorique de l’utilisation de ce mod`ele dans les probl`emes de r´egression ou de discrimination. Puis dans le chapitre 5, on s’int´eressera `a la mise en œuvre pratique de ce mod`ele et au probl`eme de l’estimation consistante de ses param`etres.

Chapitre 4

Approximation universelle

4.1 Introduction

L’approximation de fonctions joue un rˆole fondamental dans les probl`emes de mod´elisation statistique tels que les probl`emes de r´egression ou de discrimina-tion. Comme expliqu´e dans le chapitre pr´ec´edent, la r´esolution de tels probl`emes n´ecessite l’utilisation de mod´eles suffisamment g´en´eraux : on dit de tels mod`eles qu’ils sont des approximateurs universels.

De nombreuses familles de fonctions param´etr´ees poss`edent la propri´et´e d’ap-proximation universelle. Parmi les mod`eles lin´eaires g´en´eralis´es, on peut citer par exemple les polynˆomes, les s´eries de Fourier, ou les B-spline. Dans le cas des mod`eles non-lin´eaires, on s’int´eresse tout particuli`erement au perceptron multi-couches num´erique, dont l’´etude th´eorique (r´ecente en regard des autres mod`eles) a permis d’´enoncer divers r´esultats d’approximation universel. On peut citer par exemple Hornik et al. [44], Cybenko [21], Hornik [42] et Hornik [43] (la liste n’est bien sˆur pas exhaustive). Ces diff´erents travaux poursuivent en majorit´e deux buts distincts :

– obtention du r´esultat d’approximation universelle pour diverses classes de fonctions. Dans la pratique, cependant, on s’int´eresse essentiellement `a l’ensemble des fonctions continues ou `a l’ensemble des fonctions mesu-rables de puissance p int´egrable.

– l’utilisation d’hypoth`eses moins restrictives sur la nature de la fonction d’activation du perceptron multi-couches num´erique.

Il semble important de noter que ces divers r´esultats d’approximation univer-sel sont des r´esultats d’existence qui ne fournissent pas de m´ethodes pour choisir une topologie de r´eseaux (choix optimal du nombre de couches1, choix du nombre

1

univer-de neurones, choix univer-des param`etres num´eriques (voir [10])). Ce choix n´ecessite donc de la part du praticien la mise en place d’une m´ethodologie rigoureuse afin de d´eterminer la topologie du r´eseau r´ealisant efficacement l’approximation.

Lors du chapitre pr´ec´edent, on a montr´e que l’extension du perceptron multi-couches `a des espaces fonctionnels s’effectuait naturellement en consid´erant une d´efinition adapt´ee du neurone num´erique classique. On s’int´eresse `a pr´esent `a la justification th´eorique de l’utilisation d’un tel mod`ele : le perceptron multi-couches fonctionnel a-t-il la capacit´e d’approcher arbitrairement pr`es toute fonc-tion donn´ee suffisamment r´eguli`ere ?

Dans un cadre tr`es g´en´eral, Stinchcombe [75] apporte des ´el´ements de r´e-ponse `a cette question. En effet, dans ce travail, l’auteur propose une extension du perceptron multi-couches `a des espaces topologiques arbitraires (voir d´efini-tion 1), et montre sous certaines condid´efini-tions g´en´erales, que ce mod`ele est un ap-proximateur universel. L’adaptation de ce r´esultat au perceptron multi-couches fonctionnel n’est pas imm´ediate, car les hypoth`eses n´ecessaires `a son applica-tion sont quelques peu techniques. C’est la raison pour laquelle on ´enonce dans ce chapitre deux corollaires au travail de [75], qui montrent que le perceptron multi-couches fonctionnel est un approximateur universel.