Comme on le verra dans le chapitre 5, dans la pratique, X = Rn, µ est une mesure de probabilit´e, W est un sous-ensemble compact de Rt et E = Lp(µ). Chaque Fk peut alors ˆetre n’importe quel r´egresseur param´etrique (perceptron multi-couches, B-spline, s´eries de Fourier, etc).
3.6 Apprentissage
Si l’on consid`ere un perceptron fonctionnel dont les fonctions de poids sont repr´esent´ees par des r´egresseurs param´etriques, le mod`ele fonctionnel obtenu est enti`erement param´etr´e par un nombre fini de valeurs r´eelles. Le probl`eme de l’apprentissage d’un tel r´eseau est donc similaire `a celui d’un perceptron multi-couches num´erique : il n´ecessite de pouvoir effectuer des calculs de gradient afin d’appliquer les algorithmes classiques d’optimisation (voir par exemple [60], [35] et [61]). Dans la section suivante, on montre comment la d´eriv´ee du neurone en fonction de ses diff´erents param`etres peut ˆetre calcul´ee.
3.6.1 Calcul du gradient
Si l’on consid`ere le cas particulier du neurone fonctionnel o`u chaque individu est d´ecrit par une unique fonction. Le neurone calcule alors la fonction suivante :
N(g) = T b + Z F (w, .)g
Le gradient de N en fonction du vecteur param`etre w peut alors ˆetre calcul´e comme indiqu´e dans la proposition suivante :
Proposition 1. On suppose que ∂F
∂w existe µ-presque partout, est mesurable et est domin´ee (i.e. il existe une fonction mesurable positive f tel que ∂F
∂w(w, x)) ≤ f (x) pour µ-presque tout x et R
f gdµ < ∞). Alors w 7→R
F (w, x)g(x)dµ(x) est d´erivable en fonction de w et le gradient est donn´e par :
Z ∂F
∂w(w, x)g(w)dµ(x) (3.6) D´emonstration. Cette proposition est une cons´equence directe du th´eor`eme de convergence domin´ee.
Si de plus la fonction T est elle-mˆeme d´erivable, on a : ∂N ∂w(w, b, g) = T ′ b + Z F (w, x)g(x)dµ(x) Z ∂F ∂w(w, x)g(x)dµ(x) (3.7)
3.6.2 R´etro-propagation
L’architecture du perceptron multi-couches fonctionnel ´etant tr`es proche de celle du perceptron num´erique classique (seule la premi`ere couche diff`ere), l’algo-rithme de r´etro-propagation du gradient peut facilement ˆetre adapt´e au mod`ele fonctionnel.
Si de plus, la fonction de poids F est calcul´ee grˆace `a un perceptron multi-couches num´erique, l’algorithme de r´etro-propagation g´en´eralis´ee, pr´esent´e dans [37], peut ˆetre utilis´e afin de calculer efficacement l’expression ∂F
∂wg. On montre en effet, dans le cas o`u F est `a valeurs vectorielles, que l’algorithme de r´etro-propagation standard dissocie le calcul de ∂F
∂w, et l’´evaluation du produit scalaire avec g. Dans l’algorithme de r´etro-propagation g´en´eralis´ee en revanche, l’expres-sion ∂F∂wg est ´evalu´ee directement, ce qui r´eduit le coˆut du calcul (cf [37]).
3.7 Conclusion
Dans ce chapitre, on a pu voir que l’extension du perceptron multi-couches aux espaces fonctionnels s’effectuait naturellement en consid´erant une d´efinition adapt´ee du neurone num´erique classique. De plus, on a montr´e que grˆace `a la repr´esentation des fonctions de poids par des r´egresseurs param´etriques, le perceptron multi-couches fonctionnel se trouvait param´etr´e par un nombre fini de param´etres num´eriques. Ceci permet l’utilisation des algorithmes standards d’optimisation, ainsi que l’adaptation de l’algorithme de r´etro-propagation du gradient.
Dans le chapitre suivant, on ´enonce un r´esultat d’approximation universelle qui est la justification th´eorique de l’utilisation de ce mod`ele dans les probl`emes de r´egression ou de discrimination. Puis dans le chapitre 5, on s’int´eressera `a la mise en œuvre pratique de ce mod`ele et au probl`eme de l’estimation consistante de ses param`etres.
Chapitre 4
Approximation universelle
4.1 Introduction
L’approximation de fonctions joue un rˆole fondamental dans les probl`emes de mod´elisation statistique tels que les probl`emes de r´egression ou de discrimina-tion. Comme expliqu´e dans le chapitre pr´ec´edent, la r´esolution de tels probl`emes n´ecessite l’utilisation de mod´eles suffisamment g´en´eraux : on dit de tels mod`eles qu’ils sont des approximateurs universels.
De nombreuses familles de fonctions param´etr´ees poss`edent la propri´et´e d’ap-proximation universelle. Parmi les mod`eles lin´eaires g´en´eralis´es, on peut citer par exemple les polynˆomes, les s´eries de Fourier, ou les B-spline. Dans le cas des mod`eles non-lin´eaires, on s’int´eresse tout particuli`erement au perceptron multi-couches num´erique, dont l’´etude th´eorique (r´ecente en regard des autres mod`eles) a permis d’´enoncer divers r´esultats d’approximation universel. On peut citer par exemple Hornik et al. [44], Cybenko [21], Hornik [42] et Hornik [43] (la liste n’est bien sˆur pas exhaustive). Ces diff´erents travaux poursuivent en majorit´e deux buts distincts :
– obtention du r´esultat d’approximation universelle pour diverses classes de fonctions. Dans la pratique, cependant, on s’int´eresse essentiellement `a l’ensemble des fonctions continues ou `a l’ensemble des fonctions mesu-rables de puissance p int´egrable.
– l’utilisation d’hypoth`eses moins restrictives sur la nature de la fonction d’activation du perceptron multi-couches num´erique.
Il semble important de noter que ces divers r´esultats d’approximation univer-sel sont des r´esultats d’existence qui ne fournissent pas de m´ethodes pour choisir une topologie de r´eseaux (choix optimal du nombre de couches1, choix du nombre
1
univer-de neurones, choix univer-des param`etres num´eriques (voir [10])). Ce choix n´ecessite donc de la part du praticien la mise en place d’une m´ethodologie rigoureuse afin de d´eterminer la topologie du r´eseau r´ealisant efficacement l’approximation.
Lors du chapitre pr´ec´edent, on a montr´e que l’extension du perceptron multi-couches `a des espaces fonctionnels s’effectuait naturellement en consid´erant une d´efinition adapt´ee du neurone num´erique classique. On s’int´eresse `a pr´esent `a la justification th´eorique de l’utilisation d’un tel mod`ele : le perceptron multi-couches fonctionnel a-t-il la capacit´e d’approcher arbitrairement pr`es toute fonc-tion donn´ee suffisamment r´eguli`ere ?
Dans un cadre tr`es g´en´eral, Stinchcombe [75] apporte des ´el´ements de r´e-ponse `a cette question. En effet, dans ce travail, l’auteur propose une extension du perceptron multi-couches `a des espaces topologiques arbitraires (voir d´efini-tion 1), et montre sous certaines condid´efini-tions g´en´erales, que ce mod`ele est un ap-proximateur universel. L’adaptation de ce r´esultat au perceptron multi-couches fonctionnel n’est pas imm´ediate, car les hypoth`eses n´ecessaires `a son applica-tion sont quelques peu techniques. C’est la raison pour laquelle on ´enonce dans ce chapitre deux corollaires au travail de [75], qui montrent que le perceptron multi-couches fonctionnel est un approximateur universel.