Apprentissage - Modélisation supervisée de données fonctionnelles par perceptron multi-couches

Comme on le verra dans le chapitre 5, dans la pratique, X = Rn, µ est une mesure de probabilité, W est un sous-ensemble compact de Rt et E = Lp(µ). Chaque Fk peut alors être n’importe quel régresseur paramétrique (perceptron multi-couches, B-spline, séries de Fourier, etc).

3.6 Apprentissage

Si l’on considère un perceptron fonctionnel dont les fonctions de poids sont représentées par des régresseurs paramétriques, le modèle fonctionnel obtenu est entièrement paramétré par un nombre fini de valeurs réelles. Le problème de l’apprentissage d’un tel réseau est donc similaire à celui d’un perceptron multi-couches numérique : il nécessite de pouvoir effectuer des calculs de gradient afin d’appliquer les algorithmes classiques d’optimisation (voir par exemple [60], [35] et [61]). Dans la section suivante, on montre comment la dérivée du neurone en fonction de ses différents paramètres peut être calculée.

3.6.1 Calcul du gradient

Si l’on considère le cas particulier du neurone fonctionnel où chaque individu est décrit par une unique fonction. Le neurone calcule alors la fonction suivante :

N(g) = T b + Z F (w, .)g

Le gradient de N en fonction du vecteur paramètre w peut alors être calculé comme indiqué dans la proposition suivante :

Proposition 1. On suppose que ∂F

∂w existe µ-presque partout, est mesurable et est domin´ee (i.e. il existe une fonction mesurable positive f tel que _∂F

∂w(w, x)) ≤ f (x) pour µ-presque tout x et R

f gdµ < ∞). Alors w 7→R

F (w, x)g(x)dµ(x) est d´erivable en fonction de w et le gradient est donn´e par :

Z ∂F

∂w^{(w, x)g(w)dµ(x)} ^(3.6) Démonstration. Cette proposition est une conséquence directe du théorème de convergence dominée.

Si de plus la fonction T est elle-mˆeme d´erivable, on a : ∂N ∂w^{(w, b, g) = T} ′ b + Z F (w, x)g(x)dµ(x) Z ∂F ∂w^{(w, x)g(x)dµ(x)} ^(3.7)

3.6.2 R´etro-propagation

L’architecture du perceptron multi-couches fonctionnel étant très proche de celle du perceptron numérique classique (seule la première couche diffère), l’algo-rithme de rétro-propagation du gradient peut facilement être adapté au modèle fonctionnel.

Si de plus, la fonction de poids F est calculée grâce à un perceptron multi-couches numérique, l’algorithme de rétro-propagation généralisée, présenté dans [37], peut être utilisé afin de calculer efficacement l’expression ∂F

∂wg. On montre en effet, dans le cas où F est à valeurs vectorielles, que l’algorithme de rétro-propagation standard dissocie le calcul de ∂F

∂w, et l’évaluation du produit scalaire avec g. Dans l’algorithme de rétro-propagation généralisée en revanche, l’expres-sion ^∂F_∂wg est évaluée directement, ce qui réduit le coût du calcul (cf [37]).

3.7 Conclusion

Dans ce chapitre, on a pu voir que l’extension du perceptron multi-couches aux espaces fonctionnels s’effectuait naturellement en considérant une définition adaptée du neurone numérique classique. De plus, on a montré que grâce à la représentation des fonctions de poids par des régresseurs paramétriques, le perceptron multi-couches fonctionnel se trouvait paramétré par un nombre fini de paramétres numériques. Ceci permet l’utilisation des algorithmes standards d’optimisation, ainsi que l’adaptation de l’algorithme de rétro-propagation du gradient.

Dans le chapitre suivant, on énonce un résultat d’approximation universelle qui est la justification théorique de l’utilisation de ce modèle dans les problèmes de régression ou de discrimination. Puis dans le chapitre 5, on s’intéressera à la mise en œuvre pratique de ce modèle et au problème de l’estimation consistante de ses paramètres.

Chapitre 4

Approximation universelle

4.1 Introduction

L’approximation de fonctions joue un rôle fondamental dans les problèmes de modélisation statistique tels que les problèmes de régression ou de discrimina-tion. Comme expliqué dans le chapitre précédent, la résolution de tels problèmes nécessite l’utilisation de modéles suffisamment généraux : on dit de tels modèles qu’ils sont des approximateurs universels.

De nombreuses familles de fonctions paramétrées possèdent la propriété d’ap-proximation universelle. Parmi les modèles linéaires généralisés, on peut citer par exemple les polynômes, les séries de Fourier, ou les B-spline. Dans le cas des modèles non-linéaires, on s’intéresse tout particulièrement au perceptron multi-couches numérique, dont l’étude théorique (récente en regard des autres modèles) a permis d’énoncer divers résultats d’approximation universel. On peut citer par exemple Hornik et al. [44], Cybenko [21], Hornik [42] et Hornik [43] (la liste n’est bien sûr pas exhaustive). Ces différents travaux poursuivent en majorité deux buts distincts :

– obtention du résultat d’approximation universelle pour diverses classes de fonctions. Dans la pratique, cependant, on s’intéresse essentiellement à l’ensemble des fonctions continues ou à l’ensemble des fonctions mesu-rables de puissance p intégrable.

– l’utilisation d’hypoth`eses moins restrictives sur la nature de la fonction d’activation du perceptron multi-couches num´erique.

Il semble important de noter que ces divers résultats d’approximation univer-sel sont des résultats d’existence qui ne fournissent pas de méthodes pour choisir une topologie de réseaux (choix optimal du nombre de couches¹, choix du nombre

univer-de neurones, choix univer-des paramètres numériques (voir [10])). Ce choix nécessite donc de la part du praticien la mise en place d’une méthodologie rigoureuse afin de déterminer la topologie du réseau réalisant efficacement l’approximation.

Lors du chapitre précédent, on a montré que l’extension du perceptron multi-couches à des espaces fonctionnels s’effectuait naturellement en considérant une définition adaptée du neurone numérique classique. On s’intéresse à présent à la justification théorique de l’utilisation d’un tel modèle : le perceptron multi-couches fonctionnel a-t-il la capacité d’approcher arbitrairement près toute fonc-tion donnée suffisamment régulière ?

Dans un cadre très général, Stinchcombe [75] apporte des éléments de ré-ponse à cette question. En effet, dans ce travail, l’auteur propose une extension du perceptron multi-couches à des espaces topologiques arbitraires (voir défini-tion 1), et montre sous certaines condidéfini-tions générales, que ce modèle est un ap-proximateur universel. L’adaptation de ce résultat au perceptron multi-couches fonctionnel n’est pas immédiate, car les hypothèses nécessaires à son applica-tion sont quelques peu techniques. C’est la raison pour laquelle on énonce dans ce chapitre deux corollaires au travail de [75], qui montrent que le perceptron multi-couches fonctionnel est un approximateur universel.

Dans le document Modélisation supervisée de données fonctionnelles par perceptron multi-couches (Page 44-47)