Perceptron Multi-couches Fonctionnel bas´e sur une ´etape

6.2 Approche par projection

6.2.2 Perceptron Multi-couches Fonctionnel bas´e sur une ´etape

6.2 Approche par projection

6.2.1 Etape de projection

Le but de l’étape de projection est d’obtenir une représentation régularisée des fonctions d’entrée en projetant chacune d’elles sur l’espace vectoriel engendré par un ensemble de fonctions choisi au préalable.

On introduit la d´efinition suivante :

Définition 10. Soit X un espace Hilbertien séparable, une base topologique de X est une famille dénombrable totale et libre d’éléments de X.

On suppose que les fonctions d’entr´ee appartiennent `a l’espace fonctionnel3

L2(µ), o`u µ est une mesure σ-finie d´efinie sur Rn, et on munit cet espace d’une base topologique Φ = (φp)p∈N∗.

On considère alors ΠP l’opérateur de projection sur l’espace vectoriel engen-dré par les P premiers éléments de la base topologique (vect(φ1, . . . , φP)). Pour toute fonction g ∈ L²(µ), la projection de g sur vect(φ1, . . . , φP) est donnée par la relation suivante : ΠP(g) = P X p=1 Z gφpdµ φp

On rappelle que l’op´erateur de projection ΠP est Lipschitzien de rapport 1, et donc continu de L2(µ) dans L2(µ) (voir [68]).

6.2.2 Perceptron Multi-couches Fonctionnel bas´e sur une

´

etape de projection

Comme expliqué dans la section précédente, dans l’approche par projection, chaque fonction d’entrée est tout d’abord projetée sur un espace de dimension finie, afin d’en obtenir une représentation régularisée. Cette représentation est alors soumise au perceptron multi-couches fonctionnel, afin qu’il calcule la sor-tie correspondante. Plus précisément, si l’on considère H un perceptron multi-couches fonctionnel défini sur L2(µ), on évalue H(ΠP(g)), au lieu de H(g).

Dans le cas d’un perceptron fonctionnel à une couche cachée et à valeurs réelles, la sortie du modèle fonctionnel est calculée de la manière suivante :

HoΠP(g) = K X k=1 akT bk+ Z fkΠP(g)dµ 3 L2

où fk ∈ L2(µ), et où ak et bk sont des nombres réels.

On voit donc que contrairement à l’approche directe (voir chapitre 5), l’ap-proche par projection est composée de deux étapes distinctes : premièrement, l’étape de projection des fonctions d’entrée, qui est effectuée préalablement et de manière indépendante de l’évaluation du modèle fonctionnel, puis le calcul de la sortie du réseau, qui ne dépend plus des fonctions d’entrée initiales.

6.2.3 Approche param´etrique

L’utilisation de régresseurs paramétriques pour représenter les fonctions de poids permet d’obtenir un perceptron multi-couches fonctionnel paramétré par un nombre fini de paramètres numériques. Dans cette section, on va voir que de manière identique à l’approche directe (voir chapitre précédent), une distinc-tion importante doit être faite selon la nature de ces régresseurs paramétriques (modèles pseudo-linéaires/modèles non-linéaires).

Cas g´en´eral

Dans le cas où l’on ne fait pas d’hypothèses particulières sur la nature des régresseurs paramétriques, le neurone fonctionnel calcule la fonction suivante :

N(g) = T b + Z F (w, .)ΠP(g)dµ où F est un régresseur paramétrique de vecteur poids w.

Grâce à l’étape préalable de projection, la fonction ΠP(g) est connue sous une forme analytique : cette fonction est donc évaluable en tout point. On voit donc que contrairement à l’approche directe, il n’est plus nécessaire d’approcher l’intégrale interne au neurone par une moyenne empirique (la précision de cette approximation dépendait du nombre de points d’évaluation de la fonction g, et n’était donc pas sous le contrôle de l’utilisateur). Dans l’approche par projec-tion, l’intégrale R

F (w, .)ΠP(g)dµ peut être calculée de manière approchée4 à une précision fixée préalablement. Ce calcul peut être réalisé par les techniques classiques de quadrature, ou par une approche de type Monte-Carlo. Dans le cas d’une méthode par quadrature, on réalise le calcul suivant :

Z F (w, .)ΠP(g)dµ ≃ M X j=1 γjF (w, xj)ΠP(g)(xj) 4

6.2. APPROCHE PAR PROJECTION où M est le nombre de points de discrétisation (notés xj) nécessaire au calcul de l’intégrale (γj sont des coefficients qui dépendent du mode de quadrature).

Il est important de noter que le nombre M peut être choisi indépendamment du nombre, m, de points d’évaluation de la fonction g : la précision d’évaluation de l’intégrale est à présent un paramètre ajustable du modèle5.

Régresseurs paramétriques pseudo-linéaires

Comme dans l’approche directe (voir chapitre précédent), la représentation des fonctions de poids par des modèles pseudo-linéaires permet une simplifica-tion du calcul réalisé par le perceptron multi-couches foncsimplifica-tionnel.

On considère une seconde base topologique Ψ = (ψq)q∈N∗ de L2(µ), et on impose aux fonctions de poids d’appartenir à l’espace vectoriel engendré par les Q premiers éléments de cette base (vect(ψ1, . . . , ψQ)). Si l’on considère une fonction de poids de la forme F (w, .) =PQ

q=1wqψq, chaque int´egrale s’exprime alors de la mani`ere suivante :

Z F (w, .)ΠP(g)dµ = Q X q=1 P X p=1 wq Z φpψqdµ Z gφpdµ = wTΛβ = wT_βe o`u Λ = (R φpψqdµ)q,p, β = (R gφpdµ)p et eβ = Λβ. Dans cette expression, chaque int´egraleR

gφpdµ est calculée pendant l’étape de projection (plus précisément, on calcule une valeur approchée de R

gφpdµ comme expliqu´e dans la section 6.4.2). Les int´egrales R

φpψqdµ sont indépen-dantes du vecteur de poids w, ainsi que des fonctions d’entrée, on peut donc les calculer préalablement à toute évaluation du perceptron multi-couches fonction-nel. Selon les bases utilisées pour représenter les fonctions de poids et les fonc-tions d’entrée, le calcul de R

φpψqdµ peut être effectué soit de manière exacte, soit de manière approchée6 en utilisant une méthode de quadrature ou une mé-thode de type Monte Carlo.

Finalement, comme Λ et β sont des constantes, le résultat du produit matri-ciel eβ = Λβ est lui aussi une constante, et peut donc être évalué préalablement à toute évaluation du perceptron multi-couches fonctionnel. Grâce aux pré-calcul de eβ, l’évaluation de chaque intégrale est donc réduite à l’évaluation d’un simple produit scalaire dans RQ : wT_β.e

M peut être choisi petit afin de réduire le coût d’évaluation du modèle. Ceci s’effectue bien sûr au détriment de la précision.

Dans le document Modélisation supervisée de données fonctionnelles par perceptron multi-couches (Page 82-85)