Initialisation - Modélisation supervisée de données fonctionnelles par perceptron multi-couches

La phase d’apprentissage des perceptrons multi-couches (numériques ou fonctionnels) est réalisée grâce à des techniques classiques d’optimisation (par exemple, les algorithmes de descente de gradient). Dans la pratique, cette phase d’optimisation est une tâche difficile, car la fonction à minimiser présente gé-néralement de nombreux minima locaux. La présence de tels minima peut être expliquée par le fait que certains neurones produisent une sortie identique sur l’ensemble d’apprentissage : de tels neurones sont donc redondants.

Le but des méthodes d’initialisation est de fournir un point de départ ”ac-ceptable” à l’algorithme d’optimisation, afin d’assurer une convergence rapide de l’algorithme, ainsi qu’une utilisation optimale des neurones du réseau. Plu-sieurs techniques d’initialisation ont déja été proposées pour le perceptron multi-couches numérique (initialisation par prototypes [25], initialisation par arbres de décision [45]). On présente ici une technique d’initialisation géométrique (voir Rossi et Gegout [67]), qui présente l’avantage d’être facilement adaptable au perceptron multi-couches fonctionnel.

8.2.1 Initialisation g´eom´etrique

Un perceptron à une couche cachée et à valeurs réelles calcule la fonction suivante : f (x) = K X k=1 akT (wk.x + bk) (8.1) où ak et bk sont des réels, et où wk et x sont des vecteurs de Rn.

Dans l’expression 8.1, chaque équation wk.x + bk = 0 définit un hyperplan de Rn. Comme expliqué dans [54], la position relative de ces hyperplans dans l’espace des données joue un rôle fondamental dans le bon déroulement de la phase d’apprentissage : une configuration mal adaptée peut ralentir l’algorithme d’optimisation, et même mener à des résultats sous-optimaux. Afin d’identifier et d’éviter ce type de configurations, il est intéressant d’analyser le fonctionnement du neurone numérique d’un point de vue géométrique.

Dans la pratique, le choix de la fonction d’activation T s’effectue dans une classe restreinte de fonctions (les ”squashing functions”, voir [44]). Toutes ces fonctions partagent la propriété d’être quasi-constante (saturée) en dehors d’un intervalle localisé en l’origine. Cette propriété a d’importantes répercussions sur la fonction réalisée par le neurone. En effet, si l’hyperplan wk.x + bk = 0 est très éloigné de l’ensemble des données, la sortie du neurone sera constante sur l’ensemble des individus d’entrée. On voit donc qu’un tel neurone ne participe pas utilement au calcul de la fonction réalisée par le perceptron multi-couches.

8.2. INITIALISATION Lors de la phase d’apprentissage, on souhaite que ces neurones inutiles prennent une part active dans le calcul de la sortie du réseau. Pour cela, l’algo-rithme d’optimisation va progressivement déplacer chaque hyperplan vers l’en-semble des individus composant la base d’apprentissage. La progression de ces hyperplans s’effectue d’autant plus rapidement que la dérivée du neurone en fonction de ses paramètres est importante. Malheureusement, dans le cas d’un hyperplan très éloigné, cette dérivée est quasiment nulle, car la sortie du neu-rone est entièrement déterminée par la zone saturée (constante) de la fonction d’activation. La progression des hyperplans nécessite donc un nombre très im-portant d’itérations (la modification de la position d’un hyperplan peut même dans certains cas se révéler impossible).

L’initialisation aléatoire, habituellement utilisée pour les perceptrons multi-couches numériques, n’apporte pas une réponse satisfaisante à ce problème. En effet, le choix aléatoire des paramètres wk et bk dans l’expression 8.1 ne permet pas de contrôler précisément la position de l’hyperplan dans l’espace des données : cette position dépend entièrement du rapport ^−bk

kwkk, qui peut prendre des valeurs arbitraires.

Le but de l’initialisation géométrique, proposée dans [67], est de contrôler efficacement la position de chaque hyperplan afin que chaque neurone soit ”sen-sible” à une partie des données. Pour ce faire, on modifie l’équation 8.1, afin d’en obtenir une version plus géométrique et plus intuitive :

f (x) =

k=1

akT (dk.(x − tk)) (8.2) où les ak sont des réels, et où dk et tk sont des vecteurs de Rn.

Le passage de la forme géométrique à la forme standard s’effectue aisément, en développant le produit scalaire dk.(x − tk). Les paramètres de l’équation 8.1 sont alors donnés par wk = dk et bk = −dk.tk.

Comme précédemment, l’équation dk.(x − tk) = 0 définit un hyperplan dans l’espace des données. Grâce à cette nouvelle expression, l’initialisation de chaque neurone peut être réalisée aisément. En effet, la position de l’hyperplan dépend uniquement du paramètre de translation, tk, de même sa direction est unique-ment fonction du paramètre de direction dk/kdkk. Enfin, la selectivité de la fonction d’activation dépend uniquement de la norme kdkk.

Une manière simple de choisir ces trois paramètres est réalisée en imposant à chacun d’eux d’appartenir aux trois ensembles distincts suivants :

1. tk est choisi aléatoirement dans ”l’ensemble de translation”, par exemple le sous-ensemble sur lequel est définie la fonction à modéliser.

2. dk/kdkk est choisi al´eatoirement dans ”l’ensemble de direction” (par exemple, la boule unit´e).

3. finalement, kdkk est choisi aléatoirement dans ”l’ensemble de sélectivité”. Dans la pratique, cet ensemble est fonction de la nature de la fonction d’activation utilisée, ainsi que de l’ensemble de données. Si l’on considère par exemple la fonction d’activation tanh(x

2), son domaine de saturation est caractérisé approximativement par l’ensemble des x vérifiant |x| > 5. De plus, dans le cas où |x| < 1, sa sortie est quasi-linéaire, et peut être approchée par ^x₂. Le choix de l’ensemble de sélectivité doit donc éviter la partie saturée de la fonction d’activation, tout en garantissant une bonne répartition des données sur la zone restante. On réalise pratiquement ce choix, en calculant l’expression M = maxx∈App|dk.(x − tk)|. On renor-malise alors le paramètre dk trouvé à l’étape précédente, en choisissant aléatoirement le coefficient multiplicateur dans l’intervalle [_M¹,_M⁵].

L’initialisation des paramètres ak de la couche de sortie du perceptron multi-couches ne pose pas de problème. En effet, comme la fonction d’erreur est qua-dratique en ces paramètres, les algorithmes d’optimisation classiques (gradient conjugué, BFGS) trouvent la solution optimale en un nombre limité d’itérations.

8.2.2 Adaptation aux mod`eles fonctionnels

Dans le cas où les fonctions de poids sont représentées par des modèles pseudo-linéaires, on a vu que le perceptron multi-couches fonctionnel était en fait un perceptron multi-couches numérique. L’initialisation géométrique (ainsi que tout autre méthode d’initialisation des perceptrons multi-couches numériques) peut donc lui être appliquée sans modification.

Dans le cas d’une représentation non-linéaire, l’initialisation géométrique nécessite une adaptation au cadre fonctionnel.

Le perceptron fonctionnel à une couche cachée calcule la fonction suivante : H(g) = K X k=1 akT (bk+ Z fkgdµ) où g ∈ Lp(µ), fk∈ Lq(µ).

Comme dans la section précédente, on reformule l’expression du perceptron multi-couches fonctionnel d’un point de vue plus géométrique :

H(g) = K X k=1 akT Z dk(g − tk)dµ

8.3. LES FONCTIONS SINUS

Dans le document Modélisation supervisée de données fonctionnelles par perceptron multi-couches (Page 115-118)