Connaissance parfaite des fonctions - Modélisation supervisée de données fonctionnelles par per

− E(l(w, Zt)) ! ^{= 0} On doit montrer la propriété équivalente pour E infw∈W (w0,η)l(w, Zt) Comme l est continue en w pour un x fixé, on a la convergence simple suivante :

lim

η→0 sup

w∈W (w0,η)

l(w, .) = l(w0, .)

Grâce aux hypothèses 3 et 4 du corollaire 4, on peut appliquer la conver-gence dominée, qui implique :

lim η→0E sup w∈W (w0,η) l(w, Zt) ! = E(l(w₀, Zt))

Finalement, comme les Zt sont indépendantes et identiquement distri-buées, l’hypothèse A3 peut être simplifiée en :

lim η→0 ^E w∈W (w^sup0,η) l(w, Zt) ! − E(l(w, Zt)) ^{= 0}

Ce qui est justement le résultat prouvé ci-dessus. On procède de manière similaire pour E infw∈W (w0,η)l(w, Zt)

. L’hypothèse A3 est donc vérifiée.

Comme les trois hypothèses sont vérifiées, on peut appliquer le théorème d’Andrews qui donne exactement la conclusion du corollaire 4.

5.3 Connaissance parfaite des fonctions

5.3.1 Cadre probabiliste

Comme expliqué dans l’introduction, la fonction que l’on cherche à approcher n’est connue que grâce à n couples entrée/sortie (gi, ti). Les gi sont les fonctions d’entrée, et chaque ti est l’élément associé à la fonction gi.

5.3. CONNAISSANCE PARFAITE DES FONCTIONS Dans la pratique, on cherche à faire apprendre au perceptron multi-couches fonctionnel H (de vecteur poids w) la relation existant entre les fonctions d’en-trée gi et les valeurs à prédire ti. On considère pour cela une fonction d’erreur c (par exemple une distance) et on cherche à minimiser la quantité c(H(w, gi), ti) en moyenne.

Dans le théorème qui va suivre chaque fonction gi va être modélisée par la variable aléatoire fonctionnelle Gi et de même chaque élément ti va être modé-lisé par la variable aléatoire Ti. On suppose les couples (Gi, Ti) indépendants identiquement distribués (G = G1 et T = T1). On veut alors trouver le vecteur poids optimal qui minimise l’erreur théorique E(c(H(w, G), T )). Cette minimi-sation étant dans la pratique irréalisable, on remplace donc l’erreur théorique par une moyenne empirique :

E = ¹ n n X i=1 c(H(w, gⁱ), tⁱ)

5.3.2 Consistance

On a le th´eor`eme suivant :

Théorème 5. Soient K un entier, et F1, . . . , FK, K régesseurs paramétriques tels que pour chaque k :

1. Fk est une fonction de Wk

h × X dans R. 2. Wk

h est un ensemble compact.

3. pour chaque x ∈ X , Fk(., x) est une fonction continue de Wk vers R. 4. pour chaque w ∈ Wk

h, Fk(w, .) est une fonction mesurable de X vers R. 5. il existe une fonction mesurable dk de X dans R qui appartient `a Lq(µ) et

telle que pour chaque w ∈ Wk

h et pour tout x ∈ X , |Fk(w, x)| ≤ dk(x). On note Wh = W1

h × . . . × WK

h .

Soit Gi une suite de variables aléatoires fonctionnelles définies sur (Ω, A, P ) et à valeurs dans Lp(µ) (où µ est une mesure σ-finie). Soit T un espace métrique muni de sa tribu borélienne, et soit Ti une suite de variables aléatoires définis sur (Ω, A, P ) et à valeurs dans T . On suppose que les couples de variables aléatoires (Gi, Ti) sont indépendants et identiquement distribués. On note G = G1 et T = T1.

Soit l une fonction de RK×T ×Wo dans R, o`u Wo est un ensemble compact. On suppose que :

2. pour chaque wo ∈ Wo, l(., ., wo) est une fonction mesurable de RK × T vers R.

3. il existe une fonction mesurable d′ de T vers R telle que |l(z, t, wo)| ≤ d′(t) pour tout z et wo

4. E(d′(T )) < ∞.

Pour chaque ω ∈ Ω, on d´efinit : λn(wh, wo)(ω) = ¹ n n X i=1 l Z F1 w_h¹, x Gi(ω)(x)dµ(x), . . . , Z FK wK h , x Gi(ω)(x)dµ(x), Ti(ω), wo ! et λ(wh, wo) = E l Z F1 w_h¹, x G(x)dµ(x), . . . , Z FK w^K_h, x G(x)dµ(x), T, wo ! Alors pour chaque ω ∈ Ω et pour chaque n, il existe une solution wn(ω) au probl`eme

min

w∈Wh×Wo

λn(wh, wo)(ω)

Si W∗ est l’ensemble des minimiseurs de λ(wh, wo), alors pour presque tout ω ∈ Ω

lim

n→∞d(wⁿ(ω), W^∗) = 0

D´emonstration. On applique la loi forte des grands nombres uniforme (corollaire 4) `a la fonction : h(wh, wo, g, t) = l Z F1(w¹_h, x)g(x)dµ(x), . . . , Z FK(w_h^K, x)g(x)dµ(x), t, wo Ceci est possible pour les raisons suivantes :

1. la fonction h′((wh, wo), (g, t)) = h(wh, wo, g, t) est continue en w = (wh, wo) pour chaque x = (g, t), grâce aux hypothèses sur l et sur F1, . . . , FK, et sachant que g appartient à Lp(µ). En effet, la fonction wk

h 7→ R

Fk(wk

h, x)g(x)dµ(x) est continue pour chaque g : comme Fk est continue en w pour chaque x, la fonction Fk(w′, .)g(.) converge simplement vers Fk(w, .)g(.) quand w′converge vers w. De plus, |Fk(w, .)g(.)| est domi-n´ee sur Wk

h par dk(.)|g(.)|, laquelle est intégrable (par hypothèse). Grâce au théorème de convergence dominée, ceci implique la continuité de la fonction wk

h 7→R

Fk(wk

5.3. CONNAISSANCE PARFAITE DES FONCTIONS 2. h′ est mesurable en (g, t) pour chaque (wh, wo). C’est une cons´equence

directe des hypoth`eses sur l et du fait que g 7→ R

Fk(wk

h, x)g(x)dµ(x) est continue pour chaque wk

3. grâce au lemme 1 appliqué à |h′|, la fonction c(g, t) = sup

(wh,wo)∈Wh×Wo

|h^′((wh, wo), (g, t))| est mesurable.

4. E(c(G, T )) < ∞ par hypoth`ese sur l. Grˆace au corollaire 4, on a donc

sup (wh,wo)∈Wh×Wo 1 n n X i=1 h(wh, wo, Gⁱ, Tⁱ) − E(h(wh, wo, G, T )) ^→ p.s. n→∞ 0 (5.1) La conclusion finale est obtenue de mani`ere similaire `a White [76] :

On pose w = (wh, wo), W = Wh × Wo, et h′(w, g, t) = h(wh, wo, g, t). On proc`ede alors selon ´etapes suivantes :

1. λ(w) est continue. Par continuité de h′, h′(w, g, t) converge simplement vers h(w, g, t) quand w′ converge vers w. De plus, h′ est dominée par d′. Donc, le théorème de convergence dominée implique que E(h′(w′, G, T )) converge vers E(h′(w, G, T )) quand w′ converge vers w.

2. chaque λn est continue sur l’ensemble compact W . Il existe donc un mi-nimiseur wn.

3. on consid`ere un ω ∈ Ω pour lequel la convergence uniforme de λn vers λ a lieu. Comme W est un ensemble compact, la suite wn a au moins un point d’accumulation w₀, et une sous-suite wn′

qui converge vers lui. Soit ǫ un r´eel strictement positif. λ est uniform´ement continue sur W et donc il existe η tel que |w′ − w| < η implique |λ(w) − λ(w′)| < ǫ. Par convergence uniforme, pour n^′ suffisamment grand, kλn′

− λk∞ < ǫ. Pour n′ suffisamment grand, on a aussi |wn′

−w0| < η. Ceci implique |λn′

(wn′

)− λ(w0)| < 2ǫ. Ceci implique que pour tout w, λ(w0) − λ(w) ≤ 3ǫ, car l’optimalit´e de wn′ implique λn′ (wn′ ) − λn′ (w) ≤ 0, λn′ (w) − λ(w) ≤ ǫ par convergence uniforme et on vient juste de prouver que λ(w0) − λn′

(wn′

) < 2ǫ. Comme ceci est vrai pout tout ǫ, on a pour tout w, λ(w0) ≤ λ(w), ce qui montre que w₀ ∈ W∗.

4. finalement, on suppose que d(wn, W∗) ne converge pas vers 0. Alors il existe un r´eel positif ǫ et une sous-suite, wn′

tel que d(wn′

, W∗) > ǫ pour chaque n′. Mais wn′

est encore une suite de minimiseurs dans un ensemble compact et a donc un point d’accumulation dans W∗ce qui est impossible car d(wn′

5.3.3 Discussion

Ce théorème apporte une réponse directe au problème de consistance. Il montre en effet que l’estimation des paramètres optimaux est statistiquement valide. La formulation du théorème est quelque peu technique, car la fonction l modélise à la fois le perceptron fonctionnel (excepté les intégrales des neurones fonctionnels) et la fonction d’erreur. Si on note c la fonction d’erreur, on peut définir dans le cas d’un perceptron fonctionnel à une couche cachée et à valeurs réelles, la fonction l comme suit :

l(z, t, wo) = c K X k=1 akT (bk+ zk), t !

où wo = (a1, b1, . . . , aK, bK) ∈ R2K. Grâce à cette définition, on a donc : c(H(w, g), t) = l Z F₁(w1 h, x)g(x)dµ(x), . . . , Z FK(wK h , x)g(x)dµ(x), t, wo λn(wh, wo) est donc l’erreur empirique du perceptron multi-couches fonc-tionnel sur les données restreintes, et λ(wh, wo) est l’erreur théorique que l’on cherche à minimiser. La signification de ce théorème est que si le nombre de fonctions croˆıt vers l’infini, les paramètres estimés convergent presque sûrement vers les vrais paramètres optimaux.

Si on étudie à présent les différentes hypothèses utilisées dans le théorème 5, on voit que son application au perceptron multi-couches fonctionnel ne pose pas de problème.

– Dans le cas où chaque Fk est un perceptron multi-couches numérique, la continuité de la fonction d’activation implique la continuité en w et la mesurabilité en x. Dans le cas de modèles linéaires généralisés, les fonc-tions de base doivent être mesurable en x (ce qui est toujours vérifié par définition).

– Dans le cas des modèles linéaires généralisés, la majoration |Fk(w, x)| ≤ dk(x) est vérifiée si on suppose que les fonctions de base appartiennent à Lq(µ) (ce qui est toujours vérifié par définition). Dans le cas du percep-tron multi-couches, on peut supposer que la mesure µ est finie (hypothèse nécessaire au théorème 3 d’approximation universelle), et que de plus la fonction d’activation est continue et bornée (condition vérifiée par les fonc-tions d’activation habituelles comme la tangente hyperbolique). Sous ces hypothèses, il existe une constante M telle que pour tout w et pour tout x, |Fk(w, x)| ≤ M. La fonction constante M appartient à Lq(µ).

5.4. CONNAISANCE LIMIT´EE DES FONCTIONS

Dans le document Modélisation supervisée de données fonctionnelles par perceptron multi-couches (Page 59-64)