− E(l(w, Zt)) ! = 0 On doit montrer la propri´et´e ´equivalente pour E infw∈W (w0,η)l(w, Zt) Comme l est continue en w pour un x fix´e, on a la convergence simple suivante :
lim
η→0 sup
w∈W (w0,η)
l(w, .) = l(w0, .)
Grˆace aux hypoth`eses 3 et 4 du corollaire 4, on peut appliquer la conver-gence domin´ee, qui implique :
lim η→0E sup w∈W (w0,η) l(w, Zt) ! = E(l(w0, Zt))
Finalement, comme les Zt sont ind´ependantes et identiquement distri-bu´ees, l’hypoth`ese A3 peut ˆetre simplifi´ee en :
lim η→0 E w∈W (wsup0,η) l(w, Zt) ! − E(l(w, Zt)) = 0
Ce qui est justement le r´esultat prouv´e ci-dessus. On proc`ede de mani`ere similaire pour E infw∈W (w0,η)l(w, Zt)
. L’hypoth`ese A3 est donc v´erifi´ee.
Comme les trois hypoth`eses sont v´erifi´ees, on peut appliquer le th´eor`eme d’Andrews qui donne exactement la conclusion du corollaire 4.
5.3 Connaissance parfaite des fonctions
5.3.1 Cadre probabiliste
Comme expliqu´e dans l’introduction, la fonction que l’on cherche `a approcher n’est connue que grˆace `a n couples entr´ee/sortie (gi, ti). Les gi sont les fonctions d’entr´ee, et chaque ti est l’´el´ement associ´e `a la fonction gi.
5.3. CONNAISSANCE PARFAITE DES FONCTIONS Dans la pratique, on cherche `a faire apprendre au perceptron multi-couches fonctionnel H (de vecteur poids w) la relation existant entre les fonctions d’en-tr´ee gi et les valeurs `a pr´edire ti. On consid`ere pour cela une fonction d’erreur c (par exemple une distance) et on cherche `a minimiser la quantit´e c(H(w, gi), ti) en moyenne.
Dans le th´eor`eme qui va suivre chaque fonction gi va ˆetre mod´elis´ee par la variable al´eatoire fonctionnelle Gi et de mˆeme chaque ´el´ement ti va ˆetre mod´e-lis´e par la variable al´eatoire Ti. On suppose les couples (Gi, Ti) ind´ependants identiquement distribu´es (G = G1 et T = T1). On veut alors trouver le vecteur poids optimal qui minimise l’erreur th´eorique E(c(H(w, G), T )). Cette minimi-sation ´etant dans la pratique irr´ealisable, on remplace donc l’erreur th´eorique par une moyenne empirique :
E = 1 n n X i=1 c(H(w, gi), ti)
5.3.2 Consistance
On a le th´eor`eme suivant :Th´eor`eme 5. Soient K un entier, et F1, . . . , FK, K r´egesseurs param´etriques tels que pour chaque k :
1. Fk est une fonction de Wk
h × X dans R. 2. Wk
h est un ensemble compact.
3. pour chaque x ∈ X , Fk(., x) est une fonction continue de Wk vers R. 4. pour chaque w ∈ Wk
h, Fk(w, .) est une fonction mesurable de X vers R. 5. il existe une fonction mesurable dk de X dans R qui appartient `a Lq(µ) et
telle que pour chaque w ∈ Wk
h et pour tout x ∈ X , |Fk(w, x)| ≤ dk(x). On note Wh = W1
h × . . . × WK
h .
Soit Gi une suite de variables al´eatoires fonctionnelles d´efinies sur (Ω, A, P ) et `a valeurs dans Lp(µ) (o`u µ est une mesure σ-finie). Soit T un espace m´etrique muni de sa tribu bor´elienne, et soit Ti une suite de variables al´eatoires d´efinis sur (Ω, A, P ) et `a valeurs dans T . On suppose que les couples de variables al´eatoires (Gi, Ti) sont ind´ependants et identiquement distribu´es. On note G = G1 et T = T1.
Soit l une fonction de RK×T ×Wo dans R, o`u Wo est un ensemble compact. On suppose que :
2. pour chaque wo ∈ Wo, l(., ., wo) est une fonction mesurable de RK × T vers R.
3. il existe une fonction mesurable d′ de T vers R telle que |l(z, t, wo)| ≤ d′(t) pour tout z et wo
4. E(d′(T )) < ∞.
Pour chaque ω ∈ Ω, on d´efinit : λn(wh, wo)(ω) = 1 n n X i=1 l Z F1 wh1, x Gi(ω)(x)dµ(x), . . . , Z FK wK h , x Gi(ω)(x)dµ(x), Ti(ω), wo ! et λ(wh, wo) = E l Z F1 wh1, x G(x)dµ(x), . . . , Z FK wKh, x G(x)dµ(x), T, wo ! Alors pour chaque ω ∈ Ω et pour chaque n, il existe une solution wn(ω) au probl`eme
min
w∈Wh×Wo
λn(wh, wo)(ω)
Si W∗ est l’ensemble des minimiseurs de λ(wh, wo), alors pour presque tout ω ∈ Ω
lim
n→∞d(wn(ω), W∗) = 0
D´emonstration. On applique la loi forte des grands nombres uniforme (corollaire 4) `a la fonction : h(wh, wo, g, t) = l Z F1(w1h, x)g(x)dµ(x), . . . , Z FK(whK, x)g(x)dµ(x), t, wo Ceci est possible pour les raisons suivantes :
1. la fonction h′((wh, wo), (g, t)) = h(wh, wo, g, t) est continue en w = (wh, wo) pour chaque x = (g, t), grˆace aux hypoth`eses sur l et sur F1, . . . , FK, et sachant que g appartient `a Lp(µ). En effet, la fonction wk
h 7→ R
Fk(wk
h, x)g(x)dµ(x) est continue pour chaque g : comme Fk est continue en w pour chaque x, la fonction Fk(w′, .)g(.) converge simplement vers Fk(w, .)g(.) quand w′converge vers w. De plus, |Fk(w, .)g(.)| est domi-n´ee sur Wk
h par dk(.)|g(.)|, laquelle est int´egrable (par hypoth`ese). Grˆace au th´eor`eme de convergence domin´ee, ceci implique la continuit´e de la fonction wk
h 7→R
Fk(wk
5.3. CONNAISSANCE PARFAITE DES FONCTIONS 2. h′ est mesurable en (g, t) pour chaque (wh, wo). C’est une cons´equence
directe des hypoth`eses sur l et du fait que g 7→ R
Fk(wk
h, x)g(x)dµ(x) est continue pour chaque wk
h.
3. grˆace au lemme 1 appliqu´e `a |h′|, la fonction c(g, t) = sup
(wh,wo)∈Wh×Wo
|h′((wh, wo), (g, t))| est mesurable.
4. E(c(G, T )) < ∞ par hypoth`ese sur l. Grˆace au corollaire 4, on a donc
sup (wh,wo)∈Wh×Wo 1 n n X i=1 h(wh, wo, Gi, Ti) − E(h(wh, wo, G, T )) → p.s. n→∞ 0 (5.1) La conclusion finale est obtenue de mani`ere similaire `a White [76] :
On pose w = (wh, wo), W = Wh × Wo, et h′(w, g, t) = h(wh, wo, g, t). On proc`ede alors selon ´etapes suivantes :
1. λ(w) est continue. Par continuit´e de h′, h′(w, g, t) converge simplement vers h(w, g, t) quand w′ converge vers w. De plus, h′ est domin´ee par d′. Donc, le th´eor`eme de convergence domin´ee implique que E(h′(w′, G, T )) converge vers E(h′(w, G, T )) quand w′ converge vers w.
2. chaque λn est continue sur l’ensemble compact W . Il existe donc un mi-nimiseur wn.
3. on consid`ere un ω ∈ Ω pour lequel la convergence uniforme de λn vers λ a lieu. Comme W est un ensemble compact, la suite wn a au moins un point d’accumulation w0, et une sous-suite wn′
qui converge vers lui. Soit ǫ un r´eel strictement positif. λ est uniform´ement continue sur W et donc il existe η tel que |w′ − w| < η implique |λ(w) − λ(w′)| < ǫ. Par convergence uniforme, pour n′ suffisamment grand, kλn′
− λk∞ < ǫ. Pour n′ suffisamment grand, on a aussi |wn′
−w0| < η. Ceci implique |λn′
(wn′
)− λ(w0)| < 2ǫ. Ceci implique que pour tout w, λ(w0) − λ(w) ≤ 3ǫ, car l’optimalit´e de wn′ implique λn′ (wn′ ) − λn′ (w) ≤ 0, λn′ (w) − λ(w) ≤ ǫ par convergence uniforme et on vient juste de prouver que λ(w0) − λn′
(wn′
) < 2ǫ. Comme ceci est vrai pout tout ǫ, on a pour tout w, λ(w0) ≤ λ(w), ce qui montre que w0 ∈ W∗.
4. finalement, on suppose que d(wn, W∗) ne converge pas vers 0. Alors il existe un r´eel positif ǫ et une sous-suite, wn′
tel que d(wn′
, W∗) > ǫ pour chaque n′. Mais wn′
est encore une suite de minimiseurs dans un ensemble compact et a donc un point d’accumulation dans W∗ce qui est impossible car d(wn′
5.3.3 Discussion
Ce th´eor`eme apporte une r´eponse directe au probl`eme de consistance. Il montre en effet que l’estimation des param`etres optimaux est statistiquement valide. La formulation du th´eor`eme est quelque peu technique, car la fonction l mod´elise `a la fois le perceptron fonctionnel (except´e les int´egrales des neurones fonctionnels) et la fonction d’erreur. Si on note c la fonction d’erreur, on peut d´efinir dans le cas d’un perceptron fonctionnel `a une couche cach´ee et `a valeurs r´eelles, la fonction l comme suit :
l(z, t, wo) = c K X k=1 akT (bk+ zk), t !
o`u wo = (a1, b1, . . . , aK, bK) ∈ R2K. Grˆace `a cette d´efinition, on a donc : c(H(w, g), t) = l Z F1(w1 h, x)g(x)dµ(x), . . . , Z FK(wK h , x)g(x)dµ(x), t, wo λn(wh, wo) est donc l’erreur empirique du perceptron multi-couches fonc-tionnel sur les donn´ees restreintes, et λ(wh, wo) est l’erreur th´eorique que l’on cherche `a minimiser. La signification de ce th´eor`eme est que si le nombre de fonctions croˆıt vers l’infini, les param`etres estim´es convergent presque sˆurement vers les vrais param`etres optimaux.
Si on ´etudie `a pr´esent les diff´erentes hypoth`eses utilis´ees dans le th´eor`eme 5, on voit que son application au perceptron multi-couches fonctionnel ne pose pas de probl`eme.
– Dans le cas o`u chaque Fk est un perceptron multi-couches num´erique, la continuit´e de la fonction d’activation implique la continuit´e en w et la mesurabilit´e en x. Dans le cas de mod`eles lin´eaires g´en´eralis´es, les fonc-tions de base doivent ˆetre mesurable en x (ce qui est toujours v´erifi´e par d´efinition).
– Dans le cas des mod`eles lin´eaires g´en´eralis´es, la majoration |Fk(w, x)| ≤ dk(x) est v´erifi´ee si on suppose que les fonctions de base appartiennent `a Lq(µ) (ce qui est toujours v´erifi´e par d´efinition). Dans le cas du percep-tron multi-couches, on peut supposer que la mesure µ est finie (hypoth`ese n´ecessaire au th´eor`eme 3 d’approximation universelle), et que de plus la fonction d’activation est continue et born´ee (condition v´erifi´ee par les fonc-tions d’activation habituelles comme la tangente hyperbolique). Sous ces hypoth`eses, il existe une constante M telle que pour tout w et pour tout x, |Fk(w, x)| ≤ M. La fonction constante M appartient `a Lq(µ).
5.4. CONNAISANCE LIMIT´EE DES FONCTIONS