• Aucun résultat trouvé

− E(l(w, Zt)) ! = 0 On doit montrer la propri´et´e ´equivalente pour E infw∈W (w0,η)l(w, Zt) Comme l est continue en w pour un x fix´e, on a la convergence simple suivante :

lim

η→0 sup

w∈W (w0,η)

l(w, .) = l(w0, .)

Grˆace aux hypoth`eses 3 et 4 du corollaire 4, on peut appliquer la conver-gence domin´ee, qui implique :

lim η→0E sup w∈W (w0,η) l(w, Zt) ! = E(l(w0, Zt))

Finalement, comme les Zt sont ind´ependantes et identiquement distri-bu´ees, l’hypoth`ese A3 peut ˆetre simplifi´ee en :

lim η→0 E w∈W (wsup0,η) l(w, Zt) ! − E(l(w, Zt)) = 0

Ce qui est justement le r´esultat prouv´e ci-dessus. On proc`ede de mani`ere similaire pour E infw∈W (w0,η)l(w, Zt)

. L’hypoth`ese A3 est donc v´erifi´ee.

Comme les trois hypoth`eses sont v´erifi´ees, on peut appliquer le th´eor`eme d’Andrews qui donne exactement la conclusion du corollaire 4.

5.3 Connaissance parfaite des fonctions

5.3.1 Cadre probabiliste

Comme expliqu´e dans l’introduction, la fonction que l’on cherche `a approcher n’est connue que grˆace `a n couples entr´ee/sortie (gi, ti). Les gi sont les fonctions d’entr´ee, et chaque ti est l’´el´ement associ´e `a la fonction gi.

5.3. CONNAISSANCE PARFAITE DES FONCTIONS Dans la pratique, on cherche `a faire apprendre au perceptron multi-couches fonctionnel H (de vecteur poids w) la relation existant entre les fonctions d’en-tr´ee gi et les valeurs `a pr´edire ti. On consid`ere pour cela une fonction d’erreur c (par exemple une distance) et on cherche `a minimiser la quantit´e c(H(w, gi), ti) en moyenne.

Dans le th´eor`eme qui va suivre chaque fonction gi va ˆetre mod´elis´ee par la variable al´eatoire fonctionnelle Gi et de mˆeme chaque ´el´ement ti va ˆetre mod´e-lis´e par la variable al´eatoire Ti. On suppose les couples (Gi, Ti) ind´ependants identiquement distribu´es (G = G1 et T = T1). On veut alors trouver le vecteur poids optimal qui minimise l’erreur th´eorique E(c(H(w, G), T )). Cette minimi-sation ´etant dans la pratique irr´ealisable, on remplace donc l’erreur th´eorique par une moyenne empirique :

E = 1 n n X i=1 c(H(w, gi), ti)

5.3.2 Consistance

On a le th´eor`eme suivant :

Th´eor`eme 5. Soient K un entier, et F1, . . . , FK, K r´egesseurs param´etriques tels que pour chaque k :

1. Fk est une fonction de Wk

h × X dans R. 2. Wk

h est un ensemble compact.

3. pour chaque x ∈ X , Fk(., x) est une fonction continue de Wk vers R. 4. pour chaque w ∈ Wk

h, Fk(w, .) est une fonction mesurable de X vers R. 5. il existe une fonction mesurable dk de X dans R qui appartient `a Lq(µ) et

telle que pour chaque w ∈ Wk

h et pour tout x ∈ X , |Fk(w, x)| ≤ dk(x). On note Wh = W1

h × . . . × WK

h .

Soit Gi une suite de variables al´eatoires fonctionnelles d´efinies sur (Ω, A, P ) et `a valeurs dans Lp(µ) (o`u µ est une mesure σ-finie). Soit T un espace m´etrique muni de sa tribu bor´elienne, et soit Ti une suite de variables al´eatoires d´efinis sur (Ω, A, P ) et `a valeurs dans T . On suppose que les couples de variables al´eatoires (Gi, Ti) sont ind´ependants et identiquement distribu´es. On note G = G1 et T = T1.

Soit l une fonction de RK×T ×Wo dans R, o`u Wo est un ensemble compact. On suppose que :

2. pour chaque wo ∈ Wo, l(., ., wo) est une fonction mesurable de RK × T vers R.

3. il existe une fonction mesurable d de T vers R telle que |l(z, t, wo)| ≤ d(t) pour tout z et wo

4. E(d(T )) < ∞.

Pour chaque ω ∈ Ω, on d´efinit : λn(wh, wo)(ω) = 1 n n X i=1 l Z F1 wh1, x Gi(ω)(x)dµ(x), . . . , Z FK wK h , x Gi(ω)(x)dµ(x), Ti(ω), wo ! et λ(wh, wo) = E l  Z F1 wh1, x G(x)dµ(x), . . . , Z FK wKh, x G(x)dµ(x), T, wo ! Alors pour chaque ω ∈ Ω et pour chaque n, il existe une solution wn(ω) au probl`eme

min

w∈Wh×Wo

λn(wh, wo)(ω)

Si W est l’ensemble des minimiseurs de λ(wh, wo), alors pour presque tout ω ∈ Ω

lim

n→∞d(wn(ω), W) = 0

D´emonstration. On applique la loi forte des grands nombres uniforme (corollaire 4) `a la fonction : h(wh, wo, g, t) = l Z F1(w1h, x)g(x)dµ(x), . . . , Z FK(whK, x)g(x)dµ(x), t, wo  Ceci est possible pour les raisons suivantes :

1. la fonction h((wh, wo), (g, t)) = h(wh, wo, g, t) est continue en w = (wh, wo) pour chaque x = (g, t), grˆace aux hypoth`eses sur l et sur F1, . . . , FK, et sachant que g appartient `a Lp(µ). En effet, la fonction wk

h 7→ R

Fk(wk

h, x)g(x)dµ(x) est continue pour chaque g : comme Fk est continue en w pour chaque x, la fonction Fk(w, .)g(.) converge simplement vers Fk(w, .)g(.) quand wconverge vers w. De plus, |Fk(w, .)g(.)| est domi-n´ee sur Wk

h par dk(.)|g(.)|, laquelle est int´egrable (par hypoth`ese). Grˆace au th´eor`eme de convergence domin´ee, ceci implique la continuit´e de la fonction wk

h 7→R

Fk(wk

5.3. CONNAISSANCE PARFAITE DES FONCTIONS 2. h est mesurable en (g, t) pour chaque (wh, wo). C’est une cons´equence

directe des hypoth`eses sur l et du fait que g 7→ R

Fk(wk

h, x)g(x)dµ(x) est continue pour chaque wk

h.

3. grˆace au lemme 1 appliqu´e `a |h|, la fonction c(g, t) = sup

(wh,wo)∈Wh×Wo

|h((wh, wo), (g, t))| est mesurable.

4. E(c(G, T )) < ∞ par hypoth`ese sur l. Grˆace au corollaire 4, on a donc

sup (wh,wo)∈Wh×Wo 1 n n X i=1 h(wh, wo, Gi, Ti) − E(h(wh, wo, G, T )) p.s. n→∞ 0 (5.1) La conclusion finale est obtenue de mani`ere similaire `a White [76] :

On pose w = (wh, wo), W = Wh × Wo, et h(w, g, t) = h(wh, wo, g, t). On proc`ede alors selon ´etapes suivantes :

1. λ(w) est continue. Par continuit´e de h, h(w, g, t) converge simplement vers h(w, g, t) quand w converge vers w. De plus, h est domin´ee par d. Donc, le th´eor`eme de convergence domin´ee implique que E(h(w, G, T )) converge vers E(h(w, G, T )) quand w converge vers w.

2. chaque λn est continue sur l’ensemble compact W . Il existe donc un mi-nimiseur wn.

3. on consid`ere un ω ∈ Ω pour lequel la convergence uniforme de λn vers λ a lieu. Comme W est un ensemble compact, la suite wn a au moins un point d’accumulation w0, et une sous-suite wn′

qui converge vers lui. Soit ǫ un r´eel strictement positif. λ est uniform´ement continue sur W et donc il existe η tel que |w − w| < η implique |λ(w) − λ(w)| < ǫ. Par convergence uniforme, pour n suffisamment grand, kλn′

− λk < ǫ. Pour n suffisamment grand, on a aussi |wn′

−w0| < η. Ceci implique |λn′

(wn′

)− λ(w0)| < 2ǫ. Ceci implique que pour tout w, λ(w0) − λ(w) ≤ 3ǫ, car l’optimalit´e de wn′ implique λn′ (wn′ ) − λn′ (w) ≤ 0, λn′ (w) − λ(w) ≤ ǫ par convergence uniforme et on vient juste de prouver que λ(w0) − λn′

(wn′

) < 2ǫ. Comme ceci est vrai pout tout ǫ, on a pour tout w, λ(w0) ≤ λ(w), ce qui montre que w0 ∈ W.

4. finalement, on suppose que d(wn, W) ne converge pas vers 0. Alors il existe un r´eel positif ǫ et une sous-suite, wn′

tel que d(wn′

, W) > ǫ pour chaque n. Mais wn′

est encore une suite de minimiseurs dans un ensemble compact et a donc un point d’accumulation dans Wce qui est impossible car d(wn′

5.3.3 Discussion

Ce th´eor`eme apporte une r´eponse directe au probl`eme de consistance. Il montre en effet que l’estimation des param`etres optimaux est statistiquement valide. La formulation du th´eor`eme est quelque peu technique, car la fonction l mod´elise `a la fois le perceptron fonctionnel (except´e les int´egrales des neurones fonctionnels) et la fonction d’erreur. Si on note c la fonction d’erreur, on peut d´efinir dans le cas d’un perceptron fonctionnel `a une couche cach´ee et `a valeurs r´eelles, la fonction l comme suit :

l(z, t, wo) = c K X k=1 akT (bk+ zk), t !

o`u wo = (a1, b1, . . . , aK, bK) ∈ R2K. Grˆace `a cette d´efinition, on a donc : c(H(w, g), t) = l Z F1(w1 h, x)g(x)dµ(x), . . . , Z FK(wK h , x)g(x)dµ(x), t, wo  λn(wh, wo) est donc l’erreur empirique du perceptron multi-couches fonc-tionnel sur les donn´ees restreintes, et λ(wh, wo) est l’erreur th´eorique que l’on cherche `a minimiser. La signification de ce th´eor`eme est que si le nombre de fonctions croˆıt vers l’infini, les param`etres estim´es convergent presque sˆurement vers les vrais param`etres optimaux.

Si on ´etudie `a pr´esent les diff´erentes hypoth`eses utilis´ees dans le th´eor`eme 5, on voit que son application au perceptron multi-couches fonctionnel ne pose pas de probl`eme.

– Dans le cas o`u chaque Fk est un perceptron multi-couches num´erique, la continuit´e de la fonction d’activation implique la continuit´e en w et la mesurabilit´e en x. Dans le cas de mod`eles lin´eaires g´en´eralis´es, les fonc-tions de base doivent ˆetre mesurable en x (ce qui est toujours v´erifi´e par d´efinition).

– Dans le cas des mod`eles lin´eaires g´en´eralis´es, la majoration |Fk(w, x)| ≤ dk(x) est v´erifi´ee si on suppose que les fonctions de base appartiennent `a Lq(µ) (ce qui est toujours v´erifi´e par d´efinition). Dans le cas du percep-tron multi-couches, on peut supposer que la mesure µ est finie (hypoth`ese n´ecessaire au th´eor`eme 3 d’approximation universelle), et que de plus la fonction d’activation est continue et born´ee (condition v´erifi´ee par les fonc-tions d’activation habituelles comme la tangente hyperbolique). Sous ces hypoth`eses, il existe une constante M telle que pour tout w et pour tout x, |Fk(w, x)| ≤ M. La fonction constante M appartient `a Lq(µ).

5.4. CONNAISANCE LIMIT´EE DES FONCTIONS