R´eseaux de neurones

(1)

• Objectif

• apprendre des classifieurs “plus riches” que lin ´eaire

• apprendre la transformation non-lin ´eaire

• algorithme: r ´etropropagation d’erreur

• r égularisation – s élection de mod èle

(2)

-1 1

1 1 1 1 .5

-1.5 .7 -1 -.4

x1 x2

x1

x2

z=+1

z=-1

0 1

-1 0

1 -1

0 1

-1

0 1

-1 0

1 -1

0 1

-1 0

1 -1

0 1 -1

-1

R2

R1

y1 y2

zk

w_kj

w_ji x1

x1

x2

x1

x2

y1 y2

sortie k

entr´ee i cach´ee j biais

(3)

• Neurone cach ´e

• entr ´ee = activation de r ´eseau:

net_j =

∑

^d

i=1

w_jix_i+w_j0 =

∑

^d

i=0

w_jix_i =w^t_jx

• sortie:

y_j = f(net_j)

• exemple: f(net) =signe(net) =

1 si net ≥ 0

−1 si net < 0

• f(·): fonction d’activation ou non-lin ´earit ´e

• w: vecteur des poids “synaptiques”

(4)

• Neurone de sortie

• entr ´ee:

net_k =

∑

ⁿ^H

j=1

w_{k j}y_j+w_k0 =

∑

ⁿ^H

j=0

w_{k j}y_j = w^t_ky

• sortie:

z_k = f(net_k)

(5)

• La puissance expressive des r ´eseaux de neurones g

_k

( x ) = f

n_H

∑

j=1

w

_{k j}

f

d

i

∑

=1

w

_ji

x

_i

+ w

_j0

+ w

_k0

• erreur d’approximation

• toutes les fonctions continues peuvent ˆetre approch ´ees

• mais: n_H →∞ pour une approximation exacte

(6)

• La puissance expressive des r ´eseaux de neurones

y₁

y₂

y₄ y₃

y₃ y₄

y₂ y₁

x₁ x₂

z₁ z₁

x₁ x₂

(7)

• La puissance expressive des r ´eseaux de neurones

x1 x2

x1

x2

...

x1 x2

R1

R²

R1

R2

R² R1

x2

x1

deux couches

trois couches

(8)

• R ´etropropagation d’erreur

• descente de gradient

• r `egle de chaˆıne

• extension de l’algorithme LMS

(9)

• R ´etropropagation d’erreur

w_kj z₁

w_ji

z₂ z_k z_c

... ...

x₁ x₂

...

x_i

...

x_d

z

x₁ x₂ x_i x_d

y₁ y₂ y_j y_n

H

t₁ t₂ t_k t_c

t

x

sortie

entr´ee objectif

sortie

entr´ee cach´ee

(10)

• R ´etropropagation d’erreur

• erreur d’entraˆınement:

J(w) = 1 2

c k

∑

=1

(t_k−z_k)² = 1

2t−z²

• descente de gradient:

∆w= −η∂J

∂w; ∆w_pq = −η ∂J

∂w_pq

• mise `a jour des poids:

w(m+1) = w(m) +∆w(m)

(11)

• Couche de sortie

∂J

∂w_{k j} = ∂J

∂net_k

∂w_{k j} = −δk

∂net_k

∂w_{k j} = −δky_j

• sensibilit ´e:

δk = − ∂J

∂net_k = −∂J

∂z_k

∂net_k = (t_k−z_k)f(net_k)

• r ´esultat final:

∆w_{k j} = ηδky_j =η(t_k−z_k)f(net_k)y_j

(12)

• Couche cach ´ee

∂J

∂w_ji = ∂J

∂y_j

∂net_j

∂w_ji = ∂J

∂y_j f(net_j)x_i

• premier terme:

∂J

∂y_j = ∂

∂y_j 1

2

c k

∑

=1

(t_k−z_k)²

= −

∑

^c

k=1

(t_k−z_k)∂z_k

∂y_j

= −

∑

^c

k=1

(t_k−z_k) ∂z_k

∂net_k

∂y_j

= −

∑

^c

k=1

(t_k−z_k)f(net_k)w_{k j}

=

∑

^c

k=1

δkw_{k j}

(13)

• Couche cach ´ee

∂J

∂w_ji = ∂J

∂y_j

∂net_j

∂w_ji = ∂J

∂y_j f(net_j)x_i

• r ´esultat final:

∆w_ji =ηδjx_i = η c

k

∑

=1

w_{k j}δk

f(net_j)

δj

x_i

(14)

• R ´etropropagation des sensibilit ´es

w_kj ω1

... ...

ω2 ω3 ωk ωc

w_ij

δ1 δ2 δ3 δk δc

δj

sortie

entr´ee cach´ee

(15)

• Protocoles d’entraˆınement

• stochastique: mise à jour apr ès chaque point d’entraˆınement tir é par hasard

• (en-ligne: comme stochastique, mais chaque point est trait ´e seule- ment une fois)

RETROPROPAGATIONSTOCHASTIQUE(Θ,η)

1 initialiser w 2 faire

3 x ∈ D_n choisi par hasard 4 w_ji ←w_ji+ηδjx_i

5 w_{k j} ← w_{k j}+ηδky_j 6 jusqu’ `aJ(w)< Θ 7 retourner w

(16)

• Protocoles d’entraˆınement

• batch: mise à jour apr ès avoir trait é tous les points d’entraˆınement

• plusieurs ´epoques

(17)

RETROPROPAGATIONBATCH(Θ,η)

1 initialiser w 2 faire

3 ∆w_ji ←∆w_{k j} ← 0 4 pour m = 1 `a n faire

5 x ← x_m

6 ∆w_ji ← ∆w_ji+ηδjx_i 7 ∆w_{k j} ← ∆w_{k j}+ηδky_j 8 w_ji ← w_ji+∆w_ji

9 w_{k j} ← w_{k j}+∆w_{k j} 10 jusqu’ `a J(w)< Θ 11 retourner w

(18)

• Courbes d’apprentissage

• ensemble d’entraˆınement

• ensemble de test: ´evaluation de la performance

• ensemble de validation: ajuster les param `etres (par exemple: nombre d’ ´epoques)

(19)

• Courbes d’apprentissage

J/n

test validation

1 2 3 4 5 6 7 8 9 10 11

entraˆınement

´epoques

(20)

• Surface d’erreur

-4 -3 -2 -1 0 1 2 3 4

-100

0

100 -40

-20 0

20 40 0

0.25 0.5 0.75 1

w₀

w₁ x₁

x₀,y₀

w₁

x₁ y₁

w₂ z₁

R1 ^x^* R²

w₀

J(w)

(21)

• Surface d’erreur

-100

0

100

-40 -20

0 20

40

0 0.25

0.5 0.75 1

w0

w₁ J(w)

x₁ x0,y0

w1

y₁ w₂ z₁

w0

-4 -3 -2 -1 0 1 2 3 4

x1

R1 x* R2

(22)

• Repr ´esentation des poids

• extraction des traits, filtrage

...

points d’entraˆınement

poids d’entrée-à-cachée appris

(23)

• La fonction d’activation

• non-lin ´eaire

• born ´ee

• continue et lisse

• monotone (?)

• lin ´eaire sur les petites entr ´ees

(24)

• La fonction sigmo¨ıde

f(x) = atanh(bx) = a

1−e⁻^bx 1+e⁻^bx

; a= 1.716; b = 2/3

-4 -2 2 4 net

-.1 .1 f ''(net)

-4 -2 2 4 net

-1.5 -1 -.5 .5 1 1.5

f(net)

-4 -2 2 4 net

.2 .3 .4 .5 f '(net)

.1 0

(25)

• D ´etails pratiques

• normaliser l’entr ´ee: µ= 0,σ= 1

• valeurs d’objectif: ±1

• entraˆınement avec bruit (σ 1)

• fabriquer des donn ´ees suppl ´ementaires

• nombre d’unit ´es cach ´ees

• initialisation des poids – apprentissage uniforme: U[−1/√

d,1/√ d]

(26)

• D ´etails pratiques

• taux d’apprentissage

• impulsion (momentum)

• weight decay

• indices

• terminer au plus t ˆot (early stopping)

• nombre de couches cach ´ees

• autres fonctions de crit `ere

(27)

• Normaliser l’entr ´ee: µ = 0 , σ = 1

• transformation blanchissante

• ´egaliser le poids des attributs

• Valeurs d’objectif: ± 1

• au milieu intervalle dynamique de la fonction d’activation

• Fabriquer des donn ´ees suppl ´ementaires

• Entraˆınement avec bruit ( σ 1)

(28)

• Nombre d’unit ´es cach ´ees

• r égularisation – s élection de mod èle

• r `egle heuristique: n/10

• en utilisant un ensemble de validation

(29)

• Initialisation des poids

• apprentissage uniforme: les poids sont appris `a la m ˆeme vitesse

• net_j ∈ [−1,1]

• d param `etres al ´eatoires uniformes dans [−w˜,w˜]

• variance de la somme ≈ w˜√ d

• w˜ =1/√ d

• couche de sortie: w˜ = 1/√ n_H

(30)

• Taux d’apprentissage

η = _η_opt

w

J

η < _η_opt

w*

J J J

η > 2_η_opt

w* w w

w* w

w*

ηopt< _η < 2 _η_opt

(31)

• Taux d’apprentissage

• ∂²J

∂w²∆w = ∂J

∂w

• ηopt =

∂²J

∂w² −1

(32)

• Taux d’apprentissage

^J

w* w η = ηopt

w w*

∆w 0

∂J

∂w

(33)

• Impulsion (momentum)

• w(m+1) =w(m) + (1−α)∆w(m) +α∆w(m−1)

• Weight decay

• w^new = w^old(1−ε)

• J_{e f} = J(w) + ε

2ηw^tw

• J_{e f} = J(w) + ε 2η

∑

i,j

w²_{i j}/(w^tw) 1+w²_{i j}/(w^tw)

• Terminer au plus t ˆot (early stopping)

(34)

• Indices

ω1 ω2 ω3 ωc h₁

...

h₂ sortie

cach´ee

entr´ee

categories indices

(35)

• R ´esum ´e

• approximation universelle

• r ´etropropagation d’erreur = LMS + descente de gradient (r `egle de chaˆıne)

• r égularisation, validation – s élection de mod èle

• batch vs. stochastique, ´epoques

• indices