R ´eseaux de Neurones

(1)

M2 STIM -Identification & aide `a la d ´ecision

R ´eseaux de Neurones

clement.chatelain@insa-rouen.fr

21 janvier 2016

clement.chatelain@insa-rouen.fr R ´eseaux de Neurones 21 janvier 2016 1 / 60

(2)

Sommaire

1 Introduction

2 Principes g ´en ´eraux Neurone formel Topologies

3 Apprentissage(s) Posons le probl `eme

R éseau lin éaire à une couche R éseau non lin éaire à une couche R éseaux multicouches

4 Autres architectures Architectures profondes R éseaux r écurrents R éseaux convolutionnels L égos

5 R ´eseaux de neurones dans la pratique Param ´etrisation

Mise en œuvre

(3)

Introduction

Avantage

Fonctionne∀le nombre d’entr ées,∀le nombre de sorties Mod èle pas forc ément lin éaire par rapport aux param ètres Et surtout ... ça marche tr ès bien !

Inconv ´enients

Le crit ère doit être d érivable

Le param étrage et l’apprentissage demandent un peu d’ éxp érience ...

(4)

Introduction

Les r ´eseaux de neurones permettent d’estimer une fonction f :

f :x →y avecx^T = [x₁,x₂, . . . ,x_E]∈R^E Siy ∈R^S, on parle der ´egression

Siy ∈ {C₁,C₂, . . . ,C_S}, on parle declassification Dans ce cas, autant de neurones de sortie que de classe

→Sortiesd ´esir ´eesde la forme :y^d^T = [0,0, . . . ,1, . . . ,0]

Estimation de f :

Apprentissage des poids de connexion entre neurones Sur une base ´etiquet ´ee deNcouples

({x(1),y(1)}, . . . ,{x(n),y(n)}, . . . ,{x(N),y(N)})

(5)

Principes g ´en ´eraux

Id ée g én érale des R éseaux de neurones :

combiner de nombreuses fonctions ´el ´ementaires pour former des fonctions complexes.

Apprendre les liens entre ces fonctions simples `a partir d’exemples

´etiquet ´es

Analogie (un peu commerciale) avec le cerveau : Fonctions ´el ´ementaires = neurones

Connexion = synapse

Apprentissage des connexions = la connaissance

(6)

Principes g ´en ´eraux Neurone formel

Le neurone formel [McCulloch et Pitts, 1943]

Unit é él émentaire : neurone formel

E entr ´eesxe, sortiey

Somme des entr éesxepond ér ée par despoidswe:

α=

E

X

e=1

w_ex_e+b=

E

X

e=0

w_ex_e avec x₀=1 Une fonction d’activationϕ, lin ´eaire ou non :

y =ϕ(α) =ϕ PE

e=0w_ex_e

ϕlin éaire : hyperplan s éparateur ;ϕnon lin éaire : hyperbole dimensionE

(7)

Principes g ´en ´eraux Neurone formel

Le neurone formel [McCulloch et Pitts, 1943]

Diff ´erentes fonctions d’activation

Elles introduisent un intervalle sur lequel le neurone est activ ´e fonction identit ´e

heaviside :ϕ(x) =0 six <0, 1 sinon sigmo¨ıde :ϕ(x) = ¹

1+e^−x

tanh :ϕ(x) = ^e_e^x_x^−e_+e^−x−x =^e^2x⁻¹

e^2x+1

fonction noyau (gaussienne)

heaviside - sigmo¨ıde - tanh - gaussienne

(8)

Principes g ´en ´eraux Topologies

Topologies

Il existe de nombreuses mani `ere d’organiser les neurones en r ´eseau :

R ´eseau en couches (adaline, perceptron, perceptron multicouches, RBF)

R éseau totalement interconnect é (Hopfield, Boltzmann) R éseau r écurrent (LSTM)

R ´eseau `a convolution (TDNN, SDNN)

R ´eseau avec beaucoup de couches ! (architectures profondes)

(9)

R ´eseaux en couches (1)

Chaque neurone d’une couche est connect é à tous les neurones des couches pr éc édentes et suivantes

R ´eseaux ditsfeedforward: propagation des entr ´ees de couches en couches vers la sortie

Structure la plus r ´epandue

Algorithmes d’apprentissage des poids efficaces

(10)

R ´eseaux en couches (2)

Variantes

Une couche, fonction d’activation heaviside, une sortie :perceptron [Rosenblatt 1957]

Si plus d’une couche : couches dites

cach ´ees, perceptron multicouches Si beaucoup de couches : architectures profondes

(11)

R ´eseaux totalement interconnect ´es

R ´eseaux de Hopfield, Machines de Boltzmann

Tous les neurones sont connect ´es entre eux Difficile `a entrainer

N’a jamais vraiment prouv é son utilit é sur des probl èmes r éels

→int ér êt essentiellement th éorique

(12)

R ´eseaux r ´ecurrents

Adapt ´e aux s ´equences

Permet de prendre en compte le contexte

On calculey(n)`a partir de :

I x(n)les entr ´ees courantes

I y(n−1)les sorties de l’exemple pr ´ec ´edent

(provenant d’une m ême s équence) Hypoth èse'Markovienne

(13)

R ´eseaux convolutionnels

Poids partag ´es, connexions locales

Apprentissage de configurations particuli `eres

(14)

Apprentissage(s) Posons le probl `eme

Plan

1 Introduction

Mise en œuvre

(15)

Notations (1)

Les donn ´ees

On dispose d’une base ´etiquet ´ee deNcouples{x(n),y^d(n)}

X∈R^E×N,Y^d ∈R^S×N

X={x(n)}=











 x1(n)

... x_E(n)













=







x1(1) . . . x1(N) ... . .. x_e(n) ... x_E(1) . . . x_E(N)







Y^d ={y^d(n)}=











 y₁^d(n)

... y_E^d(n)













=







y₁^d(1) . . . y₁^d(N) ... . .. y_s^d(n) ... y_S^d(1) . . . y_S^d(N)







(16)

Notations(2)

Le r ´eseau (en couche)

E entr ´ee,Ssorties

Le r ´eseau comporteΛcouches

W^λmatrice des poids entre couchesλ−1 etλ On appeleray^d(n)la sortied´esir ´ee pour l’exemplen

Si :

- la coucheλ−1 contientn_i neurones - la coucheλn_j neurones,

alors : W^λ={w_ji}=







w₁₁ . . . w_1i . . . w_1n_i w_j1 ... w_ji ... w_jn_i w_n_j₁ . . . w_n_j_i . . . w_n_j_n_i





 x ∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

◦ ◦ ◦ ◦ ◦ y ∈R^S

W¹ W² W³ W^Λ−1 W^Λ

layer 1 layer 2 layerΛ−1

layerΛ

(17)

Le probl `eme

Rappel : on souhaite estimer f :

Apprentissage sur la base des poids de connexion entre neuronesW

→ Crit `ere

Crit ère des moindres carr és (d érivable) :

J(W) =

N

X

n=1

e(n)^Te(n) avec e(n) =

y(n)−y^d(n) Qu’on peut r ´e ´ecrire en sommant sur les sorties :

J(W) =

S

X

s=1 N

X

n=1

(es(n))²=

S

X

s=1

J(Ws) (1)

Aveces(n) = ys(n)−y_s^d(n)

(18)

Apprentissage(s) R éseau lin éaire à une couche

Plan

1 Introduction

Mise en œuvre

(19)

R éseau lin éaire à une couche (1)

Une couche de neurones avec une fonction d’activationϕ=identit ´e

poids :W={w_se}=





 W₁^T

... W_S^T





=







w11 . . . w_1E ... wse ... wS1 . . . wSE







Propagation 1 ex. sur une sortie :y_s(n) =W_s^Tx(n)

ys

=

ws1 . . . wsE

×





 x1

.. . xE







Propagation 1 ex. sur toutes les sorties :y(n) =Wx(n)





 y1

.. . yS







=







w11 . . . w1E

..

. wse

.. .

wS1 . . . wSE







×





 x1

.. . xE







PropagationNex. surSsortie :Y=WX







y d1(1) . . . . . . y d1(N) ..

. ..

. y ds(n) .. . y dS(1) . . . . . . y dS(N)







=







w11 . . . w1E

..

. wse

.. .

wS1 . . . wSE







×







x1(1) . . . . . . x1(N)

.. .

... xe(n) .. .

xE(1) . . . . . . xE(N)







(20)

R éseau lin éaire à une couche (2)

Calcul de l’erreur

Erreur sur une sortie pour 1 exemple :

e_s(n) =y_s^d(n)−W_s^Tx(n) Crit `ere :

J(W) =

S

X

s=1 N

X

n=1

y_s^d(n)−W_s^Tx(n)2

Apprentissage des poids ?

On a donc un probl ème lin éaire par rapport aux param ètresY=WX avec un crit ère des moindres carr és

→solution des moindres carr ´es ! Rappel :

SiY =XΘet queX^TX est inversible, alorsΘ_MC= (X^TX)⁻¹X^TY Attention: formulation l ég èrement diff érente

(21)

R éseau lin éaire à une couche (3)

SiY=WX, alorsY^T =X^TW^T ...

... qui est de la formeY =XΘ, en remplacantXetYpar leur transpos ´ees, etΘparW^T

En appliquant les MC, on obtientW^T_MC = (XX^T)⁻¹XY^T D’o `uW_MC =YX^T(X^TX)⁻¹

Conclusion

Apprentissage OK avec les MC, mais : Pas de non lin ´earit ´e = pas terrible Une seule couche = pas terrible

(X^TX) à inverser : potentiellement tr ès lourd (mais MC r écursifs possibles)

Introduction d’une fonctionϕnon lin ´eaire

(22)

Apprentissage(s) R éseau non lin éaire à une couche

Plan

1 Introduction

Mise en œuvre

(23)

R éseau non lin éaire à une couche (1)

Introduction d’une fonction ϕ non lin ´eaire

On a doncY=ϕ(WX), et les MC ne sont plus applicables

On va appliquer une m ´ethode de descente de gradient→rappels !

Algorithme it ératif : On choisit unW_t=0al éatoire Bonne direction = celle o ù le crit ère baisse

Avancer un peu, mais pas trop

W

t+1

← W

t

− η d J (W) dW

Wt

avec :

Wles param `etres ; η: le pas ; ^dJ_dW^(W) _W

t

: labonnedirection

(24)

R éseau non lin éaire à une couche (2)

Crit `ere

Pour un r éseau à une couche contenant une FNLϕ:y(n) =ϕ(Wx(n)) Le crit ère s’ écrit donc :

J(W) =

N

X

n=1

y^d(n)−ϕ(Wx(n))2

On d ´erive pour appliquer le gradient :W_t+1←W_t−η ^dJ_dW^(W) Wt

dJ(W)

dW = −2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×dϕ(Wx(n)) dW

= −2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×ϕ⁰(Wx(n))x(n)

(25)

R éseau non lin éaire à une couche (3)

Application du gradient dJ(W)

dW =−2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×ϕ⁰(Wx(n))x(n)

Deux cas de figure :

Si ϕ n’est pas d ´erivable (ex. heaviside) : c¸a ne marche pas !

Approximation lin éaire de la d ériv ée : algo adaline [Widrow & Hoff 1960]

dJ(W) dW =−2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×x(n)

Si ϕ est d ´erivable (ex. sigmo¨ıde, tanh) : c¸a marche !

Dans ce cas on applique la descente de gradient

Remarque : dans le cas d’une fonction identit ´e,ϕ⁰=1 : c¸a marche OK pour une couche, et pour plusieurs ?

(26)

Apprentissage(s) R ´eseaux multicouches

Plan

1 Introduction

Mise en œuvre

(27)

R ´eseaux multicouches (1)

C’est le perceptron multicouches (PMC ou MLP)

→Couches dites cach ´ees

FNLϕ, peuvent ˆetre6=suivant les couches

Exemple d’un r ´eseau `a deux couches

E entr ´ee,Ssorties,J neurones en couche cach ´ee

W¹∈R^J×Epoids entre lesx et la couche 1 W²∈R^S×J poids entre les couches 1 et 2 z(n)∈R^J : variable interm ´ediaire

ϕ¹: sigmo¨ıde ;ϕ²: softmax x(n)∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ y(n)∈R^S

z(n)

J =7 S=5

W¹={w_je} W²={w_sj}

W¹={wje}=







w11 . . . w_1E

wj1 . .. wjE

wJ1 . . . wJE





 W²={wsj}=







w11 . . . w_1J

ws1 . .. wsJ

wS1 . . . wSJ







(28)

R ´eseaux multicouches (2)

Propagation d’un exemple :

couche 1 : somme pond ´er ´eeα¹_j =P

ew_jex_e, puisz_j =ϕ¹ α¹_j) couche 2 : somme pond ´er ´eeα²_s =P

jwsjzj, puisys=ϕ² α²_s)

Apprentissage : R ´etropropagation du gradient [Rumelhart 86]

Initialiser lesW^λau hasard

1 Propager un exemplex(n)pour calculery(n)

2 Calculer l’erreur(y^d(n)−y(n))

3 R étropropager le crit èreJ = (y^d(n)−y(n))² à traversW2...

4 ... puis `a traversW₁

On passe tous les exemples de la base, et on it `ere tant qu’on n’est pas satisfait

(29)

R ´eseaux multicouches (3)

Chaque sortie s’ ´ecrit :

ys=ϕ²



 X

j

w_sjϕ¹ X

e

w_jexe

!



Doncle crit `ereJ =1/2P

s(y_s^d−ys)²d ´epend de(wje, ϕ¹,wsj, ϕ²).

Apprentissage de w

je

et w

sj

:

Descente de gradient :

w_{je t+1}←w_{je t}−η ∂J

∂w_je w_{je t}

et w_{sj t+1}←w_{sj t}−η ∂J

∂w_sj w_{sj t}

Probl ème : comment calculer les d ériv ées partielles du crit ère ?

(30)

R ´eseaux multicouches (3)

On commence par le calcul de : ∂J

∂w_sj

=

^∂J_∂y

s

×

_∂α^∂y^s₂

s

×

_∂w^∂α²^s

sj

∂J

∂y_s = ∂

∂y_s 1 2

S

X

s=1

(y_s^d−y_s)²=−(y_s^d−y_s)

∂y_s

∂α²_s = ∂

∂α²_sϕ²(α²_s) =ϕ²⁰(α²_s)

∂α²_s

∂w_sj = ∂

∂w_sj

J

X

j=1

w_sjz_j =z_j

Finalement : _∂w^∂J

sj

= −(y

_s^d

− y

s

) × ϕ

²⁰

(α

²_s

) × z

j

= Erreur

s

z

j

Cette quantit ´e repr ´esente l’erreur sur la sortiesdue au neuronej

(31)

R ´eseaux multicouches (4)

On enchaine avec le calcul de : ∂J

∂w_je

=

^∂J_∂z

j

×

_∂α^∂z^j₁

j

×

^∂α

1 j

∂w_je

∂J

∂zj

= X

s

∂J

∂α²s

×∂α²_s

∂zj

1er terme : rouge*vert du slide pr´ec´edent

= X

s



−(ys^d−ys)×ϕ²⁰(α²s)× ∂

∂zj

X

j

wsjzj



=−X

s

(y_s^d−ys)×ϕ²⁰(α²s)×wsj

∂zj

∂α¹_j = ∂

∂α¹_jϕ¹(α¹j)=ϕ¹⁰(α¹j) ∂α¹_j

∂wje

= ∂

∂wje

X

e

wjexe=xe

Finalement :

∂J

∂wje

= − P

s

(y

_s^d

− y

s

) × ϕ

²⁰

(α

²_s

) × w

sj

× ϕ

¹⁰

(α

¹_j

) × x

e

= Erreur

j

x

e

Cette quantit é repr ésente l’erreur sur le neuronej due à l’entr éee

(32)

R ´eseaux multicouches (5)

On r ´ecapitule :

Algorithm 1Backpropagation algorithm η←0.001

W1←rand(J,E) W2←rand(S,J)

while(erreurApp≤)do forn=1→Ndo

propagatex(n): computez(n)andy(n) computeError_S

W²←W²−η∗Error_S∗z(n) computeErreurJ

W¹←W¹−η∗ErrorJ∗x(n) end for

end while

(33)

R ´eseaux multicouches (5’)

On r ´ecapitule, en matlab :

(34)

R ´eseaux multicouches (6)

Remarques :

On peut sommer les erreurs sur toute la base et r ´etropropager une seule fois :

→modeBatch(plus rapide)

Question du pas ... 2 `eme ordre ? Cf. cours gradient

Quand stopper l’algorithme ? Attention au surapprentissage

(35)

R ´eseaux multicouches (7)

Dimensionnement

Combien de neurones par couches / Combien de couches ? Une seul couche suffit pour estimer n’importe quelle fonctionf, pourvu que :J → ∞etN → ∞[Lippman 87]

Solution : rajoutons des couches !

,Backprop g én éralisable avec plusieurs couches cach ées ,Fronti ères de d écision plus complexes

,Repr ´esentation de haut niveau des donn ´ees

/Mais l’ ´energie de l’erreur est trop faible pour modifier les couches basses

→ Deep learning !

(36)

Autres architectures Architectures profondes

Plan

1 Introduction

Mise en œuvre

(37)

SVM vs. Architectures profondes

1985 - 1995 : l’essor des r ´eseaux de neurones

Emergence de nombreuses applications industrielles : Reconnaissance d’ ´ecriture, de la parole, etc.

1995 - 2005 : La suppr ´ematie des Support Vector Machines

Classifieurs aux bases th ´eoriques fortes

Excellentes capacit és de g én éralisation, perf. à l’ état de l’art R éseaux de neurones = has been . . .

2006 - 20 ? ? : Le retour des r ´eseaux de neurones

Hinton, G. E., Osindero, S. and Teh, Y. A fast learning algorithm for deep belief nets. Neural Computation, 18, pp 1527-1554 (2006)

R ´eseaux de neurones profonds

Architectures connues, nouveaux algo d’apprentissage

Performances permettant d’envisager de nouvelles applications

(38)

Architectures profondes (1)

Principe

R ´eseau feedforward comportantΛcouches, avecΛ>2

W^λmatrice des poids entre couchesλ−1 etλ backprop insuffisante→comment faire ?

Apprentissage en deux temps

Apprentissage des couches dites basses, en non supervis ´e

I Utilisation des autoencodeurs

I Couches dites de mod `eles

Apprentissage des derni `eres couches en supervis ´e

I Backpropagation

I Couches dites de decision

x ∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

◦ ◦ ◦ ◦ ◦ y ∈R^S

W¹ W² W³ W^Λ−1 W^Λ

layer 1 layer 2 layerΛ−1

layerΛ

(39)

Architectures profondes (2)

Auto Associateurs (AA)

Un AA cherche à apprendre ses propres entr ées : on veuty^d =x Apprentissage d’un encodeure(x)et d’un d écodeurd((e(x)) R éseau à une couche cach éeeet une couche de sortied Crit ère :J = (ˆx−x)²= (d(e(x))−x)²

Si le nombre de neurones deeest

<E:

Compression, repr ´esentation parcimonieuse dex

x

◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

xˆ=d(e(x))

e d

(40)

Architectures profondes (3) : Apprentissage

pre-training

Apprendre un AA surx.

Gardere¹(x) =H¹, jeterd¹(e¹(x)) Apprendre un nouvel AA sure¹(x) Gardere²(e¹(x)) =H², jeterd² etc.

fine-tuning

d ´everrouiller tous lesH^λ rajouter une ou

plusieurs couches backpropagation sur l’ensemble du r ´eseau

(41)

Architectures profondes (4) : Exemple d’application

Apprentissage en trois ´etapes [4, 5] :

1 Pr éapprentissage des entr ées = repr ésentation des donn ées

2 Pr ´eapprentissage des sorties = app. des connaissances a priori

3 Fine tuning = apprentissage classique du lien entre entr ´ees et sorties

(42)

Autres architectures R ´eseaux r ´ecurrents

Plan

1 Introduction

Mise en œuvre

(43)

R ´eseaux de neurones et s ´equences

Comment traiter des S ´equences avec des r ´eseaux de neurones ?

Parole, ´ecriture, cours de la bourse, image (2D), etc.

Signaux de taillevariable→n ´ecessit ´e de classifieursdynamiques

1 `ere solution : r ´eseaux de neurones / classifieur dynamique

R ´eseaux de neurones / Hidden Markov Model

= classification locale / mod ´elisation de s ´equence

(44)

2 ème solution : R éseaux r écurrents (1)

Connexions r ´ecurrentes

Permet de prendre en compte le contexte

On calculey(n) à partir dex(n)ety(n−1)les sorties de l’observation pr éc édente

Question :

Comment apprendre les poids des connexions r ´ecurrentes ?

1 BackProp Through Time (BPTT)

2 Real Time Recurrent Learning (RTRL)

(45)

R ´eseaux r ´ecurrents (2)

Backpropagation Through Time (BPTT)

Id ée : d éplier le r éseauRpour l’approximer par un r éseau non r écurrentR^∗

Structure temporelle→structure spatiale surk pas

Les poids des connexions r écurrentes sont copi és et attribu és à des connexions non r écurrentes deR^∗.

Les copies des connexions poss èdent toutes la m ême pond ération.

Les premiers neurones rouges et bleus sont initialis ´es au hasard

(46)

R ´eseaux r ´ecurrents (3)

Backpropagation Through Time (BPTT), suite

Une fois d ´epli ´e, on applique une backprop classique

→k limit ´e = contexte limit ´e ...

(47)

R ´eseaux r ´ecurrents (4)

Real Time Recurrent Learning (RTRL) [Williams 1989]

La sortie du neuronej recoit :

tous lesx(t)de la couche pr éc édente pond ér és parw_je tous lesy(t−1)de sa couche pond ér és par deswjj⁰

yj(t) =ϕ





E

X

e=0

wjexe(t) +

J

X

j⁰=0

wjj⁰yj⁰(t−1)





RTRL : apprentissage

Crit `ereJ = (y_j^d−y_j)² Calcul des _∂w^∂J

sj

,

_∂w^∂J

je

et

_∂w^∂J

jj0 pour appliquer le gradientclassique deuxi `eme ordre possible

Complexit ´e importanteO(N⁴)

(48)

BLSTM

Bidirectionnal Long Short Term Memory

A. Graves and J. Schmidhuber. Offline handwriting recognition with multidimensional recurrent neural networks. NIPS, 2009

Mod élisation des d épendences à court/long terme Neurone formel complexe, avec un m écanisme de gate Apprentissage par BPTT

Ex. de Perf HWR : 83%→91%WER

(49)

BLSTM (2)

Utilisation en g ´en ´eration

D ´emohttp://www.cs.toronto.edu/˜graves/handwriting.html

(50)

Autres architectures R ´eseaux convolutionnels

Plan

1 Introduction

Mise en œuvre

(51)

Convolutionnal neural network (1)

R ´eseaux de neurones convolutionnels

Destin ´e `a traiter les images

M écanisme de poids partag és→moins de param ètres, meilleure g én éralisation

Apprentissage de filtres par backprop classique

(52)

Convolutionnal neural network (2)

(53)

Autres architectures L ´egos

Plan

1 Introduction

Mise en œuvre

(54)

Bibliographie

Combinaison d’architectures

(55)

R ´eseaux de neurones dans la pratique

Plan

1 Introduction

2 Principes g ´en ´eraux

3 Apprentissage(s)

4 Autres architectures

Mise en œuvre

(56)

R ´eseaux de neurones dans la pratique

Avantages et Inconv ´enients

Avantages

Un RdN approxime des probabilit és à posteriorip(C_i/x) Tr ès rapide en d écision

Supporte tr ès bien les grandes dimensions (E>qq centaines) Performances : architectures profondes à l’ état de l’art sur plusieurs probl èmes

Inconv ´enients

Param ´etrisation

Apprentissage long et parfois difficile à contr ôler (minimum locaux) N écessite bcp de donn ées

(57)

R ´eseaux de neurones dans la pratique Param ´etrisation

Param ´etrisation/choix du r ´eseau

Nombre de couches

Avec des caract ´eristiques : MLP avec 1 ou 2 couches

Sinon : Architecture profonde : Pas de caract éristiques à extraire,, mais plus d’hyperparam ètres/

Si besoin de rejet de distance : Radial Basis Function : neurones = gaussiennes

Si s équence : r éseau r écurrent ou MLP coupl é à classifieur dynamique

Nombre de neurones couches cach ´ees

Classique : moyenne g éom étrique ou arithm étique de (E,S) Avec des deep : + difficile, premi ère couche + grande queE

Fonction d’activation ϕ

fonction non lin ´eaire,tanh, sigmo¨ıde, c¸a ne change pas grand chose ...

(58)

R ´eseaux de neurones dans la pratique Param ´etrisation

Param ´etrisation/choix du r ´eseau

R ´eglage du pas (voir cours Gradient)

pas fixe : petit ( 10⁻², 10⁻³, 10⁻⁴, ...) pas adaptatif : diminue avec les it ´erations

line search : calcul du pas ”id éal” à chaque it ération

M éthode du deuxi ème ordre (gradient conjugu é), + de calculs

Les donn ´ees

Centr ´ees r ´eduites : c’est mieux

Taille de la base d’app : au moinsE² él éments par classe Attention aux bases non balanc ées. Solutions :

I Compenser les proba a posteriorip(Ci/x)par 1/p(Ci)avecp(Ci) probabilit ´e `a priori de la la classeCi:Marche pas

I Echantillonner les donn ées des classes sur-repr ésent ées´

I Dupliquer les échantillons sous-repr ésent é

I Pendant l’apprentissage, pond ´erer les erreurs des exemples par 1/p(Ci)

(59)

R ´eseaux de neurones dans la pratique Mise en œuvre

Mise en œuvre

∃ de nombreuses librairies :

Torch3 (C++) / Torch5 (lua) (NEC)http://www.torch.ch/, http://torch5.sourceforge.net/

pybrain (python, TUM Munich)http://pybrain.org/

Theano (python, Montreal)

http://deeplearning.net/software/theano/

Caffe (Berkeley)http://caffe.berkeleyvision.org/

TensorFlow (Google)https://www.tensorflow.org/versions/

master/get_started/index.html

Exercice :

Coder en matlab/octave un MLP à 1 couche cach ée, sans librairie Tester les hyperparam ètres :η; nb d’it ération, nb de neurones dans la couche cach ée, etc.

Base ? MNIST

(60)

R ´eseaux de neurones dans la pratique Mise en œuvre

Bibliographie

F. Rosenblatt. Principles of Neurodynamics. New York : Spartan, 1962.

C.M. Bishop. Neural networks for pattern recognition, Oxford : Oxford University Press, 1995.

D.E. Rumelhart, G.E. Hinton and R.J. Williams. Learning internal representations by error propagation. Parallel Distributed Processing Explorations in the Microstructure of Cognition. MIT Press, Bradford Books, vol. 1, pp. 318-362, 1986.

J. Lerouge, R. Herault, C. Chatelain, F. Jardin, and R. Modzelewski,

”Ioda : an input output deep architecture for image labeling”, Pattern recognition, vol. 48, iss. 9, p. 2847-2858, 2015.

Soufiane Belharbi, Cl ément Chatelain, Romain H érault, S ébastien Adam : Input/Output Deep Architecture for Structured Output Problems.

CoRR abs/1504.07550 (2015)